Abstract:
Die Offenbarung betrifft eine Bruchteil-Bit-Netzquantisierung und den Einsatz von CNN-Modellen. Ein KI-Beschleuniger, der Folgendes beinhaltet: einen Eingabepuffer, der dazu konfiguriert ist, ein Eingabebild zu puffern; einen Gewichstpuffer, der dazu konfiguriert ist, Faltungskernindices für eine Faltungsschicht eines CNN-Modells zu puffern; einen Kernmusterpuffer, der dazu konfiguriert ist, eine 1-Bit-Faltungskern-Teilmenge für die Faltungsschicht des CNN-Modells zu puffern, wobei die 1-Bit-Faltungskern-Teilmenge 2τ1-Bit-Faltungskerne mit einer Größe von K × K beinhaltet; ein PE-Array, das einen oder mehrere PE-Knoten beinhaltet, von denen jeder dazu konfiguriert ist, Faltungsergebnisse eines Bildgebiets des Eingabebildes und der 1-Bit-Faltungskerne, die den Faltungskernindices in der 1-Bit-Faltungskern-Teilmenge entsprechen, zu erzeugen; und einen Ausgabepuffer, der dazu konfiguriert ist, Faltungsergebnisse jeweiliger Bildgebiete des Eingabebildes und die 1-Bit-Faltungskerne, die den Faltungskernindices entsprechen, zu puffern.