-
公开(公告)号:DE112020004031T5
公开(公告)日:2022-05-19
申请号:DE112020004031
申请日:2020-07-17
Applicant: IBM
IPC: G06N3/04
Abstract: Ein faltendes neuronales Netz enthält eine Eingangsschicht, eine Ausgangsschicht und eine Mehrzahl von sonstigen Schichten, die zwischen der vorderen und der Ausgangsschicht verbunden sind. Bei einer der sonstigen Schichten handelt es sich um eine Übergangsschicht. Eine erste Präzision wird Aktivierungen von Neuronen von der Eingangsschicht zurück zu der Übergangsschicht zugewiesen, und eine zweite Präzision wird Aktivierungen der Neuronen von der Übergangsschicht zurück zu der Ausgangsschicht zugewiesen. Eine dritte Präzision wird Gewichtungen von Eingaben in Neuronen von der Eingangsschicht zurück zu der Übergangsschicht zugewiesen, und eine vierte Präzision wird Gewichtungen von Eingaben in die Neuronen von der Übergangsschicht zurück zu der Ausgangsschicht zugewiesen. Bei einigen Ausführungsformen weisen die Schichten vor der Übergangsschicht einen anderen Faltungs-Kernel als die Schichten hinter der Übergangsschicht auf.
-
公开(公告)号:DE112018005205T5
公开(公告)日:2020-07-02
申请号:DE112018005205
申请日:2018-11-30
Applicant: IBM
Inventor: CHOI JUNGWOOK , NARAYANAN PRITISH , CHEN CHIA-YU , GOPALAKRISHNAN KAILASH , GUPTA SUYOG
IPC: G06N3/08
Abstract: Ein System mit einem Hauptspeicher, in dem durch einen Computer ausführbare Komponenten gespeichert sind, und einem Prozessor, der die durch einen Computer ausführbaren Komponenten ausführt, verringert die Datengröße im Zusammenhang mit einem Trainieren eines neuronalen Netzes durch Ausnutzung einer räumlichen Lokalität zu Gewichtsmatrizen und Erwirken von Frequenztransformation und Komprimierung. Eine Empfangskomponente empfängt Daten des neuronalen Netzes in Form einer komprimierten Frequenzbereichs-Gewichtsmatrix. Eine Segmentierungskomponente segmentiert die Ausgangsgewichtsmatrix in ursprüngliche Teilkomponenten, wobei jeweilige ursprüngliche Teilkomponenten räumliche Gewichte aufweisen. Eine Abtastkomponente wendet eine verallgemeinerte Gewichtsverteilung auf die jeweiligen ursprünglichen Teilkomponenten an, um jeweilige normalisierte Teilkomponenten zu erzeugen. Eine Transformationskomponente wendet eine Transformation auf die jeweiligen normalisierten Teilkomponenten an. Eine Beschneidungskomponente abschneidet hochfrequente Gewichte der jeweiligen transformierten normalisierten Teilkomponenten, um einen Satz von niederfrequenten normalisierten Teilkomponenten hervorzubringen, um eine komprimierte Darstellung der ursprünglichen Teilkomponenten zu erzeugen.
-
公开(公告)号:DE112020003600T5
公开(公告)日:2022-04-14
申请号:DE112020003600
申请日:2020-08-17
Applicant: IBM
Inventor: SUN XIAO , CHOI JUNGWOOK , WANG NAIGANG , CHEN CHIA-YU , GOPALAKRISHNAN KAILASH
IPC: G06N3/08
Abstract: Eine Vorrichtung zum Trainieren und Folgern eines neuronalen Netzes enthält Schalttechnik, die so konfiguriert ist, dass sie eine erste Gewichtung mit einem ersten Format, das eine erste Anzahl von Bits enthält, zumindest teilweise auf Grundlage einer zweiten Gewichtung mit einem zweiten Format, das eine zweite Anzahl von Bits enthält, und eines Rests mit einem dritten Format, das eine dritte Anzahl von Bits enthält, erzeugt. Die zweite Anzahl von Bits und die dritte Anzahl von Bits sind jeweils kleiner als die erste Anzahl von Bits. Die Schalttechnik ist ferner so konfiguriert, dass sie die zweite Gewichtung zumindest teilweise auf Grundlage der ersten Gewichtung aktualisiert und den Rest zumindest teilweise auf Grundlage der aktualisierten zweiten Gewichtung und der ersten Gewichtung aktualisiert. Die Schalttechnik ist ferner so konfiguriert, dass sie die erste Gewichtung zumindest teilweise auf Grundlage der aktualisierten zweiten Gewichtung und des aktualisierten Rests aktualisiert.
-
公开(公告)号:DE112018006189T5
公开(公告)日:2020-09-03
申请号:DE112018006189
申请日:2018-11-30
Applicant: IBM
Inventor: CHEN CHIA-YU , AGRAWAL ANKUR , BRAND DANIEL , GOPALAKRISHNAN KAILASH , CHOI JUNGWOOK
IPC: G06N3/08
Abstract: Ausführungsformen der vorliegenden Erfindung stellen ein auf einem Computer ausgeführtes Verfahren zum adaptiven Komprimieren von Restgradienten zum Trainieren eines auf Deep-Learning beruhenden neuronalen Netzes (DNN) bereit. Das Verfahren umfasst ein Erhalten, durch einen ersten Lerner, eines aktuellen Gradientenvektors für eine neuronale Netzschicht des DNN, wobei der aktuelle Gradientenvektor Gradientengewichte von Parametern der neuronalen Netzschicht enthält, die aus einer kleinen Teilmenge von Trainingsdaten berechnet werden. Es wird ein aktueller Residuenvektor erzeugt, der Restgradientengewichte für die kleine Teilmenge enthält. Es wird ein komprimierter aktueller Residuenvektor auf der Grundlage eines Aufteilens der Restgradientengewichte des aktuellen Residuenvektors in eine Mehrzahl von Intervallen einer einheitlichen Größe und eines Quantisierens einer Untermenge der Restgradientengewichte eines oder mehrerer Intervalle aus der Mehrzahl von Intervallen erzeugt. Der komprimierte aktuelle Residuenvektor wird dann an einen zweiten Lerner aus der Mehrzahl von Lernern oder an einen Parameter-Server übermittelt.
-
公开(公告)号:DE112018004693T5
公开(公告)日:2020-06-18
申请号:DE112018004693
申请日:2018-10-04
Applicant: IBM
Inventor: WANG ZHUO , CHOI JUNGWOOK , GOPALAKRISHNAN KAILASH , VENKATARAMANI SWAGATH , SAKR CHARBEL
IPC: G06N3/08
Abstract: Es werden Techniken beschrieben, die ein Verbessern einer Effizienz eines neuronalen Netzes erleichtern. Bei einer Ausführungsform wird ein System bereitgestellt, das einen Speicher, der durch einen Computer ausführbare Komponenten speichert, und einen Prozessor aufweist, der in dem Speicher gespeicherte, durch einen Computer ausführbare Komponenten ausführt. Bei einer Implementierung weisen die durch einen Computer ausführbaren Komponenten eine Initialisierungskomponente auf, die einen Anfangswert eines Ausgabegrenzwerts auswählt, wobei der Ausgabegrenzwert einen Bereich für eine Ausgabe einer Aktivierungsfunktion eines neuronalen Netzes angibt. Die durch einen Computer ausführbaren Komponenten weisen des Weiteren eine Trainings-Komponente auf, die den Anfangswert des Ausgabegrenzwerts während eines Trainings in einen zweiten Wert des Ausgabegrenzwerts modifiziert, wobei der zweite Wert des Ausgabegrenzwerts der Aktivierungsfunktion als Parameter bereitgestellt wird. Die durch einen Computer ausführbaren Komponenten weisen des Weiteren eine Aktivierungsfunktionskomponente auf, die die Ausgabe der Aktivierungsfunktion auf Grundlage des zweiten Werts des Ausgabegrenzwerts als Parameter ermittelt.
-
-
-
-