-
公开(公告)号:DE112018006189T5
公开(公告)日:2020-09-03
申请号:DE112018006189
申请日:2018-11-30
Applicant: IBM
Inventor: CHEN CHIA-YU , AGRAWAL ANKUR , BRAND DANIEL , GOPALAKRISHNAN KAILASH , CHOI JUNGWOOK
IPC: G06N3/08
Abstract: Ausführungsformen der vorliegenden Erfindung stellen ein auf einem Computer ausgeführtes Verfahren zum adaptiven Komprimieren von Restgradienten zum Trainieren eines auf Deep-Learning beruhenden neuronalen Netzes (DNN) bereit. Das Verfahren umfasst ein Erhalten, durch einen ersten Lerner, eines aktuellen Gradientenvektors für eine neuronale Netzschicht des DNN, wobei der aktuelle Gradientenvektor Gradientengewichte von Parametern der neuronalen Netzschicht enthält, die aus einer kleinen Teilmenge von Trainingsdaten berechnet werden. Es wird ein aktueller Residuenvektor erzeugt, der Restgradientengewichte für die kleine Teilmenge enthält. Es wird ein komprimierter aktueller Residuenvektor auf der Grundlage eines Aufteilens der Restgradientengewichte des aktuellen Residuenvektors in eine Mehrzahl von Intervallen einer einheitlichen Größe und eines Quantisierens einer Untermenge der Restgradientengewichte eines oder mehrerer Intervalle aus der Mehrzahl von Intervallen erzeugt. Der komprimierte aktuelle Residuenvektor wird dann an einen zweiten Lerner aus der Mehrzahl von Lernern oder an einen Parameter-Server übermittelt.
-
公开(公告)号:DE112019001799T5
公开(公告)日:2021-01-21
申请号:DE112019001799
申请日:2019-05-30
Applicant: IBM
Inventor: MUELLER SILVIA MELITTA , AGRAWAL ANKUR , FLEISCHER BRUCE , GOPALAKRISHNAN KAILASH , LEE DONGSOO
IPC: G06F7/483
Abstract: Techniken zum Ausführen von Operationen an und Berechnen von binären Gleitkommazahlen mit einem erweiterten Gleitkomma-Zahlenformat werden vorgestellt. Das erweiterte Format kann ein einziges Vorzeichenbit, sechs Bits für den Exponenten und neun Bits für den Bruchteil aufweisen. Durch die Verwendung von sechs Bits für den Exponenten kann ein erweiterter Exponentenbereich bereitgestellt werden, der wünschenswerterweise die schnelle Konvergenz von rechenintensiven Algorithmen und geringe Fehlerraten für rechenintensive Anwendungen ermöglicht. Das erweiterte Format kann eine festgelegte Definition für die niedrigste Binade verwenden, damit die niedrigste Binade für Null und normale Zahlen verwendet werden kann; und eine festgelegte Definition für die höchste Binade, damit diese strukturiert werden kann, um einen Datenpunkt zu haben, der für ein zusammengeführtes Nichtzahl-(NaN)/Unendlich-Symbol verwendet werden kann, sowie übrige Datenpunkte, die für endliche Zahlen verwendet werden. Die Vorzeichen von Null und die zusammengeführte NaN/Unendlich können „Don't-care“-Terme sein. Das erweiterte Format verwendet nur einen Rundungsmodus zum Aufrunden auf die nächste Stelle.
-