ROBUSTE GRADIENTEN-GEWICHTSKOMPRIMIERUNGSSCHEMATA FÜR DEEP-LEARNING-ANWENDUNGEN

    公开(公告)号:DE112018006189T5

    公开(公告)日:2020-09-03

    申请号:DE112018006189

    申请日:2018-11-30

    Applicant: IBM

    Abstract: Ausführungsformen der vorliegenden Erfindung stellen ein auf einem Computer ausgeführtes Verfahren zum adaptiven Komprimieren von Restgradienten zum Trainieren eines auf Deep-Learning beruhenden neuronalen Netzes (DNN) bereit. Das Verfahren umfasst ein Erhalten, durch einen ersten Lerner, eines aktuellen Gradientenvektors für eine neuronale Netzschicht des DNN, wobei der aktuelle Gradientenvektor Gradientengewichte von Parametern der neuronalen Netzschicht enthält, die aus einer kleinen Teilmenge von Trainingsdaten berechnet werden. Es wird ein aktueller Residuenvektor erzeugt, der Restgradientengewichte für die kleine Teilmenge enthält. Es wird ein komprimierter aktueller Residuenvektor auf der Grundlage eines Aufteilens der Restgradientengewichte des aktuellen Residuenvektors in eine Mehrzahl von Intervallen einer einheitlichen Größe und eines Quantisierens einer Untermenge der Restgradientengewichte eines oder mehrerer Intervalle aus der Mehrzahl von Intervallen erzeugt. Der komprimierte aktuelle Residuenvektor wird dann an einen zweiten Lerner aus der Mehrzahl von Lernern oder an einen Parameter-Server übermittelt.

    ERWEITERTES FORMATIEREN VON BINÄREN GLEITKOMMAZAHLEN MIT GERINGERER GENAUIGKEIT

    公开(公告)号:DE112019001799T5

    公开(公告)日:2021-01-21

    申请号:DE112019001799

    申请日:2019-05-30

    Applicant: IBM

    Abstract: Techniken zum Ausführen von Operationen an und Berechnen von binären Gleitkommazahlen mit einem erweiterten Gleitkomma-Zahlenformat werden vorgestellt. Das erweiterte Format kann ein einziges Vorzeichenbit, sechs Bits für den Exponenten und neun Bits für den Bruchteil aufweisen. Durch die Verwendung von sechs Bits für den Exponenten kann ein erweiterter Exponentenbereich bereitgestellt werden, der wünschenswerterweise die schnelle Konvergenz von rechenintensiven Algorithmen und geringe Fehlerraten für rechenintensive Anwendungen ermöglicht. Das erweiterte Format kann eine festgelegte Definition für die niedrigste Binade verwenden, damit die niedrigste Binade für Null und normale Zahlen verwendet werden kann; und eine festgelegte Definition für die höchste Binade, damit diese strukturiert werden kann, um einen Datenpunkt zu haben, der für ein zusammengeführtes Nichtzahl-(NaN)/Unendlich-Symbol verwendet werden kann, sowie übrige Datenpunkte, die für endliche Zahlen verwendet werden. Die Vorzeichen von Null und die zusammengeführte NaN/Unendlich können „Don't-care“-Terme sein. Das erweiterte Format verwendet nur einen Rundungsmodus zum Aufrunden auf die nächste Stelle.

Patent Agency Ranking