-
公开(公告)号:DE102018110719A1
公开(公告)日:2018-11-08
申请号:DE102018110719
申请日:2018-05-04
Applicant: INTEL CORP
Inventor: SRIDHARAN SRINIVAS , VAIDYANATHAN KARTHIKEYAN , DAS DIPANKAR
Abstract: Eine Ausführungsform stellt ein System bereit, um Daten für ein verteiltes Training eines neuronalen Netzwerks zu berechnen und zu verteilen, wobei das System einen ersten Speicher zum Speichern eines ersten Satzes von Anweisungen, der ein Maschinenlern-Framework aufweist; eine Fabric-Schnittstelle, um die Übertragung und den Empfang von Daten zu ermöglichen, die dem Satz trainierbarer Maschinenlernparameter zugeordnet sind; einen ersten Satz von Universalprozessorkernen zum Ausführen des ersten Satzes von Anweisungen, wobei der erste Satz von Anweisungen einen Trainingsarbeitsablauf zur Berechnung von Gradienten für die trainierbaren Maschinenlernparameter bereitstellt und mit einem zweiten Satz von Anweisungen kommuniziert, wobei der zweite Satz von Anweisungen die Übertragung und den Empfang der Gradienten über die Fabric-Schnittstelle ermöglicht; und einen Grafikprozessor zum Ausführen von Rechenoperationen, die dem Trainingsarbeitsablauf zugeordnet sind, um die Gradienten für die trainierbaren Maschinenlernparameter zu generieren, aufweist.
-
公开(公告)号:DE102020120372A1
公开(公告)日:2021-03-11
申请号:DE102020120372
申请日:2020-08-03
Applicant: INTEL CORP
Inventor: MELLEMPUDI NAVEEN , DAS DIPANKAR , MEI CHUNHUI , WONG KRISTOPHER , KALAMKAR DHIRAJ D , JIANG HONG H , MAIYURAN SUBRAMANIAM , GEORGE VARGHESE
Abstract: Es wird eine Vorrichtung zum Erleichtern einer Computer-Zahlenformatwandlung offenbart. Die Vorrichtung umfasst eine Steuereinheit zum Empfangen von Datenformatinformationen, die ein Datenformat erster Genauigkeit, worin Eingangsdaten zu empfangen sind, angeben, und Wandlerhardware zum Empfangen der Eingangsdaten und zum Wandeln des Datenformats erster Genauigkeit in ein Datenformat zweiter Genauigkeit auf der Grundlage der Datenformatinformationen.
-
公开(公告)号:DE102021122222A1
公开(公告)日:2022-04-14
申请号:DE102021122222
申请日:2021-08-27
Applicant: INTEL CORP
Inventor: MALLIK DEBENDRA , MAHAJAN RAVINDRANATH V , DAS DIPANKAR
IPC: H01L25/065 , G02B6/42 , H01L23/538
Abstract: Ein Prozessor-Package-Modul umfasst einen Prozessor-Speicher-Stapel umfassend einen oder mehrere Rechen-Dies, die mit einem Speicherstapel auf einem Substrat gestapelt und verbunden sind. Einen oder mehrere photonische Dies auf dem Substrat zum Senden und Empfangen von optischem I/O, wobei der eine oder die mehreren photonischen Dies mit dem Prozessor-Speicher-Stapel verbunden sind und mit externen Komponenten über ein Faserarray verbunden sind. Das Substrat ist in ein Sockelgehäuse, z. B. einen LGA-Sockel (Land Grid Array), befestigt. Auf einem Prozessorsubstrat werden ein Array von Prozessor-Package-Modulen über Faserarrays und optische Verbinder verbunden, um einen Prozessorchipkomplex zu bilden.
-
公开(公告)号:DE102018133018A1
公开(公告)日:2019-07-25
申请号:DE102018133018
申请日:2018-12-20
Applicant: INTEL CORP
Inventor: HEINECKE ALEXANDER , DAS DIPANKAR , VALENTINE ROBERT , CHARNEY MARK
IPC: G06F9/38
Abstract: Eine Vorrichtung und ein Verfahren zum Durchführen von Multiplikationsakkumulationsoperationen. Beispielsweise umfasst eine Ausführungsform eines Prozessors: einen Decoder zum Decodieren von Befehlen; ein erstes Quellregister zum Speichern einer ersten Mehrzahl von gepackten Bytes; ein zweites Quellregister zum Speichern einer zweiten Mehrzahl von gepackten Bytes; ein drittes Quellregister zum Speichern einer Mehrzahl von gepackten Doppelwörtern; Ausführungsschaltungen zum Ausführen eines ersten Befehls, die Ausführungsschaltungen umfassend: Erweiterungsschaltungen zum Durchführen einer Vorzeichenerweiterung oder Nullerweiterung der ersten und der zweiten Mehrzahl von gepackten Bytes, um eine erste und eine zweite Mehrzahl von Wörtern zu generieren, die der ersten und der zweiten Mehrzahl von gepackten Bytes entsprechen; Multiplizierschaltungen zum Multiplizieren von jedem der ersten Mehrzahl von Wörtern mit einem entsprechenden der zweiten Mehrzahl von Wörtern, um eine Mehrzahl von temporären Produkten zu generieren; Addierschaltungen zum Addieren von wenigstens einem ersten Satz der temporären Produkte, um eine erste temporäre Summe zu generieren; Akkumulationsschaltungen zum Kombinieren der ersten temporären Summe mit einem ersten gepackten Doppelwortwert von einem ersten Doppelwortort im dritten Quellregister, um ein erstes akkumuliertes Doppelwortergebnis zu generieren; ein Zielregister zum Speichern des ersten akkumulierten Doppelwortergebnisses am ersten Doppelwortort.
-
5.
公开(公告)号:DE102018131842A1
公开(公告)日:2019-07-25
申请号:DE102018131842
申请日:2018-12-12
Applicant: INTEL CORP
Inventor: HEINECKE ALEXANDER , DAS DIPANKAR , VALENTINE ROBERT , CHARNEY MARK
IPC: G06F9/30
Abstract: Eine Einrichtung und ein Verfahren zum Durchführen von Multiply-Accumulate-Operationen. Zum Beispiel umfasst eine Ausführungsform eines Prozessors: einen Decoder zum Decodieren von Befehlen; ein erstes Quellregister zum Speichern einer ersten Vielzahl von gepackten Wörtern; ein zweites Quellregister zum Speichern einer zweiten Vielzahl von gepackten Wörtern; ein drittes Quellregister zum Speichern einer Vielzahl von gepackten Quadwörtern; eine Ausführungsschaltung zum Ausführen eines ersten Befehls, die Ausführungsschaltung umfassend: eine Erweiterungsschaltung zum Vorzeichenerweitern oder Nullerweitern der ersten und zweiten Vielzahl von gepackten Wörtern, um eine erste und zweite Vielzahl von Doppelwörtern entsprechend der ersten und zweiten Vielzahl von gepackten Wörtern zu erzeugen; eine Multipliziererschaltung zum Multiplizieren von jedem der ersten Vielzahl von Doppelwörtern mit einem entsprechenden der zweiten Vielzahl von Doppelwörtern, um eine Vielzahl von temporären Produkten zu erzeugen; eine Addiererschaltung zum Addieren von zumindest einem ersten Satz der temporären Produkte, um eine erste temporäre Summe zu erzeugen; eine Akkumulationsschaltung zum Kombinieren der ersten temporären Summe mit einem ersten gepackten Quadwort-Wert von einem ersten Quadwort-Ort in dem dritten Quellregister, um ein erstes akkumuliertes Quadwort-Ergebnis zu erzeugen; ein Zielregister zum Speichern des ersten akkumulierten Quadwort-Ergebnisses in dem ersten Quadwort-Ort.
-
公开(公告)号:PL3407183T3
公开(公告)日:2022-06-20
申请号:PL18170154
申请日:2018-04-30
Applicant: INTEL CORP
Inventor: DAS DIPANKAR , GRAMUNT ROGER , SMELYANSKIY MIKHAIL , CORBAL JESUS , MUDIGERE DHEEVATSA , MELLEMPUDI NAVEEN K , HEINECKE ALEXANDER F
IPC: G06F9/30
-
公开(公告)号:DE102018110687A1
公开(公告)日:2018-11-08
申请号:DE102018110687
申请日:2018-05-04
Applicant: INTEL CORP
Inventor: MELLEMPUDI NAVEEN K , MUDIGERE DHEEVATSA , DAS DIPANKAR , SRIDHARAN SRINIVAS
IPC: G06F7/00
Abstract: Eine Ausführungsform stellt eine Grafikverarbeitungseinheit zum Ausführen von Berechnungen bereit, die einem neuronalen Netzwerk zugeordnet sind, wobei die Grafikverarbeitungseinheit eine Recheneinheit, die eine Hardware-Logikeinheit mit dynamischer Genauigkeitsfestkommalogik aufweist; eine Decodiereinheit zum Decodieren einer Anweisung zur Ausführung durch die Recheneinheit, wobei die Anweisung bewirkt, dass die Recheneinheit eine arithmetische Matrixoperation an einem Satz von dynamischen Festkommatensoren ausführt; und einen dynamischen Genauigkeitsmanager zum dynamischen Einstellen der Genauigkeit einer Rechenoperation umfasst, die von der Recheneinheit während der arithmetischen Matrixoperation ausgeführt wird, wobei der dynamische Genauigkeitsmanager die Genauigkeit der Rechenoperation einstellt, um einen arithmetischen Überlauf zu verhindern.
-
公开(公告)号:ES2914299T3
公开(公告)日:2022-06-09
申请号:ES18170154
申请日:2018-04-30
Applicant: INTEL CORP
Inventor: DAS DIPANKAR , GRAMUNT ROGER , SMELYANSKIY MIKHAIL , CORBAL JESUS , MUDIGERE DHEEVATSA , MELLEMPUDI NAVEEN K , HEINECKE ALEXANDER F
IPC: G06F9/30
Abstract: Un aparato de cómputo para realizar operaciones de aprendizaje automático, comprendiendo el aparato de cómputo: una unidad de extracción dispuesta para extraer (742) una única instrucción que tiene múltiples operandos de entrada, en donde los múltiples operandos de entrada tienen una longitud en bits desigual, teniendo un primer operando de entrada una primera longitud en bits y teniendo un segundo operando de entrada una segunda longitud en bits; una unidad de descodificación dispuesta para descodificar (744) la única instrucción en una instrucción descodificada; una unidad de longitud de operando para determinar (744) la longitud en bits más pequeña de la primera longitud en bits y la segunda longitud en bits; y una unidad de cómputo dispuesta para realizar (746) una operación matricial sobre los múltiples operandos de entrada para generar un valor de salida que tiene una longitud en bits igual a la longitud en bits más pequeña, en donde la unidad de cómputo está dispuesta adicionalmente para: determinar si una operación de multiplicación de la operación matricial tiene una entrada cero; y sortear la operación de multiplicación que tiene la entrada cero.
-
公开(公告)号:DE102020130865A1
公开(公告)日:2021-06-24
申请号:DE102020130865
申请日:2020-11-23
Applicant: INTEL CORP
Inventor: PAL SUPRATIM , AVANCHA SASIKANTH , BHATI ISHWAR , CHEN WEI-YU , DAS DIPANKAR , GARG ASHUTOSH , GURRAM CHANDRA S , GU JUNJIE , LUEH GUEI-YUAN , MAIYURAN SUBRAMANIAM , PARRA JORGE E , SRINIVASAN SUDARSHAN , GEORGE VARGHESE
IPC: G06F9/30
Abstract: Hier beschriebene Ausführungsformen stellen eine Anweisung und verknüpfte Logik bereit, um Vektor-Multiplikation-Addition-Anweisungen mit automatischer Null-Auslassung (Zero-Skipping) für dünn besetzte Eingaben zu ermöglichen. Eine Ausführungsform sieht einen Universal-Grafikprozessor vor, der Logik zum Durchführen von Operationen umfasst, umfassend das Abrufen einer Hardware-Makroanweisung mit einer Prädikatmaske, einer Wiederholungszählung und einem Satz von Anfangsoperanden, wobei die Anfangsoperanden einen Zieloperanden und mehrere Quelloperanden beinhalten. Die Hardware-Makroanweisung ist dafür ausgelegt, eine oder mehrere Multiplizier-/Addieroperationen an Eingabedaten durchzuführen, die mit einem Satz von Matrizen verknüpft sind.
-
-
-
-
-
-
-
-