-
公开(公告)号:DE102014003795A1
公开(公告)日:2014-09-18
申请号:DE102014003795
申请日:2014-03-17
Applicant: INTEL CORP
Inventor: LOKTYUKHIN MAXIM , VALENTINE ROBERT , HORN JULIAN C , CHARNEY MARK J
IPC: G06F9/22
Abstract: Es werden V erfahren und Vorrichtungen für Fusionsbefehle zur Bereitstellung der OR-Test- und AND-Test-Funktionalität auf mehreren Testquellen offengelegt. Einige Ausführungsformen beinhalten Holbefehle, wobei diese Befehle einen ersten Befehl, der ein erstes Ziel des Operanden angibt, einen zweiten Befehl, der eine zweite Quelle des Operanden angibt und einen dritten Befehl, der eine Verzweigungsbedingung angibt, beinhalten. Ein Teil der Vielzahl von Befehlen ist zu einer einzigen Mikro-Operation fusioniert, wobei dieser Teil sowohl den ersten als auch den zweiten Befehl umfasst, wenn das erste Operandenziel und die zweite Operandenquelle gleich sind, und die Verzweigungsbedingung vom zweiten Befehl abhängt. Einige Ausführungsformen generieren einen neuen Testbefehl dynamisch, indem sie einen logischen Befehl mit einem dem Stand der Technik entsprechenden Befehl fusionieren. Andere Ausführungsformen generieren den neuartigen Testbefehl über einen Just-In-Time-Compiler. Einige Ausführungsformen fusionieren zudem den neuartigen Testbefehl mit einem nachfolgenden bedingten Verzweigungsbefehl und führen eine Verzweigung gemäß dem gesetzten Merker durch.
-
52.
公开(公告)号:DK3822774T3
公开(公告)日:2025-02-24
申请号:DK20216494
申请日:2019-10-08
Applicant: INTEL CORP
Inventor: HEINECKE ALEXANDER F , VALENTINE ROBERT , CHARNEY MARK J , SADE RAANAN , ADELMAN MENACHEM , SPERBER ZEEV , GRADSTEIN AMIT , RUBANOVICH SIMON
IPC: G06F9/30
-
公开(公告)号:ES2997191T3
公开(公告)日:2025-02-14
申请号:ES21217772
申请日:2019-10-08
Applicant: INTEL CORP
Inventor: HEINECKE ALEXANDER F , VALENTINE ROBERT , CHARNEY MARK J , SADE RAANAN , ADELMAN MENACHEM , SPERBER ZEEV , GRADSTEIN AMIT , RUBANOVICH SIMON
IPC: G06F9/30
Abstract: Las realizaciones descritas se refieren al cálculo de productos de puntos de nibbles en operandos de mosaico. En un ejemplo, una unidad de procesamiento comprende: circuitos de búsqueda para buscar una instrucción; circuitos de decodificación para decodificar la instrucción; y circuitos de ejecución acoplados con los circuitos de decodificación, los circuitos de ejecución para realizar operaciones correspondientes a la instrucción. La instrucción tiene un código de operación, un primer campo para especificar una primera ubicación de almacenamiento de una pluralidad de elementos de datos correspondientes a una primera matriz que tiene M filas por N columnas de elementos de datos de punto flotante de precisión simple de 32 bits, un segundo campo para especificar una segunda ubicación de almacenamiento de una pluralidad de elementos de datos correspondientes a una segunda matriz que tiene M filas por K columnas de elementos de datos de punto flotante de 16 bits que tienen un formato bfloat16, y un tercer campo para especificar una tercera ubicación de almacenamiento de una pluralidad de elementos de datos correspondientes a una tercera matriz que tiene K filas por N columnas de elementos de datos de punto flotante de 16 bits que tienen el formato bfloat16. El circuito de ejecución consiste en realizar operaciones correspondientes a la instrucción de, para cada fila m de las M filas de la segunda matriz, y para cada columna n de las N columnas de la tercera matriz: generar un producto escalar a partir de K elementos de datos de punto flotante de 16 bits correspondientes a la fila m de la segunda matriz y K elementos de datos de punto flotante de 16 bits correspondientes a la columna n de la tercera matriz; acumular el producto escalar con un elemento de datos de punto flotante de precisión simple de 32 bits correspondiente a una fila m de las M filas, y correspondiente a una columna n de las N columnas, de la primera matriz para generar un elemento de datos de punto flotante de precisión simple de 32 bits resultante; y almacenar el elemento de datos de punto flotante de precisión simple de 32 bits resultante en una posición de la primera ubicación de almacenamiento correspondiente a la fila m y la columna n de la primera matriz. (Traducción automática con Google Translate, sin valor legal)
-
公开(公告)号:DE112020001586T5
公开(公告)日:2022-03-03
申请号:DE112020001586
申请日:2020-03-18
Applicant: INTEL CORP
Inventor: JAMBUR SATHYANARAYANA KRISHNAMURTHY , VALENTINE ROBERT , GENDLER ALEXANDER , ZOBEL SHMUEL , BERGER GAVRI , STEINER IAN M , GUPTA NIKHIL , HADAS EYAL , HACHAMO EDO , SUBRAMANIAN SUMESH
IPC: G06F1/3234
Abstract: Bei einer Ausführungsform beinhaltet ein Prozessor eine Stromschutzsteuervorrichtung zum: Empfangen von Anweisungsbreiteninformationen und Anweisungstypinformationen, die mit einer oder mehreren Anweisungen assoziiert sind, die in einer Anweisungswarteschlange gespeichert sind, vor der Ausführung der einen oder der mehreren Anweisungen durch eine Ausführungsschaltung; Bestimmen eines Leistungslizenzniveaus für den Kern basierend auf den entsprechenden Anweisungsbreiteninformationen und den Anweisungstypinformationen; Erzeugen einer Anforderung für eine Lizenz für den Kern, die dem Leistungslizenzniveau entspricht; und Kommunizieren der Anforderung zu einer Leistungssteuervorrichtung, wenn die eine oder mehreren Anweisungen nicht spekulativ sind, und Aufschieben der Kommunikation der Anforderung, wenn mindestens eine der einen oder mehreren Anweisungen spekulativ ist. Andere Ausführungsformen sind beschrieben und werden beansprucht.
-
公开(公告)号:DE112016007566T5
公开(公告)日:2019-09-26
申请号:DE112016007566
申请日:2016-12-31
Applicant: INTEL CORP
Inventor: SANKARAN RAJESH M , NEIGER GILBERT , RANGANATHAN NARAYAN , VAN DOREN STEPHEN R , NUZMAN JOSEPH , MCDONNELL NIALL D , O´HANLON MICHAEL A , MOSUR LOKPRAVEEN B , DRYSDALE TRACY GARRETT , NURVITADHI ERIKO , MISHRA ASIT K , VENKATESH GANESH , MARR DEBORAH T , CARTER NICHOLAS P , PEARCE JONATHAN D , GROCHOWSKI EDWARD T , GRECO RICHARD J , VALENTINE ROBERT , CORBAL JESUS , FLETCHER THOMAS D , BRADFORD DENNIS R , MANLEY DWIGHT P , CHARNEY MARK J , COOK JEFFREY J , CAPRIOLI PAUL , YAMADA KOICHI , GLOSSOP KENT D , SHEFFIELD DAVID B
Abstract: Es sind Ausführungsformen von Systemen, Verfahren und Vorrichtungen für heterogene Berechnung beschrieben. In manchen Ausführungsformen versendet ein Hardware-heterogener Planer Anweisungen zur Ausführung auf einem oder mehreren einer Vielzahl von heterogenen Verarbeitungselementen, wobei die Anweisungen einem Codefragment entsprechen, das durch das eine oder die mehreren der Vielzahl von heterogenen Verarbeitungselementen zu verarbeiten ist, wobei die Anweisungen native Anweisungen an zumindest einer des einen oder der mehreren der Vielzahl von heterogenen Verarbeitungselementen sind.
-
公开(公告)号:DE102018129281A1
公开(公告)日:2019-07-04
申请号:DE102018129281
申请日:2018-11-21
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT , CHARNEY MARK , MADDURI VENKATESWARA
IPC: G06F9/30
Abstract: Eine Einrichtung und ein Verfahren zum Durchführen einer gepackten horizontalen Addition von Wörtern und Doppelwörtern. Eine Ausführungsform eines Prozessors umfasst zum Beispiel: einen Decoder zum Decodieren eines gepackten horizontalen Addierbefehls zum Erzeugen eines decodierten gepackten horizontalen Addierbefehls, wobei der gepackte horizontale Addierbefehl einen Opcode und Operanden, die eine Vielzahl gepackter Wörter identifizieren, einschließt; ein Quellregister zum Speichern einer ersten Vielzahl gepackter Wörter; einen Ausführungsschaltkreis zum Ausführen des decodierten Befehls, wobei der Ausführungsschaltkreis umfasst: einen Operandenauswahlschaltkreis zum Identifizieren eines ersten und zweiten gepackten Worts aus dem Quellregister gemäß dem Operanden und dem Opcode des gepackten horizontalen Addierbefehls; einen Addiererschaltkreis zum Addieren des ersten und zweiten gepackten Worts, um eine temporäre Summe zu erzeugen; einen temporären Speicher mit mindestens 17 Bits zum Speichern der temporären Summe; einen Sättigungsschaltkreis zum Sättigen der temporären Summe, falls erforderlich, um ein Endergebnis zu erzeugen; ein Zielregister zum Speichern des Endergebnisses als ein gepacktes Ergebniswort an einer designierten Datenelementposition.
-
公开(公告)号:DE102018125805A1
公开(公告)日:2019-07-04
申请号:DE102018125805
申请日:2018-10-17
Applicant: INTEL CORP
Inventor: SADE RAANAN , RUBANOVICH SIMON , GRADSTEIN AMIT , SPERBER ZEEV , HEINECKE ALEXANDER , VALENTINE ROBERT , CHARNEY MARK , TOLL BRET , CORBAL JESUS , OULD-AHMED-VALL ELMOUSTAPHA , ADELMAN MENACHEM
IPC: G06F9/38
Abstract: Hier dargelegte Ausführungsformen betreffen Matrixoperationen. Zum Beispiel werden Ausführungsformen der Anweisungsunterstützung für Matrix- bzw. Kachel-Skalarproduktoperationen dargelegt. Beispielhafte Anweisungen umfassen Berechnen eines Skalarprodukts vorzeichenbehafteter Wörter und Akkumulieren von Datenelementen eines Matrixpaars in einem Quadwort. Zusätzlich werden in einigen Fällen nichtakkumulierende Quadwort-Datenelemente des Matrixpaars auf null gesetzt.
-
公开(公告)号:DE102018132196A1
公开(公告)日:2019-06-27
申请号:DE102018132196
申请日:2018-12-14
Applicant: INTEL CORP
Inventor: ANDERSON CRISTINA , OULD-AHMED-VALL ELMOUSTAPHA , CORNEA-HASEGAN MARIUS , VALENTINE ROBERT , CHARNEY MARK , CORBAL JESUS , MADDURI VENKATESWARA
Abstract: Eine Vorrichtung und ein Verfahren zum Durchführen einer reziproken Quadratwurzel. Zum Beispiel umfasst eine Ausführungsform eines Prozessors: einen Decodierer, um einen reziproken Quadratwurzelbefehl zu decodieren, um einen decodierten reziproken Quadratwurzelbefehl zu generieren; ein Quellenregister, um mindestens ein gepacktes Eingabedatenelement zu speichern; ein Zielregister, um ein Ergebnisdatenelement zu speichern; und eine Ausführungsverschaltung für reziproke Quadratwurzeln, um den decodierten reziproken Quadratwurzelbefehl auszuführen, wobei die Ausführungsverschaltung für reziproke Quadratwurzeln einen ersten Abschnitt des gepackten Eingabedatenelements als einen Index für eine Datenstruktur zu verwenden hat, die eine Vielzahl von Sätzen von Koeffizienten enthält, um einen ersten Satz von Koeffizienten aus der Vielzahl der Sätze zu identifizieren, wobei die Ausführungsverschaltung für reziproke Quadratwurzeln unter Verwendung einer Kombination der Koeffizienten und eines zweiten Abschnitts des gepackten Eingabedatenelements eine reziproke Quadratwurzel des gepackten Eingabedatenelements zu erzeugen hat.
-
59.
公开(公告)号:DE102018129298A1
公开(公告)日:2019-06-27
申请号:DE102018129298
申请日:2018-11-21
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT , CHARNEY MARK , CORBAL JESUS , MADDURI VENKATESWARA
IPC: G06F9/30
Abstract: Eine Vorrichtung und ein Verfahren zum Durchführen von vorzeichenbehafteter Multiplikation von gepackten vorzeichenbehafteten Doppelwörtern und Akkumulation mit einem vorzeichenbehafteten Quadwort. Zum Beispiel umfasst eine Ausführungsform eines Prozessors Folgendes: ein erstes Quellregister, um eine erste Vielzahl von gepackten vorzeichenbehafteten Doppelwort-Datenelementen zu speichern; ein zweites Quellregister, um eine zweite Vielzahl von gepackten vorzeichenbehafteten Doppelwort-Datenelementen zu speichern; ein drittes Quellregister, um eine Vielzahl von gepackten vorzeichenbehafteten Quadwort-Datenelementen zu speichern;Ausführungsschaltungsanordnung, um den decodierten Befehl auszuführen, wobei die Ausführungsschaltungsanordnung Folgendes umfasst:Multipliziererschaltungsanordnung, um ein erstes und zweites gepacktes vorzeichenbehaftetes Doppelwort-Datenelement aus dem ersten Quellregister mit einem dritten bzw. vierten gepackten vorzeichenbehafteten Doppelwort-Datenelement aus dem zweiten Quellregister zu multiplizieren, um ein erstes und zweites temporäres vorzeichenbehaftetes Quadwortprodukt zu generieren, wobei die Multipliziererschaltungsanordnung dazu dient, ein erstes, zweites, drittes und viertes vorzeichenbehaftetes Doppelwort-Datenelement auf Basis des Opcodes des Befehls auszuwählen; Akkumulationsschaltungsanordnung, um das erste temporäre vorzeichenbehaftete Quadwortprodukt mit einem ersten gepackten vorzeichenbehafteten Quadwortwert, der aus dem dritten Quellregister gelesen wird, zu kombinieren, um ein erstes akkumuliertes vorzeichenbehaftetes Quadwortergebnis zu generieren, und um das zweite temporäre vorzeichenbehaftete Quadwortprodukt mit einem zweiten gepackten vorzeichenbehafteten Quadwortwert, der aus dem dritten Quellregister gelesen wird, zu kombinieren, um ein zweites akkumuliertes vorzeichenbehaftetes Quadwortergebnis zu generieren; ein Zielregister oder das dritte
-
60.
公开(公告)号:DE102018128939A1
公开(公告)日:2019-06-27
申请号:DE102018128939
申请日:2018-11-19
Applicant: INTEL CORP
Inventor: MADDURI VENKATESWARA , MURRAY CARL , OULD-AHMED-VALL ELMOUSTAPHA , CHARNEY MARK , VALENTINE ROBERT , CORBAL JESUS , GIRKAR MILIND , TOLL BRET
IPC: G06F9/30
Abstract: Vorrichtung und Verfahren zum Ausführen einer vorzeichenbehafteten gebrochenen Multiplikation gepackter Datenelemente. Eine Ausführungsform eines Prozessors umfasst z. B. Folgendes: einen Decodierer, um einen Befehl zu decodieren; ein erstes Quellregister, um erste mehrere gepackte vorzeichenbehaftete Wortdatenelemente zu speichern; ein zweites Quellregister, um zweite mehrere gepackte vorzeichenbehaftete Wortdatenelemente zu speichern; ein Steuerregister, um einen Rundungssteuerwert zu speichern, um eine Rundungsbetriebsart anzugeben; eine Ausführungsschaltungsanordnung, um den decodierten Befehl auszuführen, wobei die Ausführungsschaltungsanordnung Folgendes umfasst: eine Multipliziererschaltungsanordnung, um jedes der gepackten vorzeichenbehafteten Wortdatenelemente der ersten Mehreren mit einem entsprechenden gepackten vorzeichenbehafteten Wortdatenelement der zweiten Mehreren gleichzeitig zu multiplizieren, um mehrere vorzeichenbehaftete Doppelwortprodukte zu erzeugen; eine Umsetzungsschaltungsanordnung, um die mehreren vorzeichenbehafteten Doppelwortprodukte in mehrere gebrochene vorzeichenbehaftete Wörter umzusetzen, wobei die Umsetzungsschaltungsanordnung eine Rundungsschaltungsanordnung enthält, um die vorzeichenbehafteten Doppelwortprodukte in Übereinstimmung mit der durch den Rundungssteuerwert angegebenen Rundungsbetriebsart zu runden, um die mehreren gebrochenen vorzeichenbehafteten Wörter zu erzeugen; und ein Zielregister, um die mehreren gebrochenen vorzeichenbehafteten Wörter als gepackte vorzeichenbehaftete gebrochene Wortdatenelemente an spezifizierten Datenelementpositionen innerhalb des Zielregisters zu speichern.
-
-
-
-
-
-
-
-
-