-
公开(公告)号:DE112016007516T5
公开(公告)日:2019-10-02
申请号:DE112016007516
申请日:2016-12-12
Applicant: INTEL CORP
Inventor: BRANDT JASON W , CHAPPELL ROBERT S , CORBAL JESUS , GROCHOWSKI EDWARD T , GUNTHER STEPHEN H , GUY BUFORD M , HUFF THOMAS R , HUGHES CHRISTOPHER J , OULD-AHMED-VALL ELMOUSTAPHA , SINGHAL RONAK , SOTOUDEH SEYED YAHYA , TOLL BRET L , RAPPOPORT LIHU , PAPWORTH DAVID B , ALLEN JAMES D
IPC: G06F12/0817
Abstract: Ausführungsformen einer Erfindung einer Prozessorarchitektur werden offenbart. In einer Ausführungsform enthält ein Prozessor einen Decoder, eine Ausführungseinheit, einen kohärenten Cache und eine Zwischenverbindung. Der Decoder dient dazu, einen Befehl zu decodieren, um eine Cachezeile nullzustellen. Die Ausführungseinheit dient dazu, ein Schreibkommando auszustellen, um einen cachezeilengroßen Schreibvorgang von Nullen zu initiieren. Der kohärente Cache dient dazu, das Schreibkommando zu empfangen, um zu ermitteln, ob es einen Hit im kohärenten Cache gibt und ob ein Cachekohärenzprotokollzustand der getroffenen Cachezeile ein modifizierter Zustand oder ein exklusiver Zustand ist, um eine Cachezeile zu konfigurieren, nur Nullen anzuzeigen und um das Schreibkommando hin zur Zwischenverbindung auszustellen. Die Zwischenverbindung dient dazu, in Antwort auf Empfang des Schreibkommandos einen Snoop an jeden mehrerer anderer kohärenter Caches auszustellen, für die ermittelt werden muss, ob es einen Hit gibt.
-
公开(公告)号:DE102018125972A1
公开(公告)日:2019-07-04
申请号:DE102018125972
申请日:2018-10-19
Applicant: INTEL CORP
Inventor: SADE RAANAN , RUBANOVICH SIMON , GRADSTEIN AMIT , SPERBER ZEEV , HEINECKE ALEXANDER , VALENTINE ROBERT , CHARNEY MARK , TOLL BRET , CORBAL JESUS , OULD-AHMED-VALL ELMOUSTAPHA , ADELMAN MENACHEM
IPC: G06F9/30
Abstract: Hier dargelegte Ausführungsformen betreffen Systeme und Verfahren zum Speichern eines Kachelregisterpaars in Speicher. In einem Beispiel umfasst ein Prozessor Decodierschaltkreise zum Decodieren einer Speichermatrixpaaranweisung mit Feldern für einen Opcode und Quellen- und Zielkennungen zum Identifizieren von Quellen- bzw. Zielmatrizen, wobei jede Matrix einen PAIR-Parameter gleich TRUE aufweist; und Ausführungsschaltkreise zum Ausführen der decodierten Speichermatrixpaaranweisungen zum Speichern jedes Elements linker und rechter Kacheln der identifizierten Quellenmatrix in entsprechenden Elementpositionen von linken bzw. rechten Kacheln der identifizierten Quellenmatrix, wobei das Ausführen ein Stück von C Elementen einer Zeile der identifizierten Zielmatrix auf einmal speichert.
-
103.
公开(公告)号:DE102018131484A1
公开(公告)日:2019-06-27
申请号:DE102018131484
申请日:2018-12-10
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT , CHARNEY MARK , CORBAL JESUS , MADDURI VENKATESWARA
IPC: G06F9/38
Abstract: Eine Einrichtung und ein Verfahren zum Durchführen von vorzeichenbehafteter Multiplikation von gepackten vorzeichenbehafteten Doppelwörtern und Akkumulation mit einem vorzeichenbehafteten Quadrupelwort. Zum Beispiel umfasst eine Ausführungsform eines Prozessors Folgendes: ein erstes Quellregister zum Speichern von mehreren gepackten vorzeichenbehafteten Doppelwort-Datenelementen; ein zweites Quellregister zum Speichern von mehreren gepackten vorzeichenbehafteten Doppelwort-Datenelementen; ein drittes Quellregister zum Speichern von mehreren gepackten vorzeichenbehafteten Quadrupelwort-Datenelementen; eine Ausführungsschaltungsanordnung zum Ausführen des decodierten Befehls, wobei die Ausführungsschaltungsanordnung Folgendes umfasst: eine Multipliziererschaltungsanordnung zum Multiplizieren eines ersten und zweiten gepackten vorzeichenbehafteten Doppelwort-Datenelements aus dem ersten Quellregister mit einem dritten bzw. vierten gepackten vorzeichenbehafteten Doppelwort-Datenelement aus dem zweiten Quellregister, um ein erstes und zweites temporäres vorzeichenbehaftetes Quadrupelwortprodukt zu erzeugen, wobei die Multipliziererschaltungsanordnung dazu dient, ein erstes, zweites, drittes und viertes vorzeichenbehaftetes Doppelwort-Datenelement auf Basis des Opcodes des Befehls auszuwählen;eine Akkumulationsschaltungsanordnung zum Kombinieren des ersten temporären vorzeichenbehafteten Quadrupelwortprodukts mit einem ersten gepackten vorzeichenbehafteten Quadrupelwortwert, der aus dem dritten Quellregister gelesen wird, um ein erstes akkumuliertes vorzeichenbehaftetes Quadrupelwortergebnis zu erzeugen, und Kombinieren des zweiten temporären vorzeichenbehafteten Quadrupelwortprodukts mit einem zweiten gepackten vorzeichenbehafteten
-
104.
公开(公告)号:DE102018129291A1
公开(公告)日:2019-06-27
申请号:DE102018129291
申请日:2018-11-21
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT , CHARNEY MARK , CORBAL JESUS , MADDURI VENKATESWARA , YANG BINWEI
IPC: G06F9/30
Abstract: Eine Einrichtung und ein Verfahren zum Durchführen von Addition vorzeichenbehafteter gepackter Datenwerte unter Verwendung von Drehung und Halbierung. Zum Beispiel umfasst eine Ausführungsform eines Prozessors einen Decoder zum Decodieren eines Befehls zur Erzeugung eines decodierten Befehls, wobei der Befehl einen Opcode, ein Immediate und Operanden umfasst, die eine Vielzahl gepackter Datenquellregister und ein gepacktes Datenzielregister identifizieren, ein erstes Quellregister zum Speichern einer ersten Vielzahl gepackter vorzeichenbehafteter Wörter; ein zweites Quellregister zum Speichern einer zweiten Vielzahl gepackter vorzeichenbehafteter Wörter; Ausführungsschaltkreise zum Ausführen des decodierten Befehls, wobei die Ausführungsschaltkreise Folgendes umfassen: Addiererschaltkreise zum Addieren jedes gepackten vorzeichenbehafteten Worts aus dem ersten Quellregister mit einem ausgewählten gepackten vorzeichenbehafteten Wort aus dem zweiten Quellregister zur Erzeugung einer Vielzahl vorzeichenbehafteter Wortergebnisse, wobei die Addiererschaltkreise jedes gepackte vorzeichenbehaftete Wort aus dem zweiten Quellregister gemäß einem Drehungswert in dem Immediate des Befehls auswählen, wobei der Drehungswert einen Grad an Drehung angibt, der auf die gepackten vorzeichenbehafteten Wörter in dem zweiten Quellregister anzuwenden ist, bevor die Addiererschaltkreise das Addieren durchführen; und ein Zielregister zum Speichern der Vielzahl vorzeichenbehafteter Wortergebnisse an spezifizierten Datenelementorten des Zielregisters.
-
105.
公开(公告)号:DE102018129263A1
公开(公告)日:2019-06-27
申请号:DE102018129263
申请日:2018-11-21
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT , CHARNEY MARK , CORBAL JESUS , MADDURI VENKATESWARA
IPC: G06F9/30
Abstract: Eine Vorrichtung und ein Verfahren zum Durchführen von Multiplikation, Summierung, Negation, Vorzeichenerweiterung und Akkumulation mit gepackten Bytes. Beispielsweise umfasst eine Ausführungsform eines Prozessors das Folgende: einen Decodierer zum Decodieren eines Befehls, um einen decodierten Befehl zu generieren, wobei der Befehl einen Opcode und mehrere Operanden beinhaltet, die mehrere gepackte Datenquellregister und ein gepacktes Datenzielregister identifizieren; ein erstes Quellregister zum Speichern einer ersten Vielzahl von gepackten vorzeichenbehafteten Bytes; ein zweites Quellregister zum Speichern einer zweiten Vielzahl von gepackten vorzeichenbehafteten Bytes; Ausführungsschaltungsanordnung zum Ausführen des decodierten Befehls, wobei die Ausführungsschaltungsanordnung Folgendes umfasst: eine Multipliziererschaltungsanordnung zum Multiplizieren jedes gepackten vorzeichenbehafteten Bytes aus dem ersten Quellregister mit einem entsprechenden gepackten vorzeichenbehafteten Byte aus dem zweiten Quellregister, um mehrere temporäre Produkte zu generieren, eine Addiererschaltungsanordnung zum Addieren mehrerer Sätze der temporären Produkte, um mehrere temporäre Summen zu generieren; eine Negations- und Erweiterungsschaltungsanordnung zum Negieren und Erweitern von jeder der temporären Summen zu Doppelwortsummen; und eine Akkumulationsschaltungsanordnung zum Addieren von jeder der Doppelwortsummen zu einem Doppelwort aus einem dritten Quellregister, um endgültige Doppelwortergebnisse zu generieren; und ein gepacktes Datenzielregister zum Speichern der endgültigen Doppelwortergebnisse an spezifizierten Datenelementorten.
-
106.
公开(公告)号:DE102018129120A1
公开(公告)日:2019-06-27
申请号:DE102018129120
申请日:2018-11-20
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT , CHARNEY MARK , MADDURI VENKATESWARA
IPC: G06F9/30
Abstract: Die Erfindung betrifft einen Prozessor zum Ausführen von Rechtsverschiebungsoperationen an gepackten Quadwortdaten. Der Prozessor decodiert und speichert mehrere gepackte Quadwort-Datenelemente in einem ersten Quellregisters, wobei jedes der gepackten Quadwort-Datenelemente ein Vorzeichenbit enthält. Er führt einen decodierten Linksverschiebungsbefehl aus, um die gepackten Quadwort-Datenelemente von ihrer jeweiligen Stelle in dem ersten Quellregister um einen Betrag, der in einem Sofortwert oder in einem Steuerwert in einem zweiten Quellregister spezifiziert ist, nach links zu verschieben. In die durch die Linksverschiebung der gepackten Quadwort-Datenelemente freigelegten Bitpositionen werden Nullen geschrieben; und es wird eine Kopie des Vorzeichenbits aufrechterhalten. Die 32 höchstwertigen Bits der nach links verschobenen Quadworte einschließlich des Vorzeichenbits werden in die 32 niedrigstwertigen Bitbereiche der Stellen des jeweiligen Quadwort-Datenelements eines Zielregisters geschrieben, wobei das Vorzeichenbit in die höchstwertige Bitposition jedes der 32 niedrigstwertigen Bitbereiche geschrieben wird.
-
107.
公开(公告)号:DE102018006799A1
公开(公告)日:2019-04-04
申请号:DE102018006799
申请日:2018-08-28
Applicant: INTEL CORP
Inventor: MADDURI VENKATESWARA , OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT , CHARNEY MARK J , CORBAL JESUS
IPC: G06F9/302
Abstract: Eine Einrichtung und ein Verfahren zum Durchführen von Linksverschiebungsoperationen bei gepackten Quadword-Daten. Zum Beispiel umfasst eine Ausführungsform eines Prozessors: einen Decodierer zum Decodieren eines Linksverschiebungsbefehls zum Erzeugen eines decodierten Linksverschiebungsbefehls; ein erstes Quellregister zum Speichern von mehreren gepackten Quadword-Datenelementen; eine Ausführungsschaltung zum Ausführen des decodierten Linksverschiebungsbefehls, wobei die Ausführungsschaltung eine Verschiebungsschaltung zum Linksverschieben mindestens von ersten und zweiten gepackten Quadword-Datenelementen jeweils von ersten und zweiten gepackten Quadword-Datenelementorten in dem ersten Quellregister um einen Betrag, der in einem unmittelbaren Wert oder in einem Steuerwert in einem zweiten Quellregister spezifiziert ist, zum Erzeugen von ersten und zweiten nach links verschobenen Quadwords umfasst; wobei die Ausführungsschaltung die Auswahl von 16 höchstwertigen Bits der ersten und zweiten nach links verschobenen Quadwords veranlasst, die in die 16 niederwertigsten Bit-Regionen von jeweils ersten und zweiten Quadword-Datenelementorten eines Zielregisters zu schreiben sind; und das Zielregister die spezifizierte Gruppe der 16 höchstwertigen Bits der ersten und zweiten nach links verschobenen Quadwords speichert.
-
108.
公开(公告)号:DE102018006798A1
公开(公告)日:2019-04-04
申请号:DE102018006798
申请日:2018-08-28
Applicant: INTEL CORP
Inventor: VALENTINE ROBERT , CHARNEY MARK J , CORBAL JESUS , MADDURI VENKATESWARA , OULD-AHMED-VALL ELMOUSTAPHA
IPC: G06F9/38
Abstract: Eine Einrichtung und ein Verfahren zum Durchführen von dualen gleichzeitigen Multiplikationen, Subtraktion/Addition und Akkumulation von gepackten Datenelementen. Zum Beispiel weist eine Ausführungsform eines Prozessors Folgendes auf: einen Decodierer zum Decodieren eines Befehls zum Erzeugen eines decodierten Befehls; ein erstes Quellregister zum Speichern von ersten und zweiten gepackten Datenelementen; ein zweites Quellregister zum Speichern von dritten und vierten gepackten Datenelementen; eine Ausführungsschaltung zum Ausführen des decodierten Befehls, wobei die Ausführungsschaltung Folgendes aufweist: eine Multiplikatorschaltung zum Multiplizieren der ersten und dritten gepackten Datenelemente zum Erzeugen eines ersten temporären Produkts und zum gleichzeitigen Multiplizieren der zweiten und vierten gepackten Datenelemente zum Erzeugen eines zweiten temporären Produkts, wobei die ersten bis vierten gepackten Datenelemente alle eine erste Breite aufweisen; eine Schaltung zum Negieren des ersten temporären Produkts zum Erzeugen eines negierten ersten Produkts; eine Addiererschaltung zum Hinzufügen des ersten negierten Produkts zu einem ersten akkumulierten gepackten Datenelement von einem dritten Quellregister zum Erzeugen eines ersten Ergebnisses, wobei das erste Ergebnis eine zweite Breite aufweist, welche mindestens doppelt so groß wie die erste Breite ist; wobei die Addiererschaltung gleichzeitig das zweite temporäre Produkt zu einem zweiten akkumulierten gepackten Datenelement hinzufügt, um ein zweites Ergebnis mit der zweiten Breite zu erzeugen; wobei das erste und zweite Ergebnis in einer bestimmten ersten und zweiten Datenelementposition innerhalb eines Zielregisters gespeichert werden.
-
公开(公告)号:DE112017003347T5
公开(公告)日:2019-03-14
申请号:DE112017003347
申请日:2017-06-14
Applicant: INTEL CORP
Inventor: PLOTNIKOV MIKHAIL , OULD-AHMED-VALL ELMOUSTAPHA
IPC: G06F9/345
Abstract: Systeme, Verfahren und Vorrichtungen für Strided-Ladevorgänge wie beschrieben. In einer Ausführungsform ist eine Anweisung, die mindestens einen Opcode, ein Feld für mindestens zwei Quelloperanden für gepackte Daten, ein Feld für einen Zieloperanden für gepackte Daten, und eine Direkte enthält, als Anweisung für einen Strided-Ladevorgang vorgesehen. Diese Anweisung wird ausgeführt, um gepackte Datenelemente von den mindestens zwei Quelloperanden für gepackte Daten unter Verwendung eines Strides zu laden und die Ergebnisse der Strided-Ladevorgänge in den Zieloperanden für gepackte Daten zu speichern, beginnend an einer definierten Position, die teilweise von der Direkten bestimmt wird.
-
110.
公开(公告)号:DE112017003337T5
公开(公告)日:2019-03-14
申请号:DE112017003337
申请日:2017-06-01
Applicant: INTEL CORP
Inventor: CHARNEY MARK J , VALENTINE ROBERT , GIRKAR MILIND B , JHA ASHISH , TOLL BRET L , OULD-AHMED-VALL ELMOUSTAPHA , CORBAL SAN ADRIAN JESUS , BRANDT JASON W
IPC: G06F9/30
Abstract: Ein Prozessor eines Aspekts enthält eine Decodiereinheit zum Decodieren einer Anweisung. Die Anweisung soll explizit ein erstes Architekturregister spezifizieren und implizit zumindest ein zweites Architekturregister angeben. Das zweite Architekturregister soll implizit eine höhere Registerzahl aufweisen als das erste Architekturregister. Der Prozessor enthält auch eine Architekturregisteraustauscheinheit, die mit der Decodiereinheit gekoppelt ist. Die Architekturregisteraustauscheinheit soll das erste Architekturregister durch ein drittes Architekturregister tauschen und soll das zweite Architekturregister durch ein viertes Architekturregister tauschen. Das dritte Architekturregister soll eine niedrigere Registerzahl aufweisen als das erste Architekturregister. Das vierte Architekturregister soll eine niedrigere Registerzahl aufweisen als das zweite Architekturregister. Es sind auch andere Prozessoren wie auch Verfahren und Systeme offenbart.
-
-
-
-
-
-
-
-
-