METHOD AND APPARATUS FOR EFFICIENT ORDERED STORES OVER AN INTERCONNECTION NETWORK
    1.
    发明申请
    METHOD AND APPARATUS FOR EFFICIENT ORDERED STORES OVER AN INTERCONNECTION NETWORK 审中-公开
    通过互连网络的高效有序存储的方法和设备

    公开(公告)号:WO2005041047A3

    公开(公告)日:2005-08-18

    申请号:PCT/US2004034147

    申请日:2004-10-15

    CPC classification number: G06F12/0815 G06F12/0811 G06F12/0837 G06F12/084

    Abstract: A physically distributed cache memory system includes an interconnection network, first level cache memory slices, and second level cache memory slices. The first level cache memory slices are coupled to the interconnection network to generate tagged ordered store requests. Each tagged ordered store requests has a tag including requestor identification and a store sequence token. The second level cache memory slices are coupled to the interconnection network to execute ordered store requests in-order across the physically distributed cache memory system in response to each tag of the tagged ordered store requests.

    Abstract translation: 物理分布式缓存存储器系统包括互连网络,第一级缓存存储器片和第二级缓存存储器片。 第一级高速缓存存储器片被耦合到互连网络以生成带标签的有序存储请求。 每个带标签的有序存储请求都有一个标签,包括请求者标识和存储顺序标记。 第二级高速缓存存储器片被耦合到互连网络以响应于标记的有序存储请求的每个标签而在物理分布式高速缓存存储器系统上按顺序执行有序存储请求。

    SYSTEME UND VERFAHREN ZUM BERECHNEN VON SKALAPRODUKTEN VON HALBBYTES IN OPERANDEN AUS ZWEI KACHELN

    公开(公告)号:DE102018125971A1

    公开(公告)日:2019-07-04

    申请号:DE102018125971

    申请日:2018-10-19

    Applicant: INTEL CORP

    Abstract: Offenbarte Ausführungsformen betreffen ein Berechnen von Skalarprodukten von Halbbytes in Kacheloperanden. In einem Beispiel enthält ein Prozessor Decodierverschaltung, um eine Kachel-Skalarproduktanweisung mit Feldern für einen Opcode, eine Zielkennung, um eine M-mal-N-Zielmatrix zu identifizieren, eine erste Quellenkennung, um eine erste M-mal-K-Quellenmatrix zu identifizieren, und eine zweite Quellenkennung, um eine zweite K-mal-N-Quellenmatrix zu identifizieren, wobei jede der Matrizen Doppelwortelemente beinhalten, und Ausführungsverschaltung, um die decodierte Anweisung auszuführen, um einen Ablauf für jedes Element (M,N) der identifizierten Zielmatrix K Mal durchzuführen, um acht Produkte durch Multiplizieren jedes Halbbytes eines Doppelwortelements (M,K) der identifizierten ersten Quellenmatrix mit einem entsprechenden Halbbyte eines Doppelwortelements (K,N) der identifizierten zweiten Quellenmatrix zu generieren und um die acht Produkte mit vorangehenden Inhalten des Doppelwortelements (M,N) zu akkumulieren und zu sättigen.

    Einrichtung und Verfahren zum Rechtsverschieben von gepackten Vierwörtern und Extrahieren von gepackten Wörtern

    公开(公告)号:DE102018129116A1

    公开(公告)日:2019-06-27

    申请号:DE102018129116

    申请日:2018-11-20

    Applicant: INTEL CORP

    Abstract: Einrichtung und Verfahren zum Durchführen von Rechtsverschiebeoperationen für gepackte Vierwortdaten. Beispielsweise umfasst eine Ausführungsform eines Prozessors: einen Dekodierer zum Dekodieren eines Rechtsverschiebungsbefehls, um einen dekodierten Rechtsverschiebungsbefehl zu generieren; ein erstes Quellregister zum Speichern von mehreren gepackten Vierwort-Datenelementen, wobei jedes der gepackten Vierwort-Datenelemente ein Vorzeichenbit aufweist; Ausführungsschaltungen zum Ausführen des dekodierten Rechtsverschiebungsbefehls, wobei die Ausführungsschaltungen Verschiebungsschaltungen mit Vorzeichenerhaltungslogik umfassen, um ein erstes und ein zweites gepacktes Vierwort-Datenelement von einer ersten bzw. zweiten Position für gepackte Vierwort-Datenelemente im ersten Quellregister um einen Betrag, der in einem Direktoperandenwert oder in einem Steuerwert in einem zweiten Quellregister spezifiziert ist, nach rechts zu verschieben, wobei das Rechtsverschieben ein erstes und ein zweites rechtsverschobenes Vierwort generieren soll, wobei die Vorzeichenerhaltungslogik das Vorzeichenbit an allen Bitpositionen einschieben soll, die durch das Rechtsverschieben des ersten und des zweiten Vierworts freigelegt werden; wobei die Ausführungsschaltungen eine Auswahl von 16 höchstwertigen Bits des ersten und des zweiten rechtsverschobenen Vierworts, einschließlich des Vorzeichenbits, bewirken sollen, die in 16 niedrigstwertige Bitregionen von ersten bzw. zweiten Vierwort-Datenelementpositionen eines Zielregisters geschrieben werden sollen.

    VORRICHTUNG UND VERFAHREN ZUM VERARBEITEN VON FRAKTIONALEN UMKEHROPERATIONEN

    公开(公告)号:DE102018132200A1

    公开(公告)日:2019-06-27

    申请号:DE102018132200

    申请日:2018-12-14

    Applicant: INTEL CORP

    Abstract: Eine Vorrichtung und ein Verfahren zum Durchführen einer Umkehrung. Zum Beispiel umfasst eine Ausführungsform eines Prozessors: einen Decodierer, um einen Umkehrbefehl zu decodieren, um einen decodierten Umkehrbefehl zu generieren; ein Quellenregister, um mindestens ein gepacktes Eingabedatenelement zu speichern; ein Zielregister, um ein Ergebnisdatenelement zu speichern; und eine reziproke Ausführungsverschaltung, um den decodierten Umkehrbefehl auszuführen, wobei die reziproke Ausführungsverschaltung einen ersten Abschnitt des gepackten Eingabedatenelements als einen Index für eine Datenstruktur zu verwenden hat, die eine Vielzahl von Sätzen von Koeffizienten enthält, um einen ersten Satz von Koeffizienten aus der Vielzahl der Sätze zu identifizieren, wobei die reziproke Ausführungsverschaltung unter Verwendung einer Kombination der Koeffizienten und eines zweiten Abschnitts des gepackten Eingabedatenelements eine Umkehrung des gepackten Eingabedatenelements zu erzeugen hat.

    VORRICHTUNG UND VERFAHREN ZUM NACH-RECHTS-VERSCHIEBEN VON GEPACKTENQUADWÖRTERN UND ZUM EXTRAHIEREN VON GEPACKTEN DOPPELWÖRTERN

    公开(公告)号:DE102018132195A1

    公开(公告)日:2019-06-27

    申请号:DE102018132195

    申请日:2018-12-14

    Applicant: INTEL CORP

    Abstract: Eine Vorrichtung und ein Verfahren zum Durchführen einer Summe von absoluten Differenzen mit Akkumulation. Zum Beispiel umfasst eine Ausführungsform eines Prozessors: einen Decoder zum Decodieren eines Befehls zum Erzeugen eines decodierten Befehls; ein erstes Quellenregister, um eine erste Vielzahl von gepackten Bytes zu speichern; ein zweites Quellenregister, um eine zweite Vielzahl von gepackten Bytes zu speichern; Ausführungsverschaltung, um die decodierte Anweisung auszuführen, wobei die Ausführungsverschaltung umfasst: Additionsverschaltung, um eine Differenz zwischen jedem Byte im ersten Quellenregister und einem entsprechenden Byte im zweiten Quellenregister zu ermitteln, Absolutbetragsverschaltung, um einen Absolutbetrag jeder Differenz zu ermitteln, wobei die Additionsverschaltung Paare der Absolutbeträge zu addieren hat, um eine Vielzahl von temporären Ergebnissen zu generieren, und Erweiterungsverschaltung, um die temporären Ergebnisse in temporäre Wörter zu erweitern; und Akkumulatorverschaltung, um jedes temporäre Wort zu einem Wort aus einem dritten Quellenregister zu addieren, um eine Vielzahl von akkumulierten Wörtern zu generieren; und ein Zielregister, um die akkumulierten Wörter als gepackte Wörter zu speichern.

    EINRICHTUNG UND VERFAHREN FÜR KOMPLEXE MULTIPLIKATION

    公开(公告)号:DE102018124945A1

    公开(公告)日:2019-05-29

    申请号:DE102018124945

    申请日:2018-10-10

    Applicant: INTEL CORP

    Abstract: Eine Ausführungsform der Erfindung ist ein Prozessor, umfassend eine Ausführungsschaltungsanordnung zum Berechnen, in Reaktion auf einen decodierten Befehl, eines Ergebnisses einer komplexen Multiplikation einer ersten komplexen Zahl mit einer zweiten komplexen Zahl. Die Berechnung umfasst eine erste Operation zum Berechnen eines ersten Terms eines Realteils des Ergebnisses und eines ersten Terms des Imaginärteils des Ergebnisses. Die Berechnung umfasst auch eine zweite Operation zum Berechnen eines zweiten Terms des Realteils des Ergebnisses und eines zweiten Terms des Imaginärteils des Ergebnisses. Der Prozessor umfasst auch einen Decodierer, ein erstes Quellregister und ein zweites Quellregister. Der Decodierer dient zum Decodieren eines Befehls zum Erzeugen des decodierten Befehls. Das erste Quellregister dient dazu, die erste komplexe Zahl bereitzustellen, und das zweite Quellregister dient dazu, die zweite komplexe Zahl bereitzustellen.

    VORRICHTUNG UND VERFAHREN ZUM VERSCHIEBEN VON GEPACKTEN QUADWORDS UND ZUM EXTRAHIEREN VON GEPACKTEN WÖRTERN

    公开(公告)号:DE102018132205A1

    公开(公告)日:2019-06-27

    申请号:DE102018132205

    申请日:2018-12-14

    Applicant: INTEL CORP

    Abstract: Vorrichtung und Verfahren zum Ausführen von Linksverschiebungsoperationen an gepackten Quadword-Daten. Beispielsweise umfasst eine Ausführungsform eines Prozessors Folgendes: einen Dekodierer zum Dekodieren eines Linksverschiebungsbefehls zum Erzeugen eines decodierten Linksverschiebungsbefehls; ein erstes Quellregister zum Speichern einer Vielzahl von gepackten Quadword-Datenelementen, wobei jedes der gepackten Quadword-Datenelemente ein Vorzeichenbit aufweist; Ausführungsschaltung zum Ausführen des dekodierten Linksverschiebungsbefehls, wobei die Ausführungsschaltung eine Verschiebeschaltung mit Vorzeichenerhaltungslogik zum Linksverschieben erster und zweiter gepackter Quadword-Datenelemente von ersten bzw. zweiten gepackten Quadword-Datenelementpositionen im ersten Quellregister um einen Betrag, der in einem Direktwert oder in einem Steuerwert in einem zweiten Quellregister spezifiziert ist, umfasst, wobei die Linksverschiebung zum Erzeugen erster und zweiter links verschobener Quadwords erfolgt, wobei die Verschiebeschaltung zum Schreiben von Nullen in Bitpositionen dient, die durch das Linksverschieben der gepackten Quadword-Datenelemente freigelegt werden; wobei die Vorzeichenerhaltungslogik eine Kopie des Vorzeichenbits behält, während die Verschiebeschaltung die Linksverschiebungsoperationen durchführt; wobei die Ausführungsschaltung eine Auswahl von 16 höchstwertigen Bits des ersten und zweiten linksverschobenen Quadwords, einschließlich des Vorzeichenbits, bewirkt, die in 16 niedrigstwertige Bitbereiche der ersten bzw. zweiten Quadword-Datenelementpositionen eines Zielregisters zu schreiben sind, wobei das Vorzeichenbit in die höchstwertige Bitposition von jedem der 16 niedrigstwertigen Bitbereiche geschrieben wird.

Patent Agency Ranking