Einrichtung und Verfahren zum Verschieben und Extrahieren von gepackten Datenelementen

    公开(公告)号:DE102018006801A1

    公开(公告)日:2019-04-04

    申请号:DE102018006801

    申请日:2018-08-28

    Applicant: INTEL CORP

    Abstract: Eine Einrichtung und ein Verfahren zum Durchführen von Linksverschiebungsoperationen bei gepackten Quadword-Daten. Zum Beispiel umfasst eine Ausführungsform eines Prozessors: einen Decodierer zum Decodieren eines Linksverschiebungsbefehls zum Erzeugen eines decodierten Linksverschiebungsbefehls; ein erstes Quellregister zum Speichern von mehreren gepackten Quadword-Datenelementen; eine Ausführungsschaltung zum Ausführen des decodierten Linksverschiebungsbefehls, wobei die Ausführungsschaltung eine Verschiebungsschaltung zum Linksverschieben mindestens von ersten und zweiten gepackten Quadword-Datenelementen jeweils von ersten und zweiten gepackten Quadword-Datenelementorten in dem ersten Quellregister um einen Betrag, der in einem unmittelbaren Wert oder in einem Steuerwert in einem zweiten Quellregister spezifiziert ist, zum Erzeugen von ersten und zweiten nach links verschobenen Quadwords umfasst; wobei die Ausführungsschaltung die Auswahl einer spezifizierten Gruppe von höchstwertigen Bits der ersten und zweiten nach links verschobenen Quadwords veranlasst, die in die niederwertigsten Bit-Regionen von jeweils ersten und zweiten Quadword-Datenelementorten eines Zielregisters zu schreiben sind; und das Zielregister die spezifizierte Gruppe der höchstwertigen Bits der ersten und zweiten nach links verschobenen Quadwords speichert.

    FESTKOMMA-ZU-GLEITKOMMA-UMWANDLUNG
    62.
    发明专利

    公开(公告)号:DE102018006757A1

    公开(公告)日:2019-04-04

    申请号:DE102018006757

    申请日:2018-08-27

    Applicant: INTEL CORP

    Abstract: Es werden Ausführungsformen von Befehlen und Verfahren zur Ausführung der Befehle und Ressourcen zum Ausführen der Befehle ausführlich beschrieben. Zum Beispiel ist in einer Ausführungsform ein Prozessor beschrieben, der Folgendes aufweist: eine Decodierschaltung zum Decodieren eines Befehls, der Bereiche für einen Opcode, eine gepackte Datenquelloperandkennung und eine gepackte Datenzieloperandkennung aufweist; und eine Ausführungsschaltung zum Ausführen des decodierten Befehls zum Umwandeln eines Datenelements von einer niederwertigsten gepackten Datenelementposition des gekennzeichneten gepackten Datenquelloperanden von einer Festkommadarstellung zu einer Gleitkommadarstellung, Speichern der Gleitkommadarstellung in einer niederwertigsten gepackten 32-Bit-Datenelementposition des gekennzeichneten gepackten Datenzieloperanden und Nullstellen aller verbleibenden gepackten Datenelemente des gekennzeichneten gepackten Datenzieloperanden.

    Vorrichtung und Verfahren zur Multiplikation einer komplexen Zahl mit der konjugierten

    公开(公告)号:DE102018006008A1

    公开(公告)日:2019-04-04

    申请号:DE102018006008

    申请日:2018-07-30

    Applicant: INTEL CORP

    Abstract: Eine Ausführungsform eines Prozessors umfasst beispielsweise: einen Decoder zum Decodieren eines ersten Befehls, um einen decodierten Befehl zu erzeugen; ein erstes Quellenregister zum Speichern einer ersten Vielzahl von gepackten reellen und imaginären Datenelementen; ein zweites Quellenregister zum Speichern einer zweiten Vielzahl von gepackten reellen und imaginären Datenelementen; und einen Ausführungsschaltkreis zum Ausführen des decodierten Befehls, wobei der Ausführungsschaltkreis umfasst: einen Multiplikationsschaltkreis zum Auswählen reeller und imaginärer Datenelemente im ersten Quellenregister und im zweiten Quellenregister für die Multiplikation, einen Additionsschaltkreis zum Addieren eines ersten Teilsatzes der Vielzahl von imaginären Produkten und zum Subtrahieren eines zweiten Teilsatzes der Vielzahl von imaginären Produkten, um ein erstes temporäres Ergebnis zu erzeugen, und zum Addieren eines dritten Teilsatzes der Vielzahl von imaginären Produkten und zum Subtrahieren eines vierten Teilsatzes der Vielzahl von imaginären Produkten, um ein zweites temporäres Ergebnis zu erzeugen, einen Akkumulationsschaltkreis zum Kombinieren des ersten temporären Ergebnisses mit ersten Daten eines Zielregisters, und zum Kombinieren des zweiten temporären Ergebnisses mit zweiten Daten des Zielregisters, und zum Speichern des ersten endgültigen Ergebnisses und des zweiten endgültigen Ergebnisses im Zielregister.

    GLEITKOMMA- ZU FESTKOMMA-UMWANDLUNG

    公开(公告)号:DE102018005977A1

    公开(公告)日:2019-04-04

    申请号:DE102018005977

    申请日:2018-07-27

    Applicant: INTEL CORP

    Abstract: Ausführungsformen einer Anweisung, ihr Betrieb und Ausführungsunterstützung für die Anweisung werden beschrieben. Bei einigen Ausführungsformen umfasst ein Prozessor Decodierschaltung zum Decodieren einer Anweisung, aufweisend Felder für einen Opcode, eine Kennung eines gepackte Datenquellenoperanden und eine Kennung eines gepackte Datenzieloperanden; und Ausführungsschaltung zum Ausführen der decodierten Anweisung zum Umwandeln eines Gleitkomma-Datenelements einfacher Genauigkeit von einer niedrigstwertigen Position des gepackten Datenelements des identifizierten Quellenoperanden zu einer Festkommawiedergabe, Speichern der Festkommawiedergabe als 32-Bit-Ganzzahl und ein 32-Bit-Ganzzahlexponent an den zwei niedrigstwertigen Positionen für gepackte Datenelemente des identifizierten Zieloperanden gepackter Daten, und Nullsetzen aller verbleibenden gepackten Datenelemente des identifizierten Zieloperanden gepackter Daten.

    Einrichtung und Verfahren zur Multiplikation und Akkumulation von komplexen und echten gepackten Datenelementen

    公开(公告)号:DE102018005859A1

    公开(公告)日:2019-04-04

    申请号:DE102018005859

    申请日:2018-07-25

    Applicant: INTEL CORP

    Abstract: Eine Einrichtung und ein Verfahren zum Multiplizieren von gepackten echten und imaginären Komponenten von komplexen Zahlen. Zum Beispiel umfasst eine Ausführungsform eines Prozessors Folgendes: einen Decoder zum Decodieren eines ersten Befehls zum Erzeugen eines decodierten Befehls; ein erstes Quellregister zum Speichern einer ersten Vielzahl von gepackten echten und imaginären Datenelementen; ein zweites Quellregister zum Speichern einer zweiten Vielzahl von gepackten echten und imaginären Datenelementen; eine Ausführungsschaltung zum Ausführen des decodierten Befehls, die Ausführungsschaltung umfassend: eine Multipliziererschaltung zum Auswählen von echten und imaginären Datenelementen im ersten Quellregister und zweiten Quellregister zum Multiplizieren, wobei die Multipliziererschaltung jedes ausgewählte imaginäre Datenelement im ersten Quellregister mit einem ausgewählten echten Datenelement im zweiten Quellregister multipliziert, und zum Multiplizieren jedes ausgewählten echten Datenelements im ersten Quellregister mit einem ausgewählten imaginären Datenelement im zweiten Quellregister zum Erzeugen einer Vielzahl von imaginären Produkten, eine Addiererschaltung zum Addieren eines ersten Teilsatzes der Vielzahl von imaginären Produkten zum Erzeugen eines ersten temporären Ergebnisses und zum Addieren eines zweiten Teilsatzes der Vielzahl von imaginären Produkten zum Erzeugen eines zweiten temporären Ergebnisses; eine Negationsschaltung zum Negieren des ersten temporären Ergebnisses zum Erzeugen eines dritten temporären Ergebnisses und zum Negieren des zweiten temporären Ergebnisses zum Erzeugen eines vierten temporären Ergebnisses; eine Akkumulationsschaltung zum Kombinieren des dritten temporären Ergebnisses mit ersten Daten aus einem Zielregister zum Erzeugen eines ersten Endergebnisses und zum Kombinieren des vierten temporären Ergebnisses mit zweiten Daten aus dem Zielregister zum Erzeugen eines zweiten Endergebnisses und zum Speichern des ersten Endergebnisses und des zweiten Endergebnisses zurück in das Zielregister.

    Vorrichtung und Verfahren zur schnellen Befehlsfehlerbehandlung

    公开(公告)号:DE112013005418T5

    公开(公告)日:2015-08-13

    申请号:DE112013005418

    申请日:2013-06-24

    Applicant: INTEL CORP

    Abstract: Es wird ein Prozessor beschrieben, der Folgendes umfasst: Befehlsfehlerlogik, um mehrere Operationen als Reaktion auf einen detektierten Befehlsausführungsfehler durchzuführen, wobei die Befehlsfehlerlogik für Befehle verwendet werden soll, die komplexe Fehlermodi aufweisen und von denen erwartet wird, dass sie eine Fehlerhäufigkeit über einem Schwellenwert aufweisen, wobei die Operationen Folgendes beinhalten: Detektieren eines Befehlsausführungsfehlers und Bestimmen eines Grundes für den Fehler; Speichern von Fehlerdaten in einem Zielregister, um den Fehler anzugeben und um mit dem Fehler verknüpfte Details zu spezifizieren; und Gestatten, dass Applikationsprogrammcode die Fehlerdaten liest und reagierend eine oder mehrere Maßnahmen als Reaktion auf den Fehler ergreift, wobei die Befehlsfehlerlogik ihre Operationen durchführt, ohne eine Ausnahmebehandlungsroutine aufzurufen oder auf eine Low-Level-Domäne auf einem System zu schalten, das hierarchische Schutzdomänen einsetzt.

    Systeme, Vorrichtungen und Verfahren zur Nullsetzung von Bits in einem Datenelement

    公开(公告)号:DE102014003697A1

    公开(公告)日:2014-09-18

    申请号:DE102014003697

    申请日:2014-03-13

    Applicant: INTEL CORP

    Abstract: Es werden Ausführungsformen von Systemen, Verfahren und Vorrichtungen zur Ausführung eines NAME-Befehls beschrieben. Die Ausführung eines VPBZHI bewirkt auf einer Pro-Datenelement-Basis einer zweiten Quelle eine Nullsetzung von Bits, die höher (höherwertiger) sind als ein Startpunkt in dem Datenelement. Der Startpunkt wird durch die Inhalte eines Datenelements in einer ersten Quelle festgelegt. Die sich ergebenden Datenelemente werden an einer entsprechenden Position des Datenelements eines Ziels gespeichert.

    Masking for compress and rotate instructions in vector processors

    公开(公告)号:GB2507655A

    公开(公告)日:2014-05-07

    申请号:GB201318167

    申请日:2013-10-14

    Applicant: INTEL CORP

    Abstract: Vector instruction 1401 comprises vector source1420 and destination 1440, destination offset 1430, and mask 1410. Data fields in the mask correspond to locations in the vector. An execution unit copies unmasked vector elements from source operand 1420 to adjacent sequential element locations in the vector destination (e.g. 4 to 7), starting at the offset location. Mask values track progress and/or completion of vector compress and rotate instructions in a processor. Upon copying an unmasked vector source to destination, the corresponding field in the mask is changed to masked. An instruction can be re-executed after the destination, which has become full, is stored to a memory by using the modified mask and an offset of zero. This compresses only the elements that still need execution. Uses include SIMD vector compress and rotate instructions for benchmark applications, e.g. the inner loop of 444.NAMD of the SPEC suite, otherwise not easily vectorised.

    Anweisung und Logik zum Bereitstellen einer Vektorkompressions- und Rotationsfunktionalität

    公开(公告)号:DE102013018238A1

    公开(公告)日:2014-04-30

    申请号:DE102013018238

    申请日:2013-10-30

    Applicant: INTEL CORP

    Abstract: Anweisungen und eine Logik zum Bereitstellen von einer Vektorkompressions- und Rotationsfunktionalität. Einige Ausführungsbeispiele führen ansprechend auf eine Instruktion, die Folgendes spezifiziert: eine Vektorquelle, eine Maske, ein Vektorziel und Zielversatz, ein Lesen der Maske und ein Kopieren entsprechender unmaskierter Vektorelemente von einer Vektorquelle zu sequentiell benachbarten Positionen in dem Vektorziel, beginnend bei einer Vektorzielversatzposition, aus. In einigen Ausführungsbeispielen werden die unmaskierten Vektorelemente von der Vektorquelle zu sequentiell benachbarten Elementenpositionen kopiert modulo der Gesamtzahl von Elementenpositionen in dem Vektorziel. In einigen Ausführungsbeispielen wird das Kopieren angehalten, wenn immer das Vektorziel voll ist und auf ein Kopieren eines unmaskierten Vektorelementes von der Vektorquelle zu einer sequentiell benachbarten Elementenposition in dem Vektorziel, wobei der Wert des entsprechenden Feldes in der Maske zu einem maskierten Wert gewechselt wird. Alternative Ausführungsbeispiele setzen Elemente zu Null in dem Vektorziel, in welcher keine Elemente von der Vektorquelle kopiert werden.

Patent Agency Ranking