EINRICHTUNG UND VERFAHREN ZUM DURCHFÜHREN EINER DUALEN VORZEICHENBEHAFTETEN UND VORZEICHENLOSEN MULTIPLIKATION VON GEPACKTEN DATENELEMENTEN

    公开(公告)号:DE102018006743A1

    公开(公告)日:2019-04-04

    申请号:DE102018006743

    申请日:2018-08-24

    Applicant: INTEL CORP

    Abstract: Eine Einrichtung und ein Verfahren zum Durchführen von dualen gleichzeitigen Multiplikationen von gepackten Datenelementen. Zum Beispiel umfasst eine Ausführungsform eines Prozessors Folgendes: einen Decoder zum Decodieren eines ersten Befehls zum Erzeugen eines decodierten Befehls; ein erstes Quellregister zum Speichern einer ersten Vielzahl von gepackten Datenelementen; ein zweites Quellregister zum Speichern einer zweiten Vielzahl von gepackten Datenelementen; eine Ausführungsschaltung zum Ausführen des decodierten Befehls, die Ausführungsschaltung umfassend: eine Multipliziererschaltung zum Durchführen von gleichzeitigen dualen Multiplikationen eines ersten gepackten Datenelements aus dem ersten Quellregister mit einem zweiten gepackten Datenelement aus dem zweiten Quellregister und eines dritten gepackten Datenelements aus dem ersten Quellregister mit einem vierten gepackten Datenelement aus dem zweiten Quellregister, um erste bzw. zweite Produkte zu erzeugen, wobei die ersten und dritten gepackten Datenelemente eine Breite aufweisen, die zweimal so groß ist wie eine Breite der zweiten und vierten gepackten Datenelemente; die Multipliziererschaltung zum Auswählen der ersten und dritten gepackten Datenelemente aus dem ersten Quellregister und der zweiten und vierten gepackten Datenelemente aus dem zweiten Quellregister gemäß dem unmittelbaren Element, um die ersten und zweiten Produkte zu erzeugen.

    SYSTEME, VORRICHTUNGEN UND VERFAHREN FÜR DUALEN KOMPLEX DURCH KOMPLEXE KONJUGATIONSMULTIPLIKATION VON VORZEICHENBEHAFTETEN WÖRTERN

    公开(公告)号:DE102018006013A1

    公开(公告)日:2019-04-04

    申请号:DE102018006013

    申请日:2018-07-30

    Applicant: INTEL CORP

    Abstract: Ausführungsformen von Systemen, Vorrichtungen und Verfahren für eine duale komplexe Zahl durch komplexe Konjugations-Multiplikation in einem Prozessor sind beschrieben. Zum Beispiel führt eine Ausführungsschaltung einen decodierten Befehl aus zum: Multiplexen von Datenwerten aus einer Mehrzahl von Positionen von gepackten Datenelementen in dem ersten und dem zweiten Quelloperanden für gepackte Daten zu mindestens einer Multiplikatorschaltung, wobei der erste und der zweite Quelloperand für gepackte Daten eine Mehrzahl von Paaren komplexer Zahlen aufweisen, wobei jedes Paar komplexer Zahlen Datenwerte an gemeinsamen Positionen von gepackten Datenelementen in dem ersten und dem zweiten Quelloperanden für gepackte Daten aufweist; Berechnen eines reellen Teils und eines imaginären Teils eines Produkts einer ersten komplexen Zahl und einer komplexen Konjugation einer zweiten komplexen Zahl; und Speichern des reellen Teils in einer ersten Position von gepackten Datenelementen in dem Zieloperanden und Speichern des imaginären Teils in einer zweiten Position von gepackten Datenelementen in dem Zieloperanden.

    UNTERBRECHUNGSFÄHIGE UND NEUSTARTFÄHIGE MATRIX-MULTIPLIKATIONSINSTRUKTIONEN, PROZESSOREN, VERFAHREN, UND SYSTEME

    公开(公告)号:DE112017003340T5

    公开(公告)日:2019-03-14

    申请号:DE112017003340

    申请日:2017-06-06

    Applicant: INTEL CORP

    Abstract: Ein Prozessor eines Aspekts enthält eine Decodiereinheit zum Decodieren einer Matrix-Multiplikationsinstruktion. Die Matrix-Multiplikationsinstruktion soll einen ersten Speicherort einer ersten Quellenmatrix angeben, soll einen zweiten Speicherort einer zweiten Quellenmatrix angeben, und soll einen dritten Speicherort angeben, wo eine Ergebnis-Matrix gespeichert werden soll. Der Prozessor enthält außerdem eine Ausführungseinheit, die mit der Decodiereinheit gekoppelt ist. Die Ausführungseinheit dient dazu, als Reaktion auf die Matrix-Multiplikationsinstruktion einen Abschnitt der ersten und zweiten Quellenmatrizes vor einer Unterbrechung zu multiplizieren und einen Vollendungsfortschrittsindikator als Reaktion auf die Unterbrechung zu speichern. Der Vollendungsfortschrittsindikator dient zu, einen Betrag des Fortschritts beim Multiplizieren der ersten und zweiten Quellenmatrizes und des Speicherns entsprechender Ergebnisdaten an dem dritten Speicherort, das vor der Unterbrechung vollendet sein soll, anzugeben.

    Verfahren und Vorrichtungen für Fusionsbefehle zur Bereitstellung der OR-Test- und AND-Test-Funktionalität auf mehreren Testquellen

    公开(公告)号:DE102014003795A1

    公开(公告)日:2014-09-18

    申请号:DE102014003795

    申请日:2014-03-17

    Applicant: INTEL CORP

    Abstract: Es werden V erfahren und Vorrichtungen für Fusionsbefehle zur Bereitstellung der OR-Test- und AND-Test-Funktionalität auf mehreren Testquellen offengelegt. Einige Ausführungsformen beinhalten Holbefehle, wobei diese Befehle einen ersten Befehl, der ein erstes Ziel des Operanden angibt, einen zweiten Befehl, der eine zweite Quelle des Operanden angibt und einen dritten Befehl, der eine Verzweigungsbedingung angibt, beinhalten. Ein Teil der Vielzahl von Befehlen ist zu einer einzigen Mikro-Operation fusioniert, wobei dieser Teil sowohl den ersten als auch den zweiten Befehl umfasst, wenn das erste Operandenziel und die zweite Operandenquelle gleich sind, und die Verzweigungsbedingung vom zweiten Befehl abhängt. Einige Ausführungsformen generieren einen neuen Testbefehl dynamisch, indem sie einen logischen Befehl mit einem dem Stand der Technik entsprechenden Befehl fusionieren. Andere Ausführungsformen generieren den neuartigen Testbefehl über einen Just-In-Time-Compiler. Einige Ausführungsformen fusionieren zudem den neuartigen Testbefehl mit einem nachfolgenden bedingten Verzweigungsbefehl und führen eine Verzweigung gemäß dem gesetzten Merker durch.

    PACKED DATA OPERATION MASK COMPARISON PROCESSORS, METHODS, SYSTEMS, AND INSTRUCTIONS
    17.
    发明公开
    PACKED DATA OPERATION MASK COMPARISON PROCESSORS, METHODS, SYSTEMS, AND INSTRUCTIONS 审中-公开
    MASKENVERGLEICHSPROZESSORENFÜRGEPACKTE DATEN SOWIE VERFAHREN,SYSTEME UND ANWEISUNGENDAFÜR

    公开(公告)号:EP2798458A4

    公开(公告)日:2017-05-17

    申请号:EP11878673

    申请日:2011-12-29

    Applicant: INTEL CORP

    Abstract: Receive packed data operation mask comparison instruction indicating first packed data operation mask having first packed data operation mask bits and second packed data operation mask having second packed data operation mask bits. Each packed data operation mask bit of first mask corresponds to a packed data operation mask bit of second mask in corresponding position. Modify first flag to first value if bitwise AND of each packed data operation mask bit of first mask with each corresponding packed data operation mask bit of second mask is zero. Otherwise modify first flag to second value. Modify second flag to third value if bitwise AND of each packed data operation mask bit of first mask with bitwise NOT of each corresponding packed data operation mask bit of second mask is zero. Otherwise modify second flag to fourth value.

    Abstract translation: 接收指示具有第一打包数据操作掩码位的第一打包数据操作掩码和具有第二打包数据操作掩码位的第二打包数据操作掩码的打包数据操作掩码比较指令。 第一掩码的每个打包数据操作掩码位对应于对应位置中的第二掩码的打包数据操作掩码位。 如果第一掩码的每个打包数据操作掩码位与​​第二掩码的每个对应打包数据操作掩码位的按位“与”为零,则将第一标志修改为第一值。 否则,修改第一个标志为第二个值。 如果第一掩码的每个打包数据操作掩码比特与第二掩码的每个对应打包数据操作掩码比特的比特不为“0”,则将第二标志修改为第三值。 否则,修改第二个标志为第四个值。

    19.
    发明专利
    未知

    公开(公告)号:ES2997191T3

    公开(公告)日:2025-02-14

    申请号:ES21217772

    申请日:2019-10-08

    Applicant: INTEL CORP

    Abstract: Las realizaciones descritas se refieren al cálculo de productos de puntos de nibbles en operandos de mosaico. En un ejemplo, una unidad de procesamiento comprende: circuitos de búsqueda para buscar una instrucción; circuitos de decodificación para decodificar la instrucción; y circuitos de ejecución acoplados con los circuitos de decodificación, los circuitos de ejecución para realizar operaciones correspondientes a la instrucción. La instrucción tiene un código de operación, un primer campo para especificar una primera ubicación de almacenamiento de una pluralidad de elementos de datos correspondientes a una primera matriz que tiene M filas por N columnas de elementos de datos de punto flotante de precisión simple de 32 bits, un segundo campo para especificar una segunda ubicación de almacenamiento de una pluralidad de elementos de datos correspondientes a una segunda matriz que tiene M filas por K columnas de elementos de datos de punto flotante de 16 bits que tienen un formato bfloat16, y un tercer campo para especificar una tercera ubicación de almacenamiento de una pluralidad de elementos de datos correspondientes a una tercera matriz que tiene K filas por N columnas de elementos de datos de punto flotante de 16 bits que tienen el formato bfloat16. El circuito de ejecución consiste en realizar operaciones correspondientes a la instrucción de, para cada fila m de las M filas de la segunda matriz, y para cada columna n de las N columnas de la tercera matriz: generar un producto escalar a partir de K elementos de datos de punto flotante de 16 bits correspondientes a la fila m de la segunda matriz y K elementos de datos de punto flotante de 16 bits correspondientes a la columna n de la tercera matriz; acumular el producto escalar con un elemento de datos de punto flotante de precisión simple de 32 bits correspondiente a una fila m de las M filas, y correspondiente a una columna n de las N columnas, de la primera matriz para generar un elemento de datos de punto flotante de precisión simple de 32 bits resultante; y almacenar el elemento de datos de punto flotante de precisión simple de 32 bits resultante en una posición de la primera ubicación de almacenamiento correspondiente a la fila m y la columna n de la primera matriz. (Traducción automática con Google Translate, sin valor legal)

    20.
    发明专利
    未知

    公开(公告)号:ES2993213T3

    公开(公告)日:2024-12-26

    申请号:ES21166159

    申请日:2019-10-08

    Applicant: INTEL CORP

    Abstract: Las realizaciones descritas se refieren a sistemas y métodos para ejecutar una instrucción de producto de punto de punto flotante. En un ejemplo, un procesador incluye un circuito de búsqueda para buscar la instrucción de producto de punto de punto flotante; una unidad de decodificación para decodificar la instrucción de producto de punto de punto flotante; y un circuito de ejecución acoplado a la unidad de decodificación. El circuito de ejecución para ejecutar la instrucción de producto de punto de punto flotante decodificada para: multiplicar elementos de datos de punto flotante de 16 bits de los pares del primer vector de origen, con elementos de datos de punto flotante de 16 bits correspondientes de los pares correspondientes del segundo vector de origen, para generar una pluralidad de pares de productos; generar una pluralidad de elementos de datos de punto flotante de precisión simple de 32 bits resultantes mediante la adición de los respectivos pares de productos con un elemento de datos de punto flotante de precisión simple de 32 bits del tercer vector de origen correspondiente a un par del primer vector de origen utilizado para generar el respectivo par de productos, y la aplicación de un modo de redondeo de punto flotante para la instrucción de producto de punto flotante; y almacenar la pluralidad de elementos de datos de punto flotante de precisión simple de 32 bits de resultado en el registro vectorial de origen/destino. (Traducción automática con Google Translate, sin valor legal)

Patent Agency Ranking