-
公开(公告)号:DE112013005416T5
公开(公告)日:2015-07-30
申请号:DE112013005416
申请日:2013-06-30
Applicant: INTEL CORP
Inventor: TOLL BRET L , GIRKAR MILIND B , HUGHES CHRISTOPHER , OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT , CORBAL JESUS , CHARNEY MARK J
Abstract: Befehle und eine Logik stellen eine SIMD-Adressenkonflikt-Detektionsfunktionalität bereit. Einige Ausführungsformen umfassen Prozessoren mit einem Register mit einer variablen Anzahl von Datenfeldern, wobei jedes der Datenfelder einen Versatz für ein Datenelement in einem Speicher speichern soll. Ein Zielregister hat entsprechende Datenfelder, wobei jedes dieser Datenfelder eine variable zweite Anzahl von Bits speichern soll, um eine Konfliktmaske mit einem Maskenbit für jeden Versatz zu speichern. Als Antwort auf die Decodierung eines Vektorkonfliktbefehls vergleichen Ausführungseinheiten den Versatz in jedem Datenfeld mit jedem niedrigerwertigen Datenfeld, um zu bestimmen, ob sie einen übereinstimmenden Versatz tragen, und setzen in entsprechenden Konfliktmasken in dem Zielregister jegliche Maskenbits, die einem niedrigerwertigen Datenfeld entsprechen, das einen übereinstimmenden Versatz aufweist. Eine Vektoradressenkonfliktdetektion kann mit Elementen variabler Größe verwendet werden und zum Erzeugen von Konfliktmasken verwendet werden, um Abhängigkeiten in Sammeln-Modifizieren-Verteilen-SIMD-Operationen zu lösen.
-
公开(公告)号:GB2520860A
公开(公告)日:2015-06-03
申请号:GB201501047
申请日:2013-06-14
Applicant: INTEL CORP
Inventor: HUGHES CHRISTOPHER J , CHARNEY MARK J , CORBAL JESUS , GIRKAR MILIND B , OULD-AHMED-VALL ELMOUSTAPHA , TOLL BRET L , VALENTINE ROBERT
IPC: G06F9/30
Abstract: Systems, apparatuses, and methods of performing in a computer processor broadcasting data in response to a single vector packed broadcasting instruction that includes a source writemask register operand, a destination vector register operand, and an opcode. In some embodiments, the data of the source writemask register is zero extended prior to broadcasting.
-
公开(公告)号:GB2514885A
公开(公告)日:2014-12-10
申请号:GB201404575
申请日:2014-03-14
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT
IPC: G06F9/30
Abstract: Embodiments of systems, methods and apparatuses for execution a VPBZHI instruction are described. The execution of a VPBZHI causes, on a per data element basis of a second source, a zeroing of bits higher (more significant) than a starting point in the data element. The starting point is defined by the contents of a data element in a first source. The resultant data elements are stored in a corresponding data element position of a destination.
-
94.
公开(公告)号:DE102014003706A1
公开(公告)日:2014-09-18
申请号:DE102014003706
申请日:2014-03-13
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , VALENTINE ROBERT
Abstract: Ein Prozessor eines Aspekts enthält mehrere Packdatenregister. Der Prozessor enthält außerdem eine Einheit, die mit den Packdatenregistern gekoppelt ist. Die Einheit ist betriebsfähig, in Reaktion auf eine bereichsbegrenzte Vektorspeicherzugriffsinstruktion. Die Instruktion soll einen quellengepackten Speicherindex anzeigen, der mehrere gepackte Speicherindizes aufweisen soll, die aus 8-Bit-Speicherindizes und 16-Bit-Speicherindizes ausgewählt werden sollen. Die Einheit ist dafür geeignet, auf Speicherorte in nur einem begrenzten Bereich eines Speichers in Reaktion auf die bereichsbegrenzte Vektorspeicherzugriffsinstruktion zuzugreifen. Es werden noch andere Prozessoren offenbart, wie auch Verfahren, Systeme und Instruktionen.
-
公开(公告)号:DE102014003659A1
公开(公告)日:2014-09-18
申请号:DE102014003659
申请日:2014-03-14
Applicant: INTEL CORP
Inventor: HUGHES CHRISTOPHER J , CHARNEY MARK J , CORBAL JESUS , GIRKAR MILIND B , OULD-AHMED-VALL ELMOUSTAPHA , TOLL BRET L , VALENTINE ROBERT
IPC: G06F9/38
Abstract: Die Ausführung eines KZBTZ ermittelt eine folgende niedrigstwertige Nullbitposition in einer ersten Eingabemaske und setzt eine Ausgabemaske so, dass sie die Werte der ersten Eingabemaske aufweist, aber mit allen Bitpositionen näher zur höchstwertigen Bitposition als die folgende niedrigstwertige Nullbitposition in einer ersten Eingabemaske, die auf null gesetzt ist. In einigen Ausführungsformen wird eine zweite Eingabemaske als Schreibmaske verwendet, derart dass Bitpositionen der ersten Eingabemaske bei der Berechnung der folgenden niedrigstwertigen Nullbitposition nicht berücksichtigt werden, die von einer entsprechenden Bitposition in der zweiten Eingabemaske abhängt.
-
公开(公告)号:DE102013021221A1
公开(公告)日:2014-07-03
申请号:DE102013021221
申请日:2013-12-17
Applicant: INTEL CORP
Inventor: ULIEL TAL , OULD-AHMED-VALL ELMOUSTAPHA , TOLL BRET L
IPC: G06F9/38
Abstract: Befehle und Logik stellen eine Vektorisierung von bedingten Schleifen bereit. Ein Vektorerweiterungsbefehl weist einen Parameter zur Bestimmung eines Quellenvektors, einen Parameter zur Bestimmung eines Bedingungsmaskenregisters und einen Destinationsparameter zur Bestimmung eines Destinationsvektors zum Halten von n fortlaufenden Vektorelementen auf, wobei jedes der Vielzahl von n fortlaufenden Vektorelementen eine gleiche variable Unterteilungsgröße von m Bytes aufweist. Als Reaktion auf den Prozessorbefehl werden Daten von fortlaufenden Vektorelementen in dem Quellenvektor kopiert und in unmaskierte Vektorelemente des bestimmten Destinationsvektors erweitert, ohne dass Daten in maskierte Vektorelemente des Destinationsvektors kopiert werden, wobei sich n als Reaktion auf den ausgeführten Prozessorbefehl verändert. Der Quellenvektor kann ein Register sein, und der Destinationsvektor kann sich im Speicher befinden. Einige Ausführungsformen speichern Zählwerte der Bedingungsentscheidungen. Alternative Ausführungsformen können andere Daten speichern, zum Beispiel etwa Zieladressen oder den Tabellenversatz oder Indikatoren von Verarbeitungsanweisungen usw.
-
公开(公告)号:DE102013020834A1
公开(公告)日:2014-07-03
申请号:DE102013020834
申请日:2013-12-12
Applicant: INTEL CORP
Inventor: ULIEL TAL , BOLSHEM BORIS , OULD-AHMED-VALL ELMOUSTAPHA
IPC: G06F9/30
Abstract: Ein maschinenlesbares Speichermedium, das Programmcode umfasst, ist beschrieben, der, wenn er von einem Prozessor verarbeitet wird, verursacht, dass ein Verfahren durchgeführt wird. Das Verfahren weist ein Erzeugen einer resultierenden gerollten Version eines Eingabevektors durch Formen eines ersten Zwischenvektors, Formen eines zweiten Zwischenvektors und Formen einer resultierenden gerollten Version eines Eingabevektors auf. Der erste Zwischenvektor wird durch Tonnen-Rollen von Elementen des Eingabevektors entlang einer ersten von zwei Spuren geformt, die durch eine obere Hälfte und eine untere Hälfte des Eingabevektors definiert sind. Der zweite Zwischenvektor wird durch Tonnen-Rollen von Elementen des Eingabevektors entlang einer zweiten der zwei Spuren geformt. Die resultierende gerollte Version des Eingabevektors wird durch Einarbeiten von oberen Abschnitten einer oberen und unteren Hälfte eines der Zwischenvektoren als obere Abschnitte einer oberen und unteren Hälfte der Resultanten und durch Einarbeiten von unteren Abschnitten einer oberen und unteren Hälfte des anderen Zwischenvektors als untere Abschnitte der oberen und unteren Hälfte der Resultanten geformt.
-
公开(公告)号:GB2503829A
公开(公告)日:2014-01-08
申请号:GB201317160
申请日:2011-12-12
Applicant: INTEL CORP
Inventor: ADRIAN JESUS CORBAL SAN , TOLL BRET L , VALENTINE ROBERT C , WIEDEMEIER JEFFREY G , SAMUDRALA SRIDHAR , GIRKAR MILIND BABURAO , FORSYTH ANDREW THOMAS , OULD-AHMED-VALL ELMOUSTAPHA , BRADFORD DENNIS R , WU LISA K
Abstract: Embodiments of systems, apparatuses, and methods for performing a blend instruction in a computer processor are described. In some embodiments, the execution of a blend instruction causes a data element-by-element selection of data elements of first and second source operands using the corresponding bit positions of a writemask as a selector between the first and second operands and storage of the selected data elements into the destination at the corresponding position in the destination.
-
公开(公告)号:ES2926704T3
公开(公告)日:2022-10-27
申请号:ES18164092
申请日:2018-03-26
Applicant: INTEL CORP
Inventor: OULD-AHMED-VALL ELMOUSTAPHA , BAGHSORKHI SARA S , YAO ANBANG , NEALIS KEVIN , CHEN XIAOMING , KOKER ALTUG , APPU ABHISHEK R , WEAST JOHN C , MACPHERSON MIKE B , KIM DUKHWAN , HURD LINDA L , ASHBAUGH BEN J , LAKSHMANAN BARATH , MA LIWEI , RAY JOYDEEP , TANG PING T , STRICKLAND MICHAEL S
Abstract: Una realización proporciona una unidad de procesamiento de gráficos de propósito general que comprende una unidad de punto flotante de precisión dinámica que incluye una unidad de control que tiene lógica de hardware de seguimiento de precisión para rastrear un número disponible de bits de precisión para datos computados en relación con una precisión objetivo, en donde la precisión dinámica la unidad de punto flotante incluye lógica computacional para generar datos con múltiples precisiones. (Traducción automática con Google Translate, sin valor legal)
-
公开(公告)号:ES2895266T3
公开(公告)日:2022-02-18
申请号:ES16923787
申请日:2016-12-12
Applicant: INTEL CORP
Inventor: BRANDT JASON W , CHAPPELL ROBERT S , CORBAL JESUS , GROCHOWSKI EDWARD T , GUNTHER STEPHEN H , GUY BUFORD M , HUFF THOMAS R , HUGHES CHRISTOPHER J , OULD-AHMED-VALL ELMOUSTAPHA , SINGHAL RONAK , SOTOUDEH SEYED YAHYA , TOLL BRET L , RAPPOPORT LIHU , PAPWORTH DAVID , ALLEN JAMES D
IPC: G06F12/0808 , G06F12/0817 , G06F12/0831
Abstract: Un procesador que comprende: un descodificador (140, 314) para descodificar una instrucción para configurar una línea de memoria caché para indicar todo ceros; una unidad de ejecución (162), acoplada al descodificador y en respuesta a la descodificación de la instrucción, para emitir una orden de escritura para iniciar una escritura de ceros de tamaño de línea de memoria caché en una dirección de memoria; una memoria caché coherente (3904), acoplada a la unidad de ejecución, para recibir la orden de escritura, para determinar si hay un acierto en la memoria caché coherente en respuesta a la orden de escritura, para determinar si un estado de protocolo de coherencia de memoria caché (4065) de la línea de memoria caché (4070) acertada es un estado modificado o un estado exclusivo, para configurar una línea de memoria caché para indicar todo ceros cuando el estado de protocolo de coherencia de memoria caché es el estado modificado o el estado exclusivo, y para emitir la orden de escritura hacia una interconexión (3920) cuando hay una recepción de respuesta a fallo a la orden de escritura; el procesador comprende además la interconexión, en donde la interconexión, en respuesta a la recepción de la orden de escritura, está configurada para emitir un sondeo a cada una de una pluralidad de otras memorias caché coherentes para las que se ha de determinar si hay un acierto, en donde la interconexión, o la unidad de ejecución en respuesta a un mensaje desde la interconexión, está configurada para hacer que una línea de memoria caché en una de las memorias caché coherentes indique todo ceros cuando la orden de escritura y el sondeo no hicieron que se realizara la escritura de ceros de tamaño de línea de memoria caché.
-
-
-
-
-
-
-
-
-