-
公开(公告)号:GB2578972A8
公开(公告)日:2020-07-08
申请号:GB201916688
申请日:2011-09-26
Applicant: INTEL CORP
Inventor: ELMOUSTAPHA OULD-AHMED-VALL , KSHITIJ A DOSHI , CHARLES R YOUNT , SULEYMAN SAIR
IPC: G06F9/30
Abstract: Decoding an SIMD instruction comprising a first operation and a scatter operation. The SIMD instruction is to indicate a first source register with a first plurality of data elements, indicate a second source register comprising a second plurality of data element different from the first, and indicate a third source register which has a plurality of indices, each corresponding to the first plurality of elements. Also included is or more execution units to perform the first operation on the first and second data elements to form corresponding result data elements, and then perform a scatter operation to store each result data element in memory. The first operation may be binary, addition, multiplication or ternary. The first source register may comprise 512 bits and wherein the data elements of the first source register are one of 32 bit data elements and 64 bit data elements.
-
12.
公开(公告)号:BR112014004603A2
公开(公告)日:2017-06-13
申请号:BR112014004603
申请日:2011-09-26
Applicant: INTEL CORP
Inventor: CHARLES R YOUNT , ELMOUSTAPHA OULD-AHMED-VALL , KSHITIJ A DOSHI , SULEYMAN SAIR
-
公开(公告)号:GB2577943A
公开(公告)日:2020-04-15
申请号:GB201816774
申请日:2013-09-27
Applicant: INTEL CORP
Inventor: JESUS CORBAL SAN ADRIAN , BRET L TOLL , ROBERT C VALENTINE , JEFFREY G WIEDEMEIER , SRIDHAR SAMUDRALA , MILIND BABURAO GIRKAR , ANDREW THOMAS FORSYTH , ELMOUSTAPHA OULD-AHMED-VALL , DENNIS R BRADFORD , LISA K WU
IPC: G06F9/30
Abstract: A blend instruction is performed on a first plurality of elements A0-A15 stored in a first 512 bit source vector register and a second plurality of elements B0-B15 stored in a second 512 bit vector register. Each value in the first plurality of elements has a corresponding value in the second plurality of elements and a corresponding predicate data bit in a mask, wherein the mask bit controls which of the source vector elements is written to the destination vector register. The blend operation is performed by a chip comprising a first processor, second processor, a graphics processor and an integrated memory controller.
-
公开(公告)号:BR112015029810A2
公开(公告)日:2017-07-25
申请号:BR112015029810
申请日:2014-06-17
Applicant: INTEL CORP
Inventor: ELMOUSTAPHA OULD-AHMED-VALL , ROBERT VALENTINE
Abstract: “aparelho e método para reverter e permutar bits em um registro de máscara” trata-se de um aparelho e método para realizar uma reversão de bit e permutação em valores de máscara. por exemplo, um processador é descrito para executar uma instrução a fim de realizar as operações de: ler uma pluralidade de bits de máscara armazenada em um registro de máscara de fonte, em que os bits de máscara são associados aos elementos de dados de vetor de um registro de vetor; e realizar uma operação de reversão de bit para copiar cada bit de máscara de um registro de máscara de fonte para um registro de máscara de destinação, em que a operação de reversão de bit faz com que os bits do registro de máscara de fonte sejam revertidos dentro do registro de máscara de destinação resultando em uma imagem espelhada simétrica da disposição de bit original.
-
15.
公开(公告)号:BR112014004600A2
公开(公告)日:2017-06-13
申请号:BR112014004600
申请日:2011-09-26
Applicant: INTEL CORP
Inventor: CHARLES R YOUNT , ELMOUSTAPHA OULD-AHMED-VALL , KSHITIJ A DOSHI , SULEYMAN SAIR
-
公开(公告)号:GB2508312B
公开(公告)日:2020-04-22
申请号:GB201402148
申请日:2011-09-26
Applicant: INTEL CORP
Inventor: ELMOUSTAPHA OULD-AHMED-VALL , KSHITIJ A DOSHI , SULEYMAN SAIR , CHARLES R YOUNT
-
公开(公告)号:BR112019009566A2
公开(公告)日:2019-08-06
申请号:BR112019009566
申请日:2016-12-12
Applicant: INTEL CORP
Inventor: BRET L TOLL , BUFORD M GUY , CHRISTOPHER J HUGHES , DAVID PAPWORTH , EDWARD T GROCHOWSKI , ELMOUSTAPHA OULD-AHMED-VALL , JAMES D ALLEN , JASON W BRANDT , JESUS CORBAL , LIHU RAPPOPORT , ROBERT S CHAPPELL , RONAK SINGHAL , SEYED YAHYA SOTOUDEH , STEPHEN H GUNTHER , THOMAS R HUFF
IPC: G06F12/0817
Abstract: são divulgadas modalidades de uma invenção de uma arquitetura de processador. em uma modalidade, um processador inclui um decodificador, uma unidade de execução, um cache coerente e uma interconexão. o decodificador é para decodificar uma instrução para zerar uma linha de cache. a unidade de execução é para emitir um comando de gravação para iniciar uma gravação de zeros no tamanho da linha de cache. o cache coerente é para receber o comando de gravação, para determinar se existe um golpe no cache coerente e se um estado do protocolo de coerência de cache da linha de cache com golpe é um estado modificado ou um estado exclusivo, para configurar uma linha de cache para indicar todos os zeros, e para emitir o comando de gravação para a interconexão. a interconexão é para, reativa à recepção do comando de gravação, emitir uma espionagem para cada um de uma pluralidade de outros caches coerentes para os quais deve ser determinado se há um golpe.
-
公开(公告)号:BR112017011515A2
公开(公告)日:2018-02-27
申请号:BR112017011515
申请日:2015-12-14
Applicant: INTEL CORP
Inventor: AMIT GRADSTEIN , CHRISTOPHER J HUGHES , ELMOUSTAPHA OULD-AHMED-VALL , MARK J CHARNEY , ROBERT VALENTINE , SIMON RUBANOVICH , YURI GEBIL , ZEEV SPERBER
IPC: G06F15/80
Abstract: ?métodos, aparelhos, instruções e lógica para fornecer funcionalidade de comparação cruzada de tupla empacotada de vetor? trata-se de instruções e lógica que fornecem funcionalidade de comparação cruzada de tupla empacotada de vetor por simd. algumas modalidades de processador incluem primeiro e segundo registros com uma pluralidade variável de campos de dados, sendo que cada campo de dados armazena um elemento de um primeiro tipo de dados. o processador executa instruções de simd para comparações cruzadas de tupla empacotada de vetor em algumas modalidades, que, para cada campo de dados de uma porção de campos de dados em uma tupla do primeiro registro, compara seu elemento correspondente com cada elemento de uma porção correspondente de campos de dados em uma tupla do segundo registro e define bits de máscara correspondentes a elementos da segunda porção de registro, em uma máscara de bits correspondente a elementos desmascarados da primeira porção de registro correspondente, de acordo com a comparação correspondente. em algumas modalidades, as máscaras de bits são alteradas por elementos correspondentes em campos de dados de um terceiro registro. o tipo de comparação é indicado por um operando imediato.
-
公开(公告)号:BR112017010985A2
公开(公告)日:2018-02-14
申请号:BR112017010985
申请日:2015-11-20
Applicant: INTEL CORP
Inventor: DAVID F GUILLEN , ELMOUSTAPHA OULD-AHMED-VALL , F JESUS SANCHEZ , GUILLEM SOLE , ROGER ESPASA
IPC: G06F9/38
Abstract: ?aparelho e método para difusão de vetor e instrução lógica xorand? trata-se de um aparelho e método para realizar uma difusão de vetor e instrução lógica xorand. por exemplo, uma modalidade de um processador compreende: buscar lógica para buscar uma instrução de memória que indica um operando de dados empacotados de destino, um primeiro operando de dados empacotados de fonte, um segundo operando de dados empacotados de fonte, e um operando imediato, e lógica de execução para determinar um bit no segundo operando de dados empacotados de fonte com base em uma posição correspondente ao valor imediato, realizar um bit a bit do tipo and entre o primeiro operando de dados empacotados de fonte e o bit determinado para gerar um resultado intermediário, realizar um bit a bit do tipo xor entre o operando de dados empacotados de destino e o resultado intermediário para gerar um resultado final, e armazenar o resultado final em um local de armazenamento indicado pelo operando de dados empacotados de destino.
-
20.
公开(公告)号:BR112017010005A2
公开(公告)日:2018-01-02
申请号:BR112017010005
申请日:2015-10-09
Applicant: INTEL CORP
Inventor: ELMOUSTAPHA OULD-AHMED-VALL , RUCHIRA SASANKA
Abstract: ?aparelho e método para considerar localidade espacial no carregamento de elementos de dados para execução? trata-se de, em uma modalidade da invenção, de um processador que compreende um cache de nível superior e pelo menos um núcleo de processador. o pelo menos um núcleo de processador inclui um ou mais registros e uma pluralidade de estágios de processamento de instrução: uma unidade de decodificação para decodificar uma instrução que exige uma entrada de uma pluralidade de elementos de dados, em que um tamanho de cada um dentre a pluralidade de elementos de dados é menor que um tamanho de linha de cache do processador; uma unidade de execução para carregar a pluralidade de elementos de dados no um ou mais registros do processador, sem carregar elementos de dados espacialmente adjacentes à pluralidade de elementos de dados ou à pluralidade de elementos de dados em um cache de nível superior.
-
-
-
-
-
-
-
-
-