-
公开(公告)号:CN119861972A
公开(公告)日:2025-04-22
申请号:CN202411937513.5
申请日:2017-07-01
Applicant: 英特尔公司
Inventor: R·凡伦天 , Z·斯波伯 , M·J·查尼 , B·L·托尔 , R·拉波波特 , S·什沃茨曼 , D·鲍姆 , I·亚诺弗 , E·乌尔德-阿迈德-瓦尔 , M·阿德尔曼 , J·考博尔 , Y·戈比尔 , S·卢巴诺维奇
Abstract: 本申请公开了用于片矩阵乘法和累加的系统、方法和装置。具体而言,讨论了矩阵(片)乘法累加和负版本矩阵(片)乘法累加。例如,在一些实施例中,详述了:解码电路,用于对指令解码,该指令具有用于操作码、第一源矩阵操作数的标识符、第二源矩阵操作数的标识符、以及源/目的地矩阵操作数的标识符的字段;以及执行电路,用于执行经解码的指令以:将所标识的第一源矩阵操作数乘以所标识的第二源矩阵操作数;将乘法的结果加到所标识的源/目的地矩阵操作数;以及将加法的结果存储在所标识的源/目的地矩阵操作数中并将所标识的源/目的地矩阵操作数的未配置列归零。
-
公开(公告)号:CN115729617A
公开(公告)日:2023-03-03
申请号:CN202210906473.2
申请日:2022-07-29
Applicant: 英特尔公司
Abstract: 本申请公开了BFLOAT16融合乘法指令。描述了用于响应于指令而执行BF16FMA的技术。在一些示例中,指令包括用于以下各项的字段:操作码、紧缩数据源/目的地操作对象(第一源)的位置的标识、第二紧缩数据源操作对象的位置的标识、第三紧缩数据源操作对象的位置的标识、以及紧缩数据源/目的地操作对象的位置的标识,其中,操作码用于指示出操作对象排序并且指示出执行电路要进行:针对每一数据元素位置使用第一、第二和第三源操作对象执行BF16值融合乘法‑累加操作,以及将结果存储在源/目的地操作对象的对应数据元素位置中。
-
公开(公告)号:CN113849770A
公开(公告)日:2021-12-28
申请号:CN202011545444.5
申请日:2020-12-24
Applicant: 英特尔公司
Abstract: 公开了用于按行收集和分散矩阵数据的实施例。在实施例中,处理器包括储存器矩阵、解码器和执行电路。所述解码器要对具有格式的指令进行解码,所述格式包括用于指定操作码的操作码字段和用于指定不规则间隔存储器位置集合的第一操作数字段。所述执行电路要响应于经解码的指令,计算与所述不规则间隔存储器位置集合相对应的地址集合,并在所述储存器与所述不规则间隔存储器位置集合之间转移数据行集合。
-
公开(公告)号:CN112711443A
公开(公告)日:2021-04-27
申请号:CN202110203969.9
申请日:2019-10-09
Applicant: 英特尔公司
Abstract: 所公开实施例涉及用于执行16位浮点向量点积指令的系统和方法。在一个示例中,处理器包括:取出电路,用于取出指令,该指令具有用于指定操作码以及第一源向量、第二源向量和目的地向量的位置的字段,该操作码用于指示执行电路用于将所指定的第一源和第二源的N对16位浮点格式化元素相乘,并且将所得的乘积与所指定的目的地的对应的单精度元素的先前内容累加;解码电路,用于对所取出的指令解码;以及执行电路,用于如该操作码所指定地对经解码的指令作出响应。
-
公开(公告)号:CN109992304A
公开(公告)日:2019-07-09
申请号:CN201811452229.3
申请日:2018-11-30
Applicant: 英特尔公司
Inventor: R·萨德 , S·卢巴诺维奇 , A·格雷德斯廷 , Z·斯波比尔 , A·海内克 , R·凡伦天 , M·J·查尼 , B·托尔 , J·科巴尔 , E·乌尔德-阿迈德-瓦尔 , M·阿德尔曼
Abstract: 本文详述的实施例涉及用于加载片寄存器对的系统和方法。在一个示例中,一种处理器包括:解码电路,用于对加载矩阵对指令解码,该加载指令对指令具有用于操作码、源标识符和目的地标识符的字段,该源标识符和目的地标识符用于分别标识源矩阵和目的地矩阵,每个矩阵都具有等于真的PAIR参数;以及执行电路,用于执行经解码的加载矩阵对指令,以分别从所标识的源矩阵的左片和右片的对应元素位置加载所标识的目的地矩阵的左片和右片的每个元素,其中执行从第一行开始一次对所标识的目的地矩阵的一行进行操作。
-
公开(公告)号:CN118132146A
公开(公告)日:2024-06-04
申请号:CN202410247930.0
申请日:2020-02-27
Applicant: 英特尔公司
IPC: G06F9/30
Abstract: 用于下转换以及交错多个浮点值的装置和方法。一种下转换并且交错数据元素的装置和方法。处理器的一个实施例包括:解码器,其用于解码第一指令来生成经解码的指令;第一源寄存器,其用于存储第一多个紧缩数据元素;第二源寄存器,其用于存储第二多个紧缩数据元素;目的地寄存器,其用于存储第三多个和第四多个紧缩数据元素;执行电路,其用于执行经解码的指令,所述执行电路包括:下转换电路,其用于下转换所述第一(第二)多个紧缩数据元素中的每一个以生成所述第三(第四)多个紧缩数据元素之一;交错电路,其用于在目的地寄存器内交错所述第三多个紧缩数据元素与所述第四多个紧缩数据元素。
-
公开(公告)号:CN116150564A
公开(公告)日:2023-05-23
申请号:CN202310280501.9
申请日:2017-07-01
Applicant: 英特尔公司
Inventor: R·凡伦天 , Z·斯波伯 , M·J·查尼 , B·L·托尔 , R·拉波波特 , S·什沃茨曼 , D·鲍姆 , I·亚诺弗 , E·乌尔德-阿迈德-瓦尔 , M·阿德尔曼 , J·考博尔 , Y·戈比尔 , S·卢巴诺维奇
Abstract: 本申请公开了用于片矩阵乘法和累加的系统、方法和装置。具体而言,讨论了矩阵(片)乘法累加和负版本矩阵(片)乘法累加。例如,在一些实施例中,详述了:解码电路,用于对指令解码,该指令具有用于操作码、第一源矩阵操作数的标识符、第二源矩阵操作数的标识符、以及源/目的地矩阵操作数的标识符的字段;以及执行电路,用于执行经解码的指令以:将所标识的第一源矩阵操作数乘以所标识的第二源矩阵操作数;将乘法的结果加到所标识的源/目的地矩阵操作数;以及将加法的结果存储在所标识的源/目的地矩阵操作数中并将所标识的源/目的地矩阵操作数的未配置列归零。
-
公开(公告)号:CN115729620A
公开(公告)日:2023-03-03
申请号:CN202210908969.3
申请日:2022-07-29
Applicant: 英特尔公司
Abstract: 本申请公开了BFLOAT16平方根和/或平方根倒数指令。描述了用于响应于指令而对BF16数据元素执行平方根或平方根倒数计算的技术。指令的示例是这样的指令:该指令具有用于以下各项的字段:操作码、紧缩数据源操作对象的位置的标识、以及紧缩数据目的地操作对象的标识,其中,操作码用于指示出执行电路要进行:针对紧缩数据源操作对象的每个数据元素位置执行该位置中的BF16数据元素的平方根值的计算,以及将每个平方根的结果存储到紧缩数据目的地操作对象的对应数据元素位置中。
-
公开(公告)号:CN114461276A
公开(公告)日:2022-05-10
申请号:CN202210132102.3
申请日:2017-07-01
Applicant: 英特尔公司
Inventor: R·凡伦天 , D·鲍姆 , Z·斯波伯 , J·考博尔 , E·乌尔德-阿迈德-瓦尔 , B·L·托尔 , M·J·查尼 , M·阿德尔曼 , B·泽维 , A·海内克 , S·卢巴诺维奇
Abstract: 本申请公开了用于点积操作的系统、方法和装置。本文中详述的实施例涉及矩阵操作。例如,详述了对矩阵(片)点积操作的指令支持的实施例。示例性指令包括:计算有符号字的点积,并利用饱和累加在双字中;计算字节的点积,并利用饱和累加到双字中,其中,输入字节可以是有符号或无符号的,并且双字累加具有输出饱和;等等。
-
公开(公告)号:CN113849768A
公开(公告)日:2021-12-28
申请号:CN202011523329.8
申请日:2020-12-21
Applicant: 英特尔公司
Inventor: M·阿德尔曼 , R·凡伦天 , G·斯塔普 , Y·波拉克 , A·格雷德斯廷 , S·卢巴诺维奇 , Z·斯波比尔 , M·J·查尼 , C·J·休斯 , A·F·海内克 , E·吉奥加纳斯
Abstract: 公开了用于伴随数据类型转换来加载和存储矩阵数据的实施例。在实施例中,处理器包括解码器和执行电路。解码器用于对指令解码,该指令具有包括操作码字段、第一目的地操作数字段和第一源操作数字段的格式,操作码字段用于指定操作码,第一目的地操作数字段用于指定第一目的地矩阵位置,第一源操作数字段用于指定第一源矩阵位置。执行电路用于响应于经解码的指令,以将来自由第一源矩阵位置指定的第一源矩阵的多个源元素位置的数据元素从第一数据类型转换为第二数据类型以生成多个经转换的数据元素,并将多个经转换的数据元素中的每一个存储在由第一目的地矩阵位置指定的第一目的地矩阵中的多个目的地元素位置中的一个中。
-
-
-
-
-
-
-
-
-