-
公开(公告)号:CN113282273A
公开(公告)日:2021-08-20
申请号:CN202110195149.X
申请日:2021-02-19
Applicant: 脸谱公司
Inventor: 阿卜杜勒卡迪尔·乌特库·迪里尔 , 克里希纳库马尔·纳拉亚南·奈尔 , 托马斯·马克·乌尔里希 , 拉凯什·科姆拉韦利 , 汪钊
Abstract: 本申请公开了用于多种格式的浮点运算的硬件。第一格式表示的浮点数被接收。基于浮点数的浮点格式类型的标识,识别第一格式表示的不同组成部分。第一格式表示的不同组成部分被放置在浮点数的第二格式表示的相应组成部分中,其中,第二格式表示的总位数大于第一格式表示的总位数。用一个或更多个零位填充第二格式表示的至少一个组成部分。第二格式表示的浮点数被存储在寄存器中。使用浮点数的第二格式表示的乘法被执行。
-
公开(公告)号:CN112748956A
公开(公告)日:2021-05-04
申请号:CN202011182408.7
申请日:2020-10-29
Applicant: 脸谱公司
Inventor: 克里希纳库马尔·纳拉亚南·奈尔 , 奥利维亚·吴 , 伊赫桑·基什·阿德斯坦尼·扎德 , 阿卜杜勒卡迪尔·乌特库·迪里尔 , 托马斯·马克·乌尔里希 , 郝宇辰 , 拉凯什·科姆拉韦利 , 阿拉温德·卡莱阿
Abstract: 公开了支持同时处理多个矩阵的高吞吐量矩阵处理器。一种系统包括数据输入向量单元、权重输入向量单元和矩阵处理器单元的多个计算单元。数据输入向量单元被配置为同时接收第一数据矩阵和第二数据矩阵的不同行的元素。权重输入向量单元被配置成接收组合权重向量,并且至少部分地同时向相应的第一组计算单元和第二组计算单元提供第一权重矩阵和第二权重矩阵的获得的权重元素。第一组计算单元和第二组计算单元中的每个计算单元被配置为将来自数据输入向量单元的元素与来自权重输入向量单元的相应权重矩阵的元素相乘,并将相应计算单元的相乘结果相加在一起,以至少部分地确定第一或第二卷积结果矩阵中的相应元素。
-
公开(公告)号:CN112596697A
公开(公告)日:2021-04-02
申请号:CN202011073214.3
申请日:2020-10-09
Applicant: 脸谱公司
Inventor: 克里希纳库马尔·纳拉亚南·奈尔 , 阿努普·拉梅什·卡德科尔 , 伊赫桑·基什·阿德斯坦尼·扎德 , 奥利维亚·吴 , 郝宇辰 , 托马斯·马克·乌尔里希 , 拉凯什·科姆拉韦利
IPC: G06F7/487
Abstract: 本申请涉及使用分解的分量数字的浮点乘法硬件。一种处理器系统包括一个或更多个逻辑单元,该逻辑单元被配置为接收识别将与第二浮点数相乘的第一浮点数的处理器指令。浮点数各自被分解成一组多个分量数字,其中用于表示每个浮点数的位数大于用于表示每组多个分量数字中的任何分量数字的位数。第一组的分量数字与第二组的分量数字相乘以确定中间乘法结果,将这些中间乘法结果相加在一起以确定表示第一浮点数与第二浮点数相乘的结果的有效结果。
-
公开(公告)号:CN113435569A
公开(公告)日:2021-09-24
申请号:CN202110310532.5
申请日:2021-03-23
Applicant: 脸谱公司
Inventor: 阿卜杜勒卡迪尔·乌特库·迪里尔 , 克里希纳库马尔·纳拉亚南·奈尔 , 阿努普·拉梅什·卡德科尔 , 伊赫桑·基什阿德斯坦尼扎德 , 奥利维亚·吴 , 郝宇辰 , 托马斯·马克·乌尔里希 , 拉凯什·科姆拉韦利 , 阿敏·费鲁沙希安 , 马丁·沙茨
Abstract: 公开了使用每通道卷积运算的流水线逐点卷积。一种处理器系统包括硬件通道卷积处理器单元和点积处理器单元。通道卷积处理器单元被配置为执行逐深度卷积,包括通过将卷积数据矩阵的第一组数据元素的每个数据元素与多个逐深度卷积权重矩阵的第二组数据元素的对应数据元素相乘,并且对于每个特定通道,将对应于特定通道的相乘结果相加在一起,以确定对应通道卷积结果矩阵中的一个对应结果数据元素,从而计算逐深度卷积结果的一部分。点积处理器单元被配置为执行逐点卷积,包括将逐点权重矩阵应用于逐深度卷积结果的一部分,以确定可分离卷积结果的一部分,同时处理器系统正在计算逐深度卷积结果的至少另一部分。
-
公开(公告)号:CN113326916A
公开(公告)日:2021-08-31
申请号:CN202110226681.3
申请日:2021-03-01
Applicant: 脸谱公司
Inventor: 阿卜杜勒卡迪尔·乌特库·迪里尔 , 克里希纳库马尔·纳拉亚南·奈尔 , 阿努普·拉梅什·卡德科尔 , 伊赫桑·基什阿德斯坦尼扎德 , 奥利维亚·吴 , 郝宇辰 , 托马斯·马克·乌尔里希 , 拉凯什·科姆拉韦利 , 阿敏·费鲁沙希安 , 马丁·沙茨
Abstract: 本申请涉及将卷积映射到分区通道卷积引擎。一种处理器系统包括两组寄存器和一个硬件通道卷积处理器单元。第一组寄存器被配置成存储卷积数据矩阵的一部分的通道的数据元素。每个寄存器存储来自每个通道的至少一个数据元素。第二组寄存器被配置成存储卷积权重矩阵的数据元素,该卷积权重矩阵包括每个通道的单独的矩阵。每个寄存器存储来自每个矩阵的至少一个数据元素。硬件通道卷积处理器单元被配置成将第一组寄存器的第一部分和第二部分中的每个数据元素与第二组寄存器中的对应数据元素相乘,以确定对应的相乘结果,并且将每个特定通道的相乘结果相加在一起,以确定对应通道卷积结果矩阵中两个对应的通道卷积结果数据元素。
-
公开(公告)号:CN112749368A
公开(公告)日:2021-05-04
申请号:CN202011133658.1
申请日:2020-10-21
Applicant: 脸谱公司
Inventor: 郝宇辰 , 克里希纳库马尔·纳拉亚南·奈尔 , 伊赫桑·基什·阿德斯坦尼·扎德 , 拉凯什·科姆拉韦利 , 阿卜杜勒卡迪尔·乌特库·迪里尔 , 托马斯·马克·乌尔里希
IPC: G06F17/16
Abstract: 公开了通过选择加法器树中间结果支持不同的矩阵乘法。使用属于矩阵乘法硬件单元的多个乘法器将第一组元素与第二组元素逐元素相乘。使用属于矩阵乘法硬件单元的分层加法器树将多个乘法器的结果相加在一起,并且选择性地提供分层加法器树的最终结果或分层加法器树的多个中间结果中的任何一个,用于确定输出结果矩阵。控制单元用于指示矩阵乘法硬件单元通过使用包括多个不同操作数矩阵的元素的组合矩阵来并行执行多个不同的矩阵乘法,并利用分层加法器树的中间结果中的一个或更多个选定的中间结果来用于确定输出结果矩阵,该输出结果矩阵包括表示对应于不同操作数矩阵中的不同操作数矩阵的不同乘法结果的不同元素组。
-
公开(公告)号:CN113536216A
公开(公告)日:2021-10-22
申请号:CN202110429712.5
申请日:2021-04-21
Applicant: 脸谱公司
Inventor: 阿卜杜勒卡迪尔·乌特库·迪里尔 , 克里希纳库马尔·纳拉亚南·奈尔 , 阿努普·拉梅什·卡德科尔 , 伊赫桑·基什阿德斯坦尼扎德 , 郝宇辰 , 托马斯·马克·乌尔里希 , 拉凯什·科姆拉韦利 , 阿敏·费鲁沙希安 , 马丁·沙茨 , 奥利维亚·吴
Abstract: 公开了使用分布式流水线式可分离卷积运算将卷积映射到相连的处理元件。一种处理器系统包括多个点积处理器单元和逐元素乘法单元。点积处理器单元为每个数据矩阵通道执行数据矩阵与单独的逐深度卷积权重矩阵的逐深度卷积。每个点积处理器单元为一个或更多个数据矩阵通道执行至少一部分逐深度卷积。逐元素乘法单元执行逐点卷积的乘法运算。每个逐元素乘法单元向从点积处理器单元中的一个或更多个接收的每个逐深度卷积部分结果元素应用来自多个逐点卷积权重滤波器的每一个的相应数据元素,以确定逐元素乘法单元结果。处理器系统将来自逐元素乘法单元结果的数据元素的不同组相加在一起,以至少部分地计算逐点卷积结果的不同数据元素。
-
公开(公告)号:CN113496279A
公开(公告)日:2021-10-12
申请号:CN202110378534.8
申请日:2021-04-08
Applicant: 脸谱公司
Inventor: 克里希纳库马尔·纳拉亚南·奈尔 , 阿卜杜勒卡迪尔·乌特库·迪里尔 , 阿努普·拉梅什·卡德科尔 , 伊赫桑·基什阿德斯坦尼扎德 , 奥利维亚·吴 , 郝宇辰 , 托马斯·马克·乌尔里希 , 拉凯什·科姆拉韦利 , 阿敏·费鲁沙希安 , 马丁·沙茨
Abstract: 本申请公开了使用点对点连接的通道卷积引擎的分组卷积。处理器系统包括多个处理元件。每个处理元件包括被配置成执行逐组卷积的一部分的相应的卷积处理器单元。相应的卷积处理器单元通过将卷积数据矩阵中的一部分数据元素中的每个数据元素与相应的逐组卷积权重矩阵中的相应数据元素相乘来确定相乘结果。卷积数据矩阵中被相乘的该部分数据元素属于不同的通道和不同的组。对于不同通道的每个特定通道,相应的卷积处理器单元将相乘结果中属于同一特定通道的至少一些相乘结果合计在一起,以确定相应通道卷积结果数据元素。处理元件将来自一组不同卷积处理器单元的通道卷积结果数据元素的一部分合计在一起,以确定逐组卷积结果数据元素。
-
公开(公告)号:CN113344172A
公开(公告)日:2021-09-03
申请号:CN202110190104.3
申请日:2021-02-18
Applicant: 脸谱公司
Inventor: 克里希纳库马尔·纳拉亚南·奈尔 , 拉凯什·科姆拉韦利 , 阿卜杜勒卡迪尔·乌特库·迪里尔 , 伊赫桑·基什阿德斯坦尼扎德 , 郝宇辰 , 马丁·沙茨 , 托马斯·马克·乌尔里希 , 奥利维亚·吴 , 阿努普·拉梅什·卡德科尔 , 阿敏·费鲁沙希安
Abstract: 本申请涉及将卷积映射到通道卷积引擎。一种处理器系统包括第一组寄存器和第二组寄存器以及硬件通道卷积处理器单元。第一组寄存器被配置为存储卷积数据矩阵的一部分的通道的数据元素。每个寄存器存储来自每个通道的至少一个数据元素。第二组寄存器被配置为存储卷积权重矩阵的数据元素,该卷积权重矩阵包括每个通道的独立卷积权重矩阵。每个寄存器存储来自每个卷积权重矩阵的至少一个数据元素。硬件通道卷积处理器单元被配置为将第一组寄存器中的每个数据元素与第二组寄存器中的对应数据元素相乘,并将每个特定通道的相乘结果相加在一起,以确定对应通道卷积结果矩阵中的对应通道卷积结果数据元素。
-
公开(公告)号:CN113011554A
公开(公告)日:2021-06-22
申请号:CN202011520382.2
申请日:2020-12-21
Applicant: 脸谱公司
Inventor: 阿卜杜勒卡迪尔·乌特库·迪里尔 , 克里希纳库马尔·纳拉亚南·奈尔 , 伊赫桑·基什阿德斯坦尼扎德 , 郝宇辰 , 拉凯什·科姆拉韦利 , 马丁·沙茨
Abstract: 本申请涉及减少人工神经网络中卷积运算期间数据移动的系统和方法。所公开的计算机实现的方法可以包括:(1)在支持ANN的硬件加速器处接收将经由ANN的滤波器内核进行卷积运算的激活数据集,(2)在硬件加速器处接收参数,该参数指示当在卷积运算期间滑过特定位置时,滤波器内核超过激活数据集的至少一个边界,(3)至少部分地基于该参数来确定,硬件加速器将结合滤波器内核的特定位置在激活数据集的边界处生成填充数据,然后(4)当滤波器内核滑过特定位置时,在硬件加速器处通过处理激活数据集的一部分和填充数据来执行卷积运算。还公开了各种其他系统和方法。
-
-
-
-
-
-
-
-
-