-
公开(公告)号:CN111831333B
公开(公告)日:2024-03-29
申请号:CN202010689147.1
申请日:2020-07-16
Applicant: 中国科学院计算技术研究所
Abstract: 本公开提供一种用于智能处理器的指令分解方法、装置及电子设备,所述智能处理器根据分形指令进行分形运算,所述方法包括:确定对所述分形指令的操作数进行分解的维度的分解优先级;根据所述分解优先级选择当前分解的维度;在所述当前分解的维度上,对所述分形指令的操作数进行串行分解。该指令分解方法,能够在合理时间范围内找到最佳分解方案,依据最佳分解方案,串行分解器按照粒度循环输出指令模板,通过累加,计算分解出的子指令中各操作数的地址,从而提高分形运算的并行效率。
-
公开(公告)号:CN111831582A
公开(公告)日:2020-10-27
申请号:CN202010689148.6
申请日:2020-07-16
Applicant: 中国科学院计算技术研究所
Abstract: 本公开提供一种用于智能处理器的内存管理装置及方法,装置包括:循环内存段,包括第一内存区域、第二内存区域及第三内存区域,分别用于所述智能处理器进行运算过程中的分形运算、规约运算、数据装载及写回时调用;静态内存段,包括第四内存区域及第五内存区域,用于存储所述智能处理器进行运算时输入的分形指令。基于指令执行生命周期的差别,将智能处理器控制系统内存进行分类管理,可提高智能处理器的执行效率,并且,内存管理装置中增加张量置换单元可以进一步显著改善智能处理器的执行效率,同时数据一致性也得以维护。
-
公开(公告)号:CN111831339A
公开(公告)日:2020-10-27
申请号:CN202010688860.4
申请日:2020-07-16
Applicant: 中国科学院计算技术研究所
IPC: G06F9/38
Abstract: 本公开提供一种用于智能处理器的指令执行方法及装置,方法包括:指令译码,将执行分形运算的串行分解子指令译码为本地指令及分形运算指令;数据装载,将分形运算所需数据从外部存储单元读取至智能处理器的本地存储单元;操作执行,根据分形运算指令对数据完成分形运算;规约执行,根据本地指令对分形运算的结果进行规约运算;数据写回,将本地存储器中存储的规约运算结果读取至外部存储器;指令译码、数据装载、操作执行、规约执行及数据写回按照流水线方式执行。该方法可以在任意时将全部层次上的全部模块调动起来,提供了智能处理器的数据吞吐率,从而提高了智能处理器的执行效率。
-
公开(公告)号:CN111831332A
公开(公告)日:2020-10-27
申请号:CN202010689114.7
申请日:2020-07-16
Applicant: 中国科学院计算技术研究所 , 中国科学院大学
Abstract: 本公开提供一种用于智能处理器的控制系统,智能处理器的每一层分形计算子单元包括控制系统,控制系统包括:串行分解模块,用于对智能处理器执行分形运算对应的分形指令集进行串行分解,得到串行分解子指令,并对串行分解子指令进行暂存;降级模块,用于对串行分解子指令进行降级,将上一层分形计算子单元对当前层分形计算子单元下发的串行分解子指令修改为当前层分形计算子单元对下一层分形计算子单元下发的串行分解子指令;并行分解模块,用于对降级后的串行分解子指令进行并行分解,得到满足智能处理器中所有分形计算子单元并发运行的并发度要求的并行分解子指令。该控制系统可以高效、准确地控制智能处理器执行分形运算及规约运算。
-
公开(公告)号:CN119740663A
公开(公告)日:2025-04-01
申请号:CN202411809841.7
申请日:2024-12-10
Applicant: 中国科学院计算技术研究所
IPC: G06N5/04
Abstract: 本发明提出一种基于拓扑计算的大模型推理计算架构,包括:CPU、SDRAM、代码存储器、提示词存储器,以及大模型推理加速器,并通过总线将该CPU、该SDRAM、该代码存储器、该提示词存储器及该大模型推理加速器进行路由连接;进行大模型推理计算时,首先将该代码存储器中的代码及该提示词存储器中的提示词和词表,读取至该SDRAM,再根据该提示词的标记ID查询该SDRAM中的词表以获取嵌入向量,然后将该嵌入向量发送给该大模型推理加速器进行大模型推理计算,将该大模型推理加速器获得的输出结果发送上位机。本发明还提出一种基于拓扑计算的大模型推理计算方法及装置。本发明解决了大模型推理过程中权值加载的开销过大及KV cache的SRAM实现面积开销过大的问题。
-
公开(公告)号:CN118468966A
公开(公告)日:2024-08-09
申请号:CN202410647057.4
申请日:2024-05-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种串行压缩单元、深度神经网络加速器,该加速器的每一处理元件包含串行压缩单元与计算单元,其中:该串行压缩单元包含异步电路握手模块与锁存模块,相邻串行压缩单元的异步电路握手模块彼此之间串行连接,且每一异步电路握手模块由一握手信号控制,相邻二异步电路握手模块之间连接一延时匹配模块;相邻串行压缩单元的锁存模块彼此之间串行连接,且每一锁存模块对应连接异步电路握手模块,且于接收该异步电路握手模块输出的使能信号时被触发,每一锁存模块由该使能信号控制。该加速器性能与能效显著提高。
-
公开(公告)号:CN117935868A
公开(公告)日:2024-04-26
申请号:CN202410111561.2
申请日:2024-01-26
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种随机递增存储器,其包含:多个偏斜单元,配置为将一元比特流存储为偏斜数格式;至少一计算单元,配置为对所述多个偏斜单元存储的偏斜数进行递增操作。本发明还提出一种脉动随机递增存储器体系结构,其包含多路存储器;每一路存储器包含:多个一元处理单元,呈多行排列分布;多个随机递增存储器,同一行的一元处理单元配置一随机递增存储器;多路存储器之间由边缘部件隔开。该随机递增存储器能够将一元比特流累加为偏斜数格式,并与脉动阵列结构集成为脉动随机递增存储器体系结构,以降低累加能耗,提升能效。
-
公开(公告)号:CN119623377A
公开(公告)日:2025-03-14
申请号:CN202411790989.0
申请日:2024-12-06
Applicant: 中国科学院计算技术研究所
IPC: G06F30/3308
Abstract: 本发明提出一种大模型推理芯片的验证方法、装置、存储介质,该方法包含:根据大模型推理芯片的设计文档搭建模拟器核心状态机,并基于状态机搭建大模型推理芯片的模拟器;抓取大模型推理芯片的模型推理算法各步骤的数据流踪迹,获取踪迹文件;利用模拟器模拟推理过程,利用权重类型文件提供模型参数,利用激活类型文件比对模型推理算法执行过程中在相同输入下运算得到的激活数据,验证数据流踪迹的正确性;若数据流踪迹比对成功,抓取符合硬件行为仿真验证格式要求的踪迹文件,得到筛选后的跟踪文件;利用筛选后的跟踪文件作为金标准,对大模型推理芯片进行验证。该方法提高了对大模型推理芯片行为的模拟效果,提高了验证效率。
-
公开(公告)号:CN111831339B
公开(公告)日:2024-04-02
申请号:CN202010688860.4
申请日:2020-07-16
Applicant: 中国科学院计算技术研究所
IPC: G06F9/38
Abstract: 本公开提供一种用于智能处理器的指令执行方法及装置,方法包括:指令译码,将执行分形运算的串行分解子指令译码为本地指令及分形运算指令;数据装载,将分形运算所需数据从外部存储单元读取至智能处理器的本地存储单元;操作执行,根据分形运算指令对数据完成分形运算;规约执行,根据本地指令对分形运算的结果进行规约运算;数据写回,将本地存储器中存储的规约运算结果读取至外部存储器;指令译码、数据装载、操作执行、规约执行及数据写回按照流水线方式执行。该方法可以在任意时将全部层次上的全部模块调动起来,提供了智能处理器的数据吞吐率,从而提高了智能处理器的执行效率。
-
公开(公告)号:CN111831582B
公开(公告)日:2024-03-29
申请号:CN202010689148.6
申请日:2020-07-16
Applicant: 中国科学院计算技术研究所
Abstract: 本公开提供一种用于智能处理器的内存管理装置及方法,装置包括:循环内存段,包括第一内存区域、第二内存区域及第三内存区域,分别用于所述智能处理器进行运算过程中的分形运算、规约运算、数据装载及写回时调用;静态内存段,包括第四内存区域及第五内存区域,用于存储所述智能处理器进行运算时输入的分形指令。基于指令执行生命周期的差别,将智能处理器控制系统内存进行分类管理,可提高智能处理器的执行效率,并且,内存管理装置中增加张量置换单元可以进一步显著改善智能处理器的执行效率,同时数据一致性也得以维护。
-
-
-
-
-
-
-
-
-