-
公开(公告)号:CN119884015A
公开(公告)日:2025-04-25
申请号:CN202411449762.X
申请日:2024-10-17
Applicant: 北京超弦存储器研究院 , 清华大学
Abstract: 本申请涉及一种基于数据相似性的DRAM‑PIM加速器设计方法。所述方法用于神经网络计算中,DRAM‑PIM加速器设计方法应用于存算一体系统中,存算一体系统中包括存储阵列、预处理单元和计算单元,该方法包括:将多个待处理数据从存储阵列中读取至预处理单元,并基于各待处理数据确定基准数据,各待处理数据在存储阵列中物理上连续存储;在预处理单元中,对基准数据与各待处理数据进行异或处理,得到多个目标数据;将基准数据和各目标数据读取至计算单元,以进行数据计算包括。采用本方法能够有效提高存算一体系统能效。
-
公开(公告)号:CN118445310A
公开(公告)日:2024-08-06
申请号:CN202410320458.9
申请日:2024-03-20
Applicant: 北京超弦存储器研究院 , 清华大学
IPC: G06F16/245 , G06F18/22 , G06F18/23
Abstract: 本申请涉及用于搜索算法的基于DRAM存内计算架构设计装置,其特征在于,所述装置包括处理模块,所述处理模块包括计算模块和多个管理模块;所述计算模块,用于从所述多个管理模块中确定与主机发送的计算请求对应的目标管理模块,并获取所述目标管理模块的聚类中心向量;所述计算模块,用于确定所述计算请求中查询向量与所述聚类中心向量的第一距离;所述计算模块,用于获取所述目标管理模块的各预设向量与所述聚类中心向量的第二距离;所述计算模块,用于根据所述第一距离和各所述预设向量对应的第二距离,从各所述第二距离中确定目标距离,并向所述主机发送所述目标距离。采用本装置能够降低数据传输的延迟、降低CPU的能耗。
-
公开(公告)号:CN119903016A
公开(公告)日:2025-04-29
申请号:CN202411443914.5
申请日:2024-10-16
Applicant: 北京超弦存储器研究院 , 清华大学
IPC: G06F15/78 , G06F15/173
Abstract: 本申请涉及一种多层级计算颗粒度的DRAM‑PIM计算架构和计算系统。该多层级计算颗粒度的DRAM‑PIM计算架构包括多个不同的存算融合单元;该多个不同的存算融合单元,用于执行存算等级不同的存算任务;其中,该存算等级不同的存算任务对应的计算颗粒度不同。本申请提供的多层级计算颗粒度的DRAM‑PIM计算架构,设置有多个不同的存算融合单元,可以用于执行计算颗粒度不同的存算任务,相比于现有技术中计算架构的计算颗粒度固定,仅能执行部分与之计算颗粒度对应的存算任务,本申请提供的多层级计算颗粒度的DRAM‑PIM计算架构可以执行多种计算颗粒度的存算任务,根据存算任务颗粒度的不同,灵活采用对应的存算融合单元执行存算任务,有效的提高了计算架构的可用性。
-
公开(公告)号:CN119576997A
公开(公告)日:2025-03-07
申请号:CN202411556495.6
申请日:2024-11-04
Applicant: 北京超弦存储器研究院 , 清华大学
IPC: G06F16/2458 , G06F16/2455 , G06F16/245 , G06F15/78
Abstract: 本申请涉及一种针对DRAM存内计算的大规模数据搜索方法、装置、存储器、可读存储介质和程序产品。应用于存储器,所述方法包括:在接收到外部设备发送的携带查询向量的查询事务请求后,从多个计算单元中确定目标计算单元;利用目标计算单元基于查询向量从多个存储单元中的第一映射表中查询到多个目标聚类中心向量;利用目标计算单元计算查询向量与各目标聚类中心向量的距离得到多个距离值;并基于多个距离值和多个目标聚类中心向量构建第二映射表,将第二映射表存储至多个存储单元;利用多个存储单元和目标计算单元基于各基向量和第二映射表查询得到与查询向量相似的R个目标基向量;并将R个目标基向量发送至外部设备。采用本方法能够降低搜索延迟。
-
公开(公告)号:CN118445161A
公开(公告)日:2024-08-06
申请号:CN202410320467.8
申请日:2024-03-20
Applicant: 北京超弦存储器研究院 , 清华大学
IPC: G06F11/34
Abstract: 本申请涉及一种针对DRAM‑PIM的仿真器设计装置,其特征在于,装置包括译码模块、控制模块和存内处理模块,控制模块包括第一控制模块、第二控制模块和仲裁模块,存内处理模块包括计算模块和多个管理模块;译码模块,用于接收主机发送的请求,并识别请求的类型;第一控制模块,用于在请求的类型为计算请求的情况下,对计算请求进行分解,得到计算请求对应的基本指令,向仲裁模块发送基本指令;仲裁模块,用于向计算请求对应的管理模块发送基本指令;计算请求对应的管理模块,用于调用计算模块对基本指令进行处理得到DRAM‑PIM的第一仿真结果;计算模块,用于输出DRAM‑PIM的第一仿真结果。采用本方法能够提高仿真的通用性。
-
公开(公告)号:CN116203826A
公开(公告)日:2023-06-02
申请号:CN202111448885.8
申请日:2021-11-30
Applicant: 北京超弦存储器研究院 , 清华大学
IPC: G05B9/03
Abstract: 本发明公开了一种基于投票器的冗余控制方法,应用于计算机技术领域,包括:获取目标硬件中的处理单元阵列,该处理单元阵列包括多个处理单元,从该处理单元阵列中选取多组处理单元,生成投票器集合,每组该处理单元对应生成一个投票器,该投票器用于执行冗余控制中的投票操作,响应于检测到的投票器处于故障状态的消息,从该投票器集合中获取目标投票器以替换该检测到的投票器,并使用该目标投票器重新执行该冗余控制中的投票操作。本发明还公开了一种基于投票器的冗余控制装置、电子设备及存储介质,其基于目标硬件的处理单元阵列实现,也即基于有限资源实现,无需其它额外资源,同时,可解决投票器故障的问题,在投票器故障时立即做出反应。
-
公开(公告)号:CN113885877A
公开(公告)日:2022-01-04
申请号:CN202111184224.9
申请日:2021-10-11
Applicant: 北京超弦存储器研究院 , 清华大学
IPC: G06F8/41
Abstract: 本发明提供了一种编译的方法、装置、设备及可读存储介质。其中,该编译的方法包括:对源程序数据进行分析,确定目标不规则分支;根据目标不规则分支生成更新数据流图;以及将更新数据流图映射至目标硬件上,以完成编译。因此,可以充分挖掘源程序中分支结构的特征,解决现有谓词技术在处理不规则分支时性能较差的问题,使得编译过程的性能收益最大化。
-
公开(公告)号:CN116263777A
公开(公告)日:2023-06-16
申请号:CN202111544906.6
申请日:2021-12-15
Applicant: 清华大学无锡应用技术研究院 , 清华大学 , 合芯科技有限公司
Abstract: 本发明提供一种数据抽取装置,包括:反馈移位寄存器,配置有至少一个抽取端口,其中,每一个抽取端口分配有不同的地址,所述地址适用于选择特定位的抽取端口;数据抽取模块,配置有至少一个抽头,所述至少一个抽头与所述至少一个抽取端口对应连接,以抽取数据,所述数据抽取模块根据所述地址选择特定位的抽取端口头对所述反馈移位寄存器进行数据抽取;反馈运算阵列,用于对所述数据抽取模块抽取的数据进行反馈运算;所述反馈运算阵列的输出端反馈连接至所述反馈移位寄存器,以用于将反馈运算结果反馈至所述反馈移位寄存器。本发明还提供一种多级数据抽取装置、流密码生成装置及数据抽取方法。
-
公开(公告)号:CN114706812B
公开(公告)日:2025-03-07
申请号:CN202210242340.X
申请日:2022-03-11
Applicant: 清华大学
IPC: G06F15/78
Abstract: 本申请涉及一种基于可重构处理器的数据存储方法、可重构处理器、计算机设备、存储介质和计算机程序产品。所述方法包括:确定所述计算任务所需要的包含多个子数据的目标数据,在所述数据导入单元中,通过预设数据划分算法以及所述计算任务对应的数据同时访问条件,对所述目标数据中的各个子数据进行划分,得到读取地址变换参数;根据各所述子数据的外部存储器地址以及所述读取地址变换参数,分别计算各所述子数据在所述内存分块中的目标地址,并将目标数据存储至所述目标地址。通过采用本发明实施例所提供的方法导入外部存储器的数据,可以避免访问冲突,保证可重构处理器的处理性能。
-
公开(公告)号:CN119474004A
公开(公告)日:2025-02-18
申请号:CN202411541555.7
申请日:2024-10-31
Applicant: 上海清华国际创新中心 , 清华大学
Abstract: 本申请涉及一种粗粒度可重构加速阵列矩阵的调用方法、装置和存储介质。所述方法包括:获取目标输入矩阵和目标调用需求;所述目标输入矩阵包括目标特征矩阵和目标权重矩阵;根据所述目标调用需求确定目标调用策略;所述目标调用策略为固定权重调用映射策略或单元组合映射策略;根据所述目标调用策略和所述目标输入矩阵对所述加速阵列矩阵进行调用,得到所述目标输入矩阵对应的调用结果。使得在不同的调用需求下对目标输入矩阵进行矩阵乘数据处理,从而得到目标输入矩阵对应的调用结果,扩大了矩阵乘数据处理的应用范围,且根据目标调用需求对加速阵列矩阵进行调用,使得对加速阵列矩阵的调用更加灵活准确。
-
-
-
-
-
-
-
-
-