-
公开(公告)号:CN118468953A
公开(公告)日:2024-08-09
申请号:CN202410495901.6
申请日:2024-04-24
Applicant: 南京大学
IPC: G06N3/067 , G06N3/0442 , G06F17/16 , G06F15/78
Abstract: 本发明提供了一种基于光电存算一体器件的GRU加速器及其方法。该加速器包括:数据预处理模块,用于对输入的序列信息进行预处理,转换为一维输入向量并传输给门控循环计算模块;门控循环计算模块,用于在每个时刻根据输入向量与前一时刻的状态对更新门、重置门的计算,并通过更新门、重置门控制输入向量与前一时刻的状态进行记忆与遗忘,计算出当前时刻的状态进行寄存并传输给预测输出模块;预测输出模块,用于对计算结果进行序列转换或分类操作,输出最终的预测结果。本发明在GRU进行矩阵向量乘时进行加速与优化,提高了矩阵向量乘法的效率,减少了由于密集计算过程中频繁访问片外存储带来的功耗与时间。
-
公开(公告)号:CN111984226B
公开(公告)日:2024-02-09
申请号:CN202010869103.7
申请日:2020-08-26
Applicant: 南京大学
Abstract: 本发明公开了一种基于双曲CORDIC的立方根求解装置及求解方法。其方法是将立方根计算转换成可通过广义双曲坐标系下的CORDIC算法计算的对数和指数。其装置为:对数输入预处理模块将任意正数x转换成8k×r;对数计算模块,通过工作在向量模式的广义双曲CORDIC计算单元计算以8为基的双曲反正切值,进而通过移位和加法操作得到对数 指数预处理模块将拆成整数部分I和小数部分F;指数计算模块,通过工作在旋转模式的广义双曲CORDIC计算单元求以2为基的双曲正弦值和余弦值,进而通过加法操作得到指数2F,再左移I位可得到计算
-
公开(公告)号:CN117236394A
公开(公告)日:2023-12-15
申请号:CN202310808927.7
申请日:2023-07-03
Applicant: 南京大学
Abstract: 本发明公开了一种可部署大规模神经网络的存算一体装置及方法。该装置包括预处理模块、输入驱动电路模块、存算一体模块(包括SRAM阵列和Flash阵列)、读出电路模块、ADC模块和SIMD模块。预处理模块负责输入数据的预处理,经过预处理的数据输入到输入驱动电路中,再选择输入到SRAM阵列或Flash阵列中进行存储与计算,经过阵列计算输出的电流信号输入到读出电路中转换为电压信号,再输入到ADC模块中转换成数字信号,最后输入到SIMD模块进行数据处理后输出数字信号。本发明的装置结合Flash与SRAM的优点,兼具大容量与灵活性。本发明在存算一体装置上采用迁移学习的方法部署大规模神经网络,能够实现不同任务的部署。
-
公开(公告)号:CN116843977A
公开(公告)日:2023-10-03
申请号:CN202310843090.X
申请日:2023-07-11
Applicant: 南京大学
IPC: G06V10/764 , G06V10/77 , G06V10/82 , G06V10/94 , G06N3/0464 , G06N3/048 , G06N3/084 , G06N3/063
Abstract: 本发明公开了一种实现MLP‑MIXER图像分类算法的方法及其装置。该方法包括如下步骤:S1、预处理输入图像得到二维数据;S2、将数据层归一化防止训练过拟合,完成令牌MLP;S3、完成层归一化和通道MLP;S4、模型深度为N,重复N次S2‑S3,完成整个特征提取过程;S5、经过全局平均池化和全连接层完成分类。其中,令牌MLP和通道MLP中采用DRAM阵列完成转置,使用FLASH阵列完成MLP的矩阵乘运算,使用加法电路完成跳过连接。本发明降低了设计控制数据输入输出存算器件阵列的难度和部署权重参数到存算器件阵列的难度。
-
公开(公告)号:CN116189732B
公开(公告)日:2023-07-21
申请号:CN202310433555.4
申请日:2023-04-21
Applicant: 南京大学
IPC: G11C7/10
Abstract: 本发明公开了读出电路优化的存算一体芯片及方法,属于超大规模集成电路领域、存算一体领域。本发明的读出电路优化的存算一体芯片,通过校准计算分离法,将存算一体芯片读出电路分为计算读出电路与校准读出电路;独立的校准读出电路,可以提高存算一体芯片权重部署精度,提高芯片计算精度;独立的计算读出电路,由于功能要求减少,可以进一步优化面积、功耗、速度。进一步地,计算读出电路通过分段数模混合累加法,将存算一体电路实现的矩阵向量乘分两阶段实现,第一阶段采用模拟运算,第二阶段采用数字运算,降低读出电路功能、性能要求,优化存算一体芯片读出电路的面积、功耗、速度、动态范围,提高存算一体读出电路的通用性。
-
公开(公告)号:CN115995249B
公开(公告)日:2023-07-21
申请号:CN202310297958.0
申请日:2023-03-24
Applicant: 南京大学
IPC: G11C11/408 , G11C11/409 , H03M1/00 , G06F17/16
Abstract: 本发明公开了一种基于DRAM的矩阵转置运算装置,属于超大规模集成电路以及DRAM领域。本发明的装置,包括DAC阵列、DRAM阵列、输入地址译码单元、输出地址译码单元、ADC阵列。DAC阵列将所需转置的矩阵的列向量的数字信号转化成模拟信号,DAC配合输入地址译码器,将所需转置的矩阵的列向量依次写入DRAM阵列的列方向,当完整的矩阵写入DRAM阵列后,ADC阵列将DRAM阵列中存储的所需转置的矩阵的行向量模拟信号转化成数字信号,ADC阵列配合输出地址译码器,从DRAM阵列行方向将矩阵的行向量依次读出,从而实现了矩阵的转置。本发明装置可以显著降低硬件架构的面积、功耗以及计算延时开销。
-
公开(公告)号:CN116306854A
公开(公告)日:2023-06-23
申请号:CN202310320560.4
申请日:2023-03-29
Applicant: 南京大学
IPC: G06N3/063 , G06F18/24 , G06N3/04 , G06N3/0499 , G06N3/047
Abstract: 本发明提供了一种基于光电存算一体器件的transformer神经网络加速装置及其方法。该装置包括:(1)编码模块包括:多头注意力计算子模块,用于对输入向量执行多头注意力计算操作;前馈全连接层子模块,用于执行全连接操作以及线性整流操作;加法单元,用于将上级模块中的输入向量与输出向量相加;归一化子模块,用于对来自加法单元的输入向量执行归一化操作;(2)译码模块包括:多头注意力计算子模块、前馈全连接层子模块、加法单元和归一化子模块;(3)分类预测模块,用于对上级模块输出的一维向量执行全连接操作,并执行分类输出操作。本发明的装置能够加速实现transformer神经网络,还能够极大地降低硬件架构的功耗、面积以及计算延迟。
-
公开(公告)号:CN116152120A
公开(公告)日:2023-05-23
申请号:CN202310426401.2
申请日:2023-04-20
Applicant: 南京大学
IPC: G06T5/00 , G06V10/80 , G06V10/82 , G06V10/56 , G06V10/54 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种融合高低频特征信息的低光图像增强方法及装置,属于计算机视觉领域和图像处理领域。本发明方法包括:S1、采集RGB格式的正常光‑低光图像对;S2、对采集到的低光图像分解为光照分量Ilow和反射分量Rlow;S3、对得到的光照分量和反射分量分解为三级拉普拉斯金字塔;S4、分别对光照分量和反射分量的三级拉普拉斯金字塔图像依次输入到三个分支网络中得到增强后的光照分量和反射分量;S5、对和进行逐通道逐像素相乘操作得到低光增强后的正常光图像;其推理步骤包括上述步骤S2‑S5。本发明利用双通道注意力下的拉普拉斯多尺度特征提取块LRMSDA,实现能有效抑制噪声和增强纹理细节的高质量低光图像增强。
-
公开(公告)号:CN110647983B
公开(公告)日:2023-03-24
申请号:CN201910944467.4
申请日:2019-09-30
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0895 , G06N3/084 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06T1/40 , G06T5/00
Abstract: 本发明公开了一种基于存算一体器件阵列的自监督学习的加速系统及方法。该加速系统包括缓存模块、计算阵列、权重输入模块、辅助电路、控制模块和参数更新模块;缓存模块、计算阵列和参数更新模块依次相连;权重输入模块与计算阵列相连接,用于更新计算阵列;控制模块分别与缓存模块、权重输入模块、计算阵列和参数更新模块连接;计算阵列和辅助电路用于完成对自监督神经网络的运算。本发明借助存算一体计算阵列的面积和功耗优势,实现了一种自监督学习的加速系统和方法,相比现有利用图形计算显卡和传统数字电路的处理系统,可以节省大量的能耗和产品体积。
-
公开(公告)号:CN115688895A
公开(公告)日:2023-02-03
申请号:CN202211353397.3
申请日:2022-11-01
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种卷积神经网络的比特分割方法及装置。该方法的步骤包括:步骤1,对神经网络模型进行量化,将数据类型为32位浮点数的输入数据量化为8位定点数的数据类型;步骤2,将步骤1得到的高精度量化结果分割为多条位路径进行传播;步骤3,来自每个比特的特征映射图被单独卷积,但权重参数相同;步骤4,将每个位路径的卷积结果累加起来,生成一个用于分类的特征图。本发明的方法应用在神经网络可使其所需的硬件资源大大减小,保持硬件友好特性,并提高运算速度。
-
-
-
-
-
-
-
-
-