一种近似计算softmax函数的装置
    81.
    发明公开

    公开(公告)号:CN115270071A

    公开(公告)日:2022-11-01

    申请号:CN202210796922.2

    申请日:2022-07-08

    Applicant: 南京大学

    Abstract: 本发明公开了一种近似计算softmax函数的装置。该装置包括:求最大值和上次输入最大值单元,用于求出输入数据的最大值并将比较后最终的最大值暂存到输入数据暂存单元;减法运算单元,用于对求最大值和上次输入最大值单元和输入数据暂存单元输出的数据进行减法运算;近似求解exp单元,用于近似求解得到任意输入的指数函数的结果;树形求解单元,用于对输入数据进行树形的累加求和;局部和累积单元,用于将多次输入的局部和进行累积,最后获得多次输入的累积值;近似求解ln单元,用于近似求解得到任意输入的对数函数的结果,并将其暂存到输入数据暂存单元。本发明的计算装置在保持一定精度的同时,可以降低硬件架构的功耗、面积以及延时开销。

    一种以2为基的蒙哥马利模乘方法及装置

    公开(公告)号:CN115268839A

    公开(公告)日:2022-11-01

    申请号:CN202210742595.2

    申请日:2022-06-28

    Applicant: 南京大学

    Abstract: 本发明公开了一种以2为基的蒙哥马利模乘方法及装置。通过简化减法运算、中间系数和乘法运算等操作,对以2为基的标准蒙哥马利模乘算法进行了结构性调整与优化。其装置包括顶层控制单元、数据分发单元以及核心计算单元,顶层控制单元的输入端连接输入数据X、Y、N、计算完成信号、中间计算结果,其输出端输出蒙哥马利计算数A、B、模数N、最终结果以及最终结果有效信号;数据分发单元与顶层控制单元连接,输出蒙哥马利计算数A的某一比特位、计算数B、模数N以及数据分发完成信号;核心计算单元与数据分发单元连接,输出中间计算结果以及计算完成信号。本发明应用于大数模乘运算,可使实际运行中所需的用时和资源大大减少。

    一种用于长序列数据排序的电路及方法

    公开(公告)号:CN115268830A

    公开(公告)日:2022-11-01

    申请号:CN202210721233.5

    申请日:2022-06-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种用于长序列数据排序的电路及方法。该电路用于对N个数据在K进制下进行排序,且数据中的最大元素在K进制下包含m位;电路包括基数计数单元、首地址生成单元、数据分配单元和两个排序缓冲区,两个排序缓冲区分别作为源缓冲区与目标缓冲区,均可以读出给定地址中的数据,或将一个数据写入指定地址;基数计数单元、首地址生成单元和数据分配单元依次相连;两个排序缓冲区均分别与数据分配单元和基数计数单元相连。本发明的数据排序电路结构简单,可根据具体需求进行灵活调整,且本发明的数据排序方法具有线性阶时间复杂度,排序时间较短。

    一种softmax函数近似计算的方法及其装置

    公开(公告)号:CN115222033A

    公开(公告)日:2022-10-21

    申请号:CN202211005399.3

    申请日:2022-08-22

    Applicant: 南京大学

    Abstract: 本发明公开了一种softmax函数近似计算的方法及其装置。该方法将e的指数运算简化为两次常乘数运算和一次输出范围在(1,2)的e指数运算,这主要是为了限制e指数范围来利用cordic算法计算范围小、高精度的特性;将N次除法运算简化为一次输入范围固定的倒数运算、N次乘法运算以及移位运算。本发明的装置包括常数乘法单元、指数计算单元、浮点加法单元、尾数计算单元、减法阵列单元和乘法单元,采用进位保留加法器代替传统加法器,进一步缩短了关键路径。本发明的方案,在保持高精度的同时大大提高计算速度,并减少了计算资源的消耗。

    一种用于图像像素重排的通用装置及方法

    公开(公告)号:CN113962843A

    公开(公告)日:2022-01-21

    申请号:CN202111157743.6

    申请日:2021-09-30

    Applicant: 南京大学

    Abstract: 本发明公开一种用于图像像素重排的通用装置及方法。装置包括总控制单元、数据存储单元、数据读取单元、像素重排单元和结果收集单元,其中,总控制单元通过对各个单元工作状态的控制及数据的配置,使内部各个单元协同工作;数据存储单元负责存储原始的图像数据,以及存储重排后的图像数据;像素重排单元(PixelShuffle单元)接收数据读取单元的数据,进行像素重排运算,向结果收集单元传输重排后的数据;结果收集单元接收像素重排单元重排后的数据,向数据存储单元传输数据,最终在数据存储单元中得到拼接后的高分辨率图像。本发明通过像素重排的方式,实现从低分辨率到高分辨率的重构,可以对图像进行处理,具有一定通用性。

    针对稀疏化CNN神经网络模型的游程编码加速器及方法

    公开(公告)号:CN113902097A

    公开(公告)日:2022-01-07

    申请号:CN202111157742.1

    申请日:2021-09-30

    Applicant: 南京大学

    Abstract: 本发明公开一种针对稀疏化CNN神经网络模型的游程编码加速器及其方法。加速器包括:顶层控制器,用于识别输入输出数据类型并进行分组处理,将权重数据和激励数据传输给游程编码模块;游程编码模块,用于压缩计算模块输出的结果数据,并将压缩编码后的计算结果传输给外部存储器;游程解码模块,用于解压缩从外部存储器中读取的数据,并将数据传输给数据门控;数据门控,用于识别输入激励数据和权重数据的零值,并为零值跳过乘加操作;计算模块,用于对数据门控传输的权重数据和激励数据执行乘加操作并给出计算结果。本发明基于数据压缩和数据门控实现减少CNN模型所需的存储空间和功耗,具有高能效和无需大量访问内存等优点。

    一种用于任意嵌入比的图片水印嵌入及盲提取方法

    公开(公告)号:CN113643171A

    公开(公告)日:2021-11-12

    申请号:CN202110804249.8

    申请日:2021-07-16

    Applicant: 南京大学

    Abstract: 本发明涉及一种用于任意嵌入比的图片水印嵌入及盲提取方法。该水印嵌入方法包括如下步骤:步骤1,将载体图片分成若干N*N的图像块,并形成对应的RGB矩阵,通过色彩空间转换公式将RGB矩阵转换为Y矩阵;步骤2,求出Y矩阵DCT变换域的直流分量DC;步骤3,通过同时剪裁离散余弦变换和离散余弦变换逆变换并进一步剪裁色彩空间转换的操作,实现将水印信息直接嵌入在RGB通道上。本发明创新性的提出一种用于任意嵌入比的图片水印嵌入及盲提取方法,具有一定的通用性,既满足嵌入痕迹的不可感知性,也满足水印提取的鲁棒性。

    一种面向神经网络的通用非线性激活函数计算装置和方法

    公开(公告)号:CN110688088A

    公开(公告)日:2020-01-14

    申请号:CN201910944451.3

    申请日:2019-09-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向神经网络的通用非线性激活函数计算装置和方法。其计算装置包括乘法器、输入选择单元、寻址单元、查找表单元、FIFO单元、乘加运算单元、线性转换单元和输出选择单元。本发明提供的面向神经网络的通用非线性函数计算装置和方法,使用分段线性逼近方法对sigmoid函数进行分段线性拟合操作,利用sigmoid函数和tanh函数的数学关系,共用寻址单元和查找表资源,通过模式选择和相应的线性变化来实现神经网络中不同的非线性函数的运算,从而减少片上计算和存储资源的消耗。

    一种可重构定浮点通用加法器

    公开(公告)号:CN106970775A

    公开(公告)日:2017-07-21

    申请号:CN201710190120.6

    申请日:2017-03-27

    Applicant: 南京大学

    CPC classification number: G06F7/501 G06F7/505

    Abstract: 本发明提供了一种可重构定浮点通用加法器,包括:48位定点加法器,进行定点加法运算,并可重构成单精度浮点加法器;选择器,根据顶层配置信息选择相应的定点或浮点加法运算通路,并进行输出控制;定浮点运算转换器,将48位定点加法器转化为32位单精度浮点加法器。有益效果:所述加法器采用全流水结构,定点加法器基于并行前缀加法器做了相应的优化,在保证定点加法器运算性能的基础上,减少了其运算延时和门电路面积。整体定浮点通用加法器结构在保证精确度和数据吞吐率的情况下,有效的提高了加法器的通用性。

    针对稀疏化CNN神经网络模型的游程编码加速器及方法

    公开(公告)号:CN113902097B

    公开(公告)日:2025-02-07

    申请号:CN202111157742.1

    申请日:2021-09-30

    Applicant: 南京大学

    Abstract: 本发明公开一种针对稀疏化CNN神经网络模型的游程编码加速器及其方法。加速器包括:顶层控制器,用于识别输入输出数据类型并进行分组处理,将权重数据和激励数据传输给游程编码模块;游程编码模块,用于压缩计算模块输出的结果数据,并将压缩编码后的计算结果传输给外部存储器;游程解码模块,用于解压缩从外部存储器中读取的数据,并将数据传输给数据门控;数据门控,用于识别输入激励数据和权重数据的零值,并为零值跳过乘加操作;计算模块,用于对数据门控传输的权重数据和激励数据执行乘加操作并给出计算结果。本发明基于数据压缩和数据门控实现减少CNN模型所需的存储空间和功耗,具有高能效和无需大量访问内存等优点。

Patent Agency Ranking