面向向量处理器的去块滤波向量化实现方法

    公开(公告)号:CN105828071B

    公开(公告)日:2019-05-24

    申请号:CN201610194300.7

    申请日:2016-03-31

    Abstract: 一种面向向量处理器的去块滤波向量化实现方法,其步骤为:S1:数据准备;输入n×m的被滤波视频数据块到向量存储体中,并进行系向量化;S2:水平滤波操作;S3:结果存储;根据步骤S2的结果为每个PE选择出(p3,p2,p1,p0,q0,q1,q2,q3)的最终结果以及p3和q3的值(p3,p2′,p1′,p0′,q0′,q1′,q2′,q3),存入矩阵寄存器文件;S4:重复步骤S2和步骤S3,直到水平方向所有边界滤波完毕;S5:垂直滤波;S6:结果存储;根据步骤S5的结果为每个PE选择出(p3,p2,p1,p0,q0,q1,q2,q3)的最终结果以及p3和q3的值(p3,p2′,p1′,p0′,q0′,q1′,q2′,q3),直接存入向量存储体;S7:重复步骤5和步骤6,直到垂直方向所有边界滤波完毕。本发明具有能够高效计算、充分发挥向量处理器多PE协作、缩短运算时间等优点。

    一种正余弦函数计算的实现方法及装置

    公开(公告)号:CN107423026A

    公开(公告)日:2017-12-01

    申请号:CN201710265266.2

    申请日:2017-04-21

    CPC classification number: G06F7/548

    Abstract: 本发明公开一种正余弦函数计算的实现方法及装置,步骤包括:1)判断输入角度是否在指定范围内,如果是,将输入角度作为目标计算角度输出,否则对输入角度进行压缩,并将输出压缩后角度作为目标计算角度输出;2)对目标计算角度采用TCORDIC算法执行正弦或余弦函数的计算,且当目标计算角度与0度或π/2度之间的差值小于指定阈值时,通过Taylor展开式完成正弦或余弦函数的计算,否则使用CORDIC算法完成正余弦函数的计算;该装置包括角度压缩单元以及TCORDIC计算单元。本发明能够实现任意角度的正弦、余弦函数的计算,且具有实现方法简单、计算复杂度低,计算效率以及精度高等优点。

    通用计算数字信号处理器

    公开(公告)号:CN103714039B

    公开(公告)日:2017-01-11

    申请号:CN201310725118.6

    申请日:2013-12-25

    Abstract: 本发明公开了一种通用计算数字信号处理器,包括CPU核单元、DSP核单元、多层次互连结构、片内共享存储阵列、片外存储接口、第一高速输入输出接口、第二高速输入输出接口、片间直连接口和核间同步装置,CPU核单元包含若干CPU核,DSP核单元包含若干DSP核,CPU核、DSP核分别通过多层次互连结构与片内共享存储阵列相连;CPU核与第一高速输入输出接口相连,DSP核与第二高速输入输出接口、片间直连接口相连;其应用程序采用统一并行编程方法将编译得到CPU端目标代码和DSP端的目标代码进行统一编译链接得到。本发明具有既能够保持嵌入式DSP基本特征和高性能低功耗的优势,又能够高效支持通用科学计算的优点。

    一种面向向量处理器的三角矩阵乘法向量化方法

    公开(公告)号:CN103440121B

    公开(公告)日:2016-06-29

    申请号:CN201310364279.7

    申请日:2013-08-20

    Abstract: 本发明公开了一种面向向量处理器的三角矩阵乘法向量化方法,其步骤为:步骤1:将被乘数三角矩阵T中的三角矩阵元素按行连续存储;步骤2:根据向量处理器的向量处理单元个数和向量处理单元的MAC部件个数对乘数矩阵B按列划分为若干个子矩阵Bi;步骤3:依次实现被乘数三角矩阵T与子矩阵Bi的乘法,计算结果存储在原子矩阵Bi的存储位置;步骤4:遍历完乘数矩阵的全部子矩阵Bi,判断是否还有未计算的子矩阵Bi,若有,更新i=i+1,转步骤3;若无,则执行步骤5;步骤5:三角矩阵乘法的计算完成。本发明具有原理简单、操作简便、能充分发挥向量处理器运算效率等优点。

    支持数据按模重组的向量访存方法

    公开(公告)号:CN103294621B

    公开(公告)日:2016-04-06

    申请号:CN201310166859.5

    申请日:2013-05-08

    Abstract: 一种支持数据按模重组的向量访存方法,在基本的向量Load/Store指令中增加按模重组类型MT域,MT的宽度为2位;对于向量Load指令,MT为不同值时执行与之对应的重组方式,将数据从VM读出的数据进行按模重组后写入到VR中;对于向量Store指令,MT为不同值时执行与之对应的重组方式,将从VR读出的数据进行按模重组后写入VM中。本发明能够将SIMD处理器的数据混洗和向量访存两个部件的部分功能融合,从而能够显著提高以FFT为代表一类算法在SIMD处理器上的执行效率,并能够降低程序员的映射难度和应用程序的代码尺寸。此外,本发明还能够高效解决复数数据在SIMD处理器中的向量访问问题。

    高速低功耗多阈值D型触发器

    公开(公告)号:CN104617923B

    公开(公告)日:2016-03-30

    申请号:CN201510061550.9

    申请日:2015-02-06

    Abstract: 本发明公开了一种高速低功耗多阈值D型触发器,包括:低功耗控制电路,用来接收低功耗控制输入信号slp,对低功耗控制输入信号slp进行缓冲处理后输出信号:sleep和nsleep;主锁存器,用来接收数据输入信号d、正相输入时钟信号clk、反相输入时钟信号nclk及信号sleep和nsleep;所述主锁存器在正相输入时钟信号clk、反相输入时钟信号nclk的控制下对数据输入信号d进行锁存处理后输出信号:qt;从锁存器,用来接收信号qt及正相输入时钟信号clk、反相输入时钟信号nclk;所述从锁存器在正相输入时钟信号clk、反相输入时钟信号nclk的控制下对信号qt进行锁存处理后分别输出第一输出信号q和第二输出信号nq。本发明具有结构简单、可提高传输效率、降低静态漏电流和功耗等优点。

    支持向量条件访存的方法和装置

    公开(公告)号:CN102629238B

    公开(公告)日:2014-10-29

    申请号:CN201210050795.8

    申请日:2012-03-01

    Abstract: 一种支持向量条件访存的方法和装置,方法的步骤为:(1)在向量条件访问单元VCAU中设置两个可编程的寄存器:N位的VPE条件访问寄存器和N位的VB条件写回寄存器;(2)指令译码单元接收指令派发部件发出的向量访存指令进行指令译码,译出指令中的访存信息;(3)地址计算单元根据访存信息产生访问N个VB的访问请求vr及地址并送到VCAU;(4)VCAU对所有访存信息进行条件整理和数据对齐;(5)将各VB访存流水线的写回信息打入向量条件写回单元VCWBU进行整理。该装置由包括访存指令译码单元、地址计算单元、向量存储体VB、向量条件访问单元VCAU、向量条件写回单元VCWBU组成的向量存储器VM。本发明可提高访存操作灵活性,有效提高向量存储器的利用率和访存效率。

    面向向量处理器的浮点复数块FIR的向量化实现方法

    公开(公告)号:CN102231624B

    公开(公告)日:2014-02-12

    申请号:CN201110213358.9

    申请日:2011-07-28

    Abstract: 本发明公开了一种面向向量处理器的浮点复数块FIR的向量化实现方法,包括以下步骤:(1)输入向量数据x,系数数据h;将向量数据x的虚部和实部分别连续存放,将系数数据h的虚部和实部分别连续存放;向量处理器包括p个处理单元;(2)将向量数据x的实部和虚部、系数数据h的实部和虚部并行加载到向量处理器的同一个处理单元的不同局部寄存器中;(3)p个处理单元中的每个处理单元在本单元内执行向量数据x和系数数据h的复数乘法并将乘法的结果进行累加;(4)p个处理单元的计算完成,输出p个结果。本发明具有原理简单、操作方便、能够高效计算并能缩短整个算法的运算时间、能提高处理器计算资源使用效率等优点。

    具有开关矩阵存储器的数据混洗单元及其混洗方法

    公开(公告)号:CN102053816B

    公开(公告)日:2014-02-12

    申请号:CN201010559288.8

    申请日:2010-11-25

    Abstract: 本发明公开了一种具有开关矩阵存储器的数据混洗单元,包括交叉开关、输入逻辑单元、输出逻辑单元、主控逻辑单元以及开关矩阵存储器,主控逻辑单元与所述输入逻辑单元相连,开关矩阵存储器的输出端与所述交叉开关的开关选择信号端相连。以及一种上述的数据混洗单元的混洗方法,在预处理时将用户程序中的混洗请求转化为开关矩阵存储器中的开关矩阵,执行混洗指令时,主控逻辑单元控制从开关矩阵存储器读出所需要的混洗模式对应的开关矩阵,进而直接控制交叉开关进行数据选择和重组。本发明具有结构简单、混洗灵活高效、关键电路延时短且可适用于任意混洗操作的特点。

Patent Agency Ranking