-
公开(公告)号:CN109117288B
公开(公告)日:2022-04-12
申请号:CN201810928707.7
申请日:2018-08-15
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种低延迟旁路的消息优化方法,该方法采用旁路方式,对于满足一定长度要求的用户消息请求,采用快速旁路方式处理,减少用户函数到底层消息操作的调用层次;同时,不在通信支撑环境中对用户消息数据以及包头进行组包操作,而是将这些信息直接写入网络接口芯片的短消息通路条目中,减少硬件读取描述符并访问用户数据的传输启动开销。本发明能够充分利用底层硬件的短消息通路,在降低硬件处理开销的同时,从软件层面尽量减少消息数据的启动和处理开销,有效降低短消息通信延迟。
-
公开(公告)号:CN114218521A
公开(公告)日:2022-03-22
申请号:CN202110452546.0
申请日:2021-04-26
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种异构众核架构上基于膨胀取数的卷积运算方法,包括以下步骤:S1、输入input、权重weight、跨步stride,其中input为Hi*Wi,weight为K*K,根据input和weight的形状计算输出output的形状,得到Ho*Wo;S2、根据output的形状,在Ho、Wo维度上,根据每个核的逻辑编号,将卷积计算任务平均分配给众核;S3、每个核根据自己任务大小;S4、每个核通过得到的input(Hi_BLOCK*Wo_BLOCK)和weight,进行卷积计算;S5、重复S3和S4,直到计算完毕。本发明节约了内存带宽资源,同时能够充分运用众核的计算资源。
-
公开(公告)号:CN112532539A
公开(公告)日:2021-03-19
申请号:CN201910879920.8
申请日:2019-09-18
Applicant: 无锡江南计算技术研究所
IPC: H04L12/867
Abstract: 本发明公开一种面向大规模并发通信的优化方法,包括以下步骤:S1、发送方向接收方发起发送请求,设置完成计数器初值;S2、接收方收到来自于发送方的发送请求后,匹配相关接收请求信息,向发送方应答目的地址信息;S3、发送方收到来自于接收方的请求应答后,投递拆分后的前n个传输请求;S4、如果探查到某一个传输请求完成,则将完成计数器的值减1,并判断当前完成计数器的值是否为0,如果为0,向发送方投递完成通知,否则,继续补充后续传输请求;S5、接收方收到来自于接收方的完成通知,置接收操作完成。本发明解决了网络资源竞争导致的性能干扰问题和并发通信的性能可扩展性问题,可有效增强并发通信优化手段的灵活性,提升大规模并发通信性能。
-
公开(公告)号:CN106933777B
公开(公告)日:2019-03-19
申请号:CN201710150446.6
申请日:2017-03-14
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
IPC: G06F17/14
Abstract: 本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法,基于国产处理器申威26010平台,设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术,同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法,设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算,从而有效解决FFT计算的访存带宽受限问题,有效提升基2一维FFT计算性能。与开源FFTW库相比,基于本平台的基2一维FFT计算性能急剧升高,以FFT计算的每秒浮点运算次数为例,其平均加速比为34.4,最高加速比达到50.3。
-
公开(公告)号:CN105391658B
公开(公告)日:2018-07-06
申请号:CN201510830368.5
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
IPC: H04L12/933 , H04L12/947
Abstract: 本发明提供了一种基于物理位置感知的集合通信方法,包括:感知目的进程的位置;在目的进程和位于同一物理芯片内时,通过查询确定本地运算核心是否空闲;在本地运算核心空闲的情况下,通过本地运算核心发起存储器直接访问操作,将通信数据直接写入所述同一物理芯片上的目的进程主存中,以使得所述同一物理芯片内的通信不需要再通过网络接口进行中转。本发明进行大规模集合通信时,通过感知目的进程的位置,结合路由芯片路由算法,根据无端口冲突原则,使得通信间的路由冲突最小化。
-
公开(公告)号:CN106933777A
公开(公告)日:2017-07-07
申请号:CN201710150446.6
申请日:2017-03-14
Applicant: 中国科学院软件研究所 , 无锡江南计算技术研究所
IPC: G06F17/14
CPC classification number: G06F17/142
Abstract: 本发明提出一种基于国产申威26010处理器的基2一维FFT的高性能实现方法,基于国产处理器申威26010平台,设计从核内行或列寄存器通信机制、访存‑计算重叠的双缓冲机制和256位单指令流多数据流的向量化运算等多种优化技术,同时提出基于两层分解的Stockham FFT计算框架且分解规则为库利‑图基算法,设计“接口层‑主核层‑从核层‑核心层”的四层结构框架进行基2一维FFT计算,从而有效解决FFT计算的访存带宽受限问题,有效提升基2一维FFT计算性能。与开源FFTW库相比,基于本平台的基2一维FFT计算性能急剧升高,以FFT计算的每秒浮点运算次数为例,其平均加速比为34.4,最高加速比达到50.3。
-
公开(公告)号:CN102929724B
公开(公告)日:2016-04-13
申请号:CN201210441328.8
申请日:2012-11-06
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种基于异构众核处理器的多级访存方法及离散访存方法。所述多级访存方法包括:从核读入第一次计算所需的数据;除第一次之外,从核在进行本次数据计算的同时,读入下一次计算所需的数据;除最后一次之外,从核在进行本次数据计算的同时,写回上一次计算结果数据;从核写回最后一次计算结果数据。所述离散访存方法包括:在从核上调整数组的存储顺序,将离散存储的数组调整为连续存储的数组;从核以多级访存方法,对所述数组进行通信读入数据、计算和通信写回数据。本发明实现了有效计算开销和多级存储资源访问开销之间最大限度的隐藏,提高了多级访存效率,充分发挥了从核的性能效率,从而提高科学计算课题的计算效率。
-
公开(公告)号:CN117394863A
公开(公告)日:2024-01-12
申请号:CN202311403458.7
申请日:2023-10-26
Applicant: 无锡江南计算技术研究所
Abstract: 本申请涉及一种面向众核处理器的压缩感知稀疏重构加速方法。所述方法包括:获取待采样数据的待采样信号,并确定待采样信号的初始稀疏向量;当对待采样信号进行压缩感知时,从内存读取第一测量矩阵和第二测量矩阵,对第一测量矩阵和第二测量矩阵进行张量积运算,生成测量矩阵,其中,测量矩阵为克罗内克结构;根据生成的测量矩阵对初始稀疏向量进行迭代更新,直至满足终止阈值条件,得到目标稀疏向量,以实现待采样信号的压缩感知稀疏重构。采用本方法可以减轻信号处理过程中内存的负担,提高压缩感知的运行效率和数据处理速率,灵活处理数据,具有可扩展性。
-
公开(公告)号:CN114253705A
公开(公告)日:2022-03-29
申请号:CN202110381442.5
申请日:2021-04-09
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种处理器性能筛选方法,包括以下步骤:将待筛选的处理器划分为n个子集;判断性能筛选是否完成;将处理器Pij的性能记为Aij;将子集i内所有处理器的性能值收集到根节点r,作为待分类的样本;选取分类数k,设置分类终止条件为k_thres;对于每个样本Aij,计算其到每个初始质心的欧式距离;S8、对于每个类别t,重新计算属于该类别的样本S[t]的平均值;对于每个类别t,将经过本轮筛选后剩余的处理器作为待筛选处理器,累加筛选总时间或筛选轮次,回到S1。本发明灵活性强、鲁棒性好,显著减少人为干预、利于筛片自动化,降低筛片人员工作负担和误操作可能,有助于提高筛片效率和效果。
-
公开(公告)号:CN114217939A
公开(公告)日:2022-03-22
申请号:CN202110381609.8
申请日:2021-04-09
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50
Abstract: 本发明公开一种异步通信优化方法,S1、判断物理资源是否满足大于等于用户程序所需进程数2倍的条件;S2、为用户程序的各个进程间隔分配控制核心作为进程控制核心,并在每个用户进程之间启用一个空闲的控制核心作为专用控制核心,所述进程控制核心与所述专用控制核心组成与用户进程一一对应的异步控制核心;S3、实现单个进程控制核心与多个运算核心阵列的逻辑组合;S6、当位于进程控制核心的用户程序进程(主线程)进行与位于专用控制核心的通信探查服务关键互斥操作时,对线程信号量置1,以主动抢锁并进行关键互斥操作,抢锁成功后信号量置0,允许通信探查服务继续竞争线程锁。本发明可有效提升通信密集型大规模并发应用的整体性能。
-
-
-
-
-
-
-
-
-