异构计算平台及其任务仿真与耗时预测方法、装置、设备

    公开(公告)号:CN117971630B

    公开(公告)日:2024-06-28

    申请号:CN202410382408.3

    申请日:2024-04-01

    Abstract: 本发明公开了一种异构计算平台及其任务仿真与耗时预测方法、装置、设备,应用于异构计算领域。其中,方法包括获取异构计算平台采用层间并行方式执行目标任务的任务配置信息;调用预先构建的子任务训练耗时确定模型,根据任务配置信息中的目标任务特征确定各目标算力的子任务训练耗时信息。根据各目标算力的子任务训练耗时信息、任务配置信息中各子任务对应的目标算力及相应处理顺序,对采用层间并行方式执行目标任务的过程进行仿真,最后根据仿真结果确定目标任务的训练耗时预测结果。本发明可以解决相关技术并行训练任务的训练耗时无法精准预测的问题,能够实现精准预测层间并行训练任务的训练耗时。

    模型部署方法、任务处理方法、装置、设备及存储介质

    公开(公告)号:CN116956756B

    公开(公告)日:2024-02-09

    申请号:CN202311220752.4

    申请日:2023-09-21

    Abstract: 本发明涉及深度学习技术领域,并公开了模型部署方法、任务处理方法、装置、设备及存储介质,通过仿真模拟,计算出每一个分组划分策略下的每个组内并行策略的延迟,基于该延迟则可选出最优设备组划分策略和多个最优组内并行策略,并按照选出的策略进行部署,并记录下模型与设备的映射关系,则可满足延迟要求。又由于模型的部署不是一个模型对应一个设备,而是一个模型并行部署于多个设备之上,且一个设备又对应部署了多个模型。因而,在处理任务时,可以实现同一个模型的任务在多个设备上流水并行处理,不同模型的任务在多个设备上并行处理。即,可以在少量设备上满足延迟要求、提升处(56)对比文件向建军,左继章,白欣.基于多任务并行处理的实时集群计算机系统.系统工程与电子技术.2003,(09),全文.

    分布式集群的通信方法、系统、电子设备及可读存储介质

    公开(公告)号:CN117155929A

    公开(公告)日:2023-12-01

    申请号:CN202311423771.7

    申请日:2023-10-31

    Abstract: 本发明公开了一种分布式集群的通信方法、系统、电子设备及可读存储介质,涉及分布式集群领域,为解决受网络带宽限制使得集群间通信效率低的问题,该通信方法包括:确定分布式集群中的参数更新节点以及多个子集群;针对每一子集群,获取子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;确定获取到的各个阶段的梯度数据的发送次序;按发送次序从先到后的顺序将梯度数据发送至参数更新节点,以便通过参数更新节点基于梯度数据执行参数更新操作。本发明能够实现对集群间的网络带宽的充分利用,从而提高通信效率。

    面向异构计算系统的任务分配方法、装置、设备和介质

    公开(公告)号:CN116680060A

    公开(公告)日:2023-09-01

    申请号:CN202310961740.0

    申请日:2023-08-02

    Abstract: 本发明涉及多元异构计算技术领域,公开了面向异构计算系统的任务分配方法、装置、设备和介质,获取分布式训练任务的训练信息以及每种类型计算节点的耗时信息;训练信息包括模型信息和硬件信息。基于训练信息、耗时信息以及异构计算系统的网络通信信息,确定出各计算节点的负载耗时;根据各计算节点的负载耗时,确定出各计算节点满足节点耗时均衡条件的单次任务量;依据训练信息以及各计算节点的单次任务量,向各计算节点分配对应的训练任务。在负载均衡时考虑了异构计算系统中不同计算节点的计算性能,同时考虑异构计算系统内的网络资源,使负载均衡的效果更优。实现负载均衡仅调整每个计算节点的单次任务量,不影响分布式训练性能。

    一种梯度数据同步方法、系统、装置及介质

    公开(公告)号:CN116663639A

    公开(公告)日:2023-08-29

    申请号:CN202310945008.4

    申请日:2023-07-31

    Abstract: 本申请公开了一种梯度数据同步方法、系统、装置及介质,涉及神经网络技术领域,解决训练效率低以及模型参数陈旧的问题。该方案预先选中M个工作节点,作为触发节点;在每次迭代过程中,若存在Z个触发节点完成梯度数据计算,触发各个工作节点执行梯度数据聚合操作;根据梯度数据聚合操作得到的聚合结果更新神经网络模型的模型参数。可见,只要有Z个触发节点完成了梯度数据计算就触发各个工作节点执行梯度数据聚合,可减少等待所有加速器计算完一个批次的训练数据后才同步更新模型参数所需的时间,避免占用加速器的计算资源。此外,选择M个节点作为触发节点还可以减少模型参数陈旧性的问题,提高训练效率。

    分布式协同训练控制方法、系统、装置、设备及存储介质

    公开(公告)号:CN116644803A

    公开(公告)日:2023-08-25

    申请号:CN202310928131.5

    申请日:2023-07-27

    Abstract: 本发明涉及计算机领域,具体公开了一种分布式协同训练控制方法、系统、装置、设备及存储介质,通过计算节点存储对模型网络的当前次迭代计算中的反向传播计算得到的各层梯度数据,在反向传播计算完毕后再自对应第一层模型网络的梯度数据起依次执行对各层梯度数据的梯度数据聚合操作得到各层聚合梯度数据,在利用接收到的当前次迭代计算的各层聚合梯度数据依次更新模型网络的各层模型参数时,即随着各层模型参数的更新执行对模型网络的下一次迭代计算的前向传播计算,达到下一次迭代计算的前向传播计算和当前次迭代计算的梯度数据聚合操作同时进行的效果,缩短了相邻两次迭代计算的执行时间,进而缩短了整体训练时间,提高了分布式训练效率。

    一种训练时长预测方法、装置、多元异构计算设备及介质

    公开(公告)号:CN116244159B

    公开(公告)日:2023-08-11

    申请号:CN202310509328.5

    申请日:2023-05-08

    Abstract: 本发明公开了一种训练时长预测方法、装置、多元异构计算设备及介质,涉及模型训练技术领域,该方法包括:获取待预测计算芯片的模型训练信息;其中,待预测计算芯片为需要完成模型训练任务的计算芯片,模型训练信息包括训练任务特征、计算芯片特征和服务器特征中的至少一项;获取待预测计算芯片对应的目标耗时预测模型;根据模型训练信息,利用目标耗时预测模型计算待预测计算芯片的单步训练时长;本发明能够利用计算芯片所要完成的模型训练任务的特征、计算芯片的动态特征和/或计算芯片所在服务器的动态特征,准确地预测计算芯片在单个训练迭代的计算耗时,提高了对计算芯片的模型训练时长预测的准确性。

    一种参数梯度同步方法、装置、设备及存储介质

    公开(公告)号:CN115936095A

    公开(公告)日:2023-04-07

    申请号:CN202310135785.2

    申请日:2023-02-20

    Abstract: 本申请涉及分布式模型训练技术领域,公开了一种参数梯度同步方法、装置、设备及存储介质,包括:获取基于分布式训练框架对待训练模型进行线上训练时执行控制逻辑得到的当前执行周期的响应列表;基于参数梯度分组列表对当前执行周期的响应列表中的张量数据进行均衡划分,得到当前执行周期的待融合组列表和暂不融合列表;对当前执行周期的待融合组列表中的各组张量数据进行张量融合及规约处理;将当前执行周期的暂不融合列表中的张量数据与下一个执行周期的响应列表中的张量数据进行合并得到下一个执行周期的新响应列表,以基于新响应列表对下一个执行周期进行张量融合及规约处理。能够提高模型训练过程中的网络带宽利用率及梯度数据同步性能。

    一种图片处理方法、装置及系统

    公开(公告)号:CN110659119B

    公开(公告)日:2022-08-02

    申请号:CN201910866485.5

    申请日:2019-09-12

    Inventor: 高开 郭振华 曹芳

    Abstract: 本发明公开了一种图片处理方法,应用于深度学习模型,深度学习模型的每一层之前均设置有缓存队列,本申请中,预先为深度学习模型的每层预设了多个计算任务,用来并行的对各对应层中的多个通道中的权重参数及对应待处理数据进行计算,并将计算结果保存至其对应层之后的缓存队列中;此外,只要层之前的缓存队列中包括上一层保存的计算结果,该层便可从计算结果中获取待处理数据,便进行后续计算,层与层之间也形成了并行流水的计算方式。通过该种方式显著改善了图片处理时的吞吐率,提高了图片的处理并行度、速度及深度学习模型的计算性能。本发明还公开了一种图片处理装置及系统,具有与上述图片处理方法相同的有益效果。

Patent Agency Ranking