-
公开(公告)号:CN119829293A
公开(公告)日:2025-04-15
申请号:CN202510097021.8
申请日:2025-01-21
Applicant: 国家电网有限公司信息通信分公司 , 国网山东省电力公司信息通信公司 , 杭州电子科技大学 , 国家电网有限公司
Inventor: 袁宇杭 , 吴杏平 , 闫龙川 , 冯志鹏 , 牛佳宁 , 郭永和 , 蒋从锋 , 刘俊明 , 陈雨霏 , 张攀 , 宋新宇 , 刘雯静 , 蔡心怡 , 赵溪青 , 杨庆甫 , 张闻彬
Abstract: 本申请公开了一种面向深度学习作业的异构资源调度方法及相关装置,涉及资源调度领域,包括:根据多个深度学习作业各自的资源需求数据和目标服务器集群的资源使用数据,将多个深度学习作业中需要打包的深度学习作业打包为两两一组的作业对,得到由作业对和/或不需要打包的单个深度学习作业组成的待调度作业集合;根据多个深度学习作业各自的资源需求数据和目标服务器集群的空闲资源数量,预测待调度作业集合中的每个作业对象在GPU和NPU上各自的运行时长,根据每个作业对象在GPU和NPU上各自的运行时长,在目标服务器集群上采用轮次调度机制对待调度作业集合进行资源调度。本申请基于预设的自适应类实现了深度学习任务跨GPU和NPU的异构资源调度的目的。
-
公开(公告)号:CN118890284A
公开(公告)日:2024-11-01
申请号:CN202410891715.4
申请日:2024-07-04
Applicant: 国家电网有限公司信息通信分公司 , 国网山东省电力公司 , 杭州电子科技大学 , 国家电网有限公司
IPC: H04L41/14 , H04L41/16 , H04L45/12 , H04L47/125
Abstract: 本发明涉及算力网络通信技术领域,具体提供了一种面向大模型训练的算力网络通信效率优化方法及装置,包括:基于数据中心之间的双向传输时延,计算出从给定的数据中心出发,遍历完剩余所有数据中心的最短路径;基于最短路径上各数据中心的计算资源量及待训练大模型中各网络层的计算量为各数据中心分配需训练的网络层;采用流水线分片方式控制各数据中心对其划分到的网络层进行并行训练,并在每个批量的样本训练结束后进行负载均衡,直至待训练大模型训练结束。本发明提供的技术方案,有效优化了算力网络在进行大模型训练时的通信效率,提高计算/通信比,从而提高算力网络的资源利用率并加速模型的训练过程。
-