-
公开(公告)号:CN118890284A
公开(公告)日:2024-11-01
申请号:CN202410891715.4
申请日:2024-07-04
Applicant: 国家电网有限公司信息通信分公司 , 国网山东省电力公司 , 杭州电子科技大学 , 国家电网有限公司
IPC: H04L41/14 , H04L41/16 , H04L45/12 , H04L47/125
Abstract: 本发明涉及算力网络通信技术领域,具体提供了一种面向大模型训练的算力网络通信效率优化方法及装置,包括:基于数据中心之间的双向传输时延,计算出从给定的数据中心出发,遍历完剩余所有数据中心的最短路径;基于最短路径上各数据中心的计算资源量及待训练大模型中各网络层的计算量为各数据中心分配需训练的网络层;采用流水线分片方式控制各数据中心对其划分到的网络层进行并行训练,并在每个批量的样本训练结束后进行负载均衡,直至待训练大模型训练结束。本发明提供的技术方案,有效优化了算力网络在进行大模型训练时的通信效率,提高计算/通信比,从而提高算力网络的资源利用率并加速模型的训练过程。
-
公开(公告)号:CN119829293A
公开(公告)日:2025-04-15
申请号:CN202510097021.8
申请日:2025-01-21
Applicant: 国家电网有限公司信息通信分公司 , 国网山东省电力公司信息通信公司 , 杭州电子科技大学 , 国家电网有限公司
Inventor: 袁宇杭 , 吴杏平 , 闫龙川 , 冯志鹏 , 牛佳宁 , 郭永和 , 蒋从锋 , 刘俊明 , 陈雨霏 , 张攀 , 宋新宇 , 刘雯静 , 蔡心怡 , 赵溪青 , 杨庆甫 , 张闻彬
Abstract: 本申请公开了一种面向深度学习作业的异构资源调度方法及相关装置,涉及资源调度领域,包括:根据多个深度学习作业各自的资源需求数据和目标服务器集群的资源使用数据,将多个深度学习作业中需要打包的深度学习作业打包为两两一组的作业对,得到由作业对和/或不需要打包的单个深度学习作业组成的待调度作业集合;根据多个深度学习作业各自的资源需求数据和目标服务器集群的空闲资源数量,预测待调度作业集合中的每个作业对象在GPU和NPU上各自的运行时长,根据每个作业对象在GPU和NPU上各自的运行时长,在目标服务器集群上采用轮次调度机制对待调度作业集合进行资源调度。本申请基于预设的自适应类实现了深度学习任务跨GPU和NPU的异构资源调度的目的。
-
公开(公告)号:CN119449680A
公开(公告)日:2025-02-14
申请号:CN202411586332.2
申请日:2024-11-07
Applicant: 国家电网有限公司信息通信分公司
IPC: H04L43/50 , H04L43/08 , H04L67/1023
Abstract: 本申请公开了一种支持灵活调度的智能链路压测方法及装置,当接收到调用请求时,从预设调用链信息中动态筛选出调用请求对应的各个调用链路,根据动态优先级任务调度算法和各个调用链路进行压测任务分发;其中,压测任务至少包括本地压测任务和边缘计算压测任务,在系统负载均衡的条件下,执行压测任务,在执行压测任务的过程中,实时监测压测任务的性能数据,根据性能数据动态调整施压配置参数,以完成全链路压测的过程。
-
公开(公告)号:CN119538112A
公开(公告)日:2025-02-28
申请号:CN202411605009.5
申请日:2024-11-11
Applicant: 国家电网有限公司信息通信分公司 , 国网山东省电力公司 , 杭州电子科技大学 , 国家电网有限公司
Inventor: 劳铃佳 , 吴杏平 , 闫龙川 , 冯志鹏 , 牛佳宁 , 郭永和 , 蒋从锋 , 刘俊明 , 陈彦琦 , 张攀 , 王洋 , 张宁 , 宋桂林 , 刘雯静 , 蔡心怡 , 赵溪青
IPC: G06F18/243 , G06F9/50
Abstract: 本申请公开了一种资源预测方法、装置、设备及可读存储介质,可应用于人工智能技术领域,该方法包括:获取目标任务对应的元数据;基于所述元数据,利用预设任务分类树对所述目标任务进行分类,并得到目标分类结果;所述预设任务分类树中存储有不同类型任务与不同资源预测模型之间的对应关系;调用与所述目标分类结果对应的资源预测模型对所述目标任务进行资源预测,并得到预测目标数据;所述预测目标数据包括:CPU数量、GPU数量、内存大小以及磁盘空间。如此,基于预设任务分类树确定与目标任务对应的资源预测模型,进而进行资源的预测,提高了资源预测的准确性。
-
-
-