-
公开(公告)号:CN116880980A
公开(公告)日:2023-10-13
申请号:CN202310846865.9
申请日:2023-07-11
Applicant: 北京科技大学
Abstract: 本发明提供一种多资源感知的GUP共享动态资源调度方法及系统,涉及计算机技术领域,包括:离线获取每个深度学习任务在不同GPU数量上的平均单次迭代时间;离线记录每次迭代中的数据加载、数据预处理、前向和反向传播、参数同步四个阶段的平均持续时间作为每种资源类型的占用时间;根据集群空闲资源和任务的不同资源需求决定任务合并共享GPU的最优分组策略和在集群中的最优放置策略,将任务下发至计算节点执行。本发明将资源需求差异大的任务进行合并,共享GPU资源和计算节点资源,减小资源争抢带来的干扰,提升集群资源利用率。将GPU独占式机制和共享机制结合使用,缩短任务平均完成时间。通过实验对比分析提出的资源调度方案的优越性和有效性。
-
公开(公告)号:CN117176730A
公开(公告)日:2023-12-05
申请号:CN202311026576.0
申请日:2023-08-15
Applicant: 北京科技大学
IPC: H04L67/1008 , H04L67/10 , G06N3/098 , G06N3/0442 , G06N3/048
Abstract: 本发明涉及分布式训练技术领域,特别是指一种面向计算节点的负载均衡方法及装置。一种面向计算节点的负载均衡方法包括:通过性能分析工具进行数据采集,获得节点性能数据;基于改进的MMoE模型进行模型构建,获得待训练多目标联合预测模型;将节点性能数据进行动态分区,进行数据处理,获得训练数据;使用训练数据,对待训练多目标联合预测模型进行训练,获得训练后多目标联合预测模型;将训练后多目标联合预测模型,通过弹性松弛方案进行验证,验证结果为通过验证时,获得多目标联合预测模型;输入待均衡节点性能数据,通过多目标联合预测模型进行负载均衡。本发明是一种针对计算节点的处理效率高、鲁棒性强的负载均衡方法。
-