Invention Publication
- Patent Title: 基于分布式内存管理的大模型训练故障恢复方法和装置
-
Application No.: CN202510067262.8Application Date: 2025-01-16
-
Publication No.: CN119473732APublication Date: 2025-02-18
- Inventor: 胡永新 , 程宏才 , 陈培俊 , 王琪 , 杨如丹 , 林志文
- Applicant: 之江实验室 , 上海人工智能创新中心
- Applicant Address: 浙江省杭州市余杭区中泰街道科创大道之江实验室;
- Assignee: 之江实验室,上海人工智能创新中心
- Current Assignee: 之江实验室,上海人工智能创新中心
- Current Assignee Address: 浙江省杭州市余杭区中泰街道科创大道之江实验室;
- Agency: 杭州求是专利事务所有限公司
- Agent 贾玉霞
- Main IPC: G06F11/14
- IPC: G06F11/14 ; G06N3/0455 ; G06N3/063 ; G06N5/04

Abstract:
本发明公开一种基于分布式内存管理的大模型训练故障恢复方法,当判断当前训练轮次需要进行检查点保存业务,获取当前时刻模型状态,并将获取到的模型状态序列化成可存储的格式,生成检查点数据;然后将检查点数据从节点内设备端内存传输至主机端内存;并在传输完毕后继续训练任务,同时进行异步检查点保存;异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种;训练任务出错时,通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据,可以显著减少因磁盘I/O瓶颈导致的延迟,从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降,保持GPU或其他计算资源的高效利用,提高大规模模型训练的连续性和稳定性。
Public/Granted literature
- CN119473732B 基于分布式内存管理的大模型训练故障恢复方法和装置 Public/Granted day:2025-03-25
Information query