一种大模型集群部署方法、装置、设备及存储介质

    公开(公告)号:CN120045196A

    公开(公告)日:2025-05-27

    申请号:CN202510159553.X

    申请日:2025-02-13

    Inventor: 邓铮 康泽民 薛娇

    Abstract: 本申请公开了一种大模型集群部署方法、装置、设备及存储介质,涉及人工智能领域,包括:基于预设量化工具对与部署任务对应的大模型进行并行量化,并对量化后模型进行指标评测,以得到对应的模型评测结果;基于所述模型评测结果确定与所述部署任务对应的待部署模型列表;获取当前与所述部署任务对应的异构集群的计算资源信息与集群运行状态;利用所述计算资源信息、所述集群运行状态、所述待部署模型列表以及动态规划策略确定目标部署方案,并基于所述目标部署方案完成与所述部署任务对应的大模型部署操作。本申请能够有效避免异构集群中出现GPU性能挤占的情况,从而降低部署成本,并提高大模型在异构集群中运行的稳定性。

    一种大语言模型推理优化方法、装置、设备及存储介质

    公开(公告)号:CN119808961A

    公开(公告)日:2025-04-11

    申请号:CN202510223625.2

    申请日:2025-02-27

    Inventor: 康泽民 韩坤 邓铮

    Abstract: 本申请公开了一种大语言模型推理优化方法、装置、设备及存储介质,涉及机器学习技术领域,包括:对初始大语言模型进行结构化剪枝,以获取待调整大语言模型;其中,待调整大语言模型为预训练的模型,且在模型训练阶段已完成模型量化;获取目标待推理数据,判断目标待推理数据是否小于预设长度阈值,若目标待推理数据不小于预设长度阈值,则将目标待推理数据切分为目标长度的数据片段;获取目标待推理数据的特征信息,根据特征信息自动对待调整大语言模型中的初始上下文窗口进行调整,以获取相应的目标大语言模型,并利用目标大语言模型对数据片段进行推理。通过对模型进行量化处理,且对数据进行分片,提高了模型推理的效率与可扩展性。

    针对低算力设备的大模型端到端蒸馏部署方法、装置、设备及介质

    公开(公告)号:CN120066803A

    公开(公告)日:2025-05-30

    申请号:CN202510542975.5

    申请日:2025-04-28

    Inventor: 邓铮 康泽民 薛娇

    Abstract: 本申请公开了针对低算力设备的大模型端到端蒸馏部署方法、装置、设备及介质,涉及人工智能领域,包括:在计算集群中,确定第一目标数据集和目标学生模型,并部署蒸馏模型训练框架;利用第一预设大模型推理框架将预设大语言模型部署至计算集群,并将部署后的预设大语言模型确定为教师模型;若蒸馏模型训练框架为黑盒知识蒸馏框架,则基于教师模型和第一目标数据集确定第二目标数据集,并利用第二目标数据集对目标学生模型进行蒸馏,以得到蒸馏模型;若蒸馏模型训练框架为白盒知识蒸馏框架,则基于教师模型对目标学生模型进行蒸馏,以得到蒸馏模型;基于第二预设大模型推理框架将蒸馏模型部署至目标设备。因此,能够提高对大语言模型访问的效率。

Patent Agency Ranking