大模型连续学习方法、电子设备、介质及产品

    公开(公告)号:CN119416912A

    公开(公告)日:2025-02-11

    申请号:CN202411570728.8

    申请日:2024-11-05

    Abstract: 本申请公开了一种大模型连续学习方法、电子设备、介质及产品,涉及人工智能技术领域,本申请方案将结合低秩矩阵、模型输入量以及上个训练轮次的正交投影矩阵构建当前正交投影矩阵,由于第二低秩矩阵具有低秩性,可用于约束当前训练轮次对应训练样本中的模型输入量的维度,避免最后构建的当前正交投影矩阵维度太大造成计算复杂。且正交投影矩阵相当于被集成在整个框架中,可简化计算流程节约计算资源。在训练过程中再使用当前正投影矩阵对得到的模型更新梯度进行约束,避免进行新的学习任务过程时遗忘过去学习的知识,从而引发生连续性学习过程中的灾难性遗忘问题。故本申请解决了当前解决灾难性遗忘问题方案需占用较大计算机资源的问题。

Patent Agency Ranking