一种用于长文本大语言模型的层次辅助稀疏注意方法

    公开(公告)号:CN119990363A

    公开(公告)日:2025-05-13

    申请号:CN202510003045.2

    申请日:2025-01-02

    Applicant: 厦门大学

    Abstract: 本发明提供一种用于长文本大语言模型的层次辅助稀疏注意方法,所述方法包括:步骤S1、在每一层大语言模型层中增加一个参数共享的偏移分支得到新的大语言模型;步骤S2、将上下文切分成多个片段输入到大语言模型层内得到局部特征输出,同时对每个片段进行池化,输入到同层的偏移分支中得到低分辨率表示;步骤S3、将上一层的偏移分支输出的低分辨率表示拼接到当前层的大语言模型层的局部特征,输出给下一层大语言模型层;步骤S4、对新的大语言模型进行微调,并在其最后一个大语言模型层后接入一个语言建模头,用以输出下游任务的处理结果。采用本发明方法可有效提高推理效率的同时确保模型性能不被降低,降低生成首个词元时可能面临显著的延迟。

    用于长文本大语言模型的无偏增量式优化方法、电子设备和存储介质

    公开(公告)号:CN118886425A

    公开(公告)日:2024-11-01

    申请号:CN202410834156.3

    申请日:2024-06-26

    Applicant: 厦门大学

    Abstract: 本发明公开一种用于长文本大语言模型的无偏增量式优化方法、电子设备和存储介质,实现对循环神经网络与自注意机制结合的方法进行优化,降低其训练开销,使得可以使用有限的计算资源来适配十万词元级别的文本的训练。本发明在现有的大语言模型的基础上,采用Lora方法进行微调,并添加一个对于输入文本的切片机制:对于每个所得的文本片段,在其后面添加少数可训练的记忆词元,通过训练这些记忆词元以及对模型本身的微调,让每个文本片段的内容迁移到对应的记忆词元中,最后将所有片段产生的记忆词元汇总到一起,作为上下文提供给大语言模型解码使用。

Patent Agency Ranking