-
公开(公告)号:CN118014035A
公开(公告)日:2024-05-10
申请号:CN202311814341.8
申请日:2023-12-26
Applicant: 北京邮电大学 , 联通时科(北京)信息技术有限公司
IPC: G06N3/08 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/0455
Abstract: 本发明提供一种基于自动化适配器的参数高效微调方法及装置,涉及人工智能技术领域,方法包括:获取预训练模型;在预训练模型的候选位置并行插入在先创建的适配器,得到待训练模型;其中,候选位置包括预训练模型的前馈模块、多头注意力模块和整个网络层;利用预设消融机制和神经网络架构搜索,对待训练模型进行训练,以利用适配器对预训练模型进行参数高效微调。本发明通过在预训练模型的候选位置并行插入适配器,并利用预设消融机制和神经网络架构搜索,对插入适配器的预训练模型进行训练,以提高最终适配器对预训练模型的微调性能,在确保少量可调参数的情况下提供强大的性能,进一步减少了微调计算开销,提高了参数高效微调精度。