-
公开(公告)号:CN118760765A
公开(公告)日:2024-10-11
申请号:CN202410893196.5
申请日:2024-07-04
Applicant: 北京信息科技大学
Abstract: 本发明公开了一种基于大语言模型和强化学习的多干扰项生成方法,涉及人工智能技术领域。包括:获取EQG‑RACE数据,将EQG‑RACE数据划分为训练集和验证集;建立基于文字指令的干扰项生成模型;将训练集输入干扰项生成模型并进行有监督微调处理,得到有监督微调后的干扰项生成模型;将验证集输入有监督微调后的干扰项生成模型,根据生成结果进行排序;构建奖励模型,根据排序结果得到奖励模型的训练数据集,并计算成对排名损失;基于奖励模型和强化学习进一步训练有监督微调后的干扰项生成模型,得到最高质量的多干扰项。本发明在干扰项生成质量上达到满足现实出题需求的水平。