-
公开(公告)号:CN118114198A
公开(公告)日:2024-05-31
申请号:CN202410215966.0
申请日:2024-02-27
Applicant: 北京语言大学
IPC: G06F18/25 , G06F18/214 , G06F40/186 , G06N3/094
Abstract: 本发明涉及自然语言处理技术领域,特别是指一种用于事件抽取任务的训练数据合成方法及装置。用于事件抽取任务的训练数据合成方法包括:根据事件抽取任务信息构建事件列表,并构建触发词库;根据事件列表以及触发词库进行模版构建,获得正面数据提示模版以及对抗数据提示模板;通过指令微调后的生成式大语言模型,获得第一合成训练数据;对第一合成训练数据进行修订,获得第四合成训练数据;根据第四合成训练数据,通过权重分配模型,获得权重集;基于权重集以及预设的权重阈值,对第四合成训练数据进行采样,结合事件列表中的样本数据,获得第六合成训练数据。本发明是一种针对事件抽取任务的多样性好、数据质量高的训练数据合成方法。