-
公开(公告)号:CN118747497A
公开(公告)日:2024-10-08
申请号:CN202410884233.6
申请日:2024-07-03
Applicant: 哈尔滨工业大学
IPC: G06F40/205 , G06F40/279 , G06F40/284 , G06F18/22 , G06F40/194 , G06N5/02 , G06N5/04
Abstract: 基于任务链的大模型语病纠错方法、设备和存储介质,属于语言信息处理技术领域,解决基于大语言模型的语病纠错正确性低问题。本发明方法包括:在输出中找出与输入原句子对应的信息类型,信息类型包括语病范围、语病类型和纠错方式三种类型;对不同粒度的语病范围进行标注,针对每种语病类型,计算自动标注的语病范围与人工标注的语病范围之间的相似性分数,选择相似性分数最高的标注粒度作为最终的语病范围标注结果;将训练集中的所有样本随机排序,按照样本的顺序,将每个样本的三条指令数据加入到训练队列中,依次使用每条指令数据对大语言模型进行指令微调;利用指令微调后的大语言模型进行语病纠错。本发明适用于基于大语言模型的语病纠错。