-
公开(公告)号:CN109492202A
公开(公告)日:2019-03-19
申请号:CN201811339730.9
申请日:2018-11-12
Applicant: 浙江大学山东工业技术研究院
Abstract: 本发明公开了一种基于拼音的编码与解码模型的中文纠错方法,属于自然语言处理领域,包括:将中文转化为拼音序列,再将拼音序列向量化后输入编码模型,编码模型对拼音序列进行编码后,解码模型对当前目标中文文本序列使用注意机制正、反向解码。对正反向解码的中文序列概率加权相加后,再判断目标序列字符对应的概率是否大于阈值,若大于阈值使用预测字符,若小于阈值则使用原中文序列字符,所得最终的目标中文序列即为修正后的中文序列。使用了以编码模型与正反向解码模型的结构的深度学习模型,在编码与解码的过程中,提取有效的文本信息特征,从而提高了在中文纠错任务中上下文的相关性,以提高模型的准确率。
-
公开(公告)号:CN109492202B
公开(公告)日:2022-12-27
申请号:CN201811339730.9
申请日:2018-11-12
Applicant: 浙江大学山东工业技术研究院
IPC: G06F40/211 , G06F40/30 , G06F40/232 , G06F40/126
Abstract: 本发明公开了一种基于拼音的编码与解码模型的中文纠错方法,属于自然语言处理领域,包括:将中文转化为拼音序列,再将拼音序列向量化后输入编码模型,编码模型对拼音序列进行编码后,解码模型对当前目标中文文本序列使用注意机制正、反向解码。对正反向解码的中文序列概率加权相加后,再判断目标序列字符对应的概率是否大于阈值,若大于阈值使用预测字符,若小于阈值则使用原中文序列字符,所得最终的目标中文序列即为修正后的中文序列。使用了以编码模型与正反向解码模型的结构的深度学习模型,在编码与解码的过程中,提取有效的文本信息特征,从而提高了在中文纠错任务中上下文的相关性,以提高模型的准确率。
-