-
公开(公告)号:CN111027291A
公开(公告)日:2020-04-17
申请号:CN201911182421.X
申请日:2019-11-27
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/166 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明实施例提供了一种文本中标点符号添加、模型训练方法、装置及电子设备,该方法包括:对待添加文本进行分词处理以及词性识别,并进行归一化处理,并确定字/词向量;将词性信息、分词边界信息、字/词向量进行拼接得到特征向量;将特征向量输入到已训练的seq2seq模型中,得到多个添加标点的候选文本序列,并形成候选文本序列集合;将候选文本序列集合中不符合条件的文本序列进行过滤;在候选文本序列集合的剩余文本序列中,将联合概率最高,且符合标点符号规范的文本序列进行输出,并将输出的文本序列进行归一化的还原操作,可以很好的解决字符后面添加多个标点符号的问题,提高标点符号的添加的准确性。