-
公开(公告)号:CN112632985A
公开(公告)日:2021-04-09
申请号:CN202011507899.8
申请日:2020-12-18
Applicant: 国网北京市电力公司 , 国家电网有限公司 , 福建亿榕信息技术有限公司
IPC: G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种语料的处理方法、装置、存储介质及处理器。其中,该方法包括:获取待识别的词句;采用新词发现模型处理词句,识别出至少一个候选语料,其中,新词发现模型为采用深度学习模型训练得到的语料模型;从至少一个候选语料中确定目标语料,其中,目标语料为从词句中识别出来的新词汇。本发明解决了现有技术中获取术语过程效率低的技术问题。
-
公开(公告)号:CN111325019A
公开(公告)日:2020-06-23
申请号:CN202010072472.3
申请日:2020-01-21
Applicant: 国网北京市电力公司 , 国家电网有限公司 , 福建亿榕信息技术有限公司
IPC: G06F40/242 , G06F40/109 , G06F16/332
Abstract: 本发明公开了一种词库的更新方法及装置、电子设备。其中,该方法包括:获取审计新语料,其中,审计新语料中包括:审计基础词和电力资料语句;对审计新语料进行标注处理,得到基础样本数据;采用新词检索模型识别基础样本数据中的新词,其中,新词检索模型是基于多组数据训练得到的,多组数据中的每组数据包括:词库词语和新词预测概率;基于新词更新审计资料词库。本发明解决了相关技术中提取语料时容易遗漏专业术语,导致术语资料库的数据质量不均衡、数据不全面的技术问题。
-