Invention Grant
- Patent Title: 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
-
Application No.: CN202010635292.1Application Date: 2020-07-03
-
Publication No.: CN111738007BPublication Date: 2021-04-13
- Inventor: 李思 , 王蓬辉 , 李明正 , 孙忆南
- Applicant: 北京邮电大学
- Applicant Address: 北京市海淀区西土城路10号
- Assignee: 北京邮电大学
- Current Assignee: 北京邮电大学
- Current Assignee Address: 北京市海淀区西土城路10号
- Main IPC: G06F40/295
- IPC: G06F40/295 ; G06F40/216 ; G06F16/31 ; G06F16/35 ; G06F16/36 ; G06N3/04 ; G06N3/08

Abstract:
本发明提供了一种通过融合源领域和目标域中句子的语义差异和标签差异,来选择源领域数据中的正样本数据来扩展目标域的训练数据,达到增强目标域的命名实体识别性能的方法。在以往的Bi‑LSTM+CRF模型的基础上,为了融合源领域和目标域中句子的语义差异和标签差异,我们通过强化学习中的状态表示和奖励设置来引入语义差异和标签差异,使得训练的决策网络可以选择源领域的数据中对于目标域的命名实体识别的性能有正向影响的句子,扩展目标域的训练数据,解决目标域训练数据不足的问题,同时提升目标域的命名实体识别性能。
Public/Granted literature
- CN111738007A 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 Public/Granted day:2020-10-02
Information query