一种基于强化蒸馏的跨语言属性级情感分类方法

    公开(公告)号:CN114429143A

    公开(公告)日:2022-05-03

    申请号:CN202210044125.9

    申请日:2022-01-14

    Applicant: 东南大学

    Abstract: 本发明提供了一种基于强化蒸馏的跨语言属性级情感分类方法,基于源语言语料训练一个教师网络,基于知识蒸馏框架将源语言语料中的属性情感信息迁移到目标分类器中;采用序列选择器根据特定的属性从目标翻译句子序列中选择属性情感相关的信息,向目标分类器提供去噪后的句子序列表示;使用自注意力层构建基于跨语言蒸馏的目标分类器,建模属性序列与去噪后的目标翻译句子序列间的细粒度交互。本发明缓解了翻译语料与真实语料之间的领域偏差问题,目标分类器具有更强的泛化能力。本发明能够充分利用源语言与目标翻译中有效的属性情感信息,同时更好地建模句子与属性之间的细粒度交互。本发明在情感分类的各方面性能都较基线方法有了一定提升。

    一种基于多模态主动学习的中文分词方法

    公开(公告)号:CN115496064A

    公开(公告)日:2022-12-20

    申请号:CN202210796242.0

    申请日:2022-07-07

    Abstract: 本发明公开了一种基于多模态主动学习的中文分词方法,使用音频特征作为模型补充输入,利用声学信息帮助分词。为了减少音频特征工程工作量,仅使用MFCC特征利用深度卷积神经网络ResNet进行音频特征提取。同时引入依存句法信息,利用异构图注意力神经网络实现依存句法结构图节点特征更新,使用注意力机制融合文本特征和句法结构特征得到句法文本特征,以缓解标注语料匮乏问题。本发明使用了主动学习策略,构造多样性预测模块,预测未标注样本所含信息量,选择富含信息的未标注样本进行人工标注,与已标注样本一起作为训练数据迭代提升模型性能。本发明在减少数据标注代价的基础上,在中文分词的各方面性能都较其他基线方法有了一定提升。

Patent Agency Ranking