基于多语言预训练模型的事件触发词检测与分类方法

    公开(公告)号:CN114896394B

    公开(公告)日:2024-04-05

    申请号:CN202210404007.4

    申请日:2022-04-18

    Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于多语言预训练模型的事件触发词检测与分类方法,首先构建事件触发词与事件要素的向量池,再使用现有的工具对事件进行语义角色标注,最后再以相似度计算方法将它们映射到给定的事件类型进行分类。本发明有效地减弱了人工进行事件标注的工作量,并且方便拓展到其他事件类型;使用多语言的预训练模型进行编码,让多种语言可以在一个向量池上进行相似性挖掘与预测,减少了一种语言训练一个模型的工作量;使用多语言的预训练模型,准备阶段中使用中英等外部新闻语料库丰富的数据量,避免了稀缺语言资源使用该方法却没有丰富新闻语料库扩充向量池的问题。

    一种基于跨语言向量的东盟地区新闻平行语料挖掘方法

    公开(公告)号:CN114064866A

    公开(公告)日:2022-02-18

    申请号:CN202111169607.9

    申请日:2021-10-08

    Abstract: 本发明公开了一种基于跨语言向量的东盟地区新闻平行语料挖掘方法,通过爬取多语新闻网站内容,按语言种类将文章分类;将不同语言的文章分别进行预处理,得到篇章集合;对篇章集合进行分句,得到语句合集;使用多语言编码模型对语句进行编码,得到向量合集;通过语句对应的向量计算语句的相似度,得到平行语句对;根据平行语句对中语句在原文章中的占比判断是否存入可比语料库,从而得到大量的平行语料。过程中使用知识蒸馏的方法使得大模的跨语言句向量模型在使用较少平行语料的情况下能有更好的表现。最终解决对于东盟地区的低资源语料而言,没有大量的平行语料构建神经机器翻译系统,从而无法做到平行语句挖掘的问题。

    基于多语言预训练模型的事件触发词检测与分类方法

    公开(公告)号:CN114896394A

    公开(公告)日:2022-08-12

    申请号:CN202210404007.4

    申请日:2022-04-18

    Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于多语言预训练模型的事件触发词检测与分类方法,首先构建事件触发词与事件要素的向量池,再使用现有的工具对事件进行语义角色标注,最后再以相似度计算方法将它们映射到给定的事件类型进行分类。本发明有效地减弱了人工进行事件标注的工作量,并且方便拓展到其他事件类型;使用多语言的预训练模型进行编码,让多种语言可以在一个向量池上进行相似性挖掘与预测,减少了一种语言训练一个模型的工作量;使用多语言的预训练模型,准备阶段中使用中英等外部新闻语料库丰富的数据量,避免了稀缺语言资源使用该方法却没有丰富新闻语料库扩充向量池的问题。

Patent Agency Ranking