一种基于跨语言向量的东盟地区新闻平行语料挖掘方法

    公开(公告)号:CN114064866A

    公开(公告)日:2022-02-18

    申请号:CN202111169607.9

    申请日:2021-10-08

    Abstract: 本发明公开了一种基于跨语言向量的东盟地区新闻平行语料挖掘方法,通过爬取多语新闻网站内容,按语言种类将文章分类;将不同语言的文章分别进行预处理,得到篇章集合;对篇章集合进行分句,得到语句合集;使用多语言编码模型对语句进行编码,得到向量合集;通过语句对应的向量计算语句的相似度,得到平行语句对;根据平行语句对中语句在原文章中的占比判断是否存入可比语料库,从而得到大量的平行语料。过程中使用知识蒸馏的方法使得大模的跨语言句向量模型在使用较少平行语料的情况下能有更好的表现。最终解决对于东盟地区的低资源语料而言,没有大量的平行语料构建神经机器翻译系统,从而无法做到平行语句挖掘的问题。

Patent Agency Ranking