基于术语提取的跨语言信息匹配方法

    公开(公告)号:CN107908712A

    公开(公告)日:2018-04-13

    申请号:CN201711101619.1

    申请日:2017-11-10

    Abstract: 本发明提供的是一种基于术语提取的跨语言信息匹配方法。利用自然语言处理技术对中文文本进行预处理,针对句子进行词性标注;采用术语的构词规则对预处理结果进行词语过滤,通过信息熵确定词语的边界;采用领域语料库中词语的IDF值来衡量术语的领域相关度,将两组词语进行加权处理,最后设定的阈值,根据术语得分情况对候选术语进行取舍;在获取的领域术语的基础上,对中英文术语进行对齐,得到术语在本领域对应的翻译。最后利用中英文术语对齐结果构建检索式,建立中文与英文之间的联系,将检索式在英文文本中进行全文检索,根据匹配结果确定最匹配的英文文本,从而达到利用领域术语对齐结果实现跨语言匹配。

    一种文本概念图构造方法

    公开(公告)号:CN110532328A

    公开(公告)日:2019-12-03

    申请号:CN201910787829.3

    申请日:2019-08-26

    Abstract: 本发明公开了一种文本概念图构造方法,在对长文本进行自动摘要后,它对全文中重要的概念和关系进行初步过滤。对摘要中的概念和关系进行简要的句法词性标注后,通过关系建立概念间链接,再通过边的扩展和融合方法对次重要关系进行消除,引入间接关系并保留重要关系,生成概念间的拓扑图结构。概念图是一种语义检索的实现方式,对于关键词检索,语义检索更能模拟人在检索任务中的需求,并找到相似的检索结果。通过该发明可以对一篇文章进行跨语言检索并对其原创性进行判定,并经过实验证实了该方法的有效性。本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不经过翻译的情况下,实现了语义检索的效果。

    一种文本概念图构造方法

    公开(公告)号:CN110532328B

    公开(公告)日:2023-04-07

    申请号:CN201910787829.3

    申请日:2019-08-26

    Abstract: 本发明公开了一种文本概念图构造方法,在对长文本进行自动摘要后,它对全文中重要的概念和关系进行初步过滤。对摘要中的概念和关系进行简要的句法词性标注后,通过关系建立概念间链接,再通过边的扩展和融合方法对次重要关系进行消除,引入间接关系并保留重要关系,生成概念间的拓扑图结构。概念图是一种语义检索的实现方式,对于关键词检索,语义检索更能模拟人在检索任务中的需求,并找到相似的检索结果。通过该发明可以对一篇文章进行跨语言检索并对其原创性进行判定,并经过实验证实了该方法的有效性。本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不经过翻译的情况下,实现了语义检索的效果。

    一种基于多特征的跨语言剽窃检测方法

    公开(公告)号:CN107862045B

    公开(公告)日:2022-01-14

    申请号:CN201711084337.5

    申请日:2017-11-07

    Abstract: 本发明提供的是一种基于多特征的跨语言剽窃检测方法。(1)构建语料库;(2)译文特征的构建,根据翻译文章普遍出现的欧化现象和翻译体问题进行了译文特征构建,通过特征选择的方式对特征进行清洗筛选出有效特征,过滤无效特征或者效果不明显的特征;(3)特征选择,从诸多特征中选择出若干有效特征来进行分类器的训练,进而区分某一篇或某几篇中文文章是否存在跨语言剽窃问题;(4)基于特征对应的剽窃检测,针对中文的特征,进行英文特征的准确对应,并根据译文特征和结构特征对应进行剽窃结果的过滤和生成,通过WordNet进行剽窃结果的最终确认。本发明能够根据从译文挖掘出的多种特征来解决跨语言剽窃问题。

    一种基于多特征的跨语言剽窃检测方法

    公开(公告)号:CN107862045A

    公开(公告)日:2018-03-30

    申请号:CN201711084337.5

    申请日:2017-11-07

    Abstract: 本发明提供的是一种基于多特征的跨语言剽窃检测方法。(1)构建语料库;(2)译文特征的构建,根据翻译文章普遍出现的欧化现象和翻译体问题进行了译文特征构建,通过特征选择的方式对特征进行清洗筛选出有效特征,过滤无效特征或者效果不明显的特征;(3)特征选择,从诸多特征中选择出若干有效特征来进行分类器的训练,进而区分某一篇或某几篇中文文章是否存在跨语言剽窃问题;(4)基于特征对应的剽窃检测,针对中文的特征,进行英文特征的准确对应,并根据译文特征和结构特征对应进行剽窃结果的过滤和生成,通过WordNet进行剽窃结果的最终确认。本发明能够根据从译文挖掘出的多种特征来解决跨语言剽窃问题。

Patent Agency Ranking