基于图的双语递归自编码器

    公开(公告)号:CN107092594A

    公开(公告)日:2017-08-25

    申请号:CN201710257714.4

    申请日:2017-04-19

    Applicant: 厦门大学

    CPC classification number: G06F17/2785 G06F17/2818

    Abstract: 基于图的双语递归自编码器,涉及基于深度学习的自然语言处理。从平行语料中抽取双语短语作为训练数据,计算双语短语之间的翻译概率;基于枢轴语言的方法,计算复述概率;构造双语短语的语义关系图;基于双语短语的语义关系图;量化模型目标函数,进行模型参数训练。以更好地学习双语短语嵌入表示为目标,针对传统方法缺乏考虑自然语言中更加充分的语义约束关系,提出一种基于图的双语递归自编码器。算法明确、思路清晰,可以提高学到的双语短语嵌入表示,更好地作用于自然语言处理任务。首先构造双语短语的语义关系图,通过图结构定义两个隐式语义约束,用于学习更加精确的双语短语嵌入表示,进而更好地应用于自然语言处理任务中,如机器翻译。

    一种上下文感知的短语表示学习方法

    公开(公告)号:CN110334358A

    公开(公告)日:2019-10-15

    申请号:CN201910349591.6

    申请日:2019-04-28

    Applicant: 厦门大学

    Abstract: 一种上下文感知的短语表示学习方法,涉及双语短语的表示学习。基于递归自编码器的短语表示学习;上下文建模;主题上下文感知的短语表示;短语对的语义约束;主题上下文映射;词-主题语义约束建模。将短语所在文档的主题分布作为短语的上下文,将其加入到短语的表示学习中,得到上下文感知的短语表示。利用主题模型得到的词的主题分布来约束词和主题的嵌入表示的学习,进而影响学习到到的短语表示,进一步提高学习到的短语表示的质量。

    基于图的双语递归自编码器

    公开(公告)号:CN107092594B

    公开(公告)日:2019-07-09

    申请号:CN201710257714.4

    申请日:2017-04-19

    Applicant: 厦门大学

    Abstract: 基于图的双语递归自编码器,涉及基于深度学习的自然语言处理。从平行语料中抽取双语短语作为训练数据,计算双语短语之间的翻译概率;基于枢轴语言的方法,计算复述概率;构造双语短语的语义关系图;基于双语短语的语义关系图;量化模型目标函数,进行模型参数训练。以更好地学习双语短语嵌入表示为目标,针对传统方法缺乏考虑自然语言中更加充分的语义约束关系,提出一种基于图的双语递归自编码器。算法明确、思路清晰,可以提高学到的双语短语嵌入表示,更好地作用于自然语言处理任务。首先构造双语短语的语义关系图,通过图结构定义两个隐式语义约束,用于学习更加精确的双语短语嵌入表示,进而更好地应用于自然语言处理任务中,如机器翻译。

    一种基于内部语义层次结构的词嵌入表示方法

    公开(公告)号:CN107025219A

    公开(公告)日:2017-08-08

    申请号:CN201710256916.7

    申请日:2017-04-19

    Applicant: 厦门大学

    CPC classification number: G06F17/2795 G06F17/2785 G06N3/04

    Abstract: 一种基于内部语义层次结构的词嵌入表示方法,涉及基于深度学习的自然语言处理。使用开源工具获得输入文本中每个词语的内部层次结构:该结构类似于传统短语树结构,不同的是以字符为基本单位,并且标注每个字符在该结构中的层次位置和类别信息;根据层次结构不变性原则对上述结构进行序列化操作,得到保持词内部的层次位置、类别信息的文本序列;将双向GRU网络作用于上述序列进行嵌入表示编码,然后将前向和后向GRU网络得到的两个嵌入表示向量进行拼接,最后通过非线性变换,ReLU操作,得到词语的最终嵌入表示向量。框架结构清晰简洁、方法直观,有助于学习内涵更为丰富的词嵌入表示,更好地为后续的自然语言处理任务服务。

    一种基于参数线性约束的多任务分词方法

    公开(公告)号:CN106844345B

    公开(公告)日:2019-07-09

    申请号:CN201710065928.1

    申请日:2017-02-06

    Applicant: 厦门大学

    Abstract: 一种基于参数线性约束的多任务分词方法,涉及基于深度学习的自然语言处理。使用不同分词标准的数据对不同分词模型进行初步训练;对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;建立统一的目标函数,进行不同分词模型的训练。利用参数的线性约束来建模不同分词模型之间的关系,使得不同分词标准模型的训练能够使用另外分词标准的训练数据。本发明算法明确、思路清晰,利用这个方法能够扩增现有分词模型的训练数据,提高中文分词任务的性能,更好地服务于基于分词的其他自然语言处理任务。

    一种基于内部语义层次结构的词嵌入表示方法

    公开(公告)号:CN107025219B

    公开(公告)日:2019-07-26

    申请号:CN201710256916.7

    申请日:2017-04-19

    Applicant: 厦门大学

    Abstract: 一种基于内部语义层次结构的词嵌入表示方法,涉及基于深度学习的自然语言处理。使用开源工具获得输入文本中每个词语的内部层次结构:该结构类似于传统短语树结构,不同的是以字符为基本单位,并且标注每个字符在该结构中的层次位置和类别信息;根据层次结构不变性原则对上述结构进行序列化操作,得到保持词内部的层次位置、类别信息的文本序列;将双向GRU网络作用于上述序列进行嵌入表示编码,然后将前向和后向GRU网络得到的两个嵌入表示向量进行拼接,最后通过非线性变换,ReLU操作,得到词语的最终嵌入表示向量。框架结构清晰简洁、方法直观,有助于学习内涵更为丰富的词嵌入表示,更好地为后续的自然语言处理任务服务。

    一种基于参数线性约束的多任务分词方法

    公开(公告)号:CN106844345A

    公开(公告)日:2017-06-13

    申请号:CN201710065928.1

    申请日:2017-02-06

    Applicant: 厦门大学

    Abstract: 一种基于参数线性约束的多任务分词方法,涉及基于深度学习的自然语言处理。使用不同分词标准的数据对不同分词模型进行初步训练;对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;建立统一的目标函数,进行不同分词模型的训练。利用参数的线性约束来建模不同分词模型之间的关系,使得不同分词标准模型的训练能够使用另外分词标准的训练数据。本发明算法明确、思路清晰,利用这个方法能够扩增现有分词模型的训练数据,提高中文分词任务的性能,更好地服务于基于分词的其他自然语言处理任务。

Patent Agency Ranking