-
公开(公告)号:CN118133823A
公开(公告)日:2024-06-04
申请号:CN202410291230.1
申请日:2024-03-14
Applicant: 北京语言大学
IPC: G06F40/289 , G06F40/30 , G06N3/0455
Abstract: 本发明涉及自然语言处理领域,特别是指一种文档级事件抽取的候选论元过滤方法及装置,方法包括:获取待处理的文档;将文档输入到候选论元过滤模型;其中,候选论元过滤模型包括实体识别模块、大模型前导过滤模块、实体表示增强模块、实体异构图构建模块以及结果生成模块;根据文档以及候选论元过滤模型,得到文档的候选论元集合。本发明的候选论元过滤模型通过两次过滤,实现了端到端的:输入一篇文档,输出这篇文档所包含的全部候选论元集合。并通过两次过滤,过滤了实体表示中的无关噪音,提高了实体邻接矩阵的准确性,并最终提高了事件抽取的准确率。
-
公开(公告)号:CN113010676B
公开(公告)日:2023-12-08
申请号:CN202110277326.9
申请日:2021-03-15
Applicant: 北京语言大学
IPC: G06N5/022 , G06N5/04 , G06F40/126 , G06F18/2431 , G06N3/0464 , G06N3/0455 , G06N3/042 , G06N3/096
Abstract: 本发明公开了一种文本知识提取方法、装置及自然语言推断系统,该方法适用于自然语言推断系统,其包括:通过多层次的检索,基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句作为外部知识;通过注意力机制将所述外部知识引入自然语言推断系统,实现P和H间的推断。本发明引入非结构化的纯文本资源作为外部知识,并可用于多种基线模型,从而提高了模型在较难样例上的分类性能。(56)对比文件CN 109344404 A,2019.02.15CN 109446334 A,2019.03.08CN 109523127 A,2019.03.26Vinyals 等.Pointer networks.《Proceedings of the Advances in NeuralInformation Processing System》.2015,第2692-2700页.严明;刘茂福;胡慧君.基于多层注意力机制的中文文本蕴涵识别方法.计算机工程与设计.2020,(08),第197-203页.刘凯;符海东;邹玉薇;顾进广.基于卷积神经网络的中文医疗弱监督关系抽取.计算机科学.2017,(10),第254-258页.
-
公开(公告)号:CN115687971A
公开(公告)日:2023-02-03
申请号:CN202211284135.6
申请日:2022-10-20
Applicant: 北京语言大学
IPC: G06F18/24 , G06F18/214 , G06N20/00
Abstract: 本发明公开了一种基于随机投影度量空间的小样本分类方法及装置,涉及自然语言处理技术领域。包括:获取待分类的多个任务;将多个任务输入到基于随机投影度量空间的分类模型;根据多个任务以及基于随机投影度量空间的分类模型,得到多个任务的分类结果。本发明构建适应具体任务的随机度量空间,通过微调样本向量在度量空间中的位置来构建基于任务特征的度量空间,具体的使用随机向量来学习每个任务的度量空间,从而解决一般做法中通用的度量空间不能很好地适用于所有任务,缺乏适用性这一问题。
-
公开(公告)号:CN118114198A
公开(公告)日:2024-05-31
申请号:CN202410215966.0
申请日:2024-02-27
Applicant: 北京语言大学
IPC: G06F18/25 , G06F18/214 , G06F40/186 , G06N3/094
Abstract: 本发明涉及自然语言处理技术领域,特别是指一种用于事件抽取任务的训练数据合成方法及装置。用于事件抽取任务的训练数据合成方法包括:根据事件抽取任务信息构建事件列表,并构建触发词库;根据事件列表以及触发词库进行模版构建,获得正面数据提示模版以及对抗数据提示模板;通过指令微调后的生成式大语言模型,获得第一合成训练数据;对第一合成训练数据进行修订,获得第四合成训练数据;根据第四合成训练数据,通过权重分配模型,获得权重集;基于权重集以及预设的权重阈值,对第四合成训练数据进行采样,结合事件列表中的样本数据,获得第六合成训练数据。本发明是一种针对事件抽取任务的多样性好、数据质量高的训练数据合成方法。
-
公开(公告)号:CN113343690B
公开(公告)日:2024-03-12
申请号:CN202110692831.X
申请日:2021-06-22
Applicant: 北京语言大学
IPC: G06F40/289 , G06F40/216 , G06F40/30 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种文本可读性自动评估方法及装置,该文本可读性自动评估方法包括:构建适用于汉语母语学习者的汉字难度等级表;其中,所述汉字难度等级表中包括待评价难度的汉字和各待评价难度的汉字所对应的难度等级;根据所述汉字难度等级表,获取待评估文本中每一汉字的难度等级信息;将汉字的难度等级信息与图神经网络结合,实现对待评估文本可读性的自动评估;其中,句子的可读性评估被转换为图节点分类任务,段落及篇章的可读性评估被转换成图分类任务。本发明对文本的分析更加有针对性,评估效果更好。
-
公开(公告)号:CN113343690A
公开(公告)日:2021-09-03
申请号:CN202110692831.X
申请日:2021-06-22
Applicant: 北京语言大学
IPC: G06F40/289 , G06F40/216 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种文本可读性自动评估方法及装置,该文本可读性自动评估方法包括:构建适用于汉语母语学习者的汉字难度等级表;其中,所述汉字难度等级表中包括待评价难度的汉字和各待评价难度的汉字所对应的难度等级;根据所述汉字难度等级表,获取待评估文本中每一汉字的难度等级信息;将汉字的难度等级信息与图神经网络结合,实现对待评估文本可读性的自动评估;其中,句子的可读性评估被转换为图节点分类任务,段落及篇章的可读性评估被转换成图分类任务。本发明对文本的分析更加有针对性,评估效果更好。
-
公开(公告)号:CN118133823B
公开(公告)日:2024-07-30
申请号:CN202410291230.1
申请日:2024-03-14
Applicant: 北京语言大学
IPC: G06F40/289 , G06F40/30 , G06N3/0455
Abstract: 本发明涉及自然语言处理领域,特别是指一种文档级事件抽取的候选论元过滤方法及装置,方法包括:获取待处理的文档;将文档输入到候选论元过滤模型;其中,候选论元过滤模型包括实体识别模块、大模型前导过滤模块、实体表示增强模块、实体异构图构建模块以及结果生成模块;根据文档以及候选论元过滤模型,得到文档的候选论元集合。本发明的候选论元过滤模型通过两次过滤,实现了端到端的:输入一篇文档,输出这篇文档所包含的全部候选论元集合。并通过两次过滤,过滤了实体表示中的无关噪音,提高了实体邻接矩阵的准确性,并最终提高了事件抽取的准确率。
-
公开(公告)号:CN118228743A
公开(公告)日:2024-06-21
申请号:CN202410655980.2
申请日:2024-05-24
Applicant: 北京语言大学
IPC: G06F40/58 , G06F40/289 , G06N3/09 , G06N3/0464
Abstract: 本发明涉及机器翻译技术领域,特别是指一种基于文图注意力机制的多模态机器翻译方法及装置。方法包括:将源语言文本输入到训练好的文图生成模型,基于文图生成过程、源语言文本的文本向量、对应的生成图像,得到扩散注意力矩阵;根据翻译训练样本和初始的基于文图注意力机制的多模态机器翻译模型,得到训练过程中注意力矩阵;使用MSE损失函数,根据扩散注意力矩阵和训练过程中注意力矩阵计算第一损失函数;根据多模态机器翻译模型的预测输出以及输出文本真值,确定第二损失函数;根据第一损失函数以及第二损失函数,对初始的多模态机器翻译模型进行训练。采用本发明,可以提高训练文图生成模型的效率。
-
公开(公告)号:CN118228743B
公开(公告)日:2024-09-20
申请号:CN202410655980.2
申请日:2024-05-24
Applicant: 北京语言大学
IPC: G06F40/58 , G06F40/289 , G06N3/09 , G06N3/0464
Abstract: 本发明涉及机器翻译技术领域,特别是指一种基于文图注意力机制的多模态机器翻译方法及装置。方法包括:将源语言文本输入到训练好的文图生成模型,基于文图生成过程、源语言文本的文本向量、对应的生成图像,得到扩散注意力矩阵;根据翻译训练样本和初始的基于文图注意力机制的多模态机器翻译模型,得到训练过程中注意力矩阵;使用MSE损失函数,根据扩散注意力矩阵和训练过程中注意力矩阵计算第一损失函数;根据多模态机器翻译模型的预测输出以及输出文本真值,确定第二损失函数;根据第一损失函数以及第二损失函数,对初始的多模态机器翻译模型进行训练。采用本发明,可以提高训练文图生成模型的效率。
-
公开(公告)号:CN113010676A
公开(公告)日:2021-06-22
申请号:CN202110277326.9
申请日:2021-03-15
Applicant: 北京语言大学
IPC: G06F16/35 , G06F40/126 , G06F40/284 , G06F40/30 , G06F16/33 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种文本知识提取方法、装置及自然语言推断系统,该方法适用于自然语言推断系统,其包括:通过多层次的检索,基于待进行自然语言推断的前提句P和假设句H,从非结构化的纯文本资源中检索出有助于实现P和H之间推断的语句作为外部知识;通过注意力机制将所述外部知识引入自然语言推断系统,实现P和H间的推断。本发明引入非结构化的纯文本资源作为外部知识,并可用于多种基线模型,从而提高了模型在较难样例上的分类性能。
-
-
-
-
-
-
-
-
-