基于记忆损失预测和延迟训练的主动学习事件抽取方法

    公开(公告)号:CN112966115A

    公开(公告)日:2021-06-15

    申请号:CN202110541764.1

    申请日:2021-05-18

    Applicant: 东南大学

    Abstract: 本申请公开了一种基于记忆损失预测和延迟训练的主动学习事件抽取方法,该方案通过预测无标注样本的损失对其进行筛选,获取高质量的无标注样本进行标注。首先构建两个记忆模块,分别是已学习记忆模块和已选择记忆模块,已学习记忆模块在监督学习模型训练的过程中,存储已经学过的信息到已学习记忆模块,在样本选择的过程中,已选择记忆模块随着样本的选择存储已经选择的样本信息,综合两个记忆模块的信息对新样本的损失进行预测,得到样本损失后,利用内‑外损失排序策略启发式地选择有价值的样本进行标注,同时,提出了一种延迟训练策略,模拟样本选择场景对样本损失模型进行监督,最后得到一种低标注成本的高质量事件抽取模型。

    一种基于多源知识图谱的三元组可信评估方法

    公开(公告)号:CN112507130A

    公开(公告)日:2021-03-16

    申请号:CN202011438775.9

    申请日:2020-12-10

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于多源知识图谱的三元组可信评估方法,该方法包括步骤S1、对于给定的多源知识图谱,分别得到实体名称,实体类型,属性键值、关系名称的对应向量表示;同时得到多源知识图谱的属性值在嵌入空间下的向量表示;S2、在单个知识图谱内部对三元组的可信度进行评估;S3、对于多源知识图谱中单个知识图谱数据源的可信度评估;S4、对于多源知识图谱情况下共同空间中三元组的可信度评估,由单个知识图谱得到的可信度和多源知识图谱之间的互相影响共同决定,多源知识图谱之间的互相影响由不同数据源之间相互影响的三元组即交互三元组决定;S5、基于多源知识图谱可信评估的训练步骤。本发明的方法提高了三元组可信评估的精度。

    一种基于不确定性本体的知识表示方法

    公开(公告)号:CN112463979A

    公开(公告)日:2021-03-09

    申请号:CN202011321197.0

    申请日:2020-11-23

    Applicant: 东南大学

    Inventor: 张嘉韬 漆桂林

    Abstract: 本发明提供一种基于不确定性本体的知识表示方法,包括以下步骤:步骤(1)从带有不确定性信息的本体知识图谱中获取实体、类型、关系及带有不确定信息的三元组;步骤(2)对实例、类型、关系的表示向量初始化;步骤(3)基于不确定性本体的距离函数,构建不确定三元组的能量方程;步骤(4)根据所述距离函数,构建基于均方误差的损失函数,通过最小化损失函数,学习实体及关系的表示。本发明的有益效果:能够在学习知识表示的同时,保留不确定性信息。

    一种动态环境下的知识图谱表示学习方法

    公开(公告)号:CN112131403A

    公开(公告)日:2020-12-25

    申请号:CN202010972901.2

    申请日:2020-09-16

    Applicant: 东南大学

    Abstract: 本发明公开了一种动态环境下的知识图谱表示学习方法,对于知识图谱的表示学习任务,本发明设计了一个全新的知识图谱表示学习模型;该模型首先通过设计的一个基于注意力机制的图卷积神经网络将知识图谱中的实体和关系的上下文信息编码为向量表示,接着通过一个门策略将实体(或关系)的向量表示与其上下文向量结合,得到联合向量表示,最后基于联合向量表示进行训练,得到图谱中实体和关系的高质量向量表示。对于图谱更新后的增量式表示学习任务,基于上述模型设计了一个增量式表示学习算法,将每次图谱更新带来的影响限制在实体(或关系)各自的上下文范围内,而非整个图谱,以此方式避免重新训练所有数据,达到增量式表示学习的目标。

    一种基于信息抽取的法律知识图谱构建方法

    公开(公告)号:CN110879842A

    公开(公告)日:2020-03-13

    申请号:CN201910980158.2

    申请日:2019-10-15

    Applicant: 东南大学

    Abstract: 本发明涉及一种基于信息抽取的法律知识图谱构建方法,所述方法包括以下步骤:步骤1)从网络中爬取大量法律文书和法律实体;步骤2)从百度百科中抽取和法律相关的法律实体;步骤3)融合爬取得到的法律实体和百度百科中抽取得到的法律实体,并将法律实体链接至法律文书,构建法律实体与法律文书之间的网络;步骤4)利用实体描述和实体名称构建实体网络,基于实体结构信息构建实体相似度网络。步骤5)抽取法律文书中的三元组,结合法律实体构建法律知识图谱。

    一种基于机器学习的社交网络本体构建方法

    公开(公告)号:CN105654144B

    公开(公告)日:2019-01-29

    申请号:CN201610115254.7

    申请日:2016-02-29

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于机器学习的社交网络本体构建方法,主要用于处理社交网络上的标签之间的上下位关系(即传统意义上的包含关系)的判定以及相应的本体的构建问题;从社交网络上抓取标签作为原始的数据集。本发明首先设计了6个特征值用于刻画任意两个标签之间的相似性,接着从原始数据集中挑选了部分标签对,结合它们的相似性特征值构成训练数据集,并人工对训练数据集中的标签对是否具有上下位关系进行标注;然后利用RandomForest的机器学习模型训练我们的训练数据集得到分类器模型;之后利用分类器模型对原始数据中任意两个标签之间的上下位关系进行判定并标注;抽取出所有具有上下位关系的标签对,构建出最终的社交网络本体。

    一种知识图谱动态更新方法

    公开(公告)号:CN109033160A

    公开(公告)日:2018-12-18

    申请号:CN201810627957.7

    申请日:2018-06-15

    Applicant: 东南大学

    Abstract: 本发明公开了一种知识图谱动态更新方法,用于解决百科知识图谱和其数据源之间的同步问题。本发明以万维网上的热点内容作为起点;从中抽取出命名实体作为种子实体,通常这些实体是可能发生更新的实体。然后在百科网站上抓取和种子实体相关的其他实体作为扩展实体。接着,从百科网站上获取一定数量的实体进行特征工程,并利用机器学习算法挖掘出实体特征表征的更新信息,构建预测器;利用预测器从扩展实体中筛选出更新概率高的实体。最后,以种子实体和更新概率高的扩展实体作为更新的对象,在数据源访问数量限制的情况下,实现知识图谱的动态更新。

    一种基于多知识库的表格实体链接方法

    公开(公告)号:CN106503148A

    公开(公告)日:2017-03-15

    申请号:CN201610920031.8

    申请日:2016-10-21

    Applicant: 东南大学

    CPC classification number: G06F16/367 G06F16/288 G06N5/022

    Abstract: 本发明公开了一种基于多知识库的表格实体链接方法,主要用于解决表格中的实体链接问题。本发明首先对于给定表格中每个单元格里的字符串生成候选实体,这些候选实体抽取自给定的知识库。然后,提出一种通用的基于图的概率传播算法对每个单元格里的字符串对应的候选实体进行排序,该方法可作用于任意单一的知识库。再根据基于不同单一知识库的候选实体排序的结果,利用源自不同知识库中的实体间的等价关系,对每个单元格里的字符串所对应的抽取自不同知识库中的已排序候选实体进行划分。最后使用三种启发式规则以最终确定每个单元格里的字符串所应该链接的存在于不同知识库中的实体,从而完成基于多知识库的表格实体链接的任务。

    一种基于机器学习的社交网络本体构建方法

    公开(公告)号:CN105654144A

    公开(公告)日:2016-06-08

    申请号:CN201610115254.7

    申请日:2016-02-29

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于机器学习的社交网络本体构建方法,主要用于处理社交网络上的标签之间的上下位关系(即传统意义上的包含关系)的判定以及相应的本体的构建问题;从社交网络上抓取标签作为原始的数据集。本发明首先设计了6个特征值用于刻画任意两个标签之间的相似性,接着从原始数据集中挑选了部分标签对,结合它们的相似性特征值构成训练数据集,并人工对训练数据集中的标签对是否具有上下位关系进行标注;然后利用RandomForest的机器学习模型训练我们的训练数据集得到分类器模型;之后利用分类器模型对原始数据中任意两个标签之间的上下位关系进行判定并标注;抽取出所有具有上下位关系的标签对,构建出最终的社交网络本体。

Patent Agency Ranking