一种实体标准化方法
    1.
    发明公开

    公开(公告)号:CN113255353A

    公开(公告)日:2021-08-13

    申请号:CN202110598353.6

    申请日:2021-05-31

    Abstract: 本发明公开了一种实体标准化方法,包括以下步骤:步骤一:建立标准实体词的知识库;步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;步骤五:将候选实体集合中标准实体进行排序。本发明所述的一种实体标准化方法,相比于其他方法,不使用实体词的上下文信息,即能达到实体标准化的结果;通过添加实体的类型信息,作为实体匹配模型的一部分输入,就能有效的提高实体标准化的准确率,能较好的实现实体标准化任务。

    一种分布式的趋同行为挖掘方法与系统

    公开(公告)号:CN108563715A

    公开(公告)日:2018-09-21

    申请号:CN201810271602.9

    申请日:2018-03-29

    Abstract: 本发明涉及一种分布式的趋同行为挖掘方法和系统,包括:获取由四元组数据组成的数据集合,四元组数据包括对象、事件、时间点和权重,将数据集合按照事件类型划分为多个事件集合;为事件集合构建索引树,根据事件集合中的时间点确定索引树的时间总长,根据线段树划分法将时间总长拆分为时间段,索引树的每个节点对应时间段中每个对象的权重和,存储索引树至分布式数据库;获取待查询对象的待查询事件和待查询时间段,在分布式数据库查找与待查询事件相对应的索引树,作为待查询索引树,在待查询索引树中查询待查询时间段中每个对象的权重和,作为待查询对象的趋同程度,选择趋同程度最高的对象作为挖掘结果。

    一种基于并行自动编码机的特征学习方法及系统

    公开(公告)号:CN105825269B

    公开(公告)日:2018-06-26

    申请号:CN201610147007.5

    申请日:2016-03-15

    Abstract: 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包含了所述自动编码机的所有权值;2)每个工作机分别读取该工作机对应的部分数据集;3)各个工作机并行地执行管理机所分发的任务,对自动编码机的权值矩阵进行训练,然后每个工作机将它所训练的权值矩阵反馈给管理机;4)管理机执行Reduce操作,对各个工作机反馈的权值矩阵进行算数平均。本发明能够更加高效地实现特征学习;能够将并行自动编码机的数据处理的时间复杂度由二次复杂度降为线性复杂度。

    基于细粒度领域自适应的跨领域图像分类方法及系统

    公开(公告)号:CN111259941B

    公开(公告)日:2023-09-26

    申请号:CN202010025566.5

    申请日:2020-01-10

    Abstract: 本发明提出一种基于细粒度领域自适应的跨领域图像分类方法及系统,包括:依次输入源领域图片和目标领域图片至卷积神经网络,分别得到源领域图片的源特征向量和目标领域图片的目标特征向量;依次输入源特征向量和目标特征向量至多层全连接层,在每个全连接层使用局部最大均值差异损失衡量源领域和目标领域的特征差异,将源特征向量经过多层全连接层处理后送入分类器获得预测标签,预测标签结合预标记的类别标签得到交叉熵,交叉熵和特征差异作为分类损失函数;最小化分类损失函数,直到分类损失函数收敛,保存当前卷积神经网络作为图像特征提取网络,将目标领域中待分类图片输入至图像特征提取网络,得到待分类图片的图像分类结果。

    一种分布式的趋同行为挖掘方法与系统

    公开(公告)号:CN108563715B

    公开(公告)日:2020-12-04

    申请号:CN201810271602.9

    申请日:2018-03-29

    Abstract: 本发明涉及一种分布式的趋同行为挖掘方法和系统,包括:获取由四元组数据组成的数据集合,四元组数据包括对象、事件、时间点和权重,将数据集合按照事件类型划分为多个事件集合;为事件集合构建索引树,根据事件集合中的时间点确定索引树的时间总长,根据线段树划分法将时间总长拆分为时间段,索引树的每个节点对应时间段中每个对象的权重和,存储索引树至分布式数据库;获取待查询对象的待查询事件和待查询时间段,在分布式数据库查找与待查询事件相对应的索引树,作为待查询索引树,在待查询索引树中查询待查询时间段中每个对象的权重和,作为待查询对象的趋同程度,选择趋同程度最高的对象作为挖掘结果。

    一种基于XLNet的新闻文本地域提取的方法及系统

    公开(公告)号:CN111967267A

    公开(公告)日:2020-11-20

    申请号:CN202011009623.7

    申请日:2020-09-23

    Abstract: 本发明公开了一种基于XLNet的新闻文本地域提取的方法及系统,其方法包括如下步骤:S1、利用互联网上获取海量未标注生语料,输入XLNet预训练模型中进行预训练;S2、将预处理后的数据输入到步骤S1预训练好的XLNet预训练模型中进行编码,将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出识别后的地域实体;S3、地域实体消歧;S4、地域实体汇总;S5、地域主体补全操作;其系统包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成。本发明的二阶段训练过程克服了现有技术存在的预训练阶段和训练阶段存在使用模式不一致的问题,解决了传统的自回归模型无法同时学习上下文信息的痛点,实现了完整建模。

Patent Agency Ranking