实体名称归一化系统及其方法、计算机可读介质

    公开(公告)号:CN112613318B

    公开(公告)日:2022-10-14

    申请号:CN202011640532.3

    申请日:2020-12-31

    Abstract: 本发明提供了一种实体名称归一化方法,其特征在于,包括:准备待归一化的名字记录以及相对应的标注名称记录用于训练;利用自然语言处理深度学习模型对标注名称记录组成的语料库进行字符级别的语言模型预训练;将标注名称记录按照设定的规则划分为训练集和测试集;利用训练集对预训练完成的自然语言处理深度学习模型进行微调训练;利用测试集验证预训练完成的自然语言处理深度学习模型的准确度及时间性能;将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型对待归一化的实体名称进行归一化处理。本发明通过预训练字符级别语言模型来提取任意名称的特征向量,从而通过训练不同名称之间的距离度量来完成名称归一化任务。

    实体名称归一化系统及其方法、计算机可读介质

    公开(公告)号:CN112613318A

    公开(公告)日:2021-04-06

    申请号:CN202011640532.3

    申请日:2020-12-31

    Abstract: 本发明提供了一种实体名称归一化方法,其特征在于,包括:准备待归一化的名字记录以及相对应的标注名称记录用于训练;利用自然语言处理深度学习模型对标注名称记录组成的语料库进行字符级别的语言模型预训练;将标注名称记录按照设定的规则划分为训练集和测试集;利用训练集对预训练完成的自然语言处理深度学习模型进行微调训练;利用测试集验证预训练完成的自然语言处理深度学习模型的准确度及时间性能;将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型对待归一化的实体名称进行归一化处理。本发明通过预训练字符级别语言模型来提取任意名称的特征向量,从而通过训练不同名称之间的距离度量来完成名称归一化任务。

    基于会议期刊星系图的超大规模学术网络可视化方法及系统

    公开(公告)号:CN111309917A

    公开(公告)日:2020-06-19

    申请号:CN202010167905.3

    申请日:2020-03-11

    Abstract: 本发明提供了一种基于会议期刊星系图的超大规模学术网络可视化方法及系统,包括:步骤M1:从数据库中获取论文相关数据,并将数据存储在文件中;步骤M2:根据论文的相关数据,对论文按照会议或期刊聚类,并生成包含相应聚类的节点和连边参数的图文件;步骤M3:使用自动化布局工具对相应聚类的节点和连边参数的图文件快速布局,得到聚类内部布局,并生成包含节点位置信息的图文件;步骤M4:根据聚类之间的引用关系,等效聚类之间力的大小,并使用力引导算法生成聚类间星系结构;步骤M5:根据聚类间星系结构对聚类进行融合,得到可视化结果。本发明以图的方式展示大量论文之间的引用关系,使得原本抽象的论文引用关系变得清晰可见。

Patent Agency Ranking