-
公开(公告)号:CN103823879A
公开(公告)日:2014-05-28
申请号:CN201410072608.5
申请日:2014-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30345 , G06F17/30634
Abstract: 本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。
-
公开(公告)号:CN103116635A
公开(公告)日:2013-05-22
申请号:CN201310049317.X
申请日:2013-02-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种面向领域的暗网资源采集方法。该方法从抓取的页面中识别与指定领域相关的页面,获取有效表单集合;对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单;以及输出有效的查询所返回的结果,作为采集的暗网资源。该方法能够实现暗网资源查询接口的自动识别和分类,同时实现简单查询接口和复杂查询接口的查询的有效构造,从而实现暗网资源的采集。该方法不仅能够无缝的集成到现有的搜索引擎当中,而且能够同时进行简单查询接口和复杂查询接口所指向的暗网资源的采集。
-
公开(公告)号:CN104636466B
公开(公告)日:2020-07-31
申请号:CN201510071993.6
申请日:2015-02-11
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种面向开放网页的实体属性抽取方法和系统。其中,所述方法包括:提取开放网页的文本,从中获得目标实体的候选文本集合;以及,根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。本发明能够提高开放网页实体属性抽取的准确率和召回率,并且不依赖于网页结构,能够适应开放网页类型的变化。
-
公开(公告)号:CN104615687B
公开(公告)日:2018-05-22
申请号:CN201510033050.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向知识库更新的实体细粒度分类方法与系统。所述方法包括:从文本中识别出实体;将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及,通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷,并且提高了实体细粒度分类的准确率。
-
公开(公告)号:CN103823879B
公开(公告)日:2017-06-16
申请号:CN201410072608.5
申请日:2014-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。
-
公开(公告)号:CN103116635B
公开(公告)日:2015-06-24
申请号:CN201310049317.X
申请日:2013-02-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种面向领域的暗网资源采集方法。该方法从抓取的页面中识别与指定领域相关的页面,获取有效表单集合;对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单;以及输出有效的查询所返回的结果,作为采集的暗网资源。该方法能够实现暗网资源查询接口的自动识别和分类,同时实现简单查询接口和复杂查询接口的查询的有效构造,从而实现暗网资源的采集。该方法不仅能够无缝的集成到现有的搜索引擎当中,而且能够同时进行简单查询接口和复杂查询接口所指向的暗网资源的采集。
-
公开(公告)号:CN104636466A
公开(公告)日:2015-05-20
申请号:CN201510071993.6
申请日:2015-02-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向开放网页的实体属性抽取方法和系统。其中,所述方法包括:提取开放网页的文本,从中获得目标实体的候选文本集合;以及,根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。本发明能够提高开放网页实体属性抽取的准确率和召回率,并且不依赖于网页结构,能够适应开放网页类型的变化。
-
公开(公告)号:CN104615687A
公开(公告)日:2015-05-13
申请号:CN201510033050.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30734 , G06F17/30705
Abstract: 本发明提供一种面向知识库更新的实体细粒度分类方法与系统。所述方法包括:从文本中识别出实体;将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及,通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷,并且提高了实体细粒度分类的准确率。
-
-
-
-
-
-
-