针对作者消歧的信息处理装置、方法和介质

    公开(公告)号:CN111914092A

    公开(公告)日:2020-11-10

    申请号:CN201910384663.0

    申请日:2019-05-09

    Abstract: 公开了一种针对作者消歧的信息处理装置、方法和介质。所述装置包括:图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。

    提取网页内容的方法、装置和计算机存储介质

    公开(公告)号:CN111339396A

    公开(公告)日:2020-06-26

    申请号:CN201811549846.5

    申请日:2018-12-18

    Abstract: 本发明涉及一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与网页特征的相似度最高的代表集合;用网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。

    信息处理方法和基于文本生成图像的装置

    公开(公告)号:CN108959322A

    公开(公告)日:2018-12-07

    申请号:CN201710379515.0

    申请日:2017-05-25

    CPC classification number: G06K9/6256

    Abstract: 本发明公开了信息处理方法和基于文本生成图像的装置。所述方法包括:从样本文本中提取表征样本文本中的词之间的关联性的文本特征;以尺寸变化的窗口来选择性地截取文本特征的各个局部,以得到各个局部文本特征;基于样本文本的各个局部文本特征和与样本文本对应的样本图像来训练图像生成模型,其中,图像生成模型包括编码器模块和解码器模块,训练后的图像生成模型中的解码器模块根据所输入的文本的各个局部文本特征来迭代地生成与所输入的文本对应的图像,并且各个局部文本特征分别在各次迭代中截取。

    信息处理方法和装置以及信息检测方法和装置

    公开(公告)号:CN108875758A

    公开(公告)日:2018-11-23

    申请号:CN201710320880.4

    申请日:2017-05-09

    Abstract: 公开了一种信息处理方法和装置以及信息检测方法和装置,其中信息处理方法包括:从多个样本图像中的每个样本图像提取具有预定宽度和预定高度的一组特征图,其中,一组特征图中的特征图分别与不同的图像特征相对应;以及基于所提取的一组特征图和为多个样本图像标记的文字描述来训练文字描述模型,文字描述模型用于根据输入图像生成相应文字描述,其中,训练文字描述模型包括基于一组特征图和循环神经网络模型的前一状态向量,计算一组特征图上的关注窗口的中心和大小。根据本公开的实施例,能够产生图像的更合适的文字描述。

    信息处理装置、信息处理方法以及信息处理设备

    公开(公告)号:CN107305565A

    公开(公告)日:2017-10-31

    申请号:CN201610251752.4

    申请日:2016-04-21

    CPC classification number: G06F16/35 G06F16/285

    Abstract: 本公开提供了信息处理装置、信息处理方法以及信息处理设备。信息处理装置包括:预分类单元,其利用分类器对非标记样本数据进行分类,以获得所述非标记样本数据的预分类标签;聚类单元,其对所述非标记样本数据进行聚类,以获得所述非标记样本数据的至少一个簇;标签修改单元,针对所述至少一个簇中的每个簇,利用标签修改优化处理,基于该簇中的非标记样本数据的一个或多个预分类标签获得针对该簇的优化标签,并将该簇中的非标记样本数据的预分类标签全部修改为该优化标签;以及优化单元,其利用所述非标记样本数据以及所述优化标签,对所述分类器进行优化。

    数据处理装置、数据处理方法和程序

    公开(公告)号:CN103870458B

    公开(公告)日:2017-07-18

    申请号:CN201210526451.X

    申请日:2012-12-07

    Abstract: 本申请公开了一种数据处理装置,包括:链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构;潜在主题划分单元,被配置为计算每一个文档中的语句之间的依赖度信息,基于该依赖度信息对每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;词评分单元,被配置为基于链接结构和主题划分对候选词以及候选词的对进行评分,并且将评分提供给潜在主题划分单元以用于计算依赖度信息和进行主题划分;以及控制单元,被配置为控制潜在主题划分单元和词评分单元,使其基于主题划分和评分的相互影响循环迭代操作,直到满足预定条件为止。

    数据过滤装置和方法,以及数据处理装置和方法

    公开(公告)号:CN103514195B

    公开(公告)日:2017-06-13

    申请号:CN201210212664.5

    申请日:2012-06-21

    Abstract: 本发明提供了数据过滤装置和方法、数据处理装置和方法、无线定位设备和方法以及信息处理设备,以至少克服现有的数据过滤技术的处理精度和/或准确度低的问题。数据过滤装置包括:近邻集确定单元,其被配置用于确定待处理数据集中满足预定条件的数据子集中的每个数据的近邻集;计算单元,其被配置用于分别计算上述数据子集中的每个数据的近邻集中包含的数据量;以及过滤单元,其被配置用于基于上述数据子集中的每个数据的近邻集中包含的数据量,对上述数据子集中的数据进行过滤,以获得过滤后的数据集。数据过滤方法用于执行能够实现上述数据过滤装置的功能的处理。本发明的上述技术能够提高数据过滤的精度和/或准确度,可以用于数据处理领域。

    文本挖掘方法和文本挖掘装置

    公开(公告)号:CN103678355B

    公开(公告)日:2017-03-01

    申请号:CN201210335708.3

    申请日:2012-09-11

    Abstract: 本发明涉及文本挖掘方法和文本挖掘装置。文本挖掘方法包括:提取文档中的多个关键词;计算代表每个关键词的特定属性的分值;按照多个关键词在文档中的出现顺序对计算出的分值进行排列,以得到代表文档的分值序列;以及利用分值序列进行与文本挖掘相关联的操作。

    获取特征排序模型的装置和方法以及特征排序方法

    公开(公告)号:CN106326904A

    公开(公告)日:2017-01-11

    申请号:CN201510333995.8

    申请日:2015-06-16

    Inventor: 孙健 夏迎炬 杨铭

    CPC classification number: G06K9/6256

    Abstract: 本公开提供了获取特征排序模型的装置和方法以及特征排序方法。获取特征排序模型的方法基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述获取特征排序模型的方法包括:针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。

    时序文件的分类方法和分类系统

    公开(公告)号:CN106202128A

    公开(公告)日:2016-12-07

    申请号:CN201510232775.6

    申请日:2015-05-08

    Abstract: 本发明公开了一种时序文件的分类方法和分类系统。根据本发明的一个方面,时序文件的分类方法包括:从多个时序文件中提取时序特征;根据所提取的时序特征计算每个时序文件的状态统计向量,其中所述状态统计向量中的元素反映了相应时序文件的状态统计结果;利用所述多个时序文件的状态统计向量构建特征矩阵;以及根据所述特征矩阵对所述多个时序文件进行分类。由此,可以利用状态统计信息对时序文件进行分类,从而确保了分类结果的可靠性,并能够简化计算复杂度,从而实现快速且准确的分类。

Patent Agency Ranking