-
公开(公告)号:CN103631949B
公开(公告)日:2016-01-27
申请号:CN201310674521.0
申请日:2013-12-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社交网络数据采集方法和系统,所述方法包括根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量。其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略,提高了社交网络数据采集的实时性和效率。
-
公开(公告)号:CN105260374A
公开(公告)日:2016-01-20
申请号:CN201510423353.7
申请日:2015-07-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30283 , G06F17/3048
Abstract: 本发明适用于分布式信息处理技术领域,提供了一种异步流水线式的图查询方法,应用于分布式图数据库,包括:根据查询请求创建包含多个查询步骤的流水线;检测所述查询步骤的缓存队列,根据所述缓存队列的剩余元素的容量唤醒多个预取线程;创建异步化管理后端数据层的连接和查询的线程池,为所述流水线配置所述线程池容量,所述流水线末端获得查询的结果。借此,本发明提高了查询速度和客户端的吞吐率。
-
公开(公告)号:CN101739430B
公开(公告)日:2015-11-25
申请号:CN200810227105.5
申请日:2008-11-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于关键词的文本情感分类器训练方法和分类方法,其中情感分类器训练方法包括下列步骤:1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X·W上训练分类器。根据本发明的文本情感分类方法对新领域的文本进行分类的精度更高。
-
公开(公告)号:CN103235812B
公开(公告)日:2015-04-01
申请号:CN201310146037.0
申请日:2013-04-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种查询多意图识别方法和系统,所述方法包括:根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括:计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。
-
公开(公告)号:CN104077417A
公开(公告)日:2014-10-01
申请号:CN201410342939.6
申请日:2014-07-18
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30675 , G06F17/30702 , G06Q50/01
Abstract: 本发明提供一种社交网络中的人物标签推荐方法和系统,所述方法包括:基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成。所述方法还包括:对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。本发明解决了现有人物标签推荐技术中,标签推荐质量不高的问题,以及能使标签推荐的结果更具个性化并且更加多样化。
-
公开(公告)号:CN103618725A
公开(公告)日:2014-03-05
申请号:CN201310645762.2
申请日:2013-12-04
Applicant: 中国科学院计算技术研究所
IPC: H04L29/06
Abstract: 本发明提供一种KAD网络资源信息的获取方法及系统。该方法包括:在KAD网络的节点ID空间内选取n个均匀分布的节点ID,构造相应的n个模拟节点加入所述KAD网络,其中n为正整数。由所述模拟节点监听所述KAD网络,以及由所述模拟节点解析其他节点发来的资源信息存储请求消息并且获取资源信息。本发明在加快信息获取速度的同时,可以较全面地得到KAD网络中的资源信息。
-
公开(公告)号:CN103605708A
公开(公告)日:2014-02-26
申请号:CN201310556473.5
申请日:2013-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30206 , G06F17/3089
Abstract: 本发明提供一种KAD网络中由关键词哈希值推测关键词的方法及系统。所述方法包括利用关键词哈希值在KAD网络中搜索相关资源文件,得到所述相关资源文件的文件名;以及对所述相关资源文件的文件名进行分词处理,得到候选关键词及其在所述相关资源文件的文件名中出现的次数。所述方法还包括根据候选关键词在所述相关资源文件的文件名中出现的次数推测关键词。本发明可以准确地得到KAD网络中关键词哈希值对应的关键词信息,便于监管KAD网络、提高网络安全。
-
公开(公告)号:CN103279483A
公开(公告)日:2013-09-04
申请号:CN201310143846.6
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客的话题流行范围评估方法及系统,其中方法包括:S1,采集微博客平台的历史数据,提取多个话题及多个消息,进行合并操作获得多个合并消息,然后将发布或者转发同一个合并消息的用户构建一个社区,获得多个社区,基于多个社区的重合程度进行话题的归类,提取同一类别中话题的特征;S2,获取微博客平台的实时数据,提取新话题及多个新消息,进行合并操作获得多个新合并消息,将发布或者转发同一个新合并消息的用户构建一个新社区,获得多个新社区,基于多个新社区的重合程度进行新话题的归类,提取同一类别中新话题的新特征;S3,将所述特征与所述新特征进行匹配,获得目标话题,对所述目标话题的流行范围进行评估。
-
公开(公告)号:CN103269382A
公开(公告)日:2013-08-28
申请号:CN201310232849.7
申请日:2013-06-13
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种BitTorrent和eMule下载文件的关联方法,包括下列步骤:1)建立eMule信息数据库,eMule信息数据库记录的信息包括已采集的ED2K链接、该ED2K链接所对应资源文件的数据大小和不同尺寸起始文件分片的SHA1值序列,所述不同尺寸起始文件分片的尺寸为2nKB,n的取值为从4到13的整数;2)对于当前的eMule网络中的ED2K链接,根据该ED2K链接所对应文件的文件大小和起始分片的SHA1哈希值在BitTorrent信息数据库中进行查找,将该目标种子文件与当前的ED2K链接相互关联。本发明能够避免BitTorrent和eMule两个P2P空间的资源文件被重复下载;能够有效利用BitTorrent和eMule两个P2P空间的资源来加快下载速度。
-
公开(公告)号:CN103268339A
公开(公告)日:2013-08-28
申请号:CN201310182978.X
申请日:2013-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
-
-
-
-
-
-
-
-