-
公开(公告)号:CN110389953A
公开(公告)日:2019-10-29
申请号:CN201910508926.4
申请日:2019-06-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/22
Abstract: 本发明涉及一种基于压缩图的数据存储方法、系统和存储介质,该方法包括:步骤100,生成点表逻辑定义,根据该逻辑定义构建点表,并向该点集中插入数据;步骤200,生成边表逻辑定义,根据该逻辑定义构建边表,从所述点表中选择与该边表相关联的点表,并向所述边表中插入数据;步骤300,设置和执行压缩图定义命令,生成所述压缩图的建图逻辑,设置函数获取与所述压缩图定义关联的所述边表,形成边集聚合组,并生成与所述压缩图定义关联的所述点表的代理结构;步骤400,设置和执行压缩图重置命令,根据所述压缩图的建图逻辑构建所述压缩图。本方法降低了多次建图与建多类图的开销,增加了图构建的灵活性与表示性,减少了重复建图的排序工作量。
-
公开(公告)号:CN110287378A
公开(公告)日:2019-09-27
申请号:CN201910441015.4
申请日:2019-05-24
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901 , G06F16/2458
Abstract: 本发明提出一种基于动态代码生成的图计算方法及系统,包括:根据建图请求,构造包含图操作原语的中间图结构,并将中间图结构与图名关联后存入中间图缓存器;根据图算法请求,生成由外部代码字节码构成的图算法结构,发送至图算法缓存器;以执行请求检索中间图缓存器和图算法缓存器,得到待执行中间图结构、待执行图算法结构与参数列表组成的三元组,并在本地代码缓存器中检索三元组,得到本地代码缓存器中的执行对象,以执行得到结果。本发明在本地代码空间中注入生成代码,消除了数据交换的开销;构建了可二次编译的中间图结构,使图数据的访问代码可进行编译优化;同时增加了中间图结构缓存与图算法缓存,规避了图计算的预处理开销。
-
公开(公告)号:CN109814992A
公开(公告)日:2019-05-28
申请号:CN201811634642.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种用于大规模网络数据采集的分布式动态调度方法,包括:获取网络数据所在的信源;将参与数据采集的节点注册为采集节点或调度节点;获取数据采集的调度策略;根据该调度策略和该信源的信源信息,生成采集任务;将该采集任务传递至该采集节点的采集器,以配置并启动该采集器;通过该采集器执行该采集任务,以获取采集结果。本发明的分布式调度方法是采集器、信息来源无关的通用调度方法,本方法支持多种异构采集器,支持异构节点,支持采集节点与采集器的热插拔,动态扩展。
-
公开(公告)号:CN109753649A
公开(公告)日:2019-05-14
申请号:CN201811466325.3
申请日:2018-12-03
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明涉及一种基于细粒度匹配信号的文本相关性度量方法和系统,包括:获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0-1之间的一个分数,将该分数作为该两段文本之间的相关性。本发明能够构建细粒度匹配信号,提取多层次的匹配模式。在多种不同任务的实际数据集上的效果突出。
-
公开(公告)号:CN105335475B
公开(公告)日:2018-07-10
申请号:CN201510641703.7
申请日:2015-09-30
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于流式数据的局部性非聚簇索引方法及系统,该方法包括:实时更新步骤,实时更新哈希索引表哈希索引表中针对所接收到的每条流式数据而产生的索引记录,该索引记录记载了该流式数据中出现的索引键、该索引键首次出现时所对应的主键以及从首次出现到当前最末次出现所覆盖的数据个数;写入步骤,当达到触发条件时,将该哈希索引表中的该索引记录写入索引表中,继续执行该实时更新步骤。本发明极大地缩小了索引表的空间及构建索引表所产生的带宽开销,该索引方法将随机访问与顺序扫描结合起来,有效地利用了流式数据的时间局部特性,更符合存储介质的访问模型,提高了索引数据查询的效率。
-
公开(公告)号:CN105159915B
公开(公告)日:2018-07-10
申请号:CN201510419480.X
申请日:2015-07-16
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明适用于文件处理技术领域,提供了一种可动态适应的LSM树合并方法,所述方法包括:将键值区间划分为若干节点,将所述节点组织为树形结构,每个所述节点对应一键值区间,每个所述键值区间包含对应该键值区间范围的文件;根据当前数据的分布动态调整树的形状;当有新写入的文件时,遍历树寻找最适节点放入;对文件进行处理时,对节点内部进行Minor Compact处理,并且只通过叶节点执行Major Compact。本发明还相应的提供一种实现上述方法的可动态适应的LSM树合并系统。借此,本发明可以实现动态适应数据的分布,提高数据合并效率。
-
公开(公告)号:CN104615687B
公开(公告)日:2018-05-22
申请号:CN201510033050.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向知识库更新的实体细粒度分类方法与系统。所述方法包括:从文本中识别出实体;将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及,通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷,并且提高了实体细粒度分类的准确率。
-
公开(公告)号:CN104182482B
公开(公告)日:2018-05-22
申请号:CN201410382359.X
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。
-
公开(公告)号:CN103533048B
公开(公告)日:2018-01-26
申请号:CN201310475961.3
申请日:2013-10-12
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种BT网络中热门种子文件获取方法,包括下列步骤:1)构造多个虚拟BT客户端,所述多个虚拟BT客户端的ID均匀分布在BT网络ID逻辑空间;2)各虚拟BT客户端监听BT网络中的get_peers消息,统计所收到的对应于每个infohash的get_peer消息的数目;3)定期统计所有虚拟BT客户端所接收到的对应于每个infohash的get_peer消息的数目,并根据get_peer消息的数目确定相应的infohash是否为热门infohash。本发明能够全面准确地获取整个BT网络范围内的热门种子文件。
-
公开(公告)号:CN107391577A
公开(公告)日:2017-11-24
申请号:CN201710469315.4
申请日:2017-06-20
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于表示向量的标签推荐方法和系统,其特征在于,包括:获取多个作品,根据每个作品对应的标签、关系及对象,构建多个包含作品和标签的二元组信息和包含作品、关系及对象的三元组信息,根据二元组信息和三元组信息生成训练数据集;通过对训练数据集进行表示学习,分别得到各个作品的作品表示向量和各类标签的标签表示向量;通过计算各个作品表示向量和各类标签表示向量之间的距离,从各类标签中筛选出各个作品的推荐标签。本发明在学习表示向量的过程中,本发明同时考虑作品标签对二元组信息和作品的三元组信息。通过融入更多信息,使得学到的表示向量能够更准确地反映作品和标签的语义,从而更好地支持标签推荐这一任务。
-
-
-
-
-
-
-
-
-