-
公开(公告)号:CN108897749A
公开(公告)日:2018-11-27
申请号:CN201810355382.8
申请日:2018-04-19
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于语法树和文本块密度的网页信息抽取方法,包括:获取网页的标题文本信息;设定筛选阈值,计算该网页所有节点的文本块密度,以该文本块密度大于该筛选阈值的节点为采集节点,提取该采集节点的节点文本信息;若该采集节点的数量为1,则以该节点文本信息为目标信息进行抽取;若该采集节点的数量大于1,则将该标题文本信息和该节点文本信息分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树;获得每个该节点深层语法树与该标题深层语法树的整体相似度,以该整体相似度中的最大值对应的节点文本信息为目标信息进行抽取。
-
公开(公告)号:CN108874849A
公开(公告)日:2018-11-23
申请号:CN201810097136.7
申请日:2018-01-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种非等值关联子查询的优化方法和系统,其特征在于,包括:获取关联子查询的外表关联列的取值集;根据该关联子查询中操作符的类型和该取值集,建立该关联子查询的外表关联列到内表关联列分区的映射关系;根据得到的分区集合,对该关联子查询的内表进行分区,同时依据该关联子查询中内表的查询聚合函数,获取关联子查询在各分区的中间结果状态信息;根据该映射关系,遍历该外表关联列,通过聚合对应的分区集的中间结果状态信息,得到外表中各关联列对应的子查询结果。本发明具有的技术效果包括:通过对内表进行分区,并重复利用各分区的中间结果从而得到最终的子查询结果集,以提升查询性能。
-
公开(公告)号:CN108769115A
公开(公告)日:2018-11-06
申请号:CN201810354384.5
申请日:2018-04-19
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: H04L29/08
CPC classification number: H04L67/1008
Abstract: 本发明涉及一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息将采集任务分配给该采集节点模块。分布式RSS数据采集方法包括:通过注册中心收集分布于网络的采集节点模块的信息;通过调度模块拉取采集任务;通过该调度模块拉取该信息;根据该信息将该采集任务分配给该采集节点模块;采集该网络上的RSS数据。
-
公开(公告)号:CN108090222A
公开(公告)日:2018-05-29
申请号:CN201810011460.2
申请日:2018-01-05
Applicant: 中国科学院计算技术研究所 , 中科天玑数据科技股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据库集群节点间数据同步系统,涉及数据处理领域。所述系统包括配置单元、元数据存储单元、元数据判断单元、读写判断单元、Paxos同步单元、日志存储单元和日志重现单元。本发明解决了现有数据库同步方法中异步方式可能导致数据库集群数据不一致的问题,也解决了同步方式可能因为某个节点阻塞导致性能低下的问题;最后,本发明所述数据库集群节点间数据同步系统也支持不同方向的数据同步,没有只能将数据从主数据库同步到从数据库的限制。
-
公开(公告)号:CN104077417B
公开(公告)日:2018-05-22
申请号:CN201410342939.6
申请日:2014-07-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种社交网络中的人物标签推荐方法和系统,所述方法包括:基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成。所述方法还包括:对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。本发明解决了现有人物标签推荐技术中,标签推荐质量不高的问题,以及能使标签推荐的结果更具个性化并且更加多样化。
-
公开(公告)号:CN104111973B
公开(公告)日:2017-10-27
申请号:CN201410269979.2
申请日:2014-06-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了本发明提供一种学者重名的消歧方法,包括:分类模型建立步骤和迭代消歧步骤;其中,分类模型建立步骤为基于异质学术网络数据,通过标注获取标注数据集,并基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤为基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。本发明还公开了一种学者重名的消歧系统。
-
公开(公告)号:CN106685757A
公开(公告)日:2017-05-17
申请号:CN201611168667.8
申请日:2016-12-16
Applicant: 烟台中科网络技术研究所 , 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: H04L12/26
Abstract: 本发明涉及一种评估网络性能的方法及装置,该方法包括:选择多个指标;对当前网络进行测量,在预设时间段内对每个指标进行多次测量,获得测量值;根据获得的测量值确定每个指标的阈值;计算每个指标的所有测量值分别与阈值的数据偏离差值;对得到的数据偏离差值进行处理,得到每个指标的指标值;对得到的所有指标值进行加权处理,得到评估网络性能的综合指标值F。本发明提供的一种评估网络性能的方法及装置,实现了对多个网络性能指标进行综合评价,当加入新指标时,无需重新制定评价机制,适应性更强,可根据使用者评估需求选择多种指标进行综合评价,对网络质量的评价更客观更合理。
-
公开(公告)号:CN103853766B
公开(公告)日:2017-04-05
申请号:CN201210510056.2
申请日:2012-12-03
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种面向流式数据的在线处理方法,包括:步骤1,建立在线内存缓存层,对所述流式数据按照键值结构进行属性抽取后存储在所述在线内存缓存层中;步骤2,在所述内存缓存层中对所述流式数据建立混合索引结构;步骤3,对建立好索引结构的每条流式数据增加一个访问标志位,此标志位用于标志不同分析程序对于该流式数据的注册情况,同时对每一个分析程序访问流式数据的状态进行记录。步骤4,数据清理,若某流式数据被所述内存缓存层中的所有指定的分析程序访问过,则将该流式数据进行清理操作。本发明大幅度减小了流式处理过程中的数据读写压力,能够有效缓解大规模流式数据处理系统中数据库的压力,且能够提升流式数据的实时处理速度。
-
公开(公告)号:CN106503858A
公开(公告)日:2017-03-15
申请号:CN201610958907.8
申请日:2016-10-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种训练用于预测社交网络用户转发消息的模型的方法,包括:确定以社交网络中的每名用户的影响力和易感性为参数的损失函数;收集各名用户以往进行消息转发的样本;根据所述样本和所述损失函数,搜索确定所述各名用户的影响力和易感性。本发明通过根据信息传播过程的不对称性来建立模型,从而提高模型的预测性能,并且可以区分预测用户列表不同位置用户对的重要性差别。
-
公开(公告)号:CN103324662B
公开(公告)日:2016-12-28
申请号:CN201310134433.1
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会媒体事件的动态观点演变的可视化方法,该方法首先确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类,然后基于所述信息的情感分类,建立情感可视化图形的几何布局并基于所述信息的情感隶属度对所建立的几何布局进行着色。该方法可以直观的显示信息流中事件的情感变化,在事件的变化和发展方面可以显示更多的情感信息,能够帮助用户更好的识别事件的转折点和爆发点,预测事件的发展趋势。
-
-
-
-
-
-
-
-
-