-
公开(公告)号:CN108880980A
公开(公告)日:2018-11-23
申请号:CN201810403059.3
申请日:2018-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
Abstract: 本发明公开一种基于微信群信息的数据分析系统,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块;对象存储模块;关键词提取模块;群消息库模块。本发明具有能将采集到的微信群消息数据进行分析和统计,最后直观的展示出来,可以有效、直观的监测微信群的优点。
-
公开(公告)号:CN108846017A
公开(公告)日:2018-11-20
申请号:CN201810426304.2
申请日:2018-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
Abstract: 本发明一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,包括如下步骤:S1.进行Word Embedding的字级别语义特征表示;S2.构建注意力权重的Bi-GRU字级别的句子特征编码模型;S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型;S4.使用分层Softmax实现端到端分类实现。本发明方法可降低向量的维度,且有效地防止特征过于稀疏问题。优化了最终的输出向量,增强了模型特征编码有效性。避免维度过高造成的模型难以训练问题,又提供了额外的语义信息。可灵活组合特征抽取模型和各种常见分类器,方便更换调试分类器。计算复杂度比Softmax从|K|降低到log|K|。
-
公开(公告)号:CN108805254A
公开(公告)日:2018-11-13
申请号:CN201810393788.5
申请日:2018-04-27
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06N3/00
CPC classification number: G06N3/006
Abstract: 本发明属于时序预测技术领域,具体提供了一种时序预测的参数优选系统,旨在解决现有技术对先验知识要求高、可拓展途径较低、时间复杂度高、实际可行度低以及鲁棒性差的技术问题。为此目的,本发明提供的参数优化系统包括参数优化模块,参数优化模块配置为基于预先构建的参数优化模型对预先获取的时序预测模型进行参数优化。其中,参数优化模块包括空间调控单元以及收敛调控单元;空间调控单元配置为基于第一权重函数调控参数优化模块的空间搜索范围;收敛调控单元配置为基于第二权重函数调控参数优化模块的收敛速率。本发明的系统增加了分布式表现,各个个体可以高效交流、协作,且提高了算法的性能。
-
公开(公告)号:CN108763319A
公开(公告)日:2018-11-06
申请号:CN201810396753.7
申请日:2018-04-28
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
CPC classification number: G06Q50/01 , G06N3/0454
Abstract: 本发明属于计算机技术领域,具体提供了一种融合用户行为和文本信息的社交机器人检测方法和系统。旨在解决现有技术手动选取特征、忽略社交媒体帖子之间的逻辑性和时序性以及忽略社交平台用户行为信息的问题,本发明的社交机器人的检测方法包括获取待检测社交媒体用户的历史网络数据和好友网络数据;基于上述数据得到用户文本特征向量、行为特征向量以及好友网络特征向量,并将其融合,得到待检测社交媒体用户的用户特征向量;对用户特征向量进行检测,输出检测结果。本发明的方法更加符合社交媒体自身的特性,从多个维度分析待检测社交媒体用户,提升了检测准确率。本发明的系统同样具有上述有益效果。
-
公开(公告)号:CN105205146B
公开(公告)日:2018-10-30
申请号:CN201510600289.5
申请日:2015-09-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种计算微博用户影响力的方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、服务器将微博流数据平均分发到多个端口;步骤三、对流数据进行特征提取和并行计算;步骤四、将特征存储;步骤五、过滤不关心用户;步骤六、计算用户影响力;步骤七、存储每日每个用户的影响力。优点在于:该影响力的指标增加了平均数、最高数和爆发度,平均数要求用户发布的每条微博的平均影响力都比较高,避免出现微博数大造成转发量或评论量大,最高数和爆发度分别刻画影响力传播的范围和速度,因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。
-
公开(公告)号:CN108566380A
公开(公告)日:2018-09-21
申请号:CN201810212973.X
申请日:2018-03-15
Applicant: 国家计算机网络与信息安全管理中心四川分中心
CPC classification number: H04L63/10 , H04L63/0236 , H04L63/0272 , H04L63/0281 , H04L63/1408 , H04L63/30 , H04L67/025
Abstract: 本发明公开了一种代理上网行为识别与检测方法,包括:初步处理网络中数据,在数据流出时,记录目的地址不在境内的IP,在数据流入时,记录源地址不在境内的IP;将数据流出时和数据流入时记录的IP保存在存储引擎中;储存引擎中的IP数据再提供给分析引擎,供分析引擎进行分析;将标识为可疑访问会话的数据流入方向的源地址加入到应用识别引擎中去进行应用识别;调用协议验证引擎进行协议验证,若验证出有协议为伪装协议,则判定境外IP为代理服务器访问会话或者判定境外IP为代理服务器访问会话的可疑度高。本发明方法能够精准地识别使用全局代理访问出口以外网站的用户及代理服务器。
-
公开(公告)号:CN108334495A
公开(公告)日:2018-07-27
申请号:CN201810090296.9
申请日:2018-01-30
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。
-
公开(公告)号:CN105808525B
公开(公告)日:2018-06-29
申请号:CN201610186810.X
申请日:2016-03-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。优点为:本发明可以突破语料规模的限制,利用多句特征抽取领域概念的上下位关系,可提升领域概念上下位关系抽取的准确率。
-
公开(公告)号:CN105760366B
公开(公告)日:2018-06-29
申请号:CN201610150038.6
申请日:2016-03-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。
-
公开(公告)号:CN107633044A
公开(公告)日:2018-01-26
申请号:CN201710827984.4
申请日:2017-09-14
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于热点事件的舆情知识图谱构建方法,属于自然语言处理领域;首先实时获取微博文本,对每个微博文本进行处理,构建文本簇,计算每个文本簇所属的话题类别,按类别识别每个簇中的热点事件,统计每个热点事件的多维属性;识别参与热点事件讨论的重要人物和机构,并获取重要人物和机构的多维属性;最后构建事件、人物、机构的多维属性体系及关系类型,以事件、人物、机构为实体,事件、人物、机构之间的关系为关联,构建舆情知识图谱。本发明能够从多个维度对热点事件、人物、机构进行刻画,实现对热点事件、人物、机构的全方位解析;并根据实际需求,设置不同话题类别的权重,实现不同话题的舆情知识图谱构建。
-
-
-
-
-
-
-
-
-