-
公开(公告)号:CN110879861B
公开(公告)日:2023-07-14
申请号:CN201910834941.8
申请日:2019-09-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/953
Abstract: 本发明公开了一种基于表示学习的相似移动应用计算方法,所述方法包括:读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及图数据库中与所述移动应用相关的实体,构建表示学习算法‑网络嵌入模型LINE网络;基于LINE负采样技术优化Skip‑gram模型,通过所述Skip‑gram模型训练所述LINE网络,得到每个实体以及移动应用自身的向量表示;根据每个实体以及移动应用自身的向量表示,对移动应用进行相似度计算。
-
公开(公告)号:CN115410207A
公开(公告)日:2022-11-29
申请号:CN202110588830.0
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院信息工程研究所
IPC: G06V30/148 , G06F40/289 , G06F40/216
Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。
-
公开(公告)号:CN110851612A
公开(公告)日:2020-02-28
申请号:CN201910806480.3
申请日:2019-08-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F16/9535 , G06F16/951 , G06F16/957
Abstract: 本发明公开了一种基于百科知识的移动应用知识图谱复合型补全方法及装置,所述方法包括:对于给定的百科站点,读取该百科站点对应的配置文件,并利用配置文件中的信息,筛选出该百科站点中与移动应用相关联的百科页面;利用网络爬虫抓取筛选出的所述百科页面并存储;针对不同的移动应用属性值采取不同的属性识别算法,从所述百科页面中进行结构化知识的抽取,并以预定格式进行存储;根据抽取的所述结构化知识,更新AllegroGraph中移动应用的属性信息,同时返回一个更新文件提示原始的数据库进行移动应用图谱数据的同步更新补全。
-
公开(公告)号:CN110717108A
公开(公告)日:2020-01-21
申请号:CN201910921218.3
申请日:2019-09-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06K9/62
Abstract: 本发明公开了一种基于特征工程的相似移动应用计算方法及装置,所述方法包括:将移动应用的数据集进行离散化;根据预先设置的特征从离散化的数据集中抽取有效特征,通过信息熵的方式从离散化的数据集中过滤无效特征;计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集;从所述相似候选集中获取相似移动应用。
-
公开(公告)号:CN104573033A
公开(公告)日:2015-04-29
申请号:CN201510020876.7
申请日:2015-01-15
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30876 , G06F17/30887
Abstract: 本发明提出了一种动态URL过滤方法及装置,该方法包括:基于URL标注集创建信息字典;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;对URL特征矩阵进行分类得到特征权重向量和二分类阈值;基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。本发明可以离线处理,不需要访问网络、减少了存储,比较节省处理时间和计算资源。
-
公开(公告)号:CN118051623A
公开(公告)日:2024-05-17
申请号:CN202410028993.7
申请日:2024-01-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F16/35 , G06N5/025 , G06N5/04 , G06F40/295 , G06F40/30 , G06F40/289 , G06F16/951 , G06F16/9535 , G06F16/9538 , H04L67/55
Abstract: 本发明涉及人工智能和知识工程技术领域,本发明提供了一种移动应用知识库构建系统和方法,能够实现面向移动应用知识库的构建,完成移动应用知识库的智能应用。本发明移动应用知识库构建系统,基于APP(应用)基础信息和内容数据的多源异构数据,通过应用实体抽取、属性抽取、关系抽取等结构化处理,结合移动APP推理规则和移动APP标签图谱实现,为移动APP相似性、关联性分析以及移动应用内容分析、风险研判等建立基于检索式的知识服务方式,提供了一种面向移动应用的知识库,是一套面向业务应用的知识属性体系,提高相关的工作和生产效率。
-
公开(公告)号:CN117633543A
公开(公告)日:2024-03-01
申请号:CN202311359555.0
申请日:2023-10-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/22 , G06F18/25 , G06F40/30 , G06F40/289 , G06F40/216
Abstract: 一种基于融合向量的短文本相似度计算方法,主要包括以下步骤:根据短文本所在的业务场景,积累相关的业务语料;基于业务语料,得到短文本所在语境的主题、各主题的主题词和主题词的权重信息,构造词汇权重关系模型;基于该模型对短文本中包含的词汇进行权重计算;利用短文本词汇的权重信息和使用word2vec生成的词汇语义信息,构造基于权重的文本语义向量;根据短文本语义向量的余弦相似度进行短文本相似度比较。该方法充分考虑了每个词对相似度贡献的区别,从基于权重的文本语义融合向量化表示的角度,定义了一种新的短文本相似度的计算方法。
-
公开(公告)号:CN117278253A
公开(公告)日:2023-12-22
申请号:CN202311043720.1
申请日:2023-08-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L9/40 , H04L61/4511 , G06F21/56 , G06N3/04
Abstract: 一种基于DNS流量特征与进程特征的恶意软件检测装置与方法,该装置主要包括:DNS进程特征采集模块,部署于要保护的终端主机上,用于确定发起DNS请求的进程,获取其特征信息;DNS流量特征采集模块,部署于网关,用于获取终端主机发起的DNS请求,获取其流量特征信息;数据整合模块,用于对上述模块收集到的特征信息进行关联后发送给分析模块;分析模块,将收到的DNS特征数据输入预先训练好的神经网络,判断对应的进程是否有害。监控DNS请求中的流量特征和进程特征,有效地发现设备中存在的恶意软件。
-
公开(公告)号:CN116935117A
公开(公告)日:2023-10-24
申请号:CN202310887423.9
申请日:2023-07-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06V10/764 , G06V10/56
Abstract: 本发明涉及标志物检测系统领域,尤其为一种复杂场景下特定标志物检测系统,包括:收集模块:用于通过网络爬虫技术对特定标志物图片进行收集,获得特定标志物图片;处理模块:用于对收集模块收集的特定标志物图片进行图片预处理,获得预处理数据;分类器训练模块:用于根据处理模块处理得到的预处理数据进行模型训练,得到自动分类模型;分类模块:用于连接自动分类模型,对特定标志物图片进行分类。本发明通过颜色和形状的标志物检测算法,从色彩增强、颜色分割和形状分类三个方面提高特定标志物检测系统算法的鲁棒性,通过比较RGB和HSV颜色分割效果,选取效果更好的HSV颜色分割,在形状分类中不仅仅使用简单的SVM模型训练而且同时使用Contourlet变化提高算法的鲁棒性使的算法预测效果更好,保证出现差错在系统允许的范围内。
-
公开(公告)号:CN116680419A
公开(公告)日:2023-09-01
申请号:CN202310955604.0
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F40/216 , G06F40/30 , G06F40/295
Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。
-
-
-
-
-
-
-
-
-