-
公开(公告)号:CN113761903B
公开(公告)日:2025-01-17
申请号:CN202010504536.2
申请日:2020-06-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/289 , G06F40/30 , G06F40/232 , G06F16/35 , G06N3/0464 , G06N3/045
Abstract: 本发明提出一种针对海量高噪音口语化短文本的文本筛选方法,属于自然语言处理领域,通过对训练语料和待筛选的目标文本进行预处理;对预处理后的训练语料中的标注的正类语料进行句式信息提取,区分出业务强相关句式和弱相关句式;利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。
-
公开(公告)号:CN103544258A
公开(公告)日:2014-01-29
申请号:CN201310484503.6
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
-
公开(公告)号:CN113761903A
公开(公告)日:2021-12-07
申请号:CN202010504536.2
申请日:2020-06-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/289 , G06F40/30 , G06F40/232 , G06F16/35 , G06N3/04
Abstract: 本发明提出一种针对海量高噪音口语化短文本的文本筛选方法,属于自然语言处理领域,通过对训练语料和待筛选的目标文本进行预处理;对预处理后的训练语料中的标注的正类语料进行句式信息提取,区分出业务强相关句式和弱相关句式;利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。
-
公开(公告)号:CN103544258B
公开(公告)日:2016-11-30
申请号:CN201310484503.6
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
-
公开(公告)号:CN111694860A
公开(公告)日:2020-09-22
申请号:CN202010350182.0
申请日:2020-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/245 , G06F16/22
Abstract: 本发明提供一种安全检测的时序数据实时异常发现方法及电子装置,该方法步骤包括:根据配置文件,创建或读取TimescaleDB时序数据库表;将所述时序数据实时插入所述TimescaleDB时序数据库表,并经哈希函数计算处理进行分桶,邻居数据被哈希到相同的桶中;计算每个桶内数据数量与所有桶内的桶内数据数量的平均值,并根据一设定阈值判断所述时序数据是否异常。本发明提高了异常检测应用的写入与查询性能,不需要存储所有的历史数据,能够大幅度节省空间,在发生意外如断电的情况时不会发生数据丢失和应用失效,不需要对样本进行标注,也无需进行模型训练。易于部署和降低开发成本。
-
-
-
-