一种仿冒网站监测识别方法及系统

    公开(公告)号:CN107181730A

    公开(公告)日:2017-09-19

    申请号:CN201710145302.1

    申请日:2017-03-13

    Abstract: 本发明公开了一种仿冒网站监测识别方法及系统,方法包括:S1、分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;S2、分别对解析后的被仿冒网页和待检测网页进行特征提取,得到被仿冒网页和待检测网页的网页特征;S3、计算被仿冒网页与待检测网页的网页特征的相似性,得到对应于网页特征中所有特征的所有计算结果;S4、对所有计算结果进行集成汇总,得到集成汇总结果;S5、将集成汇总结果与预设阈值进行比较,如果集成汇总结果大于预设阈值,则待检测网站为仿冒网站。本发明的有益效果是:同时考虑了网页URL、网页内容以及网页图像的相似性,并对三个相似性进行集成汇总,提高对仿冒网站进行识别的准确性。

    用于识别论坛用户马甲账号的方法和系统

    公开(公告)号:CN103729474B

    公开(公告)日:2017-07-21

    申请号:CN201410032746.0

    申请日:2014-01-23

    Abstract: 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。

    微博消息中命名实体识别方法及系统

    公开(公告)号:CN103268339B

    公开(公告)日:2016-06-01

    申请号:CN201310182978.X

    申请日:2013-05-17

    Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。

    一种eMule网络上关联资源的发现方法

    公开(公告)号:CN103258052B

    公开(公告)日:2016-03-30

    申请号:CN201310204314.9

    申请日:2013-05-28

    Abstract: 本发明提供一种eMule网络上关联资源的发现方法,包括下列步骤:1)获取用户设置的初始的关键词列表;2)对于当前关键词列表中的每个关键词,在eMule网络中搜索与该关键词相关的资源文件,并记录搜索到的资源文件信息;3)对进行了记录的资源文件的文件名进行分词处理,并将分词得到的新词加入关键词列表中,然后重新执行步骤2);重复执行步骤2)至3)直到满足结束条件。本发明能够全面地发现eMule网络中潜在的用户感兴趣的资源,还能够帮助用户发现特定领域相关的潜在的用户感兴趣的资源。

    一种基于流式数据的局部性非聚簇索引方法及系统

    公开(公告)号:CN105335475A

    公开(公告)日:2016-02-17

    申请号:CN201510641703.7

    申请日:2015-09-30

    CPC classification number: G06F17/3033 G06F17/30516

    Abstract: 本发明公开了一种基于流式数据的局部性非聚簇索引方法及系统,该方法包括:实时更新步骤,实时更新哈希索引表中针对所接收到的每条流式数据而产生的索引记录,该索引记录记载了该流式数据中出现的索引键、该索引键首次出现时所对应的主键以及从首次出现到当前最末次出现所覆盖的数据个数;写入步骤,当达到触发条件时,将该哈希索引表中的该索引记录写入索引表中,继续执行该实时更新步骤。本发明极大地缩小了索引表的空间及构建索引表所产生的带宽开销,该索引方法将随机访问与顺序扫描结合起来,有效地利用了流式数据的时间局部特性,更符合存储介质的访问模型,提高了索引数据查询的效率。

    一种社交网络谣言识别方法及系统

    公开(公告)号:CN105045857A

    公开(公告)日:2015-11-11

    申请号:CN201510401458.2

    申请日:2015-07-09

    CPC classification number: G06F16/951 G06F16/35

    Abstract: 本发明公开了一种社交网络谣言识别方法及系统,该方法包括获取微博信息例,并获取所述微博信息例的微博信息与用户信息,根据所述微博信息与所述用户信息,提取所述微博信息例的微博内容特征,所述微博内容特征包括浅层文本特征与微博深层隐含特征;根据所述用户信息,提取所述用户的基本属性特征与用户深层隐含特征,根据所述微博信息提取所述微博的微博流行度特征,所述微博流行度特征包括基于流行度及流行度趋势的波动性特征与差异性特征以及转发特征;根据所述浅层文本特征、所述微博深层隐含特征、所述基本属性特征、所述用户深层隐含特征、所述微博流行度特征,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果。

    一种基于用户和微博主题的微博流行度预测方法及系统

    公开(公告)号:CN104933622A

    公开(公告)日:2015-09-23

    申请号:CN201510109475.9

    申请日:2015-03-12

    Abstract: 本发明涉及社交网络分析领域,特别涉及一种基于用户和微博主题的微博流行度预测方法及系统,该方法包括:获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。

    用于搜索引擎的色情用户查询识别方法及设备

    公开(公告)号:CN103177126B

    公开(公告)日:2015-07-29

    申请号:CN201310134933.5

    申请日:2013-04-18

    Abstract: 本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。

Patent Agency Ranking