一种基于WVP_DOM树相似性的网页不变形噪音过滤方法

    公开(公告)号:CN104965849B

    公开(公告)日:2018-12-07

    申请号:CN201510147986.X

    申请日:2015-03-31

    Abstract: 本发明属于网页主题提取领域,主要是一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。本发明包括:对网页进行预处理;利用现有方法在WVP_DOM树中识别噪音信息并标记;遍历WVP_DOM树,具有相同的标签名称的相似结点为兄弟结点;如果结点是噪音结点且无兄弟结点,回溯到父结点,继续查找父结点的相似结点;如果结点是噪音结点且兄弟结点具有相似结构,则将结点删除,不会造成网页变形。本发明提出基于WVP_DOM树相似性的网页不变形噪音过滤方法,针对传统网页去噪方法易导致网页变形的缺点做出改进,通过查找噪音信息相似结构的方式,来解决网页去噪后网页变形这一问题。

    一种基于用户行为分类的垃圾邮件过滤系统及方法

    公开(公告)号:CN106027504A

    公开(公告)日:2016-10-12

    申请号:CN201610300853.6

    申请日:2016-05-09

    CPC classification number: H04L63/0263 H04L51/12 H04L51/22

    Abstract: 本发明提供的是一种基于用户行为分类的垃圾邮件过滤系统及方法。包括用户行为分类模块、拓扑相似性过滤模块和邮件处理模块,用户行为分类模块包括一个用户行为分类器和一个用户类型判定器,拓扑相似性过滤模块包括一个拓扑相似性过滤器和一个辅助过滤器。本发明提出的模型能够有效的根据用户发送行为特征,提取出正常用户和垃圾用户,减少需要深度过滤的邮件,提高邮件网关系统性能,同时能够提高整体的查准率和召回率。

    一种面向邮件地址特征的邮件地址匹配方法

    公开(公告)号:CN106027369A

    公开(公告)日:2016-10-12

    申请号:CN201610300852.1

    申请日:2016-05-09

    CPC classification number: H04L51/28 H04L12/66 H04L51/22

    Abstract: 本发明提供的是一种面向邮件地址特征的邮件地址匹配方法。(1)按照构建过程,构建n条邮件地址规则;(2)随机生成一条邮件地址,将该邮件地址包括“@”符在内的“@”符之前的部分在AC自动机构建的规则树中,进行匹配;(3)将该地址“@”符之后的部分的域名部分,计算三种哈希函数的函数值,在哈希表中进行查找。本发明提出的基于动态存储的缓冲区方法,考虑了邮件地址的用户名部分数量较大,较为分散,且域名部分数量大但是种类比较少的特点,充分利用的多模式匹配算法和哈希算法的优势。能够在大规模邮件地址匹配时拥有良好的内存性能表现和时间性能变现。

    一种基于WVP_DOM树相似性的网页不变形噪音过滤方法

    公开(公告)号:CN104965849A

    公开(公告)日:2015-10-07

    申请号:CN201510147986.X

    申请日:2015-03-31

    Abstract: 本发明属于网页主题提取领域,主要是一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。本发明包括:对网页进行预处理;利用现有方法在WVP_DOM树中识别噪音信息并标记;遍历WVP_DOM树,具有相同的标签名称的相似结点为兄弟结点;如果结点是噪音结点且无兄弟结点,回溯到父结点,继续查找父结点的相似结点;如果结点是噪音结点且兄弟结点具有相似结构,则将结点删除,不会造成网页变形。本发明提出基于WVP_DOM树相似性的网页不变形噪音过滤方法,针对传统网页去噪方法易导致网页变形的缺点做出改进,通过查找噪音信息相似结构的方式,来解决网页去噪后网页变形这一问题。

Patent Agency Ranking