一种基于预取的钓鱼网页检测方法

    公开(公告)号:CN101820366A

    公开(公告)日:2010-09-01

    申请号:CN201010102071.4

    申请日:2010-01-27

    Abstract: 基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类,主要解决了钓鱼网页检测能力问题。该方法以用户界面模块1为界面、总控模块2为中心,调度分类器模块3、特征提取模块4和网页预取模块5。其中分类器模块首先需要从训练集训练,并采用增量更新的方式,保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征,该特征将被保存在训练集数据库中,同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页,并保存到网页数据库中。本发明提出基于预取的钓鱼检测方法,在精度、召回率上都有了很大提高。

    一种基于空间布局的钓鱼网页检测及其实现方法

    公开(公告)号:CN101894134A

    公开(公告)日:2010-11-24

    申请号:CN201010204724.X

    申请日:2010-06-21

    Abstract: 一种基于空间布局的钓鱼网页检测方法涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题,系统由5个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测。最核心的是3个功能模块,即:布局特征抽取模块、空间数据库模块、机器学习匹配模块。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测系统,在保证高准确率的同时,处理数据容量上有了重大提升,并显著减小网页检测时间。

    基于匈牙利匹配算法的钓鱼网页检测方法

    公开(公告)号:CN101826105A

    公开(公告)日:2010-09-08

    申请号:CN201010139929.4

    申请日:2010-04-02

    Abstract: 基于匈牙利匹配的钓鱼网页检测方法首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特征签名,比较全面地刻画了网页访问后的特征;然后通过匈牙利算法计算二分图的最佳匹配来寻找不同网页签名之间匹配的特征对,在此基础上能够更加客观地度量网页之间的相似性,从而提高钓鱼网页的检测效果。在方法中还利用曲线下面积值来确定文本特征、图像特征以及全局图像特征的内部权重;利用对数回归分析法确定了网页相似性计算中的文本相似性、图像相似性和全局图像相似性之间的相对权重。本发明提出的基于匈牙利匹配的钓鱼网页检测方法,在精度、召回率上都有了很大提高。

    基于匈牙利匹配算法的钓鱼网页检测方法

    公开(公告)号:CN101826105B

    公开(公告)日:2013-06-05

    申请号:CN201010139929.4

    申请日:2010-04-02

    Abstract: 基于匈牙利匹配的钓鱼网页检测方法首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特征签名,比较全面地刻画了网页访问后的特征;然后通过匈牙利算法计算二分图的最佳匹配来寻找不同网页签名之间匹配的特征对,在此基础上能够更加客观地度量网页之间的相似性,从而提高钓鱼网页的检测效果。在方法中还利用曲线下面积值来确定文本特征、图像特征以及全局图像特征的内部权重;利用对数回归分析法确定了网页相似性计算中的文本相似性、图像相似性和全局图像相似性之间的相对权重。本发明提出的基于匈牙利匹配的钓鱼网页检测方法,在精度、召回率上都有了很大提高。

    一种基于预取的钓鱼网页检测方法

    公开(公告)号:CN101820366B

    公开(公告)日:2012-09-05

    申请号:CN201010102071.4

    申请日:2010-01-27

    Abstract: 基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类,主要解决了钓鱼网页检测能力问题。该方法以用户界面模块1为界面、总控模块2为中心,调度分类器模块3、特征提取模块4和网页预取模块5。其中分类器模块首先需要从训练集训练,并采用增量更新的方式,保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征,该特征将被保存在训练集数据库中,同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页,并保存到网页数据库中。本发明提出基于预取的钓鱼检测方法,在精度、召回率上都有了很大提高。

    一种基于空间布局的钓鱼网页检测及其实现方法

    公开(公告)号:CN101894134B

    公开(公告)日:2012-04-11

    申请号:CN201010204724.X

    申请日:2010-06-21

    Abstract: 一种基于空间布局的钓鱼网页检测方法涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题,系统由5个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测。最核心的是3个功能模块,即:布局特征抽取模块、空间数据库模块、机器学习匹配模块。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测系统,在保证高准确率的同时,处理数据容量上有了重大提升,并显著减小网页检测时间。

Patent Agency Ranking