-
公开(公告)号:CN109284465A
公开(公告)日:2019-01-29
申请号:CN201811025751.3
申请日:2018-09-04
Applicant: 暨南大学
IPC: G06F16/958 , G06F16/955 , G06F16/35 , G06F17/27
Abstract: 本发明公开了一种基于URL的网页分类器构建方法及其分类方法,首先获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。针对于需要进行分类的网页,首先获取该网页的URL作为测试样本;然后通过选定的字符对其进行分词处理,最后转换成词向量;将测试样本的词向量输入上述构建得到的网页分类器中,通过网页分类器输出分类结果。本发明大大提高了恶意网页的分类准确率。
-
公开(公告)号:CN109284465B
公开(公告)日:2021-03-19
申请号:CN201811025751.3
申请日:2018-09-04
Applicant: 暨南大学
IPC: G06F16/958 , G06F16/955 , G06F16/35 , G06F40/289
Abstract: 本发明公开了一种基于URL的网页分类器构建方法及其分类方法,首先获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。针对于需要进行分类的网页,首先获取该网页的URL作为测试样本;然后通过选定的字符对其进行分词处理,最后转换成词向量;将测试样本的词向量输入上述构建得到的网页分类器中,通过网页分类器输出分类结果。本发明大大提高了恶意网页的分类准确率。
-