网址的判别方法及装置
    1.
    发明授权

    公开(公告)号:CN116248415B

    公开(公告)日:2023-08-15

    申请号:CN202310525769.4

    申请日:2023-05-11

    Abstract: 本发明提供了一种网址的判别方法及装置,方法包括:获取输入的待判别网址;解析待判别网址的特征参数,以及,根据特征参数确定待判别网址的特征向量值;将特征向量值输入至训练好的判别模型中,通过判别模型对特征向量值进行判别,得到判别结果,以根据判别结果确定待判别网址的网址类型。本发明利用判别模型直接对待判别网址进行判别,该判别模型针对待判别网址的特征参数进行处理,可以对任意待判别网址准确判别,提高判别效率。判别模型为基于卷积网络CNN和Transformer模型构建的模型,利用Transformer的全局性对特征之间的联系进行处理,利用卷积神经网络的局部性能够提高判别效率,快速且准确地判别任意网址。

    采集分页网站数据的方法、装置及电子设备

    公开(公告)号:CN115827947B

    公开(公告)日:2023-04-25

    申请号:CN202310053204.0

    申请日:2023-02-03

    Abstract: 本发明提供了一种采集分页网站数据的方法、装置及电子设备,包括:获取数据采集任务和待爬取网站的网页内容;对上述网页内容进行预处理,得到预处理数据;将上述预处理数据输入预先训练好的分页预测模型中,输出上述预处理数据的分页预测结果;基于上述分页预测结果,从上述网页内容中确定上述数据采集任务对应的目标数据。该方法通过对网页进行分页情况的预测,在此基础上从上述网页内容中确定上述数据采集任务对应的目标数据,从而提升采集分页网站数据的效率以及准确率。

    网址的判别方法及装置
    3.
    发明公开

    公开(公告)号:CN116248415A

    公开(公告)日:2023-06-09

    申请号:CN202310525769.4

    申请日:2023-05-11

    Abstract: 本发明提供了一种网址的判别方法及装置,方法包括:获取输入的待判别网址;解析待判别网址的特征参数,以及,根据特征参数确定待判别网址的特征向量值;将特征向量值输入至训练好的判别模型中,通过判别模型对特征向量值进行判别,得到判别结果,以根据判别结果确定待判别网址的网址类型。本发明利用判别模型直接对待判别网址进行判别,该判别模型针对待判别网址的特征参数进行处理,可以对任意待判别网址准确判别,提高判别效率。判别模型为基于卷积网络CNN和Transformer模型构建的模型,利用Transformer的全局性对特征之间的联系进行处理,利用卷积神经网络的局部性能够提高判别效率,快速且准确地判别任意网址。

    采集分页网站数据的方法、装置及电子设备

    公开(公告)号:CN115827947A

    公开(公告)日:2023-03-21

    申请号:CN202310053204.0

    申请日:2023-02-03

    Abstract: 本发明提供了一种采集分页网站数据的方法、装置及电子设备,包括:获取数据采集任务和待爬取网站的网页内容;对上述网页内容进行预处理,得到预处理数据;将上述预处理数据输入预先训练好的分页预测模型中,输出上述预处理数据的分页预测结果;基于上述分页预测结果,从上述网页内容中确定上述数据采集任务对应的目标数据。该方法通过对网页进行分页情况的预测,在此基础上从上述网页内容中确定上述数据采集任务对应的目标数据,从而提升采集分页网站数据的效率以及准确率。

    基于VLM的网站检测方法和装置

    公开(公告)号:CN115982505A

    公开(公告)日:2023-04-18

    申请号:CN202310251601.9

    申请日:2023-03-16

    Abstract: 本发明提供了基于VLM的网站检测方法和装置,包括:获取网站信息,网站信息包括网站首页的图片和源代码的目标文字信息;将源代码的目标文字信息通过训练后的文本transformer模型,构成第一张量;将网站首页的图片通过训练后的NFNet‑F6模型,构成n个张量;将第一张量和n个张量进行转换和拼接处理,得到拼接后的向量;将拼接后的向量通过文本编码器和MLP模型,得到分类概率数组;在网页分类中,以训练后的文本transformer模型及训练后的NFNet‑F6模型为基础,结合网页文字信息和图片的特征,训练出可以对网页截图进行多分类的模型,从而达到可以精准分类网站的目的。

Patent Agency Ranking