-
公开(公告)号:CN108763930A
公开(公告)日:2018-11-06
申请号:CN201810508416.2
申请日:2018-05-24
Applicant: 哈尔滨工程大学
CPC classification number: G06F21/563
Abstract: 本发明提供的是一种基于最小缓存模型的WEB页面流式解析方法。步骤1、数据预处理;步骤2、HTML页面解析;步骤3、JS脚本解析;步骤4、特征处理。本发明提出基于最小缓存模型的WEB页面流式解析方法对WEB页面进行流式解析,并且通过最小缓存模型在保证提取特征完整性的同时,保证了最小内存占用。本发明应用以上两种方法针对不同大小的网页在解析时间和内存占用两方面进行对比实验,验证基于最小缓存模型的WEB页面流式解析框架在解析时效性和减少存储压力两方面的优势。