-
公开(公告)号:CN107239520B
公开(公告)日:2020-07-03
申请号:CN201710378377.4
申请日:2017-05-25
Applicant: 东北大学
IPC: G06F16/957
Abstract: 本发明涉及一种通用论坛正文提取方法包括如下步骤:提取出网站完整的html代码,探测该网页编码格式,并统一编码为utf8格式;解析html标签类型,获得网页的DOM树,提取标题信息和包含发表时间信息的div标签内容,过滤无用信息后对已提取信息进行分类并生成列表;计算列表数据长度,以时间为标记分类信息并格式化输出。本发明的提取方法通用性强,能够适用于大多数论坛,能够准确提取其主贴、回帖、标题和发帖时间的相应数据字段并格式化输出,使论坛信息得到更好的利用。
-
公开(公告)号:CN107239520A
公开(公告)日:2017-10-10
申请号:CN201710378377.4
申请日:2017-05-25
Applicant: 东北大学
IPC: G06F17/30
Abstract: 本发明涉及一种通用论坛正文提取方法包括如下步骤:提取出网站完整的html代码,探测该网页编码格式,并统一编码为utf8格式;解析html标签类型,获得网页的DOM树,提取标题信息和包含发表时间信息的div标签内容,过滤无用信息后对已提取信息进行分类并生成列表;计算列表数据长度,以时间为标记分类信息并格式化输出。本发明的提取方法通用性强,能够适用于大多数论坛,能够准确提取其主贴、回帖、标题和发帖时间的相应数据字段并格式化输出,使论坛信息得到更好的利用。
-