Patent search ap:("哈尔滨工程大学") AND inv:"谈亚洲" Page 1

1.

发明公开
一种多网页新闻评论内容自动精确提取装置无效

公开(公告)号：CN103488675A

公开(公告)日：2014-01-01

申请号：CN201310289400.4

申请日：2013-07-11

Applicant: 哈尔滨工程大学

Inventor： 王巍 , 杨武 , 苘大鹏 , 玄世昌 , 谈亚洲 , 申国伟

IPC: G06F17/30

CPC classification number: G06F17/30861 , G06F17/30899

Abstract: 本发明属于多网页动态文字内容自动精确提取领域，特别涉及一种提取各大门户网站或者论坛动态生成的评论，为分析网络舆情提供资源库的自动精确提取出所需信息内容的装置。多网页新闻评论内容自动精确提取装置，包括动态内容URL收集装置、网页预处理装置、数据获取装置、数据自动化提取装置和输出装置。本发明的多网页新闻评论内容自动精确提取装置，该装置既可以通过静态网页模板有效地提取网页中的文字内容，同时还可以针对以动态URL形式提供的网页数据标识，从服务器端准确地获取相应的文字内容。本发明可解决网页中动态数据内容的准确获取和提取，提高了网页数据自动获取和提取的能力，为网络数据分析和挖掘提供更好地技术支撑。

2.

发明授权
一种主题网络爬虫系统的构建方法失效

公开(公告)号：CN102073730B

公开(公告)日：2012-09-26

申请号：CN201110007710.3

申请日：2011-01-14

Applicant: 哈尔滨工程大学

Inventor： 宁慧 , 吴昊 , 谈亚洲 , 吴悦 , 吕志龙

IPC: G06F17/30

Abstract: 本发明提供的是一种主题网络爬虫系统的构建方法。(1)定义主题初始描述向量，设定相关度初始阀值、初始化URL队列；(2)从初始URL队列中依次获取URL进行爬取；(3)对URL进行文本分析；(4)对URL进行链接分析；(5)计算URL与主题的相关度；(6)将相关度大于相关度阈值的URL加入有序的URL队列，URL依照与主题向量的相关度高低排序，依次爬取，直至队列为空，对于每个爬到的网页，提取其中的子URL，返回到步骤(3)；(7)使用遗传算法进行遗传算法最优化；(8)Rocchio反馈模块对主题向量更新，并动态调整相关度阈值，继续爬取网页。本发明不需要事先准备大量的训练文本，速度快，适合处理海量的在线网页数据。

3.

发明公开
一种主题网络爬虫系统的构建方法失效

公开(公告)号：CN102073730A

公开(公告)日：2011-05-25

申请号：CN201110007710.3

申请日：2011-01-14

Applicant: 哈尔滨工程大学

Inventor： 宁慧 , 吴昊 , 谈亚洲 , 吴悦 , 吕志龙

IPC: G06F17/30

Abstract: 本发明提供的是一种主题网络爬虫系统的构建方法。(1)定义主题初始描述向量，设定相关度初始阀值、初始化URL队列；(2)从初始URL队列中依次获取URL进行爬取；(3)对URL进行文本分析；(4)对URL进行链接分析；(5)计算URL与主题的相关度；(6)将相关度大于相关度阈值的URL加入有序的URL队列，URL依照与主题向量的相关度高低排序，依次爬取，直至队列为空，对于每个爬到的网页，提取其中的子URL，返回到步骤(3)；(7)使用遗传算法进行遗传算法最优化；(8)Rocchio反馈模块对主题向量更新，并动态调整相关度阈值，继续爬取网页。本发明不需要事先准备大量的训练文本，速度快，适合处理海量的在线网页数据。

Patent Agency Ranking