-
公开(公告)号:CN104182482A
公开(公告)日:2014-12-03
申请号:CN201410382359.X
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30873 , G06F17/30867 , G06F17/30876
Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。
-
公开(公告)号:CN1787007A
公开(公告)日:2006-06-14
申请号:CN200510130688.6
申请日:2005-12-21
Applicant: 中国科学院计算技术研究所
IPC: G06Q40/00
Abstract: 本发明涉及网络信息处理技术领域,是一种在股评论坛中利用股评人对某只股票发表股评的前后股市行情的变化,来挖掘股评托的方法。本发明从股评论坛中抽取出某段时间内每个股评人的股评,然后以该股评出笼前后相应股票的行情序列为窗口,用股评托行为模式与窗口中的股评行情序列进行匹配,基于匹配的频率计算股评人是股评托的概率。在股评论坛中挖掘股评托,能够帮助个人投资者认清股评论坛中股评托的真面目,帮助证券业的管理者发现危险分子加以预警,甚至清除出行业队伍,从而保证证券市场的健康发展。目前对我国股评托的行为研究几乎没有。
-