一种基于期望列表的网页内容抽取方法

    公开(公告)号:CN103440294A

    公开(公告)日:2013-12-11

    申请号:CN201310362840.8

    申请日:2013-08-16

    Abstract: 本发明公开了一种基于期望列表的网页内容抽取方法,使用bison和flex库将XPath表达式解析为链表结构;读取XML文件文本;将XPath链表的头节点加入到期望列表中;对于XML文本和XPath链表,根据状态机的状态,重复执行匹配行为。如果在期望列表中查询到有名称相同的项,则检查该项对应的链表节点是否有下一个元素。如果有,将下一个元素加入期望列表中。如果没有,表示XPath的匹配工作完成,将该节点作为结果返回。如果指针指向了标签的末尾,则期望列表入栈,清理上下文。如果指针指向了闭合标签的末尾,则期望列表出栈,还原上下文;当读取指针指向XML文件的末尾时,则结束。本发明跳过不必要的分析。

Patent Agency Ranking