Patent search ap:("哈尔滨工业大学(威海)") AND inv:"宫名" Page 1

1.

发明公开
一种基于期望列表的网页内容抽取方法无效

公开(公告)号：CN103440294A

公开(公告)日：2013-12-11

申请号：CN201310362840.8

申请日：2013-08-16

Applicant: 哈尔滨工业大学(威海)

Inventor： 王佰玲 , 谢虎成 , 黄俊恒 , 宫名 , 刘扬 , 詹春燕

IPC: G06F17/30

Abstract: 本发明公开了一种基于期望列表的网页内容抽取方法，使用bison和flex库将XPath表达式解析为链表结构；读取XML文件文本；将XPath链表的头节点加入到期望列表中；对于XML文本和XPath链表，根据状态机的状态，重复执行匹配行为。如果在期望列表中查询到有名称相同的项，则检查该项对应的链表节点是否有下一个元素。如果有，将下一个元素加入期望列表中。如果没有，表示XPath的匹配工作完成，将该节点作为结果返回。如果指针指向了标签的末尾，则期望列表入栈，清理上下文。如果指针指向了闭合标签的末尾，则期望列表出栈，还原上下文；当读取指针指向XML文件的末尾时，则结束。本发明跳过不必要的分析。

Patent Agency Ranking