一种混合PDF图书目录自动抽取算法

    公开(公告)号:CN103778141A

    公开(公告)日:2014-05-07

    申请号:CN201210404052.6

    申请日:2012-10-23

    Applicant: 南开大学

    CPC classification number: G06F17/2282 G06F17/2745

    Abstract: 本发明公开了一种混合PDF图书目录自动抽取方法,涉及信息抽取领域,XML数据的抽取分析任务,目录抽取问题。通过本发明,PDF图书目录不但被更准确的识别,而且相对目前现有的基于目录页内容分析的目录抽取方法,具有处理无目录页图书的目录的能力,而且通过获得的目录项的分析,完成了目录项的定位导航功能,并对目录项进行分级的操作,方便用户更好的理解图书的层级结构,完成了PDF图书的目录抽取建立任务,提升了用户的浏览体验。

Patent Agency Ranking