-
公开(公告)号:KR100762712B1
公开(公告)日:2007-10-02
申请号:KR1020050122613
申请日:2005-12-13
Applicant: 한국과학기술정보연구원
IPC: G06F9/45
Abstract: 본 발명은 전자문서 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙기반의 자동화 기법을 도입함으로써 과제관리 및 성과정보서비스에서 필요로 하는 방대한 양의 정보를 빠른시간 내에 정확하게 구축할 수 있는 규칙기반의 전자문서 변환방법 및 그 시스템을 제시한다.
본 발명에 의하면, 입력대상 문서는 데몬 형태의 워드2HML 변환엔진을 통해 HML이라는 중간형태의 XML 문서로 변환되고, HML 문서에 매핑 규칙을 적용함으로써 다양한 형태(표, 리스트, 특정 문자열 등)의 정보를 추출해 낼 수 있다. 상기 추출된 정보는 데이터베이스 입력을 위해 메모리나 외부 파일에 XML 형식의 자료 모양을 갖추고 있어서 별도의 처리기를 거쳐 데이터베이스(DB)에 저장된다. 따라서, 이러한 일련의 자동화된 방법은 기존의 웹 기반의 수동 입력 인터페이스를 이용한 정보 구축의 단점을 보완하기 위한 대체 입력 방법으로서 가시적인 효과를 보여줄 수 있다.
전자문서, 매핑규칙, 규칙문서, HML, XML, 정보추출-
公开(公告)号:KR1020070062800A
公开(公告)日:2007-06-18
申请号:KR1020050122613
申请日:2005-12-13
Applicant: 한국과학기술정보연구원
IPC: G06F9/45
CPC classification number: G06F17/227 , G06F17/2247 , G06F17/30917
Abstract: A method and a system for transforming e-documents based on a rule are provided to precisely construct an enormous amount of information required for a project management/achievement information service in a short time by applying rule-based automation to a process in extracting various types of information from the e-documents and making the extracted information a database. A Word2HML transformer(100) transforms the inputted e-document(22) into an HML(Hypertext Markup Language) document(32). An HML2XML transformer(200) generates an XML document(36) available for a database(28) by analyzing/extracting the information after applying a mapping document(34) to the HML document. An XML2DB part(22) processes data of the XML document and stores the data to the database. The Word2HML comprises an HML transformer(110) for transforms the inputted e-document of an HWP or DOC type into the HML document by using a HWP or DOC transformation OCX(OLE(Object Linking and Embedding) control eXtension) library(120,130). The HML2XML comprises an XML processing engine(210), an HWP2XML main processor(220), a file processor(230), and a log processor(240).
Abstract translation: 提供了一种基于规则转换电子文档的方法和系统,通过将基于规则的自动化应用于提取各种类型的过程来精确地构建项目管理/成就信息服务所需的大量信息 从电子文件中提取信息并将提取的信息提供给数据库。 Word2HML变换器(100)将输入的电子文档(22)转换成HML(超文本标记语言)文档(32)。 通过在将映射文档(34)应用于HML文档之后分析/提取信息,HML2XML变换器(200)生成可用于数据库(28)的XML文档(36)。 XML2DB部分(22)处理XML文档的数据并将数据存储到数据库。 Word2HML包括用于通过使用HWP或DOC变换OCX(OLE(对象链接和嵌入)控制扩展)库(120,130)将输入的HWP或DOC类型的电子文档转换成HML文档的HML变换器(110)。 HML2XML包括XML处理引擎(210),HWP2XML主处理器(220),文件处理器(230)和日志处理器(240)。
-