Abstract:
PURPOSE: A method for extracting a hierarchical structure in text contents of a structural calculation document is provided to convert unstructured text document information into a semi-structured XML document. CONSTITUTION: String information is classified by heading symbols, headings, contents, and references according to each row from a structural calculation document of a text file form. The classified information is successively saved in a temporary table. Hierarchy information where each title is located in a tree structure of a document is assigned using information for the heading symbols of the saved temporary table. An XML file is generated using the hierarchy information and the saved information in the temporary table.
Abstract:
본 발명은 텍스트 파일 형식의 구조계산서로부터, 각 행에 따라 문자열 정보를 머리기호, 제목, 내용, 참고문헌으로 구분하여 임시 테이블에 순차적으로 저장하는 단계; 저장된 임시 테이블의 머리기호에 대한 정보를 이용하여, 각 제목이 문서의 트리구조에서 위치하는 계층정보를 부여하는 계층정보 부여단계; 계층정보와 임시 테이블에 저장된 정보들을 이용하여 XML 파일을 생성하는 XML 파일 생성단계;를 포함하는 구조계산서 텍스트 정보의 계층 구조 추출 방법을 제시함으로써, 토목분야의 대표적인 엔지니어링 문서라 할 수 있는 구조계산서의 비 구조화된 텍스트 문서정보를 트리 형태의 준 구조화된 XML 문서로 쉽게 변환할 수 있도록 한다. 토목, 구조계산서, 트리, 변환