Abstract:
대용어 참조해소 시스템 및 대용어 참조해소 방법이 개시된다. 본 발명은 문서 내에서 대용의 기능을 담당하는 어휘인 대용어를 찾아내고, 문서 내에서 해당 대용어가 어떤 핵심개체를 가리키는지를 구별하는 참조해소 과정을 통해 과학기술문헌의 핵심개체인식의 재현율을 높이는 효과가 있다. 선행어, 대명사, 대용어, 대용대명사, 참조해소
Abstract:
A Korean morphology analysis system and a method thereof using a morpheme analysis unit supplying a morpheme analysis result and a database including a base analysis pre-stored domain are provided to perform one analysis of an exclamation analysis, an uninflected word analysis, a numerals analysis and not-registered word analysis. A dictionary management unit(114) manages database(116) including a pre-analyzed dictionary storage area. In case the morphological analysis-requested word is inputted, a morphological analyzing unit receives pre-analyzed dictionary search result corresponding to the morphological analysis request from a pre-control unit. The morpheme analysis unit provides the morpheme analysis result based on the analysis search result.
Abstract:
본 발명은 데이터베이스(DB)와 정보검색(IR) 통합을 위한 문서단위 동적 색인관리 특성을 갖는 정보검색 시스템 및 그 방법에 관한 것으로, 온라인으로 삽입, 삭제, 변경되는 문서의 포스팅 정보를 트랜잭션 방식으로 저장하는 보조색인저장기와; 상기 보조색인저장기에 저장된 포스팅 정보 중에서 미리 정해진 임계치 크기에 도달한 포스팅 정보를 주색인저장기로 이동시키는 색인펄싱(pulsing)장치; 및 상기 주색인저장기와 상기 보조색인저장기에 저장된 포스팅 정보를 사용하여 온라인으로 삽입, 변경, 삭제된 문서를 포함하여 원하는 정보를 검색하는 정보검색기;를 포함하여 구성함으로써, 데이터베이스(DB)와 정보검색(IR) 통합하여 문서단위 동적 색인관리를 할 수 있다. 데이터베이스(DB), 정보검색(IR), 통합, 문서, 동적, 색인관리, 포스팅정보
Abstract:
본 발명은 확장 마크업 언어로 작성된 XML 문서의 계층적 구조를 손상시키지 않고 유지시키면서 단층적인 구조를 지니는 단편화된 XML 문서로 변환시켜주는 XML 문서를 위한 정보검색 시스템 및 그 방법과 그 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것을 목적으로 한다. 상기 목적을 달성하기 위하여 본 발명은 본 발명은 확장 마크업 언어(XML)로 작성된 XML 원본문서를 위한 정보검색 방법에 있어서,(A) 상하구조로 형성된 복수의 계층들을 지니며 각각의 계층을 구성하는 복수의 노드들은 트리구조를 갖는 XML 원본문서가 복수의 변경노드들이 단층적인 트리구조를 형성하여 이루어진 XML 변경문서로 변환되는 단계, (B) 상기 (A) 단계에 의해 변환된 XML 변경문서가 저장되는 단계, (C) 상기 (B) 단계에 저장된 XML 변경문서에 기재된 정보 중에서 원하는 정보가 기재된 상기 변경노드가 검색되는 단계 및 (D) 상기 (C) 단계에 의하여 검색된 상기 변경노드가 상기 XML 원본문서가 지니는 계층적인 트리구조에 대응되어 출력되는 단계를 포함하여 구성된 것을 일 특징으로 한다. 상기와 같은 구성에 의해 본 발명은 XML 문서의 구조적 정보를 상실하지 않고 원문의 구조 정보를 유지하면서 XML 문서를 관리할 수 있도록 하며, 효과적인 질의처리를 돕고 빠른 구조검색이 가능토록 하고, 그 검색결과를 사용자에게 입체적 검색결과로 제공하는 효과를 지닌다. XML 원본문서, XML 변경문서, 계층, 단층, 트리구조, DTD, 단편화 알고리즘
Abstract:
PURPOSE: A MapReduce based dispersion parallel entity extracting system and a method thereof are provided to guarantee shortened entity extracting response time by extracting entity based on a MapReduce framework. CONSTITUTION: A master server device(100) distributes target document data to slave server devices(200a-200N) by dividing an input document into the target document data. The slave server device converts the target document data into a data format which is able to be processed in a MapReduce framework, divides the content of the converted document into sentences, and divides the divided sentences into construction units. The slave server device extracts the combination of the construction units as entity candidates and defines a relationship between the extracted entities. [Reference numerals] (100) Master server; (200a) Slave server 1; (200b) Slave server 2; (200N) Slave server N;
Abstract:
PURPOSE: A system for extracting relation between technical terms from bulk bibliographic information using a verb base pattern based on tama is provided to use a TAMA(Tech Association Mining Appliance) which recognizes relation between a technical term included in text and the technical terms, thereby extracting a verb based pattern centric relation from an abstract and bibliography database over science technique field. CONSTITUTION: If sentences extracted from database by using IIFP(Integrated Information & Function Provider) for STM(Scientific Tech Mining)(190) is applied, a TRD(Target Relation Determiner)(200) performs detailed analysis process by a sentence unit. If a candidate relation set is generated based on a conceptualized lexical clue, the TRD determines a core relation among the relations. If a final target relation is determined in the TRD and whole preparation for actual relation extraction is prepared, a SSREE(Semi-Supervised Relation Extractor)(220) and a SREE(Supervised Relation Extractor)(230) are performed.
Abstract:
본 발명은 전자문서 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙기반의 자동화 기법을 도입함으로써 과제관리 및 성과정보서비스에서 필요로 하는 방대한 양의 정보를 빠른시간 내에 정확하게 구축할 수 있는 규칙기반의 전자문서 변환방법 및 그 시스템을 제시한다. 본 발명에 의하면, 입력대상 문서는 데몬 형태의 워드2HML 변환엔진을 통해 HML이라는 중간형태의 XML 문서로 변환되고, HML 문서에 매핑 규칙을 적용함으로써 다양한 형태(표, 리스트, 특정 문자열 등)의 정보를 추출해 낼 수 있다. 상기 추출된 정보는 데이터베이스 입력을 위해 메모리나 외부 파일에 XML 형식의 자료 모양을 갖추고 있어서 별도의 처리기를 거쳐 데이터베이스(DB)에 저장된다. 따라서, 이러한 일련의 자동화된 방법은 기존의 웹 기반의 수동 입력 인터페이스를 이용한 정보 구축의 단점을 보완하기 위한 대체 입력 방법으로서 가시적인 효과를 보여줄 수 있다. 전자문서, 매핑규칙, 규칙문서, HML, XML, 정보추출