Abstract:
PURPOSE: An apparatus and method for storing/restoring SGML/XML entity is provided to prevent a waste of an auxiliary memory and to store SGML/XML document more rapidly and to restore entities stored in a database in various forms into the original entities in accordance with the form of each entity by sharing an entity declaration being referred to a plurality of documents. CONSTITUTION: A user interface(100) comprises a document input interface(110) requesting SGML/XML DTD and an input of a document to a SGML/XML document managing system(200), and a document output interface(120) requests a restore of a document by transmitting a storing portion identifier to the SGML/XML document managing system(200) and presents data of the document to a user. The elements of the SGML/XML document managing system(200) are described as follows. A SGML/XML parser(210) provides a verification of an error and a parsing result to a main memory as a tree form by performing a parsing with respect to the SGML/XML DTD and the document. A SGML/XML document storing device(220) receives the parsing result and stores an entity referring portion included in the document. An entity storing device(230) stores an entity declaration of the SGML/XML DTD. A SGML/XML entity managing device(240) receives the storing portion identifier from a client and returns data of an entity object corresponded to the storing portion identifier. A database system interface(250) is provided to interwork to a database system(300). The database system(300) charges a role of the lower storing system. A SGML/XML database(400) stores the document and the entity.
Abstract:
PURPOSE: The apparatus for automatic translation using a sentence frame including a protector and a syntax node is provided to offer a translation function to the part for processing a natural language, by rapidly forming the natural translation sentence with high quality from an original sentence. CONSTITUTION: The original sentence is inputted to a morpheme analysis part(102) via an input part(101). The part(102) analyzes the morpheme of each word in the inputted original sentence. A speech-part determination part(103) decides the part of speech of the analyzed word. A fixed expression recognizing part(104) attaches a new part of speech to the determined part thereof. A protector finding part(105) attaches the designation of the protector to the part thereof and the word that server for an important role in the sentence. A partial syntax analysis part(106) analyzes the words between protectors and attaches a proper syntax tag to the analyzed words. An original sentence frame generation part(107) creates the original sentence frame for the inputted original sentence.
Abstract:
본 발명은 대용량의 말뭉치에서 자연어 처리의 전 분야에서 이용 가능한 말뭉치 특성을 반영하면서도 빈도가 낮게 나타나는 용어들을 점진적으로 획득할 수 있는 대용량 말뭉치를 위한 확장된 변이 규칙을 이용한 자동화된 점진적 용어 획득 장치 및 그 방법에 관한 것이다. 본 발명은 말뭉치로부터 용어를 입력하는 입력장치와, 상기 입력장치를 통해 입력되는 용어들에 대한 통계학적인 용례 추출을 수행하는 통계학적 용례 추출기와, 상기 입력장치를 통해 입력되는 용어들에 대한 반복 구문 추출을 수행하는 반복 구문 추출기와, 상기 통계학적 용례 추출기 및 반복 구문 추출기로부터 용어들이 추출될 때 불용어 사전에 존재하는 불용어를 포함하고 있는지를 검사하는 불용어 필터와, 상기 불용어 필터를 통해 걸러진 용어들에 대해 용어 제거 규칙을 적용하여 불필요한 용어들을 제거하는 불필요 용어 제거부와, 상기 불필요 용어 제거부를 거친 용어들에 대해 변이 규칙들을 적용하여 새로운 용어를 획득할 수 있도록 규칙을 해석하고 실행하는 변이 규칙 인터프리터와, 최종적으로 획득된 용어들을 제시하기 위한 인쇄� �, 인쇄장치, 표시 제어부 및 표시 장치를 포함하여 구성된 대용량 말뭉치를 위한 확장된 변이 규칙을 이용한 자동화된 점진적 용어 획득 장치를 제시한다.
Abstract:
본 발명은 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법에 관한 것이다. 본 발명은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에서 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 출력하는 수단으로 구성되며, 이들의 작용에 따라 그 방법도 구현된다. 본 발명에 의하면 대용량의 말뭉치로부터 연속, 비연속 형태의 다양한 용례들을 추출할 수 있기 때문에 말뭉치의 특성을 분석하고자 하는 분야나 다량의 용례를 이용하여 자연어 처리를 하고자 하는 분야를 포함하여 자연어 처리의 전 분야에서 기본 지식의 구축을 위해 광범위하게 사용될 수 있다.
Abstract:
PURPOSE: A retrieval performance measurement method for a key fact based text retrieval model is provided to calculate a weight value on a document and a query language and give the document a priority based on a similarity between the document and the query. CONSTITUTION: A retrieval performance measurement method for a key fact based text retrieval model comprises the steps of extracting key words from a set of documents and queries(S01), asking if setting a variable value of retrieval performance assessment elements on the extracted result(S02), if the answer is positive, giving the variable value of retrieval performance assessment elements on a new document size, a key fact frequency within the document, and a key fact weight constant(S03), making a document and a query vector including the assessment variable value(S04), calculating a key fact weight value of the document and the query by a key fact weight equation(S05), obtaining a retrieval performance result of the key fact based text retrieval model for searching for an optimal retrieval model according to characteristics of a retrieval target document domain(S06), giving the documents a priority number(S07), and assessing the retrieval model(S08).
Abstract:
PURPOSE: A device and method for extracting example of use statistically for a large amount language batch are provided so that a whole field of a natural language process can be used for constructing a basic knowledge. CONSTITUTION: A device for extracting example of use statistically for a large amount language batch includes a device for producing a basic table in order to extract an example of use from a language batch. A candidate of example of use is determined from a device for determining an example of use. For management a memory and time efficiently, a shortened table producing device is used.
Abstract:
본 발명은 3차원 모델링 및 애니메이션, 가상 현실, 방송, 가상 스튜디오, 영화, 그리고 문서 작성 등에서 효과적인 3차원 폰트를 손쉽게 지원하기 위하여, 도우즈의 트루 타입 폰트로부터 3차원 폰트를 자동 생성할 수 있는 3차원 폰트 생성 기법과, 상기 3차원 폰트 생성 기법을 이용하여 여러 글꼴의 3차원 폰트 데이타 세트를 생성할 수 있는 3차원 한글/한자 폰트 제작을 위한 3차원 폰트 생성 기법에 관해 개시된다.
Abstract:
본 발명은 명사간의 의미애매성 해소에 사용되는 관련동사를 대량의 코퍼스로 부터 자동으로 추출하여 사람의 주관성을 적극 배제할 수 있으며, 신뢰도가 높은 정보를 구축할 수 있는 의미기반 정보검색을 위한 관련동사의 검색 방법에 관한 것이다. 최근 정보검색 분야에서 한글 자연어처리 기술은 형태소 분석과 구문 분석을 통해 품사의 식별과 원형 그리고 문장 내에서의 역할 등을 상당 수준 검출할 수 있게 되었다. 그러나 이러한 문장 자체의 정보만으로는 검색의 정확성과 재현율을 사람이 생각해 낼 수 있는 수준까지 끌어올리기에는 한계가 있다. 또한 이러한 정보는 자연어처리 분야의 응용 시스템에서 명사간의 의미 애매성을 해소하는데 사용하고 있지만(시소러스, 의미망등), 이런 정보를 구축하는데는 많은 문제점을 갖고 있다. 현재까지는 관련동사에 대한 정보를 순전히 사람을 통한 수작업에 의하여 구축하였는데 이는 구축하는 사람의 갖고 있는 일반 상식수준에 상당히 관련된 문제이기 때문에 구축된 정보의 신뢰도는 상당히 낮은 수준이었다. 본 발명은 상술한 문제점을 해소하고자 명사간의 의미애매성 해소에 사용되는 관련동사를 대량의 코퍼스로 부터 자동으로 추출하여 사람의 주관성을 적극 배제하고, 신뢰도가 높은 정보를 구축할 수 있는 관련동사의 검색 방법을 제안한다.
Abstract:
본 발명은 자연언어 정보 검색의 어의 모호성 해소 방법에 관한 것이다. 최근에는 무수한 문서 정보를 처리하여 사용자의 요구에 해당하는 정보만을 추출하여 사용자에게 제공하여 주는 정보 검색 시스템이 널리 이용되고 있다. 그러나 일반적으로 방대한 문서의 집합에서 정보 요구자가 원하는 문서를 추출하기란 매우 어려우며, 또한 한국어 정보 검색 시스템에는 한국어의 특성상 동음이의어로 인한 단어 자체에서 나오는 어의 모호성으로 자연언어 색인시나 검색시에 잘못된 결과를 초래하는 문제점이 있다. 이러한 문제점을 해결하기 위하여 본 발명에서는 사용자에게 최종적으로 순서화된 문서를 제시하기 이전에 1차로 검색된 문서들에 대하여 질의의 키워드와 1차 검색된 문서내의 키워드들의 관계를 자동으로 구축된 상호정보망을 이용하여 다시한번 2차로 보다 의미적인 관련성 정도에 따라 재 순서화 하여 검색 결과를 제시하므로써 정보 검색의 효율성을 향상시킬 수 있는 자연언어 정보 검색의 어의 모호성 해소 방법이 제시된다.
Abstract:
본 발명은 언어처리에 필수적인 명사사전을 구축할 시, 애매성 해소에 처리되는 관련명사 구축기를 대량의 코퍼스를 이용하여 객관적 측면으로 구축하는 의미기반 정보검색을 위한 관련명사의 검색 방법에 관한 것이다. 최근 정보검색 분야에서 한글 자연어처리 기술은 형태소 분석과 구문 분석을 통해 품사의 식별과 원형 그리고 문장 내에서의 역할 등을 상당 수준 검출할 수 있게 되었다. 그러나 이러한 문장 자체의 정보만으로는 검색의 정확성과 재현율을 사람이 생각해 낼 수 있는 수준까지 끌어올리기에는 한계가 있다. 명사에 대한 정보는 단어 자체의 의미 이외에 여러 가지 종류가 있는데 이들 정보는 명사들 사이에 복잡한 관계를 내포하고 있다. 그러나 이러한 관련명사를 구축하는데 있어서는 많은 문제점을 갖고 있다. 관련명사를 일반적 지식을 가지고 있는 사람에 의하여 구축할 시 그 사람의 상식수준, 환경, 그리고 그가 지니고 있는 전문 지식 등에 의한 주관적인 자료가 될 수 있다는 것이다. 따라서, 본 발명은 언어처리에 필수적인 명사사전을 구축함에 있어, 애매성 해소에 처리되는 관련명사 구축기를 대량의 코퍼스를 이용한 객관적 측면에서 즉, 구축하는 사람의 주관적 사고를 최대한 배제할 수 있는 정보검색을 위한 관련명사의 검색 방법을 제안한다.