Abstract:
본 발명은 전자화된 일본어 문서를 인간 가독형 형태소 접속 정보와 자종(字種) 정보를 이용하여 최소의 의미를 가지는 형태소 단위로 분석하는 장치 및 그 방법에 관한 것으로서, 입력된 일본어 전자 문서를 자종 정보를 이용하여 구현된 유한 상태 자동장치에 의해 플래그먼트 단위의 문장으로 분리하고, 분리된 플래그먼트 단위의 문장을 일본어 형태소에 품사 정보를 부여하는 전자화된 일본어 사전과 인간 가독형 형태소 접속 정보를 이용하여 일본어 형태소 분석을 하는 일본어 형태소 분석 장치 및 방법을 제공함으로써, 긴 문장을 여러 개의 짧은 플래그먼트로 나누어 처리하여, 보다 효율적인 형태소 분석이 가능하고, 인간 가독성(Readibility)을 극대화하고 접속 정보의 유지와 추가를 용이하게 할 수 있는 효과가 있다.
Abstract:
PURPOSE: The apparatus for automatic translation using a sentence frame including a protector and a syntax node is provided to offer a translation function to the part for processing a natural language, by rapidly forming the natural translation sentence with high quality from an original sentence. CONSTITUTION: The original sentence is inputted to a morpheme analysis part(102) via an input part(101). The part(102) analyzes the morpheme of each word in the inputted original sentence. A speech-part determination part(103) decides the part of speech of the analyzed word. A fixed expression recognizing part(104) attaches a new part of speech to the determined part thereof. A protector finding part(105) attaches the designation of the protector to the part thereof and the word that server for an important role in the sentence. A partial syntax analysis part(106) analyzes the words between protectors and attaches a proper syntax tag to the analyzed words. An original sentence frame generation part(107) creates the original sentence frame for the inputted original sentence.
Abstract:
본 발명은 대용량의 말뭉치에서 자연어 처리의 전 분야에서 이용 가능한 말뭉치 특성을 반영하면서도 빈도가 낮게 나타나는 용어들을 점진적으로 획득할 수 있는 대용량 말뭉치를 위한 확장된 변이 규칙을 이용한 자동화된 점진적 용어 획득 장치 및 그 방법에 관한 것이다. 본 발명은 말뭉치로부터 용어를 입력하는 입력장치와, 상기 입력장치를 통해 입력되는 용어들에 대한 통계학적인 용례 추출을 수행하는 통계학적 용례 추출기와, 상기 입력장치를 통해 입력되는 용어들에 대한 반복 구문 추출을 수행하는 반복 구문 추출기와, 상기 통계학적 용례 추출기 및 반복 구문 추출기로부터 용어들이 추출될 때 불용어 사전에 존재하는 불용어를 포함하고 있는지를 검사하는 불용어 필터와, 상기 불용어 필터를 통해 걸러진 용어들에 대해 용어 제거 규칙을 적용하여 불필요한 용어들을 제거하는 불필요 용어 제거부와, 상기 불필요 용어 제거부를 거친 용어들에 대해 변이 규칙들을 적용하여 새로운 용어를 획득할 수 있도록 규칙을 해석하고 실행하는 변이 규칙 인터프리터와, 최종적으로 획득된 용어들을 제시하기 위한 인쇄� �, 인쇄장치, 표시 제어부 및 표시 장치를 포함하여 구성된 대용량 말뭉치를 위한 확장된 변이 규칙을 이용한 자동화된 점진적 용어 획득 장치를 제시한다.
Abstract:
본 발명은 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법에 관한 것이다. 본 발명은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에서 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 출력하는 수단으로 구성되며, 이들의 작용에 따라 그 방법도 구현된다. 본 발명에 의하면 대용량의 말뭉치로부터 연속, 비연속 형태의 다양한 용례들을 추출할 수 있기 때문에 말뭉치의 특성을 분석하고자 하는 분야나 다량의 용례를 이용하여 자연어 처리를 하고자 하는 분야를 포함하여 자연어 처리의 전 분야에서 기본 지식의 구축을 위해 광범위하게 사용될 수 있다.
Abstract:
PURPOSE: A converting apparatus for machine translation and converting method using the converting apparatus is provided to manage a structure converting rule easily by describing the structure converting rule according to a language phenomenon. CONSTITUTION: A dependent structure analyzing device(1) converts a phrase structure pass tree of an original language generated in a syntax analyzing stage into a dependent structure according to a dependent structure analyzing rule. A dependent structure converting device(2) converts a dependent structure tree of the original language into a dependent structure of an object language according to the dependent structure analyzing rule. A phrase structure generating device(3) converts the dependent structure tree of the object language into a phrase structure tree for an object language sentence according to an object language phrase structure generating rule and outputs a morphemic list. A compiler(4) generates a program for performing a structure converting function. An alternating language selecting device(5) performs a conversion of a vocabulary.
Abstract:
PURPOSE: A device and method for extracting example of use statistically for a large amount language batch are provided so that a whole field of a natural language process can be used for constructing a basic knowledge. CONSTITUTION: A device for extracting example of use statistically for a large amount language batch includes a device for producing a basic table in order to extract an example of use from a language batch. A candidate of example of use is determined from a device for determining an example of use. For management a memory and time efficiently, a shortened table producing device is used.
Abstract:
PURPOSE: A method and device for checking error of the part of speech using partial parsing is provided to descript a context used words as a normal expression, for preventing a tagging error generated from a part of speech tagger in a natural language process system. The preventer is provided, that a probability corrector recognizes a context of present words by use of a partial parsing and a rule for correcting probability, and to input a tagger based on the probability by correcting a probability value of the words according to each context used of the words according to executing sentences which are descripted on a rule for correcting probability. CONSTITUTION: A method and device for checking error of the part of speech using partial parsing comprises a pattern generator(5), a compiler(2), a probability corrector(6), and a tagger(7). The pattern generator(5) has each part of speech corresponded to inputted words and a corresponded probability information, and generates an input structure of a probable tagger. The compiler(2) generates a rule for recognizing context of sentences, by use of a rule for correcting probability predetermined variable probability information which the inputted words have according to a context. The probability corrector(6) performs the partial parsing, for deciding either applying to a word consisted of a sentence inputted the generated rule, and if applying, corrects a probability value according to a preset rule for correcting probability. The tagger(7) decides a part of speech consisted of the inputted sentence, by performing the tagger based on probability according to the corrected probability value.