Abstract:
본 발명은 기존의 품사문맥 또는 어절어휘 규칙에 의한 태깅과는 달리 분석대상 어절 주변의 대표 형태소 어휘문맥 정보에 기반하여 통계적 방법으로 대상어절의 태깅 오류를 정정하는 대표 형태소 어휘문맥에 기반한 통계적 태깅 오류 정정 장치 및 방법에 관한 것이다. 본 발명은 원시문장에 대해 품사문맥을 기반으로 형태소 분석 및 태깅을 하는 단계와, 각 형태소 어휘에 대해 대표어휘를 결정하고 분석대상 어절에 대한 대표 형태소 어휘문맥들을 생성하는 단계와, 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 대표 형태소 어휘문맥들의 확률을 산출하고, 이들을 결합하여 그 결과값이 가장 큰 후보를 최적 형태소후보로 선정하는 단계와, 최적 형태소후보로서 품사문맥 기반의 태깅 오류를 정정하는 단계로 이루어진다.
Abstract:
본 발명은 동사구 패턴에 기반한 한중 자동 번역 시스템에서 '하다' 동사의 번역 장치 및 방법에 관한 것으로, 본 발명의 목적은 'X를 하다' 구문의 처리를 위한 별도의 '하다' 동사의 동사구 패턴을 구축하지 않게 하여 시스템에서 요구되는 동사구 패턴의 수를 줄이면서도 고품질의 번역이 가능하게 하는 것이다. 본 발명에 따른 한국어 구조 분석기는 입력 결과에서 'X를 하다' 구문이 존재하는 지를 인식하고, 이를 'X하다' 구문으로 바꾸는 제 1단계; 데이터베이스에서 'X하다' 동사구 패턴을 가져와서 제1단계의 입력으로 들어온 'X를 하다' 구문의 제약조건을 만족하는 최적의 'X하다' 동사구 패턴을 선택하는 제 2단계; 'X하다' 동사구 패턴을 이용하여 한국어 입력문의 구문구조를 분석하는 제 3단계; 제 3단계에서 구문 분석된 'X하다' 구문의 결과를 'X를 하다' 구문 구조로 치환하는 제 4단계를 수행한다. 또한, 본 발명에서의 대역문 변환기는 이를 해결하기 위해 'X'가 관형절의 수식을 받는 'X를 하다' 구문이 입력되었는지를 인식하는 제 5단계; 수식을 받는 경우 'X를 하다' 구문이 어떤 유형에 속하는지를 판단하는 제 6단계; 'X를 하다'의 유형에 따라 관형어/절의 처리를 수행하는 제 7단계를 수행한다.
Abstract:
A hybrid automatic translation device for generating a high quality translation result of high coverage combining a rule-based method and a translation pattern method, a method thereof, and a computer-readable recording medium recording a program are provided to minimize ambiguity of parsing and a side effect of sentence division, and increase correctness of a phrasal pattern for translation pattern matching by extracting only the phrase unit result from a parsing result. A morpheme parser(101) parses morphemes from an input sentence. A tagger(102) determines each part of speech for a morpheme parsing result. A parser(103) parses a tagging result and outputs a parsing tree. A phrasal pattern generator(104) generates the phrasal pattern by extracting a chunking result of the phrases included in a sub category of verbs in the parsing tree. A phrasal pattern translator(105) performs translation for the phrasal pattern by using a translation pattern. A clause structure parser(106) checks a structure of a clause unit for the sentence in case that the translation pattern matching for the phrasal pattern is failed. A partial pattern translator(105-1) recognizes a partial phrasal pattern for each sub-clause by referring to a clause structure parsing result and performs the translation by using a partial translation pattern.
Abstract:
PURPOSE: A device and a method for analyzing a complex morpheme formed with multiple words are provided to enhance analysis correctness by applying a syllable or consonant/vowel base morpheme analysis and the complex morpheme analysis as a 2-step, excluding use of complex morpheme connection information, and additionally constructing spacing information. CONSTITUTION: A previously analyzed dictionary database stores a word unit morpheme analysis result by previously performing the word unit morpheme analysis of a Korean sentence. A preprocessor(202) determines application of a word-inside analysis by receiving/normalizing the sentence and using the previously analyzed dictionary database. A word-inside morpheme analyzer(204) performs the morpheme analysis in the word by using a word combination rule and an analysis algorithm. A word-outside morpheme analyzer(206) performs a word-outside morpheme analysis by using the spacing information for the input sentence. A part tagging part(208) performs morpheme tagging by using context tagging data and vocabulary tagging data.
Abstract:
PURPOSE: A passive and causative sentence structure analysis system and method is provided to enhance the case information determination performance by using the case frames, and to reduce the case frame number. CONSTITUTION: The system comprises a morpheme analyzer(10), a sentence normalizer(20), an active type case frame(30), a case frame converter(40), a case frame applicator(50), and a sentence structure analysis tree generator(60). The morpheme analyzer(10) analyzes the morphemes of an input passive or causative type sentence written in Hangul. The sentence normalizer(20) converts the morpheme analysis result into an active type sentence. The active type case frame(30) determines the case information based on the sentence normalization result of the sentence normalizer(20). The case frame converter(40) automatically converts auxiliary words and verb conjugations of the active type sentence into those of corresponding passive or causative type sentence for generating a passive or causative type conversion case frame. The case frame applicator(50) compares the morpheme analysis result with the conversion case frame, compares the sentence normalization result with the active type case frame, gives a weighting factor to a case frame according to a comparison result, and determines the case frame with the highest weighting factor as a final case frame. The sentence structure analysis tree generator(60) determines the case information based on the final case frame, analyzes the input passive or causative type sentence, and generates a sentence structure analysis result.
Abstract:
본 발명은 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치 및 방법에 관한 것으로, 자막 문장의 문체 및 분야를 자동으로 인식하고 이에 적합한 특화된 번역 모듈 및 번역 지식을 동적으로 구성하여 해당 문장에 적합한 최적의 번역자원으로 자동번역을 수행함으로써, 다양한 전문분야에 대해서 번역 성능 향상을 도모할 수 있는 것을 특징으로 한다. 본 발명에 따르면, 입출력 단자를 통해 다른 미디어장치와 자유롭게 연동이 가능한 분야 적응형 휴대용 방송자막 기계번역 장치를 구현할 수 있을 뿐만 아니라, 다양한 분야의 문장에 대하여 번역 성능의 향상을 도모할 수 있는 효과가 있다. 기계번역 장치, 방송자막, 번역패턴
Abstract:
A method and an apparatus for automatically selecting a translated word for a new coined word by using a bilingual corpus are provided to construct efficiently a bilingual translation dictionary. A method and an apparatus for automatically selecting a translated word for a new coined word comprises the following several steps. A morpheme and a structure analysis are performed with respect to sentences made of an original language, a lexical category analysis for words included in the sentences is analyzed and a grammar relation among words is determined(110). A unregistered word, which does not exist in a bilingual translation dictionary, is extracted from words in sentences made of the original language(120). Neighboring words related to the extracted unregistered word are selected from the sentences made of the original language(130). Translated words corresponding to the neighboring words are eliminated from translated sentences made of a target language, and remaining words are selected as translated words for the unregistered words(140). The unregistered words and the selected translated words are registered in the bilingual translation dictionary as new entries(150).
Abstract:
A device and a method for analyzing syntax by recognizing a parallel structure are provided to divide excessively long sentences found in a patent document with high correctness, and raise syntax analysis efficiency/correctness by dividing the sentence into more syntaxes. A chunking part(100) tags and partially parses an inputted raw English document. A node recognizer(200) recognizes a parallel node starting point of the raw document. A similarity calculator(300) calculates similarity weight among parallel nodes based on the similarity of vocabulary/part-of-speed of a starting word, a head, and the word next to the head. A parallel structure recognizer(400) searches all available parallel structures based on the calculated similarity weight, calculates the weight of the searched parallel structures, and recognizes the parallel structure of the raw document based on the calculated weight of the parallel structure. A parallel structure parser(500) parses the recognized parallel structure. A whole sentence parser(600) parses the whole raw sentence again which is inputted from a parsing result.
Abstract:
본 발명은 (a)제1 어휘공기정보 지식베이스와 명사 의미 코드 사전을 이용하여 중의성이 없는 제1 의미공기정보 지식베이스와 중의성이 존재하는 제2 의미공기정보 지식베이스를 구축하고, (b)상기 제1 및 제2 의미공기정보 지식베이스에 포함된 각 어휘공기정보의 빈도수를 이용하여 제2 어휘공기정보 지식베이스를 구축하고, (c)상기 제1 및 제2 의미공기정보지식베이스에서 상기 제2 어휘공기정보 지식베이스로 이동한 어휘공기정보를 각각 제거하여 제3 및 제4 의미공기정보 지식베이스를 구축하고, (d)상기 구축된 제3 및 제4 의미공기정보 지식베이스를 이용하여 상기 제4 의미공기정보 지식베이스에 존재하는 중의성을 감소시켜 중의성이 감소된 제5 의미공기정보 지식베이스 및 중의성이 없는 제6 의미공기정보 지식베이스를 구축하고, (e)상기 제5 및 제6 의미공기정보 지식베이스에 포함된 각 어휘공기정보의 빈도수를 조정하여 최종 의미공기정보 지식베이스를 구축하는 것으로서, 구조적 중의성 해소와 동시에 명사의 의미를 결정할 수 있으므로, 구조적 중의성 해소의 정확성 향상에 따라, 의미적 중의성 해소 정확도를 향상시킬 수 있다. 코퍼스, 의미공기정보, 어휘공기정보, 중의성
Abstract:
A method and a device for constructing a semantic co-occurrence information knowledge-base are provided to minimize information distortion of the semantic co-occurrence information by using lexical co-occurrence information and a noun meaning code dictionary. A morpheme analyzer(110) outputs a morpheme analysis result from a corpus(100). A lexical co-occurrence information generator(120) constructs the lexical co-occurrence information knowledge-base(125) from the morpheme analysis result. A lexical co-occurrence information generator(140) constructs the semantic co-occurrence information knowledge-base(145) by using the noun meaning code dictionary(130) to relax data shortage of the lexical co-occurrence information knowledge-based constructed by the lexical co-occurrence information generator.