Abstract:
본 발명은 규칙 기반 방식에서의 모호성 문제와 번역 패턴 방식에서의 패턴 생성 및 커버리지 문제를 해결하기 위해 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 그 기록 매체에 관한 것이다. 본 발명에 따른 자동번역 장치는, 입력 원문에 대해 형태소를 분석하고 품사를 결정하는 형태소 분석 및 태깅 수단; 태깅 결과에 대해 구문 분석을 수행하여 파싱 트리를 출력하는 구문분석 수단; 파싱트리에서 하위범주의 구 청킹 결과만을 추출하여 구문패턴을 생성하는 구문패턴 생성 수단; 번역 패턴을 이용하여 상기 구문패턴에 대한 번역을 시도하는 구문패턴 번역 수단; 상기 구문패턴에 대한 번역패턴 매칭에 실패한 경우, 절구조 분석을 하는 절구조 분석 수단; 및 절구조 분석 결과에 따라 부분 구문패턴의 패턴번역을 수행하여 최종 번역결과를 출력하는 부분패턴 번역 수단;을 포함하는 것을 특징으로 한다 파싱, 청킹, 커버리지, 구문패턴, 부분 패턴번역, 절구조 분석
Abstract:
PURPOSE: A sentence structure analyzing method is provided to parse each sentence by the unit of a clause, and to analyze a total sentence for translating the sentence in a machine translation system so that it enhances a translation quality. CONSTITUTION: The method comprises several steps. An original sentence is input, a syntax pattern generator transmits the original sentence to a morpheme analyzer and a tagger, and a syntax pattern is generated via a morpheme analysis, a tagging and a partial sentence parsing(S101). A clause structure parsing is performed for the generated syntax pattern from a sentence end to a sentence top(S102). A short sentence recognition is performed via a start point sensing, an end point sensing, and a short sentence reduction(S103). A rule matching process for each clause is performed in order to check whether there exists a rule matched with a current syntax pattern(S104). A combination candidate set between clauses is generated(S105). A clause structure tree for all the possible combination sets is generated, a weight value for each tree is calculated, and each candidate set is arranged on a basis of the calculated weight value(S106).
Abstract:
A device and a method for segmenting an English sentence are provided to improve translation accuracy of machine translation and build a full text database from a simple English raw corpus for the machine translation for an English patent document. An input processor(100) segments paragraphs from an inputted English patent document. A token segmentation part(200) segments each word included in the paragraph into a token and sets a type of the token. A sentence segmentation part(300) segments a patent sentence by using the segmented token and the token type as input for an abbreviation database(610) and a proper noun database(620). A sentence segmentation knowledge builder(700) builds the abbreviation database and the proper noun database from a patent document raw corpus automatically. A sentence transformer(400) transforms an asyntactic patent sentence segmented in the sentence segmentation part by using a sentence transformation rule database(630). An output processor(500) outputs the segmented and transformed patent sentence as a result.
Abstract:
본 발명은 본 발명은 한국어를 원문으로 하는 특허 문서에서 빈번히 등장하는 전문용어의 대역어 선정을 위해 구축되는 대역어 사전의 정보를 자동으로 생성하여 제시함으로써 수동으로 구축되던 대역어 사전의 구축 작업을 반자동화하여 대역어 사전 구축의 효율성을 높이기 위한 장치 및 방법에 관한 것으로, 특허문서에서 전문용어를 구성하는 단위 명사 및 접사의 대역어 정보를 이용하여 복합명사형 전문용어 대상 엔트리와 대역어를 추출하는 단계와, 상기 추출된 복합명사형 전문용어 대상 엔트리 및 대역어에서 미등록 단일명사 전문용어의 대역어 후보자를 선정하는 단계와, 상기 대역어 후보자가 없는 경우에 수동 구축을 위해 해당 전문용어의 예문을 추출하여 제시하는 단계를 포함하여 이루어지는데 있다. 자동번역, 전문용어 추출, 특허 문서 번역, 대역어 선정
Abstract:
A statistical HMM(Hidden Markov Model) part-of-speech tagging apparatus and method capable of being applied to a new domain without a tagged domain corpus are provided to select a lexicon with lexical probability varied according to a domain to which the lexicon is applied, and update the lexical probability according to the domain to improve tagging accuracy without having a tagged domain corpus in a specific domain. Tagging probability information is learnt from a previously tagged corpus to construct a lexical/part-of-speech/contextual probability information database and a lexical probability information database(S210). The lexical probability information database is domain-dependently leant and updated based on a raw corpus of an application domain(S220). Morpheme analysis is performed on an input sentence on the basis of a morpheme analysis dictionary database(S240). Statistical part-of-speech tagging is carried out on the morpheme analysis result based on the lexical/part-of-speech/contextual probability information database and the updated lexical probability information database(S250). An error in the tagging result is corrected according to a tagging error correction rule database(S260).
Abstract:
A method and a device for automatically generating a compound noun translation using translation co-occurrence/probability information of a translation dictionary are provided to solve semantic disambiguation and synonymous translations by automatically extracting the translation co-occurrence/probability information from the dictionary and selecting the translation based on the extracted information. A translation co-occurrence and probability information extractor(107,108) respectively extracts the translation co-occurrence and probability information from the translation database(106). A compound noun extractor(102) extracts and dissolves the compound noun into words of a noun unit. A context-based translation selector(103) selects the highest context probability translation for each word based on the translation co-occurrence information. A probability-based translation selector(104) selects the highest probability translation for each word based on the translation probability information. A compound noun translation generator(105) generates the translation of the extracted compound noun by combining the selected translations.
Abstract:
본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치는 전문용어 사전에서 단일 명사 전문용어와 복합 명사 전문용어를 분리하는 단계; 상기 복합 명사 전문용어에 소정의 품사를 가지는 단어를 부착하여 부분 문장을 생성하는 단계; 상기 단일명사 전문용어와 형태소 분석 기본 사전을 기초로 상기 부분문장의 형태소를 분석하는 단계; 및 상기 분석결과 상기 부분생성된 문장이 단일 명사 이외의 품사로 해석될 가능성의 유무로 상기 복합 명사의 등록 여부를 결정하는 단계;를 포함하는 것을 특징으로 하며, 형태소 분석 사전에 등재가 요구되는 복합 명사 전문용어 엔트리를 재분석하여 복합 명사 전문용어 삭제에 따른 분석 모호성 발생을 판단하고, 이에 따른 분석 사전 등재 대상 전문용어 엔트리를 선정하여 대용량 전문용어에 의해 크기가 커지는 분석 사전의 크기를 효과적으로 축소하면서 분석 정확률은 유지할 수 있는 시스템 효율성을 향상시키는 효과를 가져올 수 있다.
Abstract:
본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치는 전문용어 사전에서 단일 명사 전문용어와 복합 명사 전문용어를 분리하는 단계; 상기 복합 명사 전문용어에 소정의 품사를 가지는 단어를 부착하여 부분 문장을 생성하는 단계; 상기 단일명사 전문용어와 형태소 분석 기본 사전을 기초로 상기 부분문장의 형태소를 분석하는 단계; 및 상기 분석결과 상기 부분생성된 문장이 단일 명사 이외의 품사로 해석될 가능성의 유무로 상기 복합 명사의 등록 여부를 결정하는 단계;를 포함하는 것을 특징으로 하며, 형태소 분석 사전에 등재가 요구되는 복합 명사 전문용어 엔트리를 재분석하여 복합 명사 전문용어 삭제에 따른 분석 모호성 발생을 판단하고, 이에 따른 분석 사전 등재 대상 전문용어 엔트리를 선정하여 대용량 전문용어에 의해 크기가 커지는 분석 사전의 크기를 효과적으로 축소하면서 분석 정확률은 유지할 수 있는 시스템 효율성을 향상시키는 효과를 가져올 수 있다.
Abstract:
본 발명은 스타일 번역 처리시스템 및 방법에 관한 것으로서, 원문 문서에 대한 스타일을 인식하는 스타일 인식수단; 상기 스타일 인식수단으로부터 부여받은 스타일 인자를 모든 원문 문장들에 대해 형태소 분석을 수행하는 형태소 분석수단; 상기 형태소 분석수단에 의해 분석된 형태소 분석 결과에 대해 구문 분석을 수행하는 구문 분석수단; 상기 형태소 분석 및 구분 분석 결과 생성된 구문 트리에 대해 일반 번역 패턴을 이용하여 기 저장된 원문부 패턴과 매칭을 실시한 후 대역부 패턴을 출력하는 패턴 번역수단; 상기 패턴 번역수단의 결과에 대해 스타일 번역패턴을 이용해서 스타일 번역을 수행하는 스타일 번역수단; 및 상기 스타일 번역수단에서 원문 문서로 전달된 스타일 인자를 번역 문서에 반영하여 번역문서를 출력하는 형태소 생성수단;을 통해 스타일 번역방법을 제공한다. 번역문, 스타일,
Abstract:
본 발명에서는 기존의 형태소 품사를 태깅하는 형태소 분석장치 또는 의미 태깅 후보를 제시하여 의미 태깅을 반자동적으로 지원하는 의미 말뭉치 구축장치와는 달리 정보 검색 및 자동 번역과 같은 한국어 정보처리 응용 시스템에 사용할 수 있는 국소 구문관계 및 의미 공기사전에 기반한 명사의 형태소 자동 의미 태깅을 목적으로 한다. 본 발명에서는 종래의 의미 모호성 해소 방법과 달리 기존의 의미 모호성 해소보다 의미 결정 정확성을 향상시킬 수 있도록 구문 정보 및 용언구 및 명사구의 의미 공기정보를 사용한다. 고품질의 의미 기반 정보 검색장치 및 자동 번역장치 등의 한국어 정보 처리 분야의 응용 시스템에서 어휘 의미 모호성을 크게 해소하여 그 성능을 높일 수 있다.