Abstract:
A method and an apparatus for selecting a translated word in a machine translation are provided to obtain more natural translation quality by applying a translated word selecting scheme to the machine translation, and to get wanted information from a document written in foreign languages more easily and cheaply. A method for selecting a translated word in a machine translation comprises the following several steps. A co-occurring word class information applying unit checks whether a target word with respect to a word of a source sentence can be determined as a translated word by using a co-occurring word class information database(S300). In case that the target word is not determined from the co-occurring word class information database(S301), a meaning determining unit solves meaning ambiguity of the target word(S302). If the meaning determining unit solves the meaning ambiguity or the number of translated words of a target noun word is more than 2 but the translated words share the same meaning code, the translated word determining unit determines an optimal translated word by using a target language local context statistics information database which is constructed from a target language corpus in order to select more precise translated word(S303,S304).
Abstract:
대용량의 특허 번역 사전을 효율적이며 경제적으로 구축하는 장치 및 방법을 개시한다. 이를 위하여, 상기 장치는 기구축된 전문 용어를 입력받아 특허 번역 사전용 DB에 기록 가능한 형태로 상기 입력된 전문 용어의 포맷을 변경하여 확장 사전용 DB에 기록하는 용어 재구성부와, 출발 언어 특허 문서를 입력받아 상기 확장 사전용 DB에 기록되지 않은 미등록 전문 용어를 상기 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하며, 대역어가 부착되지 않은 상기 단일어 엔트리에 대해 상기 대역어를 부착한 후, 상기 확장 사전용 DB에 상기 엔트리를 추가하는 용어 처리부와, 목표 언어 특허 문서를 입력받아 상기 확장 사전용 DB에서 복수의 대역어들에 대해 특허 분야에 적합한 대역어를 선택하고, 복합어에 대해서는 특화된 단일어 대역어로 번역한 후, 상기 특허 번역 사전용 DB에 기록하는 대역어 특화부를 포함함으로써, 특허 분야별로 대역어가 구분된 대용량의 특허 번역 사전을 구축하는 시간과 비용을 절약할 수 있다. 대용량, 단일어, 번역, 사전
Abstract:
A device and a method for constructing a patent translation dictionary are provided to construct a large patent translation dictionary capable of minimizing interference of a user efficiently and economically. A term reformer(200) receives/converts previously constructed technical terms into a format available in a patent translation dictionary database(500) and records the converted terms to an extended dictionary database(900). A term processor(300) extracts the technical terms unregistered to the extended dictionary database from a patent document written in a source language, classifies a single word entry from the unregistered technical terms, attaches a translation to the single-word entry attaching no translation, and adds the single-word entry to the extended dictionary database. A translation specializer(400) selects the translation suitable for a patent field from the extended dictionary database by receiving a target language patent document, translates a compound word into the specialized single-word translation, and writes the single-word translation to the extended dictionary database.
Abstract:
본 발명은 통계적 HMM(Hidden Markov Model) 품사 태깅 장치 및 방법에 관한 것으로, 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하여 그 어휘의 어휘확률을 적용 도메인에 맞추어 갱신함으로써, 많은 비용과 시간이 드는 적용 도메인의 태깅된 코퍼스 없이, 다양한 도메인에서 높은 성능으로 적용할 수 있는 것을 특징으로 한다. 본 발명에 따르면, 새로운 특정 도메인에서 정확도가 떨어지는 기존의 통계적 품사 태깅 방법에 비하여, 품사 태깅의 정확성을 크게 향상시킬 수 있으며, 손쉽게 획득할 수 있는 다양한 도메인의 원시 코퍼스(raw corpus)들을 기반으로 각 도메인 의존 어휘확률만을 새로이 재학습하여 갱신함으로써, 태깅된 도메인 코퍼스 없이 특정 도메인에서의 태깅 정확성을 높일 뿐만 아니라 다양한 도메인에서 높은 정확도의 통계적 품사 태깅을 수행할 수 있는 효과가 있다. 품사태깅, 확률, HMM, 도메인, 코퍼스
Abstract:
본 발명은 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치 및 방법에 관한 것으로, 이미 구축되어 있는 기존 대역 전자사전에서 어휘 대역어 공기 정보 및 확률 정보를 자동으로 추출하여 이를 기반으로 복합명사에 대한 대역어를 선택하도록 하는 것을 특징으로 한다. 본 발명에 따르면, 종래와 같이 의미 태그드 코퍼스를 수동으로 구축할 필요 없이 대역어 선택에 있어서 문제가 되는 의미 중의성 문제와 동일 의미의 이종 대역어 표현 문제를 해결할 수 있으므로, 이에 따라 종래의 대역어 생성 방법에 비해 문맥에 맞는 자연스러운 대역어를 선택할 수 있게 된다. 복합명사, 어휘, 대역어, 공기, 확률, 문맥, 모호성, 중의성
Abstract:
본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하며, 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 또한 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다. 기계번역, 자동번역, 대역어 선택, 의미 벡터, 동사구 패턴
Abstract:
본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하며, 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 또한 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다. 기계번역, 자동번역, 대역어 선택, 의미 벡터, 동사구 패턴
Abstract:
본 발명에 의한 명사 의미 코드 부착 방법 및 그 장치에 의하면, 영한 자동 번역 방법에 있어서, 사전에 등재할 명사 표현에 대역어를 부착하는 단계; 상기 대역어가 부착된 명사 표현에서 핵심 명사를 추출하는 단계; 및 상기 명사 표현에 의미코드를 부착하는 단계;를 포함하는 것을 특징으로 하며, 자동번역 시스템에서 명사 의미코드 부착 방식을 수동 부착 방식에서 반자동 부착방식으로 전환시킴으로서, 명사에 의미코드를 부착하는 시간을 단축할 수 있으며, 명사에 의미코드가 일관성 있게 부착될 수 있고, 명사 의미코드가 부착됨으로 번역 정확도가 향상되며, 동사 대역어 선택시에 명사의 의미코드를 논항으로 사용함으로써 동사 대역어 선택의 커버리지를 향상시킬 수 있는 효과가 있다. 영한 자동번역, 명사 의미코드 부착
Abstract:
본 발명은 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증 장치에 관한 것으로서, 현재 한국어와 중국어 용언구 패턴 사전에서 보유한 용언구 패턴으로 적용이 되지 않는 용언구 패턴 원문부를 자동으로 추출하고, 이에 대해 중국어 대역어를 기반으로 하는 새로운 한-중 용언구 패턴을 자동 생성하는 한편, 새롭게 생성된 하나의 한-중 용언구 패턴을 유사한 복수의 용언구 패턴 후보로 자동 확장한 다음, 자동 확장된 한-중 용언구 패턴 후부들에 대하여 대용량 코퍼스 기반의 자동 검증 작업을 수행하여 적합한 용언구 패턴을 한국어와 중국어 용언구 패턴 사전DB에 새롭게 등록하고, 오류패턴으로 판정된 용언구 패턴을 오류패턴DB에 따로 저장한 후 재사용하여 새로 생성되는 한국어와 중국어 용언구 패턴의 정확도를 높이도록 되어 있다. 본 발명은 한국어와 중국어 용언구 패턴을 자동으로 용이하게 대량 수집할 수 있고, 이처럼 자동으로 증가되는 용언구 패턴에 의해 한-중 기계번역시스템의 번역률의 신속한 상승을 이룰 수 있는 효과가 있다. 기계번역시스템, 용언구 패턴, 코퍼스, 문장구조 분석기, 한국어, 중국어
Abstract:
본 발명은 스타일 번역 처리시스템 및 방법에 관한 것으로서, 원문 문서에 대한 스타일을 인식하는 스타일 인식수단; 상기 스타일 인식수단으로부터 부여받은 스타일 인자를 모든 원문 문장들에 대해 형태소 분석을 수행하는 형태소 분석수단; 상기 형태소 분석수단에 의해 분석된 형태소 분석 결과에 대해 구문 분석을 수행하는 구문 분석수단; 상기 형태소 분석 및 구분 분석 결과 생성된 구문 트리에 대해 일반 번역 패턴을 이용하여 기 저장된 원문부 패턴과 매칭을 실시한 후 대역부 패턴을 출력하는 패턴 번역수단; 상기 패턴 번역수단의 결과에 대해 스타일 번역패턴을 이용해서 스타일 번역을 수행하는 스타일 번역수단; 및 상기 스타일 번역수단에서 원문 문서로 전달된 스타일 인자를 번역 문서에 반영하여 번역문서를 출력하는 형태소 생성수단;을 통해 스타일 번역방법을 제공한다.