Abstract:
본 발명은 기존의 품사문맥 또는 어절어휘 규칙에 의한 태깅과는 달리 분석대상 어절 주변의 대표 형태소 어휘문맥 정보에 기반하여 통계적 방법으로 대상어절의 태깅 오류를 정정하는 대표 형태소 어휘문맥에 기반한 통계적 태깅 오류 정정 장치 및 방법에 관한 것이다. 본 발명은 원시문장에 대해 품사문맥을 기반으로 형태소 분석 및 태깅을 하는 단계와, 각 형태소 어휘에 대해 대표어휘를 결정하고 분석대상 어절에 대한 대표 형태소 어휘문맥들을 생성하는 단계와, 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 대표 형태소 어휘문맥들의 확률을 산출하고, 이들을 결합하여 그 결과값이 가장 큰 후보를 최적 형태소후보로 선정하는 단계와, 최적 형태소후보로서 품사문맥 기반의 태깅 오류를 정정하는 단계로 이루어진다.
Abstract:
PURPOSE: An automatic morpheme semantics tagging system is provided to automatically tag semantics of morphemes by using syntax data and semantic co-occurrence data of a declinable phrase and a noun phrase so that it enhances a meaning determination correctness. CONSTITUTION: The system comprises a short sentence recognizer(102), an auxiliary word case recovery module(103), an argument noun meaning determination module(104), and a noun phrase meaning determination module(105). The short sentence recognizer(102) recognizes a short sentence by using a basic syntax generation rule, a dependency syntax rule, an electronic morpheme meaning dictionary, a semantics frame and a declinable phrase co-occurrence dictionary generated via a morpheme analysis of an original sentence. The auxiliary word case recovery module(103) performs a case recovery for an auxiliary word by using a semantics frame and a declinable phrase semantics co-occurrence dictionary. The argument noun meaning determination module(104) determines a meaning on an argument noun. The noun phrase meaning determination module(105) determines a meaning on a noun within a noun phrase and a compound noun.
Abstract:
PURPOSE: A method for searching a similar sentence on a translation support system is provided to improve accuracy of the system by offering a similarity measure between sentences for searching the most similar example from a translation memory, and outputting a searched source sentence and the corresponding translation sentence. CONSTITUTION: The translation memory(105) comprises the source sentence, a morpheme analysis result of the source sentence, and the translation sentence by performing the morpheme analysis of a parallel corpus(101) in not processed form through a morpheme analyzer(102). An index reverse-file(104) is formed by extracting an index word from each source sentence forming the translation memory(105). A filtering part(106) separately extracts the morpheme corresponding to a noun, a verb, and an adjective used as the index word from the inputted source sentence. A searching part(107) loads a searching result after searching the candidate sentences provided from the filtering part(106) through the translation memory(105). A similarity calculation part(108) calculates the similarity applying a weight of each part for the candidate sentences by using an edit distance method.
Abstract:
본 발명에 따른, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치는 형태소-구문 분석된 소스 언어 문장을 수신하고, 상기 형태-구문 분석된 소스 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 소스 언어 문장으로 변화시키는 소스 언어 문장 전처리기와, 형태소-구문 분석된 타겟 언어 문장을 수신하고, 상기 형태-구문 분석된 타겟 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 타겟 언어 문장으로 변화시키는 타겟 언어 문장 전처리기와, 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장을 수신하여, 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장쌍에 대한 단어 정렬 및 구문 정렬을 수행하는 자율 학습기와, 상기 자율 학습기의 상기 단어 정렬 및 구문 정렬 수행을 반복시키기 위한 학습 종료 조건 검사기를 포함한다. 형태-구문 특징 정보, 단어 정렬, 구문 정렬, 반복 자율 학습, 단어 대역 사전, 구문 대역 사전
Abstract:
An apparatus and a method for autonomously learning translation relationships among words and phrases in a statistical machine translation system are provided to enhance correctness in arranging phrases by using unified results of arranging multiple words arrangement and a result of arranging commonly identical words. An apparatus for autonomously learning translation relationships among words and phrases includes a source language sentence preprocessor(101), a target language sentence preprocessor(102), an autonomous learning device(200), a learning terminating condition inspecting unit(210), a statistical machine translation model parameter extracting unit(300), and a decoder. The source language sentence preprocessor receives a sentence written in a source language whose morpheme and phrase are analyzed. The target language sentence preprocessor receives a sentence written in a target language whose morpheme and phrase are analyzed. The autonomous learning device receives learning sets from the source language sentence preprocessor and the target language sentence preprocessor. The learning terminating condition inspecting unit repeats word arrangement, word rearrangement, phrase arrangement, and word & phrase translation dictionary acquisition until a learning termination condition that there is no more change in the word & phrase translation dictionary is satisfied. The statistical machine translation model parameter extracting unit extracts parameters for a statistics based translation model from a word & phrase arrangement result acquired from learning the word & phrase arrangement. The decoder uses the statistical machine translation model for generating a sentence written in a target language from a sentence written in a source language inputted together with a learned language model(400).
Abstract:
본원 발명의 번역 시스템은 원문의 오류 유무를 판단하는 기준이 되는 원문 작성 가이드라인, 상기 원문이 상기 원문 작성 가이드라인을 만족하는지 여부를 판단하는 원문 컨트롤러, 기본 사전 및 복수 개의 사용자 사전 중 적어도 하나를 참조하여 상기 원문을 번역하는 번역 엔진을 포함하는 번역 서버와, 원문을 입력받아 상기 번역 서버로 전송하는 원문 처리부, 상기 번역 서버로부터 수신된 번역문을 출력하고 해당 번역문의 승인 여부 결과를 번역 서버로 전송하는 번역문 처리부 및 상기 사용자 사전의 내용을 수정하는 사용자 사전 편집부를 포함하는 사용자 인터페이스와, 원문 작성 방법 공유 데이터베이스 및 사용자 사전 공유 데이터베이스를 포함하는 사용자 커뮤니티 서버를 포함하는 것을 특징으로 한다. 번역 서버, 원문 작성 가이드 라인, 사용자 사전, 웹 2.0, 태그
Abstract:
A translation system and a translation service method are provided to enhance reliability by correcting errors in an original document and to generate a translated version suitable for semantics in the original document by registering plural user dictionaries which can be edited at the user's inclination. A translation system comprises a translation server(110), a user interface and a user community server(130). The translation server includes an original document construction guideline(112) which is a criterion for determining whether the original document has errors, an original document controller(111) which determines whether the original document satisfies the guideline and a translation engine(114) which translates the original document by referring to a basic dictionary and plural dictionaries of a user's own editing. The user interface includes an original document processor(102) which receives the original document and transmits the received original document to the translation server, a translation version processor(104) which outputs a translation version received from the translation server and transmits an authentication result to the translation server, and a user dictionary editor(106) which enables a user to modify content of the user dictionary. The user community server includes an original document method sharing database(132) and a user dictionary sharing database(134).
Abstract:
본 발명은 기존의 번역 사전 및 번역 패턴을 효율적으로 활용하여 영어 코퍼스에서 추출된 하이픈 포함 미등록어에 대한 대역어를 자동으로 선택할 수 있는 방법 및 장치에 관한 것으로, 영어 코퍼스에서 하이픈 포함 단어들을 추출할 때 스펠링 오류 제거 및 기구축된 단일어/복합어 사전과의 비교를 통해 미등록어의 수를 줄이는 한편, 단어 번역 패턴을 참조하여 하이픈 포함 미등록어에 대한 대역어를 자동으로 선택하는 것을 특징으로 한다. 본 발명에 따르면, 스펠링 오류 교정 및 기구축된 단일어/복합어 사전의 엔트리들과의 비교를 통해 미등록어의 수를 줄일 수 있으므로, 종래의 대역어 선택 방법에 비해 하이픈 포함 미등록어에 대한 대역어 선택을 신속하고 정확하게 수행할 수 있으며, 번역 패턴 생성 및 수정을 통해 하이픈 포함 미등록어의 대역어를 보다 신속하고 정확하게 선택할 수 있으므로 이에 따라 자동번역 시스템의 점진적인 성능 향상이 가능하다. 미등록어, 하이픈, 번역패턴
Abstract:
본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치 및 방법은 용언 대역어와 조사 대역어 선택을 위한 어휘/의미 공기 정보를 구축하는 단계; 텍스트 말뭉치에 대하여 국소단문을 생성하는 단계; 상기 국소 단문에 대하여 부분 대역 패턴 후보를 생성하는 단계; 상기 어휘/의미 공기 정보를 기초로 상기 부분 대역 패턴 후보에 대한 목적언어 대역 표현을 생성하여 저장하는 단계;를 포함하는 것을 특징으로 하며, 구축된 전문 분야별 부분 대역 패턴 데이터베이스를 활용하여 기술 매뉴얼, 특허 문서 등의 기술 문서 자동번역에 중요한 언어 자원으로써 직접 활용할 수 있다. 전문 분야, 부분 대역 패턴 데이터베이스
Abstract:
본 발명에 의한 한국어 특성을 이용한 용언간 공기패턴에 기반한 한국어 구조분석 방법 및 그 장치는 대량의 말뭉치(corpus)로부터 연속 용언간 공기(co-occurrence)패턴을 추출하는 단계; 입력문에 대하여 형태소 분석을 수행하는 단계; 및 상기 형태소 분석 결과와 상기 용언간 공기패턴을 기초로 상기 입력문의 용언간 구조를 분석하는 단계;를 포함하는 것을 특징으로 하며, 대량의 말뭉치로부터 용언간 공기패턴을 추출할 때 나타나는 잘못된 공기패턴을 최소화할 수 있으며, 또한 연속된 용언의 경우, 구축된 공기패턴을 이용함으로써 용언간 구조분석을 수행하여 구문분석의 성능을 향상시키고, 불연속 용언의 경우, 연속된 용언간 분석을 위해 적용되는 공기패턴과, 불연속 용언을 위해 구축된 격성분 정보 및 관형형의 피수식어 정보에 대해 구축된 데이터를 적용함으로써, 기존에는 해결할 수 없었던 용언간 구조분석의 수행이 가능하게 됨으로써 구문분석의 성능을 향상시킬 수 있다. 용언, 구조분석