Abstract:
PURPOSE: A device and a method for verifying translation knowledge which is specialized in a domain are provided to automatically classify translation knowledge which is most adaptive in a corresponding domain by using parallel corpus per domain. CONSTITUTION: A lemma indexer(106) disperse a plurality of lemma indexed parallel corpus to a plurality of cluster servers. Through constructed translation knowledge, a reference translator automatically translates the lemma indexed parallel corpus. Through translation knowledge of a verification target, an evaluation translator(121) automatically translates the lemma indexed parallel corpus. An auto evaluation unit(118) compares a translation performance difference of a reference translation result(116) and an evaluation translation result(123).
Abstract:
PURPOSE: A substitute language specializing device and a method thereof are provided to extract air vocabulary through primitive language corpus and a target language corpus belongings to a target domain and extract substitute language candidate and reflect representative substitute language to substitute dictionary, thereby reducing the cost by manual. CONSTITUTION: A vocabulary arrangement unit(106) extracts co-occurrence vocabulary through primitive language tagged corpus and target language tagged corpus. The vocabulary arrangement unit extracts substitute candidates with mapping of band relation of co-occurrence vocabularies about a substitute dictionary. An error filtering unit(108) determines representative substitute language with filtering of substitute relation error about the extracted substitute candidate. A substitute dictionary reflector(110) reflects the determined representative substitute to the substitute dictionary.
Abstract:
PURPOSE: A compound noun recognition device and a method thereof are provide to generate a unit noun candidate in an input compound noun of a compound noun recognition device and determine a unit noun, thereby improving recognition about the compound noun. CONSTITUTION: A unit noun extractor(102) extracts a unit noun candidate group from an input compound noun. An affix applying unit(104) performs affix processing about a unit noun of the unit noun candidate group. If a descriptive noun exists among the unit nouns, a meaningful analyzing unit(106) determines meaningful information. According to the affix processing and meaning standing information and meaning restriction conditions, a unit noun determination unit(108) determines a unit noun area by weight applying.
Abstract:
PURPOSE: A syntax analyzing method and a device thereof are provided to prevent creation of a chart or adjust chart weight by being matched previously constructed constraint condition. CONSTITUTION: A part-of-speech tagger(10) performs part of speech tagging about an original. A syntax information generator(20) generates structure syntax information about the tagging result. A chart parser(30) uses a chart about the morpheme sentence structure information as a default inactive chart, repeats rule matching and active and inactive chart generation, and performs bottom-up chart parsing. A node syntactic information generator(40) generates node syntactic information according to parsing result. A constraint condition application unit(50) applies a constraint condition according to the chart parsing result.
Abstract:
본 발명은 사용자의 개입을 통해 번역의 품질을 향상시키는 대화식 기계 번역 장치에 관한 것으로서, 특히 번역 과정에서 생성된 정보에 기반하여 번역 오류를 추정하고 사용자의 수정에 따른 재번역 결과를 실시간으로 제공하는 실시간 대화식 기계 번역 장치 및 방법에 관한 것이다. 본 발명에 따른 대화식 기계 번역 장치는 원문의 형태소 및 구문을 분석하여 원문 분석 정보를 생성하는 형태소/구문 분석기 및 상기 원문 분석 정보에 기반하여 번역문 및 번역문 생성 정보를 생성하는 번역문 생성기를 구비하는 기계 번역 엔진 및 상기 원문 분석 정보 및 상기 번역문 생성 정보에 기반하여 상기 원문 및 상기 번역문의 문장 구조 및 대응관계를 사용자에게 표시하고 상기 사용자로부터 상기 원문 또는 상기 번역문에 대한 수정사항을 입력받는 사용자 인터페이스 모듈로 구성된다. 본 발명은 사용자가 오번역이 발생한 부분 및 원인을 효과적으로 식별하고 수정할 수 있는 사용자 인터페이스를 제공하고 수정에 따른 재번역의 결과를 신속히 제공함으로써, 사용자가 만족할 수 있는 고품질의 번역을 수행할 수 있다. 기계 번역, 사용자 개입, 대화식 기계 번역, IMT
Abstract:
PURPOSE: A machine translation error detection method using the parallel corpus and an apparatus thereof are provided so that by providing an error statistics information classified as for each type the reading mistake generating in the machine translation system of the rule base is detected. The performance of the machine translation system is improved. CONSTITUTION: A part of analyzing morpheme(104) analyzes the morpheme of the purpose language sentence interpreted by machine with the purpose language sentence of the parallel corpus corresponding to the primitive language sentence. It classifies into the word by word. A word by word sorter(106) stands in line the group of the purpose language sentence interpreted by machine and primitive language sentence and the group of the purpose language sentence of the primitive language sentence and parallel corpus to the word by word. It decodes. An error detection part(108) detects error through the comparison of the word by word of the decoded sentences as described above from the purpose language sentence interpreted by machine. It classifies error and the error category and performance analysis part(110) inspect the error pattern ratio. Error data is produced.
Abstract:
PURPOSE: A translation device in which a multi-level verb pattern is applied and an application method and extraction method thereof are provided to improve translating performance by applying a matching method of the multi-level verb pattern. CONSTITUTION: A default verb pattern matching unit(305) advances the matching by applying a semantic code to the default verb pattern through a default verb pattern DB(313) when a basic verb pattern is non-matched. A default word order matching unit(307) advances the matching through a default word order verb pattern DB(315) when the default verb pattern is non-matched. A default investigation matching unit(309) outputs a bilingual document by applying the semantic code to a default investigation pattern through a default investigation DB(317) when the default word order verb pattern is non-matched.
Abstract:
본 발명은 PDF 파일을 대상으로 하는 자동 번역 방법에 관한 것이다. 본 발명에 따르면, 자동 번역 장치는 입력되는 원시언어 PDF 파일로부터 이미지 변환을 통해 원시언어 텍스트 및 비텍스트를 추출하며, 추출된 원시언어 텍스트를 텍스트 정보로부터 추출한 원시언어 텍스트를 이용해 교정한다. 또한, 추출된 원시언어 텍스트 중에서 비텍스트 등에 의해 문맥적으로 분리된 부분을 복원하고, 원시언어 PDF 파일의 문맥적 흐름에 맞도록 추출된 텍스트 및 비텍스트를 재정렬하여 원시언어 XML/HTML 파일을 생성한다. 이후, 원시언어 XML/HTML 파일의 태그로부터 원시언어 텍스트를 분리한 뒤, 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 번역 지식 및 변환 엔진을 이용하여 목적언어 텍스트를 생성한다. 이렇게 번역된 목적언어 텍스트는 원시언어 텍스트 대신 XML/HTML 파일에 삽입되고, 이에 따라 생성된 목적언어 XML/HTML 파일은 다시 목적언어 PDF 파일로 변환되어 출력된다. 자동 번역, PDF, 기술 도메인, 기술 논문
Abstract:
본 발명은 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 기술에 관한 것으로, 원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들을 포함하는 병렬 코퍼스를 이용한 오류 보정 학습을 통하여 오류 보정 패턴을 구축하고, 자동번역기를 이용하여 특정 문장에 대한 번역을 수행하고, 번역된 문장에 대해 오류 보정 패턴의 조건부와 비교하여 번역 오류를 파악하며, 추정된 번역 오류를 오류 보정 패턴의 행위부에 따라 수정하고, 오류 보정된 번역 문장을 출력하는 것을 특징으로 한다. 본 발명에 의하면, 비문이나 자연스럽지 못한 표현 등과 같은 자동 번역 시스템의 번역 오류를 실시간으로 보정함으로써, 자동 번역 시스템의 번역 성능을 향상시킬 수 있다. 자동 번역 시스템, 자동 번역 후처리, 오류보정 패턴
Abstract:
A method for automatically translation based on a PDF(Portable Document Format) is provided to lower error occurring in a text extracting process by performing the translation with translation knowledge and a transformation pattern, which are specialized to a description domain of a source language PDF file. A text extractor extracts source language text, non-text, and text information(S101). A paragraph recovery unit generates a source language XML(eXensible Markup Language)/HTML(HyperText Markup Language) by combining/recovering grammatically separated source language text, and rearranging the recovered source language text and the non-text according to syntax flow of a source language PDF file(S102). An XML/HTML processor separates the source language text from a tag of the source language XML/HTML file, and outputs/translates the source language text by using translation knowledge and a translation engine specialized to a technical field(S103). Target language text is inserted into the tag of the XML/HTML file through the XML/HTML processor instead of the source language text(S104). A PDF file transformer transforms a target language XML/HTML file into a target language PDF file(S105).