Abstract:
본 발명은 PDF 파일을 대상으로 하는 자동 번역 방법에 관한 것이다. 본 발명에 따르면, 자동 번역 장치는 입력되는 원시언어 PDF 파일로부터 이미지 변환을 통해 원시언어 텍스트 및 비텍스트를 추출하며, 추출된 원시언어 텍스트를 텍스트 정보로부터 추출한 원시언어 텍스트를 이용해 교정한다. 또한, 추출된 원시언어 텍스트 중에서 비텍스트 등에 의해 문맥적으로 분리된 부분을 복원하고, 원시언어 PDF 파일의 문맥적 흐름에 맞도록 추출된 텍스트 및 비텍스트를 재정렬하여 원시언어 XML/HTML 파일을 생성한다. 이후, 원시언어 XML/HTML 파일의 태그로부터 원시언어 텍스트를 분리한 뒤, 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 번역 지식 및 변환 엔진을 이용하여 목적언어 텍스트를 생성한다. 이렇게 번역된 목적언어 텍스트는 원시언어 텍스트 대신 XML/HTML 파일에 삽입되고, 이에 따라 생성된 목적언어 XML/HTML 파일은 다시 목적언어 PDF 파일로 변환되어 출력된다. 자동 번역, PDF, 기술 도메인, 기술 논문
Abstract:
본 발명은 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 기술에 관한 것으로, 원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들을 포함하는 병렬 코퍼스를 이용한 오류 보정 학습을 통하여 오류 보정 패턴을 구축하고, 자동번역기를 이용하여 특정 문장에 대한 번역을 수행하고, 번역된 문장에 대해 오류 보정 패턴의 조건부와 비교하여 번역 오류를 파악하며, 추정된 번역 오류를 오류 보정 패턴의 행위부에 따라 수정하고, 오류 보정된 번역 문장을 출력하는 것을 특징으로 한다. 본 발명에 의하면, 비문이나 자연스럽지 못한 표현 등과 같은 자동 번역 시스템의 번역 오류를 실시간으로 보정함으로써, 자동 번역 시스템의 번역 성능을 향상시킬 수 있다. 자동 번역 시스템, 자동 번역 후처리, 오류보정 패턴
Abstract:
A method for automatically translation based on a PDF(Portable Document Format) is provided to lower error occurring in a text extracting process by performing the translation with translation knowledge and a transformation pattern, which are specialized to a description domain of a source language PDF file. A text extractor extracts source language text, non-text, and text information(S101). A paragraph recovery unit generates a source language XML(eXensible Markup Language)/HTML(HyperText Markup Language) by combining/recovering grammatically separated source language text, and rearranging the recovered source language text and the non-text according to syntax flow of a source language PDF file(S102). An XML/HTML processor separates the source language text from a tag of the source language XML/HTML file, and outputs/translates the source language text by using translation knowledge and a translation engine specialized to a technical field(S103). Target language text is inserted into the tag of the XML/HTML file through the XML/HTML processor instead of the source language text(S104). A PDF file transformer transforms a target language XML/HTML file into a target language PDF file(S105).
Abstract:
본원 발명의 번역 시스템은 원문의 오류 유무를 판단하는 기준이 되는 원문 작성 가이드라인, 상기 원문이 상기 원문 작성 가이드라인을 만족하는지 여부를 판단하는 원문 컨트롤러, 기본 사전 및 복수 개의 사용자 사전 중 적어도 하나를 참조하여 상기 원문을 번역하는 번역 엔진을 포함하는 번역 서버와, 원문을 입력받아 상기 번역 서버로 전송하는 원문 처리부, 상기 번역 서버로부터 수신된 번역문을 출력하고 해당 번역문의 승인 여부 결과를 번역 서버로 전송하는 번역문 처리부 및 상기 사용자 사전의 내용을 수정하는 사용자 사전 편집부를 포함하는 사용자 인터페이스와, 원문 작성 방법 공유 데이터베이스 및 사용자 사전 공유 데이터베이스를 포함하는 사용자 커뮤니티 서버를 포함하는 것을 특징으로 한다. 번역 서버, 원문 작성 가이드 라인, 사용자 사전, 웹 2.0, 태그
Abstract:
A translation system and a translation service method are provided to enhance reliability by correcting errors in an original document and to generate a translated version suitable for semantics in the original document by registering plural user dictionaries which can be edited at the user's inclination. A translation system comprises a translation server(110), a user interface and a user community server(130). The translation server includes an original document construction guideline(112) which is a criterion for determining whether the original document has errors, an original document controller(111) which determines whether the original document satisfies the guideline and a translation engine(114) which translates the original document by referring to a basic dictionary and plural dictionaries of a user's own editing. The user interface includes an original document processor(102) which receives the original document and transmits the received original document to the translation server, a translation version processor(104) which outputs a translation version received from the translation server and transmits an authentication result to the translation server, and a user dictionary editor(106) which enables a user to modify content of the user dictionary. The user community server includes an original document method sharing database(132) and a user dictionary sharing database(134).
Abstract:
본 발명은 기존의 번역 사전 및 번역 패턴을 효율적으로 활용하여 영어 코퍼스에서 추출된 하이픈 포함 미등록어에 대한 대역어를 자동으로 선택할 수 있는 방법 및 장치에 관한 것으로, 영어 코퍼스에서 하이픈 포함 단어들을 추출할 때 스펠링 오류 제거 및 기구축된 단일어/복합어 사전과의 비교를 통해 미등록어의 수를 줄이는 한편, 단어 번역 패턴을 참조하여 하이픈 포함 미등록어에 대한 대역어를 자동으로 선택하는 것을 특징으로 한다. 본 발명에 따르면, 스펠링 오류 교정 및 기구축된 단일어/복합어 사전의 엔트리들과의 비교를 통해 미등록어의 수를 줄일 수 있으므로, 종래의 대역어 선택 방법에 비해 하이픈 포함 미등록어에 대한 대역어 선택을 신속하고 정확하게 수행할 수 있으며, 번역 패턴 생성 및 수정을 통해 하이픈 포함 미등록어의 대역어를 보다 신속하고 정확하게 선택할 수 있으므로 이에 따라 자동번역 시스템의 점진적인 성능 향상이 가능하다. 미등록어, 하이픈, 번역패턴
Abstract:
본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치 및 방법은 용언 대역어와 조사 대역어 선택을 위한 어휘/의미 공기 정보를 구축하는 단계; 텍스트 말뭉치에 대하여 국소단문을 생성하는 단계; 상기 국소 단문에 대하여 부분 대역 패턴 후보를 생성하는 단계; 상기 어휘/의미 공기 정보를 기초로 상기 부분 대역 패턴 후보에 대한 목적언어 대역 표현을 생성하여 저장하는 단계;를 포함하는 것을 특징으로 하며, 구축된 전문 분야별 부분 대역 패턴 데이터베이스를 활용하여 기술 매뉴얼, 특허 문서 등의 기술 문서 자동번역에 중요한 언어 자원으로써 직접 활용할 수 있다. 전문 분야, 부분 대역 패턴 데이터베이스
Abstract:
본 발명에 의한 한국어 특성을 이용한 용언간 공기패턴에 기반한 한국어 구조분석 방법 및 그 장치는 대량의 말뭉치(corpus)로부터 연속 용언간 공기(co-occurrence)패턴을 추출하는 단계; 입력문에 대하여 형태소 분석을 수행하는 단계; 및 상기 형태소 분석 결과와 상기 용언간 공기패턴을 기초로 상기 입력문의 용언간 구조를 분석하는 단계;를 포함하는 것을 특징으로 하며, 대량의 말뭉치로부터 용언간 공기패턴을 추출할 때 나타나는 잘못된 공기패턴을 최소화할 수 있으며, 또한 연속된 용언의 경우, 구축된 공기패턴을 이용함으로써 용언간 구조분석을 수행하여 구문분석의 성능을 향상시키고, 불연속 용언의 경우, 연속된 용언간 분석을 위해 적용되는 공기패턴과, 불연속 용언을 위해 구축된 격성분 정보 및 관형형의 피수식어 정보에 대해 구축된 데이터를 적용함으로써, 기존에는 해결할 수 없었던 용언간 구조분석의 수행이 가능하게 됨으로써 구문분석의 성능을 향상시킬 수 있다. 용언, 구조분석
Abstract:
본 발명은 규칙 기반 방식에서의 모호성 문제와 번역 패턴 방식에서의 패턴 생성 및 커버리지 문제를 해결하기 위해 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 그 기록 매체에 관한 것이다. 본 발명에 따른 자동번역 장치는, 입력 원문에 대해 형태소를 분석하고 품사를 결정하는 형태소 분석 및 태깅 수단; 태깅 결과에 대해 구문 분석을 수행하여 파싱 트리를 출력하는 구문분석 수단; 파싱트리에서 하위범주의 구 청킹 결과만을 추출하여 구문패턴을 생성하는 구문패턴 생성 수단; 번역 패턴을 이용하여 상기 구문패턴에 대한 번역을 시도하는 구문패턴 번역 수단; 상기 구문패턴에 대한 번역패턴 매칭에 실패한 경우, 절구조 분석을 하는 절구조 분석 수단; 및 절구조 분석 결과에 따라 부분 구문패턴의 패턴번역을 수행하여 최종 번역결과를 출력하는 부분패턴 번역 수단;을 포함하는 것을 특징으로 한다 파싱, 청킹, 커버리지, 구문패턴, 부분 패턴번역, 절구조 분석
Abstract:
PURPOSE: A sentence structure analyzing method is provided to parse each sentence by the unit of a clause, and to analyze a total sentence for translating the sentence in a machine translation system so that it enhances a translation quality. CONSTITUTION: The method comprises several steps. An original sentence is input, a syntax pattern generator transmits the original sentence to a morpheme analyzer and a tagger, and a syntax pattern is generated via a morpheme analysis, a tagging and a partial sentence parsing(S101). A clause structure parsing is performed for the generated syntax pattern from a sentence end to a sentence top(S102). A short sentence recognition is performed via a start point sensing, an end point sensing, and a short sentence reduction(S103). A rule matching process for each clause is performed in order to check whether there exists a rule matched with a current syntax pattern(S104). A combination candidate set between clauses is generated(S105). A clause structure tree for all the possible combination sets is generated, a weight value for each tree is calculated, and each candidate set is arranged on a basis of the calculated weight value(S106).