-
公开(公告)号:KR1020100025885A
公开(公告)日:2010-03-10
申请号:KR1020080084626
申请日:2008-08-28
Applicant: 한국전자통신연구원
IPC: G06F17/28
CPC classification number: G06F17/2827 , G06F17/2775
Abstract: PURPOSE: A translation device in which a multi-level verb pattern is applied and an application method and extraction method thereof are provided to improve translating performance by applying a matching method of the multi-level verb pattern. CONSTITUTION: A default verb pattern matching unit(305) advances the matching by applying a semantic code to the default verb pattern through a default verb pattern DB(313) when a basic verb pattern is non-matched. A default word order matching unit(307) advances the matching through a default word order verb pattern DB(315) when the default verb pattern is non-matched. A default investigation matching unit(309) outputs a bilingual document by applying the semantic code to a default investigation pattern through a default investigation DB(317) when the default word order verb pattern is non-matched.
Abstract translation: 目的:应用多级动词模式的匹配方法,提供应用多级动词模式的翻译装置及其应用方法及其提取方法,以提高翻译性能。 构成:当基本动词模式不匹配时,默认动词模式匹配单元(305)通过默认动词模式DB(313)将语义代码应用于默认动词模式来推进匹配。 当默认动词模式不匹配时,默认单词顺序匹配单元(307)通过默认单词顺序动词模式DB(315)推进匹配。 默认调查匹配单元(309)通过默认调查DB(317)将语义代码应用于默认调查模式时输出双语文档,当默认单词顺序动词模式不匹配时。
-
公开(公告)号:KR100912502B1
公开(公告)日:2009-08-17
申请号:KR1020070075581
申请日:2007-07-27
Applicant: 한국전자통신연구원
IPC: G06F17/28
CPC classification number: G06F17/2247 , G06F17/211 , G06F17/2809
Abstract: 본 발명은 PDF 파일을 대상으로 하는 자동 번역 방법에 관한 것이다.
본 발명에 따르면, 자동 번역 장치는 입력되는 원시언어 PDF 파일로부터 이미지 변환을 통해 원시언어 텍스트 및 비텍스트를 추출하며, 추출된 원시언어 텍스트를 텍스트 정보로부터 추출한 원시언어 텍스트를 이용해 교정한다. 또한, 추출된 원시언어 텍스트 중에서 비텍스트 등에 의해 문맥적으로 분리된 부분을 복원하고, 원시언어 PDF 파일의 문맥적 흐름에 맞도록 추출된 텍스트 및 비텍스트를 재정렬하여 원시언어 XML/HTML 파일을 생성한다. 이후, 원시언어 XML/HTML 파일의 태그로부터 원시언어 텍스트를 분리한 뒤, 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 번역 지식 및 변환 엔진을 이용하여 목적언어 텍스트를 생성한다. 이렇게 번역된 목적언어 텍스트는 원시언어 텍스트 대신 XML/HTML 파일에 삽입되고, 이에 따라 생성된 목적언어 XML/HTML 파일은 다시 목적언어 PDF 파일로 변환되어 출력된다.
자동 번역, PDF, 기술 도메인, 기술 논문-
103.
公开(公告)号:KR100911834B1
公开(公告)日:2009-08-13
申请号:KR1020070128041
申请日:2007-12-11
Applicant: 한국전자통신연구원
IPC: G06F17/28
Abstract: 본 발명은 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 기술에 관한 것으로, 원시언어 문장에 대한 목적언어 형태의 번역 정답 문장들을 포함하는 병렬 코퍼스를 이용한 오류 보정 학습을 통하여 오류 보정 패턴을 구축하고, 자동번역기를 이용하여 특정 문장에 대한 번역을 수행하고, 번역된 문장에 대해 오류 보정 패턴의 조건부와 비교하여 번역 오류를 파악하며, 추정된 번역 오류를 오류 보정 패턴의 행위부에 따라 수정하고, 오류 보정된 번역 문장을 출력하는 것을 특징으로 한다. 본 발명에 의하면, 비문이나 자연스럽지 못한 표현 등과 같은 자동 번역 시스템의 번역 오류를 실시간으로 보정함으로써, 자동 번역 시스템의 번역 성능을 향상시킬 수 있다.
자동 번역 시스템, 자동 번역 후처리, 오류보정 패턴-
公开(公告)号:KR1020090011712A
公开(公告)日:2009-02-02
申请号:KR1020070075581
申请日:2007-07-27
Applicant: 한국전자통신연구원
IPC: G06F17/28
CPC classification number: G06F17/2247 , G06F17/211 , G06F17/2809
Abstract: A method for automatically translation based on a PDF(Portable Document Format) is provided to lower error occurring in a text extracting process by performing the translation with translation knowledge and a transformation pattern, which are specialized to a description domain of a source language PDF file. A text extractor extracts source language text, non-text, and text information(S101). A paragraph recovery unit generates a source language XML(eXensible Markup Language)/HTML(HyperText Markup Language) by combining/recovering grammatically separated source language text, and rearranging the recovered source language text and the non-text according to syntax flow of a source language PDF file(S102). An XML/HTML processor separates the source language text from a tag of the source language XML/HTML file, and outputs/translates the source language text by using translation knowledge and a translation engine specialized to a technical field(S103). Target language text is inserted into the tag of the XML/HTML file through the XML/HTML processor instead of the source language text(S104). A PDF file transformer transforms a target language XML/HTML file into a target language PDF file(S105).
Abstract translation: 提供了一种基于PDF(便携式文件格式)自动翻译的方法,用于通过使用专门针对源语言PDF文件的描述域的翻译知识和转换模式执行翻译来降低文本提取过程中发生的错误 。 文本提取器提取源语言文本,非文本和文本信息(S101)。 段落恢复单元通过组合/恢复语法分离的源语言文本生成源语言XML(可扩展标记语言)/ HTML(超文本标记语言),并根据源的语法流重新排列恢复的源语言文本和非文本 语言PDF文件(S102)。 XML / HTML处理器将源语言文本与源语言XML / HTML文件的标签分离,并使用专业于技术领域的翻译知识和翻译引擎输出/翻译源语言文本(S103)。 目标语言文本通过XML / HTML处理器而不是源语言文本插入到XML / HTML文件的标签中(S104)。 PDF文件变换器将目标语言XML / HTML文件转换为目标语言PDF文件(S105)。
-
公开(公告)号:KR100834549B1
公开(公告)日:2008-06-02
申请号:KR1020060101934
申请日:2006-10-19
Applicant: 한국전자통신연구원
IPC: G06F17/28
CPC classification number: G06F17/289
Abstract: 본원 발명의 번역 시스템은 원문의 오류 유무를 판단하는 기준이 되는 원문 작성 가이드라인, 상기 원문이 상기 원문 작성 가이드라인을 만족하는지 여부를 판단하는 원문 컨트롤러, 기본 사전 및 복수 개의 사용자 사전 중 적어도 하나를 참조하여 상기 원문을 번역하는 번역 엔진을 포함하는 번역 서버와, 원문을 입력받아 상기 번역 서버로 전송하는 원문 처리부, 상기 번역 서버로부터 수신된 번역문을 출력하고 해당 번역문의 승인 여부 결과를 번역 서버로 전송하는 번역문 처리부 및 상기 사용자 사전의 내용을 수정하는 사용자 사전 편집부를 포함하는 사용자 인터페이스와, 원문 작성 방법 공유 데이터베이스 및 사용자 사전 공유 데이터베이스를 포함하는 사용자 커뮤니티 서버를 포함하는 것을 특징으로 한다.
번역 서버, 원문 작성 가이드 라인, 사용자 사전, 웹 2.0, 태그-
公开(公告)号:KR1020080035346A
公开(公告)日:2008-04-23
申请号:KR1020060101934
申请日:2006-10-19
Applicant: 한국전자통신연구원
IPC: G06F17/28
CPC classification number: G06F17/289
Abstract: A translation system and a translation service method are provided to enhance reliability by correcting errors in an original document and to generate a translated version suitable for semantics in the original document by registering plural user dictionaries which can be edited at the user's inclination. A translation system comprises a translation server(110), a user interface and a user community server(130). The translation server includes an original document construction guideline(112) which is a criterion for determining whether the original document has errors, an original document controller(111) which determines whether the original document satisfies the guideline and a translation engine(114) which translates the original document by referring to a basic dictionary and plural dictionaries of a user's own editing. The user interface includes an original document processor(102) which receives the original document and transmits the received original document to the translation server, a translation version processor(104) which outputs a translation version received from the translation server and transmits an authentication result to the translation server, and a user dictionary editor(106) which enables a user to modify content of the user dictionary. The user community server includes an original document method sharing database(132) and a user dictionary sharing database(134).
Abstract translation: 提供翻译系统和翻译服务方法以通过修正原始文档中的错误来增强可靠性,并通过登记可以用户倾向编辑的多个用户词典来生成适合于原始文档中的语义的翻译版本。 翻译系统包括翻译服务器(110),用户界面和用户社区服务器(130)。 翻译服务器包括作为确定原始文档是否具有错误的标准的原始文档构造准则(112),确定原始文档是否满足指南的原始文档控制器(111)以及翻译引擎(114) 原始文件通过参考基本词典和用户自己编辑的复数词典。 用户接口包括原始文档处理器(102),其接收原始文档并将接收到的原始文档发送到翻译服务器;翻译版本处理器(104),其输出从翻译服务器接收到的翻译版本,并将认证结果发送到 翻译服务器和用户字典编辑器(106),其使用户能够修改用户字典的内容。 用户社区服务器包括原始文档方法共享数据库(132)和用户字典共享数据库(134)。
-
公开(公告)号:KR100716158B1
公开(公告)日:2007-05-10
申请号:KR1020050120412
申请日:2005-12-09
Applicant: 한국전자통신연구원
IPC: G06F17/27
Abstract: 본 발명은 기존의 번역 사전 및 번역 패턴을 효율적으로 활용하여 영어 코퍼스에서 추출된 하이픈 포함 미등록어에 대한 대역어를 자동으로 선택할 수 있는 방법 및 장치에 관한 것으로, 영어 코퍼스에서 하이픈 포함 단어들을 추출할 때 스펠링 오류 제거 및 기구축된 단일어/복합어 사전과의 비교를 통해 미등록어의 수를 줄이는 한편, 단어 번역 패턴을 참조하여 하이픈 포함 미등록어에 대한 대역어를 자동으로 선택하는 것을 특징으로 한다.
본 발명에 따르면, 스펠링 오류 교정 및 기구축된 단일어/복합어 사전의 엔트리들과의 비교를 통해 미등록어의 수를 줄일 수 있으므로, 종래의 대역어 선택 방법에 비해 하이픈 포함 미등록어에 대한 대역어 선택을 신속하고 정확하게 수행할 수 있으며, 번역 패턴 생성 및 수정을 통해 하이픈 포함 미등록어의 대역어를 보다 신속하고 정확하게 선택할 수 있으므로 이에 따라 자동번역 시스템의 점진적인 성능 향상이 가능하다.
미등록어, 하이픈, 번역패턴Abstract translation: 本发明还涉及一种方法,并且可以自动地选择上连字符的译词,包括英语语料库和有效地利用现有的翻译词典和翻译模式的衍生未登记的单词的装置,提取连字符包括在英语语料库字 因为它相较于除去拼写错误和单语/化合物预先构建的机器,以减少未登记单词的数量,同时参照其特征在于字翻译模式自动选择未注册的单词的译词包含一个连字符。
-
公开(公告)号:KR100687734B1
公开(公告)日:2007-02-27
申请号:KR1020050017658
申请日:2005-03-03
Applicant: 한국전자통신연구원
IPC: G06F17/28
Abstract: 본 발명에 의한 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치 및 방법은 용언 대역어와 조사 대역어 선택을 위한 어휘/의미 공기 정보를 구축하는 단계; 텍스트 말뭉치에 대하여 국소단문을 생성하는 단계; 상기 국소 단문에 대하여 부분 대역 패턴 후보를 생성하는 단계; 상기 어휘/의미 공기 정보를 기초로 상기 부분 대역 패턴 후보에 대한 목적언어 대역 표현을 생성하여 저장하는 단계;를 포함하는 것을 특징으로 하며, 구축된 전문 분야별 부분 대역 패턴 데이터베이스를 활용하여 기술 매뉴얼, 특허 문서 등의 기술 문서 자동번역에 중요한 언어 자원으로써 직접 활용할 수 있다.
전문 분야, 부분 대역 패턴 데이터베이스-
公开(公告)号:KR100277690B1
公开(公告)日:2001-01-15
申请号:KR1019980052256
申请日:1998-12-01
Applicant: 한국전자통신연구원
IPC: G10L15/02
Abstract: 1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 화행 정보를 이용한 음성 인식 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하고 이 화행 정보에 따라 언어모델을 변경하므로써 음성 인식기의 정확도를 향상시키기 위한 음성 인식 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 이전에 인식된 대화의 화행 정보로부터 현재 발성된 내용의 화행 정보를 예측하기 위한 화행 추정 파라미터를 구하는 제 1 단계; 화행 추정 파라미터를 언어모델에 반영하는 제 2 단계; 입력 음성을 1차로 인식한 후에, 1차 음성 인식 결과로부터 화행 추정 파라미터를 사용하여 현재의 화행 정보를 추정하는 제 3 단계; 및 추정한 화행 정보에 따라 상기 1차 인식 결과를 재계산하여 인식 결과를 구하는 제 4 단계를 포함한다.
4. 발명의 중요한 용도
본 발명은 음성 인식기 등에 이용됨.-
公开(公告)号:KR100263297B1
公开(公告)日:2000-08-01
申请号:KR1019970065686
申请日:1997-12-03
Applicant: 한국전자통신연구원
IPC: G10L15/04
Abstract: PURPOSE: A voice recognition unit determination method using a quasi-feature component is provided to maintain the number of candidate vocabulary for voice recognition to expand operation region of a voice recognition system. CONSTITUTION: The voice recognition unit determination method using the quasi-feature component includes following steps. At first, input syllable is divided by a feature component base classifier(101). Whether a sound value is maintained in the output of the feature component base classifier is checked(102). When the sound value is maintained, the feature component division result is output and whether a syllable to be processed exists is determined(103). When more syllable exists, input syllable is divided by the feature component classifier or process is terminated otherwise. When the sound value is not maintained, whether the input syllable is registered in a division rule is determined. When the input syllable is registered in the division rule, the syllable is divided using the rule, the result is output and whether more syllable to be processed exists is determined(105). When more syllable exists, input syllable is divided by the feature component classifier or process is terminated otherwise. When the input syllable is not registered in the division rule, whether an automatic mode is to be performed is determined(106). When yes, the syllable is registered in a non-divided word files, the input syllable is output as it is and whether more syllable to be processed exists is determined. When more syllable exists(107), input syllable is divided by the feature component classifier or process is terminated otherwise. When the mode in not automatic, the input syllable is divided manually and the rule for the division is registered(108). The result is output and whether more syllable to be processed exists is determined(110). When more syllable exists, input syllable is divided by the feature component classifier or process is terminated otherwise.
Abstract translation: 目的:提供一种使用准特征分量的语音识别单元确定方法,以维持用于语音识别的候选词汇数量,以扩大语音识别系统的操作区域。 构成:使用准特征成分的语音识别单元确定方法包括以下步骤。 首先,输入音节由特征分量基本分类器(101)分割。 检查特征组分基类分类器的输出中是否保持声音值(102)。 当保持声音值时,确定特征分量分割结果,并确定是否存在待处理的音节(103)。 当存在更多的音节时,输入音节由特征分量分类器除以否则终止。 当声音值不被维持时,确定输入音节是否被记录在分割规则中。 当输入音节被注册在分割规则中时,使用规则划分音节,输出结果以及是否存在待处理的多个音节存在(105)。 当存在更多的音节时,输入音节由特征分量分类器除以否则终止。 当输入音节未在分割规则中登记时,确定是否执行自动模式(106)。 当是的时候,音节被注册在一个非分割的单词文件中,输入音节是按原样输出的,并确定是否存在要处理的更多的音节。 当存在更多的音节(107)时,输入音节由特征分量分类器除以否则终止。 当模式不自动时,输入音节被手动分割,并且分配的规则被注册(108)。 确定结果是输出,是否存在更多的音节被处理存在(110)。 当存在更多的音节时,输入音节由特征分量分类器除以否则终止。
-
-
-
-
-
-
-
-
-