한영 자동번역 방법 및 장치
    61.
    发明授权
    한영 자동번역 방법 및 장치 有权
    用于提供混合自动翻译的方法和装置

    公开(公告)号:KR100911621B1

    公开(公告)日:2009-08-12

    申请号:KR1020070133677

    申请日:2007-12-18

    CPC classification number: G06F17/2872 G06F17/2818 G06F17/2863

    Abstract: 본 발명은 패턴기반 자동번역(Pattern Based Machine Translation) 방식의 장점과 통계기반 자동번역(Statistical Machine Translation) 방식의 장점을 혼합한 하이브리드 자동번역 기술에 관한 것이다. 본 발명은, 형태소 분석기를 이용하여 한국어 문장에 대한 형태소 분석 결과를 생성하는 단계, 형태소 분석 결과를 입력으로 하고 구문분석기를 이용하여 구문분석 결과를 생성하는 단계, 원문부 번역 매니저를 이용하여 원문의 분석 결과를 보정하는 단계, 원문부 번역 매니저 내에서 문장 분절을 수행하는 단계, 원문부 번역 매니저 내에서 문형 매칭을 수행하는 단계, 원문부 번역 매니저 내에서 패러프레이징(Paraphrasing)을 수행하는 단계, PBMT 생성기에서 번역 결과를 생성하는 단계, PBMT 생성기에서 SMT 번역 결과를 호출하는 단계, SMT에서 보정된 원문 분석 결과를 이용해 번역 결과를 생성하는 단계, 대역문 번역 매니저에서 최종 번역 결과를 생성하는 단계, 대역문 합성기에서 PBMT 및 SMT 번역 결과를 이용하여 최종 대역문 후보를 생성하는 단계, 대역문 합성기에서 생성한 대역문 후보들에 대해 가장 적절한 대역문 결과를 평가하여 선정하는 단계를 포함한다. 본 발명에 의하면, 첫째, 한국어 문장을 정확하게 분절할 수 있으며, 둘째, 분절을 통해 번역 속도를 향상할 수 있으며, 셋째, 분절을 통해 번역 성능을 향상시킬 수 있으며, 넷째, 입력문에 대한 패러프레이징을 수행함으로써 분석 및 번역 성능을 개선시킬 수 있고, 다섯째, 대역문 선택기를 개발함으로써 보다 우수한 번역 결과를 최종적으로 생성할 수 있다.
    통계기반 자동번역, 패턴기반 자동번역, 패러프레이징, 문장 분절, 대역문 선택

    중국어 미등록어 자동 추출 방법 및 장치
    62.
    发明授权
    중국어 미등록어 자동 추출 방법 및 장치 有权
    自动检测中文语言中未经修改的字的方法和装置

    公开(公告)号:KR100886687B1

    公开(公告)日:2009-03-04

    申请号:KR1020070129360

    申请日:2007-12-12

    Abstract: A method and an apparatus for auto-detecting an unregistered word in Chinese are provided to extract unregistered words from a web-document which is a translation target document by using HTML tag information, statistic information, monosyllable token information, etc. A removing unit(102) removes an HTML tag of an inputted web-document when receiving a web-document which includes Chinese sentences, and a tag classification unit(104) classifies each sentence in the document based on a meta tag and general tag processing manner. An extracting unit(106) using a general tag includes: a monosyllable based extracting module(116) extracts unregistered words on the basis of monosyllable token; and a verb based extracting module(118) extracts unregistered verb words which consist of 4 syllables. An extracting unit(108) using a meta tag extracts an unregistered word by using a word included in meta tag information, and a morpheme analyzing unit(110) analyzes morphemes and outputs the analyzed results. A radix based extracting module(114) extracts an unregistered word based on radixes by using the analyzed results.

    Abstract translation: 提供了一种用于自动检测中文的未注册单词的方法和装置,用于通过使用HTML标签信息,统计信息,单音节令牌信息等从作为翻译目标文档的web文档中提取未注册的单词。 102)在接收到包括中文句子的网络文档时,移除输入的web文档的HTML标签,标签分类单元(104)基于元标签和通用标签处理方式对文档中的每个句子进行分类。 使用一般标签的提取单元(106)包括:基于单音节提取模块(116)基于单音节令牌提取未注册的单词; 并且基于动词的提取模块(118)提取由4个音节组成的未注册的动词。 使用元标签的提取单元(108)通过使用元标签信息中包含的单词提取未注册的单词,并且语素分析单元(110)分析语素并输出分析结果。 基于基数的提取模块(114)通过使用分析结果基于基数提取未注册的单词。

    기계 번역에서의 대역어 선택 방법 및 장치
    63.
    发明公开
    기계 번역에서의 대역어 선택 방법 및 장치 无效
    在机器翻译中选择目标词的方法和装置

    公开(公告)号:KR1020080052318A

    公开(公告)日:2008-06-11

    申请号:KR1020070093689

    申请日:2007-09-14

    CPC classification number: G06F17/289 G06F17/2785

    Abstract: A method and an apparatus for selecting a translated word in a machine translation are provided to obtain more natural translation quality by applying a translated word selecting scheme to the machine translation, and to get wanted information from a document written in foreign languages more easily and cheaply. A method for selecting a translated word in a machine translation comprises the following several steps. A co-occurring word class information applying unit checks whether a target word with respect to a word of a source sentence can be determined as a translated word by using a co-occurring word class information database(S300). In case that the target word is not determined from the co-occurring word class information database(S301), a meaning determining unit solves meaning ambiguity of the target word(S302). If the meaning determining unit solves the meaning ambiguity or the number of translated words of a target noun word is more than 2 but the translated words share the same meaning code, the translated word determining unit determines an optimal translated word by using a target language local context statistics information database which is constructed from a target language corpus in order to select more precise translated word(S303,S304).

    Abstract translation: 提供了一种用于在机器翻译中选择翻译单词的方法和装置,以通过将翻译的单词选择方案应用于机器翻译来获得更自然的翻译质量,并且更容易且更便宜地从外国语言写的文档中获得所需信息 。 一种用于在机器翻译中选择翻译单词的方法包括以下几个步骤。 共同出现的词类信息应用单元通过使用共同出现的词类信息数据库来检查关于源语句的单词的目标词是否可以被确定为翻译的单词(S300)。 在没有从共同词类信息数据库确定目标字的情况下(S301),意义确定单元解决目标字的含义歧义(S302)。 如果意义确定单元解决了目标名词词语的含义歧义或翻译单词的数目大于2,但翻译的单词共享相同的含义代码,则翻译单词确定单元通过使用目标语言本地来确定最佳翻译单词 从目标语言语料库构建的上下文统计信息数据库,以便选择更精确的翻译单词(S303,S304)。

    특허 번역 사전 구축 장치 및 방법
    64.
    发明授权
    특허 번역 사전 구축 장치 및 방법 有权
    装置和方法建立专利翻译字典

    公开(公告)号:KR100818628B1

    公开(公告)日:2008-04-02

    申请号:KR1020060089003

    申请日:2006-09-14

    Abstract: 대용량의 특허 번역 사전을 효율적이며 경제적으로 구축하는 장치 및 방법을 개시한다. 이를 위하여, 상기 장치는 기구축된 전문 용어를 입력받아 특허 번역 사전용 DB에 기록 가능한 형태로 상기 입력된 전문 용어의 포맷을 변경하여 확장 사전용 DB에 기록하는 용어 재구성부와, 출발 언어 특허 문서를 입력받아 상기 확장 사전용 DB에 기록되지 않은 미등록 전문 용어를 상기 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하며, 대역어가 부착되지 않은 상기 단일어 엔트리에 대해 상기 대역어를 부착한 후, 상기 확장 사전용 DB에 상기 엔트리를 추가하는 용어 처리부와, 목표 언어 특허 문서를 입력받아 상기 확장 사전용 DB에서 복수의 대역어들에 대해 특허 분야에 적합한 대역어를 선택하고, 복합어에 대해서는 특화된 단일어 대역어로 번역한 후, 상기 특허 번역 사전용 DB에 기록하는 대역어 특화부를 포함함으로써, 특허 분야별로 대역어가 구분된 대용량의 특허 번역 사전을 구축하는 시간과 비용을 절약할 수 있다.
    대용량, 단일어, 번역, 사전

    특허 번역 사전 구축 장치 및 방법
    65.
    发明公开
    특허 번역 사전 구축 장치 및 방법 有权
    装置和方法建立专利翻译字典

    公开(公告)号:KR1020080024635A

    公开(公告)日:2008-03-19

    申请号:KR1020060089003

    申请日:2006-09-14

    CPC classification number: G06Q50/10 G06F17/21 G06F17/30286 G06Q50/18

    Abstract: A device and a method for constructing a patent translation dictionary are provided to construct a large patent translation dictionary capable of minimizing interference of a user efficiently and economically. A term reformer(200) receives/converts previously constructed technical terms into a format available in a patent translation dictionary database(500) and records the converted terms to an extended dictionary database(900). A term processor(300) extracts the technical terms unregistered to the extended dictionary database from a patent document written in a source language, classifies a single word entry from the unregistered technical terms, attaches a translation to the single-word entry attaching no translation, and adds the single-word entry to the extended dictionary database. A translation specializer(400) selects the translation suitable for a patent field from the extended dictionary database by receiving a target language patent document, translates a compound word into the specialized single-word translation, and writes the single-word translation to the extended dictionary database.

    Abstract translation: 提供了一种用于构建专利翻译词典的装置和方法,以构建能够有效和经济地最小化用户干扰的大型专利翻译词典。 术语重组器(200)将先前构建的技术术语接收/转换为专利翻译词典数据库(500)中可用的格式,并将转换的术语记录到扩展字典数据库(900)。 术语处理器(300)从从源语言编写的专利文献中提取未注册到扩展字典数据库的技术术语,从未注册的技术术语对单个词条进行分类,将翻译附加到不加翻译的单词条目, 并将单字条目添加到扩展字典数据库。 翻译专家(400)通过接收目标语言专利文献从扩展字典数据库中选择适合于专利领域的翻译,将复合词翻译成专门的单字翻译,并将单字翻译写入扩展字典 数据库。

    태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 HMM 품사 태깅 장치 및 방법
    66.
    发明授权
    태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 HMM 품사 태깅 장치 및 방법 有权
    用于统计HMM词性标签的无标签域语料库的方法和装置

    公开(公告)号:KR100784730B1

    公开(公告)日:2007-12-12

    申请号:KR1020060056201

    申请日:2006-06-22

    Abstract: 본 발명은 통계적 HMM(Hidden Markov Model) 품사 태깅 장치 및 방법에 관한 것으로, 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하여 그 어휘의 어휘확률을 적용 도메인에 맞추어 갱신함으로써, 많은 비용과 시간이 드는 적용 도메인의 태깅된 코퍼스 없이, 다양한 도메인에서 높은 성능으로 적용할 수 있는 것을 특징으로 한다.
    본 발명에 따르면, 새로운 특정 도메인에서 정확도가 떨어지는 기존의 통계적 품사 태깅 방법에 비하여, 품사 태깅의 정확성을 크게 향상시킬 수 있으며, 손쉽게 획득할 수 있는 다양한 도메인의 원시 코퍼스(raw corpus)들을 기반으로 각 도메인 의존 어휘확률만을 새로이 재학습하여 갱신함으로써, 태깅된 도메인 코퍼스 없이 특정 도메인에서의 태깅 정확성을 높일 뿐만 아니라 다양한 도메인에서 높은 정확도의 통계적 품사 태깅을 수행할 수 있는 효과가 있다.
    품사태깅, 확률, HMM, 도메인, 코퍼스

    기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법
    67.
    发明授权
    기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법 失效
    使用现有电子词典中词汇词的同现信息和概率信息自动翻译复合名词的方法和装置

    公开(公告)号:KR100779164B1

    公开(公告)日:2007-11-26

    申请号:KR1020060030127

    申请日:2006-04-03

    Abstract: 본 발명은 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치 및 방법에 관한 것으로, 이미 구축되어 있는 기존 대역 전자사전에서 어휘 대역어 공기 정보 및 확률 정보를 자동으로 추출하여 이를 기반으로 복합명사에 대한 대역어를 선택하도록 하는 것을 특징으로 한다.
    본 발명에 따르면, 종래와 같이 의미 태그드 코퍼스를 수동으로 구축할 필요 없이 대역어 선택에 있어서 문제가 되는 의미 중의성 문제와 동일 의미의 이종 대역어 표현 문제를 해결할 수 있으므로, 이에 따라 종래의 대역어 생성 방법에 비해 문맥에 맞는 자연스러운 대역어를 선택할 수 있게 된다.
    복합명사, 어휘, 대역어, 공기, 확률, 문맥, 모호성, 중의성

    제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법
    68.
    发明公开
    제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법 有权
    自动翻译用于限制性域名文件的装置及其方法

    公开(公告)号:KR1020070058950A

    公开(公告)日:2007-06-11

    申请号:KR1020060056203

    申请日:2006-06-22

    Abstract: A device and a method for automatic translation customized to restrictive domain documents are provided to effectively perform the automatic translation by extracting translation knowledge customized to a patent domain and utilizing the extracted knowledge, and perform a structure analysis by extracting a parable analysis range from a long sentence based on the extracted language. A knowledge extractor(100) extracts the translation knowledge needed for translating the document of the restricted domain. A translator(200) generates a translation for the inputted sentence based on a dictionary(300) and a conversion pattern(400) applying the extracted translation knowledge. The knowledge extractor includes a specialized term constructor(110) extracting and constructing specialized terms by constructing a corpus corresponding to the document of the restricted domain through a morpheme analysis/tagging, a translation constructing/refining part(120), and a pattern/phrase pattern constructing part(130). The translator includes a preprocessor(210), a morpheme analyzing/tagging part(220), a structure analyzer(230), a structure/vocabulary converter(240), and a generator(250).

    Abstract translation: 提供一种针对限制性域名文档进行自动翻译的设备和方法,通过提取定制到专利领域的翻译知识和利用提取的知识来有效地执行自动翻译,并通过从长时间提取比较分析范围来进行结构分析 基于提取语言的句子。 知识提取器(100)提取翻译受限域文档所需的翻译知识。 翻译器(200)基于字典(300)和应用提取的翻译知识的转换模式(400)来生成输入的句子的翻译。 知识提取器包括专门的术语构造器(110),通过语素分析/标记,翻译构建/提炼部分(120)和模式/短语构建与受限域的文档相对应的语料库来提取和构造专门术语 图案构造部(130)。 翻译器包括预处理器(210),语素分析/标记部分(220),结构分析器(230),结构/词汇转换器(240)和发生器(250)。

    영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
    69.
    发明授权
    영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 失效
    用于使用动词模式选择名词/动词的目标词的装置,用于英 - 韩机器翻译的检测向量及其方法

    公开(公告)号:KR100617319B1

    公开(公告)日:2006-08-30

    申请号:KR1020050018746

    申请日:2005-03-07

    Abstract: 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하며, 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 또한 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다.
    기계번역, 자동번역, 대역어 선택, 의미 벡터, 동사구 패턴

    영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
    70.
    发明公开
    영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 失效
    用于使用VERB模式选择目标字的设备用于英文 - 韩国机器翻译的VERB模式和感应矢量及其方法

    公开(公告)号:KR1020060067073A

    公开(公告)日:2006-06-19

    申请号:KR1020050018746

    申请日:2005-03-07

    CPC classification number: G06F17/289 G06F17/2755 G06F17/2795 G06F17/30427

    Abstract: 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하며, 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 또한 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다.
    기계번역, 자동번역, 대역어 선택, 의미 벡터, 동사구 패턴

Patent Agency Ranking