-
公开(公告)号:KR100283100B1
公开(公告)日:2001-03-02
申请号:KR1019980052941
申请日:1998-12-03
Applicant: 한국전자통신연구원
IPC: G06F19/00
Abstract: 본 발명은 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법에 관한 것이다.
본 발명은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에서 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 출력하는 수단으로 구성되며, 이들의 작용에 따라 그 방법도 구현된다.
본 발명에 의하면 대용량의 말뭉치로부터 연속, 비연속 형태의 다양한 용례들을 추출할 수 있기 때문에 말뭉치의 특성을 분석하고자 하는 분야나 다량의 용례를 이용하여 자연어 처리를 하고자 하는 분야를 포함하여 자연어 처리의 전 분야에서 기본 지식의 구축을 위해 광범위하게 사용될 수 있다.-
公开(公告)号:KR1020000039749A
公开(公告)日:2000-07-05
申请号:KR1019980055171
申请日:1998-12-15
Applicant: 한국전자통신연구원
IPC: G06F17/28
Abstract: PURPOSE: A converting apparatus for machine translation and converting method using the converting apparatus is provided to manage a structure converting rule easily by describing the structure converting rule according to a language phenomenon. CONSTITUTION: A dependent structure analyzing device(1) converts a phrase structure pass tree of an original language generated in a syntax analyzing stage into a dependent structure according to a dependent structure analyzing rule. A dependent structure converting device(2) converts a dependent structure tree of the original language into a dependent structure of an object language according to the dependent structure analyzing rule. A phrase structure generating device(3) converts the dependent structure tree of the object language into a phrase structure tree for an object language sentence according to an object language phrase structure generating rule and outputs a morphemic list. A compiler(4) generates a program for performing a structure converting function. An alternating language selecting device(5) performs a conversion of a vocabulary.
Abstract translation: 目的:提供一种使用该转换装置的机器翻译和转换方法的转换装置,以便通过根据语言现象描述结构转换规则来容易地管理结构转换规则。 构成:依赖结构分析装置(1)根据依赖结构分析规则将语法分析阶段中生成的原始语言的短语结构传递树转换为依赖结构。 依赖结构转换装置(2)根据依赖结构分析规则将原始语言的依赖结构树转换为对象语言的依赖结构。 短语结构生成装置(3)根据对象语言短语结构生成规则将对象语言的依赖结构树转换为对象语言句子的短语结构树,并输出语素表。 编译器(4)生成用于执行结构转换功能的程序。 交替语言选择装置(5)执行词汇的转换。
-
公开(公告)号:KR1020000038079A
公开(公告)日:2000-07-05
申请号:KR1019980052941
申请日:1998-12-03
Applicant: 한국전자통신연구원
IPC: G06F19/00
Abstract: PURPOSE: A device and method for extracting example of use statistically for a large amount language batch are provided so that a whole field of a natural language process can be used for constructing a basic knowledge. CONSTITUTION: A device for extracting example of use statistically for a large amount language batch includes a device for producing a basic table in order to extract an example of use from a language batch. A candidate of example of use is determined from a device for determining an example of use. For management a memory and time efficiently, a shortened table producing device is used.
Abstract translation: 目的:提供一种用于提取大量语言批次的统计学用例的装置和方法,使得可以使用自然语言过程的整个领域来构建基础知识。 构成:用于提取大量语言批次的统计学使用的装置包括用于产生基本表的装置,以便从语言批次中提取使用的示例。 从用于确定使用示例的设备确定使用示例的候选者。 为了管理存储器和时间效率,使用缩短的表生成装置。
-
公开(公告)号:KR1020000037564A
公开(公告)日:2000-07-05
申请号:KR1019980052181
申请日:1998-12-01
Applicant: 한국전자통신연구원
IPC: G06F17/27
Abstract: PURPOSE: A method and device for checking error of the part of speech using partial parsing is provided to descript a context used words as a normal expression, for preventing a tagging error generated from a part of speech tagger in a natural language process system. The preventer is provided, that a probability corrector recognizes a context of present words by use of a partial parsing and a rule for correcting probability, and to input a tagger based on the probability by correcting a probability value of the words according to each context used of the words according to executing sentences which are descripted on a rule for correcting probability. CONSTITUTION: A method and device for checking error of the part of speech using partial parsing comprises a pattern generator(5), a compiler(2), a probability corrector(6), and a tagger(7). The pattern generator(5) has each part of speech corresponded to inputted words and a corresponded probability information, and generates an input structure of a probable tagger. The compiler(2) generates a rule for recognizing context of sentences, by use of a rule for correcting probability predetermined variable probability information which the inputted words have according to a context. The probability corrector(6) performs the partial parsing, for deciding either applying to a word consisted of a sentence inputted the generated rule, and if applying, corrects a probability value according to a preset rule for correcting probability. The tagger(7) decides a part of speech consisted of the inputted sentence, by performing the tagger based on probability according to the corrected probability value.
Abstract translation: 目的:提供一种用于使用部分解析来检查部分语音的错误的方法和装置,以将上下文使用的单词描述为正常表达,用于防止在自然语言处理系统中从语音标签器的一部分产生的标记错误。 提供防止器,概率校正器通过使用部分解析和用于校正概率的规则来识别当前字的上下文,并且根据所述概率通过根据所使用的每个上下文来校正单词的概率值来输入标记器 根据在用于校正概率的规则中描述的执行句子的单词。 构成:使用部分解析来检查部分语音的错误的方法和装置包括模式生成器(5),编译器(2),概率校正器(6)和标签器(7)。 模式生成器(5)具有与输入的单词和对应的概率信息对应的每个语音部分,并且生成可能的标签器的输入结构。 编译器(2)通过使用用于根据上下文对输入的单词具有的概率预定可变概率信息进行校正的规则,生成用于识别句子的上下文的规则。 概率校正器(6)执行部分解析,用于决定应用到由输入生成规则的句子组成的词,并且如果应用,则根据用于校正概率的预设规则校正概率值。 标签器(7)通过根据校正的概率值基于概率执行标签器来确定由输入的句子组成的部分语音。
-
公开(公告)号:KR100248387B1
公开(公告)日:2000-03-15
申请号:KR1019970066398
申请日:1997-12-05
Applicant: 한국전자통신연구원
IPC: G06F17/28
Abstract: 본 발명은 외국어 작문지원 시스템에 관한 것으로서, 사용자가 시스템의 작문서비스 자동개입시점을 선택하고 상대국어로 작성하고자 하는 문장을 자국어의 어절단위(예:한국어) 또는 연속된 문자열(예: 일본어)로 작성해 나가면, 시스템의 자동개입에 의해 자국어 분석기술과 상대국어로의 변환/생성기술을 적용하여 상대국어의 문자열을 생성해 주므로서, 자국어 작성능력 만으로 상대국어를 작문할 수 있도록 한다. 특히, 작성중인 자국어의 문자열에 분석의 중의성이나 상대국어로의 변환시에 대응어 선택의 중의성 문제가 있을 경우 또는 미등록어 문제가 있을 때는 시스템이 제공하는 자국어 도움말정보로 구성된 대화창에서 사용자가 선택함으로서 사용자의 자국어 언어지식만으로 문제점을 해결할 수 있다. 따라서 시스템의 자동개입을 요구한 단위별로 언어처리의 문제점인 중의성과 미등록어 문제점이 해결되어 가므로 실제 의사교환에 쓰일 수 있는 정확한 작문이 가능하다.
-
公开(公告)号:KR1019990047118A
公开(公告)日:1999-07-05
申请号:KR1019970065368
申请日:1997-12-02
Applicant: 한국전자통신연구원
IPC: G09B7/00
Abstract: 본 발명은 외국인을 포함하여 한국어를 모르는 사람에게 한국어를 교육시키기 위한 장치로서, 일방적인 교육 시스템이 아니라 학습자와의 상호 작용에 의한 학습 방법으로 학습자의 한국어에 대한 언어 수준을 장치가 자동으로 판단함으로써 학습자의 한국어 실력에 맞도록 학습 내용을 선정하여 한국어를 가르칠 수 있도록 구성되어 있으며, 학습자의 편의성을 위해 그래픽 기능, 문자 인식 기능, 음성 인식, 출력 기능, 철자 검사, 문법 검사 기능을 보유한 한국어 교육 시스템 및 제어방법에 관한 것이다.
-
公开(公告)号:KR100327114B1
公开(公告)日:2002-03-13
申请号:KR1019990061182
申请日:1999-12-23
Applicant: 한국전자통신연구원
IPC: G06F17/28
Abstract: 본발명은문장골격을기반으로한 자동번역시스템및 그방법과상기방법을실현시키기위한프로그램을기록한컴퓨터로읽을수 있는기록매체에관한것으로, 문장의골격을표현하고있는문틀에기반하여, 구조적인모호성을해소한자연스러운번역문장을생성할수 있는문장골격을기반으로한 자동번역시스템및 그방법과상기방법을실현시키기위한프로그램을기록한컴퓨터로읽을수 있는기록매체를제공하기위하여, 입력문장에대해원시언어형태소분석기및 구단위구문분석기를거쳐생성된구 단위구문분석결과가올바른결과인가를확인하여, 상기구 단위구문분석결과를이용하여원문틀탐색키를생성하는제 1 단계; 상기원문틀탐색키를이용하여상기원문틀데이터베이스를탐색하여, 상기원문틀데이터베이스에서탐색한제약조건을입력문장에매칭시키는제 2 단계; 상기제약조건이매칭된구문에슬롯단위의어순변환및 슬롯내부의품사단위의어순변환을수행하는제 3 단계; 및상기슬롯단위및 슬롯내부의품사단위로어순변환된원시문장을정규화된자질값을갖는목적언어형태소로구성하는제 4 단계를포함하며, 자동번역시스템등에이용됨.
-
公开(公告)号:KR1020010075848A
公开(公告)日:2001-08-11
申请号:KR1020000002721
申请日:2000-01-20
Applicant: 한국전자통신연구원
IPC: G06F17/27
Abstract: PURPOSE: An apparatus and a method for recognizing a sentence range using regular expression and probabilistic context information are provided to recognize a sentence range using regular expression and probabilistic context information in process of morphological analysis and part-of-speech tagging, without executing sentence separation for an input string in advance. CONSTITUTION: The apparatus is composed of a token splitter(11), a morphological analyzer(12), a part-of-speech tagger(13), a sentence separation rule(14), a rule interpreter(15), a sentence splitter(16), and a probability dictionary(17). The token splitter(11) separates an input document into the sequence of tokens for tagging. The morphological analyzer(12) executes morphological analysis for input words using the probability dictionary(17) and generates an input structure of a probabilistic part-of-speech tagger. The part-of-speech tagger(13) eliminates the part-of-speech ambiguity of the current word using the probabilistic information of the current word and the probabilistic information of neighboring words. The rule interpreter(15), recognizing a context from the sentence separation rule(14), converts the sentence separation rule(14) into finite state automata in order to apply a sentence range recognition rule rapidly. The sentence splitter(16) splits a sentence using the probabilistic context information of the morphological analyzer(12) and the regular expression of the rule interpreter(15).
Abstract translation: 目的:提供使用正则表达式和概率上下文信息来识别句子范围的装置和方法,以在形态分析和部分语音标记过程中使用正则表达式和概率上下文信息来识别句子范围,而不执行句子分离 提前输入字符串。 构成:该设备由令牌分离器(11),形态分析器(12),词性标签器(13),句子分离规则(14),规则解释器(15),句子分离器 (16)和概率辞典(17)。 令牌分离器(11)将输入文档分成用于标记的令牌序列。 形态分析器(12)使用概率字典(17)对输入字执行形态分析,并且生成概率词性标签器的输入结构。 词性标记器(13)利用当前单词的概率信息和相邻单词的概率信息,消除了当前单词的词性模糊。 从句子分离规则(14)识别语境的规则解释器(15)将句子分离规则(14)转换为有限状态自动机,以便迅速应用句子范围识别规则。 句子分割器(16)使用形态分析器(12)的概率上下文信息和规则解释器(15)的正则表达式分割句子。
-
公开(公告)号:KR1020010057781A
公开(公告)日:2001-07-05
申请号:KR1019990061188
申请日:1999-12-23
Applicant: 한국전자통신연구원
IPC: G06F17/27
Abstract: PURPOSE: An apparatus and method for analyzing a multi-word morpheme is provided to increase the efficiency of the machine translation by registering the multi-word morpheme in a dictionary by combining a plurality of paragraphs. CONSTITUTION: An analysis control unit(101) refers a connection dictionary(102), which stores information for determining paragraphs to be analyzed. In addition, the analysis control unit(101) connects and transmits the paragraphs. A vocabulary dictionary(103) stores information needed to analyze and translate a morpheme. A connection rule(104) classifies a connection form of the morpheme, and sets a connection category. A morpheme analyzer(110) analyzes a multi-word morpheme. The morpheme analyzer(110) includes a morpheme analysis unit(111) which performs a morpheme analysis, a form analysis unit(112), an error processing unit(113) which processes an error of spacing words, a form restoration unit(114) and a code conversion unit(115) which mutually converts 2-byte completion code into 3-byte combination code.
Abstract translation: 目的:提供一种用于分析多字词素的装置和方法,用于通过组合多个段落来将多字词素注册在字典中来提高机器翻译的效率。 构成:分析控制单元(101)参考存储用于确定要分析的段落的信息的连接字典(102)。 此外,分析控制单元(101)连接并传送段落。 词汇词典(103)存储分析和翻译语素所需的信息。 连接规则(104)对语素的连接形式进行分类,并设置连接类别。 语素分析器(110)分析多字词素。 语素分析器(110)包括执行语素分析的语素分析单元(111),形式分析单元(112),处理间隔字的错误的错误处理单元(113),窗体恢复单元(114) 以及将2字节完成代码相互转换为3字节组合代码的代码转换单元(115)。
-
20.
公开(公告)号:KR1020010018214A
公开(公告)日:2001-03-05
申请号:KR1019990034077
申请日:1999-08-18
Applicant: 한국전자통신연구원
IPC: G06F17/27
Abstract: PURPOSE: The apparatus and the method of processing a HTML/SGML tag for a natural language are provided to enable an original document to be recognized by a sentence unit, and to generate a corrected document without the loss of the tag in the original document, by distinguishing a sentence unit tag from a word unit tag, and by using a user definition tag for a script and notes. CONSTITUTION: A memory load device(2) loads the data in a disk to a memory in response to an inputted HTML document(1). A HTML document(2) is loaded to the memory by the device(2). A device(3) separates the tag from the HTML document in the memory. A HTML tag database(3a) is referred in the separation of the tag. A memory(3b) stores the separated tag. A sentence recognition part(4) recognizes a sentence from which the tag is separated. A part(4a) stores the result of the sentence recognition. A device(5) processes the result thereof to form a translation and a summary. A memory(5a) stores the contents of the processed result. A tag recovery part(6) couples the tag with the contents referring to the data in the memory(5a) and the memory(3b). A memory(6a) stores the recovered tag.
Abstract translation: 目的:提供用于处理自然语言的HTML / SGML标签的装置和方法,以使原始文档能够由句子单元识别,并且生成经校正的文档而不损失原始文档中的标签, 通过将句子单位标签与单词标签区分开来,并通过使用用户定义标签进行脚本和笔记。 构成:存储器加载设备(2)响应输入的HTML文档(1)将磁盘中的数据加载到存储器。 HTML文档(2)由设备(2)加载到存储器。 设备(3)将标签与内存中的HTML文档分开。 在标签的分离中引用HTML标签数据库(3a)。 存储器(3b)存储分离的标签。 句子识别部分(4)识别标签被分离的句子。 部分(4a)存储句子识别的结果。 设备(5)处理其结果以形成翻译和摘要。 存储器(5a)存储处理结果的内容。 标签恢复部分(6)根据存储器(5a)和存储器(3b)中的数据将标签与内容耦合。 存储器(6a)存储恢复的标签。
-
-
-
-
-
-
-
-
-