-
公开(公告)号:KR100474359B1
公开(公告)日:2005-03-10
申请号:KR1020020079354
申请日:2002-12-12
Applicant: 한국전자통신연구원
IPC: G10L15/02
Abstract: 본 발명은 컴퓨터를 사용하여 음성을 인식하여 이를 문자로 변환해주는 음성 인식기 등에서 음성 인식 시 사용되는 언어모델을 구축하는 방법에 관한 것이다.
본 발명은 어휘를 추출하기 위한 대상이 되는 텍스트 코퍼스를 순수 한글 문자만 포함되도록 전처리하고, 상기 전처리된 텍스트 코퍼스의 어절을 구성하는 형태소에 대한 품사 태깅을 수행하여 형태소를 분석하고, 상기 형태소를 의사형태소 단위로 병합시키는 제1 단계와, 상기 제1 단계를 통해 처리된 어휘 추출 대상이 되는 텍스트 코퍼스에서 키워드 품사로 구성된 문장 코퍼스를 추출하는 제2 단계와, 상기 추출된 키워드 품사로 구성된 문장 코퍼스를 사용하여 키워드 어휘사전을 작성하고, 상기 어휘사전을 통해 키워드 N-gram 언어모델 및 키워드 발음사전을 구축하는 제3 단계를 포함하는 키워드 기반 N-gram 언어모델 구축 방법을 제공한다.
본 발명에 의하면, 내용어를 중심으로 하는 키워드 기반의 n-gram 언어모델을 구축하는 방법을 제공함으로써, 자연스러운 발성에 대한 음성인식 성능을 향상시키는 효과가 있다.-
公开(公告)号:KR100445907B1
公开(公告)日:2004-08-25
申请号:KR1020010085035
申请日:2001-12-26
Applicant: 한국전자통신연구원
IPC: G10L15/14
Abstract: PURPOSE: A language identification system and method are provided to output an identification result with high reliability within a short period of time with a very simple structure. CONSTITUTION: A language identification system includes an acoustic model storage unit(230), a first sentence based language identifier(220), a phoneme-map based language identifier(240), and an identification result integration unit(260). The acoustic model storage unit stores a first sentence based acoustic model obtained by learning video signal data with respect to the first sentence and a phoneme-map based acoustic model learnt by segmenting a phoneme for each language to be identified and reflecting a phoneme map on the phonemes. The first sentence based language identifier calculates an identification score for the first sentence of an input audio signal using the first sentence based acoustic model and outputs an identification result. The phoneme-map based language identifier calculates a recognition score for the input audio signal using the phoneme-map based acoustic model and outputs an identification result. The identification result integration unit integrates the identification results of the first sentence based language identifier and the phoneme-map based language identifier.
Abstract translation: 目的:提供一种语言识别系统和方法,以非常简单的结构在短时间内输出具有高可靠性的识别结果。 构成:语言识别系统包括声学模型存储单元(230),基于第一句子的语言标识符(220),基于音素地图的语言标识符(240)和识别结果整合单元(260)。 声学模型存储单元存储通过学习关于第一句子的视频信号数据获得的基于第一句子的声学模型和通过分割每个将被识别的语言的音素而学习的基于音素地图的声学模型,并且将音素地图反映在 音素。 基于第一句子的语言标识符使用基于第一句子的声学模型来计算输入音频信号的第一句子的识别分数并且输出识别结果。 基于音素地图的语言标识符使用基于音素地图的声学模型计算输入音频信号的识别分数并输出识别结果。 识别结果整合单元整合了基于第一句子的语言标识符和基于音素地图的语言标识符的识别结果。
-
公开(公告)号:KR100487718B1
公开(公告)日:2005-05-03
申请号:KR1020020081932
申请日:2002-12-20
Applicant: 한국전자통신연구원
Inventor: 정의정
IPC: G06F17/20
Abstract: 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강 시스템 및 그 방법이 개시된다. 본 발명에 따른 코퍼스 보강 시스템은 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스, 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스, 내용유사 코퍼스의 형식을 영역 코퍼스와 같은 형식으로 표준화시키는 형식 표준화부 및 형식 표준화부에서 표준화된 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 가산기를 포함하는 것을 특징으로 하며, 연속음성인식을 위한 통계적 언어모델의 성능 저하의 원인이 되는 영역 종속적 훈련 코퍼스 부족 문제 해결을 위하여 영역 외 훈련 코퍼스를 활용함으로써, 음성인식을 위한 언어모델이 보다 신뢰성 있고 강건해 질 수 있다.
-
公开(公告)号:KR1020040055417A
公开(公告)日:2004-06-26
申请号:KR1020020082084
申请日:2002-12-21
Applicant: 한국전자통신연구원
Inventor: 정의정
IPC: G10L15/183 , G10L15/06
Abstract: PURPOSE: A conversational style continuous speech recognition apparatus and a method are provided to interpolate a far-reaching language model including each region and a language model specialized on each region, thereby enhance the language recognition ability. CONSTITUTION: A multi-region language modeling unit(220) segments the region for modeling, constructs the segmented multiple local language model databases(207-209), collects conversations related to general language regions and constructs the collected conversations as a wide language model database(206). The multi-region language modeling unit(220) also endows the language models extracted from the multiple local language model databases(207-209) and the language models extracted from the wide language model database(206) with a predetermined weighted value, respectively and interpolates them. The multi-region language modeling unit(220) is comprised of an interpolator(210), a wide language model database(206) and the multiple local language model databases(207-209).
Abstract translation: 目的:提供一种会话式连续语音识别装置和方法,用于内插包括每个区域在内的意义深远的语言模型和专门针对每个区域的语言模型,从而增强语言识别能力。 构成:多区域语言建模单元(220)对区域进行建模,构建分段的多个本地语言模型数据库(207-209),收集与一般语言区域相关的对话,并将收集的对话构建为广泛语言模型数据库 (206)。 多区域语言建模单元(220)还分别赋予从多语言模型数据库(207-209)提取的语言模型和从宽语言模型数据库(206)提取的语言模型,并且具有预定的加权值。 内插它们 多区域语言建模单元(220)由内插器(210),宽语言模型数据库(206)和多个本地语言模型数据库(207-209)组成。
-
公开(公告)号:KR1020040055292A
公开(公告)日:2004-06-26
申请号:KR1020020081932
申请日:2002-12-20
Applicant: 한국전자통신연구원
Inventor: 정의정
IPC: G06F17/20
Abstract: PURPOSE: A system and a method for reinforcing a domain subordinated training corpus using the corpus out of a domain are provided to improve a performance of a language model for the continuous speech recognition by using the training corpus out of the related domain. CONSTITUTION: The domain corpus(205) has the language model data of a small size for a predetermined domain. A similar contents corpus(202) has the contents similar to the domain corpus but a form different from the domain corpus while having the language model data different from the domain corpus. A form standardization part(204) standardizes the form of the similar contents corpus to the same form as the domain corpus. An adder(209) generates the corpus reinforcing the language module by adding the corpus standardized in the form standardization part to the domain corpus.
Abstract translation: 目的:提供一种使用域外的语料库加强域下属训练语料库的系统和方法,以通过使用相关领域的训练语料库来提高连续语音识别语言模型的性能。 构成:域语料库(205)具有预定域的小尺寸的语言模型数据。 类似的内容语料库(202)具有类似于域语料库的内容,但是具有与域语料库不同的形式,同时语言模型数据不同于域语料库。 表格标准化部分(204)将类似内容语料库的形式标准化为与域语料库相同的形式。 加法器(209)通过将形式标准化部分中标准化的语料库添加到域语料库来生成加强语言模块的语料库。
-
公开(公告)号:KR1020040051426A
公开(公告)日:2004-06-18
申请号:KR1020020079354
申请日:2002-12-12
Applicant: 한국전자통신연구원
IPC: G10L15/02
Abstract: PURPOSE: A method for constructing a keyword-based N-gram language model is provided to define a part of speech necessary for meaning transmission as a keyword part of speech, extract a corpus composed as the keyword part of speech from a large-scale corpus, and construct the keyword-based N-gram language model. CONSTITUTION: A text corpus is preprocessed to include only Hangul characters(S201). A part tagging of speech is performed with respect to a morpheme composing a paragraph of the preprocessed text corpus, and the morpheme is analyzed(S202). The morpheme is merged by a pseudo-morpheme unit(S203). A sentence corpus composed as a keyword part of speech is extracted from the processed text corpus(S204). A keyword vocabulary dictionary is written using the extracted sentence corpus(S205). A keyword-based N-gram language model and a keyword pronunciation dictionary are constructed through the keyword vocabulary dictionary(S206,S207).
Abstract translation: 目的:提供一种构建基于关键词的N-gram语言模型的方法,以定义一个必要的语义部分,作为关键词部分语音的传输,从大规模语料库中提取组成关键字词组的语料库 ,并构建了基于关键字的N-gram语言模型。 规定:文本语料库被预处理以仅包括韩文字符(S201)。 对构成预处理文本语料库的段落的语素进行语音的部分标注,分析语素(S202)。 语素由伪语素单元合并(S203)。 从处理后的文本语料库中提取构成为关键词部分的句子语句(S204)。 使用提取的句子语料库写入关键词词典词典(S205)。 通过关键字词汇词典构建基于关键字的N-gram语言模型和关键词发音词典(S206,S207)。
-
公开(公告)号:KR1020030055480A
公开(公告)日:2003-07-04
申请号:KR1020010085035
申请日:2001-12-26
Applicant: 한국전자통신연구원
IPC: G10L15/14
Abstract: PURPOSE: A language identification system and method are provided to output an identification result with high reliability within a short period of time with a very simple structure. CONSTITUTION: A language identification system includes an acoustic model storage unit(230), a first sentence based language identifier(220), a phoneme-map based language identifier(240), and an identification result integration unit(260). The acoustic model storage unit stores a first sentence based acoustic model obtained by learning video signal data with respect to the first sentence and a phoneme-map based acoustic model learnt by segmenting a phoneme for each language to be identified and reflecting a phoneme map on the phonemes. The first sentence based language identifier calculates an identification score for the first sentence of an input audio signal using the first sentence based acoustic model and outputs an identification result. The phoneme-map based language identifier calculates a recognition score for the input audio signal using the phoneme-map based acoustic model and outputs an identification result. The identification result integration unit integrates the identification results of the first sentence based language identifier and the phoneme-map based language identifier.
Abstract translation: 目的:提供语言识别系统和方法,以非常简单的结构在短时间内输出具有高可靠性的识别结果。 构成:语言识别系统包括声学模型存储单元(230),基于第一句子的语言标识符(220),基于音素映射的语言标识符(240)和识别结果整合单元(260)。 声学模型存储单元存储通过学习关于第一句子的视频信号数据获得的基于第一句的声学模型和通过对要识别的每种语言分割音素而学习的基于音素图的声学模型,并且在 音素。 基于第一句的语言标识符使用基于第一句的声学模型来计算输入音频信号的第一句的识别分数,并输出识别结果。 基于音素映射的语言标识符使用基于音素图的声学模型计算输入音频信号的识别分数,并输出识别结果。 识别结果集成单元将基于第一句的语言标识符和基于语音映射的语言标识符的识别结果相结合。
-
-
-
-
-
-