발화 검증 장치 및 그 방법
    151.
    发明公开
    발화 검증 장치 및 그 방법 有权
    UTTERANCE验证装置及其方法

    公开(公告)号:KR1020100062824A

    公开(公告)日:2010-06-10

    申请号:KR1020090026297

    申请日:2009-03-27

    Abstract: PURPOSE: An utterance verification apparatus and a method thereof are provided, which can improve the reliability about the voice recognition result by performing the whole utterance verification about the word after the performance of the partial utterance verification about each sub word. CONSTITUTION: A sub word likelihood ratio calculator(204) calculates the sub word likelihood ratio about the divided sub word. A likelihood ratio weight applying unit(206) applies the weighted value of likelihood ratio according to the recognition reliability to the calculated sub word likelihood ratio. A word likelihood ratio calculator(208) calculates the word likelihood ratio by using the sub word likelihood ratio. A speech verification decision unit(210) decides the output of the word after the utterance verification with the calculated word likelihood ratio.

    Abstract translation: 目的:提供一种话语验证装置及其方法,通过在关于每个子字的部分话语验证之后执行关于该单词的整个话语验证,可提高语音识别结果的可靠性。 构成:子字似然比计算器(204)计算关于分割子字的子字似然比。 似然比权重赋予单元(206)将识别可靠性的似然比的加权值应用于计算出的子字似然比。 字似然比计算器(208)通过使用子字似然比来计算字似然比。 语音验证判定单元(210)用所计算的字似然比来确定在话语验证之后的单词的输出。

    음성 인식 방법
    152.
    发明授权
    음성 인식 방법 有权
    음성인식방법

    公开(公告)号:KR100930715B1

    公开(公告)日:2009-12-09

    申请号:KR1020070107705

    申请日:2007-10-25

    Abstract: A voice recognition method is provided to model various textual language phenomenons into statistical modeling among various knowledge sources. A morpheme is interpreted for a primitive text language corpus consisting of the separate words of Korean(S201). A morpheme language corpus separated is a separate word generated to morpheme. A word trigram which is the language model consisting of a morpheme unigram about a generated morpheme language corpus as described above, and bigram and trigrams is generated(S202). A first N - best recognition candidate to the maximum N is generated for a voice(S204). Recognition result candidates applying a morph-syntactic constraints are revaluated(S205). A second N-best list generated in above step is revaluated(S206). A final N-best list is generated.

    Abstract translation: 提供语音识别方法来将各种文本语言现象模型化为各种知识源之间的统计建模。 一个语素被解释为由韩语的单词组成的原始文本语言语料库(S201)。 一个语素语言语料库是一个独立的单词,生成为语素。 生成如上所述的由关于所生成的语素语料库的词素单元构成的语言模型的词三元组,以及生成二元语法和三元语法(S202)。 为语音生成最大N的第一个N最佳识别候选者(S204)。 重新评估应用形态句法约束的识别结果候选(S205)。 在上述步骤中生成的第二个N-最佳列表被重新评估(S206)。 生成最终的N-最佳列表。

    부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
    153.
    发明公开
    부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치 失效
    使用噪声环境中的不确定信息进行语音识别的方法和装置

    公开(公告)号:KR1020090030077A

    公开(公告)日:2009-03-24

    申请号:KR1020070095401

    申请日:2007-09-19

    Inventor: 정호영 강병옥

    CPC classification number: G10L15/20 G10L25/18

    Abstract: A method for recognizing the voice in a noise environment by using the uncertainty information of a sub-band and an apparatus therefor are provided to extract the voice features stronger against the noise by extracting the uncertainty information of estimated voices of each sub-band from an estimated voice obtained through the noise signal modeling, and then weighted values fro each sub-band. A feature extracting module(100) estimates a voice in which noise is removed from the inputted voice signal, extracts the uncertainty information of each sub-band in the estimated voice, and then extracts the voice features by using the extracted uncertainty information as sub-band weighted values. A voice recognition module(200) converts the acoustic model according to the sub-band weighted values to perform the voice recognition based on the converted acoustic model and extracted voice features.

    Abstract translation: 提供一种通过使用子带的不确定性信息和其装置来识别噪声环境中的语音的方法,通过从一个或多个子带提取每个子带的估计语音的不确定性信息来提取对噪声更强的语音特征 通过噪声信号建模获得的估计声音,然后对每个子带进行加权值。 特征提取模块(100)从输入的语音信号中估计噪声被去除的声音,提取估计声音中的每个子带的不确定性信息,然后通过使用提取的不确定性信息作为子帧提取语音特征, 带加权值。 语音识别模块(200)根据子带加权值转换声学模型,以基于转换的声学模型和提取的语音特征来执行语音识别。

    음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치
    154.
    发明授权
    음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치 有权
    用于验证使用其的语音/非语音和语音识别装置的方法

    公开(公告)号:KR100737358B1

    公开(公告)日:2007-07-09

    申请号:KR1020050069041

    申请日:2005-07-28

    Abstract: 본 발명이 이루고자 하는 기술적 과제는 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성 신호를 음성 신호로 판단하고 음성인식함으로써 발생하는 음성인식의 오류를 줄일 수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치를 제공하는 것이다.
    본 발명은 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및 상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하되, 상기 음성/비음성 검증부는, 상기 입력되는 음성 데이터를 프레임 단위로 나누어 상기 프레임 단위의 음성 데이터로부터 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나의 특징 벡터를 추출하며, 상기 음성/비음성 모델을 이용하여 상기 프레임 단위의 음성 데이터에 대하여 음성/비음성 결정을 수행한 후, 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하여 창 단위로 음성/비음성 결정을 내리는 것을 특징으로 하는 음성 인식 장치를 제공한다.

    강인한 음성인식을 위한 채널 정규화 장치 및 그 방법
    155.
    发明公开
    강인한 음성인식을 위한 채널 정규화 장치 및 그 방법 有权
    通道正常化装置和方法用于强大的语音识别

    公开(公告)号:KR1020060067097A

    公开(公告)日:2006-06-19

    申请号:KR1020050037094

    申请日:2005-05-03

    Inventor: 정호영

    Abstract: 본 발명은 음성인식의 실제 적용에 있어 성능에 영향을 주는 채널변이를 해결하고자 하는 것이다. 이러한 본 발명의 장치는 멜(mel)-주파수 켑스트럼 계수(MFCC) 특징을 추출하여 시간에 따른 프레임열을 출력하는 특징추출부; 상기 출력된 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 특징 파라미터 평균계산부; 채널변이를 줄인 음성 데이터베이스로부터 코드북을 구성한 후, 채널왜곡된 입력음성의 멜-주파수 켑스트럼 계수(MFCC)값이 들어오면 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이를 추정하는 프레임별 채널변이 추정부; 및 상기 특징 파라미터 평균계산부에서 얻어진 채널변이와 상기 프레임별 채널변이 추정부에서 얻어진 시간별 채널변이의 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 스무싱 기반 채널정규화부로 구성된다. 따라서 본 발명은 음성인식시스템의 안정적인 성능을 위해서 채널정규화 방법을 제시하고 있으며, 다양한 채널변이가 있는 환경, 특히 전화망 환경에서 인식성능 향상에 기여할 수 있다.
    음성인식, 채널정규화, MFCC, 평균, 채널변이 추정

    음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치
    156.
    发明公开
    음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치 有权
    用于验证语音/非语音和语音识别装置的方法

    公开(公告)号:KR1020060064494A

    公开(公告)日:2006-06-13

    申请号:KR1020050069041

    申请日:2005-07-28

    Abstract: 본 발명이 이루고자 하는 기술적 과제는 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성 신호를 음성 신호로 판단하고 음성인식함으로써 발생하는 음성인식의 오류를 줄일 수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치를 제공하는 것이다.
    본 발명은 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및 상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하는 음성 인식 장치를 제공한다.

    복수 단계 디코딩을 이용한 연속 숫자음 인식 시스템
    157.
    发明授权
    복수 단계 디코딩을 이용한 연속 숫자음 인식 시스템 失效
    使用多级解码的连接数字识别系统

    公开(公告)号:KR100573871B1

    公开(公告)日:2006-04-26

    申请号:KR1020030087746

    申请日:2003-12-04

    Inventor: 김갑기 정호영

    Abstract: 본 발명은 전화망 환경에서 한국어 연속 숫자음 인식의 성능을 향상시키기 위한 인식 시스템에 관한 것이다. 본 발명에 따른 연속 숫자음 인식 시스템은 화자에 의해 발성된 음성 신호를 입력받아 음성 구간을 결정하고, 상기 결정된 음성 구간으로부터 특징 벡터를 추출하는 전처리부; 다중 음향 모델을 이용하여 상기 전처리부에서 얻어진 특징 벡터에 대해 1차적으로 디코딩을 수행하고, 상기 1차 디코딩 결과를 이용하여 인식 대상 어휘 및 음향 모델을 재구성하며, 상기 재구성된 인식 대상 어휘 및 음향 모델을 이용하여 상기 1차 디코딩된 특징 벡터에 대해 2차 디코딩을 수행하는 인식부; 및, 상기 인식부에서 출력된 디코딩 결과에 대해 음소/단어 모델과 반음소/반단어 모델을 적용하여 해당 발성을 검증하는 후처리부를 포함하는 것을 특징으로 한다.
    연속 숫자음, 인식 대상 어휘 재구성, 2단계 디코딩, 다중 음향 모델, 최고 성능 후보

    잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
    158.
    发明授权
    잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 有权
    嘈杂环境下语音识别的特征向量提取装置和反相关滤波方法

    公开(公告)号:KR100571427B1

    公开(公告)日:2006-04-17

    申请号:KR1020030085223

    申请日:2003-11-27

    Inventor: 정호영

    Abstract: 본 발명은 잡음 환경에서의 음성 인식을 위한 음성 신호의 특징 벡터 추출 장치 및 상기 장치에 적용되는 역상관 필터링 방법에 관한 것이다. 본 발명에 따른 음성 신호의 특징 벡터 추출 장치는 특징 벡터를 추출할 때 잡음으로 인한 영향을 최소화하기 위하여 로그 필터뱅크 에너지에 대해 역상관 필터링을 수행함으로써 음성 신호에 비해 비교적 느린 변화 성분을 갖는 잡음과 화자의 고유 성분을 제거할 수 있다. 이렇게 함으로써, 잡음 환경에서의 불특정 화자를 대상으로 하는 화자독립 음성인식 시스템에서 잡음 및 화자 변이의 영향을 줄여서 인식 성능을 향상시킬 수 있다. 따라서, 본 발명은 잡음 처리 외에 화자독립 음성인식 시스템의 인식 성능을 향상시키는 이점도 얻을 수 있다.
    잡음 환경, 음성 인식, 음성 특징 벡터, MFCC(Mel-Frequency Cepstral Coefficients), 역상관 필터(decorrealtion filter)

    Abstract translation: 本发明涉及一种用于在噪声环境中提取用于语音识别的语音信号的特征矢量的装置以及应用于该装置的逆相关滤波方法。 根据本发明的用于提取语音信号的特征向量的设备对对数滤波器组能量执行逆相关滤波,以便在提取特征向量时最小化由噪声引起的影响, 扬声器的独特组件可以被移除。 通过这样做,可以通过在噪声环境中针对未指定讲话者的非讲话者语音识别系统中降低噪声和讲话者变化的影响来改善识别性能。 因此,除了噪声处理之外,本发明还可以提供改善不依赖说话者的语音识别系统的识别性能的优点。

    음성언어 식별 장치 및 방법
    159.
    发明授权
    음성언어 식별 장치 및 방법 失效
    음성언어식별장치및방법

    公开(公告)号:KR100445907B1

    公开(公告)日:2004-08-25

    申请号:KR1020010085035

    申请日:2001-12-26

    Abstract: PURPOSE: A language identification system and method are provided to output an identification result with high reliability within a short period of time with a very simple structure. CONSTITUTION: A language identification system includes an acoustic model storage unit(230), a first sentence based language identifier(220), a phoneme-map based language identifier(240), and an identification result integration unit(260). The acoustic model storage unit stores a first sentence based acoustic model obtained by learning video signal data with respect to the first sentence and a phoneme-map based acoustic model learnt by segmenting a phoneme for each language to be identified and reflecting a phoneme map on the phonemes. The first sentence based language identifier calculates an identification score for the first sentence of an input audio signal using the first sentence based acoustic model and outputs an identification result. The phoneme-map based language identifier calculates a recognition score for the input audio signal using the phoneme-map based acoustic model and outputs an identification result. The identification result integration unit integrates the identification results of the first sentence based language identifier and the phoneme-map based language identifier.

    Abstract translation: 目的:提供一种语言识别系统和方法,以非常简单的结构在短时间内输出具有高可靠性的识别结果。 构成:语言识别系统包括声学模型存储单元(230),基于第一句子的语言标识符(220),基于音素地图的语言标识符(240)和识别结果整合单元(260)。 声学模型存储单元存储通过学习关于第一句子的视频信号数据获得的基于第一句子的声学模型和通过分割每个将被识别的语言的音素而学习的基于音素地图的声学模型,并且将音素地图反映在 音素。 基于第一句子的语言标识符使用基于第一句子的声学模型来计算输入音频信号的第一句子的识别分数并且输出识别结果。 基于音素地图的语言标识符使用基于音素地图的声学模型计算输入音频信号的识别分数并输出识别结果。 识别结果整合单元整合了基于第一句子的语言标识符和基于音素地图的语言标识符的识别结果。

Patent Agency Ranking