Abstract:
A voice recognition apparatus and a method thereof are provided to calculate a hidden Markov model state representing a characteristic parameter of a predetermined unit of a voice by using single waveform probability distribution to obtain a score and calculate a state having a high score using multi-waveform probability distribution to produce a score. A voice recognition apparatus includes a characteristic vector extractor(330), an expected node extractor(350), a single waveform similarity calculator(315), a multi-waveform similarity calculator(320), and an output unit(340). The characteristic vector extractor splits an input voice signal into unit regions and extracts characteristic vectors corresponding to the unit regions. The expected node extractor extracts a list of second nodes which are expected to move to first nodes corresponding to the characteristic vectors with reference to a predetermined network composed of at least one node. The single waveform similarity calculator substitutes the characteristic vectors for single waveform probability distribution constructing a voice signal corresponding to the second nodes to obtain single waveform similarities between the first nodes and the second nodes of the list. The multi-waveform similarity calculator substitutes the characteristic vectors for multi-waveform probability distribution constructing single waveform probability distribution which produces single waveform similarity included in a predetermined range among the single waveform similarities to produce multi-waveform similarities. The output unit outputs a function execution signal corresponding to multi-waveform probability distribution which produces the highest value among the multi-waveform similarities.
Abstract:
본 발명은 음성 인식에서의 탐색망 구축에 필요한 메모리를 감축시킬 수 있는 서브 렉시컬 노드 생성 장치, 이를 이용한 음성 인식 장치 및 방법에 관한 것이다. 본 발명의 실시예에 따른 서브 렉시컬 노드 생성 장치를 이용한 음성 인식 장치는 인식 대상 어휘들에 적용되는 렉시컬 노드 중에서 각 어휘에게 중복 사용되는 렉시컬 노드들을 포함하는 서브 렉시컬 노드를 생성하고, 생성된 서브 렉시컬 노드를 이용하여 탐색망을 구축하는 서브 렉시컬 노드 생성 장치와, 구축된 탐색망을 이용하여 현재 입력된 음성 신호와 매칭되는 어휘를 탐색하는 서브 렉시컬 노드 생성 장치를 이용한 음성 인식 장치를 포함한다. 음성 인식, 어휘, 탐색망 구축
Abstract:
본 발명은 메모리에 저장된 어휘 중에서 입력된 음성에 가장 가까운 어휘를 선택하는 방법 및 장치에 관한 것이다. 본 발명에 따른 어휘 그룹 트리 생성 방법은, 소정의 어휘 그룹에 속하는 어휘들을 대표하는 중심 어휘를 생성하는 제1 단계와, 상기 중심 어휘를 이용하여 어휘 그룹 내에서 어휘간의 거리가 가장 먼 두 개의 어휘를 선택하고 상기 선택된 두 개의 어휘를 기준으로 상기 어휘 그룹을 가리키는 노드를 분할하는 제2 단계와, 상기 분할된 노드를 포함하는 현재 단말 노드 중에서 그룹 유사도가 낮은 노드를 선택하고 상기 선택된 노드가 가리키는 어휘 그룹에 대하여 상기 제1 단계 및 상기 제2 단계를 반복하는 제3 단계로 이루어진다. 음성 인식, 어휘 그룹(lexicon group), 중심 어휘(centroid lexicon), 노드, 어휘 그룹 트리
Abstract:
본 발명은 정규화 상태 라이크리후드를 이용한 음성인식방법 및 그 장치에 관한 것으로, (a)음성신호를 입력받아 음성신호의 프래임들로부터 특징벡터를 추출하고 은닉 마르코프 모델의 각 상태들을 구성하는 단계;(b) 상태들에 대한 상태 로그 라이크리후드를 계산하는 단계;(c) 정규화요소를 결정하여 정규화 상태 로그 라이크리후드를 계산하는 단계;(d) 정규화 상태로그 라이크리후드에 해당하는 텍스트를 검색하여 출력하는 단계를 포함하므로, 음성신호의 프래임별 최대 로그 라이크리후드의 차이에 의한 인식에의 기여도 차이, 상태별 최대 라이크리후드에서의 차이에 의한 분별성 문제, 특징 스트림별 로그 라이크리후드 차이에 의한 분별력 상쇄 등을 보상하여 인식 성능을 보상한다.
Abstract:
본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치는, 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 전방향 탐색부; 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 주제 영역 검출부; 및 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역방향 디코딩부를 포함한다. 본 발명의 실시예에 따르면, 대화체 문장의 인식률(Accuracy)과 효율성(Efficiency)을 향상시킬 수 있는 효과가 있다. 전방향 탐색, 역방향 디코딩, 훈련 코퍼스, 언어 모델
Abstract:
도메인 기반 대화 음성인식방법 및 장치가 개시된다. 이 방법은 (a) 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장과 단어격자를 생성하는 단계; (b) 각 1차 인식문장에 포함된 신뢰도가 소정 문턱치 이상의 단어를 도메인 핵심어로 사용하여 복수개의 후보도메인을 선정하는 단계; (c) 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 상기 단어격자에 대하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 단계; 및 (d) 상기 1차 인식문장과 상기 2차 인식문장으로부터 적어도 하나 이상의 최종 인식문장을 선택하는 단계를 포함한다. 이에 따르면, 단어 오인식으로 인한 도메인 추출 오류가 최종 인식결과를 선정하는데 미치는 영향을 최소화시킬 수 있다.
Abstract:
본 발명은 음성인식에 관한 것이다. 음성 인식 방법은 사용자가 자연스럽게 발화한 음성을 취득하여 특징을 추출하는 단계와, 상기 특징으로부터 상기 어휘를 구성하는 서브워드들 중에서 첫번째 서브워드의 후보들을 선정하여 디스플레이하는 단계와, 상기 후보들 중에서 사용자가 선택한 서브워드를 기준으로 다음 서브워드의 후보들을 선정하여 디스플레이하는 단계, 및 상기 다음 서브워드로부터 사용자가 어휘를 결정하였는지를 판단하여, 결정되지 않은 경우에 이전까지 선택된 서브워드열을 기준으로 그 다음 서브워드 후보들을 선정하여 디스플레이하는 단계를 포함한다. 음성 인식, 멀티 모드, 서브워드, 네비게이션 시스템
Abstract:
양적 변화량 및 방향적 변화량을 고려한, 화자별 평균적인 모델 변이 유사도 정보를 이용함으로써 화자 클러스터링 및 화자 적응 성능을 높인 음성 인식 방법 및 장치가 개시된다. 본 발명에 따른 화자 클러스터링 방법은, 화자 독립 모델과 훈련 화자의 ML 모델 사이의 모델 변이의 유사성을 바탕으로 화자 그룹 모델 변이를 생성한다. 또한, 본 발명에 따른 화자 적응 방법은, 시험 화자의 ML 모델과 그 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이가 훈련 화자 그룹 모델 변이와 가장 유사한 것을 찾아 화자 적응을 수행한다. 이 때, 화자 클러스터링과 화자 적응시의 모델 변이 계산은 모델들의 양적 변화량 및 방향적 변화량을 모두 고려하여 수행된다. 본 발명은 MLLR 또는 MAP 어느 화자 적응 알고리즘에도 적용이 가능하다.
Abstract:
도메인 기반 대화 음성인식방법 및 장치가 개시된다. 이 방법은 (a) 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장과 단어격자를 생성하는 단계; (b) 각 1차 인식문장에 포함된 신뢰도가 소정 문턱치 이상의 단어를 도메인 핵심어로 사용하여 복수개의 후보도메인을 선정하는 단계; (c) 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 상기 단어격자에 대하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 단계; 및 (d) 상기 1차 인식문장과 상기 2차 인식문장으로부터 적어도 하나 이상의 최종 인식문장을 선택하는 단계를 포함한다. 이에 따르면, 단어 오인식으로 인한 도메인 추출 오류가 최종 인식결과를 선정하는데 미치는 영향을 최소화시킬 수 있다.