Abstract:
PURPOSE: An utterance verification apparatus and a method thereof are provided, which can improve the reliability about the voice recognition result by performing the whole utterance verification about the word after the performance of the partial utterance verification about each sub word. CONSTITUTION: A sub word likelihood ratio calculator(204) calculates the sub word likelihood ratio about the divided sub word. A likelihood ratio weight applying unit(206) applies the weighted value of likelihood ratio according to the recognition reliability to the calculated sub word likelihood ratio. A word likelihood ratio calculator(208) calculates the word likelihood ratio by using the sub word likelihood ratio. A speech verification decision unit(210) decides the output of the word after the utterance verification with the calculated word likelihood ratio.
Abstract:
본 발명은 이동통신 단말기의 카메라로 촬영한 얼굴 화상을 이용하여 실제 인물을 모델로 하는 3차원 아바타를 생성할 수 있는 장치 및 방법에 관한 것으로, 3차원 아바타 생성을 위한 표준 3차원 얼굴 모델을 저장하고 있는 메모리와; 이동통신 단말기의 카메라를 통해 획득된 정면 얼굴 이미지와 측면 얼굴 이미지를 조합하는 영상처리부와; 상기 메모리에 저장되어 있는 상기 표준 3차원 얼굴모델 및 상기 영상처리부로부터 조합된 정면 얼굴 이미지와 측면 얼굴 이미지를 이용하여 3차원 아바타 모델을 생성하는 3D 모델변환부와; 상기 3D 모델변환부에서 생성된 3차원 아바타 모델과 추가로 입력되는 텍스트 혹은 음성을 조합하여 3차원 아바타 애니메이션 데이터를 생성하는 애니메이션 조합부와; 상기 애니메이션 조합부에서 생성된 복수개의 3차원 아바타 애니메이션 데이터들을 조합·편집하여 애니메이션 데이터를 생성하는 애니메이션 데이터 생성부를 포함하여 구성된다. 3차원 아바타, 얼굴 화상,애니메이션, 컨텐츠, 얼굴 모델
Abstract:
본 발명은 텍스트를 입력받아 그에 대응하는 합성 음성을 출력하는 음성합성 분야, 음성합성 데이터베이스 알고리즘 등에 적용 가능한 외래어 판별 방법에 관한 것이다. 본 발명의 외래어 판별 방법에 따르면, 입력 문장을 띄어쓰기 단위로 어절열로 변환하고, 각 어절에 대해서 형태소 분석 과정을 거쳐 미등록어를 검출하며, 해당 미등록어에 대해 한국어에서 음소 unigram, bigram, trigram, 음절 unigram의 출현 확률과 외래어에서 음소 unigram, bigram, trigram, 음절 unigram의 출현 확률을 이용하여 한국어인지 외래어인지 판별한다.
Abstract:
PURPOSE: A method for automatically labeling break strength using a classification and regression tree is provided to increase speed of labeling break strength and improve the accuracy of labeling break strength. CONSTITUTION: Voice data is received in sentences to be recorded(S11-S12). Phonemes are divided and accent is extracted from the input voice data(S13-S14). Phoneme duration and an accent value corresponding to the phoneme are extracted to extract the mean duration by phonemes and the mean accent of a speaker(S15). Seven rhythmical features are extracted by using phoneme division information and the accent value(S16). The extracted seven rhythmical features are normalized as a final mean value(S17). A result of labeling break manually is obtained(S18). A training of a classification and regression tree is executed by using the rhythmical features and the result of labeling break manually(S19). A cross confirming test is performed to measure the accuracy of labeling break strength(S20). A break strength automatic labeling rule is generated by a binary decision tree(S21). A program is terminated(S22).
Abstract:
본 발명에 따른 음성 인식 장치는, 전역 특징 벡터, 전역 어휘 모델, 및 전역 음향 모델로 구성된 전역 데이터베이스부; 복수의 개별 인식부로 구성된 인식부; 상기 각 개별 인식부들에 각기 대응하는 복수의 개별 언어 모델로 구성된 개별 데이터베이스부; 및 상기 각 개별 인식부들의 인식결과를 수집하고 평가하는 수집평가부를 포함하고, 상기 개별 인식부 각각은, 상기 전역 특징 벡터, 상기 전역 어휘 모델, 상기 전역 음향 모델, 및 상기 대응하는 개별 언어 모델만을 이용하여 입력신호를 인식할 수 있다. 본 발명은 음성 인식의 인식 속도를 향상시키고, 언어 모델 적용범위를 제고하는 효과가 있다.
Abstract:
본 발명은 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치에 있어서, 엔베스트 음성인식을 통해 단어수준에서 인식된 결과에 대해 엔베스트 발화검증을 통해서 신뢰도를 측정하고, 동적 시간 와핑에 의한 음소간 유사도를 측정하여 신뢰도와 유사도를 기반으로 음성인식의 수락/거절 또는 판단불가 등을 표시함으로써 보다 신뢰성 높은 음성인식이 가능하도록 한다. 엔베스트, 발화검증, 음성, 인식, 신뢰도, 유사도
Abstract:
PURPOSE: A corpus error correcting device and a method thereof are provided to correct an error and analyze a morpheme by domain words which are collected by a target corpus. CONSTITUTION: A domain word reflecting unit(140) analyzes domain words of an inputted corpus based on domain word data. A morpheme word analyzing and reflecting unit(150) analyzes a morpheme of a corpus in which the domain words are analyzed. An error correcting unit(160) corrects word spacing errors of an analyzed corpus based on a language model.
Abstract:
본 발명은 연속으로 발성되는 한국어 숫자음성에 대한 음성인식을 수행하여 그 인식 결과에 대해 혼동행렬과 신뢰도 치에 기반하여 다수의 음성인식 후보를 생성하는 기술에 관한 것으로, 혼동행렬은 숫자음성에 대해 오인식이 발생하는 숫자들로 구성되므로, 사전에 실험용 데이터베이스를 사용하여 인식을 수행한다. 또한 음성인식의 결과로 도출되는 숫자별 인식 점수인 통계적 우도를 그 단어의 지속시간 지수인 프레임 수로 나눈 로그 우도비를 신뢰도 치로써 사용하는 것을 특징으로 한다. 본 발명에 의하면, 음성인식 알고리즘에서 성능의 저하 없이 N-best를 생성하기 위해 사용하는 기억장치 사용량과 탐색시간을 절약함으로써 음성인식 엔진의 효율을 높일 수 있다. 음성인식, 숫자음성, N-best, 신뢰도치, 혼동행렬