Abstract:
본 발명은 음성 인식 장치 및 방법에 관한 것으로써, 본 발명에 따른 음성 인식 방법은 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 입력 음성의 특징과 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하고, 이 스코어들 중, 최고 스코어를 갖는 음성 모델을 입력 음성에 대한 인식 음성으로 결정함으로써, 음성 인식률이 매우 높아지고, 입력 음성이 연속된 동일 음소들을 포함하는 경우에 WER(Word Error Rate)이 대폭 감소된다.
Abstract:
본 발명은 음성 인식 장치 및 방법에 관한 것으로써, 본 발명에 따른 음성 인식 방법은 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 입력 음성의 특징과 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하고, 이 스코어들 중, 최고 스코어를 갖는 음성 모델을 입력 음성에 대한 인식 음성으로 결정함으로써, 음성 인식률이 매우 높아지고, 입력 음성이 연속된 동일 음소들을 포함하는 경우에 WER(Word Error Rate)이 대폭 감소된다.
Abstract:
A large-vocabulary speech recognition method on the basis of a multi-layer central lexicon and an apparatus therefor are provided to perform detailed matching only for vocabularies of a region similar to input utterance through a symbol matching process of a phoneme recognized result and a central lexicon in a tree structure. A multi-pass symbol matching unit(140) performs the multi-pass symbol matching between a phoneme recognition string and a pronunciation string of a central lexicon layered as a tree structure. A detailed matching unit(150) performs detail matching for selecting a speed recognition result by using a detailed acoustic model for candidate vocabulary sets selected by the multi-pass symbol matching. The multi-pass symbol matching unit(140) tracks a node which records the maximum matching score per each layer, and repeats a node tracking process until the multi-pass symbol matching unit(140) arrives at the terminating node.
Abstract:
입력 음성 신호로부터 검출한 음소열에 매칭되는 최적한 개수의 인식 후보를 추출하고, 추출된 인식 후보간의 사전적 거리(Lexical Distance) 추정에 따른 음성 신호에 대한 등록 어휘 여부를 정확하게 수행할 수 있는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 개시한다. 인식 신뢰도 측정 방법은, 입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 단계와, 추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 단계와, 추출된 인식 후보간의 사전적 거리(lexical distance)를 추정하는 단계 및 상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 단계를 포함한다. 음성 인식, 신뢰도, 인식 후보, 사전적 거리, 음소열
Abstract:
A voice recognition apparatus and a method thereof are provided to calculate a hidden Markov model state representing a characteristic parameter of a predetermined unit of a voice by using single waveform probability distribution to obtain a score and calculate a state having a high score using multi-waveform probability distribution to produce a score. A voice recognition apparatus includes a characteristic vector extractor(330), an expected node extractor(350), a single waveform similarity calculator(315), a multi-waveform similarity calculator(320), and an output unit(340). The characteristic vector extractor splits an input voice signal into unit regions and extracts characteristic vectors corresponding to the unit regions. The expected node extractor extracts a list of second nodes which are expected to move to first nodes corresponding to the characteristic vectors with reference to a predetermined network composed of at least one node. The single waveform similarity calculator substitutes the characteristic vectors for single waveform probability distribution constructing a voice signal corresponding to the second nodes to obtain single waveform similarities between the first nodes and the second nodes of the list. The multi-waveform similarity calculator substitutes the characteristic vectors for multi-waveform probability distribution constructing single waveform probability distribution which produces single waveform similarity included in a predetermined range among the single waveform similarities to produce multi-waveform similarities. The output unit outputs a function execution signal corresponding to multi-waveform probability distribution which produces the highest value among the multi-waveform similarities.
Abstract:
본 발명은 메모리에 저장된 어휘 중에서 입력된 음성에 가장 가까운 어휘를 선택하는 방법 및 장치에 관한 것이다. 본 발명에 따른 어휘 그룹 트리 생성 방법은, 소정의 어휘 그룹에 속하는 어휘들을 대표하는 중심 어휘를 생성하는 제1 단계와, 상기 중심 어휘를 이용하여 어휘 그룹 내에서 어휘간의 거리가 가장 먼 두 개의 어휘를 선택하고 상기 선택된 두 개의 어휘를 기준으로 상기 어휘 그룹을 가리키는 노드를 분할하는 제2 단계와, 상기 분할된 노드를 포함하는 현재 단말 노드 중에서 그룹 유사도가 낮은 노드를 선택하고 상기 선택된 노드가 가리키는 어휘 그룹에 대하여 상기 제1 단계 및 상기 제2 단계를 반복하는 제3 단계로 이루어진다. 음성 인식, 어휘 그룹(lexicon group), 중심 어휘(centroid lexicon), 노드, 어휘 그룹 트리
Abstract:
은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에 따른 음성 인식 방법 및 장치가 개시된다. 본 발명의 확률밀도함수 보상 방법은 음성 신호로부터 특징벡터를 추출하고, 특징벡터를 입력했을 때 음성 신호를 인식할 확률이 높도록 복수의 확률밀도함수를 갖는 모델을 학습시키는 단계; 학습이 완료되면, 각 확률밀도함수의 분산을 평균하여 전역분산을 구하는 단계; 전역분산을 이용하여 보상 팩터를 구하는 단계; 및 각 확률밀도함수에 전역분산을 적용하고, 보상 팩터를 이용하여 전역분산을 보상함으로써 각 확률밀도함수를 보상하는 단계를 포함함을 특징으로한다.
Abstract:
A method for searching for multimedia data through a speech recognition in a portable terminal and an apparatus thereof are provided to convert a list of music titles into information used in recognition at a music storage or download site or at the portable terminal itself. A method for searching for multimedia data through a speech recognition in a portable terminal includes the following several steps. The portable terminal enables a user to input a speech query(610). The portable terminal extracts a speech feature vector from the inputting speech query(620). The portable terminal decodes the extracted speech feature vector sequence into a candidate phone sequence(630). The portable terminal performs a partial matching operation by using the candidate phone sequence and a lexicon reference pattern stored at a music database(640). The portable terminal performs a detailed matching procedure on a phone segment matched with a candidate recognition list attained via the partial matching operation through an alignment procedure(650). The portable terminal calculates a matching score in accordance with the matching procedure(660). The portable terminal displays a music information search result by the calculated matching score(670).
Abstract:
프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 프레임의 신뢰도를 측정하여 음성을 인식하는 방법은 수신한 음성 신호를 소정 길이의 프레임별로 주파수 특징을 구하는 단계, 상기 프레임에 대한 키워드 모델의 우도와 상기 프레임에 대한 필러 모델의 우도를 산출하는 단계, 상기 산출한 두 종류의 우도로 신뢰성 점수를 산출하는 단계 및 상기 신뢰성 점수로 상기 수신한 음성 신호가 핵심어 또는 비핵심어인지 판단하는 단계를 포함한다. 음성인식, 프레임(frame), 신뢰도, 우도(likelihood), 왜도(skewness)