Abstract:
본 발명은 개개의 화자식별 결과의 신뢰도 측정 방법에 관한 것으로, 각 프레임의 화자식별 결과에 대한 공헌 정도를 측정하고, 이 각 프레임의 화자식별 공헌도를 기반으로 화자식별 결과의 신뢰도를 측정하고, 이를 화자 진위 판단에 이용함으로써, 화자 검증시에 제시된 화자의 진위를 정확하게 판단하여, 원거리 다채널 환경에서 화자식별의 정확도를 높일 수 있다. 화자식별, 화자식별 결과의 신뢰도, 원거리 다채널 환경, 화자식별 결과 통합.
Abstract:
1. 청구범위에 기재된 발명이 속한 기술분야 본 발명은 음성인식시스템에서의 발음사전 자동생성 방법에 관한 것임. 2. 발명이 해결하려고 하는 기술적 과제 본 발명은, 음성인식시스템에서 대규모로 구축되어 있는 발음사전의 발음패턴을 음성학적 지식의 개입없이 신경망으로 학습하고, 학습된 신경망으로 발음사전을 정확히 생성시킬 수 없는 자소나 단어를 예외 자소 발음사전 및 예외 단어 발음사전을 이용하여 입력된 단어의 발음열을 보다 정확하게 생성하므로써, 단계별 처리에 따른 메모리 및 계산량을 감축시키기 위한 발음사전 자동생성 방법을 제공하고자 함. 3. 발명의 해결방법의 요지 본 발명은, 신경망을 이용하여 다층 퍼셉트론을 학습시켜 예외 단어 발음사전 데이터베이스, 예외 자소 발음사전 데이터베이스, 각 자소별 음소출력 MLP 파라메터 데이터베이스를 구성하는 제 1 단계; 및 전처리된 입력 단어에 대해, 예외 단어 발음사전 데이터베이스, 예외 자소 발음사전 데이터베이스, MLP 파라메터 데이터베이스를 검사하여 해당 단어의 발음열을 후처리한 후에 출력하는 제 2 단계를 포함함. 4. 발명의 중요한 용도 본 발명은 음성인식시스템 등에 이용됨.
Abstract:
PURPOSE: An automatic generation method of a pronunciation lexicon is to implement a recognition system having high recognition performance when recognizing new vocabulary being not registered in a lexicon, thereby generating a pronunciation sequence more precisely. CONSTITUTION: An automatic generation method of a pronunciation lexicon comprises the steps of: studying a multi-layer perceptron directly mapping a corresponding phoneme for each grapheme using a neural network, to construct an exceptional word pronunciation lexicon database, an exceptional grapheme pronunciation lexicon database and a phoneme output multi-layer perceptron parameter database for each grapheme; and inspecting the exceptional word pronunciation lexicon database, the exceptional grapheme pronunciation lexicon database and the phoneme output multi-layer perceptron parameter database for a pre-processed word and post-processing the pronunciation sequence of the relevant word to output them.
Abstract:
1. 청구 범위에 기재된 발명이 속한 기술분야 본 발명은 음소별 화자 종속 변이음(allophone) 모델링 방법에 관한 것임. 2. 발명이 해결하려고 하는 기술적 과제 본 발명은 각 음소별로 화자 특성을 고려할 수 있는 음성 단위 선정 방법으로서 문맥 및 화자를 동시에 모두 고려한 음소별 화자 종속 변이음(allophone) 모델링 방법을 제공하고자 함. 3. 발명의 해결방법의 요지 본 발명은, 음성 인식기에 적용되는 음성 모델링 방법에 있어서, 각 음소별 음성 데이터의 특징 벡터열을 읽어, 트랜스크립션과 발음 사전을 이용하여 문맥 정보를 얻은 후에 각 자료의 화자를 식별하는 제 1 단계; 주어진 데이터를 문맥과 화자에 따라 두 개의 그룹으로 나눈 후에 나누어진 그룹의 적합성을 측정하는 과정을 반복하는 제 2 단계; 및 나뉘어진 그룹의 샘플의 갯수가 소정의 값 이상인 그룹이 존재하면 두 개의 그룹으로 나누는 과정을 계속하고, 그러한 그룹이 더 이상 존재하지 않으면 종료하는 제 3 단계를 포함한다. 4. 발명의 중요한 용도 본 발명은 음성 인식기에 이용됨.
Abstract:
1. 청구 범위에 기재된 발명이 속한 기술분야 본 발명은 음소별 화자 종속 변이음(allophone) 모델링 방법에 관한 것임. 2. 발명이 해결하려고 하는 기술적 과제 본 발명은 각 음소별로 화자 특성을 고려할 수 있는 음성 단위 선정 방법으로서 문맥 및 화자를 동시에 모두 고려한 음소별 화자 종속 변이음(allophone) 모델링 방법을 제공하고자 함. 3. 발명의 해결방법의 요지 본 발명은, 음성 인식기에 적용되는 음성 모델링 방법에 있어서, 각 음소별 음성 데이터의 특징 벡터열을 읽어, 트랜스크립션과 발음 사전을 이용하여 문맥 정보를 얻은 후에 각 자료의 화자를 식별하는 제 1 단계; 주어진 데이터를 문맥과 화자에 따라 두 개의 그룹으로 나눈 후에 나누어진 그룹의 적합성을 측정하는 과정을 반복하는 제 2 단계; 및 나뉘어진 그룹의 샘플의 갯수가 소정의 값 이상인 그룹이 존재하면 두 개의 그룹으로 나누는 과정을 계속하고, 그러한 그룹이 더 이상 존재하지 않으면 종료하는 제 3 단계를 포함한다. 4. 발명의 중요한 용도 본 발명은 음성 인식기에 이용됨.
Abstract:
PURPOSE: A method for processing a hybrid feature vector, a method and an apparatus for recognizing a speaker using the same are provided to perform a speaker recognition service regardless of noises by combining a multi-streaming method and a sub-band recombination method. CONSTITUTION: A first feature vector generation unit generates a first feature vector based on an input voice. A second feature vector generation unit time-filters the first feature vector to generate a second feature vector. The first and the second feature vector processing units(150a, 150b) calculate similarities of sub-bands of the first and the second feature vectors. A hybrid unit(107) merges and outputs the similarity.
Abstract:
본 발명은 인터넷에 접속하기 위해 이용되는 웹 브라우저를 사용할 때 마우스 뿐만 아니라 음성을 사용하여 웹 브라우저를 조작하고 이를 통해 원하는 정보를 얻을 수 있도록 해주는 웹 브라우저 상에서의 음성 인식기 구현방법에 관한 것으로서, 음성 인식 대상이 고정되어 있지 않고 끝없이 변화하는 웹 브라우저 상에서의 음성 인식 기능 구현을 목적으로 하고, 기존 웹 브라우저와 기 출원된 가변 어휘 인식기를 포함하되, HTML 파일 분석기, 인식 대상 어휘 생성기, 인식 결과 분석기를 구비하여 웹 브라우저의 사용자 인터페이스 편의성을 향상시킴으로써, 인터넷을 이용한 정보 자동화 및 통신 서비스, 쇼핑, 교육 등의 여러 분야에 응용할 수 있고 또한 손의 움직임이 불편한 장애자들도 인터넷을 보다 쉽게 이용할 수 있는 효과가 있다.
Abstract:
PURPOSE: A speaker identification method for a multi-channel speaker identification system is provided to improve the performance of speaker identification and speaker verification in a remote distance multi-channel environment. CONSTITUTION: A speaker identifier for a multi-channel speaker identification system is connected to each input microphone(101). A speaker identification integrator(115) integrates the identification result of the speaker identifier. The channel speaker identifier computes the degree of speaker identification contribution by the measurement of posterior probability of a registered speaker. The speaker identification integrator produces channel reliability through speaker identification contribution. The speaker identification integrator integrates the channel speaker identification result with the weight application by the channel reliability.
Abstract:
A device and a method for measuring similarity based on feature of music, and a music recommendation system and method using the same are provided to calculate the similarity in an Internet or digital broadcasting environment based on the feature of the preferred music of a user and recommend the music effectively to the user based on the similarity. A music feature extractor(131) extracts feature information, which is at least one of rhythm or tone feature information, reflecting characteristics of music. A music feature information database(132) stores the extracted feature information in a feature vector row. A similarity calculator(133) calculates similarity between music by comparing a music list(16) extracted based on genre/singer information of the current queried music(14) of a user with the feature information of the current queried music or accumulative feature information of the past queried music. An updater updates the feature information of the current queried music to the accumulative feature information of the past queried music. A music recommender generates and provides a recommendation list in high similarity order depending on a similarity calculation result.