Abstract:
A method for searching for multimedia data through a speech recognition in a portable terminal and an apparatus thereof are provided to convert a list of music titles into information used in recognition at a music storage or download site or at the portable terminal itself. A method for searching for multimedia data through a speech recognition in a portable terminal includes the following several steps. The portable terminal enables a user to input a speech query(610). The portable terminal extracts a speech feature vector from the inputting speech query(620). The portable terminal decodes the extracted speech feature vector sequence into a candidate phone sequence(630). The portable terminal performs a partial matching operation by using the candidate phone sequence and a lexicon reference pattern stored at a music database(640). The portable terminal performs a detailed matching procedure on a phone segment matched with a candidate recognition list attained via the partial matching operation through an alignment procedure(650). The portable terminal calculates a matching score in accordance with the matching procedure(660). The portable terminal displays a music information search result by the calculated matching score(670).
Abstract:
본 발명은 음성 인식에서의 탐색망 구축에 필요한 메모리를 감축시킬 수 있는 서브 렉시컬 노드 생성 장치, 이를 이용한 음성 인식 장치 및 방법에 관한 것이다. 본 발명의 실시예에 따른 서브 렉시컬 노드 생성 장치를 이용한 음성 인식 장치는 인식 대상 어휘들에 적용되는 렉시컬 노드 중에서 각 어휘에게 중복 사용되는 렉시컬 노드들을 포함하는 서브 렉시컬 노드를 생성하고, 생성된 서브 렉시컬 노드를 이용하여 탐색망을 구축하는 서브 렉시컬 노드 생성 장치와, 구축된 탐색망을 이용하여 현재 입력된 음성 신호와 매칭되는 어휘를 탐색하는 서브 렉시컬 노드 생성 장치를 이용한 음성 인식 장치를 포함한다. 음성 인식, 어휘, 탐색망 구축
Abstract:
프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 프레임의 신뢰도를 측정하여 음성을 인식하는 방법은 수신한 음성 신호를 소정 길이의 프레임별로 주파수 특징을 구하는 단계, 상기 프레임에 대한 키워드 모델의 우도와 상기 프레임에 대한 필러 모델의 우도를 산출하는 단계, 상기 산출한 두 종류의 우도로 신뢰성 점수를 산출하는 단계 및 상기 신뢰성 점수로 상기 수신한 음성 신호가 핵심어 또는 비핵심어인지 판단하는 단계를 포함한다. 음성인식, 프레임(frame), 신뢰도, 우도(likelihood), 왜도(skewness)
Abstract:
양적 변화량 및 방향적 변화량을 고려한, 화자별 평균적인 모델 변이 유사도 정보를 이용함으로써 화자 클러스터링 및 화자 적응 성능을 높인 음성 인식 방법 및 장치가 개시된다. 본 발명에 따른 화자 클러스터링 방법은, 화자 독립 모델과 훈련 화자의 ML 모델 사이의 모델 변이의 유사성을 바탕으로 화자 그룹 모델 변이를 생성한다. 또한, 본 발명에 따른 화자 적응 방법은, 시험 화자의 ML 모델과 그 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이가 훈련 화자 그룹 모델 변이와 가장 유사한 것을 찾아 화자 적응을 수행한다. 이 때, 화자 클러스터링과 화자 적응시의 모델 변이 계산은 모델들의 양적 변화량 및 방향적 변화량을 모두 고려하여 수행된다. 본 발명은 MLLR 또는 MAP 어느 화자 적응 알고리즘에도 적용이 가능하다. 화자 클러스터링, 화자 적응, 모델 파라미터, 모델 변이
Abstract:
음소 결합정보를 이용한 연속 음성인식방법 및 장치가 개시된다. 음소 결합정보를 이용한 연속 음성인식방법은 (a) 각 표제어에 대하여 음운변화가 반영된 발음표기가 수록되며, 표제어간 음운변화에 의하여 상기 앞 표제어에서 마지막 음절의 종성이나 뒷 표제어에서 첫 음절의 초성의 철자와 발음이 동일하지 않은 경우 해당 표제어의 종성 또는 초성에 대한 발음표기에 별도의 식별자를 추가하여 발음사전 데이터베이스를 구축하는 단계; (b) 한국어의 기본음소와 식별자가 추가된 2차적 음소를 이용하여 앞 표제어의 종성에 결합가능한 뒷 표제어의 초성을 대응시켜 가능한 모든 결합으로 이루어진 음소결합정보를 매트릭스화하는 단계; 및 (c) 입력되는 음성으로부터 생성되는 특징벡터에 대하여 상기 발음사전 데이터베이스 및 상기 음소결합정보를 이용하여 음성인식을 수행하는 단계를 포함한다.
Abstract:
스테이트별 가중치를 적용한 음성 인식 장치 및 방법이 공개된다. 음향 문맥에 상응하여 특성 벡터마다 히든 마코프 스테이트별로 특성 벡터의 중요성을 판단하여 화자의 음성을 인식하는 본 발명에 따른 음성 인식 장치는 화자의 음성 신호를 받아들이고, 고정 프레임 율로 음성 신호의 특성 벡터를 추출하고, 추출된 프레임별 특성 벡터에 동일한 가중치를 부여하는 특성 추출부, 학습 데이터 베이스로부터 분별적 방법에 의해 학습된 다층 퍼셉트론에 의해 프레임마다 히든 마코프 스테이트별 가중치를 적용하여, 프레임별로 문맥 의존적인 정보율을 갖는 특성 벡터를 발생하는 프레임 정보율 추출부 및 히든 마코프 모델과 학습 모델들을 이용하여 학습된 다층 퍼셉트론으로부터 추정된 문맥 의존적인 스테이트별 가중치를 갖는 특성 벡터를 인식하는 음성 인식부를 포함하는 것을 특징으로 하고, 주변 음성의 변이 � ��도에 따라 스테이트별 가중치를 달리 부여하므로, 스테이트별로 정보적 중요도를 반영하여 음성을 인식하므로 음성의 오인식률을 크게 줄일 수 있다.
Abstract:
본 발명은 미디어(media) 파일로부터 추출한 개체명을 이용하여 부분 검색어를 생성하고, 사용자로부터 검색 쿼리(Query)를 입력받은 경우, 음성 인식을 통해 상기 검색 쿼리와 연관된 부분 검색어를 식별하여 상기 부분 검색어와 연관된 미디어 파일을 검색할 수 있는 방법 및 장치에 관한 것이다. 본 발명에 따른 미디어 파일 검색 방법은 미디어 파일로부터 개체명을 추출하는 단계, 상기 추출된 개체명에 대한 띄어쓰기를 복원하는 단계, 상기 띄어쓰기가 복원된 개체명으로부터 부분 검색어를 생성하는 단계, 및 상기 부분 검색어를 이용하여 미디어 파일을 검색하는 단계를 포함한다. 음악, 미디어 파일, 개체명, 띄어쓰기, 부분 검색어
Abstract:
A large-vocabulary speech recognition method on the basis of a multi-layer central lexicon and an apparatus therefor are provided to perform detailed matching only for vocabularies of a region similar to input utterance through a symbol matching process of a phoneme recognized result and a central lexicon in a tree structure. A multi-pass symbol matching unit(140) performs the multi-pass symbol matching between a phoneme recognition string and a pronunciation string of a central lexicon layered as a tree structure. A detailed matching unit(150) performs detail matching for selecting a speed recognition result by using a detailed acoustic model for candidate vocabulary sets selected by the multi-pass symbol matching. The multi-pass symbol matching unit(140) tracks a node which records the maximum matching score per each layer, and repeats a node tracking process until the multi-pass symbol matching unit(140) arrives at the terminating node.
Abstract:
입력 음성 신호로부터 검출한 음소열에 매칭되는 최적한 개수의 인식 후보를 추출하고, 추출된 인식 후보간의 사전적 거리(Lexical Distance) 추정에 따른 음성 신호에 대한 등록 어휘 여부를 정확하게 수행할 수 있는 인식 신뢰도 측정 방법 및 인식 신뢰도 측정 시스템을 개시한다. 인식 신뢰도 측정 방법은, 입력 음성 신호의 특징 벡터로부터 음소열을 추출하는 단계와, 추출된 음소열과 소정의 단어집합(dictionary)에 등록된 어휘의 음소열을 매칭하여 인식 후보를 추출하는 단계와, 추출된 인식 후보간의 사전적 거리(lexical distance)를 추정하는 단계 및 상기 사전적 거리에 기초하여 등록 어휘 여부를 결정하는 단계를 포함한다. 음성 인식, 신뢰도, 인식 후보, 사전적 거리, 음소열
Abstract:
본 발명은 음성인식에 관한 것이다. 음성 인식 방법은 사용자가 자연스럽게 발화한 음성을 취득하여 특징을 추출하는 단계와, 상기 특징으로부터 상기 어휘를 구성하는 서브워드들 중에서 첫번째 서브워드의 후보들을 선정하여 디스플레이하는 단계와, 상기 후보들 중에서 사용자가 선택한 서브워드를 기준으로 다음 서브워드의 후보들을 선정하여 디스플레이하는 단계, 및 상기 다음 서브워드로부터 사용자가 어휘를 결정하였는지를 판단하여, 결정되지 않은 경우에 이전까지 선택된 서브워드열을 기준으로 그 다음 서브워드 후보들을 선정하여 디스플레이하는 단계를 포함한다. 음성 인식, 멀티 모드, 서브워드, 네비게이션 시스템