Abstract:
PURPOSE: A chatting interface apparatus between a system and a user is provided to supply an interface of high reliability by transferring a control command of a user and to transfer a control command of a user. CONSTITUTION: A first processing unit(203) receives voice/face information from a user. Voice information of the user is determined based on a user model. A second processing unit(204) receives face information. A third processing unit(205) receives the voice information and analyzes the meaning of the voice information.
Abstract:
PURPOSE: A voice detecting device and a method thereof used to decide whether the input signal is voice or not are provided to increase the accuracy of the voice detection by controlling the operation for updating the data. CONSTITUTION: A feature information extraction unit(110) includes audio information from a frame. An internal state determining unit(120) uses one or more feature information about the frame. A behavior determination unit(130) controls the volume activity detection operation.
Abstract:
A method for searching for multimedia data through a speech recognition in a portable terminal and an apparatus thereof are provided to convert a list of music titles into information used in recognition at a music storage or download site or at the portable terminal itself. A method for searching for multimedia data through a speech recognition in a portable terminal includes the following several steps. The portable terminal enables a user to input a speech query(610). The portable terminal extracts a speech feature vector from the inputting speech query(620). The portable terminal decodes the extracted speech feature vector sequence into a candidate phone sequence(630). The portable terminal performs a partial matching operation by using the candidate phone sequence and a lexicon reference pattern stored at a music database(640). The portable terminal performs a detailed matching procedure on a phone segment matched with a candidate recognition list attained via the partial matching operation through an alignment procedure(650). The portable terminal calculates a matching score in accordance with the matching procedure(660). The portable terminal displays a music information search result by the calculated matching score(670).
Abstract:
본 발명은 음성 인식에서의 탐색망 구축에 필요한 메모리를 감축시킬 수 있는 서브 렉시컬 노드 생성 장치, 이를 이용한 음성 인식 장치 및 방법에 관한 것이다. 본 발명의 실시예에 따른 서브 렉시컬 노드 생성 장치를 이용한 음성 인식 장치는 인식 대상 어휘들에 적용되는 렉시컬 노드 중에서 각 어휘에게 중복 사용되는 렉시컬 노드들을 포함하는 서브 렉시컬 노드를 생성하고, 생성된 서브 렉시컬 노드를 이용하여 탐색망을 구축하는 서브 렉시컬 노드 생성 장치와, 구축된 탐색망을 이용하여 현재 입력된 음성 신호와 매칭되는 어휘를 탐색하는 서브 렉시컬 노드 생성 장치를 이용한 음성 인식 장치를 포함한다. 음성 인식, 어휘, 탐색망 구축
Abstract:
양적 변화량 및 방향적 변화량을 고려한, 화자별 평균적인 모델 변이 유사도 정보를 이용함으로써 화자 클러스터링 및 화자 적응 성능을 높인 음성 인식 방법 및 장치가 개시된다. 본 발명에 따른 화자 클러스터링 방법은, 화자 독립 모델과 훈련 화자의 ML 모델 사이의 모델 변이의 유사성을 바탕으로 화자 그룹 모델 변이를 생성한다. 또한, 본 발명에 따른 화자 적응 방법은, 시험 화자의 ML 모델과 그 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이가 훈련 화자 그룹 모델 변이와 가장 유사한 것을 찾아 화자 적응을 수행한다. 이 때, 화자 클러스터링과 화자 적응시의 모델 변이 계산은 모델들의 양적 변화량 및 방향적 변화량을 모두 고려하여 수행된다. 본 발명은 MLLR 또는 MAP 어느 화자 적응 알고리즘에도 적용이 가능하다. 화자 클러스터링, 화자 적응, 모델 파라미터, 모델 변이
Abstract:
음소 결합정보를 이용한 연속 음성인식방법 및 장치가 개시된다. 음소 결합정보를 이용한 연속 음성인식방법은 (a) 각 표제어에 대하여 음운변화가 반영된 발음표기가 수록되며, 표제어간 음운변화에 의하여 상기 앞 표제어에서 마지막 음절의 종성이나 뒷 표제어에서 첫 음절의 초성의 철자와 발음이 동일하지 않은 경우 해당 표제어의 종성 또는 초성에 대한 발음표기에 별도의 식별자를 추가하여 발음사전 데이터베이스를 구축하는 단계; (b) 한국어의 기본음소와 식별자가 추가된 2차적 음소를 이용하여 앞 표제어의 종성에 결합가능한 뒷 표제어의 초성을 대응시켜 가능한 모든 결합으로 이루어진 음소결합정보를 매트릭스화하는 단계; 및 (c) 입력되는 음성으로부터 생성되는 특징벡터에 대하여 상기 발음사전 데이터베이스 및 상기 음소결합정보를 이용하여 음성인식을 수행하는 단계를 포함한다.