Abstract:
본발명은액티브 3D 마이크그리드맵을형성및 이용하는서비스시스템및 그동작방법에관한것으로서, 본발명의실시예에따른액티브 3D 마이크그리드맵을형성및 이용하는서비스시스템은다수의스마트기기로부터현재상태정보를수신하는수신부, 수신된상기현재상태정보를기반으로상기다수의스마트기기에대한액티브 3D 마이크그리드맵을형성하는형성부, 및형성된상기액티브 3D 마이크그리드맵을이루는상기다수의스마트기기로부터수신되는소리신호를기반으로기능을동작하는제어부를포함한다.
Abstract:
음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정하여 컨퓨젼 네트워크의 생성 속도를 향상시키도록 한 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법이 제시된다. 제시된 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 생성 방법은 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는 단계; 입력받은 하나 이상의 래티스들 각각의 사후 확률을 연산하는 단계; 연산한 사후 확률을 근거로 래티스에 포함된 노드를 복수의 동치류로 할당하는 단계; 복수의 동치류를 이용하여 컨퓨젼 세트를 생성하는 단계; 및 생성된 컨퓨젼 세트를 근거로 컨퓨젼 네트워크를 생성하는 단계를 포함한다.
Abstract:
According to an embodiment of the present invention, a pronunciation evaluation device is designed to easily evaluate pronunciation of an English voice spoken to be inputted from a phonological aspect and an acoustic aspect of a native English voice. The pronunciation evaluation device comprises: a likelihood ratio measuring module which includes a first null hypothesis calculation unit to calculate a first null hypothesis for an English voice spoken to be inputted, a first alternative hypothesis calculation unit to calculate a first alternative hypothesis corresponding to the first null hypothesis, a second null hypothesis calculation unit to calculate a second null hypothesis for a native English voice set in correspondence to the English voice, and a second alternative hypothesis calculation unit to calculate a second alternative hypothesis corresponding to the second null hypothesis; and a pronunciation scoring module to calculate a pronunciation matching probability value for the English voice in correspondence to the native English voice based on the first and second null hypotheses and the first and second alternative hypotheses.
Abstract:
PURPOSE: An optimal acoustic model generating apparatus of a maximum log likelihood base and a method thereof are provided to reduce a calculation during a performance of a voice recognition by estimating 'an acoustic model which has a Gaussian mixture of optimal number' about each tri-phone unit based on a maximum log likelihood estimation. CONSTITUTION: A state occupation probability calculator(104) calculates an occupation probability of each tri-phone unit state. A state log likelihood calculator(106) calculates a log likelihood of each tri-phone unit state. A decision unit of a ML(Maximum Likelihood) mixture by state(110) maps 'the number of mixtures which have the highest log likelihood' in 'the tri-phone unit state which has respective mixture steps'. An optimal acoustic model generator(112) selects a state model of the mapped mixtures from 'the acoustic model of the tri-phone unit state which has various mixture steps' and generates an acoustic model. [Reference numerals] (100) Mixture increasing unit; (102) Repetitive training unit; (104) State occupation probability calculator; (106) State log likelihood calculator; (108) Mixture increase determining unit; (110) State maximum log likelihood mixture determining unit; (112) Optimum sound model generating unit; (AA) Voice data
Abstract:
본 발명은 이동체, 예컨대 주행 중인 차량 내부 환경에서 사용자 음성인터페이스를 위한 음질향상 및 음성 인식 시스템의 성능 향상을 위한 것으로, 이를 위하여 자동차 운행 속도 레벨을 판단하는 방법과 이를 토대로 입력 음성의 음질을 향상 시키기 위한 음질 향상 방법, 자동차 환경에 특화된 음성 활성 검출(voice activity detection, VAD) 방법, 차량 주행 환경에 특화된 음성의 끝점검출(endpoint detection, EPD) 방법, 자동차 운행 속도 레벨에 따른 음성의 특징추출 방법과 음성인식을 위한 decoding 방법을 각각 제안하고 이를 결합함으로써, 정차 혹은 주행중인 자동차 환경에서 사용자 음성인터페이스를 위한 자동 음성 인식(automatic speech recognition, ASR) 성능을 획기적으로 향상시킬 수 있다. 자동체 주행환경, 음성인식, 음질 향상 및 보상, 음성활성검출, 끝점검출, 특징추출, 다중모델디코딩