Abstract:
본 발명은 연속으로 발성되는 한국어 숫자음성에 대한 음성인식을 수행하여 그 인식 결과에 대해 혼동행렬과 신뢰도 치에 기반하여 다수의 음성인식 후보를 생성하는 기술에 관한 것으로, 혼동행렬은 숫자음성에 대해 오인식이 발생하는 숫자들로 구성되므로, 사전에 실험용 데이터베이스를 사용하여 인식을 수행한다. 또한 음성인식의 결과로 도출되는 숫자별 인식 점수인 통계적 우도를 그 단어의 지속시간 지수인 프레임 수로 나눈 로그 우도비를 신뢰도 치로써 사용하는 것을 특징으로 한다. 본 발명에 의하면, 음성인식 알고리즘에서 성능의 저하 없이 N-best를 생성하기 위해 사용하는 기억장치 사용량과 탐색시간을 절약함으로써 음성인식 엔진의 효율을 높일 수 있다. 음성인식, 숫자음성, N-best, 신뢰도치, 혼동행렬
Abstract:
PURPOSE: Interactive contents providing device and method in an e-book system are provided to interactive contents by editing the contents provided from CP. CONSTITUTION: CP(Contents Provider)(102,103) generates and provides the contents. A contents making device(110) creates interactive contents by manufacturing and editing the contents received from the CP. The contents making device provides to the interactive contents to the CP. Terminals(105-108,119) receive the interactive contents from the CP and provide the interactive contents to users. The interactive contents comprise script, object data and scene data.
Abstract:
PURPOSE: A device for separating a sound source and a method thereof are provided to extract only a desired sound from various sound sources. CONSTITUTION: An input unit(610) changes the offered signal in to a frequency domain. A processing unit(620) divides the sound source of the converted signal in the frequency band unit. The processing unit aligns the separated sound source through the phase difference of a mixed filter for mixing the sound sources. An output unit(630) changes the aligned sound sources into the time domain.
Abstract:
PURPOSE: A viterbi decoder and a method for recognizing a voice are provided to prevent the dramatic lowering of an observation probability of a contaminated portion caused by an unintended impulse noise. CONSTITUTION: An optimal state calculator(220) obtains the state of the maximum accumulated similarity in each measurement vector of an observation vector row for the inputted voice. A buffer unit(240) stores an observation probability value for the plural voices inputted prior to the inputted voice. A non-linear filtering unit(250) calculates the observation probability value based on the observation probability value calculated by an observation probability calculator(230). A maximum similarity producer(260) calculates a local maximum similarity value based on the observation probability value.
Abstract:
PURPOSE: A method and an apparatus for reducing noises are provided to reinforce isolation function of voice and noise through voice/noise isolation function like soft masking technique thereby accurately presuming clean voice. CONSTITUTION: A noise estimator(130) presumes noise component within inputted voice signal. A posterior probability estimator(140) presumes posterior probability value from the noise component. A noise parameter adapting unit(150) applies noise Gaussian mixture model to the inputted voice signal. A voice/noise separating unit(160) divides noise and voice signal primarily. A noise removing unit(170) eliminates residual noise components of the voice signal.
Abstract:
선험적 음성 부재 확률은 입력신호로부터 주어진 프레임 인덱스와 주파수 빈(bin) 인텍스에 대하여 음성이 존재하지 않을 확률을 말하는데 과거에는 이를 추정하기가 곤란하여 일반적인 상수(일반적으로 0.5)로 간주하였다. 그러나, 2002년 이후 이러한 선험적 음성 부재 확률을 추정하고자 하는 노력들이 시작되는데 본 발명에서는 통계적 모델을 이용하여 선험적 음성 부재 확률을 추정하기 위한 새로운 방법을 제안한다. 즉, 상기 목적을 달성하기 위한 본 발명의 선험적 음성 부재 확률 추정 방법은, 입력되는 음성 데이터의 선험적 음성 부재 확률을, 로컬 파라미터, 글로벌 파라미터 및 평균 파라미터를 이용하여 구하는 방법으로서, 상기 로컬 파라미터 및 글로벌 파라미터는, 제1 문턱값 보다 작은 값에 대한 0 판단과, 제2 문턱값 보다 큰 값에 대한 1 판단과,상기 제1 문턱값 및 제2 문턱값 사이의 값에 대한 라이즈드 코사인 함수 적용에 의해 구해지며, 상기 평균 파라미터는, 로그 스케일의 후험적 신호대잡음비 프레임의 평균에 의해 구해지는 것을 특징으로 한다. a priori 음성 부재 확률, 음질향상, 잡음, 선험적, 필터
Abstract:
본 발명은 인간 청각 모델을 이용한 부가잡음 제거장치에 관한 것이다. 본 발명의 부가잡음 제거장치는 입력신호 버퍼링 및 프레이밍부와 주파수 스펙트럼 추정부 사이에 인간 청각 모델 적용부가 구비된다. 상기 인간 청각 모델 적용부는 입력된 음성 신호에 대해 자동 이득 제어 과정, 외이 및 중이의 주파수 응답 적용 과정, 미세한 내부 잡음 처리 과정을 각각 수행하여 인간 청각 모델을 상기 음성 신호에 적용시킨다. 따라서, 음성 언어의 신호 성분 중에서 언어를 인지하는데 필요한 신호 성분들이 강조되어 부가잡음이 제거된 음성 신호의 음질을 향상시킬 수 있으며, 특히, 부가잡음 제거의 전처리 과정을 거치는 음성인식 시스템의 경우, 이러한 인간 청각 모델을 고려함으로써 그 성능을 크게 향상시킬 수 있다. 인간 청각 모델(human auditory model), 음성 인식, 자동 이득 제어, 부가잡음 제거
Abstract:
본 발명은 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점 검출방법에 관한 것으로, 상기 대화형 음성인식 시스템의 끝점 검출부, 후처리부, 대화 턴(dialogue turn)검출부의 상호작용을 통하여 대화체 연속 음성인식 시스템의 끝점 검출성능을 높임과 동시에 연속 음성인식 시스템의 응답 지연시간을 최적화하는 것이다. 이에 따라, 본 발명의 대화형 연속 음성인식 시스템은 음성입력 신호를 음성구간과 비음성 구간으로 구분하여 음성인식 시스템의 불필요한 계산량 부하를 막는 끝점 검출부와, 상기 음성입력 신호로부터 음성인식에 필요한 특징벡터들을 추출하는 특징벡터 추출부와, 상기 특징벡터 추출부에서 추출된 음성의 특징벡터를 기반으로 음성을 인식하는 음성 인식부와, 상기 음성 인식부의 출력정보를 기반으로 음성인식 결과를 검증하는 후처리부 및 상기 후처리부를 통하여 전달된 음성인식 결과를 기반으로 사용자의 의도를 파악하고, 다음 대화를 예측하는 대화 턴 검출부를 포함하여 구성된다.
Abstract:
PURPOSE: A phone network user interface system for automatic voice translation service and a control method thereof are provided to implement a multi-language support automatic voice translation service system through wired/wireless telephone network. CONSTITUTION: A telephone network user interface system(20) is connected to a wired/wireless telephone network(10) and also to automatic voice translation service systems(30,40). A wired/wireless telephone network interface(212) processes a call processing-related signal. A user interface(213) supports a service flow previously defined to obtain information required for an automatic voice translation service and information on call connection with the other party. An automatic voice translation service system interface(214) interfaces the telephone network user interface system(20) and the automatic voice translation service systems(30,40). An overall system controller(211) controls the wired/wireless telephone network interface(212), the user interface(213) and the automatic voice translation service system interface(214.).