Abstract:
본 발명은 대화체 음성에서 빈번하게 나타나는 발음변이를 의사형태소 기반의 대표어휘에 수용하여 확장된 다중 발음사전을 구성하고 대표어휘만을 이용하여 언어모델 및 어휘사전을 구성함으로써, 대화체 연속음성인식의 성능을 향상시키고 정형화된 출력패턴을 얻을 수 있는 다중발음사전 구축 방법 및 시스템과 이를 이용한 대화체 음성인식 방법에 관한 것이다. 본 발명은 대화체 텍스트 코퍼스로부터 대표음 텍스트 코퍼스와 변이음 텍스트 코퍼스를 각각 추출하는 단계와, 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 단계와, 태깅 결과를 어절별로 비교하여 의사형태소 단위의 대표음/변이음 쌍들을 추출하는 단계와, 대표음 코퍼스만의 의사형태소 태깅 결과로부터 대표음 어휘사전을 생성하는 단계와, 대표음 어휘사전과 대표음/변이음 쌍 추출 결과를 통해 다중발음사전 및 대표음 언어모델을 생성하는 단계로 이루어진다.
Abstract:
PURPOSE: A system and a method for sequentially recognizing a dialog voice using a multi-pronunciation dictionary are provided to enhance a recognition performance on the sequential dialog voice recognition, obtain a normalized output pattern, and enhance an efficiency of a language model by applying an extended pronunciation dictionary. CONSTITUTION: A sound model database(104) stores the information for a sound model. A language model database stores the information for the language model. A multi-pronunciation dictionary(105) database accepts various kinds of pronunciation variation information. A characteristic extractor(101) extracts/converts only the information useful for recognizing the inputted voice into a characteristic vector. A searcher(102) searches the highest probable word string through a Viterbi algorithm by using the sound model database and the language model database. A recognition result output tool(103) provides a recognition result for the inputted voice.
Abstract:
음성입력 장치, 음성인식을 수행하여 텍스트로 변환하는 음성처리 장치, 질의어 처리 및 컨텐츠 검색 장치, 컨텐츠 제공 장치를 포함하는 음성 인터페이스를 이용한 IPTV 시스템이 제공된다. 음성처리 장치는 음질 향상, 잡음 제거 등의 전처리를 수행하고 특징벡터를 추출하는 음성 전처리부, 음향모델 및 언어모델 데이터베이스, 음향모델과 언어모델을 이용하여 특징벡터를 텍스트로 변환하는 디코딩부를 포함하며, 음향모델 데이터베이스는 각 사용자별로 적응된 개인적응 음향모델과 일반화자 음향모델로 구성되어 사용자별 음성특성을 이용하여 음성을 인식한다. 또한, 사용자 프로파일과 선호도를 저장하여 개인화된 서비스를 제공한다. 사용자에 대한 서비스가 제공될 때마다 음성인식의 결과가 음향모델 데이터베이스와 사용자 프로파일 데이터베이스에 업데이트되어 음성인식 성능 및 개인화된 서비스의 성능이 지속적으로 개선될 수 있다. IPTV, 컨텐츠 검색, 음성인식, 개인화 서비스, 음성 인터페이스
Abstract:
PURPOSE: An optimal acoustic model generating apparatus of a maximum log likelihood base and a method thereof are provided to reduce a calculation during a performance of a voice recognition by estimating 'an acoustic model which has a Gaussian mixture of optimal number' about each tri-phone unit based on a maximum log likelihood estimation. CONSTITUTION: A state occupation probability calculator(104) calculates an occupation probability of each tri-phone unit state. A state log likelihood calculator(106) calculates a log likelihood of each tri-phone unit state. A decision unit of a ML(Maximum Likelihood) mixture by state(110) maps 'the number of mixtures which have the highest log likelihood' in 'the tri-phone unit state which has respective mixture steps'. An optimal acoustic model generator(112) selects a state model of the mapped mixtures from 'the acoustic model of the tri-phone unit state which has various mixture steps' and generates an acoustic model. [Reference numerals] (100) Mixture increasing unit; (102) Repetitive training unit; (104) State occupation probability calculator; (106) State log likelihood calculator; (108) Mixture increase determining unit; (110) State maximum log likelihood mixture determining unit; (112) Optimum sound model generating unit; (AA) Voice data
Abstract:
본 발명은 이동체, 예컨대 주행 중인 차량 내부 환경에서 사용자 음성인터페이스를 위한 음질향상 및 음성 인식 시스템의 성능 향상을 위한 것으로, 이를 위하여 자동차 운행 속도 레벨을 판단하는 방법과 이를 토대로 입력 음성의 음질을 향상 시키기 위한 음질 향상 방법, 자동차 환경에 특화된 음성 활성 검출(voice activity detection, VAD) 방법, 차량 주행 환경에 특화된 음성의 끝점검출(endpoint detection, EPD) 방법, 자동차 운행 속도 레벨에 따른 음성의 특징추출 방법과 음성인식을 위한 decoding 방법을 각각 제안하고 이를 결합함으로써, 정차 혹은 주행중인 자동차 환경에서 사용자 음성인터페이스를 위한 자동 음성 인식(automatic speech recognition, ASR) 성능을 획기적으로 향상시킬 수 있다. 자동체 주행환경, 음성인식, 음질 향상 및 보상, 음성활성검출, 끝점검출, 특징추출, 다중모델디코딩
Abstract:
PURPOSE: A pronunciation space formation apparatus is provided to minutely model pronunciation modification rules within a word or between words by applying a probabilistic pronunciation modification rule and expanding a pronunciation space. CONSTITUTION: A pronunciation space generator(110) creates a pronunciation space based on a recognition target word. A pronunciation space expansion unit(120) expands the created pronunciation space in consideration of pronunciation modification rules within a word or between words. A power supply unit(130) supplies a power source to the pronunciation space generator and the pronunciation space expansion unit. A main control unit(140) controls the whole operation of the pronunciation space generator and the pronunciation space expansion unit.
Abstract:
본 발명은 입력 음성에 대한 신뢰성 있는 인식 결과를 출력한다는 것으로, 이를 위하여 본 발명은, 입력 음성의 단어에 대한 서브 워드별 우도비를 이용하여 발화 검증을 수행하는 종래 방법과는 달리, 입력 음성 단어에 대한 서브 워드별 우도비에 인식 신뢰도에 따른 우도비 가중치를 적용한 후, 이를 취합하여 단어의 발화 검증을 수행하거나 입력 음성 단어에 대한 서브 워드별 우도비를 이용하여 각 서브 워드별로 부분 발화 검증을 수행한 후, 단어의 전체 발화 검증을 수행함으로써, 입력 음성에 대한 인식 결과의 신뢰도를 향상시킬 수 있는 것이다. 음성 인식, 우도비, 발화 검증