Abstract:
배경의 잡음이 다양하게 변하는 원거리 음성인식 환경에서 여러 개의 마이크로폰을 분산시켜 사용자 음성에 반응하는 마이크로폰들을 선택하여 음성인식 성능을 개선하도록 하는 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법을 제시한다. 제시된 장치는 사용자의 주변에 분산된 복수의 마이크로폰중에서 사용자의 음성에 반응하는 두 개 이상의 마이크로폰을 선택하는 마이크로폰 선택부, 선택된 두 개 이상의 마이크로폰의 입력의 신호대 잡음비를 측정하는 신호대 잡음비 측정부, 선택된 두 개 이상의 마이크로폰중에서 신호대 잡음비가 가장 큰 마이크로폰의 입력으로 음성 인식을 수행하고, 나머지 마이크로폰의 입력으로 음성 인식에 대한 검증을 수행하는 음성 인식 및 검증부, 및 음성 인식 및 검증부의 결과를 근거로 사용자의 음성에 대한 최종 인식결과를 출력하는 최종 인식결과 출력부를 포함한다.
Abstract:
The present invention relates to a method for generating an out-of-vocabulary (OOV) based on a similarity in a voice recognition system. The method for generating an OOV according to the present invention includes the steps of: generating a dictionary of a vocabulary to be recognized which has a phoneme string by each vocabulary when voice test data is prepared; selecting an OOV from the voice test data, comparing the phoneme strings of the OOV and at least one vocabulary to be recognized which is stored in the dictionary of a vocabulary to be recognized, and calculating a similarity; classifying, into a first group, the vocabulary to be recognized which has a similarity included in a first range in at least one vocabulary to be recognized, adding the vocabulary to be recognized in a dictionary of the OOV, and revising a grammar; and classifying, into a second group, the vocabulary to be recognized which has a similarity included in a second range in at least one vocabulary to be recognized, and adding the vocabulary to be recognized in the dictionary of the OOV.
Abstract:
개인 맞춤형 자연어 연속어 음성 인식 방법 및 이를 위한 시스템이 개시된다. 음성 인식 방법은, 단말로부터 사용자 정보 및 사용자 발화를 수신하는 단계와, 상기 수신된 사용자 정보에 기초하여 상기 사용자가 등록된 사용자인지 여부를 판단하는 단계와, 상기 사용자가 등록된 사용자인 것으로 판단되면, 상기 등록된 사용자의 정보를 포함하는 개인 맞춤형 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계 및 상기 생성된 음성 인식 결과를 상기 단말로 전송하는 단계를 포함한다. 따라서, 현재 웹 서비스 중에 휴대 단말 환경 기반 음성 검색 서비스의 성능을 최대한 높이기 위해 개인 맞춤형 서비스를 제공할 수 있다.
Abstract:
본 발명은 엔베스트(N-best) 인식 단어 계산량 감소를 위한 2단계 발화검증 구조 및 방법에 관한 것으로, 메모리, CPU 성능 등 리소스 제한을 받는 임베디드 시스템에 발화검증 기능을 갖는 음성인식 시스템을 위한 것이다. 발화검증은 사용자가 음성으로 발성한 음성 입력에 대해 음성인식을 수행한 후, 인식된 결과에 대한 신뢰도를 계산하여 인식 결과를 수락 또는 거절을 결정하는 것이다. 이를 위해 임베디드용 발화검증은 성능 요구사항뿐만 아니라, 빠른 응답시간을 제공해 주어야 하므로, 새로운 구조와 계산량 감소를 위한 기법을 사용해야 한다. 따라서, 본 발명에서는 임베디드 음성인식 시스템에서 엔베스트 인식결과가 출력될 때 계산량 감소를 위한 2단계 발화검증 구조 및 방법을 제안하고자 한다.
Abstract:
본 발명은 전자책 시스템을 위한 인터랙티브 컨텐츠를 제작, 유통, 활용하는 장치 및 방법에 관한 것이다. 본 발명은, 컨텐츠 제공 장치에 있어서, 컨텐츠 저작 도구 및 컨텐츠 구성 아이템을 유통시키는 저작 도구 유통부; 상기 저작 도구 유통부로부터의 컨텐츠 저작 도구 및 컨텐츠 구성 아이템을 이용하거나 기 제작된 컨텐츠를 더 이용하여 인터랙티브 컨텐츠를 생성하는 인터랙티브 컨텐츠 제작부; 및 상기 인터랙티브 컨텐츠 제작부에서 생성된 인터랙티브 컨텐츠를 단말로 유통시키거나 타 인터랙티브 컨텐츠 제작부로 더 유통시키는 인터랙티브 컨텐츠 유통부를 포함하되, 상기 인터랙티브 컨텐츠는, 스크립트, 객체 데이터, 장면 데이터를 포함한다. 전자책, e-book, 음성인식, 음성합성, 인터랙티브 동화, 아동, 유아
Abstract:
PURPOSE: A voice conversation interface device and a method thereof are provided to promote conversation between a human and a machine by establishing a language model suitable for each user through pre-analysis of personal data of a user and generating a conversation topic based on the analysis result. CONSTITUTION: A data unit(210) includes digital media data corresponding to a user. An analysis unit(220) analyzes the digital media data and generates each user profile based on the analysis result. A model establishment unit(230) establishes a language model based on the generated user profile. An interface unit(240) supplies one of the digital media data to the user and performs a voice conversation interface between the user and the machine based on the language model corresponding to the provided data. [Reference numerals] (210) Data unit; (220) Analysis unit; (230) Model establishment unit; (240) Interface unit
Abstract:
PURPOSE: Acoustic model training device and a method thereof are provided to accurately perform phoneme combination by using former and latter context information and location information of a corresponding phoneme when phoneme combination for training an acoustic model. CONSTITUTION: A modeling unit(100) configures an acoustic model on a phoneme based on a hidden Markov model(HMM). An inquiry execution unit performs inquiry using context information and location information of the phoneme. A tree configuration unit(120) configures a tree according to each state of the inquiry performance. A state combination unit(130) combines a state of phonemes corresponding to the final node of the tree. An acoustic model training unit(140) trains the acoustic model based on the state combination. [Reference numerals] (120) Tree configuration unit; (130) State combination unit; (140) Acoustic model training unit; (AA) Modeling unit; (BB) Inquiry processing unit
Abstract:
PURPOSE: A voice recognition server and a method thereof are provided to apply terminal information of a user terminal and voice information of a user and perform voice recognition through a relevant sound model, thereby providing a voice recognition result of a state where a channel environment of the user terminal is matched to a training environment of the sound model. CONSTITUTION: A sound model storage part(220) stores multiple sound models. A sound model extraction part(260) extracts a relevant sound model among the stored multiple sound models based on the gender of a user of a user terminal determined by a user gender determination part(240) and terminal information verified by a terminal information verifying part(250). A decoding part(270) applies the extracted sound model and recognizes the voice of the user. [Reference numerals] (210) Control part; (220) Sound model storage part; (230) Communication part; (240) User gender determination part; (250) Terminal information verifying part; (260) Sound model extraction part; (270) Decoding part; (AA) Terminal/gender sound model 1; (BB) Terminal/gender sound model 2; (CC) Terminal/gender sound model N