Abstract:
개인 맞춤형 자연어 연속어 음성 인식 방법 및 이를 위한 시스템이 개시된다. 음성 인식 방법은, 단말로부터 사용자 정보 및 사용자 발화를 수신하는 단계와, 상기 수신된 사용자 정보에 기초하여 상기 사용자가 등록된 사용자인지 여부를 판단하는 단계와, 상기 사용자가 등록된 사용자인 것으로 판단되면, 상기 등록된 사용자의 정보를 포함하는 개인 맞춤형 모델을 기초로 상기 사용자 발화를 인식하여 음성 인식 결과를 생성하는 단계 및 상기 생성된 음성 인식 결과를 상기 단말로 전송하는 단계를 포함한다. 따라서, 현재 웹 서비스 중에 휴대 단말 환경 기반 음성 검색 서비스의 성능을 최대한 높이기 위해 개인 맞춤형 서비스를 제공할 수 있다.
Abstract:
본 발명은 엔베스트(N-best) 인식 단어 계산량 감소를 위한 2단계 발화검증 구조 및 방법에 관한 것으로, 메모리, CPU 성능 등 리소스 제한을 받는 임베디드 시스템에 발화검증 기능을 갖는 음성인식 시스템을 위한 것이다. 발화검증은 사용자가 음성으로 발성한 음성 입력에 대해 음성인식을 수행한 후, 인식된 결과에 대한 신뢰도를 계산하여 인식 결과를 수락 또는 거절을 결정하는 것이다. 이를 위해 임베디드용 발화검증은 성능 요구사항뿐만 아니라, 빠른 응답시간을 제공해 주어야 하므로, 새로운 구조와 계산량 감소를 위한 기법을 사용해야 한다. 따라서, 본 발명에서는 임베디드 음성인식 시스템에서 엔베스트 인식결과가 출력될 때 계산량 감소를 위한 2단계 발화검증 구조 및 방법을 제안하고자 한다.
Abstract:
본 발명은 전자책 시스템을 위한 인터랙티브 컨텐츠를 제작, 유통, 활용하는 장치 및 방법에 관한 것이다. 본 발명은, 컨텐츠 제공 장치에 있어서, 컨텐츠 저작 도구 및 컨텐츠 구성 아이템을 유통시키는 저작 도구 유통부; 상기 저작 도구 유통부로부터의 컨텐츠 저작 도구 및 컨텐츠 구성 아이템을 이용하거나 기 제작된 컨텐츠를 더 이용하여 인터랙티브 컨텐츠를 생성하는 인터랙티브 컨텐츠 제작부; 및 상기 인터랙티브 컨텐츠 제작부에서 생성된 인터랙티브 컨텐츠를 단말로 유통시키거나 타 인터랙티브 컨텐츠 제작부로 더 유통시키는 인터랙티브 컨텐츠 유통부를 포함하되, 상기 인터랙티브 컨텐츠는, 스크립트, 객체 데이터, 장면 데이터를 포함한다. 전자책, e-book, 음성인식, 음성합성, 인터랙티브 동화, 아동, 유아
Abstract:
PURPOSE: A text normalization device and a method thereof are provided to efficiently perform learning even in a context environment not considered by a developer by automatically learning a context based on mass data. CONSTITUTION: A corpus authoring unit(100) detects a conversion target requiring text normalization from an input document and tags the conversion target with a specific conversion process in order to author a training corpus. A conversion model generating unit(200) generates a learnt conversion model by using a statistical pattern learning method and the training corpus. A converting unit(300) converts a text word expression of an input text into a spoken word expression based on the learnt conversion model to perform text normalization. [Reference numerals] (100) Corpus authoring unit; (200) Conversion model generating unit; (300) Converting unit
Abstract:
본 발명에 따른 비터비 디코더는, 입력된 음성 프레임의 관측 벡터에 대한 관측 확률 값을 계산하고, 과거 음성 프레임에 대해 계산된 관측 확률값과의 비션형 필터링을 통해 현재 관측 확률값을 갱신하고, 이를 기반으로 최대 유사도 값을 산출하여 인식 단어를 출력한다. 이와 같이, 본 발명은 관측 확률에 대한 비선형 필터링 방식을 적용하여 음성 신호간에 존재하는 상관성을 토대로 관측 확률 값을 복원함으로써, 의도하지 않은 임펄스성 잡음으로 인해 오염된 부분의 관측 확률이 급격히 낮아지는 것을 방지할 수 있다. 비터비 디코더, 음성, 관측 확률, 비선형 필터링, 잡음
Abstract:
PURPOSE: A message service method using a voice recognition function is provided to offer a message by combining a voice recognition result and the real voice of a user. CONSTITUTION: A message server(20) recognizes a voice transmitted from a transmission terminal(10)(S14). The message server generates a recognized result from the voice and an N-best result based on a chaos network. The message server transmits the generated N-best result to the transmission terminal(S20). The message server receives the selected message from the transmission terminal and an evaluation result for the message accuracy(S26). The message server transmits the message and the evaluation result to a reception terminal(30)(S32). [Reference numerals] (10) Transmission terminal; (20) Message server; (30) Reception terminal; (S10) Inputting voice; (S12,S40) Transmitting the voice; (S14) Recognizing the voice; (S16) Generating a recognized result and an N-best result; (S18) Storing log data; (S20) Transmitting the recognized result and the N-best result; (S22) Displaying the recognized result and the N-best result; (S24) Determining a message and an evaluation result; (S26,S32) Transmitting the message and the evaluation result; (S28) Storing additional log data; (S30) Modifying errors of the recognized result; (S34) Displaying the message and the evaluation result; (S36) Requesting the voice; (S38) Extracting the voice; (S42) Outputting the voice
Abstract:
PURPOSE: An apparatus for estimating language model weight is provided to enhance performance of secondary search and to improve performance of a voice recognition system. CONSTITUTION: An apparatus for estimating language model weight comprises: a first search unit(101) for performing primary search by applying a first language model; a phoneme recognition unit(102) for outputting second sound score by applying a sound model to a sound feature vector; a weight estimation unit(103) for outputting a first language model weight in case that a sound score of voice recognition result is higher than a sound score of phoneme recognition result; and a second search unit(104) for applying the second language weight to word grid.
Abstract:
PURPOSE: A device for driving voice recognition system is provided to perform the voice recognition by vocalization of a pre-stored keyword without additional key operation, thereby increasing the user convenience. CONSTITUTION: When a user speaks a registration target keyword, a user registration unit(100) calculates a threshold value from the keyword. The user registration unit stores the threshold value in a storage unit(114). A voice recognition and driving unit(150) calculates a likelihood ratio for a vocalized data following the input of the vocalized data. The voice recognition and driving unit drives the system by comparing the likelihood ratio with the threshold value.
Abstract:
본 발명은 URC(Ubiquitious Robotic Companion) 단말(로봇)을 이용하여 가정 내에서 사용자의 위치와 관계없이 가정 내에 분산된 음악, 영화, 방송, 게임, 개인 미디어 등의 다양한 멀티미디어 컨텐츠를 즐길 수 있도록 지원하는 홈 엔터테인먼트(Home Entertainment) 로봇 서비스에 관한 것이다. 무선 통신을 통해 연결된 URC 단말 및 서버가 홈 네트워크에 연결된 다양한 멀티미디어 기기와 컨텐츠를 통합 관리하고, 이동과 음성입력이 가능한 로봇이 음성호출 기능 및 위치센서를 통해 사용자의 인접거리에서 서비스를 제공함으로써 음성입력을 위해 리모콘을 사용하거나 가정 내에 마이크가 분산 배치될 필요성이 없다. 또한, 가정내의 좌표 정보를 활용해서 로봇과 인접에 있는 사용자의 위치에 맞는 서비스를 제공할 수 있는 것을 특징으로 한다. 음성인식, 음성합성, URC, 홈 네트워크, 멀티미디어 컨텐츠, 멀티미디어 기기, 홈 엔터테인먼트, 정보검색