Abstract:
In one embodiment of the present invention, provided is a mobile communications terminal which includes a camera module which photographs an image of a set region, a microphone module which extracts a sound generation location and sound intensity corresponding to a sound when a sound including a voice of a user is inputted, and a control module which recognizes the sound of the user based on at least one of voice intensity and a voice generation location by estimating the lip location of the user and extracting the voice intensity from the sound intensity and the voice generation location from the sound generation location corresponding to the lip location of the user.
Abstract:
The present invention relates to automatic summarizing to grasp the whole content of a multimedia material. According to the present invention, a method for generating summarized data comprises the steps of generating index information for a specific audio signal or a specific video signal among input signals; of synchronizing the index information with text information inputted for the input signal or extracted from the input signal; and of generating the first summarizing information using the synchronized text information and the index information. According to the present invention, a user can watch desired videos and can select the suitable videos by enabling the apparatus to automatically generate the summarized data of the multimedia materials. When the user does not have time for watching the whole content of a sport game, the user can grasp the game content in the short time. User convenience is improved by enabling the user to listen to music, which the user desires to purchase, in advance.
Abstract:
Disclosed are an acoustic model generation method and a device thereof. According to one embodiment of the present invention, the acoustic model generation method includes: a step of generating an acoustic model using pre-collected training acoustic data; a step of performing tree-based status clustering based on the generated acoustic model and the training acoustic data; a step of forming a status tree through the tree-based status clustering; and a step of generating a final acoustic model using the log acoustic data acquired from the voice of a user and the generated status tree. The step of performing the clustering performs the tree-based status clustering based on the statistical values of context-dependent phonemes acquired from the training acoustic data and on query sets acquired through a phonetic knowledge basis so that it is possible to generate an acoustic model optimized for the actual use environment and accordingly improve voice recognition performance.
Abstract:
The present invention relates to a user interface system for replacing a mouse or a touch pad of a PC. The user interface system according to the present invention includes: a body unit which includes a groove based on an oral structure to be mounted on the upper side of a mouth; a user input unit which receives an input through the tongue of a user on a side surface of the body unit; a communication unit which transmits the received signal; and a charger unit which provides the electricity generated by using the vibration motion or pressure from the oral exercise of the user to the user interface system. A user can interact with a computer by using a controller mounted inside his mouth in a wearable computing environment without using hands. A user who feels uncomfortable when moving hands can also use the interface.
Abstract:
본 발명은 음원 분리 방법 및 그 장치에 관한 것으로, 한 개의 클러스터를 처리하기 위하여 해당 클러스터가 포함하는 주파수 성분의 신호 특성에 적합한 확률 분포 함수를 분리 알고리즘에 적용함으로써 클러스터별로 높은 분리 성능을 얻을 수 있다. 또한, 본 발명은 통합된 주파수 영역의 신호를 역 푸리에 변환을 통하여 다시 시간영역의 신호로 복원할 수 있고, 독립적으로 처리된 클러스터를 통합하기 위하여 분리 과정에서 본질적으로 생기는 채널 뒤섞임 문제와 스케일링 문제를 해결할 수 있다. 주파수, 분리, 암묵 신호 분리, 채널, 푸리에
Abstract:
PURPOSE: An utterance verification device and a method thereof using N-best information based context subordination anti-phoneme model are provided to improve utterance verification performance by performing utterance verification using a context dependent anti-phoneme model generated by an N-best recognition result. CONSTITUTION: A pre-processing unit(140) extracts an end point and a feature from an input voice. A voice recognition unit(150) recognizes the voice based on context dependent phoneme model in a storage unit(120). An utterance verification unit(160) measures reliability based on the voice recognition result of the voice recognition unit and the context dependent phoneme model and context dependent anti-phoneme model. [Reference numerals] (110) Generation unit; (120) Saving unit; (130) Input unit; (140) Pre-processing unit; (150) Voice recognition unit; (160) Ignition verification unit
Abstract:
PURPOSE: A clustering apparatus which uses a voice recognition error confusion matrix and a method thereof are provided to improve the discrimination and reliability of a sound model by detecting 'high frequency error pairs which have a frequent voice recognition result error' and clustering the sound model based on a detection result. CONSTITUTION: A sound model generator(100) receives training voice data and generates a sound model. A voice recognition unit(110) performs a voice recognition based on the generated sound model, an inputted test, and user voice data. An error confusion matrix configuration unit(120) configures a confusion matrix with 'error pairs which are extracted through a comparison of the voice recognition result and enterprise data. A state clustering unit(101a) performs the state clustering of the sound model based on 'high extraction frequency error pairs which are extracted from a high frequency error pair extractor(130). [Reference numerals] (100) Sound model generator; (101a) State clustering unit; (110) Voice recognition unit; (120) Error confusion matrix configuration unit; (130) High frequency error pair extractor; (AA) Training voice data; (BB) Test and user voice data; (CC) Transfer data
Abstract:
본 발명은 사용자의 음성을 이용한 위치 추적 장치 및 그 방법에 관한 것으로, 입력되는 2채널의 음원 신호를 각각의 음원별로 분리하는 음원 분리부에 의해 분리된 각각의 음원 신호로부터 산란 잡음을 제거하고, 음원 위치 추적을 위해 잔여 신호 성분을 강조하도록 필터링하는 스테레오 위너 필터부, 사용자의 음성을 인식하고, 음성 인식 결과에 대한 신뢰도를 측정하는 음성 인식부, 상기 음성 인식부로부터의 음성 인식 결과와 음성 인식 결과에 대한 신뢰도에 근거하여 타겟 채널을 선택하는 채널 선택부, 타겟 채널의 신호 및 간섭 채널의 신호를 분석하여 음원 위치를 추적하는 음원 위치 추적부를 포함한다. 본 발명에 따르면, 암묵적 음원 분리 기술, 스테레오 위너 필터 기술, 음성인식 및 발화검증 기술, 음원 위치 추적 기술을 유기적으로 통합함으로써, 보다 정확하고 주변 환경에 강인한 사용자 음성 위치 추적이 가능한 이점이 있다.
Abstract:
영어 이해도가 다른 다양한 회의 참석자들에게 회의에 언급되는 주요 키워드들을 이해할 수 있도록 다양한 언어로 통역해 주는 음성인식 기반 국제회의 통역 장치 및 방법을 제시한다. 제시된 음성인식 기반 국제회의 통역 장치는 다자간 회의에 참가하는 회의 참가자의 사용 언어를 포함하는 회의 참가자 정보를 회의 참가자별로 미리 등록하는 회의 참가자 정보 등록부; 회의 참가자별로의 발표 내용에 따른 핵심어를 미리 등록하고, 회의 참가자의 발표에 수반하는 음성을 미리 등록된 핵심어를 기반으로 인식하여 핵심어 형태의 음성인식 결과를 출력하는 음성 인식부; 및 핵심어 형태의 음성인식 결과를 분석하여 미리 등록된 회의 참가자별로의 사용 언어에 대응되는 타겟 언어로 변환하여 출력하는 언어 번역부를 포함한다. 국제 회의 발표자에게는 자유로운 모국어 구사가 가능하도록 하고, 참석자들에게는 모국어로 통역된 텍스트 데이터 또는 합성음을 제공해 줌으로써, 원활한 국제 회의 진행 및 참석자들의 회의 내용에 대한 이해도를 높일 수 있다.
Abstract:
본 발명은 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것으로, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반음소를 갖는 반단어로부터 해당 단어의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기, 상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기를 포함한다. 본 발명에 따르면, 음성인식 결과에 대한 단어 기반의 발화 검증 시스템에서 인식되는 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻는 효과가 있다.