Abstract:
The present invention relates to a method and a system for recognizing a voice using three-dimensional geometry information. The voice recognition system comprises a learning module and a recognizing module. The learning module generates a recognition unit using three-dimensional geometry information for study and three-dimensional features for study extracted from the information. The recognizing module applies the three-dimensional geometry information acquired from a physical target related or belonged to a voice or three-dimensional features extracted from the geometry information to the recognition unit, and conducts voice recognition. The method and the system for recognizing a voice according to the present invention, recognizes a voice using three-dimensional geometry information on lips, a part around the lips, or one or more arbitrary regions of a human body in speech. Also, final voice recognition is conducted by combining two-dimensional features and sound features, and three-dimensional features and sound features in speech, and by combining recognition result of the two-dimensional features or sound features, or recognition result of the three-dimensional geometry information or three-dimensional features in speech. Therefore, the accuracy of voice recognition is improved.
Abstract:
본발명의실시예에따른음성인식학습장치는영상입력부, 영상처리부및 컨볼루션뉴럴네트워크를포함할수 있다. 영상입력부는입력영상을수신할수 있다. 영상처리부는미리정해진제1 시간간격동안의입력영상에포함되는입술영상및 입술의정해진위치에상응하는랜드마크의주변영상에해당하는패치영상을각각 N(N은자연수)개의프레임들로나눌수 있다. 컨볼루션뉴럴네트워크는입술영상을 N개의프레임들로나눈프레임입술영상및 패치영상을 N개의프레임들로나눈프레임패치영상에기초하여입술의모양에상응하는음성정보를학습할수 있다. 본발명에따른음성인식장치에서는화자의입술영상뿐만아니라, 입술의정해진위치에배치되는랜드마크의주변영상인패치영상을이용하여컨볼루션뉴럴네트워크(Convolution Neural Network, CNN)를학습시킴으로써음성인식성능을향상시킬수 있다.
Abstract:
본 발명에 따른 최적 계층적 블록 매칭(optimized hierarchical block matching, OHBM) 방법 및 시스템은, 계층적 블록 매칭에서, 계산량(computational cost)과 정확도(accuracy)를 최적화하도록 영상 피라미드(image pyramid)의 레이어 수(number of layers)와 두 인접 레이어(two consecutive layers) 사이의 해상도 비(scale factor), 즉 단위 해상도 비(unit scale factor)를 결정하여 계층적 블록 매칭을 수행하는 것을 특징으로 한다. 또한 본 발명에 따른 최적 계층적 블록 매칭 방법 및 시스템은 정확도를 향상시키기 위하여 두 입력 영상의 각 채널의 평균과 표준편차를 이용하여 두 입력 영상 간의 컬러 차이를 고속으로 보정하는 컬러 보정(color alignment, CA) 단계(혹은 컬러 보정부)를 더 포함하기도 한다. 또한 본 발명에 따른 영상 정합(image registration) 방법은, 두 영상에 대해 상기 최적 계층적 블록 매칭 방법 또는 시스템을 이용하여 최적 계층적 블록 매칭을 수행하고, 그 결과를 이용하여 소정의 기하 모델(geometric transformation model)에 기반을 둔 하나 이상의 기하 변환 파라미터를 추정하고, 상기 추정된 기하 변환 파라미터를 이용하여 두 입력 영상 중 하나 이상을 기하 변환하는 것을 특징으로 한다. 또한 본 발명에 따른 최적 계층적 블록 매칭을 이용한 영상 압축 방법은 영상 프레임 간 또는 스테레오스코픽 3D(stereoscopic 3D, S3D) 영상이나 다시점 3D(multiview 3D) 영상의 경우에는 좌우 영상 간 혹은 서로 다른 시점(viewpoint)의 영상 간 모션 보정을 위한 모션 추정의 속도를 획기적으로 향상시키기 위하여 상기 최적 계층적 블록 매칭 방법 또는 시스템을 이용하는 것을 특징으로 한다.
Abstract:
본 발명은 3차원 기하정보를 이용하여 음성 인식하는 방법 및 시스템에 관한 것이다. 상기 음성 인식 시스템은 학습 모듈 및 인식 모듈을 구비하여, 학습 모듈은 학습용 3차원 기하정보 또는 이들로부터 추출된 학습용 3차원 특징을 이용하여 인식기를 생성한다. 상기 인식 모듈은 음성에 연관되거나 종속된 물리적 대상로부터 획득한 3차원 기하정보 또는 이로부터 추출된 3차원 특징을 상기 인식기에 적용하여 음성 인식하는 것을 특징으로 한다. 본 발명에 따른 음성 인식 시스템 및 방법은 발화시의 입술 및 주변, 또는 인체의 임의의 하나 이상의 영역에 대한 3차원 기하정보를 이용하여 음성 인식하는 것을 특징으로 하며, 더 나아가 발화시의 2차원 특징 또는 음향 특징과 3차원 기하정보 또는 3차원 특징을 결합하여 음성 인식하거나, 발화시의 2차원 특징 또는 음향 특징에 의한 인식 결과와 3차원 기하정보 또는 3차원 특징에 의한 인식 결과를 결합하여 최종적으로 음성 인식함으로써 음성 인식의 정확도를 향상시키는 것을 특징으로 한다.
Abstract:
본발명의실시예에따른음성인식장치는음원위치정보제공부, 영상위치정보제공부, 빔포밍위치정보제공부및 빔포밍부를포함할수 있다. 음원위치정보제공부는소리입력신호에기초하여소리입력신호에포함되는타겟음원의위치정보및 외부잡음원의위치정보를제공할수 있다. 영상위치정보제공부는영상입력신호에기초하여영상입력신호에포함되는관심음원의위치정보를제공하고, 관심음원중 사람의얼굴로판단되는얼굴영역영상을제공할수 있다. 빔포밍위치정보제공부는타겟음원의위치정보, 외부잡음원의위치정보, 관심음원의위치정보및 얼굴영역영상으로부터추출되는발화자의입술움직임정보에기초하여발화자의위치정보및 나머지음원의위치정보를제공할수 있다. 빔포밍부는발화자의위치정보및 나머지음원의위치정보에기초하여빔포밍된빔포밍소리신호를제공할수 있다. 본발명에따른음성인식장치에서는소리입력신호및 영상입력신호에기초하여생성되는발화자의위치정보및 나머지음원의위치정보에따라빔포밍하여빔포밍소리신호를제공함으로써음성인식의성능을향상시킬수 있다.