Abstract:
본 발명에 따르는 반향 환경에서의 음성특징 향상방법은, 반향 환경에 대한 대략적인 모델링을 통해 RIR(Room Impulse Response)의 로그 평균 에너지 와 모델 에러 스테이스틱스 를 초기화하고, 초기화된 RIR의 로그 평균 에너지 와 모델 에러 스테이스틱스 를 토대로 향상된 LMPSCs 추정식을 결정하고, 그 향상된 LMPSCs 추정식에 따라 관찰신호 에 대한 향상된 LMPSCs 를 추정하고, 상기 향상된 LMPSCs 와 모델 에러 스테이스틱스 와 관찰신호 를 토대로 상기 RIR의 로그 평균 에너지 를 산출하여 갱신하고, 그 갱신된 RIR의 로그 평균 에너지 와 모델 에러 스테이스틱스 를 토대로 향상된 LMPSCs 추정식을 결정하여, 주파수 종속 반향을 고려하여 향상된 LMPSCs 추정방식을 결정하는 제1단계; 상기 주파수 종속 반향을 고려하여 LMPSCs 추정방식에 따라 입력신호의 음성특징을 향상하는 제2단계;를 특징으로 한다.
Abstract:
본 발명에 따르는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템에 있어서, 질의를 위한 음성신호를 입력받아 특징정보를 검출하고, 상기 질의를 위한 음성신호의 특징정보를 수집된 음성신호들과 그에 대해 미리 설정된 점수정보들을 회귀분석 학습하여 생성한 흥미점수 산출함수에 따라 연산하여 흥미점수를 산출하는 제어장치; 상기 흥미점수 및 상기 흥미점수 산출함수를 저장하며, 상기 제어장치의 프로그램 수행을 위해 요구되는 저장영역을 제공하는 메모리부; 및 상기 제어장치의 제어에 따라 음성신호를 제공받아 특징정보를 생성하는 음성신호의 특징정보 검출부;를 구비함을 특징으로 한다.
Abstract:
본 발명에 따른 강한 음성 인식 시스템은 전처리(pre-processing) 과정인 MPDR 빔포머를 사용하여 음원을 향상시킨 후, 향상된 음원 신호들과 노이즈 신호들의 합성신호에 대하여 HIVA 학습 알고리즘을 적용하여 음원 신호에 대한 특징 벡터를 추출하는 것을 특징으로 한다. 상기 음성 인식 시스템은 신호 왜곡을 최소화시키고 언믹싱 매트릭스에 대한 컨버전스를 향상시키기 위하여, HIVA 학습 알고리즘을 수행함에 있어서, non-holonomic constraint와 최소 왜곡 원칙(Minimal Distortion Priciple; 이하 'MDP'라 한다)을 적용하는 것을 특징으로 한다. 또한, 상기 음성 인식 시스템은 향상된 음원과 노이즈 음원을 이용하여 학습 과정에서 손실된 특징들(Missing Features)을 파악하고 이를 보상하는 것을 특징으로 한다. 전술한 특징들에 의하여, 본 발명에 따른 강한 음성 인식 시스템은 하모닉 주파수 의존성을 이용한 독립 벡터 분석 알고리즘을 기반으로 하여 노이즈 등에 강한 시스템을 제공하게 된다.
Abstract:
본 발명은 다음원 국지화 장치에 관한 것이다. 다음원 국지화 장치는, 외부로부터 신호를 수신하는 제1 및 제2 신호 수신부; 상기 제1 및 제2 신호 수신부로부터 제공되는 신호를 사전에 설정된 주파수 대역별로 분리하여 각 채널로 출력하는 제1 및 제2 필터 뱅크; 상기 제1 필터 뱅크의 각 채널로부터 출력된 신호의 포락선 정보를 이용하여 반향 시간을 추정하는 반향 시간 추정부; 상기 반향 시간을 이용하여 반향이 없는 시작 구간을 검출하는 시작 구간 추정부; 영교차점을 기반으로 하는 ITD를 추정하는 ITD 추정부; 상기 채널들로부터 출력된 신호들에 대한 신호 대 잡음비(SNR)를 검출하는 SNR 추정부; 시작 구간 및 SNR들을 이용하여 상기 ITD들 중 신뢰성있는 ITD들을 선택하는 ITD 선택부; 상기 ITD 선택부에 의해 선택된 ITD들을 방향각으로 변환시키는 방향각 변환부; 상기 방향각 변환부로부터 출력된 방향각에 추정된 SNR 가중치로 누적시켜 히스토그램을 생성하고, 상기 히스토그램을 이용하여 음원의 방향을 추출하는 음원 방향 추출부; 를 구비한다. 상기 반향 시간 추정부, 시작 구간 추정부, ITD 추정부, SNR 추정부, ITD 선택부 및 방향각 변환부는 제1 필터 뱅크의 모든 채널에 각각 구비되고, 모든 방향각 변환부로부터 출력된 방향각 정보들은 음원 방향 추출부로 제공되어 반향 환경에서의 음원 방향을 추출한다.
Abstract:
PURPOSE: A target speech enhancement method based on degenerated unmixing is provided to apply a real application without estimating time delay coefficient without the number of sound source signal. CONSTITUTION: A first channel signal and a second channel signal are converted into time-frequency function(200). A histogram about a parameter is generated by estimating the parameter of a first channel signal and a second channel signal(210). An initial value of the parameter is set up about interest sound source through a histogram(220).
Abstract:
본발명의실시예에따른음성인식학습장치는영상입력부, 영상처리부및 컨볼루션뉴럴네트워크를포함할수 있다. 영상입력부는입력영상을수신할수 있다. 영상처리부는미리정해진제1 시간간격동안의입력영상에포함되는입술영상및 입술의정해진위치에상응하는랜드마크의주변영상에해당하는패치영상을각각 N(N은자연수)개의프레임들로나눌수 있다. 컨볼루션뉴럴네트워크는입술영상을 N개의프레임들로나눈프레임입술영상및 패치영상을 N개의프레임들로나눈프레임패치영상에기초하여입술의모양에상응하는음성정보를학습할수 있다. 본발명에따른음성인식장치에서는화자의입술영상뿐만아니라, 입술의정해진위치에배치되는랜드마크의주변영상인패치영상을이용하여컨볼루션뉴럴네트워크(Convolution Neural Network, CNN)를학습시킴으로써음성인식성능을향상시킬수 있다.
Abstract:
본발명의실시예에따른노이즈제거방법에서는이전프레임에상응하는제1 이전파-엔드(Far-end) 채널필터, 제2 이전파-엔드채널필터및 입력신호에기초하여산출되는제1 추정출력신호를제공할수 있다. 제1 추정출력신호및 제1 이전파-엔드채널필터에따라현재프레임에상응하는제1 현재파-엔드채널필터를업데이트할수 있다. 제1 현재파-엔드채널필터, 제2 이전파-엔드채널필터및 입력신호에기초하여산출되는제2 추정출력신호를제공할수 있다. 제2 추정출력신호및 제2 이전파-엔드채널필터에따라현재프레임에상응하는제2 현재파-엔드채널필터를업데이트할수 있다. 제1 현재파-엔드채널필터, 제2 현재파-엔드채널필터및 입력신호에기초하여산출되는결과신호를제공할수 있다. 본발명에따른노이즈제거방법을사용하면입력신호(IN_S)로부터스테레오에코신호를제거함으로써노이즈가제거된음성신호를제공할수 있다.