Abstract:
본 발명은 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치에 관한 것으로, 본 발명의 일 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법은 마이크로폰 어레이에 입력된 오디오 신호에서 음성 구간을 검출하는 단계; 상기 검출된 음성 구간에서 화자 검증을 수행하는 단계; 상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하는 단계; 및 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면, 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 단계를 포함한다.
Abstract:
본 발명에 따른 검색 공간 클러스터링 방법을 이용한 실시간 SRP-PHAT 음원 위치 탐색 시스템은 지연시간이 동일한 블록을 클러스터링한 중심 좌표 정보가 저장된 룩업 테이블; 및 기 설정된 블록으로 구분된 임의의 위치로부터 음원 신호가 적어도 하나 이상의 마이크로폰을 통해 수신되면, 상기 룩업 테이블을 확인하여 기 저장된 중심 좌표 정보에 해당하는 위치에서의 신호 출력들을 계산하여 최대 신호 출력 지점을 검색하는 제어부를 포함하는 것으로 검색 후보의 수가 줄어들음에 따라 시스템을 실시간으로 적용할 수 있는 이점이 있다.
Abstract:
본 발명은 최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법에 관한 것으로서 입력 음성에서 선형 스펙트럼 데이터 및 캡스트럼 데이터를 추출하는 단계; 클린 음향 모델과 상기 캡스트럼 데이터를 이용하여 가우시안 점유 확률을 추정하는 단계; 상기 가우시안 점유 확률, 상기 선형 스펙트럼 데이터 및 상기 클린 음향 모델을 선형 스펙트럼 도메인으로 변환한 음향 모델을 이용하여 잡음 매개 변수를 추정하는 단계; 및 상기 잡음 매개 변수를 이용하여 잡음 음성 모델을 생성하는 단계를 포함하는 것을 특징으로 하며, 잡음 매개변수를 추정하는 과정에서 재귀 연산을 하지 않고 닫힌 연산 추정법을 적용하여 계산 비용을 줄일 수 있고, 음향 모델 적응이나 인식 과정의 실시간성을 향상시킬 수 있다.
Abstract:
본 발명은 음성과 음악을 구분하는 방법에 관한 것으로, 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법은 입력되는 신호에서 일정 구간 마다 피크 주파수 변화량의 평균을 산출하는 단계; 및 상기 피크 주파수 변화량이 임계값 이상이면 상기 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만이면 상기 신호를 음악으로 분류하는 단계를 포함한다. 본 발명에 의하면, 음성과 음악을 구분함에 있어서 빠른 응답을 유지하면서도 높은 성능을 구현할 수 있는 효과가 있다.
Abstract:
PURPOSE: A sound spectrum similarity measurement system and a method thereof and a sound recognition system for easily applying resource restriction are provided to supply stable recognition rate by matching two sounds. CONSTITUTION: A sound registering unit(210) registers recognition object sound by acquiring peak band. A feature peak detector extracts a peak which is larger than threshold to the feature peak. A feature information generating unit stores the feature information in a storage(250). A spectrum analysis unit(240) varies the recognizing subject acoustic signal through the frequency analysis into the spectrum vector.
Abstract:
PURPOSE: Apparatus for locating a sound source using a parallel processing through an accelerating processor such as a graphic processing unit and a method for the same are provided to reduce time to locate a sound source despite a number of calculations and locate the sound source in real time. CONSTITUTION: A sound source location processing unit obtains delayed arrival time for which a sound wave generated by a sound source arrives at a pair of microphones(610). The sound source location processing unit divides input signals of the microphones into the number of microphone channels and calculates cross correlation about each of the divided signals in parallel(620). The sound source location processing unit refers to the obtained delayed arrival time and the correlation and generates SRP(Steered Response Power) energy maps about all candidate coordinates in parallel(630). The sound source location processing unit selects a candidate coordinate having maximum SRP in the generated energy map as a sound source direction(640). [Reference numerals] (610) Obtaining delayed arrival time for which a sound wave generated by a sound source arrives at a pair of microphones; (620) Calculating cross correlation about each of the divided signals in parallel, dividing signals inputted to a microphone as the number of channels; (630) Generating SRP energy maps about all candidate coordinates in parallel by referring to delayed arrival time and cross correlation; (640) Selecting a candidate coordinate having maximum SRP in the generated energy map as a sound source direction; (AA) Start; (BB) End
Abstract:
본 발명은 음성 인식을 위한 음성구간 검출 기술에 관한 것으로서, 본 발명에 따른 모음 특징을 이용한 음성구간 검출 시스템은 모음의 스펙트럼에서 특징 피크가 위치한 피크 대역을 나타내는 모음특징정보를 저장하는 모음특징 저장부; 및 입력 음향의 스펙트럼에서 상기 저장된 모음특징정보가 나타내는 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향이 음성에 해당하는지를 판단함으로써 음성구간을 검출하는 음성구간 검출부를 포함하는 것을 특징으로 하여, 다양한 잡음 환경 및 SNR 하에서 음성구간 검출 성능을 개선함은 물론, 연산량을 감소시켜 음성 인식 시스템의 에너지 효율을 개선하는 이점을 제공한다.
Abstract:
본 발명은 음향 인식 기술에 관한 것으로서, 본 발명에 따른 스펙트럼 피크를 이용한 음향 인식 시스템은, 인식대상 음향의 스펙트럼에서 특징 피크가 위치한 피크 대역을 획득하여 상기 인식대상 음향을 등록하는 음향 등록부; 및 입력 음향의 스펙트럼에서 상기 등록 음향의 상기 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향을 상기 등록 음향으로 인식하거나 인식 거부하는 음향 인식부를 포함하는 것을 특징으로 하여, 잡음 환경에서 단일 음향 및 다중 음향에 대한 인식률을 개선함은 물론, 연산량을 감소시키는 이점을 제공한다.
Abstract:
PURPOSE: A method and a device for recognizing high speed speaker, registering method and a device thereof are provided to rapidly adapting a speaker model with a few adaption data in a mobile terminal. CONSTITUTION: A parameter of a subspace distribution clustering hidden Markov model is transformed into hidden Markov models(610). The hidden Markov model is transformed into a linear spectrum domain(630). By using maximum likelihood linear spectral transform, the hidden Markov model of a linear spectrum domain is adapted to a speaker(640).