Abstract:
A device and a method for classifying a signal, and a device and a method for extracting a music signal are provided to finally determine a state of a transition interval through comparison of storage time and energy. A characteristic parameter extracting unit(20) extracts characteristic parameters from a sound signal. A model generating unit(30) produces a reference model. An interval determining unit(40) compares combination of the characteristic parameters with the generated reference model. One of voice, music and a transition state is distinguished. A transition interval state deciding unit(50) determines an interval, which is distinguished as a transition state by the interval determining unit, as voice or music state.
Abstract:
본 발명에 따른 유동적 주파수 밴드를 이용한 단채널 음질 향상 기술은 입력 신호의 주파수 특성에 따라 유동적으로 변화하는 주파수 밴드를 이용하는 음질 향상 기법에 관한 것이다. 이를 위해, 본 발명은 음질 향상 방법에 있어서, 이전 프레임의 추정된 잡음을 이용하여 잡음의 주파수 특성을 파악하고, 그 결과에 따라 잡음의 주파수 밴드를 각각 나누어 연산한 후 그 결과를 본래의 선형 밴드로 환원하는 단계를 거쳐 다양한 잡음 환경 하에서의 음질 향상 방법을 제공할 수 있다. 음질 향상 기법, 주파수 밴드, 잡음의 주파수 특성
Abstract:
PURPOSE: An audio signal processing method and a device thereof are provided to compensate for defects such as aliasing due to asymmetry between windows. CONSTITUTION: An audio signal is received wherein the audio signal includes a current frame and a following frame. Sub-coding identification information is received. At least the last block of the current frame is encoded based on a non-rectangular coding scheme by the sub-coding identification information. A window shape is determined while the window shape has a first shape or a second shape. A current window of the determined window shape is applied to the current frame.
Abstract:
PURPOSE: An audio signal processing method and an apparatus thereof are provided to enhance the coding efficiency for the signal having the repeating property on the time domain by performing the long-term prediction for not only the voice signal but also the audio signal in which the voice property and non-voice property are mixed. CONSTITUTION: The residual and long-term prediction information is received. The synthetic residual is generated by performing the frequency conversion for the residual(S130). The composition audio signal of the current frame is generated by performing the long-term synthesis based on the synthesis residual or long-term prediction information(S150). The long-term prediction information comprises the final gain and final delay. The range of the final delay is from 0. The long-term synthesis is performed based on the frame synthesis audio signal including the previous frame.
Abstract:
본 발명은 입력 음성 신호의 길이에 대하여 현재 기준 분석 구간과 M개의 후보 분석 구간들을 설정하여 각 구간의 특징벡터를 추출하고, 현재 기준 분석 구간의 특징벡터와 각각의 후보 분석 구간의 특징벡터 간의 스펙트럼 차이가 최소인 후보 분석 구간을 선택한 후, 선택된 후보 분석 구간의 특징벡터를 추출함과 동시에 선택된 후보 분석 구간과 현재 기준 분석 구간 사이의 길이를 중첩길이로 설정하여 새로운 기준 분석 구간과 새로운 M개의 후보 분석 구간을 재설정하는 과정을 반복하면서 음성 분석 구간의 중첩길이를 가변적으로 선택하여 입력 음성 신호에 대한 특징벡터를 추출하는 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터 추출 방법 및 이를 이용한 화자 인식 시스템에 관한 것이다. 본 발명에 따라 음성 분석 구간의 중첩길이를 가변적으로 선택하면 입력 음성 신호에 대한 화자의 다양한 특성을 충분히 뽑아내기 용이하고, 입력 음성에 들어있는 화자의 특성을 모두 모델링하는 것이 용이하므로, 기존의 음성 분석 구간의 중첩길이를 특정한 값으로 고정하는 특징벡터 추출 방법을 이용하는 화자 인식 시스템에 비해 상대적으로 더 월등하게 화자 인식의 성능을 향상시킬 수 있다. 화자 인식, 음성 분석, 중첩, 특징벡터, 화자 모델