Abstract:
본 발명은 여러 음을 가지는 오디오 신호에서 멜로디 추출 방법에 관한 것으로, 해결하고자 하는 기술적 과제는 가요나 오케스트라 같이 여러 음을 가진 음악에서 멜로디 성분만을 추출할 수 있는 방법을 제공하는데 있다. 이를 위해 본 발명은, 여러 음을 가진 오디오 신호가 입력되면, 유동적 길이를 가지는 분석 창을 이용하여 주파수를 분석하는 주파수 분석 단계와, 상기 주파수 분석 단계를 통하여 분석된 여러 음을 가진 오디오 신호에서 하모닉 구조 모델을 이용하여 멜로디 피치 후보들을 추출하는 멜로디 피치 후보 추출 단계 및 상기 멜로디 피치 후보 추출 단계에서 추출된 멜로디 피치 후보들을 연결하여 멜로디 라인을 결정하는 멜로디 라인 결정 단계를 포함하는 것을 특징으로 하는 여러 음을 가진 오디오 신호에서 하모닉 구조 모델과 유동적인 길이를 갖는 분석 창을 이용한 멜로디 추출 방법을 개시한다.
Abstract:
An apparatus and a method for recognizing a speaker are provided to improve the accuracy in recognition of the speaker by using the reliabilities of speaker voices, which are received in the past. A reference voice database stores reference voices, which correspond to voices of one or more users registered, while the reference voices are matched to the users. A voice reception unit receives a voice of a speaker. A voice feature extraction unit extracts one or more features for speaker-recognition from the received voice. A reliability measurement unit measures the similarity between the extracted features of the received voice and each of the reference voices, thereby obtaining the reliability of voice, which represents a possibility that the speaker corresponds each of the users. A reliability database stores the measured reliability for each of the users. A weight computation unit computes respective weight values for a series of reliabilities stored in the reliability database, according to a predetermined rule. A weight appliance unit applies the computed weight values to the reliabilities, respectively. A determination unit determines whether the received voice is identical to one of the reference voices by calculating an average of the reliabilities to which the weight values are respectively applied and comparing the average with the reliability of the received voice.
Abstract:
A BSAC arithmetic decoding method based on plural probability models is provided to add only a twentieth part of memory requirements to the memory requirements necessary to store probability models, thereby performing arithmetic decoding operation based on the plural probability models and managing the memory efficiently. A BSAC(Bit Sliced Arithmetic Coding) arithmetic decoding method comprises the following steps of: performing decoding using a probability value corresponding to a predetermined index and storing probability values corresponding the predetermined number of indexes around the predetermined index in a small table of which the number of elements is less than a predetermined number; determining whether a calculated new index is identical with a former index, index used immediately, when the new index different from the predetermined index is calculated; reusing a former probability value if the currently calculated index is identical with the former index; extracting and using a corresponding probability value from the small table if the calculated index corresponds to one of the predetermined number of indexes around the former index; comparing the currently calculated index with index used just before the former index if the currently calculated index has difference more than the element number of the small table; storing probability values corresponding to the predetermined number of indexes around the currently calculated index in the other small table with a size similar to that of the small table when the index used just before the former index and the currently calculated index are compared with each other; and performing the first process using the calculated index when the calculated index is different from the former index and the index used just before the former index. The number of elements on the small table is less than 128.
Abstract:
PURPOSE: A melody extracting method and system for the same are provided to extract melody component form music with many sounds by using characteristics with energy of the melody component and enabling a melody component to have a harmonic component. CONSTITUTION: A frequency is analyzed by using an analyzing window having a flexible length if an audio signal with many sound is inputted(S100). A candidate melody pitches extracted from an audio signal with a many sounds through a frequency analyzing step by using a harmonic structure model(S200). A melody line is connected to the extracted melody pitch candidates and the candidates area determined(S300).
Abstract:
PURPOSE: A method for melody pitch candidate extraction of polyphonic audio based on a harmonic structure model is provided to extract melody pitch candidates in an audio signal including various sounds. CONSTITUTION: An audio signal including various sounds are short Fourier transformed(S10). The unit of the Fourier transformed audio signal is changed into a cent from Hz(S20). A peak point is extracted from each frame of the audio signal which was transformed to the cent unit(S30). The weight of a harmonic structure model which is included in candidate melody pitches is measured(S40). An energy level difference by a frequency is compensated based on the weight information(S50).
Abstract:
PURPOSE: A melody line decision method from melody pitch candidates on the basis of the property of a melody line is provided for N melody pitch candidates and each melody pitch candidate to efficiently determine a melody line on the basis of physical properties of the melody line. CONSTITUTION: A system is input information about N melody pitch candidates and weight which the melody pitch candidate has in each frame(S10). In a start frame, the system selects N melody pitch candidates and arrays the candidate in a weight descending order(S40). The system determines whether two neighbor melody pitch candidates satisfy set melody line standards(S50). The system selects N melody line candidates through a melody line connection in each melody section(S60). The system selects an optimal melody line(S70).
Abstract:
본 발명은 여러 음을 가진 오디오 신호에서 유동적 길이를 가지는 분석 창을 이용한 주파수 분석 방법에 관한 것이다. 이를 위해 본 발명은, 입력된 오디오 신호를 리샘플링하는 제 1단계와, 시간 영역 기준으로 입력된 오디오 신호를 주파수 영역 기준의 신호로 변환하는 제 2단계와, 상기 제 2단계를 통하여 얻어진 각 프레임의 스펙트럼에서 진폭의 피크 값과 상기 피크 값이 나타나는 위치의 주파수 값을 추출하는 제 3단계와, 상기 제 3단계를 통하여 추출된 값들을 바탕으로 각 프레임의 멜로디 피치가 존재하는 범위를 재설정하는 제 4단계와, 상기 제 2단계를 통하여 주파수 영역 기준의 신호로 변환된 결과에서 프레임 간의 자기상관계수를 파악하는 방법으로 멜로디 피치의 동적 변화 정보를 구하는 제 5단계와, 상기 제 4단계를 통하여 재설정된 각 프레임의 멜로디 피치가 존재하는 범위에 관한 정보 및 상기 제 5단계를 통하여 구한 멜로디 피치의 동적 변화 정보를 이용하여 각 프레임에 대응되는 분석 창의 길이를 설정하는 제 6단계와, 고주파수 통과 필터를 이용하여 오디오 신호에서 베이스 신호 및 저주파수 신호를 제거하는 제 7단계와, 상기 제 7단계를 통하여 고주파수 통과 필터를 통과한 오디오 신호를 상기 제 6단계에서 길이가 설정된 각 프레임에 대응되는 분석 창을 이용하여 단시간 푸리에 변환 하는 제 8단계 및 상기 제 8단계를 통하여 단시간 푸리에 변환된 오디오 신호를 주파수 영역의 분해능을 높이기 위해 다중비율필터뱅크를 통과 시키는 제 9단계를 포함한다.
Abstract:
본 발명은 여러 음을 가진 오디오 신호에서 하모닉 구조 모델을 이용하여 멜로디 피치 후보를 추출하기 위한 방법에 관한 것이다. 이를 위해 본 발명에서는, 입력된 여러 음을 가지는 오디오 신호를 단시간 푸리에 변환(STFT)하는 제 1단계와, 상기 제 1단계를 통하여 단시간 푸리에 변환(STFT)된 오디오 신호의 단위를 헤르쯔(Hz)에서 센트(Cent)로 변환하는 제 2단계와, 상기 제 2단계를 통하여 센트(Cent) 단위로 변환된 오디오 신호의 각 프레임 마다 피크 지점을 추출하는 제 3단계와, 멜로디 피치 후보들이 내포한 하모닉 구조 모델의 비중(Weight)을 측정하는 제 4단계와, 상기 제 4단계에서 측정한 비중(Weight) 정보에 있어서, 주파수에 따른 에너지 레벨 차이를 보상하는 제 5단계 및 각 프레임에서 N개의 멜로디 피치 후보를 추출하는 제 6단계를 포함하는 것을 특징으로 하는 멜로디 피치 후보 추출 방법을 개시한다.