Abstract:
PURPOSE: A system and a method of grouping tracks inside a file are provided to group presentation metadata when multimedia tracks include overlapped presentation metadata, thereby storing the grouped metadata in a file. CONSTITUTION: A plurality of multimedia tracks is saved according to a file format like the ISO file format. The multimedia tracks are compressed in the same encoding method. If parts of presentation metadata information about an included audio track are the same, the metadata information is displayed using a group box not to overlappingly save the metadata information.
Abstract:
본 발명은 음상 외재화를 위한 머리전달함수 생성 방법과, 그를 이용한 3차원 오디오 신호 처리 장치 및 그 방법에 관한 것으로서, 구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통해 모델링된 머리 전달 함수(HRTF)를 이용하여 3차원 오디오 신호를 생성함으로써, 음상 내재화를 제거하여 3차원 오디오 신호의 현장감(현실감)을 증대시키고자 한다. 이를 위하여, 본 발명은, 멀티채널 임펄스 응답을 이용한 3차원 오디오 신호 처리 장치에 있어서, 오디오 데이터를 디코딩하여 원래의 오디오 신호를 복원하기 위한 오디오 디코딩 수단; 및 구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여, 상기 복원된 오디오 신호에 대한 3차원 오디오 신호를 생성하기 위한 3차원 오디오 생성 수단을 포함한다. 3차원 오디오, 입체 음향, 고현장감, 머리 전달 함수, HRTF, 멀티채널 임펄스 응답, 구체 마이크로폰, 음상 외재화
Abstract:
1. 청구범위에 기재된 발명이 속한 기술분야 다양한 채널의 다객체 오디오 신호의 부호화 및 복호화 장치 및 방법에 관한 것임. 2. 발명이 해결하고자 하는 기술적 과제 다양한 채널로 구성된 다객체 오디오 신호 부호화 및 복호화 장치 및 방법을 제공함. 3. 발명의 해결방법의 요지 상기 서로 상이한 채널로 구성된 다객체 오디오 신호를 하나의 다운믹스된 오디오 신호로 다운믹싱하며, 상기 서로 상이한 채널로 구성된 다객체 오디오 신호 각각에 대한 헤더 정보 및 공간큐 정보를 포함하는 부가정보를 추출하는 다운믹싱수단; 상기 다운믹싱된 오디오 신호를 부호화하는 부호화수단; 및 상기 부가정보를 비트스트림으로 생성하는 부가정보 부호화수단을 포함하되, 상기 헤더 정보는 상기 서로 상이한 채널로 구성된 다객체 오디오 신호 각각에 대한 식별자 정보; 및 상기 서로 상이한 채널로 구성된 다객체 오디오 신호에 대한 채널 정보를 포함함. 4. 발명의 중요한 용도 오디오 부호화 및 복호화에 이용됨. 오디오 객체, 다채널, 다객체
Abstract:
본 발명은 음성 및 오디오 신호의 코딩 및 디코딩에 관한 것으로서, 더욱 구체적으로는 HHT(Hilbert-Huang Transform)을 이용하여 음성 및 오디오신호와 같이 비정규적(non-stationary) 특성이 강한 입력신호를 동시에 부호화 및 복호화 할 수 있는 장치 및 방법에 관한 것이다. 본 발명은 입력신호에 대하여 HHT를 적용하여 각기 다른 주파수 대역을 갖는 신호들로 분리하는 단계와, 상기 분리된 신호 각각을 독립적으로 부호화하는 단계 및 상기 독립적으로 부호화된 각각의 신호를 다중화하는 단계를 포함하는 부호화 방법을 제공한다. 힐버트 변환, EMD, HHT, intrinsic mode function,
Abstract:
An encoding and decoding method using variable subband analysis and an apparatus thereof are provided to increase the number of subbands while minimizing the increase of bit races, thereby outputting more superior sound. Audio objects(1~M) are inputted to an audio encoding unit and a frequency conversion unit. The audio encoding unit down-mixes the audio object. The frequency conversion unit(202) converts an audio object into a frequency domain. A subband configuration unit(203) subdivides a subband of a frequency-converted signal to variable subbands. A parameter generation unit(205) extracts parameters necessary for restoring the audio objects from the down mix signal. An encoding unit(206) encodes parameter information including a parameter generated from a parameter generating unit.
Abstract:
본 발명은 다수의 기본 블록들의 다차원 구성을 통한 다단계 변환 장치 및 그 방법에 관한 것이다. 본 발명은 블록 단위의 원영상 또는 차영상의 DCT 변환계수를 사용하는 비디오 데이터 압축의 성능을 향상시키기 위하여 인접한 블록들의 변환 계수들을 모아서 추가적인 변환을 수행함으로써, 압축 효율을 향상시키기 위한, 다수의 기본 블록들의 다차원 구성을 통한 다단계 변환 장치 및 그 방법을 제공하는데 그 목적이 있다. 본 발명은 입력되는 영상데이터를 DCT 변환하고, 상기 DCT 변환된 소정크기의 블록 R개(R은 2이상의 자연수)를 선택하는 단계; 상기 선택된 R개의 각 블록에서 동일한 주파수의 변환계수들을 1차원으로 배열하는 단계; 및 상기 1차원으로 배열된 변환계수들을 다시 일차원 변환하는 단계;를 포함하는 다수의 기본블록들의 다차원 구성을 통한 다단계 변환 방법을 개시한다. 다차원 변환, 다단계 변환, 다차원 구성, 이차원 변환
Abstract:
An apparatus for audio encoding and decoding using warped linear prediction coding, and a method thereof are provided to remove the redundancy of an original signal by using the warped linear prediction coding in an audio encoding process, provide an error signal to an audio encoder as an input signal, and transform a psychological sound model to be suitable for the error signal, thereby increasing the efficiency of audio signal compression and performing audio signal encoding. An error signal calculating unit(110) performs the warped linear prediction coding of an audio signal inputted from the outside in a temporal area to calculate an error signal. A frequency domain converting unit(120) converts the error signal obtained in the error signal calculating unit into a frequency domain signal. A masking threshold value calculating unit(131,132) calculates a masking threshold value used in the encoding of the error signal by using an original signal and encoding information used in the warped linear prediction coding of the original signal. A perceptual encoding unit(140) performs the perceptual encoding of the error signal converted in the frequency domain converting unit by using the calculated masking threshold value.
Abstract:
A coding/decoding apparatus using DCT(Discrete Cosine Transform) coefficient scanning adaptive according to pixel similarity and a method thereof are provided to enhance the compression rate of intra encoding by applying the most efficient scanning method according to pixel similarity and coding or decoding images. A coding apparatus using DCT coefficient scanning comprises a mode selection part(10), an intra prediction part(20), a DCT and quantization part(30), and an entropy coding part(40). The mode selection part(10) selects the optimum mode for intra prediction. The intra prediction part(20) executes intra prediction for an inputted image, based on the selected mode. The DCT and quantization part(30) executes DCT and quantization for the residual coefficients outputted from the intra prediction part(20). Using a certain scanning mode determined according to the pixel similarity of the residual coefficients, the entropy coding part(40) performs entropy coding for the quantized DCT coefficients.
Abstract:
본 발명은 반원 평면상의 가상음원정보(VSLI:Virtual Source Location Information)를 이용한 멀티채널 신호의 압축 및 복원 방법에 관한 것으로, 공간 큐(spatial cue) 정보로서 채널간 에너지 비(Inter Channel Level Difference: ICLD) 대신 VSLI를 이용함으로써 공간 큐 정보의 양자화에 의한 손실을 최소화하여 복원된 오디오 신호의 음질을 향상시킬 수 있으며, 복호기에서 원 신호 복원 시 스펙트럼 왜곡을 감쇄시켜 보다 양질의 오디오 신호를 재생할 수 있는 효과가 있다. 바이노럴 큐 코딩(BCC: Binaural Cue Coding), 가상음원위치정보(VSLI: Virtual Source Location Information), 멀티채널 오디오