-
公开(公告)号:KR1020100008755A
公开(公告)日:2010-01-26
申请号:KR1020090061736
申请日:2009-07-07
Applicant: 한국전자통신연구원
IPC: G10L19/20 , G10L19/008 , G11B20/10 , H04N21/233
CPC classification number: G10L19/20 , G10L19/008
Abstract: PURPOSE: A multi-object audio encoding device for supporting a post downmix signal and a decoding device thereof are provided to create downmix information parameters distributed based on 0dB and perform quantization/inverse quantization. CONSTITUTION: An object information extraction and downmix generation unit(201) creates a downmix signal and object information from an input object. A parameter determining unit(202) includes a power offset calculating part which scales the post downmix signal into the preset value, and a parameter extracting part which extracts a downmix information parameter from the scaled post downmix signal in the specific frame. A bitstream generating unit(203) creates an object bit stream by combining the downmix information parameter and the object information.
Abstract translation: 目的:提供一种用于支持后降混信号的多对象音频编码装置及其解码装置,用于创建基于0dB分布的下混信息参数并进行量化/反量化。 构成:对象信息提取和下混生成单元(201)从输入对象创建下混合信号和对象信息。 参数确定单元(202)包括功率偏移计算部分,其将后下混合信号缩放为预设值,以及参数提取部分,其从特定帧中的缩放的后降混信号中提取降混信息参数。 比特流生成单元(203)通过组合缩混信息参数和对象信息来创建对象比特流。
-
公开(公告)号:KR100922580B1
公开(公告)日:2009-10-21
申请号:KR1020070043248
申请日:2007-05-03
IPC: G10L21/0208 , H04L12/66
Abstract: 본 발명은 VoIP 서비스를 위한 잡음 제거 장치 및 방법에 관한 것으로, 입력 신호의 SNR 가중치를 반영하여 잡음을 제거하기 위하여, 잡음 음성 신호에 대한 음성 파워 스펙트럼과 잡음 파워 스펙트럼을 예측하는 파워 스펙트럼 예측기와, 상기 음성 파워 스펙트럼과 잡음 파워 스펙트럼으로부터 SNR를 계산하고, 상기 계산된 SNR에 대응되는 SNR 가중치를 획득한 후, 상기 SNR 가중치를 반영하는 위너 필터 함수를 설계하는 위너 필터 설계부와, 상기 위너 필터 함수를 이용하여 상기 잡음 음성 신호에 포함된 잡음 신호를 제거하는 위너 필터부를 포함하여 구성되며, 이에 의하여 VoIP 서비스에서 보다 향상된 통화 음질을 제공할 수 있도록 한다.
VoIP 서비스, 잡음 제거, SNR 가중치-
公开(公告)号:KR100758707B1
公开(公告)日:2007-09-14
申请号:KR1020060039741
申请日:2006-05-03
Applicant: 한국전자통신연구원
Abstract: 본 발명은 로봇의 도움이 필요한 사람이나 개체 근처로 이동하여 주위 상황을 판단하고 적절한 대응조치를 취하기 위해 로봇으로 하여금 음원이 발생한 곳으로 이동하도록 음원 발원지의 위치 인식 및 추적을 위한 로봇 환경에서 음원 추적 시스템 및 방법에 관한 것으로서, 입력되는 음원에 대해 로봇 본체 잡음을 감소시킨 후 신호의 강도를 계산하여 강도가 큰 순서대로 두 개의 마이크로폰을 결정하고, 그 결정된 채널 사이에서 음원이 발생된 것으로 결정한 다음, 그 채널에 대해서만 시간차를 계산하여 음원의 방향 및 거리를 계산함으로써 모든 마이크로폰에 대해 시간차를 계산하는 기존의 방법보다 실행시간을 단축하며, 로봇은 음원이 발생한 위치로 이동하는 동시에 로봇의 실행시간을 고려하여 실시간으로 음원 위치를 지속적으로 확인하고 갱신하여 시스템의 신뢰도를 높이는 효과가 있다.
음원 추적, 로봇 제어, 칼만 필터, 로봇 마이크로폰, 로봇 실행시간, 시간차 추출-
公开(公告)号:KR1020070061056A
公开(公告)日:2007-06-13
申请号:KR1020060039741
申请日:2006-05-03
Applicant: 한국전자통신연구원
Abstract: A sound source tracing system under robot environment and a method thereof are provided to control the motion of a robot toward the generation direction of a sound source by continuously tracing the generation direction of a present sound source in consideration of the sound source tracing time. A sound source tracing system under robot environment is composed of a sound source input unit(100) obtaining and transmitting a sound source; a noise removing unit(200) decreasing noise of the input sound source by using a Kalman filter(210); a sound source detector unit(300) detecting the starting and finishing points of the sound source with decreased noise; a sound source direction recognizing unit(400) checking the direction of the input sound source by extracting energy of the sound source and time difference from the input sound source with decreased noise; an azimuth detecting unit(500) calculating an azimuth angle of the recognized direction; and a robot control unit(600) controlling a motion of a robot to make the robot face the generation direction of the sound source.
Abstract translation: 提供了一种在机器人环境下的声源跟踪系统及其方法,其通过考虑到声源跟踪时间连续跟踪当前声源的发生方向,来控制机器人朝向声源的发生方向的运动。 机器人环境下的声源跟踪系统由声源输入单元(100)组成,获取和发送声源; 通过使用卡尔曼滤波器(210)降低输入声源的噪声的噪声去除单元(200); 声源检测器单元,用于以噪声降低检测声源的起始点和终点; 声源方向识别单元,通过提取声源的能量和噪声降低的输入声源的时间差来检查输入声源的方向; 方位检测单元,计算识别方向的方位角; 以及机器人控制单元(600),其控制机器人的运动以使机器人面对声源的生成方向。
-
公开(公告)号:KR100714980B1
公开(公告)日:2007-05-04
申请号:KR1020060023545
申请日:2006-03-14
Applicant: 한국전자통신연구원
IPC: G10L19/008 , G10L19/02
CPC classification number: H04S3/008 , H04S2400/11 , H04S2420/03 , H04S2420/07
Abstract: 본 발명은 반원 평면상의 가상음원정보(VSLI:Virtual Source Location Information)를 이용한 멀티채널 신호의 압축 및 복원 방법에 관한 것으로, 공간 큐(spatial cue) 정보로서 채널간 에너지 비(Inter Channel Level Difference: ICLD) 대신 VSLI를 이용함으로써 공간 큐 정보의 양자화에 의한 손실을 최소화하여 복원된 오디오 신호의 음질을 향상시킬 수 있으며, 복호기에서 원 신호 복원 시 스펙트럼 왜곡을 감쇄시켜 보다 양질의 오디오 신호를 재생할 수 있는 효과가 있다.
바이노럴 큐 코딩(BCC: Binaural Cue Coding), 가상음원위치정보(VSLI: Virtual Source Location Information), 멀티채널 오디오-
公开(公告)号:KR1020060078107A
公开(公告)日:2006-07-05
申请号:KR1020040116795
申请日:2004-12-30
Applicant: 한국전자통신연구원
Abstract: 본 발명은 멀티채널 오디오 신호를 다운믹스하기 위해 필요한 파워 동일화(power equalization)를 제공하는 방법 및 장치에 관한 것이다.
본 발명의 제1 실시예에서는 주파수 영역을 균등한 대역폭을 갖는 서브밴드로 세분한 후에 서브밴드별로 파워 동일화를 실시한다. 본 발명의 제2 실시예에서는 주파수 영역을 ERB에 따라 서브밴드로 세분하되, 선정된 주파수 미만의 서브밴드는 하나의 서브밴드로 합친 후에 서브밴드별로 파워 동일화를 실시한다.
다운믹스, 파워 동일화(Power Equalization)-
27.
公开(公告)号:KR100173340B1
公开(公告)日:1999-04-01
申请号:KR1019950055841
申请日:1995-12-23
Applicant: 한국전자통신연구원
IPC: G10L13/00
Abstract: 본 발명은 텍스트/음성변환기(text-to-speech conversion system)에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법에 관한 것으로서, 음성합성 장치에 적용되는 텍스트/음성변환장치에 적용되는 억양패턴 정규화와 신경망 학습을 이용한 억양생성 방법에 있어서, 합성 데이터베이스(3)로부터 음성 데이터를 읽어 음절의 피치 패턴을 정규화 및 표준화하고 어절내 각 음절의 평균 피치값에서 어절의 평균 피치값을 뺀 피치값으로 어절피치패턴을 학습하고, 문장내 각 어절의 평균 피치값으로부터 문장의 기준 억양을 추정한 후, 문장의 문맥에 따른 문법 속성열과 그에 해당되는 억양패턴테이블을 작성하는 제1단계(10 내지 15); 한국어 문장과 문법 속성열이 입력되면 문장의 기준억양 생성 과정에서 각 어절에 대해 문장내 위치에 따라 1차 평균 피치값을 할당하고, 비균일 단위의 억양패턴 생성 과정에서 입력된 문법 속성열을 이용하여 왼쪽 우선 검색 방식으로 최장 일치 부분을 억양 패턴 테이블에서 찾아 해당 어절에 2차 평균 피치값을 할당하고, 어절의 피치 패턴 생성 과정에서 신경망을 이용하여 각 음절의 평균 피치값 변화량을 계산하고, 음절의 피치 패턴 생성 과정에서는 각 음절을 구성하는 음소열과 표준 피치 패턴 테이블을 이용하여 음절의 피치 패턴을 계산하고, 각 과정의 결과를 합하여 전체 문장의 억양을 생성하여 출력하는 제2단계(16 내지 21)를 포함하여 실제 음성데이타를 분석하여 억양 제어 규칙을 작성하고 합성음의 억양 제어를 통해 함성음의 자연성과 유창성을 향상시킴으로써 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 효과가 있다.
-
公开(公告)号:KR100169034B1
公开(公告)日:1999-02-01
申请号:KR1019960006887
申请日:1996-03-14
IPC: H04M3/50
Abstract: 본 발명은 안내 음성의 변별력을 개선하기 위한 안내 음성의 변별력 개선 방법에 관한 것으로, 숫자음의 지속 시간과 에너지 조절을 통하여 안내 음성의 자연성을 유지하고 변별력을 개선시킨 안내 음성의 변별력 개선 방법을 제공하기 위하여, 저장 수단(2)으로부터 읽어온 음성 데이타, 스펙트럼 데이타 및 레이블링 데이타를 출력 수단(4)으로 디스플레이하고 조절할 음성 데이타의 위치를 레이블링한 후에 TD-PSOLA 알고리즘을 수행하고 신호 처리 방법을 판단하는 제 1 단계(21 내지 24); 상기 제 1 단계(21 내지 24)의 판단 결과, 신호 처리 방법이 지속 시간 조절이면 레이블링된 위치에서 지속 시간을 조절하여 안내 음성을 생성하는 제 2 단계(25 내지 27, 33 내지 38); 및 상기 제 1 단계(21 내지 24)의 판단 결과, 신호 처리 방법이 에너지 조절이면 레이블링된 위치에서 에너지를 조절하여 안내 음성을 생성하는 제 3 단계(28 내지 38)를 포함하여 안내 음성을 잘못 이해하는 오류를 줄일 수 있고, 향후 이와 유사한 자동 응답 서비스의 음성 데이타 변별력 개선에 유용하게 사용될 수 있는 효과가 있다.
-
公开(公告)号:KR1019980082608A
公开(公告)日:1998-12-05
申请号:KR1019970017615
申请日:1997-05-08
Applicant: 한국전자통신연구원
IPC: G06F3/16
Abstract: 본 발명은 다중매체 환경에서 텍스트/음성변환기(text-to-speech conversion system; TTS) 연동방법에 있어서 텍스트/음성변환기용 입력데이터 구조화 방법에 관한 것이다.
기존의 합성기는 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있는 상황이다. 그런데 텍스트/음성변환기를 이용하여 동영상에 더빙을 하고자 할 때나, 애니메이션과 같은 다중매체와 합성음 간의 자연스러운 연동을 구현하기 위해서 필요한 동기화 정보는 단지 텍스트로부터 추정하기가 불가능하며, 합성음의 자연성 향상을 위한 부가 데이터 사용, 그리고 이들 데이타의 구조화에 대한 연구결과는 거의 없는 실정이다.
따라서, 본 발명은 텍스트/음성변환기에서 텍스트 이외에 부가적 운율정보, 다중매체와의 연동에 필요한 정보, 그리고 이들 정보와 텍스트/음성변환기 간의 인터페이스를 정의하여 합성음 생성에 사용함으로써 합성음의 자연성 향상과 다중매체와 TTS간의 동기화 구현을 그 목적으로 한다.
본 발명은 실제 음성데이타와 동영상의 입술모양을 분석하여 추정된 운율정보, 입술모양 정보와 텍스트 정보의 구조화 및 합성기 응용을 통해 합성음의 자연성과 동영상과의 동기화를 구현함으로써 외화등에 한국어 더빙, 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 탁월한 효과가 있다.-
30.
公开(公告)号:KR100128851B1
公开(公告)日:1998-10-01
申请号:KR1019940036135
申请日:1994-12-23
IPC: G10L25/90
Abstract: 본 발명은 음성신호의 최대피치값과 최소피치값을 초기화하는 단계(81); 음성신호를 샘플링하여 디지털 신호로 변환한 다음, 방형 창함수의 길이(w)를 최대피치의 2배로하여 w개의 음성 샘플을 입력하는 단계(82); 듀얼 임펄스의 변화폭(N)을 최소피치 길이로 정의 하는 단계(83); 음성신호와 상기 듀얼 임펄스의 변화폭(N)을 컨버류션하여 에너지 변환 함수 Ec(n)을 구한 후 에너지 변환 함수 Ec(n)의 모든 진폭의 절대값을 합하여 듀얼 임펄스의 변화폭(N)에 따른 에너지 변환 함수 Ef(N)을 산출하는 단계(84); 듀얼 임펄스의 변화폭(N)이 최대 피치값 보다 클때까지 상기 Ef(N)산출을 반복하는 단계(85'); 두얼 임펄스의 변화폭(N)이 최대 피치값 보다 크면 최대피치의 Ef(N)값과 최소피치의 Ef(N)에 의한 문턱값을 산출하고 산출된 문턱값보다 작은 골중에서 듀얼 임펄스이 변화폭이 작은 순서대로 3개의 골을 구하는 단계(86); 상기 구해진 골의 수에 따라 피치를 정의 하는 단계(87)를 포함하는 것을 특징으로 하는 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출방법에 관한 것으로, 음성합성, 인식, 부호화 분야에서 발성자에 따른 영향을 받지 않고 음성신호를 정확히 분석하는 효과가 있다.
-
-
-
-
-
-
-
-
-