KR20210035042A - Emotional speech synthesis method and apparatus for controlling the emotion between emotions

    公开(公告)号:KR20210035042A

    公开(公告)日:2021-03-31

    申请号:KR1020200109402A

    申请日:2020-08-28

    CPC classification number: G10L13/08 G10L25/63

    Abstract: 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치이 개시된다. 감정 음성 생성 방법은 동일한 감정을 표현하는 가중치 벡터들을 그룹화하여 감정 군집들을 생성하는 단계; 동일한 감정 군집에 포함된 가중치 벡터들 간의 거리인 내부 거리를 결정하는 단계; 서로 다른 감정 군집에 포함된 가중치 벡터들 간의 거리인 외부 거리를 결정하는 단계; 상기 내부 거리 및 상기 외부 거리에 기초하여 상기 감정 군집들 각각의 대표 가중치 벡터를 결정하는 단계; 감정을 표현하기 위한 운율의 정보가 포함된 스타일 토큰에 상기 감정 군집의 대표 가중치 벡터를 적용하여 스타일 임베딩을 생성하는 단계; 및 상기 스타일 임베딩을 이용하여 감정을 나타내는 감정 음성을 생성하는 단계를 포함할 수 있다.

    가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
    2.
    发明授权
    가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치 有权
    使用虚拟源位置信息对多声道音频信号进行编码和解码的方法和装置

    公开(公告)号:KR100663729B1

    公开(公告)日:2007-01-02

    申请号:KR1020050061425

    申请日:2005-07-07

    CPC classification number: G10L19/008 H04S3/002 H04S2420/03

    Abstract: 본 발명은 가상 음원 위치 정보(Virtual Sound Location Information: VSLI)를 이용하여 멀티채널 오디오 신호를 효율적으로 부호화/복호화하는 방법 및 장치에 관한 것이다. 본 발명에 따른 멀티채널 오디오 신호 부호화 장치는, 멀티채널 오디오 신호를 프레임화된 오디오 신호로 변환하기 위한 프레임 변환 수단과, 상기 프레임화된 오디오 신호를 다운믹싱하기 위한 수단과, 상기 다운믹스된 오디오 신호를 부호화하기 위한 수단과, 상기 프레임화된 오디오 신호로부터 음원위치정보를 추정하기 위한 음원위치정보 추정 수단과, 상기 추정된 음원위치정보를 양자화하기 위한 수단과, 상기 부호화된 다운믹스 오디오 신호와 상기 양자화된 음원위치정보를 합산하여 최종적으로 부호화된 멀티채널 오디오 신호를 생성하기 위한 수단을 포함한다.
    멀티채널 오디오 신호 부호화, 복호화, 가상음원위치정보(virtual source location information: VSLI)

    멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법
    3.
    发明公开
    멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법 失效
    多通道音频编解码器审计质量的测量方法和方法

    公开(公告)号:KR1020070079899A

    公开(公告)日:2007-08-08

    申请号:KR1020060088192

    申请日:2006-09-12

    CPC classification number: G10L25/69 G10L19/008

    Abstract: An apparatus for evaluating the sound quality of a multi-channel audio compression codec and a method therefor are provided to measure the audible sound quality degradation degree of an audio signal encoded and decoded by the multi-channel audio compression codec in comparison with an original signal before compression. A preprocessing unit(11) generates a binaural input signal on the basis of a multi-channel audio signal inputted from respective channels of a multi-channel audio play system. An output variable calculating unit(12) produces an IACC(Interaural Cross Correlation) distortion and an output variable of the generated binaural input signal. An artificial neural network circuit unit(13) outputs a grade of sound quality on the basis of the IACC distortion and the output variable.

    Abstract translation: 提供了一种用于评估多声道音频压缩编解码器的音质的装置及其方法,用于测量由多声道音频压缩编解码器编码和解码的音频信号与原始信号相比的可听声音质量劣化程度 之前压缩。 预处理单元(11)基于从多声道音频播放系统的各个声道输入的多声道音频信号生成双耳输入信号。 输出变量计算单元(12)产生产生的双耳输入信号的IACC(异常交叉相关)失真和输出变量。 人造神经网络电路单元(13)根据IACC失真和输出变量输出音质等级。

    멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법
    4.
    发明授权
    멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법 失效
    多声道音频编解码器听觉质量测量装置及方法

    公开(公告)号:KR100829870B1

    公开(公告)日:2008-05-19

    申请号:KR1020060088192

    申请日:2006-09-12

    CPC classification number: G10L25/69 G10L19/008

    Abstract: 1. 청구범위에 기재된 발명이 속한 기술분야
    본 발명은 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법에 관한 것임.
    2. 발명이 해결하려고 하는 기술적 과제
    본 발명은 멀티채널 압축 코덱의 음질을 평가함에 있어서, 멀티채널 오디오 압축 코덱의 음질에 대한 청취자의 청취 평가 및 통계 처리 과정을 생략하고, 음질에 대한 객관성 및 일관성있는 측정을 통해 멀티채널 오디오 재생 환경에서 선별된 청취자가 느끼는 청각적인 평가를 적절한 방법으로 통계 처리한 것과 유사한 평가 결과를 얻도록 하기 위한, 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법을 제공하는데 그 목적이 있음.
    3. 발명의 해결방법의 요지
    본 발명은, 음질 평가 장치에 있어서, 멀티채널 오디오 재생 시스템의 각 채널(L, R, C, LS, RS)로부터 입력된 멀티채널 오디오 신호를 바탕으로 양이 입력 신호를 생성하기 위한 전처리수단; 상기 생성된 양이 입력 신호의 양이 상관 정도 왜곡(IACCDist) 및 출력변수를 산출하기 위한 출력변수 계산수단; 및 상기 산출된 양이 상관 정도 왜곡(IACCDist)과 상기 출력변수를 바탕으로 음질의 등급을 출력하기 위한 인공신경망회로수단을 포함함
    .
    4. 발명의 중요한 용도
    본 발명은 멀티채널 오디오 재생 시스템 등에 이용됨.
    객관적 음질 평가, 멀티채널 오디오 압축 코덱, 오디오, 압축, 코덱, 음질 평가, 양이 입력 신호, 양이 상관 정도, 양이 레벨 차이, 양이 상관 정도 왜곡, 양이 레벨 차이 왜곡, 출력 변수, 음질 등급

    가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
    5.
    发明公开
    가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치 有权
    使用虚拟源位置信息编码和解码多通道音频信号的方法和装置

    公开(公告)号:KR1020060049941A

    公开(公告)日:2006-05-19

    申请号:KR1020050061425

    申请日:2005-07-07

    CPC classification number: G10L19/008 H04S3/002 H04S2420/03

    Abstract: 본 발명은 가상 음원 위치 정보(Virtual Sound Location Information: VSLI)를 이용하여 멀티채널 오디오 신호를 효율적으로 부호화/복호화하는 방법 및 장치에 관한 것이다. 본 발명에 따른 멀티채널 오디오 신호 부호화 장치는, 멀티채널 오디오 신호를 프레임화된 오디오 신호로 변환하기 위한 프레임 변환 수단과, 상기 프레임화된 오디오 신호를 다운믹싱하기 위한 수단과, 상기 다운믹스된 오디오 신호를 부호화하기 위한 수단과, 상기 프레임화된 오디오 신호로부터 음원위치정보를 추정하기 위한 음원위치정보 추정 수단과, 상기 추정된 음원위치정보를 양자화하기 위한 수단과, 상기 부호화된 다운믹스 오디오 신호와 상기 양자화된 음원위치정보를 합산하여 최종적으로 부호화된 멀티채널 오디오 신호를 생성하기 위한 수단을 포함한다.
    멀티채널 오디오 신호 부호화, 복호화, 가상음원위치정보(virtual source location information: VSLI)

    천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법

    公开(公告)号:WO2022010189A1

    公开(公告)日:2022-01-13

    申请号:PCT/KR2021/008417

    申请日:2021-07-02

    Abstract: 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법이 개시된다. 오디오 부호화 방법은 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력하는 단계; 상기 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 상기 주파수 영역 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.

    프리셋을 이용한 객체기반 오디오 시스템, 객체기반 오디오 제공 방법 및 객체기반 오디오 재생 방법
    7.
    发明申请
    프리셋을 이용한 객체기반 오디오 시스템, 객체기반 오디오 제공 방법 및 객체기반 오디오 재생 방법 审中-公开
    基于对象的音频系统,基于对象的音频提供方法和使用预置功能的基于对象的音频播放方法

    公开(公告)号:WO2010147442A1

    公开(公告)日:2010-12-23

    申请号:PCT/KR2010/003993

    申请日:2010-06-21

    CPC classification number: G11B27/105

    Abstract: 프리셋을 이용한 객체기반 오디오 시스템, 객체기반 오디오 제공 방법 및 객체기반 오디오 재생 방법이 개시된다. 객체기반 오디오 시스템은 객체기반 오디오 파일의 저장 위치를 참조하는 참조 정보를 제공하는 참조 정보 제공부 및 객체기반 오디오 파일을 구성하는 적어도 하나의 오디오 객체를 제어하기 위한 프리셋 정보를 제공하는 프리셋 정보 제공부를 포함한다.

    Abstract translation: 公开了一种基于对象的音频系统,基于对象的音频提供方法和使用预设功能的基于对象的音频播放方法。 基于对象的音频系统包括:参考信息提供器,其提供用于参考基于对象的音频文件的存储位置的参考信息; 以及提供用于控制构成基于对象的音频文件的至少一个音频对象的预设信息的预设信息提供器。

    음성/무음성 구간 검출 방법 및 장치
    8.
    发明授权
    음성/무음성 구간 검출 방법 및 장치 有权
    用于检测语音/非语音部分的方法和装置

    公开(公告)号:KR101808810B1

    公开(公告)日:2017-12-14

    申请号:KR1020130144979

    申请日:2013-11-27

    Inventor: 장인선 임우택

    CPC classification number: G10L25/78

    Abstract: 음성/무음성구간검출방법및 장치를제공한다. 음성/무음성구간검출장치는스테레오오디오신호에서상기스테레오오디오신호의채널간관계정보를획득하는획득부, 상기채널간관계정보를기초로상기스테레오오디오신호의각 요소를센터채널성분과서라운드성분으로분류하는분류부, 상기센터채널성분인요소들로구성된센터채널신호와상기서라운드성분인요소들로구성된서라운드채널신호간의프레임별에너지비율값 및상기스테레오오디오신호를기초로생성된모노신호와상기스테레오오디오신호간의프레임별에너지비율값을계산하는계산부및 상기에너지비율값들을비교하여상기스테레오오디오신호에서음성구간과무음성구간을판단하는판단부를포함할수 있다.

    Abstract translation: 提供了一种用于检测语音/非语音部分的方法和设备。 语音/非语音区间检测装置,所述获取单元,基于用于从立体声音频信号获取对每个元素到一个立体声音频信号的中心信道分量和环绕部件的立体声音频信号的信道之间的关系的信息的信道之间的关系的信息, 类别分类部,在该中心信道信号和环绕信道信号的一帧一帧的能量比的环绕组件的元件的中心通道组件被配置作为一个元素值和立体声音频信号的单声道信号,并生成所述立体声基于由 计算单元,用于计算音频信号之间的每帧能量的比率;以及确定单元,用于比较能量比值以确定立体声音频信号中的语音区间和非语音区间。

Patent Agency Ranking