KR20210035042A - Emotional speech synthesis method and apparatus for controlling the emotion between emotions

    公开(公告)号:KR20210035042A

    公开(公告)日:2021-03-31

    申请号:KR1020200109402A

    申请日:2020-08-28

    CPC classification number: G10L13/08 G10L25/63

    Abstract: 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치이 개시된다. 감정 음성 생성 방법은 동일한 감정을 표현하는 가중치 벡터들을 그룹화하여 감정 군집들을 생성하는 단계; 동일한 감정 군집에 포함된 가중치 벡터들 간의 거리인 내부 거리를 결정하는 단계; 서로 다른 감정 군집에 포함된 가중치 벡터들 간의 거리인 외부 거리를 결정하는 단계; 상기 내부 거리 및 상기 외부 거리에 기초하여 상기 감정 군집들 각각의 대표 가중치 벡터를 결정하는 단계; 감정을 표현하기 위한 운율의 정보가 포함된 스타일 토큰에 상기 감정 군집의 대표 가중치 벡터를 적용하여 스타일 임베딩을 생성하는 단계; 및 상기 스타일 임베딩을 이용하여 감정을 나타내는 감정 음성을 생성하는 단계를 포함할 수 있다.

    오디오 신호 처리 방법 및 장치
    2.
    发明申请
    오디오 신호 처리 방법 및 장치 审中-公开
    用于处理音频信号的方法和设备

    公开(公告)号:WO2011065741A2

    公开(公告)日:2011-06-03

    申请号:PCT/KR2010/008336

    申请日:2010-11-24

    CPC classification number: G10L19/00 G10L19/005 G10L19/12 G10L2019/0001

    Abstract: 본 발명은, 현재 프레임의 데이터를 포함하는 오디오 신호를 수신하는 단계; 상기 현재 프레임의 데이터에서 에러가 발생한 경우, 랜덤 코드북을 상기 현재 프레임의 데이터에 대한 프레임 에러 은닉을 수행함으로써, 상기 현재 프레임의 제1 임시 출력 신호를 생성하는 단계; 상기 제1 임시 출력 신호를 근거로 하여 숏텀 예측, 롱텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 파라미터를 생성하는 단계; 및, 상기 파라미터를 다음 프레임을 위해 메모리를 업데이트하는 단계를 포함하고, 상기 파라미터는 피치 게인, 피치 지연, 고정 코드북 게인, 및 고정 코드북 중 하나 이상을 포함하는 오디오 신호 처리 방법이 개시된다.

    Abstract translation: 本发明包括:接收包括当前帧的数据的音频信号; 如果在当前帧的数据时,通过执行帧错误隐藏的随机码本,所述方法包括在当前帧的数据中的错误:生成所述当前帧的第一临时输出信号; 通过基于第一暂时输出信号执行短期预测,长期预测和固定码本搜索中的至少一个来生成参数; 并更新用于下一帧的存储器,其中该参数包括音调增益,音调延迟,固定码簿增益和固定码簿中的至少一个。 p>

    오디오 신호 처리 방법 및 장치
    4.
    发明申请

    公开(公告)号:WO2009142464A3

    公开(公告)日:2009-11-26

    申请号:PCT/KR2009/002743

    申请日:2009-05-25

    Abstract: 레지듀얼 및 롱텀 예측정보를 수신하는 단계; 상기 레지듀얼에 대해 역 주파수 변환을 수행하여 합성 레지듀얼을 생성하는 단계; 및, 상기 합성 레지듀얼 및 상기 롱텀 예측정보를 근거로 롱텀 합성을 수행하여, 현재 프레임의 합성 오디오 신호를 생성하는 단계를 포함하고,상기 롱텀 예측 정보는, 최종 게인 및 최종 지연을 포함하고,상기 최종 지연의 범위는 0부터이고, 상기 롱텀 합성은 이전 프레임을 포함하는 프레임의 합성 오디오 신호를 근거로 수행되는 오디오 신호 처리 방법이 개시된다.

    음성 신호 부호화 방법 및 장치
    7.
    发明申请
    음성 신호 부호화 방법 및 장치 审中-公开
    编码语音信号的方法和装置

    公开(公告)号:WO2011071335A2

    公开(公告)日:2011-06-16

    申请号:PCT/KR2010/008848

    申请日:2010-12-10

    Abstract: 본 발명에 따르면, 선형 예측을 이용하여 입력 신호으로부터 현재 프레임의 선형 예측 필터 계수를 획득하고, 제 1 베스트 정보에 기초하여 상기 현재 프레임의 선형 예측 필터 계수에 대응하는 현재 프레임의 양자화된 스펙트럼 후보 벡터를 획득하며, 상기 현재 프레임의 양자화된 스펙트럼 후보 벡터와 이전 프레임의 양자화된 스펙트럼 벡터를 보간하는 것을 특징으로 한다. 이처럼 기존의 단계별 최적화 기법에 비해 양자화 오차를 최소화하는 최적의 파라미터를 찾을 수 있다.

    Abstract translation: 根据本发明,从使用线性预测的输入信号中获取当前帧的线性预测滤波器系数,对应于当前帧的线性预测滤波器系数的当前帧的量化频谱候选矢量被获取在 内插第一最佳信息的基础和当前帧的量化频谱候选矢量和前一帧的量化频谱矢量。 因此,与传统的相位优化技术相反,可以获得最小化量化误差的最佳参数。

    오디오 신호 처리 방법 및 장치
    8.
    发明申请
    오디오 신호 처리 방법 및 장치 审中-公开
    处理音频信号的方法和装置

    公开(公告)号:WO2009142466A2

    公开(公告)日:2009-11-26

    申请号:PCT/KR2009/002745

    申请日:2009-05-25

    CPC classification number: G10L19/032

    Abstract: 오디오 신호를 주파수 변화하여 주파수 스펙트럼을 생성하는 단계; 상기 주파수 스펙트럼을 이용하여, 대역 별 에너지에 대응하는 대역 별 가중치를 결정하는 단계; 심리 음향 모델에 따른 마스킹 한계치를 수신하는 단계; 상기 마스킹 한계치에 상기 가중치를 적용함으로써, 변형된 마스킹 한계치를 생성하는 단계; 및, 상기 변형된 마스킹 한계치를 이용하여 상기 오디오 신호를 양자화하는 단계을 포함하는 오디오 신호 처리 방법이 개시된다.

    Abstract translation: 公开了一种处理音频信号的方法。 该方法包括以下步骤:将音频信号转换成频率以产生频谱; 使用频谱来确定对应于每个频带的能量的每个频带的权重值; 根据心理声音模型接收掩蔽阈值; 将所述权重值应用于掩蔽阈值以产生变换的掩蔽阈值; 以及使用经变换的掩蔽阈值来量化音频信号。

    음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법

    公开(公告)号:KR102241364B1

    公开(公告)日:2021-04-16

    申请号:KR1020190047116

    申请日:2019-04-23

    Abstract: 본발명은다수의프레임으로구분된음성신호를파워스펙트럼으로변환하는파워스펙트럼변환부, 각각기지정된주파수대역과패턴을갖는다수의멜-필터뱅크를포함하여, 다수프레임각각의파워스펙트럼을각각필터링하여다수의멜-필터뱅크에너지를획득하는필터뱅크부, 미리학습된패턴추정방식에따라결정된다수의가중치를다수의멜-필터뱅크에너지중 대응하는멜-필터뱅크에너지적용하여프레임별특징벡터를획득하는특징벡터획득부, 미리학습된패턴추정방식에따라다수의프레임별특징벡터를순차적으로인코딩하여프레임특징을추출하되, 이전획득된프레임특징을함께인코딩하여프레임특징을획득하는프레임특징추출부및 프레임특징추출부에서획득되는프레임특징중 최종프레임특징을인가받고, 미리학습된패턴추정방식에따라최종프레임특징으로부터사용자의스트레스에대응하는음성특징을추출하는음성특징추출부를포함하는음성신호를이용한사용자스트레스판별장치및 방법을제공할수 있다.

Patent Agency Ranking