-
1.
公开(公告)号:KR20210035042A
公开(公告)日:2021-03-31
申请号:KR1020200109402A
申请日:2020-08-28
Applicant: 한국전자통신연구원 , 연세대학교 산학협력단
Abstract: 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치이 개시된다. 감정 음성 생성 방법은 동일한 감정을 표현하는 가중치 벡터들을 그룹화하여 감정 군집들을 생성하는 단계; 동일한 감정 군집에 포함된 가중치 벡터들 간의 거리인 내부 거리를 결정하는 단계; 서로 다른 감정 군집에 포함된 가중치 벡터들 간의 거리인 외부 거리를 결정하는 단계; 상기 내부 거리 및 상기 외부 거리에 기초하여 상기 감정 군집들 각각의 대표 가중치 벡터를 결정하는 단계; 감정을 표현하기 위한 운율의 정보가 포함된 스타일 토큰에 상기 감정 군집의 대표 가중치 벡터를 적용하여 스타일 임베딩을 생성하는 단계; 및 상기 스타일 임베딩을 이용하여 감정을 나타내는 감정 음성을 생성하는 단계를 포함할 수 있다.
-
公开(公告)号:WO2011065741A2
公开(公告)日:2011-06-03
申请号:PCT/KR2010/008336
申请日:2010-11-24
CPC classification number: G10L19/00 , G10L19/005 , G10L19/12 , G10L2019/0001
Abstract: 본 발명은, 현재 프레임의 데이터를 포함하는 오디오 신호를 수신하는 단계; 상기 현재 프레임의 데이터에서 에러가 발생한 경우, 랜덤 코드북을 상기 현재 프레임의 데이터에 대한 프레임 에러 은닉을 수행함으로써, 상기 현재 프레임의 제1 임시 출력 신호를 생성하는 단계; 상기 제1 임시 출력 신호를 근거로 하여 숏텀 예측, 롱텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 파라미터를 생성하는 단계; 및, 상기 파라미터를 다음 프레임을 위해 메모리를 업데이트하는 단계를 포함하고, 상기 파라미터는 피치 게인, 피치 지연, 고정 코드북 게인, 및 고정 코드북 중 하나 이상을 포함하는 오디오 신호 처리 방법이 개시된다.
Abstract translation: 本发明包括:接收包括当前帧的数据的音频信号; 如果在当前帧的数据时,通过执行帧错误隐藏的随机码本,所述方法包括在当前帧的数据中的错误:生成所述当前帧的第一临时输出信号; 通过基于第一暂时输出信号执行短期预测,长期预测和固定码本搜索中的至少一个来生成参数; 并更新用于下一帧的存储器,其中该参数包括音调增益,音调延迟,固定码簿增益和固定码簿中的至少一个。 p>
-
公开(公告)号:WO2020145472A1
公开(公告)日:2020-07-16
申请号:PCT/KR2019/010428
申请日:2019-08-16
Applicant: 네이버 주식회사 , 연세대학교 산학협력단
Abstract: 스펙트럼 관련 파라미터들 및 여기 관련 파라미터들을 포함하는 복수의 음향 파라미터들을 획득하고, 복수의 음향 파라미터들에 기반하여 여기 신호(excitation signal)를 추정하고, 추정된 여기 신호에 대해 스펙트럼 관련 파라미터들 중 적어도 하나에 기반한 선형 합성 필터를 적용함으로써 타겟 음성 신호를 생성하는 뉴럴 보코더에 의한 음성 신호 생성 방법이 제공된다. 뉴럴 보코더는, 복수의 화자들로부터의 음성 데이터 세트들에 대해 화자 독립적으로 훈련된 소스 모델로부터의 가중치 값들을 초기 값으로 설정하고, 해당 초기 값에 대해 타겟 화자로부터의 음성 데이터 세트를 훈련함으로써 업데이트된 가중치 값들을 생성하는 것을 포함하는 훈련 방법에 의해 훈련될 수 있다. 상기 업데이트된 가중치 값들은 타겟 화자에 대응하는 합성 음성을 생성하기 위해 사용된다.
-
公开(公告)号:WO2009142464A3
公开(公告)日:2009-11-26
申请号:PCT/KR2009/002743
申请日:2009-05-25
IPC: G10L19/04
Abstract: 레지듀얼 및 롱텀 예측정보를 수신하는 단계; 상기 레지듀얼에 대해 역 주파수 변환을 수행하여 합성 레지듀얼을 생성하는 단계; 및, 상기 합성 레지듀얼 및 상기 롱텀 예측정보를 근거로 롱텀 합성을 수행하여, 현재 프레임의 합성 오디오 신호를 생성하는 단계를 포함하고,상기 롱텀 예측 정보는, 최종 게인 및 최종 지연을 포함하고,상기 최종 지연의 범위는 0부터이고, 상기 롱텀 합성은 이전 프레임을 포함하는 프레임의 합성 오디오 신호를 근거로 수행되는 오디오 신호 처리 방법이 개시된다.
-
公开(公告)号:WO2021153843A1
公开(公告)日:2021-08-05
申请号:PCT/KR2020/002481
申请日:2020-02-20
Applicant: 연세대학교 산학협력단
Abstract: 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치를 개시한다. 본 발명의 실시예에 따른 음성 신호의 스트레스 판별 방법은, 기 생성된 음성 신호를 획득하는 음성 신호 획득 단계; 상기 음성 신호를 소정의 윈도우 단위로 분석하여 특징 벡터를 추출하는 특징 벡터 추출 단계; 및 상기 특징 벡터를 입력으로 프레임별 특징 벡터를 모델링하고, 가중치를 부여하여 심층 신경망 모델을 학습하고, 학습 결과에 근거하여 음성 신호의 스트레스가 판별되도록 하는 모델 학습 단계를 포함할 수 있다.
-
公开(公告)号:WO2022114347A1
公开(公告)日:2022-06-02
申请号:PCT/KR2020/017789
申请日:2020-12-07
Applicant: 연세대학교 산학협력단
Abstract: 본 실시예들은 훈련 과정에서 주어진 화자 정보와의 도메인 적대적 학습(domain adversarial training)을 이용하여 음성신호로부터 화자에 의존적인 성향을 제거하고 화자 정보에 독립적으로 심리적 스트레스와 관련된 특징 벡터를 학습하여 스트레스 인식 정확도를 향상시킨 스트레스 인식 장치 및 방법을 제공한다.
-
公开(公告)号:WO2011071335A2
公开(公告)日:2011-06-16
申请号:PCT/KR2010/008848
申请日:2010-12-10
IPC: G10L19/04
CPC classification number: G10L19/07 , G10L2019/0007 , G10L2019/001 , G10L2019/0013 , G10L2019/0016
Abstract: 본 발명에 따르면, 선형 예측을 이용하여 입력 신호으로부터 현재 프레임의 선형 예측 필터 계수를 획득하고, 제 1 베스트 정보에 기초하여 상기 현재 프레임의 선형 예측 필터 계수에 대응하는 현재 프레임의 양자화된 스펙트럼 후보 벡터를 획득하며, 상기 현재 프레임의 양자화된 스펙트럼 후보 벡터와 이전 프레임의 양자화된 스펙트럼 벡터를 보간하는 것을 특징으로 한다. 이처럼 기존의 단계별 최적화 기법에 비해 양자화 오차를 최소화하는 최적의 파라미터를 찾을 수 있다.
Abstract translation: 根据本发明,从使用线性预测的输入信号中获取当前帧的线性预测滤波器系数,对应于当前帧的线性预测滤波器系数的当前帧的量化频谱候选矢量被获取在 内插第一最佳信息的基础和当前帧的量化频谱候选矢量和前一帧的量化频谱矢量。 因此,与传统的相位优化技术相反,可以获得最小化量化误差的最佳参数。
-
公开(公告)号:WO2009142466A2
公开(公告)日:2009-11-26
申请号:PCT/KR2009/002745
申请日:2009-05-25
CPC classification number: G10L19/032
Abstract: 오디오 신호를 주파수 변화하여 주파수 스펙트럼을 생성하는 단계; 상기 주파수 스펙트럼을 이용하여, 대역 별 에너지에 대응하는 대역 별 가중치를 결정하는 단계; 심리 음향 모델에 따른 마스킹 한계치를 수신하는 단계; 상기 마스킹 한계치에 상기 가중치를 적용함으로써, 변형된 마스킹 한계치를 생성하는 단계; 및, 상기 변형된 마스킹 한계치를 이용하여 상기 오디오 신호를 양자화하는 단계을 포함하는 오디오 신호 처리 방법이 개시된다.
Abstract translation: 公开了一种处理音频信号的方法。 该方法包括以下步骤:将音频信号转换成频率以产生频谱; 使用频谱来确定对应于每个频带的能量的每个频带的权重值; 根据心理声音模型接收掩蔽阈值; 将所述权重值应用于掩蔽阈值以产生变换的掩蔽阈值; 以及使用经变换的掩蔽阈值来量化音频信号。
-
公开(公告)号:KR1020170107683A
公开(公告)日:2017-09-26
申请号:KR1020160031307
申请日:2016-03-16
Applicant: 한국전자통신연구원 , 연세대학교 산학협력단
IPC: G10L13/04 , G10L13/033 , G10L13/08 , G10L15/06
Abstract: 본발명은소용량모바일기기등 텍스트-음성변환을이용하는음성합성시스템에서합성음의성능을개선하기위하여, 구간특성에따라피치(pitch) 동기화하여피치의정수배가되는가변적인음성분석/합성구간및 이동구간을설정하고, 이를통하여딥러닝기반의음성합성으로합성음의음질을향상시킬수 있는, 음성합성방법을제공하는데 있다.
Abstract translation: 本发明是小容量的移动设备,例如一个文本 - 改善从语音合成系统合成声音的利用语音,节距(间距)同步到可变语音分析/合成部分的性能和一个移动部分,其是根据术语特征节距的整数倍 通过基于深度学习的语音合成,可以改善合成语音的语音质量。
-
公开(公告)号:KR102241364B1
公开(公告)日:2021-04-16
申请号:KR1020190047116
申请日:2019-04-23
Applicant: 연세대학교 산학협력단
IPC: A61B5/00
Abstract: 본발명은다수의프레임으로구분된음성신호를파워스펙트럼으로변환하는파워스펙트럼변환부, 각각기지정된주파수대역과패턴을갖는다수의멜-필터뱅크를포함하여, 다수프레임각각의파워스펙트럼을각각필터링하여다수의멜-필터뱅크에너지를획득하는필터뱅크부, 미리학습된패턴추정방식에따라결정된다수의가중치를다수의멜-필터뱅크에너지중 대응하는멜-필터뱅크에너지적용하여프레임별특징벡터를획득하는특징벡터획득부, 미리학습된패턴추정방식에따라다수의프레임별특징벡터를순차적으로인코딩하여프레임특징을추출하되, 이전획득된프레임특징을함께인코딩하여프레임특징을획득하는프레임특징추출부및 프레임특징추출부에서획득되는프레임특징중 최종프레임특징을인가받고, 미리학습된패턴추정방식에따라최종프레임특징으로부터사용자의스트레스에대응하는음성특징을추출하는음성특징추출부를포함하는음성신호를이용한사용자스트레스판별장치및 방법을제공할수 있다.
-
-
-
-
-
-
-
-
-