-
公开(公告)号:CN105702251A
公开(公告)日:2016-06-22
申请号:CN201610248979.3
申请日:2016-04-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于Top-k加强音频词袋模型的语音情感识别方法,其包括:确定语音情感数据库及其中的训练集和测试集,并提取每一语音样本的帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典;通过计算帧特征向量与码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到语音情感识别结果。通过本发明实施例,提高了语音情感识别的识别精度。
-
公开(公告)号:CN105654944A
公开(公告)日:2016-06-08
申请号:CN201511020925.3
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种融合了短时与长时特征建模的环境声识别方法及装置。本发明提出了一种模型级联融合的方法,使得短时和长时的信息在整个识别过程中都能够得以运用。本发明的方案包括下列步骤:对于滑动窗,首先基于短时特征使用混合高斯模型(GMM)建模进行预分类;对GMM的分类结果,进行置信度判别,置信度高的结果直接作为最终的分类结果,置信度较低时,则基于长时特征再分类;在第二阶段,基于对GMM分类结果混淆矩阵的分析,找出容易混淆的类,训练这些类之间的支持向量机(SVM)分类模型,使用SVM进行再分类。第二阶段的建模过程使用GMM的概率得分加入长时特征一起作为SVM的输入。
-
公开(公告)号:CN105096961A
公开(公告)日:2015-11-25
申请号:CN201410189386.5
申请日:2014-05-06
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G10L21/0272 , G10L21/02 , G10L21/0208
Abstract: 本发明实施例提供一种语音分离方法和装置,本实施例语音分离方法,包括:通过获得第一信号,根据第一信号确定初始理想二值掩蔽矩阵,根据初始理想二值掩蔽矩阵,对第一信号进行谐波补偿,得到谐波补偿后的分离语音信号,根据谐波补偿后的分离语音信号,对第一信号和第二信号进行滤波,得到目标分离语音信号,从而减少目标分离语音信号中能量空洞的产生,抑制了目标分离语音信号的扭曲。
-
公开(公告)号:CN103021420B
公开(公告)日:2015-02-25
申请号:CN201210513075.0
申请日:2012-12-04
Applicant: 中国科学院自动化研究所
IPC: G10L21/0232
Abstract: 本发明公开了一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法。该方法主要包括:对麦克风采集到的信号进行截短,并进行快速傅里叶变换;利用相位调整算法对幅值谱进行微距最大值搜索,获得调整后的带噪语音的幅值谱;估计噪声的幅值谱;将全频带划分成多个子频带,并计算各个子频带上的信噪比;在各子频带上进行过减规则的幅值谱减法;对谱减后的语音谱进行幅值补偿;利用快速傅里叶反变换和信号重叠,得到信号的时域波形。
-
公开(公告)号:CN105632501B
公开(公告)日:2019-09-03
申请号:CN201511021329.7
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种基于深度学习技术的自动口音分类方法和装置,方法包括:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。本发明可以有效利用上下文信息,从而可以提供比传统浅层模型更好的分类效果。
-
公开(公告)号:CN105632501A
公开(公告)日:2016-06-01
申请号:CN201511021329.7
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种基于深度学习技术的自动口音分类方法和装置,方法包括:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。本发明可以有效利用上下文信息,从而可以提供比传统浅层模型更好的分类效果。
-
公开(公告)号:CN105469807A
公开(公告)日:2016-04-06
申请号:CN201511023725.3
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
CPC classification number: G10L25/18 , G10L15/142
Abstract: 本发明公开了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法及装置。方法包括:用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧;在听觉谱的各时频单元上计算自相关函数;在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;在各瞬时频率的基础上计算频率匹配函数;用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
-
公开(公告)号:CN102969000B
公开(公告)日:2014-10-22
申请号:CN201210514867.X
申请日:2012-12-04
Applicant: 中国科学院自动化研究所
IPC: G10L21/0208
Abstract: 本发明公开了一种F范数表征信号子空间维度的多通道语音增强方法,该方法包括:步骤1:通过N个麦克风组成的麦克风阵列采集带噪声的多路语音信号y(t),并计算该多路语音信号y(t)的带噪语音互相关矩阵Ryy,其中,t表示离散时间点;步骤2:利用噪声估计算法估计加性噪声互相关矩阵 步骤3:利用所述带噪语音互相关矩阵Ryy和加性噪声互相关矩阵估计纯净语音互相关矩阵 步骤4:利用所述纯净语音互相关矩阵估计信号子空间的维度 步骤5:对进行广义特征值分解,并结合信号子空间的维度和拉格朗日乘子μ获得时域约束线性信号估计器;步骤6:利用时域约束线性信号估计器对多路语音信号y(t)进行滤波获得增强后的语音
-
公开(公告)号:CN103021408A
公开(公告)日:2013-04-03
申请号:CN201210514763.9
申请日:2012-12-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。
-
公开(公告)号:CN102969000A
公开(公告)日:2013-03-13
申请号:CN201210514867.X
申请日:2012-12-04
Applicant: 中国科学院自动化研究所
IPC: G10L21/02
Abstract: 本发明公开了一种F范数表征信号子空间维度的多通道语音增强方法,该方法包括:步骤1:通过N个麦克风组成的麦克风阵列采集带噪声的多路语音信号y(t),并计算该多路语音信号y(t)的带噪语音互相关矩阵Ryy,其中,t表示离散时间点;步骤2:利用噪声估计算法估计加性噪声互相关矩阵步骤3:利用所述带噪语音互相关矩阵Ryy和加性噪声互相关矩阵估计纯净语音互相关矩阵步骤4:利用所述纯净语音互相关矩阵估计信号子空间的维度步骤5:对进行广义特征值分解,并结合信号子空间的维度和拉格朗日乘子μ获得时域约束线性信号估计器;步骤6:利用时域约束线性信号估计器对多路语音信号y(t)进行滤波获得增强后的语音
-
-
-
-
-
-
-
-
-