-
公开(公告)号:CN105654944B
公开(公告)日:2019-11-01
申请号:CN201511020925.3
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种融合了短时与长时特征建模的环境声识别方法及装置。本发明提出了一种模型级联融合的方法,使得短时和长时的信息在整个识别过程中都能够得以运用。本发明的方案包括下列步骤:对于滑动窗,首先基于短时特征使用混合高斯模型(GMM)建模进行预分类;对GMM的分类结果,进行置信度判别,置信度高的结果直接作为最终的分类结果,置信度较低时,则基于长时特征再分类;在第二阶段,基于对GMM分类结果混淆矩阵的分析,找出容易混淆的类,训练这些类之间的支持向量机(SVM)分类模型,使用SVM进行再分类。第二阶段的建模过程使用GMM的概率得分加入长时特征一起作为SVM的输入。
-
公开(公告)号:CN105654944A
公开(公告)日:2016-06-08
申请号:CN201511020925.3
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种融合了短时与长时特征建模的环境声识别方法及装置。本发明提出了一种模型级联融合的方法,使得短时和长时的信息在整个识别过程中都能够得以运用。本发明的方案包括下列步骤:对于滑动窗,首先基于短时特征使用混合高斯模型(GMM)建模进行预分类;对GMM的分类结果,进行置信度判别,置信度高的结果直接作为最终的分类结果,置信度较低时,则基于长时特征再分类;在第二阶段,基于对GMM分类结果混淆矩阵的分析,找出容易混淆的类,训练这些类之间的支持向量机(SVM)分类模型,使用SVM进行再分类。第二阶段的建模过程使用GMM的概率得分加入长时特征一起作为SVM的输入。
-
公开(公告)号:CN105469807B
公开(公告)日:2019-04-02
申请号:CN201511023725.3
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法及装置。方法包括:用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧;在听觉谱的各时频单元上计算自相关函数;在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;在各瞬时频率的基础上计算频率匹配函数;用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
-
公开(公告)号:CN105632501B
公开(公告)日:2019-09-03
申请号:CN201511021329.7
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种基于深度学习技术的自动口音分类方法和装置,方法包括:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。本发明可以有效利用上下文信息,从而可以提供比传统浅层模型更好的分类效果。
-
公开(公告)号:CN105632501A
公开(公告)日:2016-06-01
申请号:CN201511021329.7
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种基于深度学习技术的自动口音分类方法和装置,方法包括:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。本发明可以有效利用上下文信息,从而可以提供比传统浅层模型更好的分类效果。
-
公开(公告)号:CN105469807A
公开(公告)日:2016-04-06
申请号:CN201511023725.3
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
CPC classification number: G10L25/18 , G10L15/142
Abstract: 本发明公开了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法及装置。方法包括:用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧;在听觉谱的各时频单元上计算自相关函数;在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;在各瞬时频率的基础上计算频率匹配函数;用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
-
公开(公告)号:CN105702251B
公开(公告)日:2019-10-22
申请号:CN201610248979.3
申请日:2016-04-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于Top‑k加强音频词袋模型的语音情感识别方法,其包括:确定语音情感数据库及其中的训练集和测试集,并提取每一语音样本的帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典;通过计算帧特征向量与码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到语音情感识别结果。通过本发明实施例,提高了语音情感识别的识别精度。
-
公开(公告)号:CN105096961B
公开(公告)日:2019-02-01
申请号:CN201410189386.5
申请日:2014-05-06
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G10L21/0272 , G10L21/02 , G10L21/0208
Abstract: 本发明实施例提供一种语音分离方法和装置,本实施例语音分离方法,包括:通过获得第一信号,根据第一信号确定初始理想二值掩蔽矩阵,根据初始理想二值掩蔽矩阵,对第一信号进行谐波补偿,得到谐波补偿后的分离语音信号,根据谐波补偿后的分离语音信号,对第一信号和第二信号进行滤波,得到目标分离语音信号,从而减少目标分离语音信号中能量空洞的产生,抑制了目标分离语音信号的扭曲。
-
公开(公告)号:CN103021408B
公开(公告)日:2014-10-22
申请号:CN201210514763.9
申请日:2012-12-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。
-
公开(公告)号:CN116403594A
公开(公告)日:2023-07-07
申请号:CN202310671651.2
申请日:2023-06-08
Applicant: 澳克多普有限公司 , 中国科学院自动化研究所
IPC: G10L21/0208 , G10L25/84 , G10L25/27
Abstract: 本发明涉及一种基于噪声更新因子语音增强的方法和装置,该方法包括:获取带噪语音;对带噪语音进行傅里叶变换分解,得到带噪傅里叶系数;对带噪傅里叶系数进行特征提取,得到带噪Fbank特征;将带噪Fbank特征输入至预先训练的语音降噪模型,通过维纳滤波对带噪信号进行滤波,得到降噪后的目标语音信号的傅里叶系数;根据降噪后的目标语音傅里叶系数生成降噪后语音波形信号。本发明具有显著的性能提升,既能处理平稳噪声,又能应对非平稳噪声,生成的纯净语音质量较高,同时鲁棒性高,在各自声学场景中性能稳定,提升用户体验。
-
-
-
-
-
-
-
-
-