-
公开(公告)号:CN105654944B
公开(公告)日:2019-11-01
申请号:CN201511020925.3
申请日:2015-12-30
Applicant: 中国科学院自动化研究所 , 国网山西省电力公司电力科学研究院 , 山西振中电力股份有限公司
Abstract: 本发明公开了一种融合了短时与长时特征建模的环境声识别方法及装置。本发明提出了一种模型级联融合的方法,使得短时和长时的信息在整个识别过程中都能够得以运用。本发明的方案包括下列步骤:对于滑动窗,首先基于短时特征使用混合高斯模型(GMM)建模进行预分类;对GMM的分类结果,进行置信度判别,置信度高的结果直接作为最终的分类结果,置信度较低时,则基于长时特征再分类;在第二阶段,基于对GMM分类结果混淆矩阵的分析,找出容易混淆的类,训练这些类之间的支持向量机(SVM)分类模型,使用SVM进行再分类。第二阶段的建模过程使用GMM的概率得分加入长时特征一起作为SVM的输入。
-
公开(公告)号:CN105702251B
公开(公告)日:2019-10-22
申请号:CN201610248979.3
申请日:2016-04-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于Top‑k加强音频词袋模型的语音情感识别方法,其包括:确定语音情感数据库及其中的训练集和测试集,并提取每一语音样本的帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典;通过计算帧特征向量与码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到语音情感识别结果。通过本发明实施例,提高了语音情感识别的识别精度。
-
公开(公告)号:CN105096961B
公开(公告)日:2019-02-01
申请号:CN201410189386.5
申请日:2014-05-06
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G10L21/0272 , G10L21/02 , G10L21/0208
Abstract: 本发明实施例提供一种语音分离方法和装置,本实施例语音分离方法,包括:通过获得第一信号,根据第一信号确定初始理想二值掩蔽矩阵,根据初始理想二值掩蔽矩阵,对第一信号进行谐波补偿,得到谐波补偿后的分离语音信号,根据谐波补偿后的分离语音信号,对第一信号和第二信号进行滤波,得到目标分离语音信号,从而减少目标分离语音信号中能量空洞的产生,抑制了目标分离语音信号的扭曲。
-
公开(公告)号:CN103021408B
公开(公告)日:2014-10-22
申请号:CN201210514763.9
申请日:2012-12-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。
-
公开(公告)号:CN116403594A
公开(公告)日:2023-07-07
申请号:CN202310671651.2
申请日:2023-06-08
Applicant: 澳克多普有限公司 , 中国科学院自动化研究所
IPC: G10L21/0208 , G10L25/84 , G10L25/27
Abstract: 本发明涉及一种基于噪声更新因子语音增强的方法和装置,该方法包括:获取带噪语音;对带噪语音进行傅里叶变换分解,得到带噪傅里叶系数;对带噪傅里叶系数进行特征提取,得到带噪Fbank特征;将带噪Fbank特征输入至预先训练的语音降噪模型,通过维纳滤波对带噪信号进行滤波,得到降噪后的目标语音信号的傅里叶系数;根据降噪后的目标语音傅里叶系数生成降噪后语音波形信号。本发明具有显著的性能提升,既能处理平稳噪声,又能应对非平稳噪声,生成的纯净语音质量较高,同时鲁棒性高,在各自声学场景中性能稳定,提升用户体验。
-
公开(公告)号:CN105654947A
公开(公告)日:2016-06-08
申请号:CN201511020718.8
申请日:2015-12-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种获取交通广播语音中路况信息的方法及系统,其目的是从大量的交通广播语音中提取有用信息,为无人车的行驶提供智能决策支持。本发明的方案包括下列步骤:从收音机中获取广播音频流,将数字化的语音信号进行预处理;运用语音端点检测技术从音频流中检测出语音片段;利用语音识别引擎对所述语音片段进行识别处理而得到识别结果;从互联网上采集路况信息,通过这些数据建立与交通路况信息相关的词典;构建交通路况领域相关的多模式文本抽取器,利用所述抽取器对识别结果进行抽取,得到最终的交通路况信息。
-
公开(公告)号:CN102938252B
公开(公告)日:2014-08-13
申请号:CN201210482699.0
申请日:2012-11-23
Applicant: 中国科学院自动化研究所
IPC: G10L15/02
Abstract: 本发明公开了一种结合韵律和发音学特征汉语声调识别方法及系统,该方法包括以下步骤:接收语音信号,并提取语音信号的倒谱特征、基频值和能量值;根据所述倒谱特征生成携带音节边界信息的语音序列;根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值,根据所述每一音节对应的基频值和能量值,计算每一音节的韵律特征;根据所述倒谱特征序列和所述音节边界信息,提取音节的发音方式特征;根据所述韵律特征和所述发音方式特征判断所述语音信号中每一音节的声调类型。本发明还涉及了一种相应地汉语声调识别系统。
-
公开(公告)号:CN103021420A
公开(公告)日:2013-04-03
申请号:CN201210513075.0
申请日:2012-12-04
Applicant: 中国科学院自动化研究所
IPC: G10L21/0232
Abstract: 本发明公开了一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法。该方法主要包括:对麦克风采集到的信号进行截短,并进行快速傅里叶变换;利用相位调整算法对幅值谱进行微距最大值搜索,获得调整后的带噪语音的幅值谱;估计噪声的幅值谱;将全频带划分成多个子频带,并计算各个子频带上的信噪比;在各子频带上进行过减规则的幅值谱减法;对谱减后的语音谱进行幅值补偿;利用快速傅里叶反变换和信号重叠,得到信号的时域波形。
-
公开(公告)号:CN101778322A
公开(公告)日:2010-07-14
申请号:CN200910250393.0
申请日:2009-12-07
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于多模型和听觉特性的麦克风阵列后滤波语音增强方法。针对影响麦克风阵列后滤波语音增强性能的两个重要因素:对于信号参数的准确估计和在增加降噪性能与减少语音畸变之间合适的折中,本发明的方案包括下列步骤:对麦克风阵列采集到的信号进行时域对齐,短时傅里叶变换和功率谱的特征值分解;通过极大化带噪语音信号中目标语音信号的存在概率,来确定信号子空间的维度;基于谱的平稳性,自适应选择带噪语音信号中噪声功率谱的分布模型;利用条件概率估计噪声功率谱;基于信号子空间估计听觉掩蔽阈值;根据听觉感知特性,结合拉格朗日乘子估计后滤波器。
-
公开(公告)号:CN116403594B
公开(公告)日:2023-08-18
申请号:CN202310671651.2
申请日:2023-06-08
Applicant: 澳克多普有限公司 , 中国科学院自动化研究所
IPC: G10L21/0208 , G10L25/84 , G10L25/27
Abstract: 本发明涉及一种基于噪声更新因子语音增强的方法和装置,该方法包括:获取带噪语音;对带噪语音进行傅里叶变换分解,得到带噪傅里叶系数;对带噪傅里叶系数进行特征提取,得到带噪Fbank特征;将带噪Fbank特征输入至预先训练的语音降噪模型,通过维纳滤波对带噪信号进行滤波,得到降噪后的目标语音信号的傅里叶系数;根据降噪后的目标语音傅里叶系数生成降噪后语音波形信号。本发明具有显著的性能提升,既能处理平稳噪声,又能应对非平稳噪声,生成的纯净语音质量较高,同时鲁棒性高,在各自声学场景中性能稳定,提升用户体验。
-
-
-
-
-
-
-
-
-