一种发音稳定段辅助的语音识别优化解码方法及装置

    公开(公告)号:CN103021408A

    公开(公告)日:2013-04-03

    申请号:CN201210514763.9

    申请日:2012-12-04

    Inventor: 刘文举 杨占磊

    Abstract: 本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。

    一种融合引导概率的语音识别优化解码方法

    公开(公告)号:CN102982799A

    公开(公告)日:2013-03-20

    申请号:CN201210560745.4

    申请日:2012-12-20

    Inventor: 刘文举 杨占磊

    Abstract: 本发明公开了一种融合了引导概率的语音识别解码方法。针对传统的语音识别系统缺乏利用语音帧在声学特征空间中的位置信息不足,本发明提出一种引导概率模型,用于描述语音帧属于声学特征空间不同局部的概率,并用于指导解码过程。本发明的方案包括下列步骤:训练通用背景模型,用于描述整个声学特征空间;计算语音帧在通用背景模型上的主高斯分量;利用识别系统的声学模型对训练语料库进行强制切分,得到语音帧所属的音素;统计音素与主高斯的响应频次;归一化响应频次得到引导概率;将引导概率融合到语音识别的路径总得分计算中,从而指导解码器完成对路径的增强或者削弱。

    一种发音稳定段辅助的语音识别优化解码方法及装置

    公开(公告)号:CN103021408B

    公开(公告)日:2014-10-22

    申请号:CN201210514763.9

    申请日:2012-12-04

    Inventor: 刘文举 杨占磊

    Abstract: 本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。

Patent Agency Ranking