基于Top-k加强音频词袋模型的语音情感识别方法

    公开(公告)号:CN105702251B

    公开(公告)日:2019-10-22

    申请号:CN201610248979.3

    申请日:2016-04-20

    Inventor: 刘文举 梁雅萌

    Abstract: 本发明公开了一种基于Top‑k加强音频词袋模型的语音情感识别方法,其包括:确定语音情感数据库及其中的训练集和测试集,并提取每一语音样本的帧特征向量;接着,将训练集中所有语音样本的帧特征向量集合起来,通过聚类算法,得到聚类中心,并用聚类中心组成音频词字典;通过计算帧特征向量与码词之间的距离,得到对于训练集和测试集中语音样本的第一句特征向量;然后,对第一句特征向量进行特征选择,得到第二句特征向量;再基于训练集中语音样本的第二句特征向量来训练机器学习识别模型,并使用测试集中语音样本的第二句特征向量作为机器学习识别模型的输入,以得到语音情感识别结果。通过本发明实施例,提高了语音情感识别的识别精度。

    语音分离方法和装置
    8.
    发明授权

    公开(公告)号:CN105096961B

    公开(公告)日:2019-02-01

    申请号:CN201410189386.5

    申请日:2014-05-06

    Abstract: 本发明实施例提供一种语音分离方法和装置,本实施例语音分离方法,包括:通过获得第一信号,根据第一信号确定初始理想二值掩蔽矩阵,根据初始理想二值掩蔽矩阵,对第一信号进行谐波补偿,得到谐波补偿后的分离语音信号,根据谐波补偿后的分离语音信号,对第一信号和第二信号进行滤波,得到目标分离语音信号,从而减少目标分离语音信号中能量空洞的产生,抑制了目标分离语音信号的扭曲。

    一种发音稳定段辅助的语音识别优化解码方法及装置

    公开(公告)号:CN103021408B

    公开(公告)日:2014-10-22

    申请号:CN201210514763.9

    申请日:2012-12-04

    Inventor: 刘文举 杨占磊

    Abstract: 本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。

    基于噪声更新因子的语音增强方法和装置

    公开(公告)号:CN116403594A

    公开(公告)日:2023-07-07

    申请号:CN202310671651.2

    申请日:2023-06-08

    Abstract: 本发明涉及一种基于噪声更新因子语音增强的方法和装置,该方法包括:获取带噪语音;对带噪语音进行傅里叶变换分解,得到带噪傅里叶系数;对带噪傅里叶系数进行特征提取,得到带噪Fbank特征;将带噪Fbank特征输入至预先训练的语音降噪模型,通过维纳滤波对带噪信号进行滤波,得到降噪后的目标语音信号的傅里叶系数;根据降噪后的目标语音傅里叶系数生成降噪后语音波形信号。本发明具有显著的性能提升,既能处理平稳噪声,又能应对非平稳噪声,生成的纯净语音质量较高,同时鲁棒性高,在各自声学场景中性能稳定,提升用户体验。

Patent Agency Ranking