-
公开(公告)号:CN114550708A
公开(公告)日:2022-05-27
申请号:CN202210151123.X
申请日:2022-02-14
Applicant: 西安电子科技大学重庆集成电路创新研究院
Abstract: 本发明涉及一种基于深度学习的流式实时语音识别方法,通过输入RAW声音波形信号的语音片段,构建语音识别声学模型并训练,在执行预测时,将得到的声学特征张量作为输入,并通过流式CTC解码器的解码算法进行解码;语音识别的语言模型采用统计N‑Gram模型,通过大规模语料库得到N元组统计数据;结合中文汉语拼音与汉字对应关系的字典,使用流式维特比解码算法进行解码,得到语音识别最终文本结果;在模型落地部署后调用API接口或模块,使用流式算法模式,结合流式实时语音激活检测方法,实现流式实时语音识别。该方法不存在上文信息对下文信息的长时依赖,上下文无关,或仅存在下文信息对上文信息的依赖,可实现算法模型推理时的流式实时语音识别。
-
公开(公告)号:CN114550753A
公开(公告)日:2022-05-27
申请号:CN202210135633.8
申请日:2022-02-14
Applicant: 西安电子科技大学重庆集成电路创新研究院
Abstract: 本发明涉及一种基于深度学习的流式语音激活检测方法,先输入RAW声音波形信号片段,进行声学特征提取,结合SpecAugment数据增强算法计算得到提取后的声学特征张量;然后构建基于深度卷积神经网络模型,输出结果为0或1,其中1代表语音信号,0代表非语音信号,并训练得到可用的作为语音激活检测模型权重参数;最后语音激活检测模型在执行预测时,将得到的声学特征张量作为输入,得到预测输出结果。对于算法模型的实时性、准确率、鲁棒性、和弹性伸缩性等,都具有良好的表现,能够为语音通信、语音识别、智能问答、视频会议实时字幕和实时翻译等应用场景提供关键技术支持,同时也可用于非实时性的场景,具有一举两得的效果。
-