一种端到端语音识别方法、系统、终端及存储介质

    公开(公告)号:CN117079644A

    公开(公告)日:2023-11-17

    申请号:CN202311247900.1

    申请日:2023-09-26

    Abstract: 本发明涉及智能语音技术领域,公开了一种端到端语音识别方法、系统、终端及存储介质,该方法首先接收待检测语音的音频信号,并提取出音频信号中的声学特征。然后将声学特征输入至VAD模组中进行端点检测,检测出有效人声音频。将有效人声音频输入至ASR模组中进行解码,ASR模组中的第一编码器和解码器构成用于生成流式识别结果的一遍模型。第二编码器和解码器构成二遍模型,二遍模型具有更大的上下文感受野。先将有效人声音频输入至一遍模型中进行解码,然后一遍模型解码结果输入至置信度模型中进行解码可信度评估。若评估合格则直接输入语音识别结果,否则利用二遍模型进行解码以得到语音识别结果。本发明可减小语音识别的系统时延。

    一种垂类领域端到端语音识别方法与装置

    公开(公告)号:CN116206596A

    公开(公告)日:2023-06-02

    申请号:CN202310201243.0

    申请日:2023-02-28

    Abstract: 本发明提供了一种垂类领域端到端语音识别方法与装置,涉及智能语音技术领域,包括如下步骤:接收待识别语音信号,提取待识别语音信号的声学特征;将声学特征输入训练好的端到端语音识别模型中获取识别结果;通过编码器提取语音信号的高级声学表征,并通过与上下文感知矩阵融合得到上下文声学表征;通过上下文编码器将上下文短语映射成固定维度的字嵌入表征;通过编码器结合解码器提取音频对应文本的最终词嵌入表征并与所述上下文声学表征通过注意力机制进行融合,输出解码结果。本发明考虑上下文编码器同时考虑了上下文短语的字序列及发音序列,有利于提取更加具有区分性的词嵌入表征,缓解上下文短语量级的提升而导致的相似短语之间的串扰。

Patent Agency Ranking