语音识别及模型训练方法、装置、设备及计算机程序产品

    公开(公告)号:CN119132283A

    公开(公告)日:2024-12-13

    申请号:CN202411338067.6

    申请日:2024-09-25

    Abstract: 本申请公开了一种语音识别及模型训练方法、装置、设备及计算机程序产品,涉及语音识别技术领域,本申请对语音识别模型和文本重建模型联合训练,二者共享同一解码器,文本重建模型还包括基于大语言模型构建的文本编码器,能够对识别文本标签提取文本语义表征,计算音频编码器对音频样本提取的音频语义表征与文本语义表征间的特征对齐损失值,以及计算解码器输出的文本与识别文本标签间的文本识别损失值,大语言模型能够提取丰富的语义信息,通过特征对齐损失值可以将大语言模型丰富的语义信息迁移到音频编码器中,提升语音识别模型在特定领域下的识别效果。推理阶段,将待识别语音信号的声学特征输入语音识别模型,得到模型输出的语音识别结果。

    语音修复方法、装置、设备和存储介质

    公开(公告)号:CN118968965A

    公开(公告)日:2024-11-15

    申请号:CN202411169095.X

    申请日:2024-08-23

    Abstract: 本发明提供一种语音修复方法、装置、设备和存储介质,该方法包括:将当前时刻获取的待修复语音的编码特征和目标文本特征对齐,得到目标特征;所述目标文本特征为语音识别模型的解码器输出的上一时刻的语音对应的文本特征;基于所述目标特征,确定所述待修复语音对应的各文本的后验概率;基于各所述后验概率,确定所述待修复语音的文本识别结果;将目标信息输入语音修复模型的文本修复模块中,得到所述文本修复模块输出的第一潜在特征,所述第一潜在特征包括文本潜在特征,所述目标信息包括各所述后验概率和所述文本识别结果;基于所述文本潜在特征,对所述待修复语音进行修复。本发明实施例能够提高修复后的语音的可懂度。

    语音活性检测方法、装置、设备及可读存储介质

    公开(公告)号:CN115132231B

    公开(公告)日:2022-12-13

    申请号:CN202211051500.9

    申请日:2022-08-31

    Abstract: 本申请公开了一种语音活性检测方法、装置、设备及可读存储介质,首先,获取待检测的语音信号对应的各个信号帧的语音特征;然后,将各个信号帧的语音特征输入语音活性检测模型,语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示信号帧为语音帧还是非语音帧;最后,基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段。本方案中,针对每个信号帧,语音活性检测模型是基于该信号帧以及该信号帧之前的历史信号帧得到信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,因此,可以降低模型在推理阶段前向传播过程中产生等待时延。

    语音活性检测方法、装置、设备及可读存储介质

    公开(公告)号:CN115132231A

    公开(公告)日:2022-09-30

    申请号:CN202211051500.9

    申请日:2022-08-31

    Abstract: 本申请公开了一种语音活性检测方法、装置、设备及可读存储介质,首先,获取待检测的语音信号对应的各个信号帧的语音特征;然后,将各个信号帧的语音特征输入语音活性检测模型,语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示信号帧为语音帧还是非语音帧;最后,基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段。本方案中,针对每个信号帧,语音活性检测模型是基于该信号帧以及该信号帧之前的历史信号帧得到信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,因此,可以降低模型在推理阶段前向传播过程中产生等待时延。

    文本顺滑方法、装置、设备、存储介质和程序产品

    公开(公告)号:CN119808724A

    公开(公告)日:2025-04-11

    申请号:CN202411768543.8

    申请日:2024-12-04

    Inventor: 张孟希 田定书

    Abstract: 本申请公开了一种文本顺滑方法、装置、设备、存储介质和程序产品,涉及信息处理技术领域,包括:对目标文本中的各个分词进行至少一个层级的基于注意力机制的编码,得到各个分词的编码特征;其中,在每个层级中,每个分词的注意范围包括该分词及其上文中的目标上文分词和下文中的目标下文分词,目标上文分词的个数最多为该层级对应的第一数量,目标下文分词的个数最多为该层级对应的第二数量;对于每个分词,基于该分词的编码特征获得该分词的分类结果,该分词结果至少保证该分词是否需要顺滑,基于分类结果将目标文本中需要顺滑的分词删除,得到顺滑后的文本。本申请提高了文本顺滑的准确率,即降低了文本误顺滑的概率。

    语音修复方法、装置、电子设备和存储介质

    公开(公告)号:CN119741909A

    公开(公告)日:2025-04-01

    申请号:CN202411970676.3

    申请日:2024-12-30

    Abstract: 本发明涉及语音处理技术领域,提供一种语音修复方法、装置、电子设备和存储介质,方法包括:确定待修复的病理语音,并识别所述病理语音的音素序列;基于音素矫正模型,对所述音素序列进行矫正,得到矫正文本,所述音素矫正模型基于样本受损音素序列及其对应的标准文本训练得到;对所述矫正文本进行语音合成,得到所述病理语音的修复语音。本发明实施例提供的语音修复方法、装置、电子设备和存储介质,不仅提升音质,还进一步保留并修复病理语音中的语义信息,从而全面提高修复语音的可懂度与沟通效率。

    语音解码方法、装置、电子设备和存储介质

    公开(公告)号:CN114220444B

    公开(公告)日:2022-09-06

    申请号:CN202111255706.9

    申请日:2021-10-27

    Inventor: 李威 方昕 李永超

    Abstract: 本发明提供一种语音解码方法、装置、电子设备和存储介质,其中方法包括:确定待解码语音;基于待解码语音中,上一语音帧的候选解码路径在语音解码模型中所处解码网络的解码情况,确定当前解码路径,语音解码模型包括多个解码网络;基于待解码语音中的当前语音帧,在当前解码路径所处解码网络中,对当前解码路径进行扩展,得到当前语音帧的候选解码路径,并将当前语音帧的下一语音帧更新为当前语音帧,直至当前语音帧为待解码语音的尾帧,利用上一语音帧的候选解码路径所处解码网络的解码情况选取路径,降低了最优解码路径被错误筛除的可能性,提高了解码的速度和精度,解决了传统的语音解码方案对内存的占用较多的问题,减少了非必要的内存占用。

Patent Agency Ranking