发音偏误检测方法、装置及存储介质

    公开(公告)号:CN113327595B

    公开(公告)日:2022-08-02

    申请号:CN202110667154.6

    申请日:2021-06-16

    Abstract: 本发明提供了一种发音偏误检测方法、装置及存储介质,所述方法包括构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练;在所述语音预训练模型上添加一层随机初始化的全连接层,得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练,得到发音偏误检测模型;利用所述发音偏误检测模型对学习者的语音进行检测,以获得发音偏误信息。本发明所述发音偏误检测方法、装置及存储介质,通过构建语音预训练模型、微调预训练模型,利用发音偏误检测模型对学习者的语音进行检测以获得发音偏误信息的方式,使得在缺少发音训练数据情况下,依然可以有效提升发音偏误检测系统的性能。

    发音偏误检测方法、装置及存储介质

    公开(公告)号:CN113327595A

    公开(公告)日:2021-08-31

    申请号:CN202110667154.6

    申请日:2021-06-16

    Abstract: 本发明提供了一种发音偏误检测方法、装置及存储介质,所述方法包括构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练;在所述语音预训练模型上添加一层随机初始化的全连接层,得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练,得到发音偏误检测模型;利用所述发音偏误检测模型对学习者的语音进行检测,以获得发音偏误信息。本发明所述发音偏误检测方法、装置及存储介质,通过构建语音预训练模型、微调预训练模型,利用发音偏误检测模型对学习者的语音进行检测以获得发音偏误信息的方式,使得在缺少发音训练数据情况下,依然可以有效提升发音偏误检测系统的性能。

    一种用于语音驱动的口型生成方法及装置

    公开(公告)号:CN119252275B

    公开(公告)日:2025-05-13

    申请号:CN202411775994.4

    申请日:2024-12-05

    Abstract: 本发明提供一种用于语音驱动的口型生成方法及装置,涉及自然语言处理技术领域。该方法包括:基于ffmpeg工具,根据原始视频数据进行图像处理,获得拼接帧图像数据以及面部特征点;根据原始音频数据,通过深度音频特征提取器进行特征提取,获得音频特征;通过音频‑视频序列特征融合器进行特征融合,获得融合特征;根据面部特征点以及融合特征,通过唇部动作生成器进行视频生成,获得合成视频数据;根据原始视频数据以及合成视频数据对唇部动作生成器优化;基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成,获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。

    一种用于低信噪比下的语音去噪方法及装置

    公开(公告)号:CN119229889A

    公开(公告)日:2024-12-31

    申请号:CN202411778837.9

    申请日:2024-12-05

    Abstract: 本发明提供一种用于低信噪比下的语音去噪方法及装置,涉及语音去噪技术领域。该方法包括:通过麦克风录制音频,获取纯净语音数据;对纯净语音数据进行预处理,获得训练语音数据;根据U‑net网络结构以及Transformer模型结构构建待训练TFDense‑Net语音去噪模型;基于多频谱判别器,根据训练语音数据,使用Adam优化器对待训练TFDense‑Net语音去噪模型进行对抗性迭代训练,获得TFDense‑Net语音去噪模型;低信噪比环境下,通过麦克风采集的待去噪语音数据;将待去噪语音数据输入TFDense‑Net语音去噪模型,获得去噪语音数据。本发明是一种结合改进密集块和视频变换器的高效且清晰的低信噪比下的语音去噪方法。

    可分离循环注意力的语音增强方法及装置

    公开(公告)号:CN114023346A

    公开(公告)日:2022-02-08

    申请号:CN202111285653.5

    申请日:2021-11-01

    Abstract: 本发明涉及一种可分离循环注意力的语音增强方法,包括步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块;步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。本发明计算量小,能够有效保证语音降噪效果。

    一种用于低信噪比下的语音去噪方法及装置

    公开(公告)号:CN119229889B

    公开(公告)日:2025-05-13

    申请号:CN202411778837.9

    申请日:2024-12-05

    Abstract: 本发明提供一种用于低信噪比下的语音去噪方法及装置,涉及语音去噪技术领域。该方法包括:通过麦克风录制音频,获取纯净语音数据;对纯净语音数据进行预处理,获得训练语音数据;根据U‑net网络结构以及Transformer模型结构构建待训练TFDense‑Net语音去噪模型;基于多频谱判别器,根据训练语音数据,使用Adam优化器对待训练TFDense‑Net语音去噪模型进行对抗性迭代训练,获得TFDense‑Net语音去噪模型;低信噪比环境下,通过麦克风采集的待去噪语音数据;将待去噪语音数据输入TFDense‑Net语音去噪模型,获得去噪语音数据。本发明是一种结合改进密集块和视频变换器的高效且清晰的低信噪比下的语音去噪方法。

    一种用于语音驱动的口型生成方法及装置

    公开(公告)号:CN119252275A

    公开(公告)日:2025-01-03

    申请号:CN202411775994.4

    申请日:2024-12-05

    Abstract: 本发明提供一种用于语音驱动的口型生成方法及装置,涉及自然语言处理技术领域。该方法包括:基于ffmpeg工具,根据原始视频数据进行图像处理,获得拼接帧图像数据以及面部特征点;根据原始音频数据,通过深度音频特征提取器进行特征提取,获得音频特征;通过音频‑视频序列特征融合器进行特征融合,获得融合特征;根据面部特征点以及融合特征,通过唇部动作生成器进行视频生成,获得合成视频数据;根据原始视频数据以及合成视频数据对唇部动作生成器优化;基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成,获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。

    可分离循环注意力的语音增强方法及装置

    公开(公告)号:CN114023346B

    公开(公告)日:2024-05-31

    申请号:CN202111285653.5

    申请日:2021-11-01

    Abstract: 本发明涉及一种可分离循环注意力的语音增强方法,包括步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块;步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。本发明计算量小,能够有效保证语音降噪效果。

Patent Agency Ranking