Patent search ap:("北京语言大学") AND inv:"柯登峰" Page 1

1.

发明授权
发音偏误检测方法、装置及存储介质有权

公开(公告)号：CN113327595B

公开(公告)日：2022-08-02

申请号：CN202110667154.6

申请日：2021-06-16

Applicant: 北京语言大学

Inventor： 张劲松 , 彭霖铠 , 付凯奇 , 解焱陆 , 柯登峰

IPC: G10L15/06 , G10L15/02 , G10L15/16 , G10L15/187 , G10L25/30 , G10L25/51

Abstract: 本发明提供了一种发音偏误检测方法、装置及存储介质，所述方法包括构建语音预训练模型，并基于无标注语音语料库对所述语音预训练模型进行预训练；在所述语音预训练模型上添加一层随机初始化的全连接层，得到微调预训练模型，并使用带标注的发音偏误数据对所述微调预训练模型进行训练，得到发音偏误检测模型；利用所述发音偏误检测模型对学习者的语音进行检测，以获得发音偏误信息。本发明所述发音偏误检测方法、装置及存储介质，通过构建语音预训练模型、微调预训练模型，利用发音偏误检测模型对学习者的语音进行检测以获得发音偏误信息的方式，使得在缺少发音训练数据情况下，依然可以有效提升发音偏误检测系统的性能。

2.

发明公开
发音偏误检测方法、装置及存储介质有权

公开(公告)号：CN113327595A

公开(公告)日：2021-08-31

申请号：CN202110667154.6

申请日：2021-06-16

Applicant: 北京语言大学

Inventor： 张劲松 , 彭霖铠 , 付凯奇 , 解焱陆 , 柯登峰

IPC: G10L15/06 , G10L15/02 , G10L15/16 , G10L15/187 , G10L25/30 , G10L25/51

Abstract: 本发明提供了一种发音偏误检测方法、装置及存储介质，所述方法包括构建语音预训练模型，并基于无标注语音语料库对所述语音预训练模型进行预训练；在所述语音预训练模型上添加一层随机初始化的全连接层，得到微调预训练模型，并使用带标注的发音偏误数据对所述微调预训练模型进行训练，得到发音偏误检测模型；利用所述发音偏误检测模型对学习者的语音进行检测，以获得发音偏误信息。本发明所述发音偏误检测方法、装置及存储介质，通过构建语音预训练模型、微调预训练模型，利用发音偏误检测模型对学习者的语音进行检测以获得发音偏误信息的方式，使得在缺少发音训练数据情况下，依然可以有效提升发音偏误检测系统的性能。

3.

发明授权
一种用于语音驱动的口型生成方法及装置有权

公开(公告)号：CN119252275B

公开(公告)日：2025-05-13

申请号：CN202411775994.4

申请日：2024-12-05

Applicant: 北京语言大学

Inventor： 柯登峰 , 徐艳艳 , 周晨

IPC: G10L21/10 , G10L25/30 , G10L25/57 , H04N21/854 , G06V20/40 , G06N3/0442 , G06N3/0464 , G06V10/10 , G06V10/80 , G06V10/82 , G06V40/16

Abstract: 本发明提供一种用于语音驱动的口型生成方法及装置，涉及自然语言处理技术领域。该方法包括：基于ffmpeg工具，根据原始视频数据进行图像处理，获得拼接帧图像数据以及面部特征点；根据原始音频数据，通过深度音频特征提取器进行特征提取，获得音频特征；通过音频‑视频序列特征融合器进行特征融合，获得融合特征；根据面部特征点以及融合特征，通过唇部动作生成器进行视频生成，获得合成视频数据；根据原始视频数据以及合成视频数据对唇部动作生成器优化；基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成，获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。

4.

发明公开
一种用于低信噪比下的语音去噪方法及装置有权

公开(公告)号：CN119229889A

公开(公告)日：2024-12-31

申请号：CN202411778837.9

申请日：2024-12-05

Applicant: 北京语言大学

Inventor： 柯登峰 , 徐艳艳 , 陈浩翔

IPC: G10L21/0224 , G10L21/0232 , G10L25/30 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/0475 , G06N3/084 , G06N3/094 , G06N3/0985

Abstract: 本发明提供一种用于低信噪比下的语音去噪方法及装置，涉及语音去噪技术领域。该方法包括：通过麦克风录制音频，获取纯净语音数据；对纯净语音数据进行预处理，获得训练语音数据；根据U‑net网络结构以及Transformer模型结构构建待训练TFDense‑Net语音去噪模型；基于多频谱判别器，根据训练语音数据，使用Adam优化器对待训练TFDense‑Net语音去噪模型进行对抗性迭代训练，获得TFDense‑Net语音去噪模型；低信噪比环境下，通过麦克风采集的待去噪语音数据；将待去噪语音数据输入TFDense‑Net语音去噪模型，获得去噪语音数据。本发明是一种结合改进密集块和视频变换器的高效且清晰的低信噪比下的语音去噪方法。

5.

发明公开
可分离循环注意力的语音增强方法及装置有权

公开(公告)号：CN114023346A

公开(公告)日：2022-02-08

申请号：CN202111285653.5

申请日：2021-11-01

Applicant: 北京语言大学

Inventor： 柯登峰 , 张劲松 , 解焱陆

IPC: G10L21/0208 , G10L25/30

Abstract: 本发明涉及一种可分离循环注意力的语音增强方法，包括步骤1：将语音信号输入至前置网络单元进行傅里叶变换，输出第一幅度流信号和第一相位流信号；步骤2：将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪，输出第二幅度流信号和第二相位流信号；所述注意力网络单元包括串联的多级极坐标注意力模块，每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块；步骤3：将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换，输出增强后的语音信号。本发明计算量小，能够有效保证语音降噪效果。

6.

发明授权
一种用于低信噪比下的语音去噪方法及装置有权

公开(公告)号：CN119229889B

公开(公告)日：2025-05-13

申请号：CN202411778837.9

申请日：2024-12-05

Applicant: 北京语言大学

Inventor： 柯登峰 , 徐艳艳 , 陈浩翔

IPC: G10L21/0224 , G10L21/0232 , G10L25/30 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/0475 , G06N3/084 , G06N3/094 , G06N3/0985

Abstract: 本发明提供一种用于低信噪比下的语音去噪方法及装置，涉及语音去噪技术领域。该方法包括：通过麦克风录制音频，获取纯净语音数据；对纯净语音数据进行预处理，获得训练语音数据；根据U‑net网络结构以及Transformer模型结构构建待训练TFDense‑Net语音去噪模型；基于多频谱判别器，根据训练语音数据，使用Adam优化器对待训练TFDense‑Net语音去噪模型进行对抗性迭代训练，获得TFDense‑Net语音去噪模型；低信噪比环境下，通过麦克风采集的待去噪语音数据；将待去噪语音数据输入TFDense‑Net语音去噪模型，获得去噪语音数据。本发明是一种结合改进密集块和视频变换器的高效且清晰的低信噪比下的语音去噪方法。

7.

发明公开
一种用于语音驱动的口型生成方法及装置有权

公开(公告)号：CN119252275A

公开(公告)日：2025-01-03

申请号：CN202411775994.4

申请日：2024-12-05

Applicant: 北京语言大学

Inventor： 柯登峰 , 徐艳艳 , 周晨

IPC: G10L21/10 , G10L25/30 , G10L25/57 , H04N21/854 , G06V20/40 , G06N3/0442 , G06N3/0464 , G06V10/10 , G06V10/80 , G06V10/82 , G06V40/16

Abstract: 本发明提供一种用于语音驱动的口型生成方法及装置，涉及自然语言处理技术领域。该方法包括：基于ffmpeg工具，根据原始视频数据进行图像处理，获得拼接帧图像数据以及面部特征点；根据原始音频数据，通过深度音频特征提取器进行特征提取，获得音频特征；通过音频‑视频序列特征融合器进行特征融合，获得融合特征；根据面部特征点以及融合特征，通过唇部动作生成器进行视频生成，获得合成视频数据；根据原始视频数据以及合成视频数据对唇部动作生成器优化；基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成，获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。

8.

发明授权
可分离循环注意力的语音增强方法及装置有权

公开(公告)号：CN114023346B

公开(公告)日：2024-05-31

申请号：CN202111285653.5

申请日：2021-11-01

Applicant: 北京语言大学

Inventor： 柯登峰 , 张劲松 , 解焱陆

IPC: G10L21/0208 , G10L25/30

Abstract: 本发明涉及一种可分离循环注意力的语音增强方法，包括步骤1：将语音信号输入至前置网络单元进行傅里叶变换，输出第一幅度流信号和第一相位流信号；步骤2：将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪，输出第二幅度流信号和第二相位流信号；所述注意力网络单元包括串联的多级极坐标注意力模块，每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块；步骤3：将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换，输出增强后的语音信号。本发明计算量小，能够有效保证语音降噪效果。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification