Patent search ap:("北京语言大学") AND inv:"徐艳艳" Page 1

1.

发明授权
一种用于语音驱动的口型生成方法及装置有权

公开(公告)号：CN119252275B

公开(公告)日：2025-05-13

申请号：CN202411775994.4

申请日：2024-12-05

Applicant: 北京语言大学

Inventor： 柯登峰 , 徐艳艳 , 周晨

IPC: G10L21/10 , G10L25/30 , G10L25/57 , H04N21/854 , G06V20/40 , G06N3/0442 , G06N3/0464 , G06V10/10 , G06V10/80 , G06V10/82 , G06V40/16

Abstract: 本发明提供一种用于语音驱动的口型生成方法及装置，涉及自然语言处理技术领域。该方法包括：基于ffmpeg工具，根据原始视频数据进行图像处理，获得拼接帧图像数据以及面部特征点；根据原始音频数据，通过深度音频特征提取器进行特征提取，获得音频特征；通过音频‑视频序列特征融合器进行特征融合，获得融合特征；根据面部特征点以及融合特征，通过唇部动作生成器进行视频生成，获得合成视频数据；根据原始视频数据以及合成视频数据对唇部动作生成器优化；基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成，获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。

2.

发明公开
一种用于低信噪比下的语音去噪方法及装置有权

公开(公告)号：CN119229889A

公开(公告)日：2024-12-31

申请号：CN202411778837.9

申请日：2024-12-05

Applicant: 北京语言大学

Inventor： 柯登峰 , 徐艳艳 , 陈浩翔

IPC: G10L21/0224 , G10L21/0232 , G10L25/30 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/0475 , G06N3/084 , G06N3/094 , G06N3/0985

Abstract: 本发明提供一种用于低信噪比下的语音去噪方法及装置，涉及语音去噪技术领域。该方法包括：通过麦克风录制音频，获取纯净语音数据；对纯净语音数据进行预处理，获得训练语音数据；根据U‑net网络结构以及Transformer模型结构构建待训练TFDense‑Net语音去噪模型；基于多频谱判别器，根据训练语音数据，使用Adam优化器对待训练TFDense‑Net语音去噪模型进行对抗性迭代训练，获得TFDense‑Net语音去噪模型；低信噪比环境下，通过麦克风采集的待去噪语音数据；将待去噪语音数据输入TFDense‑Net语音去噪模型，获得去噪语音数据。本发明是一种结合改进密集块和视频变换器的高效且清晰的低信噪比下的语音去噪方法。

3.

发明授权
一种用于低信噪比下的语音去噪方法及装置有权

公开(公告)号：CN119229889B

公开(公告)日：2025-05-13

申请号：CN202411778837.9

申请日：2024-12-05

Applicant: 北京语言大学

Inventor： 柯登峰 , 徐艳艳 , 陈浩翔

IPC: G10L21/0224 , G10L21/0232 , G10L25/30 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/0475 , G06N3/084 , G06N3/094 , G06N3/0985

Abstract: 本发明提供一种用于低信噪比下的语音去噪方法及装置，涉及语音去噪技术领域。该方法包括：通过麦克风录制音频，获取纯净语音数据；对纯净语音数据进行预处理，获得训练语音数据；根据U‑net网络结构以及Transformer模型结构构建待训练TFDense‑Net语音去噪模型；基于多频谱判别器，根据训练语音数据，使用Adam优化器对待训练TFDense‑Net语音去噪模型进行对抗性迭代训练，获得TFDense‑Net语音去噪模型；低信噪比环境下，通过麦克风采集的待去噪语音数据；将待去噪语音数据输入TFDense‑Net语音去噪模型，获得去噪语音数据。本发明是一种结合改进密集块和视频变换器的高效且清晰的低信噪比下的语音去噪方法。

4.

发明公开
一种用于语音驱动的口型生成方法及装置有权

公开(公告)号：CN119252275A

公开(公告)日：2025-01-03

申请号：CN202411775994.4

申请日：2024-12-05

Applicant: 北京语言大学

Inventor： 柯登峰 , 徐艳艳 , 周晨

IPC: G10L21/10 , G10L25/30 , G10L25/57 , H04N21/854 , G06V20/40 , G06N3/0442 , G06N3/0464 , G06V10/10 , G06V10/80 , G06V10/82 , G06V40/16

Abstract: 本发明提供一种用于语音驱动的口型生成方法及装置，涉及自然语言处理技术领域。该方法包括：基于ffmpeg工具，根据原始视频数据进行图像处理，获得拼接帧图像数据以及面部特征点；根据原始音频数据，通过深度音频特征提取器进行特征提取，获得音频特征；通过音频‑视频序列特征融合器进行特征融合，获得融合特征；根据面部特征点以及融合特征，通过唇部动作生成器进行视频生成，获得合成视频数据；根据原始视频数据以及合成视频数据对唇部动作生成器优化；基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成，获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。

Patent Agency Ranking