-
公开(公告)号:CN119252275A
公开(公告)日:2025-01-03
申请号:CN202411775994.4
申请日:2024-12-05
Applicant: 北京语言大学
IPC: G10L21/10 , G10L25/30 , G10L25/57 , H04N21/854 , G06V20/40 , G06N3/0442 , G06N3/0464 , G06V10/10 , G06V10/80 , G06V10/82 , G06V40/16
Abstract: 本发明提供一种用于语音驱动的口型生成方法及装置,涉及自然语言处理技术领域。该方法包括:基于ffmpeg工具,根据原始视频数据进行图像处理,获得拼接帧图像数据以及面部特征点;根据原始音频数据,通过深度音频特征提取器进行特征提取,获得音频特征;通过音频‑视频序列特征融合器进行特征融合,获得融合特征;根据面部特征点以及融合特征,通过唇部动作生成器进行视频生成,获得合成视频数据;根据原始视频数据以及合成视频数据对唇部动作生成器优化;基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成,获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。
-
公开(公告)号:CN119252275B
公开(公告)日:2025-05-13
申请号:CN202411775994.4
申请日:2024-12-05
Applicant: 北京语言大学
IPC: G10L21/10 , G10L25/30 , G10L25/57 , H04N21/854 , G06V20/40 , G06N3/0442 , G06N3/0464 , G06V10/10 , G06V10/80 , G06V10/82 , G06V40/16
Abstract: 本发明提供一种用于语音驱动的口型生成方法及装置,涉及自然语言处理技术领域。该方法包括:基于ffmpeg工具,根据原始视频数据进行图像处理,获得拼接帧图像数据以及面部特征点;根据原始音频数据,通过深度音频特征提取器进行特征提取,获得音频特征;通过音频‑视频序列特征融合器进行特征融合,获得融合特征;根据面部特征点以及融合特征,通过唇部动作生成器进行视频生成,获得合成视频数据;根据原始视频数据以及合成视频数据对唇部动作生成器优化;基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成,获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。
-