-
公开(公告)号:CN115578512A
公开(公告)日:2023-01-06
申请号:CN202211204447.1
申请日:2022-09-29
Applicant: 北京开普云信息科技有限公司 , 开普云信息科技股份有限公司 , 新华通讯社新媒体中心 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本申请公开一种语音播报视频的生成模型训练和使用方法、装置及设备,属于图像处理技术领域。所述方法包括:提取多个训练视频中的人脸图像和音频,训练视频为单人播报音频;利用生成模型中预先训练好的R‑Net网络对人脸图像提取出三维人脸重建系数和光照渲染系数,根据三维人脸重建系数和光照渲染系数生成二维人脸图像;利用生成模型中的卷积网络对人脸图像和音频进行特征提取,得到特征向量;对二维人脸图像和特征向量进行合成,得到合成视频帧;利用预先训练好的判别网络对合成视频帧和音频生成损失;根据损失训练生成模型。本申请利用R‑Net网络生成高清的二维人脸图像,提高合成的语音播报视频中的人脸图像的画面质量。
-
公开(公告)号:CN116309984A
公开(公告)日:2023-06-23
申请号:CN202310045379.7
申请日:2023-01-30
Applicant: 中国传媒大学 , 新华新媒文化传播有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06T13/40 , G10L13/08 , G10L21/10 , G06F40/279
Abstract: 本发明提供一种基于文本驱动的口型动画生成方法及系统,所述方法包括:定义数字虚拟人的口型动作数据集合,建立预训练模型;输入语言文本的文本序列,对文本序列进行音素识别;通过预训练模型将音素和口型动作之间进行关系映射,输出口型动作帧序列;将口型动作帧序列进行连续帧的口型动画合成,对口型动作帧进行动画帧的线性插值,使文本长度和动画长度保持一致,同时保持语言文本与口型动画的同步。本发明可有效地结合语言学和图形学的特点构造出完整的口型动作数据集合,便于后续口型动作的生成;结合预训练模型可完成音素与口型动作帧之间的映射关系;如采用注意力模型,可完成前后相关音素的输出,提供更好的动作补偿,提高了口型动画效果。
-