-
公开(公告)号:CN119893206A
公开(公告)日:2025-04-25
申请号:CN202510100849.4
申请日:2025-01-22
Applicant: 厦门大学
IPC: H04N21/44 , H04N21/439 , H04N21/854 , G06N5/04
Abstract: 一种基于Agent协作的AIGC长视频稳定生成方法及系统,涉及计算机技术领域。包括如下步骤:获取用户输入的剧本文字内容;采用预置的prompt预训练“剧组工作人员”Agent;将用户输入的剧本文字内容转换成分镜脚本,提取对话;从用户输入的剧本提取角色和场景的描述;从角色和场景的描述转换成Stable Diffusion的标准prompt;生成角色和场景的设定图;根据角色描述从音色库中选择符合角色设定的音色;音色克隆预训练模型从音色和对话文字生成对话音频;根据对话音频和角色图生成对话的视频;根据分镜脚本和对话视频剪辑成片。比起现有方法极大地提升AIGC长视频生成的角色一致性和视频质量稳定性。
-
公开(公告)号:CN119889283A
公开(公告)日:2025-04-25
申请号:CN202510101817.6
申请日:2025-01-22
Applicant: 厦门大学
IPC: G10L13/08 , G10L15/04 , G10L15/02 , G10L15/00 , G10L15/16 , G10L25/30 , G10L25/45 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06F40/117 , G06F40/58
Abstract: 一种基于语音到单元的端到端闽南语翻译、合成方法及系统,涉及计算机技术。翻译方法,从用户端获取闽南语音频数据,经重采样和分割,音频片段预处理,位置编码后输入Transformer网络的编码器编码,编码后的低维表征与解码器输出一同送入解码器自回归解码得翻译序列,剔除特殊标记符号得中文文本翻译结果。合成方法,从用户端获取中文文本,过滤部分标点符号,获取词嵌入与位置嵌入后经Transformer编码器编码得中间隐变量,解码器解码得初始梅尔频谱输出,经后处理修正得到梅尔频谱作为声学特征,通过微调的Hifi‑Gan声码器生成闽南语音频。提高闽南语语音翻译准确度,合成闽南语语音生动流畅,适用于多场合。
-