-
公开(公告)号:CN119359850B
公开(公告)日:2025-05-02
申请号:CN202411932628.5
申请日:2024-12-26
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T11/00 , G06T11/60 , G06F40/205
Abstract: 本发明涉及计算机视觉技术领域,提供一种图像生成方法、装置、电子设备和存储介质,方法包括:获取目标图像的描述文本;基于大型语言模型,对所述描述文本进行场景解析,得到与所述描述文本对应的场景图;基于多模态图像生成模型,应用所述描述文本和所述场景图,生成所述目标图像。本发明提供的图像生成方法、装置、电子设备和存储介质,通过借助大型语言模型的强大自然语言处理能力,对描述文本进行场景解析,得到与描述文本对应的场景图,并结合描述文本和场景图生成目标图像。同时参考到描述文本的文本信息,以及场景图表征的空间和语义信息,可以改善生成图像的质量和语义一致性,从而生成更加精确和合理的图像。
-
公开(公告)号:CN119810266A
公开(公告)日:2025-04-11
申请号:CN202510301466.3
申请日:2025-03-14
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T11/60 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种图像生成方法、装置、设备和存储介质,涉及图像处理技术领域,该方法包括:将当前文本和上一文本对应的上一图像输入图像生成模型中的自回归模块中,得到所述自回归模块输出的当前token序列;将所述上一图像输入所述图像生成模型中的图像特征适配模块中,得到所述图像特征适配模块输出的图像特征;基于所述当前token序列和所述图像特征,确定所述当前文本对应的当前图像。本发明可以提高前后生成的图像的一致性。
-
公开(公告)号:CN119762639A
公开(公告)日:2025-04-04
申请号:CN202411993562.0
申请日:2024-12-31
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T13/40 , G06V40/10 , G06V40/20 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/08
Abstract: 本发明提供一种虚拟人像视频特征预测模型训练方法及虚拟人像视频生成方法,涉及计算机视觉技术领域,该初始视频特征预测模型经过训练得到的虚拟人像视频特征预测模型,可以学习到提取细粒度动作特征的能力,实现对复杂动作的精细控制,增强后续生成的虚拟人像视频中虚拟人物在细粒度动作合成中的表现力,降低虚拟人像产生扭曲、模糊或失真的可能性。
-
公开(公告)号:CN119762477A
公开(公告)日:2025-04-04
申请号:CN202411991069.5
申请日:2024-12-31
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T7/00 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/092
Abstract: 本发明提供一种图像美学质量评价方法及系统,该方法包括:将待评价的目标图像输入至图像美学评价模型中,得到由所述图像美学评价模型输出的所述目标图像在不同美学评价维度对应的美学目标评价值,其中,所述图像美学评价模型是由标记有美学样本评价标签的样本图像,对大语言模型进行训练得到的;所述美学样本评价标签是基于所述美学评价维度构建得到的;根据各个所述美学目标评价值,得到所述目标图像的美学评价结果。本发明可得到更为准确的图像美学评估结果。
-
公开(公告)号:CN119850767A
公开(公告)日:2025-04-18
申请号:CN202411954981.3
申请日:2024-12-27
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T11/00 , G06N3/045 , G06N3/0475 , G06N3/094 , G06N3/096 , G06N3/0455
Abstract: 本发明提供一种图像生成方法、装置、电子设备和存储介质,涉及人工智能技术领域,其中方法包括:获取目标文本;将所述目标文本输入图像生成模型中,得到所述图像生成模型输出的目标图像,所述图像生成模型为基于样本加噪图像和对应的样本文本对学生模型通过对抗训练得到的,所述学生模型为基于所述样本加噪图像和对应的样本文本对教师模型通过渐进蒸馏训练得到的。本发明将渐进蒸馏训练和对抗训练相结合,使得基于学生模型训练得到的图像生成模型,能够产生与教师模型输出图像更接近的细节和清晰度,从而提高了生成图像的质量。
-
公开(公告)号:CN119625139A
公开(公告)日:2025-03-14
申请号:CN202510170201.4
申请日:2025-02-17
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T11/60 , G06F40/284 , G06N20/00 , G06F18/214 , G06F18/22 , G06F18/24
Abstract: 本发明提供一种交错图文的生成方法、装置、电子设备和存储介质,涉及人工智能技术领域,其中方法包括:将用户需求信息输入交错图文生成模型,得到交错图文;交错图文生成模型为基于一致性损失对初始交错图文生成模型进行训练得到的,一致性损失为基于当前的第一样本图像token组对应的样本中间特征图的第一特征和之前的各样本中间特征图的第二特征之间的样本相似度确定的,当前的第一样本图像token组为将交错的样本文本和样本图像输入初始多模态大模型得到的。本发明是基于一致性损失训练得到交错图文生成模型,考虑到了各样本中间特征图之间的相似性,从而能够提高交错图文生成模型生成的交错图文中图像之间的一致性。
-
公开(公告)号:CN119850765A
公开(公告)日:2025-04-18
申请号:CN202411901874.4
申请日:2024-12-23
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T11/00 , G06F3/023 , G06N20/00 , G06T7/194 , G06F40/166
Abstract: 本发明提供一种输入法皮肤生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域。其中方法包括:获取输入文本;输入文本包括用户输入的图像描述性文本,图像描述性文本包括输入法背景图的图像内容信息;将输入文本输入至第一文生图模型,得到第一文生图模型输出的输入法背景图;输入法背景图用于生成输入法皮肤。本发明用户可以根据自身需求输入图像描述性文本,生成符合用户个性化需求的输入法皮肤,且可以满足所有用户的个性化需求,从而提升用户体验感;且第一文生图模型用于基于输入文本的内容信息生成对应的输入法背景图,从而无需人工提前设计多种输入法皮肤,降低输入法皮肤的设计成本,并提高输入法皮肤的生成效率。
-
公开(公告)号:CN119359850A
公开(公告)日:2025-01-24
申请号:CN202411932628.5
申请日:2024-12-26
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T11/00 , G06T11/60 , G06F40/205
Abstract: 本发明涉及计算机视觉技术领域,提供一种图像生成方法、装置、电子设备和存储介质,方法包括:获取目标图像的描述文本;基于大型语言模型,对所述描述文本进行场景解析,得到与所述描述文本对应的场景图;基于多模态图像生成模型,应用所述描述文本和所述场景图,生成所述目标图像。本发明提供的图像生成方法、装置、电子设备和存储介质,通过借助大型语言模型的强大自然语言处理能力,对描述文本进行场景解析,得到与描述文本对应的场景图,并结合描述文本和场景图生成目标图像。同时参考到描述文本的文本信息,以及场景图表征的空间和语义信息,可以改善生成图像的质量和语义一致性,从而生成更加精确和合理的图像。
-
-
-
-
-
-
-