-
公开(公告)号:CN119515669A
公开(公告)日:2025-02-25
申请号:CN202411447749.0
申请日:2024-10-16
Applicant: 清华大学深圳国际研究生院
IPC: G06T3/04 , G06T11/60 , G06N3/0455
Abstract: 本发明提出了基于Diffusion Transformer的风格对齐图像集生成方法。该方法首先利用文本编码器将文本提示转换为文本特征,然后通过一个定制的DiT生成模型,其中传统的多头自注意层被风格对齐注意力层替代。所述风格对齐注意力层利用文本特征指导图像生成,同时使用第一张生成的图像作为风格参考,通过自适应实例归一化AdaIN和位移缩放的点积注意力机制来确保生成的图像风格一致。最终,该方法能够高效地并行生成风格一致的图像集,适应不同纵横比的图像生成需求,如海报等非方形图像。