一种基于Diffusion Transformer的风格对齐图像集生成方法

    公开(公告)号:CN119515669A

    公开(公告)日:2025-02-25

    申请号:CN202411447749.0

    申请日:2024-10-16

    Abstract: 本发明提出了基于Diffusion Transformer的风格对齐图像集生成方法。该方法首先利用文本编码器将文本提示转换为文本特征,然后通过一个定制的DiT生成模型,其中传统的多头自注意层被风格对齐注意力层替代。所述风格对齐注意力层利用文本特征指导图像生成,同时使用第一张生成的图像作为风格参考,通过自适应实例归一化AdaIN和位移缩放的点积注意力机制来确保生成的图像风格一致。最终,该方法能够高效地并行生成风格一致的图像集,适应不同纵横比的图像生成需求,如海报等非方形图像。

Patent Agency Ranking