一种基于文本指导的图像编辑方法、装置、设备和介质

    公开(公告)号:CN119516038A

    公开(公告)日:2025-02-25

    申请号:CN202411392299.X

    申请日:2024-10-08

    Applicant: 厦门大学

    Abstract: 本发明提供一种基于文本指导的图像编辑方法、装置、设备和介质,将输入图片、源提示词和目标提示词输入到模型;输入图片首先经过inversion过程被加噪为噪声图片,然后分别进入重建分支和编辑分支,所述重建分支的重建过程的交叉注意力图会注入到编辑分支中以保持图片的结构与内容;在inversion过程采用对比注意力聚焦策略,对于不同程度的注意力泄漏情况适应性地将注意力精准的引导至编辑区域;随后在编辑分支中使用掩膜引导的混合采样技术,为编辑区域和非编辑区域提供不同的条件指导,以保证图像中变化和保留的平衡整合在编辑过程中仅对需要编辑的区域进行修改,阻止对非编辑区域产生不必要的编辑,防止发生过度编辑的现象。

    一种增强的对象操纵和背景一致的图像编辑方法

    公开(公告)号:CN118967880A

    公开(公告)日:2024-11-15

    申请号:CN202410995249.4

    申请日:2024-07-24

    Applicant: 厦门大学

    Abstract: 一种增强的对象操纵和背景一致的图像编辑方法,采用扩散模型对原始图像进行图像编辑,主要步骤:在预设数量的时间步内对原始潜在代码逐步进行反演更新,并且在特定时间步将编辑对象从源区域转移到目标区域,并对编辑对象转移后的源区域背景进行修复,同时保持编辑对象转移后的未编辑区域背景完整,以在反演阶段的特定时间步中采用最终损失函数对特定潜在代码进行迭代更新,最终得到更新后潜在代码;将更新后潜在代码和编辑对象动作的指示文本输入UNet去噪器中进行采样去噪得到编辑图像。借此,可在反演阶段于目标区域中注入编辑对象并保持背景完整性,同时可在采样阶段确保被编辑对象产生指定的动作,保证编辑前后图像内容的一致性。

Patent Agency Ranking