多尺寸编辑品质更优首个基于DiT的图像编辑框架！DiT4Edit 放弃UNet

文章链接：工程链接：（待开源）

亮点直击

总结速览

处置的疑问 ：现有的基于UNet的高分辨率图像编辑方法在成功状态感知的对象编辑方面仍存在无余。相比之下，Diffusion Transformers (DiT) 能更有效地捕捉图像块之间的长程依赖相关，但目前在图像编辑畛域的运行仍较少。

提出的打算 ：本文提出了基于Diffusion Transformers的首个图像编辑框架——DiT4Edit。DiT4Edit驳回DPM-Solver反演算法来失掉反演隐变量，与传统UNet框架罕用的DDIM反演算法相比，清楚缩小了迭代步数。此外，设计了实用于Transformer计算流的一致留意力控制和图像块兼并机制。

运行的技术 ：

到达的成果 ：DiT4Edit在编辑品质和速度上优于UNet框架，尤其在高分辨率和恣意尺寸的图像编辑中体现突出。少量试验验证了该框架在各种编辑场景中的弱小功能，展现了Diffusion Transformers在允许图像编辑方面的后劲。

方法

基础常识：隐空间分散模型

分散模型架构

选用Transformer作为去噪模型的要素 与UNet结构相比，Transformer引入了全局留意力机制，使得模型能够关注图像中的更宽泛区域。这种增强的可裁减性使得Transformer能够生成大尺寸（例如大于512×512）甚至恣意尺寸的高品质图像。本文基于DiT的编辑框架在大尺寸图像上的编辑结果在下图1和图2中有所展现，这些是UNet框架之前未触及的编辑义务。因此，驳回了基于Transformer的去噪模型作为编辑框架，应用Transformer的才干来应答这些更复杂的编辑应战。

基于分散Transformer的图像编辑

如上图2所示，基于预训练的分散Transformer图像编辑框架的流程。

最近的钻研（Hong等，2024）提出了一种经过反向欧拉方法来失掉方程8中高阶项近似的战略。

一致控制留意力机制： 在之前的钻研Prompt to Prompt (P2P)中，钻研人员展现了交叉留意力层蕴含来自揭示文本的丰盛语义消息。这一发现可以经过在分散环节中交流源图像与目的图像之间的交叉留意力求来编辑图像。详细而言，罕用的两种基于文本疏导的交叉留意力控制战略是交叉留意力交流和交叉留意力细化。这两种方法确保了从目的揭示到源揭示的消息无缝流动，从而将隐空间变量图疏导到希冀的方向。

Patches Merging ：为了提高推理速度，自创了Token Merging的方法，将patch兼并技术嵌入到去噪模型中。这个方法的灵感来自于这样一个观察：在transformer架构中，触及到的patch数量清楚大于UNet。计算流程如下图4所示。关于一个特色图，咱们首先计算每个patch之间的相似度，而后将最相似的patch兼并，从而缩小由留意力机制处置的patch数量。经过留意力计算后，咱们会将patch拆分回来，以坚持模型下一层的输入大小。经过将patch兼并技术融入咱们的框架中，咱们旨在简化处置环节，提高全体效率，同时不扭转每一层的基本操作。

试验

成功细节

钻研者们评价了DiT4Edit编辑框架与六个先前基准模型（包括Pix2Pix-Zero、PnPInversion、SDEdit、IP2P、MasaCtrl和InfEdit）的品质体现差异，一切方法均经常使用官网开源代码成功。

如下图5所示，在512×512和1024×1024图像上对比了本文的打算。图5的第一行展现了本文的框架在编辑实在512×512图像时，能够生成与原始内容分歧的编辑图像，而现有方法理论会扭转原始图像的背景或目的细节。此外，图5的第二行和第三行展现了在大规模图像和恣意尺寸图像上的试验——这些义务是以前基于UNet的方法难以处置的。结果标明，本文提出的框架有效地处置了大图像中的格调和物体状态修正。相比之下，一些先进的基于UNet的方法，虽然能够启动编辑义务，但理论会造成背景和物体位置的清楚变动和损坏。此外，因为UNet结构的局限性，这些方法理论只能生成512×512大小的目的图像。这些发现强调了基于transformer的分散模型在大规模图像编辑中的渺小后劲。

定量比拟

为了启动定量评价，经常使用了三个目的：Fréchet Inception Distance (FID)、峰值信噪比（PSNR）和CLIP，以评价咱们模型与SOTA（最先进方法）在图像生成品质、背景坚持和文本对齐方面的功能差异。本文比拟了三种尺寸的图像：512×512、1024×1024 和1024×2048，结果详细列在下表1中。与Pix2Pix-Zero、PnPInversion、SDEdit、IP2P、MasaCtrl和InfEdit启动了功能比拟。须要留意的是，因为此前没有基于DiT的编辑框架，一切对比基准都基于UNet架构。试验结果标明，DiT4Edit编辑战略在图像生成品质、背景坚持和文本对齐方面优于SOTA方法。因为集成的transformer结构具有全局留意力才干，DiT4Edit框架在各种大小的编辑义务中体现出了弱小的鲁棒性。生成的图像不只显示出更高的品质，而且在背景和细节控制方面提供了更好的控制，坚持了与原始图像的分歧性。特意是在编辑大规模或恣意尺寸的图像时，DiT4Edit相较于其余方法展现了清楚的长处，充沛展现了transformer架构弱小的可裁减才干。同时，咱们的编辑框架具有更短的推理期间，与无反演编辑方法（InfEdit）相当。

消融试验

本文启动了系列消融钻研，旨在展现DPM-Solver反演和patch兼并的有效性。关于patch兼并的消融试验结果如前面图4和下表2所示。成功patch兼并后，虽然坚持了与未经常使用patch兼并时相当的编辑品质，但大尺寸图像的编辑期间清楚缩小。这标明，patch兼并可以清楚优化图像编辑框架的全体功能。此外，DPM-Solver和DDIM的消融试验结果如图7所示。在相反推理步数（T = 30）下比拟两种方法时，DPM-Solver在图像编辑品质方面一直优于DDIM。这标明本文驳回的DPM-Solver反演战略能够生成更优的潜在图像，从而在较少的步中取得更好的编辑成果。

论断

本文提出了DiT4Edit，这是首个基于分散transformer的图像编辑框架。与之前的UNet框架不同，DiT4Edit提供了更优的编辑品质，并允许多种尺寸的图像。经过应用DPM Solver反演、一致的留意力控制机制和patch兼并，DiT4Edit在512×512和1024×1024尺寸图像的编辑义务中逾越了UNet结构。特意是，DiT4Edit能够处置恣意尺寸的图像，如1024×2048，展现了transformer在全局留意力和可裁减性方面的长处。本文的钻研为基于DiT的图像编辑奠定了基础，并有助于进一步探求transformer结构在生成式AI中的后劲。

局限性 在试验中，观察到T5-tokenizer偶然会遇到词汇宰割疑问，这或者造成最终编辑环节中的失败。此外，咱们的模型与原始图像相比，或者会产生色彩不分歧的状况。更多的编辑失败案例请参考补充资料。

原文链接:

文章版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#LaMDA #Copilot #ChatGPT #文心一言 #Sora #混元 #Bard #4 #盘古 #OpenAI #AI #Agent #AIGC运行 #多模态 #悟道 #AIGC #云雀 #开源大模型 #紫东太初 #清言 #大模型 #孟子 #模型 #通义千问 #言犀 #GPT #日日新 #人工自动

多尺寸编辑品质更优 首个基于DiT的图像编辑框架！DiT4Edit 放弃UNet