组件可控共性化图像生成翻新框架！打破共性化图像生成局限！MagicTailor

文章链接：名目链接：

亮点直击

总结速览

处置的疑问

传统的文本到图像(T2I)分散模型在生成高品质图像方面有了清楚停顿，但仍难以精细控制特定的视觉概念。现有方法只管可以经过学习参考图像来复制给定的概念，但在集体组件的细粒度自定义方面存在局限性。这种细粒度的控制受限于语义污染（不须要的视觉元素会搅扰共性化概念）和语义不平衡（概念与组件之间的学习不平衡）两个重要应战。

提出的打算

为了处置这些疑问，提出了“组件可控共性化”的新义务，并设计了翻新框架MagicTailor。MagicTailor经过 灵活掩码退步（DM-Deg） 灵活搅扰不须要的视觉语义，同时经常使用 双流平衡（DS-Bal） 建设了平衡的学习形式，从而成功对目的视觉语义的精细控制。

运行的技术

到达的成果

经过宽泛的对比试验、消融剖析和性能剖析，MagicTailor在组件可控的共性化义务上体现优秀，展现出清楚的适用后劲，为更粗疏和富裕发明力的图像生成铺平了路线。

组件可控的共性化

组件可控共性化的应战

MagicTailorPipeline

MagicTailor 经常使用参考图像作为输入，经过低秩自顺应 (LoRA) 微调 T2I 分散模型，以学习目的概念和组件，从而能够生成将组件无缝集成到概念中的图像。

本文引入了灵活掩码退步（DM-Deg），这是一种灵活搅扰不须要的视觉语义的新技术。这种方法有助于克服模型对不关系视觉细节的敏理性，同时保管全体视觉高低文，从而有效减轻语义污染。

此外，驳回双流平衡（DS-Bal），一种旨在平衡视觉语义学习的双流学习范式，来处置语义不平衡的疑问。在线去噪 U-Net 口头样本最小-最大优化，而动量去噪 U-Net 运行选用性保管正则化，确保更虔诚的共性化。

算法总览

灵活mask退步

在此义务中，重要应战之一是语义污染，其中不须要的视觉语义或者被 T2I 模型感知，从而“污染”共性化概念。如图 2(a.i) 所示，目的概念（即人）或者会遭到目的组件的一切者（即眼睛）的严重搅扰，造成生成混合的人物。可怜的是，间接遮盖目的概念和组件以外的区域会破坏全体视觉高低文，从而造成过拟合和奇异的组合，如图 2(a.ii) 所示。因此，参考图像中不须要的视觉语义应当妥善处置。因此，咱们提出了灵活掩膜降解（Dynamic Masked Degradation，DM-Deg），旨在灵活扰动不须要的视觉语义（见图 3），以克服 T2I 模型对这些语义的感知，同时坚持全体视觉高低文（见图 2(a.iii)）。

双流平衡

在此义务中，另一个重要应战是语义不平衡，这源于目的概念与组件之间固有的视觉语义差异。普通而言，一个概念的视觉语义理论比组件更为丰盛（例如，人物与头发），而在某些状况下，组件的语义丰盛性或者大于概念（例如，便捷的塔与复杂的屋顶）。这种不平衡使得联结学习环节变得复杂，或者会适度强调概念或组件中的某一方，造成生成的不连接性（见图 5(a)）。为了处置这一应战，设计了双流平衡（Dual-Stream Balancing，DS-Bal），建设了一种在线和动量去噪 U-Net 的双流学习范式（见图 3），以平衡概念和组件的视觉语义学习，从而提高共性化的保真度（见图 5(b)）。

定性结果

展现了由 MagicTailor 生成的图像以及针对各个畛域的共性化的 SOTA 方法。 MagicTailor 总体上成功了良好的文本对齐、弱小的身份保真度和高生成品质。

定量结果

将 MagicTailor 与基于智能目的（CLIP-T、CLIP-I、DINO 和 DreamSim）和用户钻研（人类对文本对齐、身份保真度和生成品质的偏好）的 SOTA 共性化方法启动比拟。最佳结果以粗体标志。

MagicTailor 可以在这项具备应战性的义务中取得出色的性能。

论断

本文引入了组件可控共性化这一新义务，准许在共性化概念中准确定制各个组件。处置了使该义务特意艰巨的两个重要应战：语义污染（不须要的视觉元素破坏概念的完整性）和语义不平衡（造成视觉语义学习环节偏向）。为应答这些应战，提出了 MagicTailor 这一翻新框架，蕴含灵活掩码退步（DM-Deg）以缓解不须要的视觉语义影响，以及双流平衡（DS-Bal）以确保视觉组件的平衡学习。片面试验标明，MagicTailor不只在这一具备应战性的义务中树立了新的基准，还为宽泛的创意运行开拓了令人兴奋的或者性。展望未来，想象将该方法裁减至图像和视频生成的其余畛域，探求如何识别、控制和操控多档次视觉语义，以成功更复杂和富裕想象力的生成才干。

原文链接:

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#GPT #Copilot #视频生成 #悟道 #云雀 #模型 #日日新 #混元 #多模态 #4 #开源大模型 #清言 #通义千问 #紫东太初 #Agent #盘古 #AIGC运行 #AI #Bard #大模型 #ChatGPT #人工智能 #LaMDA #言犀 #孟子 #文心一言 #AIGC #Sora #OpenAI

组件可控共性化图像生成翻新框架！ 打破共性化图像生成局限！MagicTailor