文章链接:名目链接:
亮点直击
总结速览
处置的疑问
传统的文本到图像(T2I)分散模型在生成高品质图像方面有了清楚停顿,但仍难以精细控制特定的视觉概念。现有方法只管可以经过学习参考图像来复制给定的概念,但在集体组件的细粒度自定义方面存在局限性。这种细粒度的控制受限于语义污染(不须要的视觉元素会搅扰共性化概念)和语义不平衡(概念与组件之间的学习不平衡)两个重要应战。
提出的打算
为了处置这些疑问,提出了“组件可控共性化”的新义务,并设计了翻新框架MagicTailor。MagicTailor经过 灵活掩码退步(DM-Deg) 灵活搅扰不须要的视觉语义,同时经常使用 双流平衡(DS-Bal) 建设了平衡的学习形式,从而成功对目的视觉语义的精细控制。
运行的技术
到达的成果
经过宽泛的对比试验、消融剖析和性能剖析,MagicTailor在组件可控的共性化义务上体现优秀,展现出清楚的适用后劲,为更粗疏和富裕发明力的图像生成铺平了路线。
组件可控的共性化
组件可控共性化的应战
MagicTailorPipeline
MagicTailor 经常使用参考图像作为输入,经过低秩自顺应 (LoRA) 微调 T2I 分散模型,以学习目的概念和组件,从而能够生成将组件无缝集成到概念中的图像。
本文引入了灵活掩码退步(DM-Deg),这是一种灵活搅扰不须要的视觉语义的新技术。这种方法有助于克服模型对不关系视觉细节的敏理性,同时保管全体视觉高低文,从而有效减轻语义污染。
此外,驳回双流平衡(DS-Bal),一种旨在平衡视觉语义学习的双流学习范式,来处置语义不平衡的疑问。在线去噪 U-Net 口头样本最小-最大优化,而动量去噪 U-Net 运行选用性保管正则化,确保更虔诚的共性化。
算法总览
灵活mask退步
在此义务中,重要应战之一是语义污染,其中不须要的视觉语义或者被 T2I 模型感知,从而“污染”共性化概念。如图 2(a.i) 所示,目的概念(即人)或者会遭到目的组件的一切者(即眼睛)的严重搅扰,造成生成混合的人物。可怜的是,间接遮盖目的概念和组件以外的区域会破坏全体视觉高低文,从而造成过拟合和奇异的组合,如图 2(a.ii) 所示。因此,参考图像中不须要的视觉语义应当妥善处置。因此,咱们提出了灵活掩膜降解(Dynamic Masked Degradation,DM-Deg),旨在灵活扰动不须要的视觉语义(见图 3),以克服 T2I 模型对这些语义的感知,同时坚持全体视觉高低文(见图 2(a.iii))。
双流平衡
在此义务中,另一个重要应战是语义不平衡,这源于目的概念与组件之间固有的视觉语义差异。普通而言,一个概念的视觉语义理论比组件更为丰盛(例如,人物与头发),而在某些状况下,组件的语义丰盛性或者大于概念(例如,便捷的塔与复杂的屋顶)。这种不平衡使得联结学习环节变得复杂,或者会适度强调概念或组件中的某一方,造成生成的不连接性(见图 5(a))。为了处置这一应战,设计了双流平衡(Dual-Stream Balancing,DS-Bal),建设了一种在线和动量去噪 U-Net 的双流学习范式(见图 3),以平衡概念和组件的视觉语义学习,从而提高共性化的保真度(见图 5(b))。
定性结果
展现了由 MagicTailor 生成的图像以及针对各个畛域的共性化的 SOTA 方法。 MagicTailor 总体上成功了良好的文本对齐、弱小的身份保真度和高生成品质。
定量结果
将 MagicTailor 与基于智能目的(CLIP-T、CLIP-I、DINO 和 DreamSim)和用户钻研(人类对文本对齐、身份保真度和生成品质的偏好)的 SOTA 共性化方法启动比拟。最佳结果以粗体标志。
MagicTailor 可以在这项具备应战性的义务中取得出色的性能。
论断
本文引入了组件可控共性化这一新义务,准许在共性化概念中准确定制各个组件。处置了使该义务特意艰巨的两个重要应战:语义污染(不须要的视觉元素破坏概念的完整性)和语义不平衡(造成视觉语义学习环节偏向)。为应答这些应战,提出了 MagicTailor 这一翻新框架,蕴含灵活掩码退步(DM-Deg)以缓解不须要的视觉语义影响,以及双流平衡(DS-Bal)以确保视觉组件的平衡学习。片面试验标明,MagicTailor不只在这一具备应战性的义务中树立了新的基准,还为宽泛的创意运行开拓了令人兴奋的或者性。展望未来,想象将该方法裁减至图像和视频生成的其余畛域,探求如何识别、控制和操控多档次视觉语义,以成功更复杂和富裕想象力的生成才干。
原文链接: