文章链接:工程链接:
当天和大家一同窗习的是一种名为AnyFit的新型虚构试穿系统,旨在处置现有技术在处置不同场景和服饰组合时发生的衣物格调不婚配和品质降低疑问。经过引入轻量级、可裁减的Hydra Block操作符和并行留意力机制,AnyFit能够有效地将多种服饰特色注入主网络,成功高保真度的试穿效果。此外,经过火解多个模型的残差和实施mask区域增强战略,AnyFit清楚提高了模型在实在环球场景中的鲁棒性和表白才干。试验结果标明,AnyFit在高清基准测试和实践数据上均逾越了现有技术,能够生成细节丰盛且真切的试穿图像。
关键奉献
确立AnyFit为一种陈腐的虚构试衣(VTON)范式,能够熟练应答各种场景下恣意服装组合的应战,如下图1所示。AnyFit关键由两个同构的U-Net组成,即HydraNet和MainNet。前者担任提取细粒度的服装特色,然后者担任生成试穿效果。
可裁减性 :AnyFit的一个清楚特点是翻新引入了Hydra编码块,仅在共享的HydraNet中并行化留意力矩阵,从而使每参与一个分支参数量仅参与8%,即可轻松裁减就任何数量的条件。这种并行化提案基于以下洞察:只要自留意力层关于隐式变形至关关键,其他组件关键作为通用特色提取器。钻研者们进一步发明了Hydra融合块,以无缝整合Hydra编码的特色到MainNet中,并经过位置嵌入区分来自不同起源的编码。须要留意的是,当仅限于繁多条件时,ReferenceNet或GarmentNet可以视为HydraNet的特定实例。
持重性 :观察标明,现有虚构试穿(VTON)上班生成的图像在持重性和品质上清楚低于原始稳固分散体现。受社区探讨的启示,提出了先验模型演变战略。这种翻新方法触及在模型家族(例如,一系列微调版本的SDXL)内兼并参数变动,使得基础模型的多种才干能够独立演变。在训练前加大模型固有后劲,这种战略被证明为直观且高效的方法,特意是当面对双U-Net训练老本清楚参与的疑问时,这在之前的钻研中被疏忽。此外,引入了自顺应mask增强,以进一步优化服装的合身度。它须要在训练阶段延伸无解析mask区域的长度,使模型能够自主了解服装的全体状态,从而解脱之前依赖于服装mask揭示的局限。在推理环节中,依据目的服装的纵横比调整mask区域的状态,从而清楚优化试穿效果,特意是关于长款服装(如风衣)。
方法
模型概述
可裁减性 :为了保管服装的细节,并支持单件和多件服装的VTON,驳回了一个镜像MainNet的HydraNet来编码服装消息。它与MainNet共享相反的权重初始化,并依据条件数量并行化留意力矩阵,创立不同条件编码的Hydra编码块。
持重性 :在训练环节中,观察到mask 消息走漏和品质降高等疑问。为了处置这些疑问,区分驳回了自顺应mask 增强和先验模型演变,这清楚增强了模型在不同场景下的持重性,且老本效益高且便捷易行。
HydraNet用于多条件VTON
。受在人像编辑畛域成功通常的启示,本文引入了一个与关键生成网络(MainNet)同构的服装编码网络,以准确保管服装的细节。在处置多服装VTON时,一个间接的方法或者触及复制多个服装编码网络以治理不同的条件。但是,这种方法会造成参数数量清楚参与,使其计算量过于宏大。试验标明,关于具备相似内容的条件(如不同类型的服装),自留意模块在隐蜕变变形和将服装对齐到须要修补的位置方面起着至关关键的作用。相反,其他网络结构通常担任普通特色提取,可以在不同条件编码分支之间共享,而不会影响模型的功能。
经过模型演变和mask增强成功持重的VTON
自顺应mask增强 。以前的上班在跨类别试穿场景中通常体现出有限的持重性,造成渲染的服装样式不准确,如下图6和图9所示。这关键是由于依赖于从服装解析中得出的有关mask ,这在训练时期往往会暴露服装状态的边缘。这种暴露或者造成生成的服装简直齐全笼罩有关mask区域。针对这些局限性,驳回了一种直观且有效的方法,即自顺应mask增强战略,大大增强了模型在跨类别试穿方面的持重性。该战略关键包含训练时期的mask增强和推理时期的自顺应延伸。
试验
定性结果
单服装试穿 。图3和图4在VITON-HD、更具应战性的专有数据和野外数据上提供了AnyFit与基线方法的定性比拟,涵盖了开明服装和分层渲染场景。为了与基线方法启动偏心比拟,包含了在VITON-HD上训练的AnyFit的结果。AnyFit在保管复杂图案细节方面体现杰出,这归功于HydraNet和IP-Adapter之间的有效单干。它还在语义级别上坚持了正确的服装轮廓。这标明,经过mask 增强,AnyFit增强了对服装原始状态的回想,而其他受mask 影响的模型往往会生成不正确的外观。先前的模型演变进一步增强了服装的纹理示意。值得留意的是,当在专有数据集上训练时,AnyFit会依据姿态智能填充内衣或解开衣物,而在VITON-HD上训练的版本则因不足此类训练数据而不可做到。
多服装试穿 。下图5提供了经常使用编译的DressCode-multiple数据集启动多服装试穿的定性比拟。首先,AnyFit展现了高保真的布料保管。由于位于不同条件分支中的共同和集体的Hydra-Blocks,AnyFit准确地描述了上衣和下衣之间的分界限,并展现了衔接处的正当过渡。相比之下,VTON-concat在串联后处置相对服装尺寸时处置不当,造成服装失真和含糊。与此同时,IDM-2Stage在高低衣交接处面临着伪影,由于在试穿一个服装时,它会掩盖另一个服装的局部。值得留意的是,虽然训练时一个服装出现为平铺图像,另一个服装为从人物图像裁剪的歪曲布料,但在推理时,AnyFit在面对两种都作为平铺图像出现的服装时依然体现杰出。
定量结果
如下表1、2、3所示,在VITON-HD、DressCode、专有数据集和DressCode-multiple上启动了宽泛的试验,结果分歧标明AnyFit清楚优于一切基线方法。这证明了AnyFit在单件服装和多件服装义务中在各种场景下提供优越的试穿品质的才干。此外,留意到AnyFit在未配对设置下在FID和KID目的方面显示出清楚改善,展现了本文模型在跨类别试穿中的鲁棒性。
消融钻研
Hydra Blocks 。为验证本文提出的Hydra Blocks的有效性,间接经常使用一个条件化的繁多HydraNet作为基线“w/o Hydra Block”,实践上退步为ReferenceNet,同时编码顶部和底部服装条件,然后将它们衔接到MainNet中。如下表4、图7和10所示,不足Hydra Block的模型往往在上衣和下衣交接处发生伪影。这些模型还经常准许一个服装的特色影响另一个,造成不正确的服装格调。但是,引入Hydra Block后,AnyFit一直展现出更稳固的结果。
Prior Model Evolution 。在下图12和6(a)中定性展现了Prior Model Evolution的效果。SDXL-evolved模型清楚缩小了伪影,并清楚增强了鲁棒性,而没有Prior Model Evolution的输入通常具备适度饱和的色彩,以及与背景不协调的光照和阴影。模型才干的逐渐增强在图6(c)中可视化。还在图7和表4中从阅历和定量上验证了Prior Model Evolution战略的有效性。经过增强模型的初始才干,Prior Model Evolution缩小了学习的难度,并清楚优化了服装装配才干和标记保真度。
Adaptive Mask Boost 。在上图6(b)和下图9中图示展现了先前方法中发现的消息暴露和mask 依赖的疑问。在表4和图9中阅历和定量上验证了Adaptive Mask Boost战略的有效性。该战略清楚增强了模型对不同服装类别的鲁棒性,使其能够自主确定适当的服装长度,而不是依赖于mask 。此外,在推理环节中手动调整了长宽比σ,显示了自顺应延伸的踊跃影响。
论断
AnyFit,这是一个实用于任何场景下恣意服装组合的陈腐而弱小的VTON pipeline,为成功真切的试穿效果迈出了关键性的一步。为支持多件服装试穿,AnyFit构建了具备轻量级和可裁减并行化留意力的HydraNet,促成了多件服装的特色注入。经过在实在场景中观察到的伪影,经过火解多模型的残差以及实施mask区域增强战略来优化其后劲。对高分辨率基准和实在数据的片面试验标明,AnyFit在各方面清楚逾越了一切基线方法。
更宽泛的影响
随着生成图像的才干,AnyFit或者被用于违犯常识产权或隐衷规范的不当目的。因此,基于这些危险,剧烈主张审慎经常使用这项技术。
原文链接: