文章链接:模型链接:在线Demo链接:
亮点直击 :
冷艳的成果先睹为快
总结速览
处置的疑问 :的分散模型(如Stable Diffusion)在视觉生成上取得了严重停顿,但其生成范式与自回归言语模型有实质区别,造成一致言语-视觉模型的开发变得复杂。此外,像LlamaGen这样基于团圆VQVAE tokens启动自回归图像生成的方法效率低下,处置少量tokens须要较长期间。
提出的打算 :本文提出了Meissonic,一种优化非自回归掩码图像建模(MIM)的文本到图像生成模型。经过驳回片面的架构翻新、先进的位置编码战略以及优化的采样条件,Meissonic清楚提高了MIM的性能和效率。
运行的技术 :
到达的成果 :Meissonic模型在生成高品质、高分辨率图像时,不只到达了SDXL等现有分散模型的水平,甚至在某些方面有所逾越。模型能够生成1024×1024分辨率的图像,试验结果证实其在文本到图像分解畛域的后劲。
方法
动机
近期文本生成图像的打破关键得益于分散模型,如Stable Diffusion XL,在图像品质、细节和概念分歧性方面设立了理想规范。但是,这些模型与自回归言语模型的上班模式清楚不同,造成在视觉和言语义务上成功一致方法面临应战。这种差异不只使这些模态的整合变得复杂,还凸显了须要翻新的方法来弥合它们之间的差距。特意是,非自回归的 Masked Image Modeling(MIM)技术,例如MaskGIT和MUSE,展现了高效图像生成的后劲。虽然MIM方法具有必定的前景,它们仍面临两个关键限度:
(a) 分辨率限度 。的MIM方法只能生成最大分辨率为512×512像素的图像。这一限度阻碍了它们的宽泛运行和进一步开展,尤其是在文本生成图像的社区中,1024×1024分辨率逐渐成为规范。
(b) 性能差距 。现有的MIM技术尚未到达上游分散模型如SDXL所表现的性能水平,特意是在图像品质、复杂细节和概念表白等关键畛域表现不佳,而这些对实践运行至关关键。
这些应战须要探求新的方法。本文的目的是使MIM能够高效生成高分辨率图像(如1024×1024),同时增加与顶级分散模型的差距,并确保其计算效率适宜消费级配件。经过Meissonic,宿愿推进MIM方法的边界,并将其带到文本生成图像畛域的前沿。
模型架构
下图2展现了Meissonic模型的全体结构。经过一个集成框架促成高效的高性能文本生成图像,该框架包括一个CLIP文本编码器、一个向量量化(VQ)图像编码器和解码器以及一个多模态Transformer主干网。下图2展现了模型的全体结构。
灵敏且高效的文本编码器 。与经常使用T5-XXL或LLaMa等大型言语模型编码器不同,本模型经常使用来自最先进的CLIP模型的繁多文本编码器,具有1024的潜在维度,并启动微调以优化T2I(文本生成图像)性能。虽然这一选择或者限度模型齐全了解较长文本揭示的才干,但观察标明,扫除像T5这样的大规模文本编码器并不会降落图像的视觉品质。此外,这种方法清楚增加了GPU内存需求和计算老本。值得留意的是,离线提取T5特色大概须要11倍的处置期间和6倍的存储空间,而驳回CLIP文本编码器进一步表现了本文设计的高效性。
多模态Transformer主干网络用于 Masked Image Modeling 。本文的Transformer架构基于多模态Transformer框架,结合了采样参数r来编码采样参数,并经常使用Rotary Position Embeddings(RoPE)启动空间消息编码。引入了特色紧缩层,以高效处置蕴含少量团圆标志的高分辨率生成义务。这些层将嵌入特色从64×64紧缩到32×32后再经过Transformer处置,随后经过特色解紧缩层复原到64×64,从而减轻计算累赘。为增强训练的稳固性并减轻NaN损失疑问,遵照LLaMa的训练战略,在散布式训练环节中成功梯度裁剪和审核点重载,并将QK-Norm层集成到架构中。
多样化微条件 。为了增强生成性能,引入了其余条件,例如原始图像分辨率、裁剪坐标和人类偏好评分。这些条件被转换为正弦嵌入,并作为额外的通道与文本编码器的最终池化暗藏形态衔接。
Masking战略 。驳回Chang et al.(2023)提出的方法,经常使用带余弦调度的可变masking比率。从一个截断的反余弦散布中随机采样遮掩比率,其密度函数如下:
多模态Transformer用于 Masked Image Modeling
Meissonic驳回多模态Transformer作为其基础架构,并经过翻新定制模块来应答高分辨率 Masked Image Modeling中的共同应战。为 Masked Image Modeling引入了以下几项专门设计:
训练细节
Meissonic 的构建经常使用了 CLIP-ViT-H-142 文本编码器 、 预训练的 VQ 图像编码器和解码器 ,以及定制的 基于 Transformer 的主干网络 。模型驳回 无分类器指点(CFG) 和交叉熵损失启动训练。训练环节分为三个分辨率阶段,应用公共数据集和整顿的数据。
训练阶段:
训练环节具有资源效率。与 Stable Diffusion 相比,Meissonic 的训练资源效率清楚更高,约需 48 个 H100 GPU 天 ,标明可以以清楚降落的计算老本开收回具有消费才干的图像分解基础模型。关于这一比拟的更多细节见下表 1。
逐渐高效的训练阶段分解
本文的方法系统地将训练环节分解为四个精心设计的阶段,能够逐渐构建和完善模型的生成才干。这些阶段结合对特定组件的准确增强,有助于分解品质的继续改善。鉴于SDXL未披露其训练数据的详细消息,咱们的阅历对指点社区构建SDXL级别的文本到图像模型尤为关键。
第一阶段:从少量数据中了解基本概念 先前的钻研标明,LAION 的原始题目关于训练文本到图像模型是不够的,理论须要 MLLMs(如 LLaVA)提供的题目精炼。但是,这一处置打算计算资源需求高且耗时。虽然一些钻研应用了少量注释的 SA-10M数据集,但发现,SA-10M 并没有片面笼罩基本概念,尤其是关于人脸的概念。因此,驳回了一种平衡战略,应用原始高品质 LAION 数据启动基础概念学习,经常使用较低的分辨率以提高效率。详细而言,咱们经过过滤掉美学评分低于 4.5、带水印概率超越 50% 的图像,以及 Kolors 中列出的其余规范,精心筹划了去重后的 LAION-2B 数据集。这一粗疏选用发生了大概 2 亿张图像,在这一初始阶段以的分辨率用于训练。
第二阶段:经常使用长揭示对齐文本与图像 在第一阶段,本文的方法并未依赖高品质的图像-文本配对数据。因此,在第二阶段,咱们专一于提高模型解读长而详细的揭示的才干。咱们对初始 LAION 数据集启动了更严厉的过滤,仅保管美学评分高于 8 的图像,以及 Kolors(2024)中列出的其余规范。此外,本文还归入了 120 万个分解图像-文本对,配有超越 50 字的精炼题目,这些数据关键来自地下可用的高品质分解数据集,并补充了咱们外部 600 万数据集中其余高品质图像。此汇总结果大概构成了 1000 万个图像-文本对。值得留意的是,坚持模型架构不变,同时将训练分辨率提高至,使模型能够捕捉到更复杂的图像细节。观察到,模型捕捉形象概念和准确照应复杂揭示的才干清楚优化,包括多样的格调和空想角色。
第三阶段:把握特色紧缩以成功高分辨率生成 高分辨率生成依然是 MIM 中的一个未被充沛探求的畛域。与依赖外部超分辨率(SR)模块的方法(如 MUSE 或 DeepFloyd-XL )不同,展现了经过特色紧缩成功高效的生成是可行的。经过引入特色紧缩层,咱们成功了从到生成的无缝过渡,且计算老本极低。在这一阶段,咱们进一步经过基于分辨率和美学评分启动过滤,选用了约 10 万个高品质、高分辨率的图像-文本对,这些数据来自第二阶段经常使用的 LAION 子集。结合残余的高品质数据,训练样本总数约为 600 万个,以分辨率启动训练。
第四阶段:细化高分辨率美学图像生成 在最后阶段,咱们经常使用小学习率对模型启动微调,而不解冻文本编码器,并将人类偏好分数作为宏观条件。这可以清楚优化模型在高分辨率图像生成中的表现。这一针对性的调整清楚增强了模型生成高分辨率图像的才干,同时提高了多样性。训练数据与第三阶段相反。
结果
定量比拟
传统的图像生成模型评价目的,如 FID 和 CLIP Score,对视觉美学的关系性有限,正如 Podell et al.(2024)、Chen et al.(2024)、Kolors(2024)和 Sehwag et al.(2024)所强调的。因此,经常使用人类偏好分数版本 2(HPSv2)、GenEval和多维人类偏好分数(MPS)来报告本文模型的性能,详细数据见下表 2、3 和 6。
在让 Meissonic 愈加易于群众访问的环节中,本文优化了模型至 10 亿个参数,确保其能够高效运转于 8GB VRAM 上,使得推理和微调都变得繁难。下图 4 提供了不同推理批次大小与 SDXL 之间的 GPU 内存消耗比拟剖析。下图 5 详细说明了每一步的推理期间。
上图 5 展现了 Meissonic 在生成文本驱动格调艺术图像方面的才干。下图3展现了图像品质和文本-图像对齐的定性比拟。
为了补充这些剖析,经过 K-Sort Arena 启动人类评价,并经常使用 GPT-4o 评价 Meissonic 与其余模型之间的性能,见上图 4。
一切图表显示,Meissonic 在人类性能和文本对齐方面与 DALL-E 2 和 SDXL 达成了具有竞争力的表现,同时展现了其效率。
zero-shot 图像编辑
关于图像编辑义务,经常使用 EMU-Edit 数据集对 Meissonic 启动基准测试,该数据集包括七种不同的操作:背景更改、综合图像更改、格调更改、对象移除、对象增加、部分修正,以及色彩/纹理更改。结果见下表 7。
此外,外部图像编辑数据集中的示例,包括下图 6 中的掩码疏导编辑和下图 7 中的无mask编辑,进一步展现了 Meissonic 的多性能性。
值得留意的是,Meissonic 在没有针对图像编辑特定数据或指令数据集启动任何训练或微调的状况下,依然到达了这样的表现。
论断与影响
本文经过引入多个关键翻新清楚推进了用于文本到图像(T2I)分解的masked图像建模(MIM)。这些翻新包括:结合多模态和单模态层的Transformer架构、先进的位置消息编码战略,以及作为采样条件的自顺应masked率。这些翻新,加上高品质的精选训练数据、渐进且高效的训练阶段分解、微条件和特色紧缩层,共同培育了 Meissonic,这是一款领有 10 亿参数的模型,能够在高分辨率和好看的图像生成上逾越更大的分散模型,同时坚持在消费级 GPU 上的可访问性。评价标明,Meissonic 在性能和效率上均表现优越,标志着朝着可失掉且高效的高分辨率非自回归 MIM T2I 模型迈出了关键一步。
更宽泛的影响 :近期,离线文本到图像运行程序已在移动设施上发生,例如 Google Pixel 9 的 Pixel Studio 和 Apple iPhone 16 的 Image Playground。这些翻新反映了增强用户体验和隐衷的日益趋向。作为一款开创性的资源高效基础模型,Meissonic 代表了该畛域的关键停顿,提供了先进的图像分解才干,并强调用户隐衷和离线性能。这一开展不只赋予用户创意工具,同时确保了敏感数据的安保,标志着移动成像技术的清楚跃进。
原文链接: