文章:数据集:
文本到图像生成曾经取得了令人惊讶的成绩,但准确的空间可控性和prompt的保真度依然是极具应战性的。通常经过繁琐的prompt工程、场景规划条件或图像编辑技术来处置这一限度,这些技术通常须要手绘mask。但是,现有的上班往往难以应用场景的人造实例级组合性,由于栅格化的 RGB 输入图像通常是平面的。
为了处置这一应战,本文引见了MuLAn:一个陈腐的数据集,蕴含超越 44K 个RGB图像的MUlti-Layer ANnotations,作为多层、实例级别的RGBA分解,并蕴含超越100K个实例图像。为了构建MuLAn,本文开发了一个无需训练的pipeline,将单目RGB图像分解为蕴含背景和孤立实例的RGBA层堆栈。经过经常使用预训练的通用模型,并开发了三个模块:图像分解用于实例发现和提取,实例补全用于重建被遮挡区域,以及图像重组。经常使用pipeline创立了MuLAn-COCO和MuLAn-LAION数据集,这些数据集蕴含各种格调、构图和复杂度的图像分解。经过MuLAn,提供了第一个提供实例分解和遮挡消息的真切资源,为高品质图像开拓了新的文本到图像生成AI钻研路径。经过这一动作,旨在激励开发新型的生成和编辑技术,特意是层级处置方案。
图像分解可视化展现
引见
大规模生成diffusion model 如今能够依据文本prompt词形容生成高品质的图像。这些模型通常在蕴含多种格调和内容的标注RGB图像的大型数据集上启动训练。虽然这些技术曾经极大地推进了文本疏导图像生成畛域的开展,但图像外观和形成(例如部分图像属性、可计数性)的准确可控性依然是一个应战。Prompt指令经常不足准确性或被曲解(例如计数失误、空间位置失误、概念混杂、未能参与或删除实例),因此须要复杂的prompt工程来取得希冀的结果。甚至稍微扭转prompt都可以经过微调生成的图像而造成清楚不同的样本,须要进一步的致力,才干失掉高品质的所需图像。
为了处置这些限度,一些致力思考了额外的条件,例如姿态、宰割图、边缘图以及基于模型的图像编辑战略。前者改善了空间可控性,但仍须要繁琐的prompt工程来调整图像内容;然后者通常无法了解空间指令,因此难以准确修正所需的图像区域,而不影响其他区域或引入不用要的外形学变动。
本文推测一个关键阻碍是典型的栅格化RGB图像通常具备平整的个性,无法充沛应用场景内容的组成性质。同样,将实例和背景隔离在独自的RGBA层上具备后劲,可以准确控制图像的组合,由于在独自的层上处置实例可以保障内容的保管。这可以简化图像操作义务,例如调整大小、移动或参与/删除元素,而这些义务关于的编辑方法依然是一个应战。
Collage Diffusion 和 Text2Layer 曾经显示出多层可组合图像生成的好处的初步证据。Collage Diffusion 经过组合恣意输入层来控制图像规划,例如经过采样可组合的前景和背景层,而 Text2Layer 探求将图像分解为两个独自的层(分组前景实例和背景)。虽然对无需训练的分层和复合生成越来越感兴味,但在这个有宿愿的方向上启动钻研开发的关键阻碍是不足地下可用的真切的多层数据,以训练和评价生成和编辑方法。
在这项上班中,本文旨在填补这一空白,引入了一个名为MuLAN的新型数据集,其中蕴含人造图像的多层RGBA分解标注(请参见下图中的RGBA分解示用意)。为了成功这一目的,本文设计了一个图像处置pipeline,它将单个RGB图像作为输入,并输入其背景和单个对象实例的多层RGBA分解。本文提出应用大规模预训练的基础模型来构建一个弱小的通用pipeline,而不发生额外的模型训练老本。
本文将分解环节分为三个子模块,重点放在:
每个子模块都经过精心设计,以确保通用实用性、高实例和背景重建品质,并确保输入图像与组合的RGBA堆栈之间的最大分歧性。本文经常使用本文的新型pipeline处置了来自COCO 和 LAION Aesthetics 6.5 数据集的图像,为超越44,000张图像和超越100,000个实例生成了多层实例标注。生成的分解示例如下图所示:每个分解的图像包括一个背景层,提取的实例是具备透明度 alpha 层的独立RGBA图像。可以从RGBA堆栈中删除实例,发生几种两边表示方式;其中经过修补成功结果遮挡的区域。
本文颁布MuLAn的目的是经过提供片面的场景分解消息和场景实例分歧性,促成生成图像作为RGBA堆栈的技术的开发和训练。本文旨在促成寻求以下钻研的停顿:(i) 提高生成图像结构的可控性,以及 (ii) 经过准确的逐层实例编辑来改善部分图像修副品质。本文经过两个运行案例展现了本数据集的潜在成效和逐层表示的长处:1) RGBA图像生成和 2) 实例参与图像编辑。总体上,本文的关键奉献是:
关系上班
Amodal completion 旨在智能预计部分遮挡对象的实在结构和外观。这项具备应战性的义务曾经失掉了深化钻研,通常建设在在分解或富裕标注的数据集上训练的模型基础之上。这些数据集通常包括蕴含遮挡区域的实例宰割mask。此外,与MuLAn最凑近的数据集包括遮挡区域的外观消息和实例排序消息。本文在下表中提供了这些数据集与本文的具体比拟。生成实在的遮挡标注的期间和老本要求限度了先前钻研仅限于分解、小型或高度专业化的数据集,如室内场景、人类、车辆和目的以及人类等。相比之下,MuLAn包括了各种场景、格调(包括真切的实在图像)、分辨率和目的类型的图像,并且建设在盛行数据集之上,以支持生成式 AI 钻研。本文强调本文经常使用实在图像相关于现有数据集对遮挡率的影响,其中分解场景被设计得有很高的遮挡率。
RGBA图像分解 须要在独自的透明层上识别和隔离图像实例,并预计遮挡区域的外形和外观。这项具备应战性的义务通常须要经常使用额外的输入(超出单个RGB图像),例如不齐全遮挡的宰割、平面图像和期间视频帧。后者极大地促成了分解义务,由于视频帧可以提供缺失的遮挡消息。最近,基于层的生成建模受益于初步探求。
Text2Layer 将人造图像分解为两个层的RGBA分解。图像被分解为背景和清楚的前景层,其中背景经常使用无prompt的最先进的diffusion model启动修补。与本文的方法相比,这种方法的关键限度在于两层分解:一实际例都提取在同一个前景层中,这严重不足本文所需的实例分解的灵敏性。本文的目的是独自分解每个实例,这带来了额外的应战,照实例排序、实例修补和不齐全遮挡补全。与本文的分解目的相邻,PCNet 学习预测实例排序、不齐全遮挡mask和对象补全。但是,该方法的实用性受限于前述的不齐全遮挡成功数据集的限度。据本文所知,本文的分解流程是惟一能够分解单目RGB图像的通用技术。
与本文的上班相反相成的是一种用于diffusion model 的图像拼贴战略——Collage Diffusion,它具备相似的实例级模块化目的。虽然本文的目的是从图像中提取实例,但他们的方法旨在将单个实例组装成一个同质的复合图像。这个先前上班的一个限度触及到在拼贴实例的外观坚持和复合图像的同质性之间取得平衡的应战,这可以被以为是非平庸的,并且随着实例数量的参与而变得愈加艰巨。
图像分解pipeline
本文的流程概述如下图所示,可以在补充资料中找到进一步的具体示用意,它显示了一切组件的实例化。
图像分解模块
本文的分解模块旨在提取并隔离图像中的一实际例。本文首先经常使用目的检测和宰割模型识别和宰割实例。与此同时,本文依托深度预计和遮挡排序模型构建相对遮挡图,并建设实例的提取、修补和从新组装顺序。
目的检测 。准确地检测图像中的一切关系实例是本文的pipeline的第一步。为了成功良好的品质分解,本文必定能够检测和分别场景中的一实际例。为此,本文应用了视觉言语目的检测技术,它输入要检测的类别列表以及输入图像。这样的模型具备吸引力,由于它们可以轻松成功开明集检测,象征着本文不限于特定数据的预先存在的类别集。本文经常使用了detCLIPv2,这是一个具备以下特点的最先进的模型:它能够应用类别定义(而不只仅是类别称号)来提高检测准确性。
本文精心构建了文本输入(类别列表),以确保从图像中检测和提取一切所需的类别。本文经常使用了来自THINGS 数据库的概念列表,并手动更新和简化它,以取得更通用的类别称号(例如,兼并船型、饮料、坚果等),并删除同音词和本文不想提取的概念(例如,无法移动的目的、服装、螺栓和铰链)。本文强调,这个列表形成了pipeline的一个输入,可以轻松地定制要检测的实例。除此之外,本文还经常使用了WordNet 数据库的定义,以识别图像中的一切关系实例。pipeline的这一步输入了一系列带有相应类别称号的边界框。
宰割 。本文的下一步是准确宰割检测到的实例。为了处置少量的类别、畛域和图像品质,本文寻求应用一个弱小的通用宰割模型。其中一个这样的模型是SAM ,它曾经经过了所需的多样性和规模的训练,在少量畛域中取得了良好的持重性和可转移性。应用边界框作为宰割预测的基础的才干,使得这类模型成为与本文的 detCLIPv2 检测器结合的低劣选用。
深度预计 。了解图像中实例的相对位置关于成功本文的RGBA分解目的至关关键。深度预计提供了关键消息,批示了拍摄时相机到目的的距离。本文经常使用 MiDaS 模型,选用它是由于它的持重性:它在12个不同的数据集上启动了训练,使其在不同类型的场景和图像品质下都能牢靠地上班。一旦计算成功,本文将深度图分红多个宽度为250的相对深度单元的box,以便启动跨实例的比拟。
实例提取 。本文将实例提取定义为将二进制mask运行到完整图像上,以将检测到的实例与图像的其他部分隔退进去。本文驳回一系列战略来增强这一关键步骤的持重性。首先,本文经过基于它们的边界框堆叠来对实例启动聚类,预计一个原始顺序,并经常使用边界框大小敌对均深度值(在宰割mask内)来对它们启动排序。其次,本文经常使用本文的原始顺序来强迫口头不相交的实例宰割mask,经过将后续实例的提取区域扫除在宰割mask之外。最后,假设实例的最大连通重量小于20像素或占整个图像的0.1%,则不提取该实例。
实例排序 。为了最大化实例补全的品质,经常使用原始图像的高低文消息对遮挡区域启动修补是必要的。因此,建设准确的实例补全方案关于逐渐丰盛图像高低文而不遮挡关系区域至关关键。本文经过以下三个步骤生成实例排序,依赖于本文在分解步骤中失掉的深度排序和遮挡消息。首先,依据它们的深度消息对实例启动排序,从最远到最近(依据实例的平均深度值)。这可以经过经常使用实例深度图轻松成功:经过计算节点出度,即退出节点的有向边的数量,即在本文的节点前面的实例的数量。其次,本文依托本文的遮挡图来优化本文的排序:假设实例A遮挡实例B,则实例B将系统地在实例A之前排序。最后,相互遮挡的实例依据它们的最大深度值从新排序。实例排序算法的具体消息在原文补充资料中提供。
实例补全模块
在实例补全之前,本文已成功地从背景图像中检测、隔离和排序了一实际例。但还存在一个关键应战:对每个图像层li(包括背景)独自重建遮挡区域,以便移除或暗藏任何图层都能浮现出遮挡区域。由于本文正在分解人造图像,这些消息并不对本文可见。本文依托最先进的生成模型,应用图像补全技术从现有高低文中构想这些遮挡区域。
基于 Diffusion model 的图像修补技术相比传统的图像修补技术曾经树立了新的规范,由于它们不只应用了图像内容,还应用了学习到的图像先验和文本条件。即使如此,本文的设置也存在着共同的艰巨:
图像修补环节 。本文的图像修补环节概述如下图所示。给定预约义的实例顺序,本文迭代地修补一个实例的遮挡区域,从背景图像开局,直到最近的实例。关于给定的实例,本文的图像修补环节如下启动:首先,本文应用遮挡顺序消息和遮挡实例的宰割mask来预计一个修补mask。其次,本文经过将不完整的实例从新整合到两边背景图像中来构建一个高低文修补图像。这个背景图像蕴含了在先前迭代中处置的已修补实例。第三,应用最先进的修补生成模型和智能生成的形容作为prompt,对实例启动修补。第四,本文经常使用本文的宰割模型和遮挡宰割mask来从新提取已成功的实例,有效地失掉完整的实例图像,这将成为本文多层表示的一部分。最后,本文经过将新修补的实例整合到背景修补图像中来更新下一次性迭代的背景修补图像。
关键的是,本文的目的是在最大水高山保管场景高低文和防止引入有关的图像内容之间取得平衡。这关于相互遮挡的实例尤为关键:例如,思考一团体手持手机,手是高低文,当修补手机的遮挡区域时,手指将被重建。为了防止这种状况出现,本文经过用一个常数值交流具备比下一个实例的最大深度更高的像素的消息来“暗藏”潜在的误导性高低文。
修补mask 。预计一个准确的修补mask,即形容哪些图像区域将被笼罩,关于成功准确的实例补全至关关键。假设未能蕴含关键的遮挡区域,则有或许发生不完整的结果,而mask过大则或许扭转原始图像的外观。现实状况下,经过模态成功技术来预计一个准确的完整实例外形。但是,现有方法往往针对特定的数据集或对象类别,具备有限的泛化才干。本文提出应用大型生成模型的外在偏向,提供一个大的修补mask,包括遮挡对象或许存在的区域。这经过构建一个蕴含一切遮挡实例的宰割mask的修补mask来成功。
修补prompt 坚持便捷,由于本文寻求一种齐全智能化的分解战略。关于实例修补,本文应用智能生成的实例形容。关于背景图像的修补,本文经常使用一个便捷的通用prompt(“一个空场景”),确保生成的修补背景尽或许便捷。关键的是,在一切负面prompt中蕴含一切其他实例的类名,以防止从新引入已提取的实例。这参与了对不完美宰割的鲁棒性。
图像重组模块
最后一个也是最便捷的模块将一切独自的RGB图像从新组装成一个有序的RGBA堆栈,一旦开展,就会发生一个尽或许凑近原始输入图像的图像。实例RGB图像依据本文的修补顺序启动排序,因此最后修补的实例位于堆栈的顶部,而背景位于底部。依照这个顺序,本文经过细化实例宰割mask来迭代地为每个堆栈元素生成Alpha层。
本文经常使用图像抠图模型VitMatte 对修补后的SAM宰割启动后处置,以改善Alpha混合品质,处置透明对象,并处置SAM的欠宰割偏向。虽然在前两个模块中欠宰割是首选的,以防止在修补时引入临近内容和失误的先验,但是在这个最后阶段,本文须要准确的宰割。VitMatte优化了SAM的输入,提供了更平滑的非二进制宰割,并准许本文以更人造的方式混合修补后的实例。在存在相互遮挡的状况下(即较低级别的实例创立遮挡),本文经过将遮挡区域设置为透明来进一步伐整Alpha层。这最后一个模块最终输入本文的RGBA堆栈图像分解。
形容战略
本文为一切图层(背景、实例)、两边开展的RGBA堆栈以及完整图像生成形容。本文经常使用LLaVa 为规范图像生成具体的形容。由于实例图像的独个性(实例在一致的白色背景上),像LLaVa这样简短的形容模型往往会发生图像特色的幻觉。为了处置这个疑问,本文应用BLIP-2模型为实例生成形容,并启动了参数搜查以选用一组限度简短和幻觉的参数集。此外,本文经常使用受限束搜查来生成多个形容,并经常使用CLIP 选用最佳形容。经常使用LLaVa标注的组件也会经常使用BLIP启动标注,以确保完整性。
MuLAn数据集
基础数据集
本文在两个数据集上运转本文的完整方法,这些数据集提供了足够的场景组合性来充沛应用本文的流程:COCO 数据集和 LAION 数据集的 Aesthetic V2 6.5 子集。Aesthetic 子集对完整的 LAION 数据集启动了挑选,仅选用了美学分数至少为 6.5 的图像,包括 625K 张图像。为了限度场景复杂性并且便于审核,本文只思考蕴含一到五个实例的图像,这是经过本文的目的检测器的输入来确定的。本文处置一切的 COCO 图像(58K 张图像),以及一个随机子集的 100K 张 LAION 图像,以限度计算老本。
数据挑选
本文的目的是构建一个蕴含高品质分解的数据集,并扫除潜在的失败形式。为此,本文手动审核和标志本文处置过的数据,确定了分解失败的六个关键要素:
此外,为了剖析目的,本文标注了一些例子,其中实例排序不正确,背景元素遮挡实例,并且实例成功遭到本文边界框解放从新宰割的限度。本文在补充资料中提供了失败形式的视觉示例。经常使用 Voxel FiftyOne ,本文从本文处置过的 LAION Aesthetic 6.5 图像中随机选用了 5000 张图像启动标注,为成功的分解参与了 “good” 标签。为了缩小成见,标注由 3 位标注者独立成功。本文强调,可以为单个图像调配多个标签,并且当毛病较小且不影响分解的全体有效性时,特意将 “good” 标签与其他标签关联。下图中显示了手动标注集中各种失败形式的散布,突出显示总体成功率为 36%(带有细微毛病的为 52%)。
本文可以看到,宰割疑问是最大的失败形式,其次是修补和目的检测。本文的新排序失败,以及边界框限度和背景遮挡的失败是最稀有的疑问。
本文应用本文的手动标注来训练两个分类器,以智能标注本文处置过的其他数据:一个图像级别的分类器标志背景和有关的分解疑问,一个实例级别的多标签分类器标识残余的失败形式。有关本文分类器架构和训练环节的具体消息,请参阅原文补充资料。下图显示了 LAION 和 COCO 数据集的结果标签散布。本文采取激进的方法,只选用具备确信的 “good” 标签的图像作为成功的分解,并且仅在图6中报告此部分的 “good” 标签。这样,在 COCO 数据集中取得了 16K 个分解,而在 LAION 中取得了 28.9K 个分解,总共为本文的 MuLAn 数据集提供了 44.8K 个标注。
本文的 LAION 智能失败形式散布与本文手动标注的部分十分相似,其中宰割和修补一直是突出的疑问。COCO 的散布相似,但目的检测失误更多。这是预期的,由于妇孺皆知,COCO 是一个具备应战性的目的检测基准(具备 COCO 和 LVIS 标注),场景复杂。相比之下,LAION 蕴含了较便捷的场景,实例较少。
数据集剖析
经过本文精心筹划的高品质标注,本文进一步剖析了本文 44.8K 个已标注图像的场景散布和多样性。下图显示了 MuLAn 中场景的散布状况,以每个图像中的实例数量为单位。本文可以看到,LAION 数据集中大少数图像都是单个实例图像,这或许与高度美学化的图像往往是便捷场景有关(例如肖像 - 这也在原文补充图 S2 中有所突出)。虽然如此,MuLAn-LAION 蕴含足够复杂的场景,其中 21%(约 6K)的图像每个图像都有三个以上的实例。MuLAn-COCO 成功了良好的场景多样性,其中 10% 的数据集蕴含五个实例,简直一半的数据集(44% ≃ 7K)蕴含三个以上的实例,而仅有 28%(≃ 4.5K)的单实例图像。
接上去,本文将从实例类型的角度考查场景的多样性。在 942 个检测类别中,本文区分在 MuLAn-COCO 和 MuLAn-LAION 中取得了 662 和 705 个类别,总共在 MuLAn 中有 759 个类别。下图展现了每个数据集中前十个最经常出现的类别。虽然人类别在两者中都是占主导位置的类别,但在 LAION 中占绝大少数。除了人类别外,MuLAn-LAION 关键包括无生命和装璜目的,而 COCO 包括更生动的场景,尤其是生物和体育静止。在前十个类别中,只要三个类别同时出如今两个数据集中(人、汽车和鸟类)。这些结果突显了两个数据集子集的互补性,MuLAn-LAION 专一于更便捷、高品质和视觉上令人愉悦的场景,而 MuLAn-COCO 展现了更多样化的场景类型。每个子数据集的完整、排序的类别列表详见补充资料。
最后,图12 展现了来自 MuLAn 的 RGBA 分解的其他视觉示例,展现了各种场景组成、格调和类别类型。额外的示例可在补充资料中找到。
数据集运行
为了展现本文的 MuLAn 数据集的潜在用途,本文提供了两个试验,展现了不同的示例场景,可以在这些场景下应用本文的数据集。
RGBA 图像生成 。本文的第一个运行应用 MuLAn 实例,经过微调 Stable Diffusion (SD) v1.5 模型的 VAE 和 Unet,使其能够生成具备透明通道的图像。在下图中,本文提供了经常使用附加了“在彩色背景上”的prompt,并在本文的数据集上启动微调的 SD v1.5 生成的图像的视觉比拟,与一个在多个抠图数据集中微调了 15,791 个实例的模型启动比拟。本文可以看到,本文的数据集能够生成品质更好的 RGBA 实例,由于它对透明通道的了解更好。
实例参与 。本文的第二个运行思考了一项图像编辑义务,其目的是向图像中参与实例。本文微调了InstructPix2Pix 模型,应用本文能够无缝地向本文的 RGBA 堆栈中参与或移除实例的才干。本文为InstructPix2Pix 的训练数据包括三元组,,,其中是第 i + 1 层的实例形容,是经过将不完整的 RGBA 堆栈展平到第层失掉的 RGB 图像。为了评价功能,本文经常使用 EditVal 的实例参与评价战略。本文引入的基准测试上报告结果(该测试在没有属性的状况下参与对象),并构建了一个额外的属性驱动的评价基准。有关评价目的和本文基准测试的具体消息,请参阅原文补充资料。下图1强调了本文的模型在整个光谱中具备更好且更分歧的功能,特意是在场景包全方面。这在下图2中进一步失掉了证实,可以清楚地看到本文的模型具备更低的属性渗漏和更好的背景保管。这可以归因于本文的训练设置保障了背景的保管,而 InstructPix2Pix 经常使用 Prompt-to-prompt 编辑结果。
论断
本文引见了 MuLAn,这是一个蕴含超越 44,000 个 RGB 图像的多层标注的新型数据集,旨在用于生成式人工智能开发。本文经过经常使用一种陈腐的pipeline处置 LAION Aesthetic 6.5 和 COCO 数据集中的图像来构建 MuLAn,这种pipeline能够将 RGB 图像分解为多层 RGBA 堆栈。MuLAn 提供了各种场景类型、图像格调、分辨率和对象类别。经过颁布 MuLAn,旨在为构图性文本到图像生成钻研开拓新的或许性。构建 MuLAn 的关键在于本文的图像分解pipeline。具体剖析了pipeline的失败形式,尤其是宰割、检测和修补。未来的上班将探求改良功能并参与 MuLAn 大小的处置方案。本文可以应用pipeline的模块化个性来引入功能更好的模型,例如宰割器或修补器。此外,该pipeline可以作为一个独立的处置方案来分解图像,并应用经常出现软件来启动编辑。为了支持这一点,本文还钻研了人机循环裁减。
原文链接: