Midjourney领跑没有规范答案的文生图下半场还能怎样卷无界AI算法总监邹国平

出品 | 技术栈（微信号：blog51cto）

进入2024，AI运行落地的步调悄悄减速。

AI文生图产品——衔接着千行百业的设计需求，极大地紧缩了创意成功的周期——正成为极速掘金的AI畛域之一。

AI生图自2022年底开局迸发，过去一年多的期间曾经让这条赛道变得内卷起来，前有 Midjourney、DALL·E、Stable Diffusion稳稳占据头部市场，后有GPT4等多模态大模型随时或许抄后路的风险，再加上诸多相似服务的图像编辑及设计工具也在放慢融合"文生图"才干，多方都在对这块最稳固的AIGC赛道虎视眈眈

在强烈的内卷中，文生图玩家想要“出头”，就必需打出自己的特征来。

作为国际最早一批的AIGC产品落地通常者，无界AI算法总监邹国平有着十分深入的体会。邹国平给出了一个令人意想不到的答案。

破局的关键就在于“场景”： 你面向什么样的场景？你长于什么场景？在这个场景里，你能否能够深耕到一个十分上游的水平 ？他向咱们抛出了这一连串的疑问。

在通用AI模型风靡的当天，为什么文生图畛域照旧是个很“吃”场景的命题？

文生图看似相对较低的门槛，却建在审美、设计以及专业场景常识的平地之上。 AI文生图比文生文更含糊、更没有规范答案。

最近，直播栏目《AIGC实战派》有幸约请到了邹国平教员，在两个小时的交换中，他向咱们分享了自己在文生图畛域的探求心得与洞察，详细讨论了在文生图下半场如何“卷”出技术壁垒。这次交谈，廓清和刷新了原来群众关于文生图畛域的”曲解“与认知，其中他提出了几个很无心思的观念：

以下是整顿后的对话内容。

1.Midjourney先发长处太“难杀”，国际追平还需多维度发力

《AIGC实战派》: Midjourney如今是环球范围内公认的用户最多、效果最好的文生图产品之一。在您看来，国际的文生图产品距离Midjourney还有哪些差距？

差距必需存在。Midjourney无论是用户体量，还是全体营收齐全是遥遥上游的。

相比国际的文生图产品Midjourney的先发长处十分大。回忆Midjourney的开展历程，22年的时刻，他们就曾经启动了两年多的研发积攒。刚开局的第一版产品效果也不理想，但他们经过约请制去招募用户介入到迭代中，继续改良产品。

22年下半年，Stable Diffusion的技术横空入世，给Midjourney的产品带来了一个迸发点。直到迭代至V4版本，曾经出现出行业标杆级的效果。

Midjourney自身有弱小的专一度，齐全focus在模型和算法探求畛域。 至于工程和产品的局部，则更多在Disco diffusion平台上去成功，一来节俭了不少的开发老本，其次这个平台带有的社群属性，让Midjourney用户继续裂变，经过口口相传沉淀起宏大的用户基础。

《AIGC实战派》：在Midjourney迭代到V4之前，国际大略在做什么？

更新鲜一点的，还没有走到文生图这一步。早期所谓的图像生成，更多的是特效及其余特定场景的生成，不是详细东西的成像。

《AIGC实战派》:Midjourney V4之后上游在哪？

V4版本的生功效果十分杰出。特意是在特定畛域，曾经到达了实践可用的形态。Midjourney在数据处置方面有个十分共同之处，无论是数据品质还是数据标注都十分精细。经过宽泛的用户接触和经常使用，曾经构成了一套关于如何形容prompt的范式，这些关键词在构图、格调和艺术家格调的表白中起到了关键作用。

《AIGC实战派》: 咱们如今做国际外文生图畛域的比拟，像您刚才说的模型、提醒词，或许基本算是一个追齐的形态？您感觉咱们还差在哪里？

在模型层面，一些国际的模型在特定测试集上曾经能够与Midjourney的V5.2版本相媲美，但在宽泛的用户场景测试中，咱们的数据量还远远不够，所以很难精准的去回答“追平”的疑问。由于咱们所能启动的测试有限，要启动用户测试，让用户用手投票，这样的用户反应或许仅有几千例。而Midjourney领有2000万用户。

所以在小范围上去测，那确实可以说国际产品跟他的效果差不多。但假设要推行到一切的场景，确实是会有差距的。

但像Midjourney这样，能做到上游的，目前还是不太能看到。再往下走，每个环节还有很多上班须要补充。

2. Sora不仅给方向，还给正在探求DIT的人吃了“定心丸”

《AIGC实战派》: 往年2月份，sora出现之后，有没有冲击到如今的AI生图畛域？

会有影响的。首先像你刚才所说的，视频确实是流量的洼地。国外在做Open-Sora名目时，也是依照既能生成视频也能生成图片的思绪去做的。两者在技术上有相通之处。

Sora给了这个畛域很大的信念。在此之前，基于DIT的尝试曾经有一些，只是效果都没能到达实践可用的水平。Sora证实了端到端的视频生成这条路是能走通的。

《AIGC实战派》: 从Sora在技术报告中地下的那局部来看，能给图像生成畛域带来哪些启示或许值得自创的中央？

说到方向的话，大家更多是驳回DIT技术构建的模型，比如PixArt文生图模型，展现了在大批参数的模型(0.6B)上也能取得良好效果的或许性。

此外，目前的文生图还无余以成功精准控制。因此，引入额外的控制机制，就像PixArt在第二版本中所参与的配置，是完善模型的关键。这些控制可以平滑地集成到现有配置中，提供弱小的设计和发明才干。

例如，在汽车设计中，可以将线稿图的规范与文本形容结合，成功更准确的图像生成控制。

《AIGC实战派》: 抛开Sora，文生图未来或许有哪些比拟热的演进方向？

我从文生图畛域目前面临的一些关键疑问登程来谈谈。

首先，提醒词的精准度和生功效果的对齐是一个须要处置的疑问。虽然咱们可以将提醒词写得十分精细，但图像的细节出现并不总是像文本形容的那样，典型的如手部细节的处置疑问。

其次，生成图像的期间紧缩也是一个应战。目前，生成一张图像或许须要数秒的期间，假设参与更多控制，期间或许会更长。因此，工程上须要探求模型蒸馏和减速手腕来优化效率。

最后，共性化生成是另一个关键的运行方向，这往往触及到相关的参考图像。详细到图片生成，目前相似度的稳固性还有待提高，比如处置logo的自在变换时坚持其细节不变等等。

《AIGC实战派》: 您感觉专有的AI生成工具，会不会被相似Sora这种很弱小的通用工具吃掉？

通用的文生图才干最终或许会被大型模型所笼罩。像GPT-4 Vision这样的模型曾经具有了视觉感知才干，能够识别和形容图片内容，但目前还未成功生成或发明才干。言语模型在认知方面曾经到达了高水平，但视觉、了解以及发明的环节则更为复杂。

Sora对OpenAI来说，意义是找到了一个通往环球模型的路途。OpenAI的使命和站位让他不会开发十分垂的产品，他们做的是提供一个平台，相似于乐高积木，让用户依据需求自己去搭建想要的运行。

3.文生图要“卷”出技术壁垒，先要从场景登程

《AIGC实战派》: 都说文生图的守业门槛低，在如今这么卷的状况之下，大家都很猎奇技术圈究竟是在卷哪块东西？在什么维度还可以打出差异化，还能拼出技术实力、拼出竞争力来？

咱们可以看看，如今上游的文生图产品都是怎样做的。

不少文生图产品曾经取得了不错的效果，其实他们的产品理念却是各不相反：比如Leonardo.AI，它最后的着陆点在生成游戏角色的物料，起初才缓缓开展成一个全类别的文生图平台。还有yodayo，则一开局做二次元畛域的生成起家，起初裁减到用户与虚构角色的聊天服务上。而由前谷歌imagen团队大佬创立的Ideogram，则以文字生成为长板。

这些产品都是成功成功差异化的案例。如今Leonardo.AI每月的PV将近1000万。

回到疑问自身，文生图要“卷”出自己的技术壁垒，首先就要从场景登程。你面向什么样的场景？你长于什么场景？在这个场景里，你能否能够深耕到一个十分上游的水平？——这其实也跟模型无关，须要你的模型有必定的独到之处。

《AIGC实战派》: 怎样把模型做出独到之处？

首先是有个指标，了解模型面向的用户和场景。比如，模型focus在游戏素材生成上，那么就针对这个畛域深化优化，去做材质、光照等属性的编辑。

《AIGC实战派》: 如今是哪种形式更多一点？是让设计和AI的专才启动协作，还是间接寻觅两个畛域的通才？无界AI团队是怎样思索的？

咱们去做模型训练，会有一个模型主理人，他须要在这个畛域有必定的常识储藏，去把输入和输入对齐。

AI如何让强人更强，就是能应用强人的常识储藏，经过大模型形容性的形式，最终出现进去。

《AIGC实战派》: 人才也是技术壁垒的一局部？

AI时代，拼的就是三个因素，人才、数据、算力。

刚才说了文生图要“卷”场景。其次，数据处置才干也是关键，行业数据和算力的储藏关于图像生成畛域的积攒至关关键。

虽然文生图模型的参数量相对较小，或许亿级别就足够，但这并不象征着算力不是门槛，对算力的须要取决于模型的训练指标。训练的数据量小，那一张消费级显卡就能搞定，但像Midjourney这种规模还是须要弱小算力撑持的。他们早期在亚马逊拿到了1000万美元的算力。

4.“几家GPU厂商提供了十分灵活的扩容才干，极短期间对接上千块显卡”

《AIGC实战派》: AI产品用户到达百万级甚至千万级，这时刻咱们该怎样应答？无界AI在短期间内积攒到百万用户的时刻，都启动了怎样的备案？

邹国平: 用户的涌入会须要处置一些突发的事情。相比文字，图像生成对GPU资源的消耗更高，咱们须要及时参与GPU资源，防止用户动辄为一张图像的生成等候10s以上。目前关键用的GPU资源都是云端的卡。

其次，文生图须要面临更为复杂的状况，咱们有多个模型，而每个模型的用户量又不同。这就要求咱们树立一个高效的调度系统来处置用户提交的义务。系统应该能够依据模型的经常使用状况灵活调整资源调配，关于不同的模型，咱们或许须要定制化的调度打算。

此外，咱们还须要优化单个GPU卡的上班效率，经过减速打算和模型优化来提高单次图像生成义务的效率。这包含提高模型的加载速度、生成和切换速度，以及优化整个系统的裁减性。

举个例子，咱们与头部消费品品牌协作启动营销优惠时，就面临过千万级别的流量应战。为了应答这种状况，咱们联结了几家GPU厂商，预备了上万规模的GPU资源启动调度。咱们自有的GPU云平台可以极速地基于第三方GPU资源进执行态扩容，在很短的期间内就照应上千块显卡的对接。

《AIGC实战派》: 说到用户体验，文生图用户关于排队这个现象的忍受度怎样样？

假设产品提供的文生图效果很好的话，那排队也是能被用户接受的。有些时刻，你不是VIP用户或许会故意让你生成速度慢一点，就是逼你交钱的（笑）。

不过，也分运行场景，比如启动定制化的化身或是视频格调转换，这些义务自身就须要较长的处置期间。不过用户自己也会有预期，所以就情愿为此等候。

5.不同于文生文，AI文生图不存在规范答案

《AIGC实战派》: 做一款AI原生运行的产品，最抓狂的中央是在哪里？

AIGC开展到如今，曾经有一段的期间了。随着期间的推移，AI生成技术曾经从效果普通开展到可用形态，咱们不时在启动用户教育，去同步认知。首先是怎样去生成图像，其次就是让用户了解在技术的限度下，生成的图像依然存在瑕疵。

最抓狂的是，在某些场景下，用户或许十分挑剔，尤其是B端用户。妇孺皆知，AI生成确实有必定的随机性和无法控制性，bad case总是存在的，而且时不时就会冒进去，这给产品的保养带来应战。

《AIGC实战派》: B端用户要做一个定制打算，须要多久才干交付成功？

交付时长按月计，但不确定性很大。

总体来讲，文生图还是一个比拟新兴的东西。客户的需求在他脑海中，有些是很难用言语形容进去的，因此前期是一个相互探求的环节，须要不时地提供初步打算、产出结果，等拿到客户的反应才知道怎样跟进。

这也说明了，虽然文生图看似门槛低，但在细节掌握上却十分具有应战性。这也是为什么咱们（无界AI）的专业版上班流配置旨在赋予用户更多的自主施展空间，让有探求和入手才干的用户设计共性化的文生图流程。

《AIGC实战派》: 正在钻研的哪些方向，可以泄漏一下吗？

邹国平: 咱们目前的钻研重点是围绕几个翻新方向启动的。首先最大的等候还是Sora模型的复现。Sora触及到从视频噪声片段登程，生成连接且稳固的视频内容，这与以往的单帧生成齐全不同。Sora的技术路途将作为咱们的一个关键参考，无论是在图像生成还是视频生成的运行上。

在3D畛域，咱们也在启动一些尝试，包含经过单张图像重建3D模型。比如经过线稿生成具有真实质感纹理的3D模型。

另一个幽默的钻研方向是经过文本间接生成具有透明背景的PNG图片，这象征着用户无需再启动抠图。

想了解更多AIGC的内容，请访问：

AI.x社区

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#AI #算法 #无界

Midjourney领跑 没有规范答案的文生图 下半场还能怎样卷 无界AI算法总监邹国平