企业宣传,产品推广,广告招商,广告投放联系seowdb

一文带你了解OpenAI Sora

最近AI圈最火的无疑是OpenAI在2月15日颁布的Sora。Sora可以依据文本生成一分钟的高清视频,生成的视频画质、延续性、光影等都令人蔚为大观,Sora无疑将视觉生成推到新的高度。本文将重点回答三个疑问:

一、背景

在国际外大少数AI厂商还在卷大言语模型之际,OpenAI悄无声息地颁布了文生视频(text-to-video,简称t2v)模型Sora [1],仅仅几个视频demo,就让整个AI圈子从惊讶到恐怖,惊讶于Sora生成的视频曾经抵达工业运行级别,恐怖于现有的t2v模型与Sora的差距居然如此之大。先看个Sora官网博客展现的demo,当你向Sora输入:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”,Sora则依据该文本生成了长达1分钟的高清视频。

这个demo展现了Sora至少有以下打破:

那么OpenAI究竟用了什么魔法能让Sora如此冷艳?接上去咱们经过OpenAI给出的​ ​Sora技术报告​ ​来解答。PS:该技术报告十分粗陋,技术细节简直没有,只给了大抵的建模方法。

二、Sora原了解读

1. Sora要处置的义务

Sora要处置的义务其实十分好了解,就是给定一段文本,模型须要依据该文本生成相应的视频,繁难说就是text-to-video(t2v)。t2v自身并不是一个新疑问,很多厂商都在钻研t2v模型,只是的t2v模型生成的视频广泛品质较差,很难抵达工业运行级别。在Sora出现前大家的广泛认知是:t2v是一个很难的义务,工业级别t2v模型(或许说能真正适用的t2v模型)短期间内应该很难成功。但是,OpenAI又又又一次性打了一切人的脸,Sora的颁布象征着,这一天曾经来了。

2. Sora原理

假设用一句话来形容Sora训练建模环节,可以是:将原始视频经过一个视觉编码器(visual encoder)编码到隐空间(latent space)构成隐时空块(spacetime latent patches),这些隐时空块(联合text消息)经过transformer做diffusion [2, 3, 4]的训练和生成,将生成的隐时空块再经过视觉解码器(visual decoder)解码到像素空间(pixel space)。所以整个环节就是:visual encoding -> latent diffusion with diffusion transformer (DiT) [4] -> visual decoding。

(1) Visual Encoding

这一步其实很好了解,就是经过一个变分自编码器(VAE)[5]的encoder将高维的原始视频映射(紧缩)到较为低维的隐空间(留意:不只仅是空间上紧缩了,期间上也启动了紧缩),即获取该视频的低维隐空间特色(可以看成一个大的3D tensor),为了后续transformer计算繁难,将这个特色切成不堆叠的3D patches,再将这些patches拉平成一个token序列,这个token序列其实就是原始视频的表征了(即visual token序列)。

(2) Latent Diffusion with DiT

在获取视觉表征(上述visual token序列)后,Sora自创了DiT [4],经常使用transformer来做diffusion model的训练,经常使用transformer的好处在于可以输入恣意长度的token序列,这样就不再限度输入视频的尺寸和时长,并且模型很容易scale up(OpenAI表示这个我熟)。同时,由于Sora想处置t2v的疑问,所以Sora会将text的表征以某种方式condition到visual tokens上(Sora技术报告中未披露,但后文我会剖析最或许的成功方法)来解放生成。

在diffusion transformer的训练中,给定噪声输入(e.g., 噪声patches)并conditioned on text特色,模型被训练去预测原始视频的patches(预测环节又叫denoising环节,详细可以参考DDPM [2]中的训练算法),示用意如下:

(3) Visual Decoding

第(2)步中,diffusion transformer可以生成的其实不是像素空间的视频,而是隐空间的视频表征(denoised patches),这些patches reshape成视频3D特色再经过第(1)步中的VAE的decoder,就可以映射回像素空间,获取最后生成的视频。

3. Sora的关键性质

(1) Sora可以灵敏地驳回不同时长、分辨率和长宽比的视频

OpenAI发现之前的方法大多驳回固定尺寸的视频(比如4s的256x256视频)去训练模型,和事实中恣意长度、长宽比有较大gap,而驳回原始尺寸的视频训练模型成果更好。得益于Sora驳回的transformer结构,Sora可以输入恣意多个visual patches(初始为noise patches),即可生成恣意尺寸的视频。

(2) Sora有很强的言语了解才干

训练t2v模型须要少量带有文本标注的视频,OpenAI驳回DALL·E 3 [6] 中的re-captioning技术来处置。首先训练一个高品质的视频标注模型(captioner model),而后它为训练集中的一切视频生成文本字幕。另外,进一步应用GPT将视频标注模型生成的冗长文本裁减成更长的文本无利于还应用Sora准确遵照用户文本揭示生成高品质视频。

4.关键细节推测

Sora的技术报告没有任何细节,仅仅告知大家大抵的建模方法,但有一些细节的成功是可以推测or猜想的。

(1) visual encoder或许的结构:由于Sora在visual encoding时也紧缩了期间维度,所以Sora或许驳回从零开局训练的3D conv版的VAE。Sora这里没有像之前上班那样,繁难地驳回Stable Diffusion(SD) [3]预训练好的2D conv版的VAE。现成的SD的VAE encoder用来紧缩视频最大的疑问在于期间维度没有下采样,SD的VAE承当了将原本sparse的数据紧缩到compact的latent domain再启动diffusion环节,从而大幅度提高training和inference的效率。但是,间接运用2D VAE不足了在期间维度的紧缩,使得其对应的latent domain不够紧凑。实践上,这是一个历史遗留疑问,大局部钻研上班受算力等起因影响选用间接应用SD的预训练权重(Unet局部)、保管了2D VAE。

(2) visual encoding中视频的patches如何flatten成token序列?大略率自创DiT,先flatten这些patches,而后过一个linear层,将patches embed成tokens。

(3) diffusion中如何将text消息引入?大略率还是自创DiT和SD,在每个transformer block中,将visual tokens视为query,将text tokens作为key和value,启动cross attention,始终地conditioned on text tokens。

5. 尚未披露关键消息

(1)模型:模型的详细结构、模型的参数量、关键参数(patch size、token数目等)如何?

(2)数据:用了哪些数据?规模如何?

(3)资源:用了多少算力?训练了多久?

(4)如何处置高帧率、期间长、高分辨率的视频?目前干流的视频生成模型都是cascade结构,也就是先生成低分辨率、低帧率的视频,再始终地在期间和空间维度上upsample。不知道Sora能否是间接一次性性输入其展现的结果,假设是那样,那又会有多少token呢?(5)如何处置motion的疑问?目前的视频生成模型广泛生成的motion都不太好,最繁难的例子就是“人走路”,大局部模型不可生成连接的、长期间的、正当的人行走的环节。而Sora生成的结果在连接性、正当性上相比之前的模型都有着断代的上游。那究竟是什么促使了这样的结果呢?是模型尺寸的scale up吗?须要scale up到什么size?还是数据的搜集和荡涤呢?以及要做到什么水平呢?

6. Sora的运行

7. Sora的局限性

原本中提到:“Sora 目前作为模拟器(simulator)体现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理环节,例如玻璃破碎。其余交互环节(例如吃食物)也不总是能正确预测。咱们在登陆页面中罗列了模型的其余经常出现缺点形式,例如长期间样本中出现的不连接性或对象的凭空出现。”

总结一下关键是:

三、Sora究竟算不算环球模型?

最近,围绕“Sora是不是环球模型”以及“Sora懂疑问物理环球”等相关话题惹起了圈内热议。

英伟达初级钻研迷信家Jim Fan在X平台上称:“Sora is a learnable simulator, or "world model".”。而图灵奖得主Yann LeCun则表示:“The generation of mostly realistic-looking videos from prompts "does not" indicate that a system understands the physical world.”。

这里谈谈我的认识,仅供参考。

1.什么是环球模型(world model)[8]?

“The image of the world around us, which we carry in our head, is just a model. Nobody in his head imagines all the world, government or country. He has only selected concepts, and relationships between them, and uses those to represent the real system.” --Jay Wright Forrester, the father of system dynamics

上述引自系统能源学之父Jay Wright Forrester。我的了解是人类其实不可记下整个环球的一切内容,咱们的大脑仅仅是在有选用记忆一些概念和相互相关,应用这些,咱们可以表征和了解这个环球。这里,咱们的大脑其真实充任world model,即一个了解环球(物理)法令的模型。比如,当你看到玻璃杯从桌上掉上水泥地上,你知道接上去出现的事人造就是杯子碎了。

那么环球模型究竟是啥?

(以下是我团体对环球模型的了解,或许不够谨严,仅供参考)

我将环球模型分为狭义的和狭义的启动探讨。

【狭义环球模型】狭义的环球模型,其实就是任何能了解环球潜在物理法令的模型,比如可以预感未来结果的模型,继续以前面那个例子为例,假设一个模型能预测玻璃杯掉下后的形态,说明该模型具有这样的才干;再比如知道环球中实体或形象概念之间相互咨询的模型,比如一个模型知道玻璃杯的硬度低于水泥地会造成玻璃破碎。这些其真实我看来都是狭义上的环球模型。

【狭义环球模型】狭义的环球模型更强调节解物理环球的能源(dynamics)或许静止等物理法令的模型,了解过RL的好友们必定特意相熟这些。在RL中,一大分支便是model-based RL,这里的model,其实就是典型的狭义环球模型。在此模型中,给定某一时辰的形态s_t和该时辰做的举措a_t,模型可以预测出下一个时辰的形态s_t+1。所以说,狭义的环球模型其实是因果的。回到下面的例子,s_t可以是刚着落的杯子和洁净的水泥地,a_t则是自在落体这个举措,s_t+1则是水泥地上碎掉的杯子这样一个形态。

2.Sora算不算环球模型?

先给论断,我感觉Sora算狭义环球模型,同时也是隐式的狭义环球模型。

Sora的diffusion环节其实是在从噪声形态在text prompts的解放下,预测或许的结果(视频)。这个环节看似跟狭义环球模型没有相关,但其实可以这么了解:

规范的狭义环球模型的形态转移环节为:s_0 -> a_0 -> s_1 -> a_1 -> s_2 -> ... -> a_T-1 -> s_T。关于一个视频来说,每一帧都可以看做一个形态s,但是某一时辰举措其实很难形容,咱们很难用人造言语或许其余方式来形容相邻两帧之间出现了什么。但是咱们可以用人造言语形容视频在做什么,也就是s_0到s_T出现了什么,也就是将举措序列A={a_0, a_1, ..., a_T-1}一同打包表示成一句话或许一段话。在Sora中,text prompts可以看做成这样的举措序列A。而Sora了解环球的环节也和普通的狭义环球模型不太一样,s_0不再是第一帧,而是“混沌”形态(噪声),于是乎diffusion的环节可以了解为:s_0(噪声) -> A -> s_1 -> ... -> A -> s_T(明晰视频)。这其中,只管Sora并没有显式建模环球的dynamics,但其实无了解人造言语和视频内容之间的相关,算是一种狭义上的环球模型。

同时,回看Sora的运行可以发现,Sora其实可以拓展视频的!也就是说,换一个角度,给定一张起始图像(第一帧)和一个文本形容(形容蕴含生成视频内容),Sora就能生成出整个视频,那这个环节其实可以看做是在隐式的狭义环球模型建模:s_0(第一帧)-> A -> s_{1:T} (整个视频)。相当于是,给定了初始形态和接上去的一切举措A,Sora能预测出接上去的一切形态s_{1:T},所以Sora在我看来也是一个非典型的、隐式的狭义环球模型。

值得一提的是,OpenAI官网消息从未表示Sora是world model,而是强调它是world simulator,我也感觉world simulator形容比拟贴切。

四、Sora对行业的影响

五、Sora成功的关键(浅显了解,欢迎斧正和补充)

本篇仅仅为团体的思索和总结,如有不妥之处,欢迎斧正与交换。

【参考文献】

[1] OpenAI. "​ ​Video generation models as world simulators.​ ​" OpenAI Blog. 2024.

[2]Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models."Advances in neural informaion processing systems33 (2020): 6840-6851.

[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[4]Peebles, William, and Saining Xie. "Scalable diffusion models with transformers."Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[5] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes."arXiv preprint arXiv:1312.6114(2013).

[6]Betker, James, et al. "Improving image generation with better captions."Computer Science.pdf2.3 (2023): 8.

[7]Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations."arXiv preprint arXiv:2108.01073(2021).

[8]Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).

原文链接:​ ​​ ​

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender