7月26日,智谱颁布AI 生视频产品「清影」,30秒将恣意文图生成视频,并上线在他们的AI助手「智谱清言」上,被誉为是国际首团体人可用的Sora。
就在颁布6天后,「清影」生成到视频数便已打破了百万量级。
当天,智谱AI发表将与「清影」同源的视频生成模型——CogVideoX正式开源。
团队示意,宿愿每一位开发者、每一家企业都能自在地开发属于自己的视频生成模型,从而推进整个行业的极速迭代与翻新开展。
关上AI助手「智谱清言」即可体验
随着大型模型技术的继续开展,视频生成技术正逐渐走向成熟。
以Sora、Gen-3等闭源视频生成模型为代表的技术,正在从新定义行业的未来格式。
但是,截至目前,仍未有一个开源的视频生成模型,能够满足商业级运行的要求。
CogVideoX系列蕴含多个不同尺寸大小的开源模型。
目前曾经开源的CogVideoX-2B,揭示词下限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720×480。
它在FP-16精度下的推理仅需18GB显存,微调则只要要40GB显存。这象征着单张4090显卡即可启动推理,而单张A6000显卡即可成功微调。
代码仓库:
模型下载:
技术报告:
目前,该名目已在GitHub上斩获了3.8k星。
上方,咱们就来看看CogVideoX生成的成果究竟如何?
一个木制玩具船,在模拟海浪的蓝色地毯上飞行,宛如在真的淡水行驶普通。
一辆白色越野车沿着松树盘绕的峻峭土路极速行驶,可以看到车尾的尘土飞腾。
其实这个场景关于AI来说,相对较难,只要正确了解了物理环球,才不会让生成的尘土在车前扬起。
上方这幅在战乱中,人物表情细节的描写,细腻丰盛。
针对更微观的场景,CogVideoX也能将白雪皑皑的森林、无人穿越的平静小路,活泼地描画进去。
舌尖上的美食,还得看国产AI视频模型。烧烤架上烤制的鸡肉和青椒烤串,让人看了垂涎三尺。
见识到CogVideoX冷艳视频生成才干,你必定十分猎奇这是怎样做到的?
视频数据因蕴含空间和期间消息,其数据量和计算累赘远超图像数据。
为应答此应战,团队提出了基于3D变分自编码器(3D VAE)的视频紧缩方法。
其中,3D VAE经过三维卷积同时紧缩视频的空间和期间维度,成功了更高的紧缩率和更好的重建品质。
模型结构包括编码器、解码器和潜在空间正则化器,并经过四个阶段的下采样和上采样成功紧缩。
期间因果卷积确保了消息的因果性,缩小了通讯开支。而高低文并行技术的驳回,则可以顺应大规模视频处置。
试验中,团队发现大分辨率编码易于泛化,而参与帧数则应战较大。
因此,可将分两阶段训练模型:
- 首先在较低帧率和小批量上训练;
- 而后经过高低文并行在更高帧率上启动微调。
训练损失函数结合了L2损失、LPIPS感知损失和3D判断器的GAN损失。
专家Transformer
团队经常使用VAE的编码器将视频紧缩至潜在空间,而后将潜在空间宰割成块并开展生长的序列嵌入z_vision。
同时,经常使用T5将文本输入编码为文本嵌入z_text,而后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处置。
最后,反向拼接嵌入来恢还原始潜在空间状态,并经常使用VAE启动解码以重建视频。
数据
视频生成模型训练需挑选高品质视频数据,以学习实在环球灵活。但视频或者因人工编辑或拍摄疑问而不准确。
为此,团队开发了负面标签来识别和扫除低品质视频,如适度编辑、静止不连接、品质低下、讲座式、文本主导和屏幕噪音视频。
经过video-llama训练的过滤器,团队标注并挑选了20,000个视频数据点。同时,计算光流和美学分数,灵活调整阈值,确保生成视频的品质。
视频数据理论没有文本形容,须要转换为文本形容以供文本到视频模型训练。但是,现有的视频字幕数据集字幕较短,不可片面形容视频内容。
为了处置一疑问,团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以取得更密集的字幕。
这种方法经过Panda70M模型生成冗长字幕,经常使用CogView3模型生成密集图像字幕,而后经常使用GPT-4模型总结生成最终的短视频。
除此之外,团队还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,经常使用密集字幕数据启动训练,以减速视频字幕生成环节。
性能
为了评价文本到视频生成的品质,团队经常使用了VBench中的多个目的,如人类举措、场景、灵活水平等。并扫除了不实用于评价需求的目的,例如色彩目的,由于它或者误导视频生成模型。
此外,团队还经常使用了两个额外的视频评价工具:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score,这些工具专一于视频的灵活个性。
值得一提的是,团队曾阅历证了scaling law在视频生成方面的有效性!
未来会在始终scale up数据规模和模型规模的同时,摸索更具打破式翻新的新型模型架构、更高效地紧缩视频消息、更充沛地融合文本和视频内容。
团队示意,目前的视频品质还有很宽广的优化空间,等候开发者们在揭示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类配置开发上奉献开源力气。
此外,性能更强参数量更大的模型正在路上,敬请关注与等候。
原文链接: