Picsart人工智能钻研所、德克萨斯大学和SHI试验室的钻研人员联结推出了StreamingT2V视频模型。经过文本就能间接生成2分钟、1分钟等不同期间,举措分歧、连接、没有卡顿的高品质视频。
只管StreamingT2V在视频品质、多元化等还不可与Sora媲美,但在高速静止方面十分低劣,这为开发长视频模型提供了技术思绪。
钻研人员示意,切实上,StreamingT2V可以有限裁减视频的长度,并正在预备开源该视频模型。
论文地址:
github地址:(行将开源)
StreamingT2V生成的2分钟视频
传统视频模型不时受训练数据、算法等困扰,最多只能生成10秒视频。Sora的产生将文生视频畛域带向了一个全新的高度,打破了诸多技术瓶颈,仅经过文本就能生成最多1分钟的视频。
而StreamingT2V驳回了翻新的自回归技术框架,经过条件留意力、外观坚持和随机混合三大模块,极大的延伸了视频的期间,同时保障举措的连接性。
便捷来说,StreamingT2V经常使用了一种“击鼓传花”的方法,每一个模块经过提取前一个视频块中的示意特色,来保障举措分歧性、文本语义恢复、视频完整性等。
条件留意力模块
条件留意力模块是一种“短期记忆”,经过留意力机制从前一个视频块中提取特色,并将其注入到视频块的生成中,成功了流利人造的块间过渡,同时保管了高速静止特色。
先经常使用图像编码器对前一个视频块的最后几帧(例如20帧)启动逐帧编码,获取相应的特色示意 ,并将这些特色送入一个浅层编码器网络(初始化自主模型的编码器权重)进后退一步编码。
而后将提取到的特色示意注入到StreamingT2V的UNet的每个长程腾跃衔接处,从而借助前一视频块的内容消息来生成新的视频帧 ,但不会遭到先前结构、状态的影响。
外观坚持模块
为了保障生成视频全局场景、外观的分歧性,StreamingT2V经常使用了外观坚持这种“常年记忆”方法。
外观坚持从初始图像(锚定帧)中提取初级场景和对象特色,并将这些特色用于一切视频块的生成流程 。这样做可以协助在自回归环节中,坚持对象和场景特色的延续性。
此外,现有方法通常只针对前一个视频块的最后一帧启动条件生成,漠视了自回归环节中的常年依赖性。经过经常使用外观坚持,可以经常使用初始图像中的全局消息,从而更好地捕捉到自回归环节中的常年依赖性。
随机混合模块
前两个模块保障了StreamingT2V生成的视频大框架,然而在分辨率、品质方面还有短少,而随机混合模块重要用来增强视频的分辨率。
假设间接增强品质会消耗少量AI算力、期间,所以,随机混合驳回了自回归增强的方法。
首先,钻研人员将低分辨率视频划分为多个长度为24帧的视频块,这些块之间是有堆叠的。而后,应用一个高分辨率的视频模型,对每一个视频块启动增强,获取对应的高分辨率视频块。
例如, 有两个堆叠的视频块A和B,堆叠局部蕴含20帧。关于堆叠局部的每一帧,随机混合模块会从A块和B块中各取出一帧,而后对这两帧启动加权平均,生成一个新的混合帧 。经过这种模式,堆叠局部的每一帧都是A块和B块对应帧的随机混合。
而关于不堆叠的局部,随机混合模块则间接保管原始视频块中的帧。经过随机混合后的视频块就可以输入到高分辨率模型中启动增强。
钻研人员指出, 假设让相邻的两个视频块间接共享齐全相反的堆叠帧,会造成视频在过渡处产生不人造的解冻和重复成果 。而随机混合模块经过生成新的混合帧,很好地规避了这个难题,使得块与块之间的过渡愈加平滑人造。
试验数据显示, StreamingT2V生成的1分钟、2分钟长视频,不只坚持了高分辨率和明晰画质,全体的期间连接性也获取了很大优化。视频中的物体静止姿态丰盛,场景和物体随期间的演化愈加人造流利,没有突兀的断层或解冻状况产生。
原文链接: