Emu3 在生成和感知义务中逾越了多个义务的公用模型,体现优于干流开源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2,同时不须要基于Diffison或组合多种不同架构。
Emu3 能够依据文本输入生成高品质的图像,经过便捷地预测下一个视觉标志来成功。该模型人造允许灵敏的分辨率微格调。
Emu3 展现出弱小的视觉言语了解才干,能够感知物理环球并提供连接的文本照应。值得留意的是,这种才干是在不依赖 CLIP 和预训练 LLM 的状况下成功的。
Emu3 经过预测视频序列中的下一个token来因果生成视频,与 Sora 的视频分散模型不同。在高低文中有视频的状况下,Emu3 还能人造加长视频并预测接上去会出现什么。
方法
Emu3 驳回混合言语、图像和视频数据从零开局启动训练。言语数据来自 Aquila 的高品质中英文语料库。图像数据经过精心挑选,确保分辨率和美学品质,经常使用 LAION-AI 的美学预测工具过滤,并联合来自 DenseFusion 的补充数据。视频数据涵盖多种类别,经过火段、文本检测和静止评价,以确保视频品质。最后应用 GPT-4V 为图像和视频生成文本标注。
模型驳回 SBER-MoVQGAN 训练视觉编码器,成功高效的视频和图像编码。预训练和后训练环节中,Emu3 集成文本和视觉消息,经过下一标志预测义务优化生成品质,并运用间接偏好优化(DPO)优化模型与人类偏好的对齐。最终,模型经过图像-文本训练和指令调优增强视觉言语了解才干。
才干
视频生成
未来帧预测
多模态对话
原文链接:
© 版权声明