Emu3 一致多模态输入与生成

koi

2024-11-15 01:00:20发布
关注私信

324 305 633

Emu3 在生成和感知义务中逾越了多个义务的公用模型，体现优于干流开源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2，同时不须要基于Diffison或组合多种不同架构。

Emu3 能够依据文本输入生成高品质的图像，经过便捷地预测下一个视觉标志来成功。该模型人造允许灵敏的分辨率微格调。

Emu3 展现出弱小的视觉言语了解才干，能够感知物理环球并提供连接的文本照应。值得留意的是，这种才干是在不依赖 CLIP 和预训练 LLM 的状况下成功的。

Emu3 经过预测视频序列中的下一个token来因果生成视频，与 Sora 的视频分散模型不同。在高低文中有视频的状况下，Emu3 还能人造加长视频并预测接上去会出现什么。

方法

Emu3 驳回混合言语、图像和视频数据从零开局启动训练。言语数据来自 Aquila 的高品质中英文语料库。图像数据经过精心挑选，确保分辨率和美学品质，经常使用 LAION-AI 的美学预测工具过滤，并联合来自 DenseFusion 的补充数据。视频数据涵盖多种类别，经过火段、文本检测和静止评价，以确保视频品质。最后应用 GPT-4V 为图像和视频生成文本标注。

模型驳回 SBER-MoVQGAN 训练视觉编码器，成功高效的视频和图像编码。预训练和后训练环节中，Emu3 集成文本和视觉消息，经过下一标志预测义务优化生成品质，并运用间接偏好优化（DPO）优化模型与人类偏好的对齐。最终，模型经过图像-文本训练和指令调优增强视觉言语了解才干。

才干

视频生成

未来帧预测

多模态对话

原文链接：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#ChatGPT #多模态 #大模型 #Agent #LaMDA #Emu3 #AIGC #文心一言 #云雀 #AI #孟子 #人工自动 #Sora #混元 #通义千问 #紫东太初 #日日新 #清言 #AIGC运行 #开源大模型 #GPT #Bard #4 #OpenAI #言犀 #Copilot #盘古 #悟道