仅1.3B！Janus 一致多模态了解和生成

koi

2024-11-15 00:59:35发布
关注私信

126 277 565

Janus 是一个一致的多模态了解和生成的大型言语模型（MLLM），它将多模态了解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建，该模型训练时经常使用了大概5000亿个文本token的语料库。在多模态了解方面，它经常使用 SigLIP-L 作为视觉编码器，允许384 x 384像素的图像输入。在图像生成方面，Janus 经常使用了LlamaGen的tokenizer，并且具有16倍的下采样率。

Janus的训练环节是分阶段启动的，以确保模型在多模态了解和生成义务上都能到达高性能：

第一阶段：训练Adpater和图像Head

第二阶段：一致预训练

第三阶段：监视微调（SFT）

训练细节：

作为一个next token prediction的图像生成模型，生功成果相当不错：

同时作为一个多模态了解模型，仅1.3B且只要384的输入分辨率，成果也超出预期。比如带有文字的meme图的了解，甚至也还行：

可以看出，多模态大模型生成和了解，越卷越一致；模型尺寸也有着越卷越小的趋向。

原文链接：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Agent #AI #人工自动 #AIGC运行 #大模型 #清言 #ChatGPT #GPT #通义千问 #多模态 #盘古 #混元 #AIGC #4 #悟道 #云雀 #Copilot #Bard #开源大模型 #孟子 #言犀 #OpenAI #Sora #文心一言 #多模态大模型 #紫东太初 #日日新 #LaMDA