Meta颁布1B和3B端侧模型 11B和90B多模态模型 Llama3.2开源

koi

2024-11-15 00:58:48发布
关注私信

345 681 163

早上起来发现，Meta AI又开源模型，文本模型开源了端侧小模型1B和3B模型，也是初次开源了多模态大模型11B和90B两个版本；同时还开源了一个 Llama Stack名目。

Blog:https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

其中Llama3.2多模态模型在图像识别和一系列视觉了解义务方面成果优于Claude 3 Haiku 和 GPT4o-mini。文本模型-Llama3.2-3B模型在循指令、总结、揭示重写和工具经常使用等义务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型。

多模态模型成果

端侧模型成果

多模态模型

Llama3.2的11B和90B模型多模态是基于Llama3.1-8B、70B文本模型上，增量参与图像模型。

pretrain阶段：

posting-train阶段：

端侧小模型

1B和3B模型都是基于8B模型裁剪后启动模型初始化，并且应用8B和70B模型启动模型蒸馏，9T数据预训练。

特意留意，这里蒸馏不是那种经过更大模型启动数据生成的蒸馏，而是再模型训练阶段，应用8B 和 70B 模型输入的 logits 影响模型loss，也就是传统的蒸馏方法。

在post-traning阶段，训练模式语Llama3.1分歧，采样监视微调、拒绝采样和间接偏好提升模型。

最后模型允许高低文裁减到 128K 个，同时也针对性提升了模型的多种才干，例如摘要、重写、指令遵照、言语推理和工具经常使用。

Llama Stack名目

Github:
 定义并规范化了将生成式 AI 运行程序推向市场合需的构建模块，逾越整个开出现命周期：从模型训练和微调，到评价，再到在消费环境中构建和运转AI Agent。


 重要是为了简化开发人员在不同环境（包含单节点、本地、云和设施上）中经常使用 Llama 模型的模式，协助极速成功检索增强生成、工具经常使用等才干的极速部署。


 本文转载自，作者：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#多模态 #Llama3.2 #Agent #大模型 #清言 #盘古 #GPT #文心一言 #ChatGPT #开源 #AIGC运行 #云雀 #人工自动 #Copilot #孟子 #模型 #通义千问 #日日新 #紫东太初 #Bard #开源大模型 #OpenAI #4 #混元 #Sora #言犀 #AIGC #悟道 #AI #LaMDA