早上起来发现,Meta AI又开源模型,文本模型开源了端侧小模型1B和3B模型,也是初次开源了多模态大模型11B和90B两个版本;同时还开源了一个 Llama Stack名目。
Blog:https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
其中Llama3.2多模态模型在图像识别和一系列视觉了解义务方面成果优于Claude 3 Haiku 和 GPT4o-mini。文本模型-Llama3.2-3B模型在循指令、总结、揭示重写和工具经常使用等义务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型。
多模态模型成果
端侧模型成果
多模态模型
Llama3.2的11B和90B模型多模态是基于Llama3.1-8B、70B文本模型上,增量参与图像模型。
pretrain阶段:
posting-train阶段:
端侧小模型
1B和3B模型都是基于8B模型裁剪后启动模型初始化,并且应用8B和70B模型启动模型蒸馏,9T数据预训练。
特意留意,这里蒸馏不是那种经过更大模型启动数据生成的蒸馏,而是再模型训练阶段,应用8B 和 70B 模型输入的 logits 影响模型loss,也就是传统的蒸馏方法 。
在post-traning阶段,训练模式语Llama3.1分歧,采样监视微调、拒绝采样和间接偏好提升模型。
最后模型允许高低文裁减到 128K 个,同时也针对性提升了模型的多种才干,例如摘要、重写、指令遵照、言语推理和工具经常使用。
Llama Stack名目
Github:
定义并规范化了将生成式 AI 运行程序推向市场合需的构建模块,逾越整个开出现命周期:从模型训练和微调,到评价,再到在消费环境中构建和运转AI Agent。
重要是为了简化开发人员在不同环境(包含单节点、本地、云和设施上)中经常使用 Llama 模型的模式,协助极速成功检索增强生成、工具经常使用等才干的极速部署。
本文转载自,作者: