企业宣传,产品推广,广告招商,广告投放联系seowdb

Meta颁布1B和3B端侧模型 11B和90B多模态模型 Llama3.2开源

早上起来发现,Meta AI又开源模型,文本模型开源了端侧小模型1B和3B模型,也是初次开源了多模态大模型11B和90B两个版本;同时还开源了一个 Llama Stack名目。

Blog:https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

其中Llama3.2多模态模型在图像识别和一系列视觉了解义务方面成果优于Claude 3 Haiku 和 GPT4o-mini。文本模型-Llama3.2-3B模型在循指令、总结、揭示重写和工具经常使用等义务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型。

多模态模型成果

端侧模型成果

多模态模型

Llama3.2的11B和90B模型多模态是基于Llama3.1-8B、70B文本模型上,增量参与图像模型。

pretrain阶段:

posting-train阶段:

端侧小模型

1B和3B模型都是基于8B模型裁剪后启动模型初始化,并且应用8B和70B模型启动模型蒸馏,9T数据预训练。

特意留意,这里蒸馏不是那种经过更大模型启动数据生成的蒸馏,而是再模型训练阶段,应用8B 和 70B 模型输入的 logits 影响模型loss,也就是传统的蒸馏方法

在post-traning阶段,训练模式语Llama3.1分歧,采样监视微调、拒绝采样和间接偏好提升模型。

最后模型允许高低文裁减到 128K 个,同时也针对性提升了模型的多种才干,例如摘要、重写、指令遵照、言语推理和工具经常使用。

Llama Stack名目

Github:

定义并规范化了将生成式 AI 运行程序推向市场合需的构建模块,逾越整个开出现命周期:从模型训练和微调,到评价,再到在消费环境中构建和运转AI Agent。

重要是为了简化开发人员在不同环境(包含单节点、本地、云和设施上)中经常使用 Llama 模型的模式,协助极速成功检索增强生成、工具经常使用等才干的极速部署。

本文转载自​​,作者:

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender