在过去的一年里,LLM 因其先进的AI才干而备受关注。值得留意的是,苹果(Apple)公司却列席了。
目前,苹果公司正在谈判将谷歌的Gemini人工智能引擎植入 iPhone。而苹果不时努力于开发下一代 LLM,一种可以解释图像和文本数据的 LLM。
近日,苹果的计算机迷信家和工程师团队开发了一种 LLM 模型,宣称该模型可以解释图像和数据。
苹果构建了一个多模态模型系列——MM1,包括高达 30B 的 dense 变体和高达 64B 的专家混合 (MoE) 变体,它们在预训练目的中是SOTA,并在对一系列已建设的多模态基准启动监视微调后取得具备竞争力的性能。
该钻研以《MM1:多模态 LLM 预训练的方法、剖析和见地》(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)为题,宣布在 arXiv 预印上,形容了他们新的 MM1 系列多模态模型和测试结果。
多模态 AI 的上班原理是集成和解决不同类型的数据输入,例如视觉、听觉和文本消息。这种集成使人工智能能够更片面地理解复杂数据,从而比单模态人工智能系统做出更准确和高低文感知的解释。
苹果的钻研团队宣称,他们在 MM1 模型中经常使用多模态 AI 方面取得了严重停顿,该模型集成了文本和图像数据,以提高图像字幕、视觉问答和查问学习的才干。他们的 MM1 是他们所形容的多模态模型系列的一局部,每个模型都蕴含多达 300 亿个参数。
图 1:在 MLLM 基准测试中与 SOTA 模型的比拟。
图 2:MM1 仰仗其大规模多模态预训练可以口头高低文预测。
钻研人员指出,此类模型应用由图像捕捉对、蕴含图像和纯文本文档的文档组成的数据集。
钻研人员进一步宣称,他们的多模态 LLM (MLLM) 可以计算对象、识别图像中的对象,并应用日常对象的知识为用户提供无关图像所出现内容的有用消息。
图 3:MM1 可以跨图像口头指令和推理。
钻研人员还宣称,他们的 MLLM 能够启动情境学习,这象征着它不须要每次提出疑问时都从新开局;它经常使用在对话中学到的知识。
图 4:钻研了图像分辨率和预训练对监视微调(SFT)性能的影响。
该团队提供了模型初级配置的示例,其中包括上行一群好友在酒吧拿着菜单的图像,并征询模型依据菜单中列出的多少钱为每团体购置一杯啤酒须要多少钱。
钻研人员示意,“咱们宿愿所确定的阅历经验将协助社区构建逾越任何繁多特定模型架构或数据战略的弱小模型。”
原文链接: