大家好,我是HxShine。
前段期间Google推出Gemini多模态大模型,展现了非凡的对话才干和多模态才干,其体现终究如何呢?
本文对Gemini报告启动剖析,总的来说Gemini模型在图像、音频、视频和文本了解方面体现出出色的才干。其包括 Ultra、Pro 和 Nano 尺寸,能够实用于从复杂推理义务到设施内存受限用例的各种运行。
不像OpenAI接入多模态才干须要应用多个不同的模型,Google间接在预训练阶段间接接受多模态的输入是Gemini的特点之一,它能够间接处置多模态的数据,并且各名目的都还不错。另外可以看出具有图文了解等才干后,再结合大模型的对话才干,能够带来更冷艳的效果体验。
一、概述
Title:Gemini: A Family of Highly Capable Multimodal Models
论文地址:
1Motivation
颁布Google的能与GPT4竞争的大模型,同时兼具多模态才干,包括文字、图像、视频、音频识别与了解才干。
1)Gemini模型允许4种格局输入,2种格局输入
特点:同时允许text文本,image图像,video视频和audio音频输入,允许文本和图片的输入。可以间接处置音频文件,不须要将音频转为文字等。
猜想的训练方法(张俊林:):
2)Gemini模型有多个版本,最小有1.8B
特点:其中Nano首先从大模型蒸馏,而后4bit量化。Gemini Nano蕴含两个版本:1.8B面向低端手机,3.25B面向上流手机。
3 Conclusion
1)文本了解:Ultra性能超越了GPT4
2)图像了解:zero-shot效果超越很多微调后的模型
3)视频了解:超越之前的few-shot SoTA模型
4)不同版Genmini模型的性能
Nano2模型很多超越了Pro版本的50%,局部到达90的水平,效果还不错。
5)多语种翻译:性能超越GPT4
翻译才干也是比GPT-4好,WMT23目的中4个有3个超越GPT4的体现。
6)图像了解数据集:MMMU数据个体现
二、详细内容
1 多模态推理才干:识别手写答案,对物理疑问启动解答
特点:识别书写结果,这个和OpenAI之前演示的依据草图写前端代码是一样的,不过识别的准确率是存疑的。
2 多模态推理才干:从新组织子图顺序
处置此义务须要模型具有以下才干:
3 图像生成才干:多模态了解+图像生成
要具有下面的配置须要以下才干:
4 语音了解才干:具有语音识别和语音翻译才干
对比的是OpenAI的Whisper,看着Gemini就是把多个SoTA模型包装起来了。
5 多模态了解:允许图片+音频输入
这个gptv+加个语音转文字的模型可以做,这里的特点或许是间接用一个模型就可以处置?
三、多模态才干展现
1 几何推理才干:求平行四边形的高
2 视觉多模态推理才干:依据图片确定地点
3 多言语知识推理:识别中文相关图
4 视频了解才干:剖析视频中的人如何优化足球技术
四、总结
本文转载自,作者: