企业宣传,产品推广,广告招商,广告投放联系seowdb

微软颁布Florence

近日,微软的Azure AI团队在Hugging Face上颁布了一个名为Florence-2的新视觉基础模型。

该模型以宽松的MIT容许证可用,可以处置各种视觉和视觉言语义务,经常使用一致的基于揭示的示意方式。它有两个尺寸——232M和771M个参数,并且在字幕生成、指标检测、视觉定位和宰割等义务上曾经体现杰出,与许多大型视觉模型相媲美甚至更好。

虽然该模型的实践性能尚待测试,但这项上班估量将为企业提供一种处置不同类型视觉运行的一致方法。这将节俭投资于不可逾越其关键配置的独自义务特定视觉模型,并防止了少量的精细调整环节。

Florence-2的共同之处在于什么?

目前,大言语模型(LLM)是企业经营的**。一个模型可以提供摘要、撰写营销文案,甚至在许多状况下处置客户服务。在不同畛域和义务之间的顺应才干令人惊叹。然而,这一成功也让钻研人员思索: 在很大水平上针对特定义务的视觉模型能否能够做到雷同的事件?

图:Florence-2由图像编码器和规范的多模态编码器-解码器组成。钻研人员在FLD-5B数据上以一致的多义务学习范式对Florence-2启动训练,获取了一个通用的视觉基础模型,可以口头各种视觉义务。

从实质上讲,与基于文本的人造言语处置(NLP)相比,视觉义务愈加复杂。它们须要片面的感知才干。基本上,为了成功对多样化视觉义务的通用示意,模型必定能够了解不同尺度上的空间数据,从宽泛的图像级概念(如对象位置)到细粒度的像素细节,以及初级题目到具体形容等语义细节。

当微软尝试处置这个疑问时, 发现了两个关键阻碍 :片面注释的视觉数据集的稀缺性,以及不足一个一致的预训练框架,具备集成了解空间档次结构和语义细粒度才干的繁多网络架构。

为了处置这个疑问,钻研人员首先经常使用专门的模型生成了一个名为FLD-5B的视觉数据集。该数据集包含了1.26亿张图像的54亿个注释,涵盖了从初级形容到特定区域和对象的具体消息。而后,经常使用这些数据,训练了Florence-2。它经常使用了序列到序列的架构(一种设计用于处置顺序数据的神经网络类型),集成了图像编码器和多模态编码器-解码器。这使得模型能够处置各种视觉义务,而无需启动义务特定的架构修正。

钻研人员在具体说明该模型的论文中写道:“数据集FLD-5B中的一切注释都一致规范化为文本输入,便于经常使用一致的多义务学习方法,并与相反的损失函数启动分歧的优化,作为指标。结果是一个多配置的视觉基础模型,能够口头各种义务...并且在一个由一致参数集控制的繁多模型内成功。义务的激活经过文本揭示成功,反映了大型言语模型经常使用的方法。”

性能优于更大的模型

在以图像和文本输入为揭示时,Florence-2可以处置各种义务,包含指标检测、字幕生成、视觉定位和视觉问答。更关键的是,它以与许多更大的模型相媲美甚至更好的品质启动处置。

例如,在COCO数据集上启动零样本字幕生成测试时,Florence-2的232M和771M版本的得分区分为133和135.6,优于Deepmind的领有800亿参数的Flamingo视觉言语模型。它们甚至比微软自己专门用于视觉定位的Kosmos-2模型体现更好。

当经常使用公共人工注释数据启动精调时,虽然尺寸较小,Florence-2能够在视觉问答等义务上与几个更大的公用模型竞争。

钻研人员指出:“预训练的Florence-2主干模型提高了下游义务的性能,如COCO指标检测和实例宰割,以及ADE20K语义宰割,超越了监视和自监视模型。与在ImageNet上启动预训练的模型相比,咱们的模型训练效率提高了4倍,并在COCO和ADE20K数据集上区分取得了6.9、5.5和5.9个点的清楚改良。”

目前,Florence-2的预训练和精调版本,包含232M和771M的模型,在Hugging Face上以宽松的MIT容许证下提供,准许有限度地启动商业经常使用或公家经常使用的散发和修正。

幽默的是看到开发人员如何经常使用它,并缩小为不同义务经常使用独自的视觉模型的需求。小而义务有关的模型不只可以节俭开发人员经常使用不同模型的须要,还可以大幅缩小计算老本。

译自(有删改):

原文链接:​ ​​ ​

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender