作者 | 沈旸
出品 | 技术栈(微信号:blog51cto)
关于技术泡沫,大家或者最相熟的就是Gartner的技术成熟度曲线图。过去几年确实产生了许多备受关注的技术,例如云计算、大数据、区块链和元宇宙。新技术让人激动,但很多企业在跟进这些技术时往往优柔寡断,担忧不下注未来会被淘汰,也担忧投入渺小但方向失误。
例如,前几年Facebook押注元宇宙,甚至将公司称号改为Meta,但元宇宙的技术成熟度和市场开展并未到达预期。幸亏,Meta公司在大模型时代及时调整方向,特意是在开源大模型上为社区做出了渺小奉献。那么,这次大模型的技术开展周期是怎么的,会产生短期见顶的状况吗?
Meta于7月23日颁布了Llama 3.1 405B开源人工自动模型,这是Meta迄今为止最弱小的模型,也是目前环球最弱小的开源大模型。在某些方面,超大杯Llama 3.1 405B超越了GPT-4 0125,与GPT-4o和Claude 3.5互有输赢。例如,它在NIH/Multi-Needle基准测试中的得分为98.1,在ZeroScrolls/Quality基准测试中的得分为95.2,在解决长文本方面体现杰出,在Human-Eval基准测试中也略占下风。
从最终成果来看,鼎力仍能出奇观,Scaling Law依然有效。在Llama3.1的大模型中,70B和8B大小参数的模型也比之前的版本有了十分大的功能优化,这两个规模的开源模型十分适宜企业部署。
从2022年底OpenAI推出大模型后,从一开局的聊天运行,到起初的RAG,Agent,多模态,视频解决等,AI的运行落地通常其实是越来越成熟,开源的大模型也被宽泛运行在企业的各种业务场景中。
然而因为一切的大模型都简直用同一套规范的接口,使得大模型很难像传统软件那样打造专属的生态圈,从而建设竞争护城河。用户从一个大模型切换到另外一个大模型,简直不要求什么老本,每个月都会有降级更好用老本更低的大模型进去。这也使得市场和投资界对大模型的商业价值持疑态度,以为其开展或者相似于几年前的各种技术概念泡沫。
Llama 3.1 405 模型是在一个蕴含了16384 块Nvidia H100 80GB GPU 集群上训练了整整54天,其中产生了417 次异常终止。假设依照每小时每张卡3美金的H100租赁老本,加上CPU、内存、磁盘、网络等配件资源每小时估量5美金的成本来算,这次训练就要求1亿美金的配件老本。再加上数据购置、人工训练、保养和调优的费用,一次性大模型的训练老本或者超越2亿美金。而目前SpaceX发射一次性星舰火箭的老本也不到一亿美金,这曾经是商业航天里运力最强的火箭。
目前,人类正以极大的激情投入AI畛域,受益于AI的炽热,英伟达的股价在两年内下跌了10倍以上,市值超越3万亿美元。每个月都有企业发表推出新的大模型,消耗了几个小指标,始终地刷新榜单。这不由让大家联想到20世纪60年代美苏争霸期间的太空比赛。
1957年苏联成功发射环球上第一颗天然卫星——斯普尼克一号。1958年,苏联宇航员尤里·加加林成为第一个进入太空的人,乘坐西方1号(Vostok 1)绕地球飞行。这一事情引发了美国的极大震惊和反响,美国总统艾森豪威尔签订了《国度航空航天法》,成立了美国国度航空航天局(NASA),以应答苏联在太空比赛中的上游位置。
在1969年,美国成功成功了载人登月方案。阿波罗11号义务中,尼尔·阿姆斯特朗(Neil Armstrong)和巴兹·奥尔德林(Buzz Aldrin)成为首批登上月球的人类。阿波罗方案共启动了17次义务,其中6次成功登月,最后一次性是1972年的阿波罗17号。阿波罗方案的实践支出略高于估算,大概为257亿美元。按现值计算,其破费相当于2000亿美元,但它成功了人类历史上的严重打破。太空比赛的角逐中,除了航天技术以外,还推进了计算机技术、资料迷信和通讯技术的提高,咱们当天十分多的技术都孵化于当年的太空探求。
很多人或者会很猎奇,既然登月方案那么成功,人类为什么没有继续转向火星和更远的太空呢?首先,技术上的应战远超预期。火星距离地球悠远得多,火星到地球的距离约为月亮到地球距离的586倍;长达数月甚至数年的飞行期间,以及在生疏星球上生活所需的复杂生命允许系统,都给迷信家们带来了史无前例的难题。其次,高昂的老本也是一个无法漠视的起因,估量火星义务的估算将至少比阿波罗方案高10倍以上。事实是资源有限,必定优先解决地球上的诸多疑问,地球上即使是生活条件最顽劣的中央也比月球和火星更宜居。
虽然过后的各国政府和迷信家们对太空探求都充溢激情,但下一个指标跨度太大、老本太高,让单纯的刷榜行为失去了能源。阿波罗登月这一事情被以为是太空比赛的巅峰,之后美苏的竞争反而转向了地球轨道空间站和无人深空探测等方向。
目前,大模型的训练或者也会遇到相似的瓶颈,那就是下一个指标的老本或者遥无法及。目前最强的开源大模型曾经到达了0亿参数,但仍未成功通用人工自动。假定下一步质变惹起质变的规模是十万亿参数,训练更大的模型往往要求更多的参数,其全体训练量和老本的参与远超越参数增长倍数。训练十万亿规模参数的大模型,或者要求几十万张H100的显卡的集群这样一次性训练的老本或者到达100亿美元。从过去的太空比赛来看,100亿美元单个名目或者是目先人类社会能接受的极限。毕竟,下一个量级的百万亿参数大模型,其对应训练总老本很或者超越1万亿美元,这简直是无法成功的。
假设100亿美金砸下去了,10万亿规模参数的大模型还是没法成功AGI,那么基于Transformer架构的大模型是不是短期就到头了?不过这个结果很或者会启示人们去探求Transformer之外的架构体系,例如量子计算,类脑芯片等。
10万亿规模参数的大模型,会是Transformer架构的登月时辰么?
本文转载自 技术栈 ,作者:沈旸