“o1发布后,一个新的范式发生了” 。
其中关键,OpenAI钻研迷信家、o1**奉献者 Hyung Won Chung ,刚刚就此分享了他在MIT的一次性演讲。
演讲主题为“Don’t teach. Incentivize,**观念是:
思想链作者Jason Wei 迅速赶来打call:
Hyung Won识别新范式并齐全丢弃任何漂浮老本的才干给我留下了深入的印象。2022年底,他看法到了强化学习的力气,并从那时起就不时在宣扬它。
在演讲中,Hyung Won还分享了:
上方奉演出讲关键内容。
看待AI:授人以鱼不如授人以渔
先便捷引见下 Hyung Won Chung ,从发布的o1背先人员名单来看,他属于 推理钻研的基础奉献者 。
资料显示,他是MIT博士 (方向为可再活泼力和动力系统) ,去年2月参与OpenAI担任钻研迷信家。
参与OpenAI之前,他在 Google Brain 担任大言语模型的预训练、指令微调、推理、多言语、训练基础设备等。
在谷歌上班时期,曾以一作身份,宣布了关于模型微调的论文。
回到正题。在MIT的演讲中,他首先提到:
在他看来,AI畛域正处于一次性 范式转变 ,即从传统的间接传授技艺转向处罚模型自我学习和开展通用技艺。
理由也很直观,AGI所蕴含的技艺太多了,无法逐一学习。
详细咋处罚呢??
他以 下一个token预测 为例,说明了这种 弱处罚结构 如何经过 大规模多义务学习 ,处罚模型学习处置数万亿个义务的通用技艺,而不是独自处置每个义务。
他观察到:
假设尝试以尽或许少的致力处置 数十个义务 ,那么 独自形式 识别每个义务或许是最便捷的;假设尝试处置 数万亿个义务 ,经过学习 通用技艺(例如言语、推理等) 或许会更容易处置它们。
对此他打了个比如,“授人以鱼不如授人以渔”,用一种基于处罚的方法来处置义务。
而后AI就会自己出去钓鱼,在此环节中,AI将学习其余技艺,例如耐烦、学习浏览天气、了解鱼等。
其中一些技艺是通用的,可以运行于其余义务。
面对这一“谆谆告诫”的环节,兴许有人以为 还不如间接教来得快 。
但在Hyung Won看来:
换句话说,面对有限的时期,人类兴许还要在专家 or 通才之间做选用,但关于机器来说,算力就能出奇观。
他又举例说明,《龙珠》里有一个设定:在不凡训练场合,角色能在外界觉得只是一天的时期内取得一年的修炼效果。
要素也妇孺皆知,大型通用模型能够经过大规模的训练和学习,极速顺应和把握新的义务和畛域,而不须要从头开局训练。
他还补充道,数据显示 计算才干大概每5年提高10倍 。
总结上去,Hyung Won以为**在于:
此外,他还以为存在,即人们正在试图 让AI学会像人类一样思索 。
但疑问是,咱们并不知道自己在是如何思索的。
在他看来,一个系统或算法过于依赖人为设定的规定和结构,那么它或许难以顺应新的、未预感的状况或数据。
形成的结果就是,面对更大规模或更复杂的疑问时,其扩展才干将会受限。
回忆AI过去70年的开展,他总结道:
与此同时,面对领先人们对scaling Law的质疑,即以为仅仅扩展计算规模或许被以为不够迷信或幽默。
Hyung Won的看法是:
举个例子,在机器学习中,一个模型或许在小数据集上体现良好,但是当数据量参与时,模型的性能或许会降低,或许训练时期会变得无法接受。
这时,或许须要改良算法,优化数据处置流程,或许扭转模型结构,以顺应更大的数据量和更复杂的义务。
也就是说,一旦识别出瓶颈,就须要经过翻新和改出去交流这些假定,以便模型或系统能够在更大的规模上有效运转。
训练VS推理:效果相似,推理老本却廉价1000亿倍
除了上述,o1另一**作者也分享了一个观念:
这象征着,在模型开发环节中,训练阶段的资源消耗十分渺小,而实践经常使用模型启动推理时的老本则相对较低。
有人以为这凸显了未来模型优化的后劲。
不过也有人对此持疑心态度,以为二者压根没法拿来对比。
对此,你怎样看?