比试图教会AI每一项义务更关键处罚AI自我学习 o1外围作者MIT演讲

“o1发布后，一个新的范式发生了” 。

其中关键，OpenAI钻研迷信家、o1**奉献者 Hyung Won Chung ，刚刚就此分享了他在MIT的一次性演讲。

演讲主题为“Don’t teach. Incentivize，**观念是：

思想链作者Jason Wei 迅速赶来打call：

Hyung Won识别新范式并齐全丢弃任何漂浮老本的才干给我留下了深入的印象。2022年底，他看法到了强化学习的力气，并从那时起就不时在宣扬它。

在演讲中，Hyung Won还分享了：

上方奉演出讲关键内容。

看待AI：授人以鱼不如授人以渔

先便捷引见下 Hyung Won Chung ，从发布的o1背先人员名单来看，他属于 推理钻研的基础奉献者 。

资料显示，他是MIT博士（方向为可再活泼力和动力系统），去年2月参与OpenAI担任钻研迷信家。

参与OpenAI之前，他在 Google Brain 担任大言语模型的预训练、指令微调、推理、多言语、训练基础设备等。

在谷歌上班时期，曾以一作身份，宣布了关于模型微调的论文。

回到正题。在MIT的演讲中，他首先提到：

在他看来，AI畛域正处于一次性 范式转变 ，即从传统的间接传授技艺转向处罚模型自我学习和开展通用技艺。

理由也很直观，AGI所蕴含的技艺太多了，无法逐一学习。

详细咋处罚呢？？

他以 下一个token预测 为例，说明了这种 弱处罚结构 如何经过 大规模多义务学习 ，处罚模型学习处置数万亿个义务的通用技艺，而不是独自处置每个义务。

他观察到：

假设尝试以尽或许少的致力处置 数十个义务 ，那么 独自形式 识别每个义务或许是最便捷的；假设尝试处置 数万亿个义务 ，经过学习 通用技艺（例如言语、推理等） 或许会更容易处置它们。

对此他打了个比如，“授人以鱼不如授人以渔”，用一种基于处罚的方法来处置义务。

而后AI就会自己出去钓鱼，在此环节中，AI将学习其余技艺，例如耐烦、学习浏览天气、了解鱼等。

其中一些技艺是通用的，可以运行于其余义务。

面对这一“谆谆告诫”的环节，兴许有人以为 还不如间接教来得快 。

但在Hyung Won看来：

换句话说，面对有限的时期，人类兴许还要在专家 or 通才之间做选用，但关于机器来说，算力就能出奇观。

他又举例说明，《龙珠》里有一个设定：在不凡训练场合，角色能在外界觉得只是一天的时期内取得一年的修炼效果。

要素也妇孺皆知，大型通用模型能够经过大规模的训练和学习，极速顺应和把握新的义务和畛域，而不须要从头开局训练。

他还补充道，数据显示 计算才干大概每5年提高10倍 。

总结上去，Hyung Won以为**在于：

此外，他还以为存在，即人们正在试图 让AI学会像人类一样思索 。

但疑问是，咱们并不知道自己在是如何思索的。

在他看来，一个系统或算法过于依赖人为设定的规定和结构，那么它或许难以顺应新的、未预感的状况或数据。

形成的结果就是，面对更大规模或更复杂的疑问时，其扩展才干将会受限。

回忆AI过去70年的开展，他总结道：

与此同时，面对领先人们对scaling Law的质疑，即以为仅仅扩展计算规模或许被以为不够迷信或幽默。

Hyung Won的看法是：

举个例子，在机器学习中，一个模型或许在小数据集上体现良好，但是当数据量参与时，模型的性能或许会降低，或许训练时期会变得无法接受。

这时，或许须要改良算法，优化数据处置流程，或许扭转模型结构，以顺应更大的数据量和更复杂的义务。

也就是说，一旦识别出瓶颈，就须要经过翻新和改出去交流这些假定，以便模型或系统能够在更大的规模上有效运转。

训练VS推理：效果相似，推理老本却廉价1000亿倍

除了上述，o1另一**作者也分享了一个观念：

这象征着，在模型开发环节中，训练阶段的资源消耗十分渺小，而实践经常使用模型启动推理时的老本则相对较低。

有人以为这凸显了未来模型优化的后劲。

不过也有人对此持疑心态度，以为二者压根没法拿来对比。

对此，你怎样看？

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#o1 #老本 #AI

比试图教会AI每一项义务更关键 处罚AI自我学习 o1外围作者MIT演讲

看待AI：授人以鱼不如授人以渔

训练VS推理：效果相似，推理老本却廉价1000亿倍

比试图教会AI每一项义务更关键处罚AI自我学习 o1外围作者MIT演讲