正告!不要在ChatGPT里问最新o1模型是怎样思索的——
只需尝试几次,OpenAI就会发邮件 要挟撤销你的经常使用资历 。
大模型新范式o1横空入世不到24小时,就曾经有不少用户反应收到这封正告邮件,惹起众人不满。
有人反应只需提醒词里带“reasoning trace”、“show your chain of thought”等关键词就会收到正告。
甚至齐全防止产生关键词,经常使用其余手腕诱导模型绕过限度都会被检测到。
也有人宣称自己真的被封号了,为期一周。
这些用户都在试图套话o1,让他复述出 完整的外部思想环节 ,也就是所有原始reasoning tokens。
目前,大家在ChatGPT界面经过倒退按钮 看到的 ,只是一份对原始思想环节的 摘要 。
实践上,在o1颁布时OpenAI就给出了暗藏模型完整思想环节的理由。
总结一下:OpenAI外部须要监测模型的思想环节,因此不能在这些原始tokens中参与安保限度,也就不繁难让用户看到。
不过这个理由并不是一切人都认可。
有人指出, o1思想环节就是其余模型最好的训练数据 ,所以OpenAI不想这些贵重数据被别的公司扒走。
也有人以为这说明o1真的没有什么护城河,一旦思想环节泄露就很容易被他人复制。
以及“这是让咱们只需自觉置信AI的答案,不用做出任何解释吗?”
关于o1模型面前的技术原理,这次泄漏的相当少,有效信息简直只要“用了强化学习”。
总之,OpenAI是越来越不Open了。
o1就是草莓,但并非GPT-5
目前可以确定o1就是OpenAI炒作很久了的 “草莓” ,或许说是用了“草莓”所代表的方法。
但他可以算作下一代模型GPT-5么,还是只是GPT-4.X?
越来越多的人开局疑心,它只是基于GPT-4o做的工程调整。
出名爆料账号Flowers(原Flowers from the future)称, OpenAI员工外部把o1称做“带推理的4o” 。
并且 他宣称很多OpenAI员工默默点赞了这条爆料 ,上方的截图也正是来自OpenAI员工。
但马斯克前一阵把推特改版成除了楼主以外其他人不可看到谁点赞了什么,所以目前还不可证明这条信息。
在OpenAI开发者账号刚刚举行的“有问必答”优惠中,Flowers也做了追问。
OpenAI员工在这里回答了很多疑问,但逃避了这个点赞很多排在前面的疑问。
甚至奥特曼本曼刚刚又进去当谜语人,暗示“草莓”曾经告一段落,下一款代号 “猎户座”Orion 的新模型还在路上。
此前有信息称“猎户座”是OpenAI的下一代新旗舰模型,由“草莓”也就是o1生成的分解数据训练。
而猎户座正是奥特曼口中“夏季星座”的代表之一。
说回到已颁布的o1,围绕它的另一种批判声响是 “不合乎科研规范” 。
例如 没有援用之前推理期间计算的相关上班 ,同时也 缺乏与其余公司最先进模型的比拟 。
针对前一点,有人指出OpenAI曾经不再是一个钻研试验室,应该被视为一家商业公司了。
不过针对后一点,既然API颁布了,要不要与其余前沿模型比拟就由不得你了,很多第三方Benchmark已陆续跑出结果。
在Keras之父举行的100万美金较量中,o1-preview和o1-mini两个版本在地下测试集上都 超越了自家GPT-4o 。
但o1-preview 只是打了个平手 。
在o1着重宣传的 代码才干 上, 开源结对编程工具aider 团队运转了测试,o1系列也 没有取得显著长处 。
关于整个代码重写义务,o1-preiview取得79.7分,Claude-3.5-Sonnet取得75.2分,o1上游4.5分。
但关于更适用的代码编辑义务,o1-preview反而落后于Claude-3.5-Sonnet,有2.2分的差距。
另外aider团队提醒,假设目前想用o1系列代替Claude编程,老本上要高很多。
与OpenAI有协作相关的 “AI程序员”Devin 团队,曾经提早拿到了o1访问资历。
由o1系列驱动Devin基础版本,与GPT-4o相比取得十分大的优化。
不过 相比已颁布的Devin消费版本还是有较大差距 ,关键是由于Devin消费版本在专有数据上启动了训练。
另外根基Devin团队分享,o1在得出正确的处置方案之前通常会回溯并思索不同的选项,并且不太或许产生幻觉或自信地失误。
经常使用o1-preview时,Devin 更有或许正确诊断bug的基本要素,而不是处置疑问的症状 。
在更注重数学和逻辑推理的榜单中,o1-preview在代 码单项落后 的状况下,总分上 超越Claude-3.5-Sonnet并拉开显著差距 。
Livebench团队分享这还只是初步结果,由于很多测试中还内置了“请一步一步地思索”等提醒词技巧,这并不是经常使用o1的最佳方法。
在中文大模型综合测评基准 SuperCLUE的中文复杂义务高阶推理测试 中, o1-preview的推理才干也大幅上游 。
最后总结一下,经常使用o1模型还须要留意的一些中央:
总之围绕OpenAI新模型o1,开发者社区还有很多不懂。
o1开启了AI高阶推理的新范式,但它自身还不算完善,如何施展他的最大价值还有待探求。
在此背景下,OpenAI举行的“有问必答”优惠,在4个小时内就收到上百条提问。
上方附上对整场优惠内容的精选和总结。
OpenAI员工“有问必答”
首先关于这个突然颁布的新模型,很多人猎奇为什么OpenAI给它取了o1这样一个名字?
这是由于在OpenAI看了,o1代表了AI才干的一个新的层级,因此对“计数器”启动了重置,而o则代表OpenAI。
就像o1颁布时奥特曼说的,可以启动复杂推理的o1,是一个新范式的开局。
关于其中preview和mini两个版本号,OpenAI迷信家也确认了网友的一些猜想——
preview是一个暂时版本, 正式版将在未来上线 (实践上preview版本是o1的一个早期checkpoint);而 mini版不保障近期之内会有降级 。
配合OpenAI成员Kevin Lu之前颁布的这张图来看,就愈加明晰明了了。
与preview相比,mini在某些义务上体现杰出,尤其是与代码相关的义务,还可以探求更多的思想链,但环球知知趣对少些。
对此,OpenAI迷信家赵盛佳的解释是, mini是一个高度专门化的模型,只关注少局部的才干 ,所以可以更深化。
也算是揭晓了之前奥特曼在这个疑问上打的一个哑谜。
关于o1的运作形式,OpenAI迷信家Noam Brown也明白示意,并非是像局部网友以为的模型+CoT组成的“系统”,而是一个 曾经被训练得原生具有生成思想链才干的模型 。
不过推理环节中的思想链会被暗藏,并且官网曾经明白了没有向用户展现无关token的方案。
对此OpenAI泄漏的为数不多的信息是,CoT的相关token是总结性的,且不保障齐全和推理环节婚配。
除了推理形式,在这次问答优惠中还能够得悉, o1与GPT-4o相比可以处置更长的文本,而且未来还会继续参与 。
体现上,在OpenAI外部的测试中, o1浮现出了哲学推理才干 , 可以思索诸如“生命是什么?”之类的哲学识题。
钻研人员还经常使用o1创立了一个GitHub机器人,能够将代码ping给一切者以供查看。
当然关于一些非推理性质的义务,比如 创意写作,o1的体现相比GPT-4o优化并不显著,甚至有时还要略逊一筹 。
另外综合一些提问来看,关于网友们关心的一些未上线配置,OpenAI示意正在或有方案钻研,但没有明白的上线
性能上,OpenAI也正在着手降低提早和推理所需期间。
最后是人们,尤其是API用户关心的多少钱疑问,毕竟思索到将推理环节计入输入token,o1的定价还是比拟高的。
OpenAI示意 “将遵照每1-2年提价的趋向” ,并且在经常使用量限度变得更宽松时,批量API定价也会上线。
网页/APP端的Plus用户,目前则是要遭到每周preview30条+mini50条信息的限度。
不过好信息是,就在当天清晨,由于人们对o1真实太激情,造成很多人很快就把额度用完,所以 OpenAI特例把额度重置了一次性 。