自从OpenAI于2023年3月推出其弱小的专有大型言语模型GPT-4 —— 即 18 个月前 —— 以来,用户和开发者们不时在猜想,这家在硅谷及世界掀起GenAI热潮的公司何时会推出下一个版本,估量将命名为GPT-5。
但是,理想证实,GPT系列临时被一整个全新模型家族所逾越。
当天,经过数月的报道和风闻,尤其是在最近几天更增强烈的探讨后,OpenAI 发表推出其“o1” AI模型家族,首批蕴含两个模型:o1-preview和o1-mini。公司示意,这些模型旨在“推理复杂义务并处置比GPT系列更难的疑问”。
这两个模型现已向ChatGPT Plus用户放开,但最后限度为每周o1-preview只能发送30条信息,o1-mini则为50条。
但是,OpenAI 也提示用户:“作为一个早期模型,它还没有许多使 ChatGPT 适用的配置,例如经过网络阅读信息和上行文件及图片。在许多经常出现状况下,GPT-4o 在短期内依然更为弱小。”
确实,咱们在最后的测试中尝试让其为这篇文章生成图片时发现它不可实现。在 OpenAI 的 API 平台网站上,公司明白示意,这个模型家族在测试阶段仅允许“文本内容,暂不允许图片”。
o1系列在GPT模型上的长处
OpenAI 宣称其新的 o1 系列特意适宜于在迷信、医疗保健和技术等畛域处置复杂疑问的用户。
OpenAI 想象这些模型将被宽泛运行,从协助物理学家为量子光在校生成数学公式,到协助医疗钻研人员为细胞测序数据做标注。
开发者也会发现 o1-mini 模型在构建和口头多步骤上班流、调试代码以及高效处置编程应战方面颇具功效。
o1-preview的体现到达博士生水平
o1-preview 模型旨在经过花更多期间思索和优化照应来处置当战性义务,相似于人类面对复杂疑问时的应答形式。
在测试中,这种方法使该模型在物理学、化学和动物学等畛域的体现凑近博士生水平。
此外,o1-preview 模型在编程方面体现优秀,在 Codeforces 编程较量中排名第 89 百分位,展现了其处置多步骤上班流、调试复杂代码和生成准确处置方案的才干。
在国内数学奥林匹克竞赛 (IMO) 预选考试等基准测试中,o1-preview 展现了其出色才干,成功处置了 83% 的疑问,清楚逾越其前任 GPT-4o 仅 13% 的成功率。
它曾经向ChatGPT的Plus和Team用户放开经常使用,Enterprise和Edu用户将在下周取得访问权限。该模型也经过OpenAI API提供应合乎API经常使用第5层级的开发者,虽然最后会有速率限度。
o1-mini配置较弱但廉价80%
与o1-preview同时,OpenAI还推出了o1-mini模型,这是一个更精简的版本,旨在提供更快且更廉价的推理才干。
虽然o1-mini关键针对编程和STEM义务启动了优化,但它在数学和编程畛域依然体现出色。
在IMO数学基准测试中,o1-mini得分为70%,简直与o1-preview的74%持平,同时推理老本清楚降落。在编码评价中,它也体现出色,在Codeforces上取得了1650的Elo评分,位于前86%的程序员之列。
与o1-preview相比,o1-mini的多少钱廉价了80%,它关键面向那些须要推理才干但不须要o1-preview模型所具有的宽泛常识的开发者和钻研人员。
这一具有老本效益的处置方案也将向ChatGPT Plus、Team、Enterprise和Edu用户放开,未来还方案向ChatGPT Free用户裁减经常使用权限。
安保性和保证增强
为了遵守OpenAI对安保性的承诺,这两个模型都驳回了一种新的安保训练方法,以增强它们遵照安保和对齐准绳的才干。
OpenAI指出,o1-preview在其最严苛的越狱测试之一中得分到达了84分,相较于GPT-4o的22分有了清楚优化。能够在高低文中推理安保规定,使这些模型更好地处置不安保的提示,防止生成不适当的内容。
作为更宽泛安保努力的一局部,OpenAI已与美国和英国的AI安保钻研所达成协定。
这些协作包括为钻研版本的o1模型提供早期访问权限,以协助评价和测试未来的AI系统。
OpenAI的安保上班还包括片面的外部控制,并与联邦政府协作,经过活期测试、红队测试以及公司安保与保证委员会的董事会层级监视来增强安保性。
OpenAI的o1系列未来展望
虽然o1-preview和o1-mini模型在推理和疑问处置方面曾经是弱小的工具,OpenAI抵赖这只是一个开局。
公司方案活期降级和改良这些模型,包括参与API版本尚不允许的配置,如阅读、文件和图像上行以及函数调用。
展望未来,OpenAI将继续开发其GPT和o1系列,进一步裁减AI在各个畛域的才干。用户可以等候不时的提高,由于公司努力于提高这些模型在不同运行中的适用性和可访问性。