北京时间凌晨一点,OpenAI 突然进行了重大更新。
已经预热了接近一年的 Q*/草莓项目,cs中能够进行高级推理的大语言模型,今晚终于露出了真面目。
OpenAI 发推表示,刚刚推出了 OpenAI o1-preview 模型——名字的含义之前外媒已经爆料过,o1 应该代表着 OpenAI 下一代大模型的 Orion(猎户座)一代。
OpenAI 在
发布文档中写道,新模型在 推理能力上代表了 人工智能能力的 新水平,因此,计数器将重置为 1 ——这意味着未来很可能不会有 GPT-5 了,o1 将代表未来 OpenAI 的最强水平。且从今天开始,ChatGPTPlus 和 Team 用户就能够直接访问模型。
用户可以手动选择使用 o1 模型的
预览版——o1-preview,或者 使用 o1 模型的 小尺寸版——o1-mini。o1-preview 的 每周限制为 30 条消息,o1-mini 的 每周限制为 50 条。在
OpenAI 的 模型介绍网页上,可以看到 o1 模型的训练数据截止时间为去年十月份,而最 早的 Q*项目的 爆料,正好大概出现在 去年十一月份。OpenAI 憋了
一年的 大招究竟如何?OpenAI 能否再一次引领大模型的潮流,甚至让人们看到通用人工智能之路不再遥远?很快,每个人都能检验这一点了 。Sam Altman 凌晨一点在 X 上发帖:「需要耐心等待的时刻结束了!」
o1 模型:解决博士级别的科学问题超越人类
截止发稿时,笔者还不能使用 o1 模型。
不过 OpenAI 已经放出了大量相关的 o1 模型表现展示。
最
引人关注的 当然 是 新模型的 推理能力。Sam Altman 直接在 X 上贴出了 o1 与 GPT-4o 在 数学、编程和 解决博士级别科学题目上的 能力对比。最
左边的 柱形代表目前 OpenAI 的 主力模型 GPT-4o。今天放出来的 o1 预览版为中间的 橙色柱形。可以看到,在 2024 年美国数学邀请赛的竞赛题和 Codeforces 算法竞赛题上,o1 预览版解决数学和
编程问题的能力,比起 GPT-4o,提升了 5-6 倍。而可怕的 是 ,深橙色的 柱形,代表真正的 o1,相比于 GPT-4o,提升了 8-9 倍!最后一个图中,OpenAI 还列出了
人类专家在 解决博士级别科学题目的 时的 成功率,大约在 69.7%,而 o1 预览版和 o1,都已经超过 了 人类专家的 水平。OpenAI 的技术博客提到了
更具体的 数字,目前 o1 模型的 成绩,在 美国数学邀请赛上,可以排名进入美国前 500 名。而物理、生物和化学问题上的 准确度,超过 了 人类博士的水平。在
大模型技术进入公众视野的 两年内,一个经常为人们所 使用的 比喻是 ,大模型像一个什么都懂一点的 大学生,在 知识专精方面远远不行,但 是从天文到地 理,最 基础的 知识都能懂一点点。OpenAI 的 新模型,很有 可能要刷新人们的 这一认知了 。在官方博客中,OpenAI 简单解释了这一进步背后的原理。
类似于人类在回答难题之前可能会思考很长时间,o1 在尝试解决问题时会使用一系列思维。通过强化学习,o1 学会了
磨练其思维链并完善其使用的策略。它学会了认识并纠正错误,将棘手的 步骤分解为更简单的 步骤。当当前方法不起作用时,它会尝试另一种方法。这个过 程极大地 提高了 模型的 推理能力。在
OpenAI 给的 案例中。GPT-4o 和 o1 模型同时回答同一个问题——读一段长文,然 后做阅读理解。在 o1 模型中,会多一个选项叫做展开思维链。如
果不展开思维链,我 们可以看到两个模型本身给出的 答案是 不同的 。而打开思维链后,则会看到一段非常长的模型和 自己的思维对话,解释为什么做出了不同的 选择。选 A 吗?emm,好像不是很好。选 B 吗?好像没有
关联。模型完全在 自己和 自己提问和 回答,最 后判断出了 哪个答案更好。而在另一个例子中,解决化学问题时,我们可以看到 o1 模型甚至自己在选择多种方案对比。
标准的计算方式是这样。但是我们也可以这么计算,但这样或许没有必要?
在多次纠正自己之后,它得出了正确的答案。
之前,也
已经有 很多报道透露过 o1 模型能够有 高推理能力的 原理——这一训练方法,最 早来自于 斯坦福大学 2022 年开发的 一种「自学推理」(Self-Taught Reasoner,STaR)。后来研究人员进一步开发了
一种名为"Quiet-STaR"的 新技术,翻译过 来大概为"安静的 自学推理"。核心为在 每个输入 token 之后插入一个"思考"步骤,让 AI 生成内部推理。然 后,系统会评估这些推理是 否有 助于 预测后续文本,并相应地 调整模型参数。这也 是 人们推测 OpenAI 最 早的 模型项目为什么叫 Q*(读作 Q Star)的 原因。在
o1 模型出现之前,用户通常也 可以自己通过 和 模型对话的 方式,让模型进行一步一步的 思考,也 就是 所 谓的 慢思考,进行更准确的 回答。但 是 很明显,o1 模型此次将思维链放大到了 完全不同的 量级上。而且,在
之前的 用户 prompt 引导中,模型能够回答出什么答案,最 终也 还要被模型能力限制。而通过 不同的 训练方式训练出来的 o1 模型,很有 可能能够通过 自己的 推理,超越自身训练材料的 限制,产出更高级和 准确的 答案。在复杂推理任务上的进步,可能对编程和科学研究两个方向产生直接的推动。
OpenAI 提到,在
未来,医疗保健研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 生成量子光学所 需的 复杂数学公式,所 有 领域的 开发人员可以使用 o1 来构建和 执行多步骤工作流程。OpenAI提供了一个例子,真正做到了只使用提示词,就完成了一个游戏的编程。
而推理能力的
进步,如 果能够进一步消除模型的 幻觉,还可能对 AI 应用的 建构产生间接的 影响。对未来的 AI安全也 有积极的 影响——之前的 一些通过提示词工程误导模型进行错误输出的 手段,可能会直接被模型通过 更强的 思考能力解决。OpenAI o1-preview 将在今天开始能够在 ChatGPT 上使用,并提供给受信任的API用户。
价格没涨,OpenAI 用 o1-mini 解决推理成本问题
在
OpenAI 此次发布之前,曾有不少媒体爆料,新模型因为内部推理链条较长,对于 推理的 算力成本的 需求进一步增高,OpenAI 很有 可能将提高使用模型的 费用,甚至最 离谱的 猜测数字达到每月 2000 美金。而此次 OpenAI 的
发布,却令人惊讶,新模型的 使用价格并没有 上涨,虽然 因为推理成本的 原因,使用次数受到了 大大的 限制。o1-preview 的 每周限制使用条数为 30 条消息。除了限制使用条数,OpenAI管控推理成本的
另一个重要举措,是随着 o1 模型的 推出,同时推出了 o1-mini 版。OpenAI 没有具体说明 o1-mini 的
参数量有 多大,但 通过 技术文档可以看出,o1mini 版,和 o1 版上下文长度没有区别,甚至最 大输出 token 数更高。OpenAI 表示 o1-mini 尤其擅长准确生成和
调试复杂代码,对于 开发人员尤其有 用。作为较小的 模型,o1-mini 比 o1-preview 便宜 80%,这使其成为需要推理但 不需要广泛的 世界知识的 应用程序的强大且 经济高效的 模型。OpenAI 甚至还计划之后为所有 ChatGPT 免费用户提供 o1-mini 访问权限。
不过
,作为新模型,o1 系列模型,目前仍然 不能浏览网页以获取信息以及上传文件和 图像。OpenAI 也 提示道,GPT-4o 在短期内,在某些任务上会更强一些。Scaling Law 后最重要的进展?
事实上,此次发布了新的模型,甚至不是 OpenAI 的发布中唯一重要的事情。
OpenAI 还提及了自己训练中发现的一个现象:随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能能持续提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。
事实上,英伟达的
具身团队领导者 Jim Fan 直接在 X 上点评了 这一事件的 历史意义——模型不仅仅拥有 训练时的 scaling law,还拥有 推理层面的 scaling law,双曲线的 共同增长,将突破之前大模型能力的 提升瓶颈。Jim Fan 表示,2022 年,人们提出了
原始的 scaling law(尺度定律),大概意为随着 模型的 参数量、数据量和 计算量的 增加,模型的 性能能够不断提高。这指的
是 在模型的 训练过 程中。而 scaling law 在 今年看起来,似乎 已经有 停滞的 意味——他 提到在 self-rewarding language 文章中,感受到 3 轮自我 提升似乎 是大语言模型的 饱和 极限了 。而此次 OpenAI 新模型,除了
在 训练时,通过 增大参数量和 数据量,得到了 性能上的 提升,同时通过 增加推理时间——也 就是 前面所 说的 模型在 自我 内部思考的 时间——得到了 能力上的 提升。也就是说,如果模型未来自己和自己思考的时间越长,得到的答案可能会越准确。这很接近于我们对AI的终极想象了——像最早在 AlphaGo 中所展现出来的,AI 通过自己和自己下棋,提升自己的棋艺。
OpenAI 的新模型,展现出的,是一条新的大模型的提升路径。
Jim Fan 在
X 上的 一句话令人耸动:「之前,没人能将 AlphaGo 的 成功复制到大模型上,使用更多的 计算让模型走向 超人的 能力。目前,我们已经翻过 这一页了 。」回看 2023 年,许多人在问,Ilya 看到了什么?
大家都怀疑是一个超级强有力的模型——是的,此次发布的 o1 模型确实很强。
但或许,更有可能是这个——推理层面的 scaling law 的发现,再一次让人们意识到,超人的AI,或许不再遥远。