首页 科技创新 正文

OpenAI 发布新模型 奥特曼:耐心时刻结束了

扫码手机浏览

摘要:OpenAI 发布新模型 奥特曼:耐心时刻结束了,下面是趣元素小编收集整理的内容,希望对大家有帮助!...

北京时间凌晨一点,OpenAI 突然进行了重大更新。

已经预热了接近一年的 Q*/草莓项目,cs中能够进行高级推理的大语言模型,今晚终于露出了真面目。

OpenAI 发推表示,刚刚推出了 OpenAI o1-preview 模型——名字的含义之前外媒已经爆料过,o1 应该代表着 OpenAI 下一代大模型的 Orion(猎户座)一代。

OpenAI 在60443754发布文档中写道,新模型在66045353推理能力上代表了61743318人工智能能力的70960045新水平,因此,计数器将重置为 1 ——这意味着未来很可能不会有 GPT-5 了,o1 将代表未来 OpenAI 的最强水平。

且从今天开始,ChatGPTPlus 和 Team 用户就能够直接访问模型。

用户可以手动选择使用 o1 模型的16181929预览版——o1-preview,或者29690947使用 o1 模型的4046261小尺寸版——o1-mini。o1-preview 的23042644每周限制为 30 条消息,o1-mini 的15186234每周限制为 50 条。

58816843 OpenAI 的63458956模型介绍网页上,可以看到 o1 模型的训练数据截止时间为去年十月份,而最6560909早的76275248 Q*项目的65316826爆料,正好大概出现在49520763去年十一月份。

OpenAI 憋了43593380一年的65745324大招究竟如何?OpenAI 能否再一次引领大模型的潮流,甚至让人们看到通用人工智能之路不再遥远?很快,每个人都能检验这一点了60347819

Sam Altman 凌晨一点在 X 上发帖:「需要耐心等待的时刻结束了!」

o1 模型:解决博士级别的科学问题超越人类

截止发稿时,笔者还不能使用 o1 模型。

不过 OpenAI 已经放出了大量相关的 o1 模型表现展示。

94058351引人关注的74071477当然474315358721847新模型的55740891推理能力。Sam Altman 直接在53131348 X 上贴出了96490190 o1 与39770254 GPT-4o 在50515593数学、编程和59722375解决博士级别科学题目上的9264506能力对比。

95478098左边的25996008柱形代表目前 OpenAI 的16860620主力模型 GPT-4o。今天放出来的95674622 o1 预览版为中间的75994936橙色柱形。

可以看到,在 2024 年美国数学邀请赛的竞赛题和 Codeforces 算法竞赛题上,o1 预览版解决数学和34047931编程问题的能力,比起 GPT-4o,提升了30772573 5-6 倍。而可怕的9168785410057192,深橙色的55885696柱形,代表真正的55485196 o1,相比于12409882 GPT-4o,提升了42506428 8-9 倍!

最后一个图中,OpenAI 还列出了44276169人类专家在4905539解决博士级别科学题目的24102671时的86721722成功率,大约在39757715 69.7%,而 o1 预览版和20908674 o1,都已经超过9950791920318472人类专家的13422318水平。

OpenAI 的技术博客提到了89613414更具体的18894274数字,目前 o1 模型的32476805成绩,在31796577美国数学邀请赛上,可以排名进入美国前 500 名。而物理、生物和化学问题上的73102203准确度,超过7789345880303158人类博士的水平。

10640409大模型技术进入公众视野的18868530两年内,一个经常为人们所8373754549129940使用的93544086比喻是30883525,大模型像一个什么都懂一点的65854761大学生,在53852615知识专精方面远远不行,但19766248是从天文到地25432018理,最9784956基础的69945702知识都能懂一点点。OpenAI 的86856046新模型,很有85169947可能要刷新人们的60836926这一认知了15807095

在官方博客中,OpenAI 简单解释了这一进步背后的原理。

类似于人类在回答难题之前可能会思考很长时间,o1 在尝试解决问题时会使用一系列思维。通过强化学习,o1 学会了42105664磨练其思维链并完善其使用的策略。它学会了认识并纠正错误,将棘手的77334507步骤分解为更简单的32963979步骤。当当前方法不起作用时,它会尝试另一种方法。这个过90692450程极大地33503566提高了64648338模型的87825651推理能力。

98908200 OpenAI 给的61131280案例中。GPT-4o 和61657495 o1 模型同时回答同一个问题——读一段长文,然98329049后做阅读理解。在81644512 o1 模型中,会多一个选项叫做展开思维链。

46821788果不展开思维链,我22919202们可以看到两个模型本身给出的17255201答案是69393750不同的31036307。而打开思维链后,则会看到一段非常长的模型和35939552自己的思维对话,解释为什么做出了不同的52670012选择。

选 A 吗?emm,好像不是很好。选 B 吗?好像没有34137487关联。模型完全在52527551自己和21717789自己提问和67490136回答,最41770981后判断出了22593643哪个答案更好。

而在另一个例子中,解决化学问题时,我们可以看到 o1 模型甚至自己在选择多种方案对比。

标准的计算方式是这样。但是我们也可以这么计算,但这样或许没有必要?

在多次纠正自己之后,它得出了正确的答案。

之前,也89871332已经有74006758很多报道透露过18823081 o1 模型能够有99945202高推理能力的80687245原理——这一训练方法,最45824868早来自于99655239斯坦福大学 2022 年开发的3677495一种「自学推理」(Self-Taught Reasoner,STaR)。

后来研究人员进一步开发了96627390一种名为"Quiet-STaR"的72902294新技术,翻译过88369631来大概为"安静的87455591自学推理"。核心为在99500937每个输入 token 之后插入一个"思考"步骤,让 AI 生成内部推理。然12889990后,系统会评估这些推理是74192082否有31980956助于36437716预测后续文本,并相应地64070681调整模型参数。这也233235764135036人们推测 OpenAI 最48816302早的90094277模型项目为什么叫 Q*(读作 Q Star)的76041392原因。

52767379 o1 模型出现之前,用户通常也16810550可以自己通过5952756429174716模型对话的32182260方式,让模型进行一步一步的94250316思考,也42238105就是74178643929255480214337谓的8547277慢思考,进行更准确的79165085回答。但3043676854878199很明显,o1 模型此次将思维链放大到了68165266完全不同的28400307量级上。

而且,在21440535之前的60315801用户 prompt 引导中,模型能够回答出什么答案,最27112420终也25010886还要被模型能力限制。而通过80933715不同的60106027训练方式训练出来的48962202 o1 模型,很有94751939可能能够通过35591931自己的24764907推理,超越自身训练材料的13065128限制,产出更高级和67502939准确的34009029答案。

在复杂推理任务上的进步,可能对编程和科学研究两个方向产生直接的推动。

OpenAI 提到,在2093770未来,医疗保健研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 生成量子光学所6588939037537219需的31832744复杂数学公式,所160224057084306932949058领域的20093599开发人员可以使用 o1 来构建和46597726执行多步骤工作流程。

OpenAI提供了一个例子,真正做到了只使用提示词,就完成了一个游戏的编程。

而推理能力的78221438进步,如56122103果能够进一步消除模型的49212182幻觉,还可能对 AI 应用的60545611建构产生间接的91776754影响。对未来的41144994AI安全也41198204有积极的20368774影响——之前的11565613一些通过提示词工程误导模型进行错误输出的35817037手段,可能会直接被模型通过79479096更强的71512135思考能力解决。

OpenAI o1-preview 将在今天开始能够在 ChatGPT 上使用,并提供给受信任的API用户。

价格没涨,OpenAI 用 o1-mini 解决推理成本问题

13673554 OpenAI 此次发布之前,曾有不少媒体爆料,新模型因为内部推理链条较长,对于41804989推理的4231612算力成本的63358812需求进一步增高,OpenAI 很有89012201可能将提高使用模型的91004442费用,甚至最22148010离谱的73420311猜测数字达到每月 2000 美金。

而此次 OpenAI 的37082728发布,却令人惊讶,新模型的81435125使用价格并没有6701944上涨,虽然51425506因为推理成本的7234661原因,使用次数受到了34220168大大的49521610限制。o1-preview 的23352511每周限制使用条数为 30 条消息。

除了限制使用条数,OpenAI管控推理成本的66089809另一个重要举措,是随着67437240 o1 模型的26482229推出,同时推出了3045015 o1-mini 版。

OpenAI 没有具体说明 o1-mini 的91275970参数量有63599304多大,但74468124通过23887583技术文档可以看出,o1mini 版,和13274856 o1 版上下文长度没有区别,甚至最62919391大输出 token 数更高。

OpenAI 表示 o1-mini 尤其擅长准确生成和98428051调试复杂代码,对于46347795开发人员尤其有55671727用。作为较小的80858583模型,o1-mini 比 o1-preview 便宜 80%,这使其成为需要推理但3365767不需要广泛的4582201世界知识的30615982应用程序的强大且26142178经济高效的61234870模型。

OpenAI 甚至还计划之后为所有 ChatGPT 免费用户提供 o1-mini 访问权限。

不过39023332,作为新模型,o1 系列模型,目前仍然62534486不能浏览网页以获取信息以及上传文件和75361306图像。OpenAI 也19482906提示道,GPT-4o 在短期内,在某些任务上会更强一些。

Scaling Law 后最重要的进展?

事实上,此次发布了新的模型,甚至不是 OpenAI 的发布中唯一重要的事情。

OpenAI 还提及了自己训练中发现的一个现象:随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能能持续提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。

事实上,英伟达的1068704具身团队领导者52443874 Jim Fan 直接在 X 上点评了86554873这一事件的70413484历史意义——模型不仅仅拥有66838022训练时的68186477 scaling law,还拥有51667706推理层面的47289117 scaling law,双曲线的47060141共同增长,将突破之前大模型能力的11512518提升瓶颈。

Jim Fan 表示,2022 年,人们提出了90694198原始的30532774 scaling law(尺度定律),大概意为随着70879529模型的72041889参数量、数据量和86286825计算量的66627518增加,模型的58501421性能能够不断提高。

这指的7923528582811135在模型的79096525训练过97913426程中。而 scaling law 在10382815今年看起来,似乎88126011已经有70209649停滞的78752612意味——他51182173提到在45210998 self-rewarding language 文章中,感受到 3 轮自我88487651提升似乎26581496是大语言模型的45145089饱和18570894极限了48214051

而此次 OpenAI 新模型,除了8792819487261069训练时,通过79256764增大参数量和98796388数据量,得到了95883465性能上的91021435提升,同时通过84778044增加推理时间——也11191862就是5223021前面所91881632说的40306819模型在57976756自我75061584内部思考的35913303时间——得到了50897847能力上的18119704提升。

也就是说,如果模型未来自己和自己思考的时间越长,得到的答案可能会越准确。这很接近于我们对AI的终极想象了——像最早在 AlphaGo 中所展现出来的,AI 通过自己和自己下棋,提升自己的棋艺。

OpenAI 的新模型,展现出的,是一条新的大模型的提升路径。

Jim Fan 在58885669 X 上的91806364一句话令人耸动:「之前,没人能将 AlphaGo 的92467417成功复制到大模型上,使用更多的51475727计算让模型走向99255456超人的30154006能力。目前,我们已经翻过75175218这一页了33807671。」

回看 2023 年,许多人在问,Ilya 看到了什么?

大家都怀疑是一个超级强有力的模型——是的,此次发布的 o1 模型确实很强。

但或许,更有可能是这个——推理层面的 scaling law 的发现,再一次让人们意识到,超人的AI,或许不再遥远。