您现在的位置是:综合 >>正文
o3智商有157,堪比爱因斯坦?
综合77人已围观
简介o3智商有157,堪比爱因斯坦?12月24日,OpenAI模型智商图在全网传播。Codeforces排名基于编程竞赛图中清晰可见,能达到o3智商水平的人类约占0.0075%。在13333人中,只有一人 ...
o3智商有157,商有斯坦堪比爱因斯坦?堪比
12月24日,OpenAI模型智商图在全网传播。爱因

Codeforces排名基于编程竞赛
图中清晰可见,能达到o3智商水平的堪比人类约占0.0075%。
在13333人中,爱因只有一人IQ处于o3级。商有斯坦对于GPT-4o,堪比6人中有一人能达到IQ 115的爱因水平。

从GPT-4o、商有斯坦到o1系,堪比再到o3系,爱因模型IQ逐渐增加,商有斯坦只用了一年时间就实现了质的堪比飞跃。即使是爱因最强的o1 pro(IQ为139),o3完全领先近20分。

有网友说,用不了多久,我们口袋里就会有IQ 157的智能。

另有人说,陶哲轩的智商大约在225-230之间,未来的模型很快就会达到这个水平。

超高智商背后的o3
o3发布后,很多人认为AGI已经实现了。
OpenAI从o1到o3只用了3个月;从o1到o3 从pro到o3只用了一个月。各种迹象表明,Scaling Law还没有结束。
在过去的五年里,OpenAI模型在ARC-AGI上的得分也说明了一切。

NatttatopenAI研究员 在o3发布当天,Mcalese分享了一些关于模型的介绍。
他说,o3代表着通过加强学习在一般领域的巨大进步。
o1是第一个大规模推理模型,只是RL训练的大模型。o3是在o1的基础上进一步强化学习的。

我们已经看到o3在世界上最具竞争力的编程基准Codeforces中得分超过2700分,完全达到了国际大师的水平。

与此同时,o3在数学基准FrontierMath上的惊艳表现令人生畏,甚至击穿了陶哲轩的预言。

在Keras中,François 在Chollet转写的报告中,也解释了o3与旧模型的区别:
o3的核心创新点是在token空间中搜索和执行自主语言程序。在测试过程中,它搜索可能的Cot空间,并描述解决任务所需的步骤,并通过评估模型指导搜索过程。

而且,他说,这种方式与AlphaZero的蒙特卡洛树搜索没有太大区别。
o3本质上是一种深度学习指导的程序搜索形式。
然而,即使opnenAI研究员Willl如此疯狂,即使o3的进化速度如此疯狂 depue表示,这不是AGI,我们还有很长的路要走。

o3 ARC-AGI测试被曝光「作弊」?
而就在最近,o3的ARC-AGI测试结果,在圈内引起了不小的争议。
你知道,这个基准的初衷是找到那些对人类容易但对人工智能困难的话题。
据OpenAI介绍,在ARC-AGI的基准测试中,O3在低计算模式下,在半私有评估中得分为75.7%;在高计算模式下,分为87.5%。
人类在这项任务中的表现通常是85%,也就是说,o3在高计算模式下已经超过了人类。

这个结果引起了很多人的质疑:OpenAI不会专门训练这个任务,对吧?
在直播的第12天,奥特曼特别强调,「没有对模型进行特殊处理」。

对此,细心的网友们纷纷展开调查。
例如,这个名字叫Knightt Lee的网友表示,o3在ARC-AGI上的分数是微调的,而之前的AI分数并没有微调。
他说o3的主要优点之一就是接受了示例测试问题的明确训练。
之所以有这样的观点,是因为他引用了ARC-AGI设计师François Chollet的说法——
OpenAI分享说,他们测试的o3是在公共训练集75%的数据上训练的。他们还没有透露更多细节。我们还没有测试未经ARC数据培训的模型,所以我们不知道它的性能归因于ARC-AGI数据。


这个说法是真的,o3的分数显然占了很大的便宜。
Zach,OpenAI研究员 Stein-Perlman反驳说,他们没有对ARC对o3进行微调。
然而,今天o3智商157的结果至少可以稍微更正其性能。

o4才是Orion?
而且,o3之后,可能会出现更强的IQ模型。
Information独家透露,o3不是代号为orion的模型。相比之下,orion可以作为o4的基本模型。
但《华尔街日报》在之前的报道中表示,Orion是GPT-5……

OpenAI研究员Jason Wei说,从o1到o3只需要3个月的时间,这表明在新范式下,每1-2年更新一次模型的进展速度远快于预训练范式。

推理模型的优点是,在使用更多的计算资源进行思考后,可以弥补预训练的放缓速度。
因此,O3推理的成本也很高。ARC-在AGI基准测试报告中,o3在每个高计算任务中的成本将超过1000美元。
OpenAI博士级AI助手每月能达到2000美元的原因也得到了充分的解释。
另一位OpenAI研究员John Hallman说,当Sam告诉我们的研究人员AGI即将到来时,我们不是为了给你画大蛋糕,不是为了推2000美元的订阅,也不是为了引诱你投资我们的下一轮融资。它真的来了。

目前还不清楚o3能给普通ChatGPT用户带来多大的帮助。
o3在编程、数学和科学领域的表现可能对编程、数学和科学领域的人员最有帮助,包括极其困难的研究问题(如核聚变能源)的研究人员。
对于普通用户来说,新模型可能有点「大材小用」。
尽管o3表现出色,但其他科技巨头也不甘示弱。
Geminini 2.0 Flash、Veo视频模型 2.人工智能研究员Noam被雇佣,费用为30亿美元 Shazeer开发的推理模型。
一些对价格敏感的开发者已经转向谷歌Flash模型。
可以看出,推理模型将继续超进化迭代,2025年将和今年一样令人兴奋。
参考资料:
https://x.com/i_dg23/status/1871135348069482993
https://x.com/kimmonismus/status/1871162085675253977
https://x.com/SmokeAwayyy/status/1871273888191221922
https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi
本文来源:新智元
Tags:
下一篇:推荐五家优秀的网站修订公司
相关文章
高通Qualcomm Aware平台推出为行业智能化发展提供
综合2025年国际消费电子展国际消费电子展CES)在美国拉斯维加斯举行的盛大活动再次引领了全球科技发展的风向标。其中,人工智能物联网已成为本次展会的绝对焦点,而高通公司推出的Qualcomm Aware平 ...
【综合】
阅读更多组装台式电脑配置知识:打造个性化高性能电脑
综合在科技日新月异的今天,台式电脑的性能和功能越来越受到用户的关注。组装台式电脑不仅可以让用户根据自己的需求定制配置,还能带来更高的性价比。本文将为您详细介绍组装台式电脑配置知识,帮助您打造一款个性化高性 ...
【综合】
阅读更多组装电脑配置推荐网站:打造个性化高性能电脑
综合在科技日益发展的今天,电脑已成为工作和生活中不可或缺的工具。对于许多电脑爱好者来说,组装一台性能强大、符合个人需求的电脑,是他们的梦想。那么,如何选择合适的硬件配置?这就需要找到一个专业、实用的组装电 ...
【综合】
阅读更多
热门文章
最新文章
友情链接
- 土豆丸子家常做法:星级大厨教你轻松变大厨
- 天天美食家常菜图片:唤醒味蕾的秘密武器
- 好吃又瘦身的家常菜:打造美味与健康的双重盛宴
- 土豆红薯做法大全家常:星级大厨教你变大厨
- 各种家常早餐的做法:打造五星级的家庭美味
- 土豆拔丝的家常做法:打造家常美食的甜蜜惊喜
- 嘎嘎汤的家常做法:家常美食也能成为五星大厨的杰作
- 嫩鱼的做法大全家常:解锁鲜美秘诀,成为厨房五星大厨
- 家常乌龟的做法:解锁五星级大厨的烹饪秘诀
- 创新家常菜谱大全:让家常美食也能五星闪耀
- 家常卤鸭翅:星级大厨教你轻松驾驭美味
- 回族家常菜图片大全:唤醒味蕾的美食之旅
- 凉拌茶树菇的家常做法:轻松变大厨的秘密武器
- 夏季家常鲜榨果汁的做法:轻松DIY,健康又美味
- 嫩姜的家常做法:唤醒味蕾的魔法
- 【啤酒鸡翅根家常】:星级大厨教你打造家常美味
- 大公鸡家常做法:星级大厨教你解锁美味密码
- 咸豇豆做法大全家常做法:解锁家常美味,人人都能成五星级大厨