-
GPT-5大提升,o3对抗赛夺冠,但OpenAI越来越难让人惊艳了?
-
张广凯13764468101
(文/观察者网 张广凯 编辑/吕栋)
北京时间8月8日凌晨,备受期待的OpenAI最新大模型ChatGPT-5终于正式发布,就在同时,谷歌举办的首届大模型国际象棋对抗赛中,o3也以4-0完胜Grok 4夺冠。这本该是对OpenAI双喜临门的一天,但作为一款关注度如此之高的产品,网友也很快发现了GPT-5的一些小小的瑕疵。
尽管大模型的能力仍然在快速进步,但其进步幅度越来越难以给人带了惊艳感了。这不是OpenAI自己的问题,甚至某种意义上,这也不是一件坏事,因为是之前人们的预期已经被拉到过高。但无论如何,在现有的算法范式下,AI大模型或许也离瓶颈越来越近了。
GPT-5水平如何?
作为OpenAI今年最受期待又屡屡跳票的重磅产品,ChatGPT-5今天的确给出了一些颇具说服力的测评数据,证明其推理能力有着显著进步。
例如,在数学能力测试AIME 2025上,GPT-5 Pro在开启推理模式并调用工具(Python)的情况下,拿下满分成绩。即使不调用工具,GPT-5 Pro仍能拿下96.7的高分,GPT-5标准版也能拿到94.65分,显著高于o3的88.9分。
编程方面,GPT-5在SWE-bench Verified上得到74.9分,高于o3的69.1和4o的30.8分。
博士水平的科学知识测试GPQA Diamond中,不调用工具的GPT-5 Pro推理模式拿到88.4分,创造新纪录。
多模态方面,GPT-5得到84.2分,比o3的82.9分有小幅提升。
高难度的Humanity's Last Exam(人性终极测试)上,GPT-5 Pro和GPT-5在不调用工具时分别得到30.7和24.8分,较o3的14.7分大幅提升。
大模型竞技场LM Arena的评分也已经出炉,GPT-5横扫所有单项的第一名。
此外,GPT-5推理模式的幻觉数量比o3少了六倍,成本方面则可以减少50-80%的token输出量。
这些数据都证明,GPT-5算得上是一次成功的大版本升级。
但另人尴尬的是,在发布会后,网友迅速发现GPT-5在解一道极其简单的方程时又犯了计算错误:
看起来,GPT-5还是没能解决小数比大小的问题。
而OpenAI发布会PPT里的小瑕疵,也引起了网友热议。大家发现在这张图表里,柱状图的高度出现了明显错误,但并不知道这是人为错误还是由AI生成。
有网友指出,在关于机翼升力原理的回答中,GPT-5也引用了一个广为流传的错误观点。当然,这样的问题归咎于AI未免过于苛刻。
马斯克则“嘴硬”称,Grok 4在ARC-AGI测试中仍然打败了GPT-5。
做题好是不是真的好?
那么,如何评价GPT-5的真实水平,或许日前的大模型国际象棋对抗赛恰好给我们提供了一个很好的参考。
同样在今天凌晨结束的对抗赛上,OpenAI旗下的o3以4-0完胜Grok 4,夺得最终冠军。尽管Grok 4在此前两轮中都表现出色,但在决赛中,随着对局长度增加,Grok 4也开始表现出棋力下降。
例如在第一局中,Grok 4莫名其妙地放弃了自己的象,并且没有获得任何明显的回报,而Grok 4也并未在推理中说明理由。
o3尽管表现相对出色,在昨天的半决赛中还下出过正确率评分100%的棋局,但纵观整个比赛过程,也不乏低级失误。
或许有人会质疑,让AI下棋究竟能证明什么?AI对抗赛的胜负,是不是仅仅取决于它们使用了多大规模的训练数据?DeepSeek下棋不好,但是作诗是不是更好?
事实上,如果只纠结于下棋或者作诗的技能水平,说明并未理解谷歌采用这种比赛形式的逻辑。
此次国际象棋比赛的意义,并非考验大模型的算力,而是考验其推理能力。
如果大模型在接受了大量棋谱训练之后,体现出高超棋力,这只能证明AI的记忆力或者算力强大,而这件事在2017年就已经被AlphaGo证明过了。
但是由于这些通用大模型都没有接受过专门的棋谱训练,因此往往只能在开局阶段凭借记忆下出经典开局。在几个回合之后,大模型已经无法找到人类棋谱作为参考,它们的思维结构也并非像AlphaGo那样专为下棋设计。因此,这时候的AI推理,是跟人类相同的推理方式,通过语言逻辑来推演棋盘变化。
上述无工具的数学测试,起到的也是类似作用:考验AI用人类逻辑进行计算的能力,而不是使用专门的机器算法。
因为无论是AlphaGo也好,还是计算工具也好,这样的AI在特定任务中无比强大,但是却毫无泛化性,不能解决任何其它问题。只有使用人类逻辑推理的模型,才能在人类世界中拥有最好的泛化性。
而在这个维度上,我们可以看到,无论是o3、Grok 4,还是最新升级的GPT-5,哪怕他们大部分时间都能够解决复杂问题,但也还会犯下对人类来说的低级错误。这是现有的Next Token Predicting范式下仍然难以完全克服的问题,也说明它们或许离AGI的最终形态还有遥远距离。
OpenAI显然也不再希望把外界的胃口掉得过高。在本次发布会上,我们可以看到OpenAI花了更多时间介绍GPT-5在垂直场景应用的能力,例如生成小游戏、回答健康问题的能力,这都是为了让AI与人类更好地共存与协作。
- 责任编辑: 张广凯 
-
增收不增利大跌8%,中芯国际称国内客户需求猛涨
2025-08-08 16:16 观网财经-科创 -
AR创业者亲述:在美国做中国的事情,成本将暴涨好几倍
2025-08-08 14:42 观网财经-科创 -
台积电2nm泄密,日企光速解雇一人
2025-08-08 14:02 观网财经-科创 -
华为Mate70最高降价1000,Mate80或支持eSIM
2025-08-08 11:46 观网财经-科创 -
OpenAI推出GPT-5;ChatGPT-4.5错误率升高;英特尔回应特朗普
2025-08-08 09:09 观网财经-互联网 -
特朗普:英特尔CEO必须立即辞职
2025-08-08 06:30 观网财经-科创 -
伊朗放弃GPS全面转向,有力证明了北斗这个优势
2025-08-07 22:53 观察者头条 -
RWA代币化规模激增410%,真实世界资产或成加密领域下一个风口
2025-08-07 22:38 金融观察 -
“秋天第一杯奶茶”爆单,有消费者苦等1.5小时
2025-08-07 22:33 观网财经-消费 -
女玩家情感投入反遭套路?多款头部乙游频发大规模投诉
2025-08-07 18:59 观网财经-互联网 -
安踏收购锐步被否认,ABG公司称没有出售打算
2025-08-07 18:54 观网财经-消费 -
小米手机欧洲份额超苹果,全球出货受印度拖累
2025-08-07 17:06 观网财经-科创 -
苹果:将与三星合作推出创新芯片制造技术
2025-08-07 16:34 观网财经-科创 -
极兔抢滩巴西,也在悄然改变巴西贫民窟
2025-08-07 16:21 -
库克疯狂示好特朗普:1000亿美元+24K金底座摆件
2025-08-07 14:13 观网财经-科创 -
88VIP权益再升级,新增超10项权益
2025-08-07 12:08 观网财经-互联网 -
盒马宣布今年将开100家新店,门店总数预计超过500家
2025-08-07 12:04 观网财经-互联网 -
深度对话:小米阿里引爆智能眼镜,AI耳机还是个好赛道吗?
2025-08-07 10:06 观网财经-科创 -
GPT-5或本周发布;美政府可1美元使用ChatGPT;华为再告传音
2025-08-07 09:05 观网财经-科创 -
怎样才是一次理想的道歉?
2025-08-06 22:50
相关推荐 -
-
普京访印:美国都在买,印度凭啥不能买? 评论 33
日本开发稀土担心中国干扰?日防相放话 评论 122
“美欧抢矿,遭殃的却是他们” 评论 13
美国又开炮欧盟:你们在“霸凌”美国军工! 评论 72
时代变了,“欧洲人迫切想要中国技术” 评论 205最新闻 Hot-
普京访印:美国都在买,印度凭啥不能买?
-
任正非:未来时代的希望在青年
-
自民党“黑金”丑闻“吹哨人”再出手,这次是高市
-
“白宫‘慌乱应对’,想赢中国,支持得到位啊”
-
机密通话曝光!“美国恐将背叛,你要小心”
-
“云冈石窟大佛冻得流鼻涕”,官方:将暂时封闭、处置渗水
-
“高市早苗更加不安了”
-
高善文离职后,又有分析师集体出走国投证券
-
台军又出意外,这次是炮弹砸了民宅
-
“中产、富裕阶层也去1元店”,特朗普还嘴硬
-
国安战略报告迟迟未出,“美财长要求软化对华措辞”
-
“彻底反转了,中国是发达国家,我们才是新兴国家”
-
日本开发稀土担心中国干扰?日防相放话
-
“按下葫芦浮起瓢”,英伟达想重返中国市场又难了…
-
“特朗普高兴太早咯,中国把枪放进枪套,但枪还在手上”
-
又出狂言,“加墨不能成为中国出口中心…”
-

观察员
上海市互联网违法与不良信息举报中心