GPT-5大提升，o3对抗赛夺冠，但OpenAI越来越难让人惊艳了？

APP下载

扫一扫

下载观察者APP

GPT-5大提升，o3对抗赛夺冠，但OpenAI越来越难让人惊艳了？
- 张广凯13764468101
分享到：

2025-08-08 18:13:19 字号：A- A A+ 来源：观察者网

（文/观察者网张广凯编辑/吕栋）

北京时间8月8日凌晨，备受期待的OpenAI最新大模型ChatGPT-5终于正式发布，就在同时，谷歌举办的首届大模型国际象棋对抗赛中，o3也以4-0完胜Grok 4夺冠。这本该是对OpenAI双喜临门的一天，但作为一款关注度如此之高的产品，网友也很快发现了GPT-5的一些小小的瑕疵。

尽管大模型的能力仍然在快速进步，但其进步幅度越来越难以给人带了惊艳感了。这不是OpenAI自己的问题，甚至某种意义上，这也不是一件坏事，因为是之前人们的预期已经被拉到过高。但无论如何，在现有的算法范式下，AI大模型或许也离瓶颈越来越近了。

GPT-5水平如何？

作为OpenAI今年最受期待又屡屡跳票的重磅产品，ChatGPT-5今天的确给出了一些颇具说服力的测评数据，证明其推理能力有着显著进步。

例如，在数学能力测试AIME 2025上，GPT-5 Pro在开启推理模式并调用工具（Python）的情况下，拿下满分成绩。即使不调用工具，GPT-5 Pro仍能拿下96.7的高分，GPT-5标准版也能拿到94.65分，显著高于o3的88.9分。

编程方面，GPT-5在SWE-bench Verified上得到74.9分，高于o3的69.1和4o的30.8分。

博士水平的科学知识测试GPQA Diamond中，不调用工具的GPT-5 Pro推理模式拿到88.4分，创造新纪录。

多模态方面，GPT-5得到84.2分，比o3的82.9分有小幅提升。

高难度的Humanity's Last Exam（人性终极测试）上，GPT-5 Pro和GPT-5在不调用工具时分别得到30.7和24.8分，较o3的14.7分大幅提升。

大模型竞技场LM Arena的评分也已经出炉，GPT-5横扫所有单项的第一名。

此外，GPT-5推理模式的幻觉数量比o3少了六倍，成本方面则可以减少50-80%的token输出量。

这些数据都证明，GPT-5算得上是一次成功的大版本升级。

但另人尴尬的是，在发布会后，网友迅速发现GPT-5在解一道极其简单的方程时又犯了计算错误：

看起来，GPT-5还是没能解决小数比大小的问题。

而OpenAI发布会PPT里的小瑕疵，也引起了网友热议。大家发现在这张图表里，柱状图的高度出现了明显错误，但并不知道这是人为错误还是由AI生成。

有网友指出，在关于机翼升力原理的回答中，GPT-5也引用了一个广为流传的错误观点。当然，这样的问题归咎于AI未免过于苛刻。

马斯克则“嘴硬”称，Grok 4在ARC-AGI测试中仍然打败了GPT-5。

做题好是不是真的好？

那么，如何评价GPT-5的真实水平，或许日前的大模型国际象棋对抗赛恰好给我们提供了一个很好的参考。

同样在今天凌晨结束的对抗赛上，OpenAI旗下的o3以4-0完胜Grok 4，夺得最终冠军。尽管Grok 4在此前两轮中都表现出色，但在决赛中，随着对局长度增加，Grok 4也开始表现出棋力下降。

例如在第一局中，Grok 4莫名其妙地放弃了自己的象，并且没有获得任何明显的回报，而Grok 4也并未在推理中说明理由。

o3尽管表现相对出色，在昨天的半决赛中还下出过正确率评分100%的棋局，但纵观整个比赛过程，也不乏低级失误。

或许有人会质疑，让AI下棋究竟能证明什么？AI对抗赛的胜负，是不是仅仅取决于它们使用了多大规模的训练数据？DeepSeek下棋不好，但是作诗是不是更好？

事实上，如果只纠结于下棋或者作诗的技能水平，说明并未理解谷歌采用这种比赛形式的逻辑。

此次国际象棋比赛的意义，并非考验大模型的算力，而是考验其推理能力。

如果大模型在接受了大量棋谱训练之后，体现出高超棋力，这只能证明AI的记忆力或者算力强大，而这件事在2017年就已经被AlphaGo证明过了。

但是由于这些通用大模型都没有接受过专门的棋谱训练，因此往往只能在开局阶段凭借记忆下出经典开局。在几个回合之后，大模型已经无法找到人类棋谱作为参考，它们的思维结构也并非像AlphaGo那样专为下棋设计。因此，这时候的AI推理，是跟人类相同的推理方式，通过语言逻辑来推演棋盘变化。

上述无工具的数学测试，起到的也是类似作用：考验AI用人类逻辑进行计算的能力，而不是使用专门的机器算法。

因为无论是AlphaGo也好，还是计算工具也好，这样的AI在特定任务中无比强大，但是却毫无泛化性，不能解决任何其它问题。只有使用人类逻辑推理的模型，才能在人类世界中拥有最好的泛化性。

而在这个维度上，我们可以看到，无论是o3、Grok 4，还是最新升级的GPT-5，哪怕他们大部分时间都能够解决复杂问题，但也还会犯下对人类来说的低级错误。这是现有的Next Token Predicting范式下仍然难以完全克服的问题，也说明它们或许离AGI的最终形态还有遥远距离。

OpenAI显然也不再希望把外界的胃口掉得过高。在本次发布会上，我们可以看到OpenAI花了更多时间介绍GPT-5在垂直场景应用的能力，例如生成小游戏、回答健康问题的能力，这都是为了让AI与人类更好地共存与协作。
|

举报
- 违反法律法规
- 垃圾信息、广告
- 色情、淫秽信息
- 人身攻击
- 谣言、不实信息
- 冒充，冒用信息
- 破坏社区秩序
- 其他
- 涉未成年人有害信息
观察者网举报制度规范
确定取消
标签
- 责任编辑: 张广凯
- 增收不增利大跌8%，中芯国际称国内客户需求猛涨
  
  2025-08-08 16:16 观网财经-科创
- AR创业者亲述：在美国做中国的事情，成本将暴涨好几倍
  
  2025-08-08 14:42 观网财经-科创
- 台积电2nm泄密，日企光速解雇一人
  
  2025-08-08 14:02 观网财经-科创
- 华为Mate70最高降价1000，Mate80或支持eSIM
  
  2025-08-08 11:46 观网财经-科创
- OpenAI推出GPT-5；ChatGPT-4.5错误率升高；英特尔回应特朗普
  
  2025-08-08 09:09 观网财经-互联网
- 特朗普：英特尔CEO必须立即辞职
  
  2025-08-08 06:30 观网财经-科创
- 伊朗放弃GPS全面转向，有力证明了北斗这个优势
  
  2025-08-07 22:53 观察者头条
- RWA代币化规模激增410%，真实世界资产或成加密领域下一个风口
  
  2025-08-07 22:38 金融观察
- “秋天第一杯奶茶”爆单，有消费者苦等1.5小时
  
  2025-08-07 22:33 观网财经-消费
- 女玩家情感投入反遭套路？多款头部乙游频发大规模投诉
  
  2025-08-07 18:59 观网财经-互联网
- 安踏收购锐步被否认，ABG公司称没有出售打算
  
  2025-08-07 18:54 观网财经-消费
- 小米手机欧洲份额超苹果，全球出货受印度拖累
  
  2025-08-07 17:06 观网财经-科创
- 苹果：将与三星合作推出创新芯片制造技术
  
  2025-08-07 16:34 观网财经-科创
- 极兔抢滩巴西，也在悄然改变巴西贫民窟
  
  2025-08-07 16:21
- 库克疯狂示好特朗普：1000亿美元+24K金底座摆件
  
  2025-08-07 14:13 观网财经-科创
- 88VIP权益再升级，新增超10项权益
  
  2025-08-07 12:08 观网财经-互联网
- 盒马宣布今年将开100家新店，门店总数预计超过500家
  
  2025-08-07 12:04 观网财经-互联网
- 深度对话：小米阿里引爆智能眼镜，AI耳机还是个好赛道吗？
  
  2025-08-07 10:06 观网财经-科创
- GPT-5或本周发布；美政府可1美元使用ChatGPT；华为再告传音
  
  2025-08-07 09:05 观网财经-科创
- 怎样才是一次理想的道歉？
  
  2025-08-06 22:50
搜索

   观察者头条查看全部

“井底之蛙！中国造船产能是美国200倍，绝非夸张” 评论 56

被美国骂吃白食，“我们沙发底下可没藏几十亿美元” 评论 94

中方成果入选被赞“里程碑”，美国焦虑：主导地位不保评论 60

美国如此敲打，德国“上赶着”要来印太掺和评论 98

亚美尼亚下周大选，俄方突然召回大使：只能二选一评论 158

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

GPT-5大提升，o3对抗赛夺冠，但OpenAI越来越难让人惊艳了？

增收不增利大跌8%，中芯国际称国内客户需求猛涨

AR创业者亲述：在美国做中国的事情，成本将暴涨好几倍

台积电2nm泄密，日企光速解雇一人

华为Mate70最高降价1000，Mate80或支持eSIM

OpenAI推出GPT-5；ChatGPT-4.5错误率升高；英特尔回应特朗普

特朗普：英特尔CEO必须立即辞职

伊朗放弃GPS全面转向，有力证明了北斗这个优势

RWA代币化规模激增410%，真实世界资产或成加密领域下一个风口

“秋天第一杯奶茶”爆单，有消费者苦等1.5小时

女玩家情感投入反遭套路？多款头部乙游频发大规模投诉

安踏收购锐步被否认，ABG公司称没有出售打算

小米手机欧洲份额超苹果，全球出货受印度拖累

苹果：将与三星合作推出创新芯片制造技术

极兔抢滩巴西，也在悄然改变巴西贫民窟

库克疯狂示好特朗普：1000亿美元+24K金底座摆件

88VIP权益再升级，新增超10项权益

盒马宣布今年将开100家新店，门店总数预计超过500家

深度对话：小米阿里引爆智能眼镜，AI耳机还是个好赛道吗？

GPT-5或本周发布；美政府可1美元使用ChatGPT；华为再告传音

怎样才是一次理想的道歉？

“井底之蛙！中国造船产能是美国200倍，绝非夸张”

被美国骂吃白食，“我们沙发底下可没藏几十亿美元”

上周刚大改，又澄清了：这些人不用回原籍国申请

想摆谱？“特朗普下令：协议这几条要改改”

眼见苗头不对，菲防长“装”上了

中方成果入选被赞“里程碑”，美国焦虑：主导地位不保

刻意摆枪栽赃巴勒斯坦男孩，以军回应

美国如此敲打，德国“上赶着”要来印太掺和

加速撤！“下个月就交方案”

美国多地传出巨响，还有人“看到了火球”

三部国产片入围主竞赛，张颂文、文淇分头冲击金爵帝后

又来，“中国要2027‘武统’，美军悄悄准备了…”

奔驰要被美国禁了，全怪中国？！

最新报告：两岸厂商崛起，日本20年掉10%

“敏昂莱更依赖中国，但首访选了印度”

演员刘洵离世，曾出演《九品芝麻官》