-
DeepSeek和Kimi首轮就被淘汰,这项大模型对抗赛说明了什么?
-
张广凯13764468101
谷歌发起的“首届大模型对抗赛”,在赛前就已经话题度拉满,但是随着8月5日比赛正式打响,参赛AI展现出的水平或许令人有些失望。相比于两款中国模型DeepSeek-R1和Kimi K2 Instruct的首轮折戟,比赛传递出的更重要信息在于,通用大模型的推理能力还存在普遍性缺陷。
低级失误不断的比赛
首先要说明的是,所谓“首届大模型对抗赛”,其实在比赛形式和参赛AI大模型的选择上都备受争议。
这次比赛的形式是让大模型两两捉对下国际象棋。谷歌DeepMind团队,也就是2017年凭借AlphaGo彻底在棋类项目上击败人类的团队,为大模型提供了技术接口,让大模型能够“看懂”棋盘。
参赛的8个大模型中,包括了OpenAI的o4-mini、o3,谷歌的Gemini 2.5 Pro、Gemini 2.5 Flash,Anthropic的Claude Opus 4,xA的Grok 4,以及来自中国团队的DeepSeek-R1和Kimi K2 Instruct。
其中两款中国模型的选择受到了不少质疑,首先,Kimi K2 Instruct并非推理模型,在下棋场景存在天然劣势,而DeepSeek-R1已经是半年前发布的“老模型”。因此,不管其表现如何,比赛结果都不能客观反映中国大模型行业的真实水平。
在比赛的官方网站上,也有用户提出了这样的质疑。而主办方的回复称,这次比赛只是一个开始,后续会将更多中国模型纳入。
从首轮比赛结果来看,两款中国模型也确实都表现不佳。
从对阵图中可以看到,首轮四组对决都呈现“一边倒”的态势,获胜方全部都取得了4-0的全胜战绩。
如果具体来看比赛过程,Kimi K2 Instruct不出意外是表现最差的模型,不光贡献了仅仅4回合就被对手将死的最快败局,还多次因为非法移动被判负(比赛规则设定,如果连续4次尝试非法移动就会被判负)。
例如下面的场景中,Kimi试图用白马去吃掉对方的黑后,而没有意识到马是不能这样移动的。即使在被人工告知这是非法移动后,它仍然坚持认为这是最优走法。
在另外一局中,Kimi甚至无法正确识别棋子的位置。
事实上,尽管有不少低级错误,Kimi在每一盘的开局中都还表现中规中矩,能够使用人类的经典开局方式,显示出大模型对于国际象棋的基础知识是有认知的。只不过随着局面开始复杂化,所有大模型都开始变得力不从心。
例如在下面这个场景中,DeepSeek-R1下出了糟糕的一步:把白后移动到c3的位置。
在推理过程中可以看到,DeepSeek-R1认为对方的黑后威胁到了己方c2的兵,因此打算将白后移动到c3,认为这样可以逼迫黑后做出避让,并用d列的白车威胁同列的黑王。
但是到了下一回合,白棋仿佛就忘记了前面的考虑,在明明有其它选择的情况下,用自己的王挡住了车的路线,白白损失掉白后。
有国际象棋爱好者对观察者网指出,这里更常规的选择是白后D4吃兵,在将军的同时还能解放出己方车的路线。看上去,DeepSeek-R1似乎只能考虑到有限的几种情况,缺乏多步推理和全局概念。
需要指出的是,这不是DeepSeek-R1独有的问题,基本上每个大模型都在常规的开局后,迅速开始下出各种“昏招”。
在专业的国际象棋网站Chess.com看来,只有Grok 4的表现略胜一筹,能够较好地识别和捕获对方未设防的棋子。
马斯克也在第一时间“炫耀”说,(下棋)只是Grok 4的“副作用”,他们并未对此做专门训练。
比赛的真正意义是什么?
那么从首日战况来看,这项赛事到底说明了什么,又有多大意义?
首先,“首届大模型对抗赛”这样的说法,或许并不合适,因为比赛测试的仅仅是下国际象棋这样的单一能力,并不能完全反映一个模型的综合水平。
即使把重点放在“对抗”上,其实也早已经有LM Arena这样的知名对战平台。
但是谷歌的野心,也不仅仅是办一场国际象棋比赛。事实上,本次比赛更像是谷歌为了打造一个更大规模LLM评价体系的“垫场赛”。
承办本次比赛的Kaggle,本就是谷歌旗下知名的数据科学赛事平台,在行业内享有很高声誉,如今在DeepMind加持下进军LLM赛事,最终应该是希望打造一套更加完整权威的评价体系。
当前每逢各家大模型上新,“刷榜”已经成了标准操作,各种“SOTA”层出不穷,但是业内对这些榜单能否真正客观体现模型能力,一直存在质疑。甚至不排除模型在训练阶段,就会针对榜单题目进行针对性优化。
从这个角度来说,如果能够建立一套新的评级体系,掌握评级话语权,对于谷歌在AI领域的地位将是极大的加强。
如果只看国际象棋比赛比赛本身,我们也可以看到,其对大模型能力的评估确实也有相当的参考价值。例如,非推理模型Kimi K2 Instruct的确表现较差,而Gemini 2.5 的Pro和Flash也体现出了能力差距。
而对行业来说,这项比赛也让我们更清晰地看到,即使是2025年最新的推理大模型,在解决垂直问题时的表现,不但不如多年前的AlphaGo,甚至也可能远远不如受过基本训练的人类。单靠通用模型去做场景落地并不现实,这意味着应用层面的创业者仍有广阔空间。
- 责任编辑: 张广凯 
-
安踏接连落子,这次押宝“韩流”复兴?
2025-08-06 17:23 观网财经-消费 -
“抢人大战”继续:阿里国际计划秋招1000人,80%岗位与AI有关
2025-08-06 16:54 观网财经-互联网 -
对话格灵深瞳CEO:穿透WAIC热度,透视AI落地的“硬功夫”
2025-08-06 16:15 2025世界人工智能大会 -
特朗普施压台积电“极限二选一”?
2025-08-06 11:33 观网财经-科创 -
乐摩吧再战IPO:突击分红、场景错配,53.5万张按摩椅增收难增利
2025-08-06 11:32 观网财经-消费 -
智利媒体关注中国动力电池前15强
2025-08-06 11:10 -
全球平板出货六连增:苹果三星市占率下滑,华为升至第三
2025-08-06 11:09 观网财经-科创 -
首届大模型对抗赛即将开战;OpenAI、Anthropic、谷歌同日上新
2025-08-06 09:02 观网财经-互联网 -
从美国转向中国?巴西咖啡商瞄准14亿人新市场
2025-08-05 20:05 观网财经-消费 -
对标英伟达CUDA,华为宣布开源CANN
2025-08-05 17:38 观网财经-科创 -
初代网红小火锅呷哺呷哺,5年间亏了13亿
2025-08-05 16:23 观网财经-消费 -
特朗普没爱上白宫保洁,但短剧出海平台ReelShort真摊上事了
2025-08-05 14:59 观网财经-互联网 -
盒马X会员店全线撤退,8月底或将关闭全部门店
2025-08-05 13:36 观网财经-消费 -
亏本14亿甩掉深圳7块地,华发股份急补现金流
2025-08-05 13:19 -
美国启动337调查,一加、联想、TCL等成被告
2025-08-05 11:13 观网财经-科创 -
窃取华为秘密被重判,中国芯没有捷径
2025-08-05 09:25 观网财经-科创 -
腾讯混元开源多个小尺寸模型;小米推出168雨伞;京东震虎价不正当竞争
2025-08-05 09:06 观网财经-互联网 -
“巨无霸”来了!中国船舶、中国重工最新公告
2025-08-04 20:15 金融观察 -
阿里 “扫地僧” 时隔三个月又跳槽,通义AI人才频频被挖
2025-08-04 20:13 观网财经-互联网 -
手机端也能流畅运行,腾讯混元宣布开源四款小尺寸模型
2025-08-04 19:12 观网财经-互联网
相关推荐 -
-
“轻松的一天”,随行高管们非常期待… 评论 15
东南亚多国表态,“缅甸措辞最严,坚定站队中方” 评论 131
呵呵,“‘民主国家’看不上中国技术”? 评论 313
普京访印:美国都在买,印度凭啥不能买? 评论 90
日本开发稀土担心中国干扰?日防相放话 评论 138最新闻 Hot-
“轻松的一天”,随行高管们非常期待…
-
“特朗普对高市早苗措辞非常严厉,甚至还说了……”
-
扎心了!美新版国安战略,辣评欧洲
-
东南亚多国表态,“缅甸措辞最严,坚定站队中方”
-
打造美版深圳!他给特朗普画饼,被曝“近乎科幻”
-
无视美国,莫迪宣布:印俄已同意…
-
“二次打击”还没解释清,美军袭击又致4死
-
欧盟,“罚酒三杯”?
-
呵呵,“‘民主国家’看不上中国技术”?
-
普京访印:美国都在买,印度凭啥不能买?
-
“白宫‘慌乱应对’,想赢中国,支持得到位啊”
-
国安战略报告迟迟未出,“美财长要求软化对华措辞”
-
自民党“黑金”丑闻“吹哨人”再出手,这次是高市
-
“彻底反转了,中国是发达国家,我们才是新兴国家”
-
“华德858”轮触礁断裂
-
机密通话曝光!“美国恐将背叛,你要小心”
-

观察员
上海市互联网违法与不良信息举报中心