文章来源:08ai导航网发布时间:2025-08-07 16:39:32
谁也没想到,谷歌攒的KaggleAIChess比赛(即大模型国际象棋对抗赛),在半决赛中,Grok4击败Gemini2.5Pro,进入总决赛!
在昨天的比赛中,Gemini2.5Pro、o4-mini、Grok4和o3均以4-0的战绩分别击败Claude4Opus、DeepSeekR1、Gemini2.5Flash和Kimik2,晋级半决赛。
今天的战况依旧让人猜不着走向,Gemini2.5Pro败了。
马斯克昨天点评比赛结果的话术,今天依旧有用:「国际象棋太过简单,对Grok来说,只是副作用,我们没花多少力气放在象棋优化上。」
今天Grok4闯入总决赛,不知马斯克是不是更看不上这场比赛了。
我们再回到这场半决赛。
战况是Grok4和o3分别战胜了Gemini2.5Pro和o4-mini,成功晋级决赛。虽然o3的胜利在大家意料之中,但Grok与Gemini之间的激烈对决却让所有人大跌眼镜——双方在常规赛打成2:2平,最终通过加赛才分出胜负。
明天是比赛的最后一天。届时,将迎来本次AI象棋巅峰对决的冠军之战,X对战OpenAI。
对战表
在初赛中,o4-mini和o3均以4-0的全胜战绩淘汰了DeepSeek-R1以及Kimik2,同样出身OpenAI的两大模型在半决赛中正面对决。
比赛的结果基本在预料之中,o3以4比0横扫对手o4-mini,顺利晋级决赛。
在OpenAI的推理模型体系中,o3作为一款强大的通用推理模型,在多个基准测试中均取得了优异成绩,展现出卓越的稳定性与复杂推理能力。相比之下,o4-mini是一款轻量级模型,旨在在速度、成本与性能之间实现更好的平衡。
因此o4-mini输给o3的确符合预期,是因为象棋这种任务对模型的稳定推理能力和容错性要求很高,这恰恰是轻量化模型最容易妥协的地方。
谷歌举办这场比赛的主要目的是为了分析AI模型是如何思考的。因此,整场对局中的第二盘可能对谷歌来说意义不大,但对普通棋手而言却相当值得关注。
在这一盘中,o3仅用12步就完成了致胜攻击,手法颇有PuzzleRush风格。虽然不是一个真正意义上的闷杀(smotheredmate),但已经非常接近了,依然令人惊叹。
o3的致胜攻击
尽管AI在国际象棋上的表现一直不尽如人意,但o3在这盘棋中却拿下了完美的100分准确率评分。
整场比赛的剩余部分,大体上延续了本次锦标赛至今的老套路:某个弱AI(这次是o4-mini)在某个时间点开始失去局势控制,连续出现致命失误,最终输掉对局。
不过有一盘棋例外——它可能是本届比赛中看起来最自然流畅的一局。这是本场对决的第三盘,相较其他对局,这一盘展现出了真正的高质量国际象棋。
其中,o3下出的两个中间招法(in-betweenmoves)——第12回合的12…Bb4+和第19回合的19…e3+——尤其令人印象深刻。
o3令人印象深刻的走棋
Grok在国际象棋领域的统治力依然强势,但这次的胜利之路并不平坦,甚至可以说是比赛到目前为止最焦灼的一轮。
准确的说,马斯克轻描淡写「国际象棋是副作用」的Grok差一点就翻了车,最终以和棋收场勉强取胜。
虽然最终比赛结果是Gemini2.5Pro以2-3不敌Grok4,但在官方博客中,比分仍被标注为2.5-2.5平局。
比赛一直打到特殊的末日加赛(armageddontiebreak,是指国际象棋比赛中,在常规赛或加赛打平后,用于决出胜负的特殊加赛方式)才决出胜负,最终,Grok执黑在一盘55步的和棋中晋级——尽管当时Grok明显处于胜势。
但我们从头说起。今天Grok的表现异常混乱,频频送子得分。事实上,本场首盘由Gemini先拔头筹,Grok相继丢掉了一匹马、一辆车,最后被将死,痛失一局。
第二盘棋中,Gemini和Grok在第11步之前都严格遵循了开局定式。正如我们在之前的比赛中观察到的那样,AI一旦脱离开局理论、进入自主思考阶段,就很容易开始出错。
而Grok和Gemini至今为止都表现出了比其他模型更长时间遵循理论的能力,这也可能是本场对决如此胶着的原因之一。
不过,也如预期那样,一旦Grok脱离定式,失误就接踵而至。Grok再次丢掉一匹马,而Gemini却出现幻觉,主动送后,随后又全盘崩塌,最终将第二盘拱手相让。
Grok脱离定式后失误
Gemini产生幻觉
接下来的两盘棋又是决定性的比赛,延续了本届锦标赛的熟悉剧本:AI们先走几步开局定式,然后靠着机械式的创造力迅速开始出错。
Grok赢下了第三盘,暂时在比分上领先,但随后Gemini反击成功,在第四盘将比分扳平。
比赛进入末日加赛,Grok执黑出战,拥有和棋即胜的优势(尽管本场比赛并没有时间限制)。
这场加赛堪称精彩纷呈。Gemini在大部分时间里局势占优,甚至一度错过了一个「一招将死」的机会——这个将死模式与o3在第二盘战胜o4-mini时用的那个几乎一模一样。
正当观众紧张关注局势时,国际象棋特级大师PeterHeineNielsen(现任MagnusCarlsen的教练)也借机向Grok提供了辅导建议:
最终,Gemini在胜势的车兵残局中失误白送皇后,将胜利拱手让给Grok。
然而,剧情并未就此告终:由于Grok在多一车对单兵的必胜局面下未能兑现优势,双方三次重复局面,对局戏剧性地以和棋收场。尽管结局出人意料,这场比赛仍被评选为今日最佳对局。
Gemini2.5Pro对阵Grok4:和棋收场
接下来,X的Grok和OpenAI的o3将在明天的决赛中相遇。谷歌的Gemini2.5Pro和o4-mini将争夺季军和第四名。
在昨天的投票中,大家普遍看好Gemini2.5Pro和Grok4成为最终赢家。
那么现在,你还会把票投给Grok4吗?
相关攻略 更多
最新资讯 更多
您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
更新时间:2025-08-07
五年前,对王兴兴的一次未公开访谈
更新时间:2025-08-07
首届大模型象棋争霸赛:Grok 4与o3挺进决赛,DeepSeek、Kimi落败
更新时间:2025-08-07
李泽湘孵化,全球首款远程孪生AI机器人Mibai"具身降临"
更新时间:2025-08-07
ChatGPT引爆教育革命,学习效果暴涨86.7%!
更新时间:2025-08-07
Claude4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证
更新时间:2025-08-07
19岁少年「破解」谷歌新AI?每秒1479token,扩散再战GPT!
更新时间:2025-08-07
谷歌推出开源医疗大模型MedGemma
更新时间:2025-08-07
AI×音乐:下一个千亿级市场,来了
更新时间:2025-08-07
3个月融资超亿元,首款AI机器人产品24小时KS众筹破百万美金
更新时间:2025-08-07