闹玩呢，首届大模型对抗赛，DeepSeek、Kimi第一轮被淘汰了

文章来源：08ai导航网发布时间：2025-08-07 16:48:20

从目前战况来看，Grok4是夺冠热门。

在玩游戏方面，到底哪个模型最厉害？为了回答这个问题，谷歌近日发起了首届大模型国际象棋对抗赛。

这场比赛为期三天，参赛选手包括：

o4-mini（OpenAI）

DeepSeek-R1（DeepSeek）

KimiK2Instruct（月之暗面）

o3（OpenAI）

Gemini2.5Pro（谷歌）

ClaudeOpus4（Anthropic）

Grok4（xAI）

Gemini2.5Flash（谷歌）

刚刚，我们拿到了第一轮比赛的结果：Gemini2.5Pro、o4-mini、Grok4和o3均以4-0的战绩分别击败Claude4Opus、DeepSeekR1、Gemini2.5Flash和Kimik2，晋级半决赛。

以下是模型对阵图。

这个比赛是在一个名叫「KaggleGameArena」的平台上进行的。这是Kaggle公司的一个新项目，旨在跳出平时的基准测试框架，探索像Gemini、DeepSeek等LLM在动态和竞争环境中表现如何。

在昨天的报道中，我们详细描述了这场比赛的规则，比如不允许模型调用Stockfish等国际象棋引擎。（详情请参见《谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战》）

以下是对战的详细信息：

Kimik2与o3的对局较早结束，四局比赛都在八步棋内完成。由于Kimik2连续四次未能找到合法着法而被判负，o3获得了全胜。

不过需要说明的是，与o3对战的KimiK2Instruct为非推理模型，打不过o3也在预料之中。

虽然Kimik2未能获胜，但这场比赛也为我们提供了有价值的观察。从Kimik2的走棋注释来看，它在开局阶段能够遵循棋谱理论行棋。然而，一旦脱离了熟悉的开局理论，技术问题就开始显现——而对Kimik2来说，这个转折点来得较早。

Kimik2遇到困难的具体原因还需要进一步分析。在某些时候，它能清楚看到棋子的位置，却似乎忘记了棋子的走法。

在这一次对局中，Kimik2完整识别了棋盘局势，却依然无法给出合法着法，似乎对棋子的走法规则出现了记忆混乱。

在其他对局中，它在局面识别上也存在一些技术问题。

凭借这场胜利，o3顺利晋级半决赛，与o4mini对战。

OpenAI的o4-mini与DeepSeekR1之间的对局呈现出了独特的特点。如果单独观察每局比赛的前几步棋，你可能会以为这是两位高手在过招。然而对局进行到某个阶段后，棋局质量就会突然断崖式下跌。

这一现象在整场比赛中反复出现：几步不错的开局之后，会出现判断偏差和一系列失误。

尽管如此，o4-mini在这场比赛中成功实现了两次将军——这是一个值得注意的成就，考虑到对AI系统来说，准确把握整个棋盘状态本身就具有相当的挑战性。

Gemini2.5Pro与Claude4Opus的对局是本次比赛中唯一一个通过「将杀」获胜的场次多于因违规行棋告负的场次的比赛。不过，目前尚不清楚Gemini2.5Pro的真实棋力究竟如何，也不确定其胜利在多大程度上得益于Claude4Opus的失误表现。

这场比赛第四局出现了一个耐人寻味的局面：Gemini2.5Pro当时拥有32分的子力优势，棋盘上甚至有两个后。然而尽管火力全开，它在完成将杀的过程中仍然出现了送子的情况。

但更值得分析的是本场比赛的第一局。前九个回合，双方AI都表现稳健，着法精妙。然而就在此时，执黑的Claude4Opus做出了一个草率的决定，走10...g5。这步棋不仅白送一兵，还彻底破坏了己方王城的安全，直接加速了败局的到来。从双方AI的赛后评注中，我们可以看出一些端倪：

今日表现最为亮眼的当属Grok4。除了以全胜战绩收获4分外，其棋艺水平也堪称目前最佳。虽然对手Gemini2.5Flash多次失误送子确实降低了比赛难度，但与其他AI不同的是，Grok4展现出了精准捕捉无保护棋子的能力，并能果断实施打击。

Grok4的出色表现甚至引起了科技界的关注，其创始人埃隆・马斯克在X平台简短互动时，再次提及他那个著名观点——「国际象棋太过简单」。

截至目前，大语言模型在象棋对弈中暴露出三大关键短板：全局棋盘视觉化能力不足、棋子间互动关系理解有限，以及由此引发的合法着法执行问题。而Grok4的出色表现证明，它似乎成功突破了这些限制。

这些AI模型的优势与缺陷能否在后续赛事中保持稳定？我们还要看明天的半决赛成绩。

文章中提及的棋局在线上国际象棋对弈网站chess.com中均有详细描述，感兴趣的读者可以参见以下链接：https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

国际象棋大师LevyRozman也在最新录制的视频中对这场比赛进行了讲解。

我们曾在昨天的报道中发起了一个投票，目前已有近4000位读者参与。从目前的数据看，大家此前最看好的是Gemini2.5Pro——赢得了超过37%的票数。

现在，第一天的比赛结果已经出炉，我们也稍微了解了各个模型的表现，不知道大家的想法有无变化呢？

参考链接：

https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

上一篇: 马斯克宣布xAIGrok2下周开源

马斯克旗下xAI公司于2024年8月13日以Beta版本的形式，发布了Grok-2和Grok-2mini两款AI模型，重点改善了推理能力。