文章来源:08ai导航网发布时间:2025-08-07 16:39:09
8月7日消息,今日凌晨1点左右,在Google旗下Kaggle平台主办的“棋局竞技场”中,上演了一场AI国际象棋表演赛半决赛。最终,Grok4和o3分别击败Gemini2.5Pro和o4-mini,晋级决赛。
这场比赛为期三天,“参赛者”是八个大型语言模型(LLM):Grok4(xAI)、Gemini2.5Pro(谷歌)、o4-mini(OpenAI)、o3(OpenAI)、Claude4Opus(Anthropic)、Gemini2.5Flash(谷歌),以及两位“中国选手”——DeepSeekR1(DeepSeek)和Kimik2(月之暗面)。
比赛采用单败淘汰制,每一回合,AI有最多4次尝试机会来下出一个合法的棋步。如果它在这4次尝试中都没能走出合法的一步棋,就被判定为输掉这场比赛。规则不比算力,主要聚焦在AI对棋局的理解力与问题解决能力。
在首日的决赛中,Claude4Opus、DeepSeekR1、Gemini2.5Flash和KimiK2未能胜出,无缘半决赛。
在8月5日的首日四场对决中,Gemini2.5Pro、o4-mini、Grok4和o3均以4-0的战绩分别击败Claude4Opus、DeepSeekR1、Gemini2.5Flash和Kimik2,晋级半决赛。
在第二场半决赛中,OpenAI的o3首先以4-0完胜其轻量版o4-mini,展现了压倒性优势。
第二局中,o3以12步完成迷你对局,呈现类似PuzzleRush(由Chess.com推出的在线国际象棋训练模式)的“绝杀“,精准度评分高达100。
第三局中,o3连续走出12...Bb4+(在第12回合,黑方将象移动到b4格,并造成将军)和19...e3+(黑方在第19回合将e兵推到e3并将军)两招妙棋。o4-mini在比赛中多次失误,未能跟上o3的节奏。
Grok4与Gemini2.5Pro的对决是本轮焦点,常规赛以2-2平局结束,进入“阿马格顿”加赛(Armageddontiebreak,用于快速决出胜负的特殊对局形式,通常在常规比赛平局后使用,以避免进一步延长比赛)。Grok执黑棋在55步平局中获胜(因平局胜权)。
在双方的首局比赛中,Grok频频失误,丢马、丢车后被Gemini将死。第二局双方遵循开局理论至第11步,Grok脱离理论后失误丢马,但Gemini出现“幻觉”走错棋丢后,Grok扳回一局。第三局Grok取胜领先,第四局Gemini反击追平。加赛中,Gemini错过单步绝杀机会,最终因丢后导致平局,Grok晋级。
首日比赛结果
8月5日,八款AI模型展开的首场激烈对决,四场比赛均以“4-0“的比分尘埃落定。晋级半决赛的模型表现如下:
Gemini2.5Pro(谷歌)以4-0完胜Claude4Opus(Anthropic)。这场对决是首日唯一以“将死”为主的比赛,Claude4Opus因关键失误(如第十步g5导致丢子及王位暴露)落败,Gemini2.5Pro展现了稳健的棋盘掌控力。
o4-mini(OpenAI)以4-0击败DeepSeekR1。比赛初期双方棋风稳健,但DeepSeekR1随后频频“幻觉”,出现连续失误,o4-mini则两次成功“将死”,显示出较强的全局把握能力。
马斯克发帖评论Grok4首日表现
Grok4(xAI)以4-0击败了Gemini2.5Flash(谷歌)。Grok4展现了出色的棋艺,捕捉到了对手未受保护的棋子。其表现甚至引发xAI创始人埃隆·马斯克(ElonMusk)在X平台上的转发和热议。
o3(OpenAI)以4-0战胜Kimik2(MoonshotAI),Kimik2因连续四次无法作出合法移动而连输四局。
从这次的比赛中,仍能看出大模型有不少失误之处。全球最大的国际象棋平台Chess.com撰文指出,此次赛事暴露出AI模型整体缺乏语境理解,难以执行基本战术序列等问题。
比赛仍在继续,下一场决赛将于美国东部时间8月7日13时(北京时间8月8日1时)举行,由xAI的Grok4对阵OpenAI的o3,Gemini2.5Pro与o4-mini将争夺三、四名。
本文来自“腾讯科技”,作者:无忌,经授权发布。
相关攻略 更多
最新资讯 更多
首届大模型象棋争霸赛:Grok 4与o3挺进决赛,DeepSeek、Kimi落败
更新时间:2025-08-07
李泽湘孵化,全球首款远程孪生AI机器人Mibai"具身降临"
更新时间:2025-08-07
ChatGPT引爆教育革命,学习效果暴涨86.7%!
更新时间:2025-08-07
Claude4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证
更新时间:2025-08-07
19岁少年「破解」谷歌新AI?每秒1479token,扩散再战GPT!
更新时间:2025-08-07
谷歌推出开源医疗大模型MedGemma
更新时间:2025-08-07
AI×音乐:下一个千亿级市场,来了
更新时间:2025-08-07
3个月融资超亿元,首款AI机器人产品24小时KS众筹破百万美金
更新时间:2025-08-07
40位数学家组成8队与o4-mini-medium比赛,6队败北
更新时间:2025-08-07
前Google、Meta一线AI科学家创业,打造“金融专用AI”,刚融4350万美元
更新时间:2025-08-07