谷歌主辦的首屆大模型對(duì)抗賽：國(guó)際象棋比賽中Grok 4表現(xiàn)最好

2025-08-06 16:10:19發(fā)布來(lái)源：多知作者：Penny

　　多知8月6日消息，谷歌發(fā)起的首屆大模型對(duì)抗賽引發(fā)了廣泛關(guān)注。此次比賽于8月5日至7日在 Kaggle Game Arena 舉行，匯聚了包括 DeepSeek、Kimi 等在內(nèi)的八款頂尖 AI 模型，競(jìng)爭(zhēng)將在策略游戲(如國(guó)際象棋和其他游戲中)中展開對(duì)決。

　　第一輪比賽，Grok 4 表現(xiàn)最好，Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績(jī)分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2，晉級(jí)半決賽。

　　Kaggle Game Arena是谷歌推出的一個(gè)全新的、公開的基準(zhǔn)測(cè)試平臺(tái)。此次參賽的模型包括 OpenAI 的 o4-mini、DeepSeek-R1、Kimi K2Instruct、Gemini2.5Pro(谷歌)、Claude Opus4(Anthropic)、Grok4(xAI)及 Gemini2.5Flash 等，每一款模型都代表了當(dāng)前 AI 領(lǐng)域的最前沿技術(shù)。組織方特別邀請(qǐng)了世界頂級(jí)國(guó)際象棋專家進(jìn)行解說(shuō)，為比賽增添了專業(yè)性與觀賞性。

　　截至目前，大語(yǔ)言模型在象棋對(duì)弈中暴露出的問(wèn)題包括：全局棋盤視覺化能力不足、棋子間互動(dòng)關(guān)系理解有限……

　　至于Grok 4 表現(xiàn)最好，馬斯克的解釋是：“國(guó)際象棋很簡(jiǎn)單，Grok 沒花費(fèi)太多力氣。”

微信圖片_20250806160332_17.png

　　馬斯克認(rèn)為，毫無(wú)疑問(wèn)，Grok 的推理能力就是強(qiáng)。

image (1).png

商學(xué)院

Open Talk

谷歌主辦的首屆大模型對(duì)抗賽：國(guó)際象棋比賽中Grok 4表現(xiàn)最好

相關(guān)閱讀