DeepSeek 和 Kimi第一輪遭淘汰。
多知8月6日消息,谷歌發(fā)起的首屆大模型對抗賽引發(fā)了廣泛關注。此次比賽于8月5日至7日在 Kaggle Game Arena 舉行,匯聚了包括 DeepSeek、Kimi 等在內(nèi)的八款頂尖 AI 模型,競爭將在策略游戲(如國際象棋和其他游戲中)中展開對決。
第一輪比賽,Grok 4 表現(xiàn)最好,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級半決賽。
Kaggle Game Arena是谷歌推出的一個全新的、公開的基準測試平臺。此次參賽的模型包括 OpenAI 的 o4-mini、DeepSeek-R1、Kimi K2Instruct、Gemini2.5Pro(谷歌)、Claude Opus4(Anthropic)、Grok4(xAI)及 Gemini2.5Flash 等,每一款模型都代表了當前 AI 領域的最前沿技術。組織方特別邀請了世界頂級國際象棋專家進行解說,為比賽增添了專業(yè)性與觀賞性。
截至目前,大語言模型在象棋對弈中暴露出的問題包括:全局棋盤視覺化能力不足、棋子間互動關系理解有限……
至于Grok 4 表現(xiàn)最好,馬斯克的解釋是:“國際象棋很簡單,Grok 沒花費太多力氣。”
馬斯克認為,毫無疑問,Grok 的推理能力就是強。