未來,將推出k0-math數(shù)學(xué)模型和更強(qiáng)大的Kimi探索版。
多知11月19日消息,Kimi 正式發(fā)布新一代數(shù)學(xué)推理模型 k0-math。根據(jù)介紹,基準(zhǔn)測試顯示,Kimi k0-math 的數(shù)學(xué)能力可對標(biāo)全球領(lǐng)先的 OpenAI o1 系列可公開使用的兩個(gè)模型:o1-mini和o1-preview。
在多項(xiàng)數(shù)學(xué)基準(zhǔn)能力測試中,k0-math 的表現(xiàn)能對標(biāo) OpenAI o1 系列可公開使用的兩個(gè)模型:o1-mini和o1-preview。在中考、高考、考研以及包含入門競賽題的MATH等 4 個(gè)數(shù)學(xué)基準(zhǔn)測試中,k0-math 初代模型成績超過o1-mini和o1-preview模型。
在數(shù)學(xué)能力基準(zhǔn)測試 MATH 中,k0-math 模型得分 93.8,超過 o1-mini 的 90 分和 o1-preview 的 85.5 分。k0-math 這一成績僅次于暫未開放使用的 o1 完全版 94.8 分。
在兩個(gè)難度更大的競賽級(jí)別的數(shù)學(xué)題庫 OMNI-MATH 和 AIME 基準(zhǔn)測試中,k0-math 初代模型的表現(xiàn)分別達(dá)到了 o1-mini 最高成績的 90% 和 83%。接下來,k0-math 模型會(huì)持續(xù)迭代,提升更難題目的解題能力,挑戰(zhàn)數(shù)學(xué)模型的能力極限。
常規(guī)模型的設(shè)定目標(biāo)是盡快提供問題的答案。k0-math 模型則會(huì)花更長的時(shí)間來推理,包括給出思考和規(guī)劃的思路,并且在必要時(shí)自行反思改進(jìn)解題思路,提升答題的成功率。
值得注意的是,k0-math 模型雖然擅長解答大部分很有難度的數(shù)學(xué)題,但是當(dāng)前版本還無法解答 LaTeX 格式難以描述的幾何圖形類問題。
此外,它還有一些局限性需要突破,包括對于過于簡單的數(shù)學(xué)問題,例如1+1等于幾,k0-math模型可能會(huì)過度思考;對于高考難題和IMO題目依然有一定概率做錯(cuò)、猜答案。
同時(shí),Kimi 探索版也通過運(yùn)用強(qiáng)化學(xué)習(xí)技術(shù)創(chuàng)新了搜索體驗(yàn),在意圖增強(qiáng)、信源分析和鏈?zhǔn)剿伎既笸评砟芰ι蠈?shí)現(xiàn)突破。
此前,月之暗面推出了Kimi 探索版。官方透露,最近,Kimi 探索版運(yùn)用強(qiáng)化學(xué)習(xí)技術(shù)創(chuàng)新搜索體驗(yàn),在三大推理能力上實(shí)現(xiàn)突破:意圖增強(qiáng)、信源分析和鏈?zhǔn)剿伎肌?strong>未來,將推出k0-math數(shù)學(xué)模型和更強(qiáng)大的Kimi探索版,將會(huì)分批陸續(xù)上線 Kimi 網(wǎng)頁版(kimi.ai)和Kimi智能助手APP,幫助用戶解決更有挑戰(zhàn)的數(shù)學(xué)和搜索調(diào)研類任務(wù)。
月之暗面官方透露,每月使用Kimi的用戶,從幾萬增長到幾千萬,幾乎增長了1000倍。可以看到,在通用大模型之后,月之暗面在持續(xù)優(yōu)化大模型的能力,并入局垂類大模型。