“北極星”基礎(chǔ)教育大模型評測場V1.0及榜單正式發(fā)布

2025-07-12 17:50:48發(fā)布來源：多知作者：武亦可

　　多知7月12日消息，北京師范大學(xué)智能技術(shù)與教育應(yīng)用教育部工程研究中心(以下簡稱“工程研究中心”)發(fā)布“北極星”基礎(chǔ)教育大模型評測場V1.0及榜單。

　　“北極星”由北京師范大學(xué)智能技術(shù)與教育應(yīng)用教育部工程研究中心、北京教育科學(xué)研究院、‌北京智源人工智能研究院聯(lián)合建設(shè)，是一款含有基礎(chǔ)教育特色的大模型評測場。

　　在團體標準《人工智能基礎(chǔ)教育大模型評測指標和方法》(標準編號：T/CESA 1395-2025)的指導(dǎo)下，“北極星”具有緊扣新課標、聚焦教育應(yīng)用、多學(xué)科多場景的特點，更加關(guān)注啟發(fā)引導(dǎo)、素養(yǎng)導(dǎo)向、情境創(chuàng)設(shè)等能力評估。

圖片 1.png

　　目前“北極星”評測場已覆蓋初中“語文/數(shù)學(xué)/英語/物理/化學(xué)/生物/歷史/地理/信息技術(shù)”9門學(xué)科、“備/教/練/考/評/管”6大教育場景，支持110多個維度的評測。

　　據(jù)官方介紹，現(xiàn)有大模型大多數(shù)能力離實際應(yīng)用尚有差距，例如解題性能會因題目改寫受到較大影響，實驗探究方面效果欠佳;智能出題方面，大模型題目和解析的準確性仍有待提升。經(jīng)過測評，“北極星”評測結(jié)果與具備豐富教學(xué)經(jīng)驗的資深教師越來越相近。

　　“北極星”V1.0版本已正式上線(www.bnueval.com)，同時其全面評測50多個主流大模型，評測榜單通過網(wǎng)站向公眾公布。

　　對于接下來的布局思路，據(jù)介紹“北極星”基礎(chǔ)教育大模型評測場將繼續(xù)迭代更新，以更全面的評測維度、更科學(xué)的評測方法推動基礎(chǔ)教育大模型應(yīng)用安全、健康發(fā)展。

商學(xué)院

Open Talk

“北極星”基礎(chǔ)教育大模型評測場V1.0及榜單正式發(fā)布

相關(guān)閱讀