該模型具備長(zhǎng)思維能力,并能在推理過程中進(jìn)行自我反思和糾正。

強(qiáng)推理模型書生InternThinker開放體驗(yàn),在數(shù)學(xué)推理場(chǎng)景表現(xiàn)突出

2024-11-29 09:54:31發(fā)布     來(lái)源:多知    作者:Doris  

  多知11月29日消息,近日,上海AI實(shí)驗(yàn)室展示了自主生成高智力密度數(shù)據(jù)、具備元?jiǎng)幼魉伎寄芰Φ?ldquo;模型”等一系列創(chuàng)新進(jìn)展,并開放強(qiáng)推理模型書生InternThinker試用體驗(yàn)。該模型具備長(zhǎng)思維能力,并能在推理過程中進(jìn)行自我反思和糾正,從而在數(shù)學(xué)、代碼、推理謎題等多種復(fù)雜推理任務(wù)上取得更優(yōu)結(jié)果。

  為高效提升模型的推理能力,InternThinker采用了更接近人類學(xué)習(xí)方式的路徑。

  人在學(xué)習(xí)解決復(fù)雜推理任務(wù)時(shí),并非從海量的樣本中進(jìn)行單點(diǎn)知識(shí)的學(xué)習(xí),而是思維模式的學(xué)習(xí)——在解決問題的過程中,通過回憶相關(guān)知識(shí)點(diǎn),對(duì)正確的解題過程進(jìn)行理解、記憶,對(duì)錯(cuò)誤解題等過程進(jìn)行反思和修正,即對(duì)自我的認(rèn)知過程進(jìn)行覺察和調(diào)節(jié)——該能力也被稱作元認(rèn)知能力。元認(rèn)知理論的相關(guān)研究發(fā)現(xiàn),通過顯式地引導(dǎo)和感知人在解決問題過程中的思想模式,可提升復(fù)雜任務(wù)的學(xué)習(xí)和解決效果。

  受元認(rèn)知理論的啟發(fā),研究團(tuán)隊(duì)設(shè)計(jì)了一系列元?jiǎng)幼鱽?lái)引導(dǎo)模型解決問題的過程,如對(duì)問題的理解、知識(shí)回憶、規(guī)劃、執(zhí)行、反思、總結(jié)等。模型在面對(duì)復(fù)雜任務(wù)時(shí),會(huì)顯式且動(dòng)態(tài)地選擇元?jiǎng)幼?,再進(jìn)一步展開相關(guān)動(dòng)作的具體思維過程。通過這種設(shè)計(jì),利用部分訓(xùn)練任務(wù),可強(qiáng)化模型對(duì)關(guān)鍵元?jiǎng)幼鹘M合的使用,顯著提升模型學(xué)習(xí)效率。

  因此,InternThinker模型在解決復(fù)雜的數(shù)學(xué)題上具有優(yōu)勢(shì),它能獲取已有強(qiáng)推理模型的思維鏈數(shù)據(jù)并進(jìn)行蒸餾。

  目前,InternThinker模型仍在持續(xù)迭代中。