強推理模型書生InternThinker開放體驗，在數(shù)學推理場景表現(xiàn)突出

2024-11-29 09:54:31發(fā)布來源：多知作者：Doris

　　多知11月29日消息，近日，上海AI實驗室展示了自主生成高智力密度數(shù)據(jù)、具備元動作思考能力的“模型”等一系列創(chuàng)新進展，并開放強推理模型書生InternThinker試用體驗。該模型具備長思維能力，并能在推理過程中進行自我反思和糾正，從而在數(shù)學、代碼、推理謎題等多種復雜推理任務上取得更優(yōu)結果。

　　為高效提升模型的推理能力，InternThinker采用了更接近人類學習方式的路徑。

　　人在學習解決復雜推理任務時，并非從海量的樣本中進行單點知識的學習，而是思維模式的學習——在解決問題的過程中，通過回憶相關知識點，對正確的解題過程進行理解、記憶，對錯誤解題等過程進行反思和修正，即對自我的認知過程進行覺察和調節(jié)——該能力也被稱作元認知能力。元認知理論的相關研究發(fā)現(xiàn)，通過顯式地引導和感知人在解決問題過程中的思想模式，可提升復雜任務的學習和解決效果。

　　受元認知理論的啟發(fā)，研究團隊設計了一系列元動作來引導模型解決問題的過程，如對問題的理解、知識回憶、規(guī)劃、執(zhí)行、反思、總結等。模型在面對復雜任務時，會顯式且動態(tài)地選擇元動作，再進一步展開相關動作的具體思維過程。通過這種設計，利用部分訓練任務，可強化模型對關鍵元動作組合的使用，顯著提升模型學習效率。

　　因此，InternThinker模型在解決復雜的數(shù)學題上具有優(yōu)勢，它能獲取已有強推理模型的思維鏈數(shù)據(jù)并進行蒸餾。

　　目前，InternThinker模型仍在持續(xù)迭代中。

商學院

Open Talk

強推理模型書生InternThinker開放體驗，在數(shù)學推理場景表現(xiàn)突出

相關閱讀

商學院

Open Talk

強推理模型書生InternThinker開放體驗，在數(shù)學推理場景表現(xiàn)突出

相關閱讀

強推理模型書生InternThinker開放體驗，在數(shù)學推理場景表現(xiàn)突出