“教會(huì)了模型教學(xué)任務(wù)”

網(wǎng)易有道首席科學(xué)家:為什么教育大模型能判斷9.11和9.9誰大?

2024-07-19 11:02:59發(fā)布     來源:多知    作者:Penny  

  多知7月19日消息,近日,多知曾報(bào)道了【9.11和9.9哪個(gè)更大】測(cè)試了多個(gè)大模型,其中一些通用大模型都答錯(cuò)了,錯(cuò)法各有不同,而教育垂類大模型都答對(duì)了,包括學(xué)而思旗下九章大模型旗下的九章隨時(shí)問,猿力科技看云大模型旗下的海豚AI學(xué)以及基于子曰教育大模型研發(fā)的APP——有道小P。

  對(duì)此,網(wǎng)易有道首席科學(xué)家段亦濤向多知解釋:“類似9.11和9.9哪個(gè)大,以及算數(shù)運(yùn)算,奇偶校驗(yàn),字符串復(fù)制等其他的任務(wù),都屬于inductive inference(歸納推理)的任務(wù)。這類問題不是邏輯推理能力的問題。他們的特點(diǎn)是用一段代碼,或者一個(gè)特定的電路就可以做到完美。

  從機(jī)器學(xué)習(xí)的角度來看,如果希望模型獲得這樣的能力,是一個(gè)inductive learning(歸納學(xué)習(xí))的過程。就是說從有限的數(shù)據(jù)樣例中總結(jié)出一個(gè)通用的規(guī)則。inductive learning是一個(gè)非常重要的學(xué)習(xí)方式,人類所有的對(duì)世界規(guī)律的認(rèn)知,比如萬有引力,都是通過inductive learning來獲取的。眾所周知,inductive learning(歸納學(xué)習(xí))需要inductive bias(歸納偏置),即獨(dú)立于數(shù)據(jù)的額外假設(shè)。這是因?yàn)槿魏斡邢迶?shù)量的訓(xùn)練樣本都對(duì)應(yīng)著無限多種可能的后續(xù)情況,對(duì)應(yīng)于不同的規(guī)則。大衛(wèi)·休謨(David Hume)在他的《人類理解研究》(An Enquiry Concerning Human Understanding)一書中對(duì)歸納問題的研究中指出,我們對(duì)世界的所有觀察都只是一系列“恒常共現(xiàn)”的現(xiàn)象,而因果關(guān)系等規(guī)則則是由人類大腦賦予的。這就是人類學(xué)習(xí)中的inductive bias。

  不幸的是,目前大模型不具有使用靈活的inductive bias的機(jī)制。它本質(zhì)上還是一個(gè)語言模型,它從語言數(shù)據(jù)中學(xué)習(xí)的是統(tǒng)計(jì)相關(guān)性,而這使它不擅長(zhǎng)做規(guī)則學(xué)習(xí),從而不擅長(zhǎng)歸納推理。比如它可能在語料中看到版本號(hào)、日期、書的章節(jié)等樣例。而在這種場(chǎng)景下,9.11的確是比9.9大。所以它可能給出錯(cuò)誤的答案。”

  那么怎么才能解決這個(gè)問題?

  段亦濤說:“有道做大模型應(yīng)用的思路是應(yīng)用驅(qū)動(dòng),揚(yáng)長(zhǎng)避短。我們聚焦教育場(chǎng)景,利用我們多年積累的業(yè)務(wù)數(shù)據(jù)和AI技術(shù),來克服大模型的這類問題。首先多年來我們的教學(xué)業(yè)務(wù)積累了大量的數(shù)據(jù),包括題目、知識(shí)點(diǎn)、教案、講解等等。這些數(shù)據(jù)蘊(yùn)含了有道的名師對(duì)教學(xué)內(nèi)容的深刻理解和剖析。我們利用這些數(shù)據(jù),采用了一系列技術(shù),包括預(yù)訓(xùn)練,SFT,RLHF等,加強(qiáng)了模型的領(lǐng)域能力。同時(shí),我們也用RAG的方式,將龐大的教學(xué)資料作為外部知識(shí)庫形式提供給LLM,進(jìn)一步強(qiáng)化它的結(jié)果的準(zhǔn)確性。

  另外特別重要的一點(diǎn)是,我們開發(fā)出了有效的強(qiáng)化模型指令遵循能力的技術(shù)。這使得模型能夠很好地理解和利用我們的業(yè)務(wù)數(shù)據(jù)中對(duì)概念和解題思路的講解。比如我們的教輔數(shù)據(jù)里包含如何比較兩個(gè)小數(shù)的大小的思路,模型遵循這些思路,就能做對(duì)。從某種意義上講,我們找到了辦法,將inductive inference(歸納推理)轉(zhuǎn)變?yōu)閐eductive inference(演繹推理),從而避免了大模型學(xué)習(xí)規(guī)則的短板。也就是說,我們找到了有效的教學(xué)方法,教會(huì)了模型這些任務(wù),而不是完全依賴它自己去學(xué)到。

  這個(gè)方式并不簡(jiǎn)單,它依賴模型具有很強(qiáng)的指令遵循能力。我們也是通過深入的思考和大量的嘗試才做到。”

  相關(guān)閱讀:

  9.11和9.9誰大?教育大模型高光時(shí)刻,通用大模型翻車