學(xué)習(xí)英語(yǔ)并不容易,許多學(xué)生都深有體會(huì)。但當(dāng)學(xué)生是一臺(tái)計(jì)算機(jī)時(shí),有一種方法表現(xiàn)出奇地出色:只需將大量來(lái)自互聯(lián)網(wǎng)的文本輸入到一個(gè)名為神經(jīng)網(wǎng)絡(luò)的巨大數(shù)學(xué)模型中。
這就是生成式大語(yǔ)言模型(如 OpenAI 的 ChatGPT)的工作原理,這些模型能夠在各種主題上進(jìn)行連貫(盡管不總是真實(shí))的對(duì)話,令研究人員和公眾在過(guò)去的一年中感到驚訝。
但這種方法也有其缺點(diǎn)。首先,將大量文本檔案轉(zhuǎn)化為最先進(jìn)的語(yǔ)言模型所需的「訓(xùn)練」過(guò)程既昂貴又耗時(shí)。其次,即使是訓(xùn)練大型語(yǔ)言模型的人們也很難理解它們的內(nèi)部工作原理;這反過(guò)來(lái)又使得難以預(yù)測(cè)它們可能出現(xiàn)的許多問(wèn)題。
面對(duì)這些困難,一些研究人員選擇對(duì)較小的數(shù)據(jù)集上的較小模型進(jìn)行訓(xùn)練,然后研究它們的行為。布朗大學(xué)的語(yǔ)言模型研究員 Ellie Pavlick 表示:「這就像測(cè)序果蠅基因組與測(cè)序人類基因組一樣?!?/p>
現(xiàn)在,在最近發(fā)布在科學(xué)預(yù)印本服務(wù) arxiv.org 上的一篇論文中,兩名微軟研究人員介紹了一種訓(xùn)練微小語(yǔ)言模型的新方法:用兒童故事來(lái)訓(xùn)練它們。
機(jī)器學(xué)習(xí)研究人員已經(jīng)接受了這一教訓(xùn)。驅(qū)動(dòng) ChatGPT 界面的大型語(yǔ)言模型 GPT-3.5 擁有近 2000 億個(gè)參數(shù),它是在包含數(shù)千億個(gè)詞匯的數(shù)據(jù)集上訓(xùn)練的。(OpenAI 尚未公布其繼任者 GPT-4 的相應(yīng)數(shù)據(jù)。)訓(xùn)練如此大型的模型通常需要至少 1000 個(gè)并行運(yùn)行數(shù)周的專用處理器(稱為 GPU)。只有少數(shù)公司能夠調(diào)集必要的資源,更不用說(shuō)訓(xùn)練和比較不同模型了。
這兩名研究人員展示了,與今天的最先進(jìn)系統(tǒng)相比,比這些系統(tǒng)小數(shù)千倍的語(yǔ)言模型在這種方式下能夠迅速學(xué)會(huì)講述一致和符合語(yǔ)法的故事。他們的研究結(jié)果暗示了可能有助于訓(xùn)練更大型模型并理解其行為的新研究方向。