極客號(Daydx.com)8月25日 消息:最近,研究人員使用插值技術(shù)將開源語言模型LLaMA的上下文窗口從原來的約3,200個token擴大了10倍,達到約32,000個token,由此開發(fā)出新的開源語言模型Giraffe。該版本有130億個參數(shù)版本,并且擁有所有開源 LLM 中最大的上下文窗口之一。
Giraffe適用于需要處理數(shù)十頁文本的各種商業(yè)應(yīng)用場景。像GPT-3這樣的語言模型上下文窗口有限,對長文本理解能力較弱。而Giraffe具有更大的“記憶”,能更好地處理這樣的用例。
作為開源研究,Giraffe研究還提供了對語言模型內(nèi)部運作以及不同的上下文窗口擴大技術(shù)的重要見解。研究發(fā)現(xiàn),位置嵌入的線性縮放對增加上下文長度最為有效。
研究同時也凸顯了當(dāng)前技術(shù)的局限性,因為準(zhǔn)確率會隨上下文窗口增加而下降。這表明僅用困惑度來衡量語言模型的表現(xiàn)是不夠的,對長上下文任務(wù)需要定制化的測試。
目前,開源的Giraffe-v2-13b-32k模型已在Hugging Face平臺上線,代碼也在GitHub上開源。
項目網(wǎng)址:
https://github.com/abacusai/Long-Context
https://huggingface.co/abacusai/Giraffe-v2-13b-32k