極客號(Xqh8.com) 10月8日 消息:最近,meta的研究人員提出了一種名為檢索增強雙指令調優(yōu)(RA-DIT)的新型人工智能方法,用于提升語言模型的知識檢索能力。該方法試圖解決大型語言模型在捕獲較為冷門知識時的局限性以及大規(guī)模預訓練的高計算成本問題。
RA-DIT是一個輕量級的兩階段微調方法,旨在為任何語言模型賦予高效的檢索能力。它通過兩種不同的微調方式,每種方式都能帶來可觀的性能提升。首先,它會優(yōu)化語言模型利用檢索到的信息的能力。其次,它會優(yōu)化檢索器提供的內容相關性,使其能夠提供更符合語言模型偏好的相關結果。通過同時提升語言模型使用檢索信息的效果和檢索器提供內容的相關性,RA-DIT能有效地增強語言模型的知識檢索能力。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
研究人員采用了在大規(guī)模數(shù)據(jù)集上進行過預訓練的LLAMA語言模型,并使用初始化為DRAGON模型的雙編碼器檢索架構。此外,他們還提到了使用并行上下文檢索增強,以更有效地計算語言模型的預測。
實驗結果顯示,RA-DIT65B在知識密集的零樣本和少樣本學習任務中設置了新的基準,大幅超過現(xiàn)有的上下文檢索增強語言模型。這證明了輕量級指令調優(yōu)在提高檢索增強語言模型性能方面的效果,特別是在需要訪問大量外部知識源的場景中。在需要利用知識和語境感知的任務中,RA-DIT65B的表現(xiàn)有了大幅提升。此外,與基礎LLAMA模型相比,RA-DIT在8個常識推理評估數(shù)據(jù)集中表現(xiàn)更好。
RA-DIT為預訓練語言模型帶來了檢索能力的提升。它在知識密集的零樣本和少樣本評估中取得了最先進的結果,超過了未調優(yōu)的上下文檢索增強語言模型,與大規(guī)模預訓練的方法展現(xiàn)出競爭力。RA-DIT顯著改善了對知識利用和語境感知的要求較高的任務的表現(xiàn)。該研究證明了輕量級指令調優(yōu)對檢索增強語言模型的有效性,特別是在涉及大規(guī)模外部知識源的場景中。
論文網(wǎng)址:https://arxiv.org/abs/2310.01352