極客號(hào)(Daydx.com)8月31日 消息:最近,北大碩士通過DeepSpeed-Chat框架訓(xùn)練了一個(gè)RLHF對(duì)話模型。他在知乎分享了自己的實(shí)踐過程,總結(jié)了原理,代碼以及踩坑與解決方案。
在訓(xùn)練獎(jiǎng)勵(lì)模型時(shí),作者使用Cohere提供的問答數(shù)據(jù),構(gòu)造了2萬個(gè)優(yōu)質(zhì)答案和劣質(zhì)答案的組合,通過排序任務(wù)訓(xùn)練獎(jiǎng)勵(lì)模型給答案打分。在強(qiáng)化學(xué)習(xí)階段,作者采用Actor-Critic框架,分別訓(xùn)練策略模型、價(jià)值模型、參考模型和獎(jiǎng)勵(lì)模型。學(xué)習(xí)過程包含生成經(jīng)驗(yàn)和更新模型兩步。
在模型訓(xùn)練過程中,作者分享了一些常見錯(cuò)誤和解決方法。主要問題有DeepSpeed引發(fā)的生成問題、強(qiáng)制最大長(zhǎng)度造成的偏差、Critic loss發(fā)散等。他通過關(guān)閉引擎、修改最大長(zhǎng)度、縮放獎(jiǎng)勵(lì)等方式解決了這些問題。最后作者還嘗試了一些trick來提高模型性能,如歸一化優(yōu)勢(shì)、增加策略熵、縮放獎(jiǎng)勵(lì)等。
通過解決 above 問題,作者最終成功地訓(xùn)練出了自己的RLHF對(duì)話模型。本文對(duì)RLHF在對(duì)話系統(tǒng)中的應(yīng)用進(jìn)行了較為系統(tǒng)和詳細(xì)的介紹,對(duì)相關(guān)研究具有很好的參考價(jià)值。(感興趣的可以點(diǎn)此查看原文)