近期,谷歌 DeepMind 團隊與約翰?開普勒林茨大學(xué) LIT AI 實驗室合作,開展了一項關(guān)于人工智能語言模型的新研究。他們采用了強化學(xué)習(xí)微調(diào)(RLFT)技術(shù),旨在提升語言模型的決策能力。這項研究的重點在于,通過思維鏈的強化訓(xùn)練,解決了模型在決策過程中存在的一些關(guān)鍵問題。
隨著大數(shù)據(jù)的應(yīng)用,現(xiàn)有的語言模型已經(jīng)展現(xiàn)出處理文本的超越能力,甚至能夠在交互環(huán)境中做出基于知識的決策。然而,這些模型在實際決策時卻常常出現(xiàn) “紙上談兵” 的問題,雖然能推導(dǎo)出正確的策略,卻無法有效地執(zhí)行。此外,它們還傾向于選擇短期內(nèi)能夠獲得更高回報的選項,同時較小的模型常常因為頻率偏見而重復(fù)常見的動作。
傳統(tǒng)的強化學(xué)習(xí)方法,比如 UCB 算法,雖然可以在一定程度上平衡探索與利用,但仍然無法完全解決模型推理與行動之間的脫節(jié)問題。為此,DeepMind 團隊創(chuàng)新性地引入了強化學(xué)習(xí)微調(diào)技術(shù),利用模型自生成的思維鏈作為訓(xùn)練信號。系統(tǒng)將評估每個推理步驟所對應(yīng)的行動獎勵,促使模型優(yōu)先選擇邏輯自洽且有效的行動方案。
在實際實施過程中,模型根據(jù)輸入指令及歷史行動與獎勵生成包含推理過程和動作的序列。通過蒙特卡洛基線評估和廣義優(yōu)勢估計進行優(yōu)化,若采取無效動作,則會觸發(fā)懲罰機制。同時,獎勵塑造技術(shù)的引入不僅保證了輸出的規(guī)范性,還保留了探索的空間。
在實驗中,研究團隊測試了多臂老虎機模型。在10臂的測試中,2B 參數(shù)模型的動作覆蓋率提升了12個百分點。在20臂的測試中,雖然改善幅度較小,但頻次偏見率從70% 降至35%,顯示出研究的有效性。井字棋的實驗結(jié)果顯示,模型與隨機對手對戰(zhàn)的勝率提升了5倍,對陣最優(yōu)蒙特卡洛樹搜索代理時的平均回報從 -0.95歸零。此外,27B 大模型生成正確推理的概率達到了87%,而未微調(diào)時僅有21% 能夠執(zhí)行最優(yōu)動作。這一系列的數(shù)據(jù)充分證明了強化學(xué)習(xí)微調(diào)在縮小推理與行動之間差距方面的有效性。
劃重點:
?? 研究采用強化學(xué)習(xí)微調(diào)(RLFT)技術(shù)提升 AI 語言模型的決策能力。
?? 通過自生成思維鏈進行訓(xùn)練,模型的邏輯推理和行動選擇得到有效提升。
?? 實驗顯示,模型在多臂老虎機及井字棋中均顯著改善了表現(xiàn),縮小了推理與執(zhí)行之間的差距。
標簽:強化學(xué)習(xí)微調(diào)(RLFT) 谷歌 DeepMind 思維鏈 語言模型