中國(guó)電競(jìng)網(wǎng)

中國(guó)電競(jìng)網(wǎng)

谷歌 DeepMind 通過強(qiáng)化學(xué)習(xí)微調(diào)提升 AI 決策能力

蘇輕衣 960 AIbase基地

近期,谷歌 DeepMind 團(tuán)隊(duì)與約翰?開普勒林茨大學(xué) LIT AI 實(shí)驗(yàn)室合作,開展了一項(xiàng)關(guān)于人工智能語言模型的新研究。他們采用了強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)技術(shù),旨在提升語言模型的決策能力。這項(xiàng)研究的重點(diǎn)在于,通過思維鏈的強(qiáng)化訓(xùn)練,解決了模型在決策過程中存在的一些關(guān)鍵問題。

Gemini,Google DeepMind,人工智能,AI

隨著大數(shù)據(jù)的應(yīng)用,現(xiàn)有的語言模型已經(jīng)展現(xiàn)出處理文本的超越能力,甚至能夠在交互環(huán)境中做出基于知識(shí)的決策。然而,這些模型在實(shí)際決策時(shí)卻常常出現(xiàn) “紙上談兵” 的問題,雖然能推導(dǎo)出正確的策略,卻無法有效地執(zhí)行。此外,它們還傾向于選擇短期內(nèi)能夠獲得更高回報(bào)的選項(xiàng),同時(shí)較小的模型常常因?yàn)轭l率偏見而重復(fù)常見的動(dòng)作。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,比如 UCB 算法,雖然可以在一定程度上平衡探索與利用,但仍然無法完全解決模型推理與行動(dòng)之間的脫節(jié)問題。為此,DeepMind 團(tuán)隊(duì)創(chuàng)新性地引入了強(qiáng)化學(xué)習(xí)微調(diào)技術(shù),利用模型自生成的思維鏈作為訓(xùn)練信號(hào)。系統(tǒng)將評(píng)估每個(gè)推理步驟所對(duì)應(yīng)的行動(dòng)獎(jiǎng)勵(lì),促使模型優(yōu)先選擇邏輯自洽且有效的行動(dòng)方案。

在實(shí)際實(shí)施過程中,模型根據(jù)輸入指令及歷史行動(dòng)與獎(jiǎng)勵(lì)生成包含推理過程和動(dòng)作的序列。通過蒙特卡洛基線評(píng)估和廣義優(yōu)勢(shì)估計(jì)進(jìn)行優(yōu)化,若采取無效動(dòng)作,則會(huì)觸發(fā)懲罰機(jī)制。同時(shí),獎(jiǎng)勵(lì)塑造技術(shù)的引入不僅保證了輸出的規(guī)范性,還保留了探索的空間。

在實(shí)驗(yàn)中,研究團(tuán)隊(duì)測(cè)試了多臂老虎機(jī)模型。在10臂的測(cè)試中,2B 參數(shù)模型的動(dòng)作覆蓋率提升了12個(gè)百分點(diǎn)。在20臂的測(cè)試中,雖然改善幅度較小,但頻次偏見率從70% 降至35%,顯示出研究的有效性。井字棋的實(shí)驗(yàn)結(jié)果顯示,模型與隨機(jī)對(duì)手對(duì)戰(zhàn)的勝率提升了5倍,對(duì)陣最優(yōu)蒙特卡洛樹搜索代理時(shí)的平均回報(bào)從 -0.95歸零。此外,27B 大模型生成正確推理的概率達(dá)到了87%,而未微調(diào)時(shí)僅有21% 能夠執(zhí)行最優(yōu)動(dòng)作。這一系列的數(shù)據(jù)充分證明了強(qiáng)化學(xué)習(xí)微調(diào)在縮小推理與行動(dòng)之間差距方面的有效性。

劃重點(diǎn):

?? 研究采用強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)技術(shù)提升 AI 語言模型的決策能力。  

?? 通過自生成思維鏈進(jìn)行訓(xùn)練,模型的邏輯推理和行動(dòng)選擇得到有效提升。  

?? 實(shí)驗(yàn)顯示,模型在多臂老虎機(jī)及井字棋中均顯著改善了表現(xiàn),縮小了推理與執(zhí)行之間的差距。  


標(biāo)簽:強(qiáng)化學(xué)習(xí)微調(diào)(RLFT) 谷歌 DeepMind 思維鏈 語言模型