谷歌 DeepMind 通過(guò)強(qiáng)化學(xué)習(xí)微調(diào)提升 AI 決策能力 近期,谷歌 DeepMind 團(tuán)隊(duì)與約翰?開(kāi)普勒林茨大學(xué) LIT AI 實(shí)驗(yàn)室合作,開(kāi)展了一項(xiàng)關(guān)于人工智能語(yǔ)言模型的新研究。他們采用了強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)技術(shù),旨在提升語(yǔ)言模型的決策能力... 蘇輕衣 2025-05-20 960 AIbase基地