中國(guó)電競(jìng)網(wǎng)

中國(guó)電競(jìng)網(wǎng)

逆天改命!Flow-GRPO 讓圖像生成模型秒變 “大神”

今天必須給你們嘮嘮科研界的一項(xiàng)超酷新成果 ——Flow-GRPO!這東西可不得了,它就像是給圖像生成模型打了一針 “超級(jí)進(jìn)化劑”,直接讓它們從 “青銅” 一路飆升到 “王者”。想知道它是怎么做到的嗎?快搬好小板凳,聽我細(xì)細(xì)道來(lái)!

圖像生成模型的 “成長(zhǎng)煩惱”

現(xiàn)在的圖像生成模型,比如基于流匹配(Flow matching)的那些,理論基礎(chǔ)那叫一個(gè)扎實(shí),生成的高質(zhì)量圖像也讓人眼前一亮。但它們也有自己的 “小煩惱”,遇到復(fù)雜場(chǎng)景,像要安排好多物體、處理各種屬性和關(guān)系,或者是在圖像里準(zhǔn)確渲染文本的時(shí)候,就有點(diǎn) “抓瞎” 了。

image.png

論文地址:https://www.arxiv.org/pdf/2505.05470

項(xiàng)目地址:https://github.com/yifan123/flow_grpo

而在線強(qiáng)化學(xué)習(xí)(online RL)在提升大語(yǔ)言模型推理能力方面,那效果是杠杠的??芍按蠹抑饕?RL 用在早期的擴(kuò)散生成模型,還有像直接偏好優(yōu)化這類離線 RL 技術(shù)上,卻很少有人探索在線 RL 能不能給流匹配生成模型帶來(lái)新突破。這就好比明明有一把很厲害的鑰匙,卻沒(méi)人想到去開這扇門?,F(xiàn)在,F(xiàn)low-GRPO 就來(lái) “撬門” 啦!

用 RL 訓(xùn)練流模型,那挑戰(zhàn)可不小。首先,流模型的生成過(guò)程就像一條設(shè)定好的軌道,基于確定性的常微分方程(ODE),一路按部就班,在推理的時(shí)候沒(méi)法隨機(jī)采樣。但 RL 呢,就像一個(gè)好奇寶寶,得靠隨機(jī)嘗試不同的行動(dòng),再根據(jù)反饋來(lái)學(xué)習(xí)。這倆的 “脾氣” 完全不一樣,一個(gè)要規(guī)規(guī)矩矩,一個(gè)要到處探索,怎么能湊到一塊呢?

其次,在線 RL 訓(xùn)練得高效采樣收集數(shù)據(jù)才行,可流模型生成每個(gè)樣本都要折騰好多迭代步驟,就像蝸牛爬一樣慢,采樣效率低得可憐。模型越高級(jí)、越復(fù)雜,這個(gè)問(wèn)題就越嚴(yán)重,簡(jiǎn)直是 “雪上加霜”。所以,要想讓 RL 在圖像或視頻生成這些任務(wù)里發(fā)揮作用,提高采樣效率就成了關(guān)鍵中的關(guān)鍵。

image.png

Flow-GRPO 來(lái) “救場(chǎng)” 啦!

為了解決這些難題,F(xiàn)low-GRPO 閃亮登場(chǎng)!它就像一個(gè)超級(jí) “魔法工具箱”,里面裝著兩個(gè)神奇的 “魔法” 策略。

第一個(gè)魔法是 “ODE 到 SDE 轉(zhuǎn)換”。這就好比把一輛只能在固定軌道上行駛的火車,改裝成了能在各種道路上自由穿梭的汽車。Flow-GRPO 把原本確定性的常微分方程,轉(zhuǎn)變成了隨機(jī)微分方程(SDE),而且還能保證在每個(gè)時(shí)間步都和原來(lái)模型的邊際分布一樣。這樣一來(lái),就給模型引入了隨機(jī)性,讓它能像 RL 需要的那樣去探索不同的可能性。想象一下,以前模型生成圖像就像在一條直直的路上走,現(xiàn)在有了這個(gè)轉(zhuǎn)換,它就能在各種不同的小路上探索,找到更合適的生成方式,是不是很神奇?

第二個(gè)魔法是 “降噪減少策略”。訓(xùn)練的時(shí)候,F(xiàn)low-GRPO 就像一個(gè)聰明的 “時(shí)間管理大師”,它減少了降噪步驟,這樣就能快速收集訓(xùn)練數(shù)據(jù)。但在推理的時(shí)候,它又會(huì)恢復(fù)到原來(lái)完整的降噪步驟,保證生成高質(zhì)量的樣本。這就好比跑步,訓(xùn)練的時(shí)候?yàn)榱丝焖龠m應(yīng)環(huán)境,就先小步快跑;比賽的時(shí)候,再按照正常的節(jié)奏大步跑,既能保證速度,又能保證質(zhì)量。

image.png

Flow-GRPO 實(shí)戰(zhàn)表現(xiàn)如何?

Flow-GRPO 到底有多厲害?研究人員用它在各種文本到圖像(T2I)的任務(wù)上做了測(cè)試,結(jié)果簡(jiǎn)直驚艷!

在組合圖像生成任務(wù)上,用 GenEval 基準(zhǔn)測(cè)試來(lái)評(píng)估。這任務(wù)可不簡(jiǎn)單,得精確安排物體、控制屬性,就像搭樂(lè)高一樣,每個(gè)零件都要放對(duì)地方。Flow-GRPO 讓 Stable Diffusion3.5Medium(SD3.5-M)模型的準(zhǔn)確率從63% 一路飆升到95%,直接把 GPT-4o 模型都給比下去了!以前模型生成的圖像,可能物體數(shù)量不對(duì),顏色、位置也亂七八糟,現(xiàn)在有了 Flow-GRPO,這些問(wèn)題都迎刃而解,生成的圖像就像被施了魔法一樣精準(zhǔn)。

視覺(jué)文本渲染任務(wù)中,SD3.5-M 模型在 Flow-GRPO 的加持下,準(zhǔn)確率從59% 提高到了92%。以前模型可能會(huì)把文本渲染得歪歪扭扭、缺胳膊少腿,現(xiàn)在卻能準(zhǔn)確無(wú)誤地把文本呈現(xiàn)在圖像里,就像給圖像配上了最完美的文字說(shuō)明,效果提升不是一星半點(diǎn)。

在與人類偏好對(duì)齊的任務(wù)里,F(xiàn)low-GRPO 同樣表現(xiàn)出色。用 PickScore 作為獎(jiǎng)勵(lì)模型來(lái)評(píng)估,它能讓模型生成的圖像更符合人類的喜好。而且,在提升能力的同時(shí),幾乎沒(méi)有出現(xiàn)獎(jiǎng)勵(lì)作弊的情況。啥是獎(jiǎng)勵(lì)作弊呢?就是有些模型為了提高獎(jiǎng)勵(lì)分?jǐn)?shù),犧牲了圖像質(zhì)量和多樣性,生成的圖片要么模糊不清,要么千篇一律。但 Flow-GRPO 不一樣,它就像是個(gè) “正義使者”,保證圖像質(zhì)量和多樣性的同時(shí),還能讓獎(jiǎng)勵(lì)分?jǐn)?shù)蹭蹭往上漲。

研究人員還對(duì) Flow-GRPO 進(jìn)行了各種分析。比如說(shuō),在處理獎(jiǎng)勵(lì)作弊問(wèn)題上,他們嘗試了好多方法。一開始把各種獎(jiǎng)勵(lì)模型組合在一起,結(jié)果發(fā)現(xiàn)圖像出現(xiàn)了局部模糊、多樣性降低的問(wèn)題,就像給美麗的風(fēng)景圖蒙上了一層霧,啥都看不清。后來(lái)用 KL 約束這個(gè)方法,效果就好多啦。調(diào)整好 KL 系數(shù)后,既能優(yōu)化任務(wù)特定的獎(jiǎng)勵(lì),又不會(huì)損害模型的整體性能,就像給模型找到了一個(gè)完美的 “平衡點(diǎn)”。

還有降噪減少策略的效果分析。減少訓(xùn)練時(shí)的數(shù)據(jù)收集時(shí)間步長(zhǎng),從40步減少到10步,結(jié)果發(fā)現(xiàn)訓(xùn)練速度提高了4倍多,而且最終的獎(jiǎng)勵(lì)分?jǐn)?shù)一點(diǎn)也沒(méi)受影響。就好比開車,以前要慢悠悠地開好久才能到目的地,現(xiàn)在換了條更順暢的路,一下子就到了,還不耽誤事兒!

噪聲水平對(duì)模型也有影響。SDE 里的噪聲水平如果設(shè)置得合適,就能提高圖像的多樣性和探索能力,對(duì) RL 訓(xùn)練特別有幫助。但要是噪聲太大,圖像質(zhì)量就會(huì)下降,就像往一幅精美的畫上隨意潑墨,好好的畫就毀了。研究發(fā)現(xiàn),把噪聲水平設(shè)置在0.7左右的時(shí)候效果最佳,能在保證圖像質(zhì)量的同時(shí),讓模型更好地探索各種可能性。

Flow-GRPO 的泛化能力也很強(qiáng)。在一些沒(méi)見過(guò)的場(chǎng)景測(cè)試中,它能準(zhǔn)確捕捉物體的數(shù)量、顏色和空間關(guān)系,就算是沒(méi)訓(xùn)練過(guò)的物體類別,它也能應(yīng)對(duì)自如。從訓(xùn)練生成2-4個(gè)物體,到測(cè)試時(shí)生成5-6個(gè)物體,它都能輕松搞定,就像一個(gè)學(xué)習(xí)能力超強(qiáng)的學(xué)生,舉一反三,啥題都會(huì)做!

未來(lái)展望與挑戰(zhàn)

雖然 Flow-GRPO 在文本到圖像的任務(wù)里表現(xiàn)得非常出色,但研究人員并沒(méi)有滿足于此。他們已經(jīng)把目光投向了更廣闊的領(lǐng)域 —— 視頻生成。不過(guò),這也帶來(lái)了一些新的挑戰(zhàn)。

首先是獎(jiǎng)勵(lì)設(shè)計(jì)。在視頻生成里,簡(jiǎn)單的獎(jiǎng)勵(lì)模型可不夠用了,得想出更復(fù)雜、更有效的獎(jiǎng)勵(lì)模型,才能讓生成的視頻既真實(shí)又流暢。這就好比給電影打分,不能只看畫面好不好看,還要考慮劇情、音效等好多方面。

其次是平衡多個(gè)獎(jiǎng)勵(lì)。視頻生成要優(yōu)化好多目標(biāo),像真實(shí)性、流暢性、連貫性等等,這些目標(biāo)有時(shí)候就像幾個(gè)調(diào)皮的小孩,各有各的想法,很難平衡。研究人員得想辦法讓它們 “和諧共處”,這可不容易。

最后是可擴(kuò)展性。視頻生成比圖像生成更費(fèi)資源,就像吃得多的 “大胃王”。要把 Flow-GRPO 應(yīng)用到視頻生成中,就得找到更高效的數(shù)據(jù)收集和訓(xùn)練方法,不然 “資源小水管” 可滿足不了它的 “大胃口”。

但這些挑戰(zhàn)并不能阻擋 Flow-GRPO 前進(jìn)的腳步。相信在研究人員的努力下,未來(lái) Flow-GRPO 不僅能在圖像生成領(lǐng)域繼續(xù)發(fā)光發(fā)熱,還能在視頻生成等更多領(lǐng)域創(chuàng)造奇跡,給我們帶來(lái)更多的驚喜!說(shuō)不定以后我們看的電影、玩的游戲里的畫面,都是 Flow-GRPO 幫忙生成的呢!讓我們一起拭目以待吧!


標(biāo)簽:Flow-GRPO 圖像生成模型 ai