中國電競網(wǎng)

中國電競網(wǎng)

清華與星動紀元聯(lián)合發(fā)布首個 AIGC 機器人大模型 VPP

小七 909 AIbase基地

近日,清華大學叉院的 ISRLab 與北京星動紀元科技有限公司攜手推出了首個 AIGC(人工智能生成內(nèi)容)機器人大模型 ——VPP(視頻預(yù)測策略)。這一創(chuàng)新成果在2025年國際機器學習大會(ICML2025)上榮獲 Spotlight 論文獎,顯示出其在全球 AI 研究領(lǐng)域的前沿地位。

AIGC 技術(shù)近年來迅速崛起,從生成式文本模型到視頻生成技術(shù),其應(yīng)用范圍不斷擴大。而 VPP 的誕生標志著這一技術(shù)的應(yīng)用邁向了具身智能機器人領(lǐng)域。VPP 的獨特之處在于其利用了海量互聯(lián)網(wǎng)視頻數(shù)據(jù)進行訓(xùn)練,使得機器人能夠在接收到簡單指令后,實時預(yù)測未來場景并執(zhí)行相應(yīng)動作。例如,用戶只需說出 “給我盛一碗熱騰騰的雞湯”,VPP 模型便能讓機器人完成這一任務(wù)。

根據(jù) ICML2025的統(tǒng)計,今年的 Spotlight 論文評選競爭激烈,投稿總數(shù)超過12000篇,而獲獎?wù)撐膬H占2.6%。VPP 通過將視頻擴散模型的泛化能力引入機器人操作策略,創(chuàng)新性地解決了傳統(tǒng)推理速度的瓶頸,實現(xiàn)了機器人實時預(yù)測和動作執(zhí)行的能力,顯著提升了策略的泛化性。

VPP 的學習框架分為兩個階段,首先利用視頻擴散模型學習預(yù)測性視覺表征,然后通過 Video Former 和 DiT 擴散策略進行動作學習。這種方法使得機器人不僅能快速響應(yīng)用戶指令,還能在不同的人形機器人平臺之間自如切換,極大降低了對高質(zhì)量實機數(shù)據(jù)的依賴,推動了機器人技術(shù)的商業(yè)化進程。

在基準測試中,VPP 的表現(xiàn)也令人矚目。在 Calvin ABC-D 基準測試中,其任務(wù)完成平均長度達到4.33,成功率顯著高于現(xiàn)有技術(shù),展現(xiàn)出其卓越的性能。此外,VPP 的多任務(wù)學習能力也在真實環(huán)境中得到了驗證,能夠完成100多種復(fù)雜的靈巧操作任務(wù)。


標簽: