中國(guó)電競(jìng)網(wǎng)

中國(guó)電競(jìng)網(wǎng)

清華與星動(dòng)紀(jì)元聯(lián)合發(fā)布首個(gè) AIGC 機(jī)器人大模型 VPP

小七 900 AIbase基地

近日,清華大學(xué)叉院的 ISRLab 與北京星動(dòng)紀(jì)元科技有限公司攜手推出了首個(gè) AIGC(人工智能生成內(nèi)容)機(jī)器人大模型 ——VPP(視頻預(yù)測(cè)策略)。這一創(chuàng)新成果在2025年國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML2025)上榮獲 Spotlight 論文獎(jiǎng),顯示出其在全球 AI 研究領(lǐng)域的前沿地位。

AIGC 技術(shù)近年來(lái)迅速崛起,從生成式文本模型到視頻生成技術(shù),其應(yīng)用范圍不斷擴(kuò)大。而 VPP 的誕生標(biāo)志著這一技術(shù)的應(yīng)用邁向了具身智能機(jī)器人領(lǐng)域。VPP 的獨(dú)特之處在于其利用了海量互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行訓(xùn)練,使得機(jī)器人能夠在接收到簡(jiǎn)單指令后,實(shí)時(shí)預(yù)測(cè)未來(lái)場(chǎng)景并執(zhí)行相應(yīng)動(dòng)作。例如,用戶只需說(shuō)出 “給我盛一碗熱騰騰的雞湯”,VPP 模型便能讓機(jī)器人完成這一任務(wù)。

根據(jù) ICML2025的統(tǒng)計(jì),今年的 Spotlight 論文評(píng)選競(jìng)爭(zhēng)激烈,投稿總數(shù)超過(guò)12000篇,而獲獎(jiǎng)?wù)撐膬H占2.6%。VPP 通過(guò)將視頻擴(kuò)散模型的泛化能力引入機(jī)器人操作策略,創(chuàng)新性地解決了傳統(tǒng)推理速度的瓶頸,實(shí)現(xiàn)了機(jī)器人實(shí)時(shí)預(yù)測(cè)和動(dòng)作執(zhí)行的能力,顯著提升了策略的泛化性。

VPP 的學(xué)習(xí)框架分為兩個(gè)階段,首先利用視頻擴(kuò)散模型學(xué)習(xí)預(yù)測(cè)性視覺(jué)表征,然后通過(guò) Video Former 和 DiT 擴(kuò)散策略進(jìn)行動(dòng)作學(xué)習(xí)。這種方法使得機(jī)器人不僅能快速響應(yīng)用戶指令,還能在不同的人形機(jī)器人平臺(tái)之間自如切換,極大降低了對(duì)高質(zhì)量實(shí)機(jī)數(shù)據(jù)的依賴,推動(dòng)了機(jī)器人技術(shù)的商業(yè)化進(jìn)程。

在基準(zhǔn)測(cè)試中,VPP 的表現(xiàn)也令人矚目。在 Calvin ABC-D 基準(zhǔn)測(cè)試中,其任務(wù)完成平均長(zhǎng)度達(dá)到4.33,成功率顯著高于現(xiàn)有技術(shù),展現(xiàn)出其卓越的性能。此外,VPP 的多任務(wù)學(xué)習(xí)能力也在真實(shí)環(huán)境中得到了驗(yàn)證,能夠完成100多種復(fù)雜的靈巧操作任務(wù)。


標(biāo)簽: