蘋(píng)果放大招！FastVLM 讓視覺(jué)語(yǔ)言模型在 iPhone 上飛速 “狂飆”

2025-05-12 顏悅眉 393 AIbase基地

蘋(píng)果最近又搞了個(gè)大新聞，偷偷摸摸地發(fā)布了一個(gè)叫 FastVLM 的模型。聽(tīng)名字可能有點(diǎn)懵，但簡(jiǎn)單來(lái)說(shuō)，這玩意兒就是讓你的 iPhone 瞬間擁有了“火眼金睛”，不僅能看懂圖片里的各種復(fù)雜信息，還能像個(gè)段子手一樣跟你“貧嘴”!而且最厲害的是，它速度快到飛起，蘋(píng)果官方宣稱(chēng)，首次給你“貧嘴”的速度比之前的一些模型快了足足85倍!這簡(jiǎn)直是要逆天啊!

視覺(jué)語(yǔ)言模型的 “成長(zhǎng)煩惱”

現(xiàn)在的視覺(jué)語(yǔ)言模型，就像個(gè)不斷進(jìn)化的小天才，能同時(shí)理解圖像和文本信息。它的應(yīng)用可廣了，從幫咱們理解圖片里的內(nèi)容，到輔助創(chuàng)作圖文并茂的作品，都不在話下。一般來(lái)說(shuō)，VLMs 是把預(yù)訓(xùn)練的視覺(jué)骨干網(wǎng)絡(luò)提取的視覺(jué) token，通過(guò)投影層傳給預(yù)訓(xùn)練的大語(yǔ)言模型（LLM）。之前好多研究都在探索怎么訓(xùn)練和微調(diào)這幾個(gè)組件，讓模型變得更強(qiáng)。

研究發(fā)現(xiàn)，提高圖像分辨率能顯著提升 VLMs 在一些任務(wù)上的表現(xiàn)，尤其是處理那些文字和圖表豐富的圖像時(shí)。你想啊，圖片越清晰，模型能 “看” 到的細(xì)節(jié)就越多，理解起來(lái)不就更準(zhǔn)確嘛!但這也帶來(lái)了不少麻煩。一方面，很多預(yù)訓(xùn)練的視覺(jué)編碼器不太支持高分辨率圖像，強(qiáng)行用的話，預(yù)訓(xùn)練效率會(huì)變得超級(jí)低。為了解決這個(gè)問(wèn)題，有人嘗試持續(xù)預(yù)訓(xùn)練視覺(jué)骨干網(wǎng)絡(luò)，讓它適應(yīng)高分辨率;還有人把圖像切成小塊，像拼圖一樣分別處理，不過(guò)這也挺麻煩的。

另一方面，高分辨率推理的計(jì)算成本太高了!不管是直接進(jìn)行高分辨率推理，還是把圖像切塊后進(jìn)行低分辨率推理，都會(huì)產(chǎn)生很大的延遲。而且高分辨率圖像生成的 token 更多，這又增加了 LLM 處理這些 token 的時(shí)間，導(dǎo)致整個(gè)模型輸出首個(gè) token 的時(shí)間（TTFT）變長(zhǎng)。這就好比你讓一個(gè)人一下子處理太多任務(wù)，他肯定會(huì)手忙腳亂，速度變慢。

FastVLM 來(lái) “救場(chǎng)”

面對(duì)這些難題，蘋(píng)果的研究團(tuán)隊(duì)搞出了 FastVLM，它就像是給 VLMs 注入了一劑 “加速藥水”，能在保證性能的同時(shí)，大幅提升運(yùn)行效率。

架構(gòu)設(shè)計(jì):另辟蹊徑的 “智慧結(jié)晶”

FastVLM 的核心是 FastViTHD 這個(gè)新型混合視覺(jué)編碼器。在探索 VLM 架構(gòu)時(shí)，團(tuán)隊(duì)發(fā)現(xiàn)混合視覺(jué)編碼器（卷積層加上 Transformer 塊）是個(gè)不錯(cuò)的選擇。卷積層可以輕松處理不同分辨率的圖像，Transformer 塊則能進(jìn)一步優(yōu)化視覺(jué) token，讓 LLM 更好地理解。他們用的 FastViT 就是基于這種架構(gòu)，經(jīng)過(guò) MobileCLIP 預(yù)訓(xùn)練，效果還不錯(cuò)。比如，在相同的 VLM 基準(zhǔn)測(cè)試中，F(xiàn)astViT 生成視覺(jué) token 的速度比 ViT 模型快4倍多，準(zhǔn)確率也更高。

不過(guò)，團(tuán)隊(duì)并沒(méi)有滿足于此。為了讓模型在高分辨率下表現(xiàn)更出色，他們又設(shè)計(jì)了 FastViTHD。這個(gè)新架構(gòu)在 FastViT 的基礎(chǔ)上做了不少改進(jìn)。它增加了一個(gè)額外的階段和下采樣層，讓 self - attention 層處理的張量更小，這樣就能減少圖像編碼延遲，還能為計(jì)算密集型的 LLM 解碼器生成更少的 token，從而降低 TTFT。打個(gè)比方，這就像是給模型的 “信息高速公路” 拓寬了車(chē)道，還優(yōu)化了交通規(guī)則，讓信息傳遞得又快又穩(wěn)。

訓(xùn)練與優(yōu)化:精心打磨的 “成長(zhǎng)之路”

訓(xùn)練 FastVLM 就像培養(yǎng)一個(gè)優(yōu)秀的運(yùn)動(dòng)員，需要精心規(guī)劃。研究人員采用了兩階段訓(xùn)練法，和 LLaVA -1.5的設(shè)置類(lèi)似。第一階段，只訓(xùn)練投影儀，用的是 LLaVA -558K 對(duì)齊數(shù)據(jù)集，訓(xùn)練時(shí)圖像分辨率和骨干網(wǎng)絡(luò)預(yù)訓(xùn)練分辨率一致。第二階段，用 LLaVA -665K 監(jiān)督微調(diào)數(shù)據(jù)集，把模型的所有模塊都拿來(lái)訓(xùn)練，這時(shí)圖像分辨率就設(shè)置成目標(biāo)分辨率。

為了讓模型更好地適應(yīng)不同的任務(wù)和數(shù)據(jù)集，研究人員還做了很多優(yōu)化。比如，他們嘗試了多尺度特征提取，把網(wǎng)絡(luò)不同階段的信息整合起來(lái)，讓模型能更好地理解圖像。就像我們看一幅畫(huà)，不僅要看整體，還要關(guān)注細(xì)節(jié)，多尺度特征提取就起到了這個(gè)作用。此外，他們還對(duì)比了不同的池化策略和連接器設(shè)計(jì)，發(fā)現(xiàn)用深度卷積進(jìn)行池化能讓模型性能更優(yōu)。

實(shí)驗(yàn)結(jié)果:實(shí)力碾壓的 “高光時(shí)刻”

在實(shí)驗(yàn)環(huán)節(jié)，F(xiàn)astVLM 簡(jiǎn)直就是 “學(xué)霸”，成績(jī)相當(dāng)亮眼!研究人員在主流基準(zhǔn)測(cè)試中對(duì) FastVLM 進(jìn)行了全面評(píng)估，包括 GQA、ScienceQA、TextVQA 等多個(gè)任務(wù)。結(jié)果顯示，在和其他模型的對(duì)比中，F(xiàn)astVLM 優(yōu)勢(shì)明顯。

和基于卷積的 ConvLLaVA 相比，同樣的 LLM 和相似的訓(xùn)練數(shù)據(jù)規(guī)模下，F(xiàn)astVLM 在 TextVQA 任務(wù)上性能提升了8.4%，在 DocVQA 任務(wù)上提升了12.5%，而且速度還快了22%。在高分辨率下，這種優(yōu)勢(shì)更加明顯，F(xiàn)astVLM 的速度比 ConvLLaVA 快了2倍，在多個(gè)基準(zhǔn)測(cè)試中都取得了更好的成績(jī)。

和其他用多個(gè)視覺(jué)編碼器的模型比，F(xiàn)astVLM 也毫不遜色。像 Cambrian -1用了多個(gè)視覺(jué)編碼器，視覺(jué)編碼在總 TTFT 中占比很大，而 FastVLM 用單個(gè)編碼器，不僅速度比它快7.9倍，在相似的視覺(jué)指令調(diào)優(yōu)數(shù)據(jù)集訓(xùn)練下，性能還超過(guò)了 Cambrian -1。就算是在對(duì)視覺(jué) token 數(shù)量很敏感的文本豐富型評(píng)估任務(wù)中，F(xiàn)astVLM 也能憑借更少的視覺(jué) token 取得更好的成績(jī)。

FastVLM 的優(yōu)勢(shì)與意義

FastVLM 的出現(xiàn)，給視覺(jué)語(yǔ)言模型領(lǐng)域帶來(lái)了新的希望。它最大的優(yōu)勢(shì)就是在保證模型性能的同時(shí)，大幅提升了運(yùn)行效率。以前的模型在處理高分辨率圖像時(shí)，要么速度慢，要么準(zhǔn)確率低，F(xiàn)astVLM 很好地解決了這些問(wèn)題。

對(duì)于我們普通用戶來(lái)說(shuō)，這意味著以后在手機(jī)上使用相關(guān)應(yīng)用時(shí)，體驗(yàn)會(huì)大大提升。比如用圖像搜索功能，以前可能要等半天才能出結(jié)果，現(xiàn)在用搭載 FastVLM 的應(yīng)用，瞬間就能得到答案。對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，F(xiàn)astVLM 提供了一個(gè)高效的模型框架，能讓他們開(kāi)發(fā)出更強(qiáng)大、更智能的應(yīng)用。

從更宏觀的角度看，F(xiàn)astVLM 的成功也為未來(lái)的研究指明了方向。它證明了通過(guò)優(yōu)化架構(gòu)和訓(xùn)練方法，可以在資源有限的設(shè)備上實(shí)現(xiàn)高性能的視覺(jué)語(yǔ)言模型。相信在不久的將來(lái)，會(huì)有更多基于 FastVLM 的創(chuàng)新應(yīng)用出現(xiàn)，讓我們的生活變得更加智能和便捷。

論文地址：https://www.arxiv.org/pdf/2412.13303

項(xiàng)目地址：https://github.com/apple/ml-fastvlm

標(biāo)簽：蘋(píng)果 FastVLM 視覺(jué)語(yǔ)言模型 iPhone

本文地址： http://sdoldhj.cn/ai/20250512/458.html

版權(quán)聲明：本站除去原創(chuàng)作品，部分文章為網(wǎng)絡(luò)采編整理或客戶投稿，如有侵權(quán)請(qǐng)聯(lián)系編輯刪除，轉(zhuǎn)載請(qǐng)注明出處！