近日,字節(jié)跳動(dòng)聯(lián)合香港大學(xué)和華中科技大學(xué)共同推出了全新的視覺(jué)分詞器 UniTok。這款工具不僅能在視覺(jué)生成和理解任務(wù)中發(fā)揮作用,還在技術(shù)上進(jìn)行了重要?jiǎng)?chuàng)新,解決了傳統(tǒng)分詞器在細(xì)節(jié)捕捉與語(yǔ)義理解之間的矛盾。
UniTok 采用了多碼本量化技術(shù),能夠?qū)D像特征分割成多個(gè)小塊,并用獨(dú)立的子碼本進(jìn)行量化。這種方法極大地提升了視覺(jué) token 的表示能力,使得處理圖像時(shí)能夠更加精細(xì)。比如,UniTok 在 ImageNet 數(shù)據(jù)集上的零樣本分類準(zhǔn)確率達(dá)到了78.6%,而圖像重建質(zhì)量也僅為0.38,遠(yuǎn)超現(xiàn)有的分詞器。
UniTok 的核心功能包括統(tǒng)一視覺(jué)表示和高質(zhì)量圖像重建。它能將圖像編碼為離散的視覺(jué) token,這些 token 不僅可以用于圖像生成(例如根據(jù)文本生成圖像),還可以用于視覺(jué)理解(例如回答與圖像相關(guān)的問(wèn)題)。此外,UniTok 結(jié)合了對(duì)比學(xué)習(xí)和重建損失,確保生成的視覺(jué) token 與文本描述之間的對(duì)齊,從而提升視覺(jué)理解的能力。
在技術(shù)原理上,UniTok 的多碼本量化使得視覺(jué) token 的詞匯量可以指數(shù)級(jí)增長(zhǎng)。而其使用的多頭注意力模塊則更好地保留了原始 token 中的語(yǔ)義信息,使得分解后的特征表達(dá)能力得以提升。整個(gè)訓(xùn)練過(guò)程遵循統(tǒng)一的目標(biāo),確保圖像細(xì)節(jié)的準(zhǔn)確重建,同時(shí)優(yōu)化生成和理解任務(wù)。
UniTok 不僅在視覺(jué)領(lǐng)域表現(xiàn)出色,還為多模態(tài)大語(yǔ)言模型(MLLM)的發(fā)展提供了強(qiáng)有力的支持。它將生成的視覺(jué) token 映射到多模態(tài)語(yǔ)言模型的 token 空間,推動(dòng)了視覺(jué)與語(yǔ)言的統(tǒng)一處理。這種技術(shù)進(jìn)步不僅提升了圖像生成的效率,還為教育、醫(yī)療影像分析等多個(gè)領(lǐng)域帶來(lái)了新的應(yīng)用前景。
未來(lái),UniTok 有望在多個(gè)場(chǎng)景中得到廣泛應(yīng)用,比如作為多模態(tài)模型的視覺(jué)輸入模塊,提升圖文信息處理能力;根據(jù)文本生成細(xì)節(jié)豐富的圖像,助力創(chuàng)意設(shè)計(jì);或是在電商平臺(tái)中進(jìn)行跨模態(tài)檢索與推薦,從而提高用戶體驗(yàn)。
項(xiàng)目地址:https://github.com/FoundationVision/UniTok
標(biāo)簽: