蕭簫 發(fā)自 凹非寺
(資料圖)
量子位 | 公眾號 QbitAI
無需文字標簽,完全自監(jiān)督的Meta視覺大模型來了!
小扎親自官宣,發(fā)布即收獲大量關注度——
在語義分割、實例分割、深度估計和圖像檢索等任務中,這個名叫DINOv2的視覺大模型均取得了非常不錯的效果。
甚至有超過當前最好的開源視覺模型OpenCLIP之勢。
雖然此前Meta就發(fā)布過自監(jiān)督學習視覺大模型DINO,不過這次AI識別圖像特征的能力顯然更進一步,準確分割出了視頻中的主體:
可別以為DINOv2通過自監(jiān)督學會的只有圖片分割。事實上,它已經(jīng)能根據(jù)不同類別、不同場景下的照片,準確識別出同種物體(狗)的頭部、身體和四肢長在哪:
換而言之,DINOv2自己學會了找圖像特征。
目前Meta官方不僅已經(jīng)放出了開源代碼,而且還給了網(wǎng)頁版Demo試玩。有網(wǎng)友內(nèi)涵:
什么叫開源,LLaMA,SAM,DINOv2這才叫開源!
一起來看看,DINOv2的效果究竟如何。
準確識別不同畫風的同種物體
事實上,DINOv2是基于上一代DINOv1打造的視覺大模型。
這個模型參數(shù)量是10億級,也仍然是視覺Transformer架構(ViT),但與DINO不太一樣的是,這次DINOv2在數(shù)據(jù)集上經(jīng)過了精心挑選。
具體來說,DINOv2構建了一個數(shù)據(jù)篩選pipeline,將內(nèi)容相似的圖片精心篩選出來,同時排除掉相同的圖片:
最終呈現(xiàn)給DINOv2的訓練數(shù)據(jù)圖片雖然沒有文字標簽,但這些圖片的特征確實是相似的。
采用這類數(shù)據(jù)訓練出來的視覺模型,效果如何?
這是DINOv2在8個視覺任務上的表現(xiàn),包括語義分割、分類、深度估計等,其中橙色是自監(jiān)督方法的效果,深粉色是弱監(jiān)督方法的效果。
可以看見,經(jīng)過自監(jiān)督學習的視覺模型,表現(xiàn)上已經(jīng)與經(jīng)過弱監(jiān)督學習的模型性能相當。
實際效果也不錯,即便在一系列照片中,相同物體的畫風并不相似,DINOv2也能準確識別它們的特征,并分到相似的列表中。
如(a)組中都具有翅膀的鳥和飛機、(b)組中的大象和大象雕塑、(c)組中的汽車和汽車玩具模型、(d)組中的馬和涂鴉版馬:
而且從PCA(主成分分析)圖像效果來看,DINOv2不僅能準確分類,還能用不同顏色標出它們“相同”的部分,例如象鼻都是綠色、車輪都是紅色、馬的尾巴是黃色等。
換而言之,DINOv2能理解這些圖像中的相似之處,就像人會形容飛機“看起來像一只鳥”一樣。
目前DINOv2已經(jīng)放出Demo,我們也試了試它的實際效果。
Demo直接可玩
官網(wǎng)已經(jīng)開放語義分割、圖像檢索和深度估計三大功能的試玩。
據(jù)Meta介紹,這幾個任務中,DINOv2在大多數(shù)基準上超過了目前開源視覺模型中表現(xiàn)最好的OpenCLIP。
我們先來看看深度估計的效果。
值得一提的是,在效果更好的情況下,DINOv2運行的速度也比iBOT更快,相同硬件下只需三分之一的內(nèi)存,運行速度就能比DINOv2快上2倍多。
這是Meta論文中與OpenCLIP在實際例子上的比較效果:
我們用這張猛男版新寶島試一下,看起來還不錯,即使是高糊圖片也能比較好地估計出深度:
接下來是語義分割的效果,這里也先給出Meta論文中的數(shù)據(jù)對比情況:
這里也給出OpenCLIP和DINOv2的對比,中間的圖片是OpenCLIP的效果,右邊是DINOv2分割的效果:
我們也用一張辦公室的圖片試了一下,看起來DINOv2還是能比較準確地分割人體、物體的,但在細節(jié)上會有一些噪點:
最后是圖片檢索。
官網(wǎng)上給出的圖片效果還是挺不錯的,輸入鐵塔照片,可以生成不少含鐵塔的相似藝術圖片:
這里我們也試了試,輸入一張華強買瓜,給出來的藝術圖片大多數(shù)與西瓜有關:
那么,這樣的自監(jiān)督視覺大模型可以用在哪里?
從Meta給出的視頻來看,目前有一些比較環(huán)保的用途,例如用于估計全球各地的樹木高度:
除此之外,如同扎克伯格所說,DINOv2還能被用于改善醫(yī)學成像、糧食作物生長等。當然這里小扎還進一步強調(diào):
可以被用于制作更具沉浸感的元宇宙。
嗯,看來Meta的元宇宙路線還將繼續(xù)…
關鍵詞: