比Meta「分割一切AI」更早實現交互式開集分割!港科大開放詞表分割大法入選ICCV 2023
聲明:本文來自于微信公眾號 量子位 (ID:QbitAI),作者張浩 ,授權微新創想轉載發布。
ICCV論文收錄名單近日「開獎」,其中就包括這個港科大一作的圖像分割模型!
它能以更低的訓練成本實現更好的效果,哪怕遇到未知物體也能迎刃而解。
此外據作者介紹,它還是第一個擁有基于box prompts的分割能力的AI模型,比Meta的SAM還要早實現。
這篇論文第一版預印本的發布時間是今年的3月14日(北京時間15日),比SAM早了20多天。
那么,這個圖像分割模型,究竟效果如何,又是如何做到的呢?
(以下內容由投稿者提供)
下圖展示了這個名為OpenSeeD的模型的輸出效果:
它既可以做經典的實例、語義以及全景分割,又可以分割出從未見過的物體類別,還可以基于檢測框分割出從未見過的物體并給出正確的類別。
工作原理
OpenSeeD是一個簡單而有效的開放詞表圖像分割的框架,也可以理解為MaskDINO擴展到開放詞表的版本。
如下圖所示,過去已經有不少工作結合大量的圖像文本對實現開詞表檢測或者分割,而OpenSeeD是第一個把物體檢測數據和全景分割數據結合在一起聯合訓練的工作,并且證明是可行有效的,填補了這一領域的空白。
除此以外,為了擴展語義的豐富程度,研究團隊引入O365(365類)檢測數據和COCO分割(133類)一起訓練(不同于MaskDINO使用O365預訓練)。
由于使用了不同的數據集,研究團隊需要解決了二者之間的數據和任務的差異,以便兩個任務和詞表兼容。
整體上,OpenSeeD的工作原理如下圖所示,兩種差異也是通過這一方式解決的:
圖中左半部分完成的是通用場景分割。
為了解決基礎模型的任務差別(O365只有前景,而COCO有前景和背景),研究團隊把前景和背景的預測進行解耦。
右半部分是條件預測部分,可以通過GT box預測圖像遮罩。
在這一部分中,團隊通過為O365打標簽為了解決數據差異問題。
最終,該團隊的方法在多個開放詞表任務上取得了與當前最佳方法x-decoder相當甚至更好的效果,相比x-decoder用了4M人工標注的圖像描述數據,OpenSeeD只用了0.57M的檢測數據。
另外,研究團隊還發現,即使只用5k的O365數據,也可以在開放詞表任務上達到類似的效果。
這說明OpenSeeD需要的是豐富的視覺概念(種類數),而不一定是很大的數據量(個體數)。
低成本,高效果
OpenSeeD作為一個強大的開集分割方法,可以分割出大量從未見過的物體,在各項開集和閉集指標上都取得了最佳成績。
而且通過引入O365檢測任務來提升開集語義能力,OpenSeeD的訓練成本也相對其他開集方法更低。
下表展示了OpenSeeD的測試結果:
通過較少的檢測數據,研究團隊發現在多個零訓練樣本分割任務上達到或超越了現有最佳方法X-Decoder,GLIPv2等,尤其在SeginW任務(大量陌生類別)上取得了遠超X-Decoder的效果。
除此以外,當團隊微調到其他數據集時,OpenSeeD都表現出了遠超參照標準的性能。
在COCO和ADE20K的全景分割以及ADE20K和Cityscapes的實例分割上,OpenSeeD的性能也與現有最佳模型相當。
論文地址:
https://arxiv.org/abs/2303.08131