人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

FC-CLIP徹底改變?nèi)胺指睿航y(tǒng)一的單級(jí)AI 框架

要點(diǎn):

1、全景分割將語(yǔ)義分割和實(shí)例分割相結(jié)合,對(duì)圖像進(jìn)行精細(xì)分割標(biāo)注,但受限于數(shù)據(jù)集標(biāo)注成本。

2、FC-CLIP通過(guò)凍結(jié)卷積CLIPbackbone實(shí)現(xiàn)掩碼生成和CLIP文本對(duì)齊分類的單階段統(tǒng)一,突破閉詞匯限制。

3、FC-CLIP設(shè)計(jì)簡(jiǎn)單高效,參數(shù)和計(jì)算量都大大減少,性能顯著提升,可擴(kuò)展到開(kāi)放詞匯場(chǎng)景。

微新創(chuàng)想(idea2003.com)9月27日 消息:全景分割是將圖像分割成有意義的部分或區(qū)域的基礎(chǔ)計(jì)算機(jī)視覺(jué)任務(wù),對(duì)各種應(yīng)用如醫(yī)學(xué)圖像分析和自動(dòng)駕駛具有關(guān)鍵作用。全景分割將語(yǔ)義分割的對(duì)每個(gè)像素進(jìn)行對(duì)象分類,和實(shí)例分割的對(duì)同類不同實(shí)例進(jìn)行區(qū)分相結(jié)合,目標(biāo)是為每個(gè)實(shí)例生成不重疊的掩碼并賦予類別標(biāo)簽。

多年來(lái),研究者不斷提升全景分割模型性能,重點(diǎn)關(guān)注全景質(zhì)量指標(biāo)。但是基于閉詞匯的限制嚴(yán)重制約了這些模型的實(shí)際應(yīng)用,因?yàn)閿?shù)據(jù)集細(xì)顆粒度標(biāo)注的高成本限制了語(yǔ)義類別數(shù)目。這成為全景分割應(yīng)用的關(guān)鍵難題。

項(xiàng)目地址:https://github.com/bytedance/fc-clip

計(jì)算機(jī)視覺(jué)社區(qū)探索開(kāi)放詞匯分割來(lái)克服閉詞匯的限制。這種范式利用單詞的文本嵌入作為類別標(biāo)簽嵌入,大大增強(qiáng)了模型處理更廣泛類別的能力。CLIP等多模態(tài)預(yù)訓(xùn)練模型利用其從海量互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí)對(duì)齊圖像文本特征表示的能力,在開(kāi)放詞匯分割中顯示出巨大潛力。

近期的兩階段方法如SimBaseline和OVSeg改編了CLIP進(jìn)行開(kāi)放詞匯分割,但固有的低效和分割與分類不一致的問(wèn)題仍然存在。提出單階段統(tǒng)一框架FC-CLIP正是為解決這一關(guān)鍵問(wèn)題。

FC-CLIP在共享的凍結(jié)卷積CLIP backbone上無(wú)縫集成了掩碼生成和CLIP分類。這種設(shè)計(jì)基于以下核心思路:

凍結(jié)的CLIP backbone保留了預(yù)訓(xùn)練的圖像文本對(duì)齊,支持開(kāi)放詞匯分類。

添加輕量級(jí)解碼器后,CLIP backbone可作為強(qiáng)大的掩碼生成器。

卷積CLIP在輸入尺寸放大時(shí)泛化能力提升,適合密集預(yù)測(cè)任務(wù)。

單一凍結(jié)卷積CLIP backbone帶來(lái)極簡(jiǎn)但高效的設(shè)計(jì)。相較先前方法,F(xiàn)C-CLIP參數(shù)和計(jì)算量大幅減少,訓(xùn)練時(shí)間也更短,實(shí)用性強(qiáng)。在多個(gè)數(shù)據(jù)集上,F(xiàn)C-CLIP都顯著提升了狀態(tài)轉(zhuǎn)換水平。

FC-CLIP開(kāi)創(chuàng)性的單階段框架統(tǒng)一了掩碼生成和文本匹配分類,具有巨大的潛力推動(dòng)全景分割向開(kāi)放詞匯場(chǎng)景擴(kuò)展,實(shí)現(xiàn)真正的圖像理解和交互。這項(xiàng)突破性工作為端到端的單階段全景分割方法提供了范例,值得進(jìn)一步改進(jìn)和擴(kuò)展。

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開(kāi)。 必填項(xiàng)已用 * 標(biāo)注