Meta發(fā)布AI圖片學(xué)習(xí)模型I-JEPA:可自我學(xué)習(xí)推理
站長之家(ChinaZ.com)6月16日 消息:Meta的首席人工智能科學(xué)家Yann LeCun已經(jīng)討論了幾年能夠在很少或完全不需要人類的幫助下學(xué)習(xí)世界模型的深度學(xué)習(xí)系統(tǒng)。現(xiàn)在,這個(gè)愿景正在慢慢實(shí)現(xiàn),因?yàn)?Meta 剛剛發(fā)布了 I- JEPA 的第一個(gè)版本,這是一個(gè)機(jī)器學(xué)習(xí) (ML) 模型,通過對(duì)圖像的自我監(jiān)督學(xué)習(xí)來學(xué)習(xí)世界的抽象表示。
初步測試顯示,I-JEPA在許多計(jì)算機(jī)視覺任務(wù)上表現(xiàn)優(yōu)秀。它也比其他最先進(jìn)的模型更高效,僅需要訓(xùn)練的計(jì)算資源的十分之一。Meta已經(jīng)公開了訓(xùn)練代碼和模型,并將在下周的計(jì)算機(jī)視覺和模式識(shí)別(CVPR)會(huì)議上展示I-JEPA。
自我監(jiān)督學(xué)習(xí)
自我監(jiān)督學(xué)習(xí)的想法受到人類和動(dòng)物學(xué)習(xí)的啟發(fā)。我們很多知識(shí)都是通過觀察世界獲取的。同樣,人工智能系統(tǒng)應(yīng)該能夠通過原始觀察學(xué)習(xí),而無需人類標(biāo)記他們的訓(xùn)練數(shù)據(jù)。
自我監(jiān)督學(xué)習(xí)已經(jīng)在一些人工智能領(lǐng)域取得了顯著的進(jìn)展,包括生成模型和大型語言模型(LLMs)。在2022年,LeCun提出了“聯(lián)合預(yù)測嵌入架構(gòu)”(JEPA),這是一種可以學(xué)習(xí)世界模型和常識(shí)等重要知識(shí)的自我監(jiān)督模型。JEPA在重要方面不同于其他自我監(jiān)督模型。
生成模型(例如DALL-E和GPT)旨在進(jìn)行細(xì)致的預(yù)測。例如,在訓(xùn)練期間,文本或圖像的一部分被遮蓋,模型嘗試預(yù)測確切的缺失單詞或像素。嘗試填補(bǔ)每一個(gè)細(xì)節(jié)的問題是,世界是不可預(yù)測的,模型經(jīng)常陷入許多可能的結(jié)果中而無法前進(jìn)。
相比之下,JEPA不是關(guān)注像素級(jí)的細(xì)節(jié),而是試圖學(xué)習(xí)和預(yù)測高層次的抽象,例如場景必須包含什么以及對(duì)象如何相互關(guān)聯(lián)。這種方法使模型在學(xué)習(xí)環(huán)境的潛在空間時(shí)不易出錯(cuò),成本也大大降低。
“通過在高抽象級(jí)別上預(yù)測表示,而不是直接預(yù)測像素值,我們希望直接學(xué)習(xí)有用的表示,并避免了生成方法的局限性,”Meta的研究人員寫道。
I-JEPA是LeCun提出的架構(gòu)的基于圖像的實(shí)現(xiàn)。它使用“抽象預(yù)測目標(biāo)”來預(yù)測缺失信息,可能會(huì)消除不必要的像素級(jí)細(xì)節(jié),從而使模型學(xué)習(xí)更多的語義特征。
I-JEPA使用Vision Transformer(ViT)對(duì)現(xiàn)有信息進(jìn)行編碼,這是一種用于LLM中的Transformer架構(gòu)的變體,但是對(duì)圖像處理進(jìn)行了修改。然后,它將此信息作為上下文傳遞給預(yù)測器 ViT,該預(yù)測器為缺失的部分生成語義表示。
Meta的研究人員訓(xùn)練了一個(gè)生成模型,用于從I-JEPA預(yù)測的語義數(shù)據(jù)中創(chuàng)建草圖。在下圖中,I-JEPA在藍(lán)色框外的像素作為上下文,然后預(yù)測了藍(lán)色框內(nèi)的內(nèi)容。生成模型然后創(chuàng)建了I-JEPA預(yù)測的草圖。結(jié)果顯示,I-JEPA的抽象匹配了場景的真實(shí)情況。
雖然I-JEPA不會(huì)生成寫實(shí)的圖像,但它可以在機(jī)器人和自動(dòng)駕駛汽車等領(lǐng)域中具有許多應(yīng)用,其中AI機(jī)器人必須能夠理解其環(huán)境并處理一些非常合理的結(jié)果。
一個(gè)非常有效的模型
I-JEPA的一項(xiàng)明顯好處是其內(nèi)存和計(jì)算效率。預(yù)訓(xùn)練階段不需要其他類型的自我監(jiān)督學(xué)習(xí)方法中使用的計(jì)算密集型數(shù)據(jù)增強(qiáng)技術(shù)。研究人員能夠使用16個(gè)A100GPU在不到72小時(shí)內(nèi)訓(xùn)練出一個(gè)擁有632百萬參數(shù)的模型,約為其他技術(shù)的十分之一。
“經(jīng)驗(yàn)證明,我們發(fā)現(xiàn)I-JEPA可以不使用手工制作的視圖仿真來學(xué)習(xí)強(qiáng)大的即插即用的語義表示,”研究人員寫道。
他們的實(shí)驗(yàn)表明,I-JEPA在圖像分類、物體計(jì)數(shù)和深度預(yù)測等計(jì)算機(jī)視覺任務(wù)中需要遠(yuǎn)遠(yuǎn)較少的微調(diào),即可超越其他最先進(jìn)的模型。研究人員能夠使用僅占1%的訓(xùn)練數(shù)據(jù)在ImageNet-1K圖像分類數(shù)據(jù)集上進(jìn)行微調(diào),每類僅使用12至13個(gè)圖像。
“通過使用具有較少剛性感應(yīng)偏置的更簡單的模型,I-JEPA適用于更廣泛的任務(wù),”研究人員寫道。鑒于互聯(lián)網(wǎng)上未標(biāo)記數(shù)據(jù)的高可用性,I-JEPA 等模型對(duì)于以前需要大量手動(dòng)標(biāo)記數(shù)據(jù)的應(yīng)用程序來說非常有價(jià)值。
項(xiàng)目網(wǎng)址:https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/