人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Meta發布AI圖片學習模型I-JEPA:可自我學習推理

站長之家(ChinaZ.com)6月16日 消息:Meta的首席人工智能科學家Yann LeCun已經討論了幾年能夠在很少或完全不需要人類的幫助下學習世界模型的深度學習系統。現在,這個愿景正在慢慢實現,因為 Meta 剛剛發布了 I- JEPA 的第一個版本,這是一個機器學習 (ML) 模型,通過對圖像的自我監督學習來學習世界的抽象表示。

初步測試顯示,I-JEPA在許多計算機視覺任務上表現優秀。它也比其他最先進的模型更高效,僅需要訓練的計算資源的十分之一。Meta已經公開了訓練代碼和模型,并將在下周的計算機視覺和模式識別(CVPR)會議上展示I-JEPA。

自我監督學習

自我監督學習的想法受到人類和動物學習的啟發。我們很多知識都是通過觀察世界獲取的。同樣,人工智能系統應該能夠通過原始觀察學習,而無需人類標記他們的訓練數據。

自我監督學習已經在一些人工智能領域取得了顯著的進展,包括生成模型和大型語言模型(LLMs)。在2022年,LeCun提出了“聯合預測嵌入架構”(JEPA),這是一種可以學習世界模型和常識等重要知識的自我監督模型。JEPA在重要方面不同于其他自我監督模型。

生成模型(例如DALL-E和GPT)旨在進行細致的預測。例如,在訓練期間,文本或圖像的一部分被遮蓋,模型嘗試預測確切的缺失單詞或像素。嘗試填補每一個細節的問題是,世界是不可預測的,模型經常陷入許多可能的結果中而無法前進。

相比之下,JEPA不是關注像素級的細節,而是試圖學習和預測高層次的抽象,例如場景必須包含什么以及對象如何相互關聯。這種方法使模型在學習環境的潛在空間時不易出錯,成本也大大降低。

“通過在高抽象級別上預測表示,而不是直接預測像素值,我們希望直接學習有用的表示,并避免了生成方法的局限性,”Meta的研究人員寫道。

I-JEPA是LeCun提出的架構的基于圖像的實現。它使用“抽象預測目標”來預測缺失信息,可能會消除不必要的像素級細節,從而使模型學習更多的語義特征。

I-JEPA使用Vision Transformer(ViT)對現有信息進行編碼,這是一種用于LLM中的Transformer架構的變體,但是對圖像處理進行了修改。然后,它將此信息作為上下文傳遞給預測器 ViT,該預測器為缺失的部分生成語義表示。

Meta的研究人員訓練了一個生成模型,用于從I-JEPA預測的語義數據中創建草圖。在下圖中,I-JEPA在藍色框外的像素作為上下文,然后預測了藍色框內的內容。生成模型然后創建了I-JEPA預測的草圖。結果顯示,I-JEPA的抽象匹配了場景的真實情況。

雖然I-JEPA不會生成寫實的圖像,但它可以在機器人和自動駕駛汽車等領域中具有許多應用,其中AI機器人必須能夠理解其環境并處理一些非常合理的結果。

一個非常有效的模型

I-JEPA的一項明顯好處是其內存和計算效率。預訓練階段不需要其他類型的自我監督學習方法中使用的計算密集型數據增強技術。研究人員能夠使用16個A100GPU在不到72小時內訓練出一個擁有632百萬參數的模型,約為其他技術的十分之一。

“經驗證明,我們發現I-JEPA可以不使用手工制作的視圖仿真來學習強大的即插即用的語義表示,”研究人員寫道。

他們的實驗表明,I-JEPA在圖像分類、物體計數和深度預測等計算機視覺任務中需要遠遠較少的微調,即可超越其他最先進的模型。研究人員能夠使用僅占1%的訓練數據在ImageNet-1K圖像分類數據集上進行微調,每類僅使用12至13個圖像。

“通過使用具有較少剛性感應偏置的更簡單的模型,I-JEPA適用于更廣泛的任務,”研究人員寫道。鑒于互聯網上未標記數據的高可用性,I-JEPA 等模型對于以前需要大量手動標記數據的應用程序來說非常有價值。

項目網址:https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注