視覺語言模型BLIVA:讓AI更擅長閱讀圖像中的文本 懂得看路牌和食品包裝
文章概要:
2. BLIVA結合了InstructBLIP的學習查詢嵌入和LLaVA的編碼修補嵌入。
3. BLIVA在多個數據集上表現優異,可用于識別路牌、食品包裝等場景。
微新創想(idea2003.com)8月28日 消息:BLIVA 是一種視覺語言模型,擅長讀取圖像中的文本,使其在許多行業的現實場景和應用中發揮作用。
加州大學圣地亞哥分校的研究人員開發了 BLIVA,這是一種視覺語言模型,旨在更好地處理包含文本的圖像。視覺語言模型 (VLM) 通過合并視覺理解功能來擴展大型語言模型 (LLM),以回答有關圖像的問題。
這種多模態模型在開放式視覺問答基準方面取得了令人印象深刻的進展。一個例子是 OpenAI 的GPT-4,它的多模式形式可以在用戶提示時討論圖像內容,盡管此功能目前僅在“Be my Eyes”應用程序中可用。
然而,當前系統的一個主要限制是處理帶有文本的圖像的能力,這在現實場景中很常見。
BLIVA 結合了 InstructBLIP 和 LLaVA
視覺語言模型通過合并視覺理解功能來擴展大型語言模型,以回答有關圖像的問題。
BLIVA結合了兩種互補的視覺嵌入類型。一種是Salesforce InstructBLIP提取的學習查詢嵌入,用于關注與文本輸入相關的圖像區域;另一種是受Microsoft LLaVA啟發提取的編碼修補嵌入,直接從完整圖像的原始像素修補中獲得。
研究人員表示,這種雙重方法允許BLIVA同時利用針對文本定制的精煉查詢嵌入,以及捕捉更多視覺細節的更豐富的編碼修補。
BLIVA 使用大約550,000個圖像標題對進行了預訓練,并使用150,000個視覺問答示例調整了指令,同時保持視覺編碼器和語言模型凍結。
在多個數據集上,BLIVA的表現明顯優于InstructBLIP等其他模型。例如,在OCR-VQA數據集上,BLIVA的準確率達到65.38%,而InstructBLIP只有47.62%。
研究人員認為這證明了多嵌入方法對廣泛的視覺理解的益處。BLIVA還在YouTube視頻縮略圖數據集上取得了92%的準確率。BLIVA識讀圖像文本的能力可應用于許多行業,如識別路牌、食品包裝等。BLIVA有望改善現實世界中的多種應用。
項目網址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA