蘋果AI/ML團隊開發多模態大模型Ferret 成功突破谷歌人機驗證碼難題
要點:
1. 蘋果AI/ML團隊與哥倫比亞大學研究團隊合作開發的多模態大模型“雪貂”(Ferret)能夠在圖像中準確找到交通信號燈,比GPT-4V表現更出色,提高了大模型在“看說答”任務中的精確度。
2. Ferret的關鍵創新在于將引用(referring)和定位(grounding)兩方面的空間理解能力緊密結合,使模型能夠同時理解給定區域的語義和找到對應目標。
3. Ferret采用混合區域表示方法,結合了離散坐標和連續特征,可以接受多樣化的區域輸入,如點、邊界框和自由形狀,并生成每個定位對象的坐標,這一方法在多任務評估中表現出色。
微新創想(idea2003.com)10月12日 消息:蘋果AI/ML團隊與哥倫比亞大學合作研發的多模態大模型“雪貂”(Ferret)已經成功突破了谷歌人機驗證碼的難題,能夠輕松識別圖像中的交通信號燈并準確圈出其位置,其性能直逼GPT-4V。
Ferret的關鍵在于改進了大模型在“看說答”任務中的精確度,這得益于其出色的圖文關聯能力。
項目地址:https://github.com/apple/ml-ferret
論文地址:https://arxiv.org/pdf/2310.07704.pdf
Ferret的核心創新在于將引用和定位的兩方面空間理解能力更緊密地結合在一起。引用指模型能夠準確理解給定區域的語義,而定位則要求模型在圖像中找到對應目標。
傳統的多模態大模型通常只能單獨使用引用和定位,但Ferret提出了一種新型的混合區域表示方法,使模型能夠同時理解語義并找到目標。
這一方法使用混合區域表示,結合了離散坐標和連續特征。模型可以接受多樣化的區域輸入,包括點、邊界框和自由形狀,并能生成每個定位對象的坐標。
這一獨特的方法使Ferret在多任務評估中表現出色,包括圖像局部區域的引用/定位、語義、知識和推理能力。特別是在需要指代和視覺grounding的新任務上,Ferret表現卓越,提高了描述圖像細節的準確性,減少了模型的幻覺。
最令人驕傲的是,Ferret是由一支全華人團隊開發的,包括蘋果AI/ML團隊和哥倫比亞大學的研究團隊。這一成就突顯了中國在多模態大模型領域的卓越研究實力。通過這一研究,Ferret為解決圖像理解和多模態任務提供了新的方向,有望在人機交互、智能搜索等領域取得顯著的突破。