人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

蘋果AI/ML團隊開發多模態大模型Ferret 成功突破谷歌人機驗證碼難題

由微新創想 · 2023年 10月 13日

要點:

1. 蘋果AI/ML團隊與哥倫比亞大學研究團隊合作開發的多模態大模型“雪貂”（Ferret）能夠在圖像中準確找到交通信號燈，比GPT-4V表現更出色，提高了大模型在“看說答”任務中的精確度。

2. Ferret的關鍵創新在于將引用（referring）和定位(grounding)兩方面的空間理解能力緊密結合，使模型能夠同時理解給定區域的語義和找到對應目標。

3. Ferret采用混合區域表示方法，結合了離散坐標和連續特征，可以接受多樣化的區域輸入，如點、邊界框和自由形狀，并生成每個定位對象的坐標，這一方法在多任務評估中表現出色。

微新創想（idea2003.com）10月12日消息:蘋果AI/ML團隊與哥倫比亞大學合作研發的多模態大模型“雪貂”（Ferret）已經成功突破了谷歌人機驗證碼的難題，能夠輕松識別圖像中的交通信號燈并準確圈出其位置，其性能直逼GPT-4V。

Ferret的關鍵在于改進了大模型在“看說答”任務中的精確度，這得益于其出色的圖文關聯能力。

項目地址:https://github.com/apple/ml-ferret

論文地址:https://arxiv.org/pdf/2310.07704.pdf

Ferret的核心創新在于將引用和定位的兩方面空間理解能力更緊密地結合在一起。引用指模型能夠準確理解給定區域的語義，而定位則要求模型在圖像中找到對應目標。

傳統的多模態大模型通常只能單獨使用引用和定位，但Ferret提出了一種新型的混合區域表示方法，使模型能夠同時理解語義并找到目標。

這一方法使用混合區域表示，結合了離散坐標和連續特征。模型可以接受多樣化的區域輸入，包括點、邊界框和自由形狀，并能生成每個定位對象的坐標。

這一獨特的方法使Ferret在多任務評估中表現出色，包括圖像局部區域的引用/定位、語義、知識和推理能力。特別是在需要指代和視覺grounding的新任務上，Ferret表現卓越，提高了描述圖像細節的準確性，減少了模型的幻覺。

最令人驕傲的是，Ferret是由一支全華人團隊開發的，包括蘋果AI/ML團隊和哥倫比亞大學的研究團隊。這一成就突顯了中國在多模態大模型領域的卓越研究實力。通過這一研究，Ferret為解決圖像理解和多模態任務提供了新的方向，有望在人機交互、智能搜索等領域取得顯著的突破。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

蘋果AI/ML團隊開發多模態大模型Ferret 成功突破谷歌人機驗證碼難題

您可能還喜歡...

發表回復取消回復

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

蘋果AI/ML團隊開發多模態大模型Ferret 成功突破谷歌人機驗證碼難題

您可能還喜歡...

AI模型“大即好”的觀點已經走不通了

受益于AI熱潮，芯片制造設備供應商 Lam Research 收入超預期

Databricks 發布應用生成式人工智能的 Apache Spark 英文 SDK：可使用英文編寫代碼

發表回復 取消回復

熱門文章

熱門文章

發表回復取消回復