人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

3D-LLM:讓AI聊天機器人可以解讀三維世界

微新創想(idea2003.com)8月1日 消息:研究人員推出了一款名為3D-LLM的新方法,可以將對3D 環境的理解融入到大型語言模型中。這意味著聊天機器人將能夠理解和處理3D 空間的概念,從而更好地在三維世界中導航和操作。

大型語言模型和多模態語言模型可以處理語音和2D 圖像,比如ChatGPT、GPT-4和Flamingo。然而,這些模型缺乏對3D 環境和物理空間的真正理解。研究人員現在提出了一種稱為3D LLM 的新方法來解決這個問題。

3D LLM 旨在通過使用點云等3D 數據作為輸入,為 AI 提供3D 空間的概念。通過這種方式,多模態語言模型應該理解空間關系、物理和可供性等概念,而這些概念僅靠2D 圖像很難掌握。3D LLM可以使人工智能助理能夠在3D 世界中更好地導航、規劃和行動,例如在機器人技術和實體人工智能領域。

為了訓練模型,團隊需要收集足夠數量的3D 和自然語言數據對 – 與網絡上的圖像文本對相比,此類數據集是有限的。因此,團隊開發了ChatGPT的提示技術來生成不同的3D描述和對話。

結果是包含超過300,000個3D 文本示例的數據集,涵蓋3D 標記、回答視覺問題、任務分解和導航等任務。例如,ChatGPT 被要求通過詢問有關從不同角度可見的物體的問題來描述3D 臥室場景。

然后,該團隊開發了3D 特征提取器,將3D 數據轉換為與預訓練的2D 視覺語言模型(例如 BLIP-2和 Flamingo)兼容的格式。

此外,研究人員使用3D 定位機制,允許模型通過將文本描述與3D 坐標相關聯來捕獲空間信息。這也促進了使用 BLIP-2等模型來有效地訓練3D LLM 來理解3D 場景。

實驗結果顯示,3D 語言模型可以生成對3D 場景的自然語言描述,進行3D 感知對話,并將復雜任務分解為3D 動作。這表明,通過結合空間推理能力,人工智能有潛力開發出更接近人類的3D 環境感知。

研究人員計劃將這種模型擴展到其他數據模式,如聲音,并訓練它們執行其他任務。這將進一步提高 AI 助手在多模態環境中的能力。最終的目標是將這些進步應用到可以與3D 環境智能交互的具體 AI 助手中。這意味著未來可能會有更智能的機器人和具體人工智能應用程序。

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注