谷歌推出新的 AI 控制機器人 RT-2 模型:將文本和圖像轉化為機器人動作
微新創(chuàng)想(idea2003.com) 7月31日消息:忘記了那些能畫畫的人工智能,谷歌最新的人工智能模型能夠控制機器人。
上周五,谷歌推出了 Robotics Transformer 2(RT2),這是一個視覺-語言-動作(VLA)模型,可以將文本和圖像輸出為機器人動作。谷歌表示,RT-2「讓我們更接近機器人的未來。」
「就像語言模型通過從網(wǎng)絡上的文本進行訓練來學習一般的思想和概念一樣,RT-2 通過從網(wǎng)絡數(shù)據(jù)中傳輸知識,以指導機器人行為,」谷歌 DeepMind 的機器人主管 Vincent Vanhoucke 在一篇博文中解釋道。「換句話說,RT-2 能夠與機器人交流。」
Vanhoucke 表示,雖然聊天機器人可以通過為它們提供有關某個主題的信息來進行訓練,但機器人需要更進一步地在真實世界中「扎根」。他提供的例子是一個紅蘋果。雖然你可以簡單地向聊天機器人解釋什么是蘋果,但機器人需要知道關于蘋果的一切,并且還要學會如何將其與類似物品區(qū)分開來,比如一個紅色的球,并且它們還必須學會如何采摘那個蘋果。
RT-2 比谷歌的 RT-1 和其他模型更進一步,因為它使用了來自網(wǎng)絡的數(shù)據(jù)。例如,如果你想讓之前的模型丟掉一些東西,你需要對它們進行培訓,告訴它們什么是垃圾以及如何使用它。而有了 RT-2,也許你還沒有解釋過什么是垃圾以及如何使用它,但機器人可以自己通過網(wǎng)絡數(shù)據(jù)弄清楚這一部分。
Robotics Transformer 2 經(jīng)過了 6000 多次試驗,結果證明其功能與其前身 RT-1 一樣好。在新穎的、未曾見過的場景中,前者的得分幾乎是前者的兩倍(62% vs 32%)。
通過 RT-2,機器人能夠學習并將所學知識應用于未來的情況。不過,谷歌指出,目前的限制意味著 RT-2 只能幫助機器人在它們已經(jīng)知道如何執(zhí)行的物理任務上變得更好,而不能從零開始學習它們。
盡管如此,這是一個巨大的進步,展示了未來可能出現(xiàn)的可能性。想要了解更多信息,谷歌在其 DeepMind 博客中詳細介紹了 RT-2 的工作原理。