Deepmind新AI算法僅用兩個小時學習了26個游戲 與人類相當
站長之家(ChinaZ.com)6月20日 消息:日前,Deepmind的一個名為 "Bigger, Better, Faster" 的 AI 算法,在只用了兩小時的時間內掌握了26個 Atari 游戲,與人類效率水平相當。
強化學習是谷歌深度學習中心研究的核心領域之一,它可能有朝一日用 AI 解決許多現實世界的問題。然而,一個大問題是可能會非常低效:強化學習算法需要大量的訓練數據和大量的計算能力。在他們的最新研究中,谷歌深度學習中心和米拉大學和蒙特利爾大學的研究人員展示了另一種可行的方法。
"Bigger, Better, Faster"的模型(簡稱BBF)在Atari基準測試中平均表現超出了人類的表現水平。這并不是新鮮事,其他強化學習算法也曾在 Atari 游戲中擊敗了人類。
然而,BBF模型只需要兩個小時的游戲時間,這與人類在基準測試中使用的實踐時間是相同的。因此,這個不需要預先訓練模型的算法達到了人類學習的效率,并且需要的計算能力比舊方法少得多。無模型代理直接從與游戲世界的交互中獲得獎勵和懲罰的信息,并學習到最佳的策略。
該團隊通過使用更大的神經網絡、自我監控訓練方法和其他方法來提高效率。例如,BBF可以在單個Nvidia A100GPU上進行訓練,而其他方法需要更多的計算能力。
雖然還有29個常用于強化學習的游戲尚待測試,但研究團隊指出,BBF 還沒有能夠在所有基準測試游戲中超過人類的表現水平。然而,將 BFF 與其他模型在55個游戲中進行比較,表明這種高效算法在55個游戲中大致與使用500倍更多數據的系統持平。
該團隊認為,這還表明 Atari 基準測試仍然是強化學習的好的基準測試,這使得該研究可以為小型研究團隊提供資金支持。
過去的高效強化學習算法對擴展方面也顯示出了弱點,而 BFF 沒有限制,并且繼續能夠通過更多的訓練數據獲得更高的性能。
該團隊總結道:“總體來說,我們希望我們的工作能夠激勵其他研究人員繼續推進深度強化學習的樣本效率前沿,以最終達到人類水平的效率表現在所有任務中。”
更有效率的強化學習算法可能會重新確立目前由自我監督模型主導的 AI 技術的局面。
BBF算法相關論文:https://arxiv.org/pdf/2305.19452.pdf