兩小時就能超過人類！DeepMindAI速通26款雅達利游戲

由微新創想 · 2023年 7月 4日

聲明:本文來自于微信公眾號量子位（ID:QbitAI），作者:明敏克雷西，授權站長之家轉載發布。

DeepMind的AI智能體，又來卷自己了!

注意看，這個名叫BBF的家伙，只用2個小時，就掌握了26款雅達利游戲，效率和人類相當，超越了自己一眾前輩。

要知道，AI智能體通過強化學習解決問題的效果一直都不錯，但最大的問題就在于這種方式效率很低，需要很長時間摸索。

而BBF帶來的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它還能只在單卡上完成訓練，算力要求也降低許多。

BBF由谷歌DeepMind和蒙特利爾大學共同提出，目前數據和代碼均已開源。

最高可取得人類5倍成績

用于評價BBF游戲表現的數值，叫做IQM。

IQM是多方面游戲表現的綜合得分，本文中的IQM成績以人類為基準進行了歸一化處理。

經與多個前人成果相比較，BBF在包含26款雅達利游戲的Atari100K測試數據集中取得了最高的IQM成績。

并且，在訓練過的26款游戲中，BBF的成績已經超過了人類。

與表現相似的Eff.Zero相比，BBF消耗的GPU時間縮短了將近一半。

而消耗GPU時間相似的SPR和SR-SPR，性能又和BBF差了一大截。

而在反復進行的測試中，BBF達到某一IQM分數的比例始終保持著較高水平。

甚至有超過總測試次數1/8的運行當中取得了5倍于人類的成績。

即使加上其他沒有訓練過的雅達利游戲，BBF也能取得超過人類一半的分數IQM分數。

而如果單獨看未訓練的這29款游戲，BBF的得分是人類的四至五成。

以SR-SPR為基礎修改

推動BBF研究的問題是，如何在樣本量稀少的情況下擴展深度強化學習網絡。

為了研究這一問題，DeepMind將目光聚焦在了Atari100K基準上。

但DeepMind很快發現，單純增大模型規模并不能提高其表現。

在深度學習模型的設計中，每步更新次數（Replay Ratio，RR）是一項重要參數。

具體到雅達利游戲，RR值越大，模型在游戲中取得的成績越高。

最終，DeepMind以SR-SPR作為基礎引擎，SR-SPR的RR值最高可達16。

而DeepMind經過綜合考慮，選擇了8作為BBF的RR值。

考慮到部分用戶不愿花費RR=8的運算成本，DeepMind同時開發了RR=2版本的BBF

DeepMind對SR-SPR中的多項內容進行修改之后，采用自監管訓練得到了BBF，主要包括以下幾個方面:

更高的卷積層重置強度:提高卷積層重置強度可以增大面向隨機目標的擾動幅度，讓模型表現更好并減少損失，BBF的重置強度增加后，擾動幅度從SR-SPR的20%提高到了50%
更大的網絡規模:將神經網絡層數從3層提高至15層，寬度也增大4倍
更新范圍（n）縮小:想要提高模型的表現，需要使用非固定的n值。BBF每4萬個梯度步驟重置一次，每次重置的前1萬個梯度步驟中，n以指數形式從10下降至3，衰減階段占BBF訓練過程的25%
更大的衰減因子（γ）:有人發現增大學習過程中的γ值可以提高模型表現，BBF的γ值從傳統的0.97增至0.997
權重衰減:避免過度擬合的出現，BBF的衰減量約為0.1
刪除NoisyNet:原始SR-SPR中包含的NoisyNet不能提高模型表現

消融實驗結果表明，在每步更新次數為2和8的條件下，上述因素對BBF的表現均有不同程度的影響。

其中，硬復位和更新范圍的縮小影響最為顯著。

而對于上面兩個圖中沒有提到的NoisyNet，對模型表現的影響則并不顯著。

論文地址:

https://arxiv.org/abs/2305.19452

GitHub項目頁:

https://github.com/google-research/google-research/tree/master/bigger_better_faster

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

兩小時就能超過人類！DeepMindAI速通26款雅達利游戲

您可能還喜歡...

發表回復取消回復

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

兩小時就能超過人類！DeepMindAI速通26款雅達利游戲

您可能還喜歡...

AI與學術界的較量！學術界有人使用ChatGPT撰寫論文

人工智能初創公司 Intenseye 正從 Lightspeed 融資：估值達到 3 億美元

人工智能工具可在手術中快速對腦癌基因組進行解碼：實時分析決策

發表回復 取消回復

熱門文章

熱門文章

發表回復取消回復