人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

兩小時就能超過人類!DeepMindAI速通26款雅達(dá)利游戲

聲明:本文來自于微信公眾號 量子位(ID:QbitAI),作者:明敏 克雷西,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

DeepMind的AI智能體,又來卷自己了!

注意看,這個名叫BBF的家伙,只用2個小時,就掌握了26款雅達(dá)利游戲,效率和人類相當(dāng),超越了自己一眾前輩。

要知道,AI智能體通過強(qiáng)化學(xué)習(xí)解決問題的效果一直都不錯,但最大的問題就在于這種方式效率很低,需要很長時間摸索。

而BBF帶來的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它還能只在單卡上完成訓(xùn)練,算力要求也降低許多。

BBF由谷歌DeepMind和蒙特利爾大學(xué)共同提出,目前數(shù)據(jù)和代碼均已開源。

最高可取得人類5倍成績

用于評價BBF游戲表現(xiàn)的數(shù)值,叫做IQM。

IQM是多方面游戲表現(xiàn)的綜合得分,本文中的IQM成績以人類為基準(zhǔn)進(jìn)行了歸一化處理。

經(jīng)與多個前人成果相比較,BBF在包含26款雅達(dá)利游戲的Atari100K測試數(shù)據(jù)集中取得了最高的IQM成績。

并且,在訓(xùn)練過的26款游戲中,BBF的成績已經(jīng)超過了人類。

與表現(xiàn)相似的Eff.Zero相比,BBF消耗的GPU時間縮短了將近一半。

而消耗GPU時間相似的SPR和SR-SPR,性能又和BBF差了一大截。

而在反復(fù)進(jìn)行的測試中,BBF達(dá)到某一IQM分?jǐn)?shù)的比例始終保持著較高水平。

甚至有超過總測試次數(shù)1/8的運(yùn)行當(dāng)中取得了5倍于人類的成績。

即使加上其他沒有訓(xùn)練過的雅達(dá)利游戲,BBF也能取得超過人類一半的分?jǐn)?shù)IQM分?jǐn)?shù)。

而如果單獨(dú)看未訓(xùn)練的這29款游戲,BBF的得分是人類的四至五成。

以SR-SPR為基礎(chǔ)修改

推動BBF研究的問題是,如何在樣本量稀少的情況下擴(kuò)展深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)。

為了研究這一問題,DeepMind將目光聚焦在了Atari100K基準(zhǔn)上。

但DeepMind很快發(fā)現(xiàn),單純增大模型規(guī)模并不能提高其表現(xiàn)。

在深度學(xué)習(xí)模型的設(shè)計(jì)中,每步更新次數(shù)(Replay Ratio,RR)是一項(xiàng)重要參數(shù)。

具體到雅達(dá)利游戲,RR值越大,模型在游戲中取得的成績越高。

最終,DeepMind以SR-SPR作為基礎(chǔ)引擎,SR-SPR的RR值最高可達(dá)16。

而DeepMind經(jīng)過綜合考慮,選擇了8作為BBF的RR值。

考慮到部分用戶不愿花費(fèi)RR=8的運(yùn)算成本,DeepMind同時開發(fā)了RR=2版本的BBF

DeepMind對SR-SPR中的多項(xiàng)內(nèi)容進(jìn)行修改之后,采用自監(jiān)管訓(xùn)練得到了BBF,主要包括以下幾個方面:

  • 更高的卷積層重置強(qiáng)度:提高卷積層重置強(qiáng)度可以增大面向隨機(jī)目標(biāo)的擾動幅度,讓模型表現(xiàn)更好并減少損失,BBF的重置強(qiáng)度增加后,擾動幅度從SR-SPR的20%提高到了50%

  • 更大的網(wǎng)絡(luò)規(guī)模:將神經(jīng)網(wǎng)絡(luò)層數(shù)從3層提高至15層,寬度也增大4倍

  • 更新范圍(n)縮小:想要提高模型的表現(xiàn),需要使用非固定的n值。BBF每4萬個梯度步驟重置一次,每次重置的前1萬個梯度步驟中,n以指數(shù)形式從10下降至3,衰減階段占BBF訓(xùn)練過程的25%

  • 更大的衰減因子(γ):有人發(fā)現(xiàn)增大學(xué)習(xí)過程中的γ值可以提高模型表現(xiàn),BBF的γ值從傳統(tǒng)的0.97增至0.997

  • 權(quán)重衰減:避免過度擬合的出現(xiàn),BBF的衰減量約為0.1

  • 刪除NoisyNet:原始SR-SPR中包含的NoisyNet不能提高模型表現(xiàn)

消融實(shí)驗(yàn)結(jié)果表明,在每步更新次數(shù)為2和8的條件下,上述因素對BBF的表現(xiàn)均有不同程度的影響。

其中,硬復(fù)位和更新范圍的縮小影響最為顯著。

而對于上面兩個圖中沒有提到的NoisyNet,對模型表現(xiàn)的影響則并不顯著。

論文地址:

https://arxiv.org/abs/2305.19452

GitHub項(xiàng)目頁:

https://github.com/google-research/google-research/tree/master/bigger_better_faster

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會被公開。 必填項(xiàng)已用 * 標(biāo)注