有限資料下強化學習演算法超越人類,​清華叉院助理教授解讀EfficientZero

強化學習(RL)目前在許多應用中取得了巨大的成功。然而,強化學習的取樣效率(sample efficiency)仍然是一個關鍵的挑戰,目前大部分強化學習演算法需要巨大的訓練資料,例如需要數百萬,甚至數十億次在環境中取樣訓練。最近,有一些基於影象的 RL 演算法在取樣效率方面取得了重大進展,然而,如何在強化學習較為通用的基準 Atari(雅達利)遊戲上達到人類水平仍然難以實現。

在一篇 NeurIPS 2021 論文中,清華大學交叉資訊研究院高陽研究組提出了一種接受影象觀測輸入的高取樣效率演算法 EfficientZero,它基於之前 model-based 演算法 MuZero。作者在基於影象觀測的 model-based 強化學習演算法上提出三點改進用於提升演算法的取樣效率並且保持高效能:時序一致性,預測階段回報,修正目標價值。

有限資料下強化學習演算法超越人類,​清華叉院助理教授解讀EfficientZero

論文連結:https://arxiv。org/abs/2111。00210

專案連結:https://github。com/YeWR/EfficientZero

在這三點改進下,EfficientZero 在 Atari 100k 的基準測試中實現了 190。4% 的平均人類效能和 116。0% 的中值效能,而這個任務只有兩小時的真實遊戲時間,這是第一次在如此有限資料下強化學習演算法能夠超越人類水平。此外,EfficientZero 的效能也接近 DQN 在 2 億幀訓練資料下的效能,然而所需要的資料降至約 500 分之一。

除了 Atari 遊戲,研究還在機器控制的模擬環境 DMControl 100 基準下進行了部分環境的測試,效能同樣是最佳,且與基於狀態輸入的 SAC 演算法接近。實驗表明,EfficientZero 的高取樣效率和高效能可以更適配現實世界的環境,EfficientZero 或許能夠使得強化學習演算法在真實環境中有所突破。

11 月 24 日晚 7 點,機器之心 NeurIPS 2021 線上系列分享邀請到該論文作者之一、清華大學交叉資訊研究院助理教授高陽為我們解讀這項研究。

該論文的第一作者為清華大學交叉資訊研究院 2020 級博士生葉葳蕤,通訊作者為高陽助理教授。其他作者包括美國加州大學伯克利分校教授 Pieter Abbeel、交叉資訊研究院 2020 級碩士生劉紹淮以及加州大學伯克利分校博士生 Thanard Kurutach。

分享主題:Mastering Atrai Games with Limited Data

分享摘要

:本工作提出了一種 model-based 演算法 EfficientZero,它在 MuZero 這類演算法上提出了三點改進,使得強化學習演算法能夠在有限訓練資料下取得較高的效能。同時 EfficientZero 也是第一個在 Atari 100k 基準上取得超過人類平均水平的演算法,比 DQN 所需資料減少了 500 倍。

嘉賓簡介

:高陽,博士畢業於加州大學伯克利分校,現任交叉資訊研究院助理教授,其主要研究方向為計算機視覺和強化學習。

分享時間

:11 月 24 日 19:00-20:00

直播間

:關注機動組影片號,北京時間 11 月 24 日開播。

交流群

:本次直播設有 QA 環節,歡迎加入本次直播交流群探討交流。

如群已超出人數限制,請新增機器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,備註「強化學習」即可加入。

機器之心 · 機動組

機動組是機器之心發起的人工智慧技術社群,聚焦於學術研究與技術實踐主題內容,為社群使用者帶來技術線上公開課、學術分享、技術實踐、走近頂尖實驗室等系列內容。機動組也將不定期舉辦線下學術交流會與組織人才服務、產業技術對接等活動,歡迎所有 AI 領域技術從業者加入。

TAG: 演算法EfficientZero強化取樣學習