機(jī)器之心報道
編輯:杜偉、澤南
通用 AI 的重要里程碑。
通用智能需要解決多個領(lǐng)域的任務(wù)。人們認(rèn)為強(qiáng)化學(xué)習(xí)算法具有這種潛力,但它一直受到為新任務(wù)調(diào)整所需資源和知識的阻礙。在 DeepMind 的一項新研究中,研究人員展示了基于世界模型的通用可擴(kuò)展的算法 DreamerV3,它在具有固定超參數(shù)的廣泛領(lǐng)域中優(yōu)于以前的方法。
DreamerV3 符合的領(lǐng)域包括連續(xù)和離散動作、視覺和低維輸入、2D 和 3D 世界、不同的數(shù)據(jù)量、獎勵頻率和獎勵等級。值得一提的是,DreamerV3 是第一個在沒有人類數(shù)據(jù)或主動教育的情況下從零開始在《我的世界》(Minecraft)中收集鉆石的算法。研究人員表示,這樣的通用算法可以使強(qiáng)化學(xué)習(xí)得到廣泛應(yīng)用,并有望擴(kuò)展到硬決策問題。
鉆石是《我的世界》游戲中最受歡迎的物品之一,它是游戲中最稀有的物品之一,可被用來制作游戲中絕大多數(shù)最強(qiáng)的工具、武器以及盔甲。因為只有在最深的巖石層中才能找到鉆石,所以產(chǎn)量很低。
DreamerV3 是第一個在我的世界中收集鉆石的算法,無需人工演示或手動制作課程。該視頻顯示了它收集的第一顆鉆石,發(fā)生在 30M 環(huán)境步數(shù) / 17 天游戲時間之內(nèi)。
如果你對于 AI 玩我的世界沒有什么概念,英偉達(dá) AI 科學(xué)家 Jim Fan 表示,和 AlphaGo 下圍棋比,我的世界任務(wù)數(shù)量是無限的,環(huán)境變化是無限的,知識也是有隱藏信息的。
對于人類來說,在我的世界里探索和構(gòu)建是有趣的事,圍棋則顯得有些復(fù)雜,對于 AI 來說,情況剛好相反。AlphaGo 在 6 年前擊敗了人類冠軍,但現(xiàn)在也沒有可以和我的世界人類高手媲美的算法出現(xiàn)。
早在 2019 年夏天,我的世界的開發(fā)公司就提出了「鉆石挑戰(zhàn)」,懸賞可以在游戲里找鉆石的 AI 算法,直到 NeurIPS 2019 上,在提交的 660 多份參賽作品中,沒有一個 AI 能勝任這項任務(wù)。
但 DreamerV3 的出現(xiàn)改變了這一現(xiàn)狀,鉆石是一項高度組合和長期的任務(wù),需要復(fù)雜的探索和規(guī)劃,新算法能在沒有任何人工數(shù)據(jù)輔助的情況下收集鉆石;蛟S效率還有很大改進(jìn)空間,但AI 智能體現(xiàn)在可以從頭開始學(xué)習(xí)收集鉆石這一事實本身,是一個重要的里程碑。
DreamerV3 方法概述
論文《Mastering Diverse Domains through World Models》:
論文鏈接:https://arxiv.org/abs/2301.04104v1
DreamerV3 算法由三個神經(jīng)網(wǎng)絡(luò)組成,分別是世界模型(world model)、critic 和 actor。這三個神經(jīng)網(wǎng)絡(luò)在不共享梯度的情況下根據(jù)回放經(jīng)驗同時訓(xùn)練,下圖 3(a)展示了世界模型學(xué)習(xí),圖(b)展示了 Actor Critic 學(xué)習(xí)。
為了取得跨域成功,這些組件需要適應(yīng)不同的信號幅度,并在它們的目標(biāo)中穩(wěn)健地平衡項。這是具有挑戰(zhàn)性的,因為不僅針對同一領(lǐng)域內(nèi)的相似任務(wù),而且還要使用固定超參數(shù)跨不同領(lǐng)域進(jìn)行學(xué)習(xí)。
DeepMind 首先解釋了用于預(yù)測未知數(shù)量級的簡單變換,然后介紹了世界模型、critic、actor 以及它們的穩(wěn)健學(xué)習(xí)目標(biāo)。結(jié)果發(fā)現(xiàn),結(jié)合 KL 平衡和自由位可以使世界模型無需調(diào)整學(xué)習(xí),并且在不夸大小回報(small return)的情況下,縮小大回報實現(xiàn)了固定的策略熵正則化器。
Symlog 預(yù)測
重建輸入以及預(yù)測獎勵和價值具有挑戰(zhàn)性,因為它們的規(guī)?赡芤蝾I(lǐng)域而異。使用平方損失預(yù)測大目標(biāo)會導(dǎo)致發(fā)散,而絕對損失和 Huber 損失會使學(xué)習(xí)停滯。另一方面,基于運行統(tǒng)計數(shù)據(jù)的歸一化目標(biāo)將非平穩(wěn)性引入優(yōu)化。因此,DeepMind 提出將 symlog 預(yù)測作為解決這一難題的簡單方法。
為此,具有輸入 x 和參數(shù) θ 的神經(jīng)網(wǎng)絡(luò) f (x, θ) 學(xué)習(xí)預(yù)測其目標(biāo) y 的變換版本。為了讀出該網(wǎng)絡(luò)的預(yù)測 y^,DeepMind 使用了逆變換,如下公式(1)所示。
從下圖 4 中可以看到,使用對數(shù)(logarithm)作為變換無法預(yù)測具有負(fù)值的目標(biāo)。
因此,DeepMind 從雙對稱對數(shù)族中選擇一個函數(shù),命名為 symlog 并作為變換,同時將 symexp 函數(shù)作為逆函數(shù)。
symlog 函數(shù)壓縮大的正值和負(fù)值的大校DreamerV3 在解碼器、獎勵預(yù)測器和 critic 中使用 symlog 預(yù)測,還使用 symlog 函數(shù)壓縮編碼器的輸入。
世界模型學(xué)習(xí)
世界模型通過自編碼學(xué)習(xí)感官輸入的緊湊表示,并通過預(yù)測未來的表示和潛在行為的獎勵來實現(xiàn)規(guī)劃。
如上圖 3 所示,DeepMind 將世界模型實現(xiàn)為循環(huán)狀態(tài)空間模型 (RSSM)。首先,編碼器將感官輸入 x_t 映射到隨機(jī)表示 z_t,然后具有循環(huán)狀態(tài) h_t 的序列模型在給定過去動作 a_t1 的情況下預(yù)測這些表示的序列。h_t 和 z_t 的串聯(lián)形成模型狀態(tài),從中預(yù)測獎勵 r_t 和 episode 連續(xù)標(biāo)志 c_t ∈ 并重建輸入以確保信息表示,具體如下公式(3)所示。
下圖 5 可視化了 world world 的長期視頻預(yù)測。編碼器和解碼器使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 進(jìn)行視覺輸入,使用多層感知器 (MLP) 進(jìn)行低維輸入。動態(tài)、獎勵和持續(xù)預(yù)測器也是 MLPs,這些表示從 softmax 分布的向量中采樣而來。DeepMind 在采樣步驟中使用了直通梯度。
Actor Critic 學(xué)習(xí)
Actor Critic 神經(jīng)網(wǎng)絡(luò)完全從世界模型預(yù)測的抽象序列中學(xué)習(xí)行為。在環(huán)境交互期間,DeepMind 通過從 actor 網(wǎng)絡(luò)中采樣來選擇動作,無需進(jìn)行前瞻性規(guī)劃。
actor 和 critic 在模型狀態(tài)
下運行,進(jìn)而可以從世界模型學(xué)得的馬爾可夫表示中獲益。actor 的目標(biāo)是在每個模型狀態(tài)的折扣因子 γ = 0.997 時最大化預(yù)期回報
。為了考慮超出預(yù)測范圍 T = 16 的獎勵,critic 學(xué)習(xí)預(yù)測當(dāng)前 actor 行為下每個狀態(tài)的回報。
從重放輸入的表示開始,動態(tài)預(yù)測器和 actor 產(chǎn)生一系列預(yù)期的模型狀態(tài) s_1:T 、動作 a_1:T 、獎勵 r_1:T 和連續(xù)標(biāo)志 c_1:T 。為了估計超出預(yù)測范圍的獎勵的回報,DeepMind 計算了自舉的 λ 回報,它整合了預(yù)期回報和價值。
實驗結(jié)果
DeepMind 進(jìn)行了廣泛的實證研究,以評估 DreamerV3 在固定超參數(shù)下跨不同領(lǐng)域(超過 150 個任務(wù))的通用性和可擴(kuò)展性,并與已有文獻(xiàn)中 SOTA 方法進(jìn)行比較。此外還將 DreamerV3 應(yīng)用于具有挑戰(zhàn)性的視頻游戲《我的世界》。
對于 DreamerV3,DeepMind 直接報告隨機(jī)訓(xùn)練策略的性能,并避免使用確定性策略進(jìn)行單獨評估運行,從而簡化了設(shè)置。所有的 DreamerV3 智能體均在一個 Nvidia V100 GPU 上進(jìn)行訓(xùn)練。下表 1 為基準(zhǔn)概覽。
為了評估 DreamerV3 的通用性,DeepMind 在七個領(lǐng)域進(jìn)行了廣泛的實證評估,包括連續(xù)和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同獎勵尺度、2D 和 3D 世界以及程序生成。下圖 1 中的結(jié)果發(fā)現(xiàn),DreamerV3 在所有領(lǐng)域都實現(xiàn)了強(qiáng)大的性能,并在其中 4 個領(lǐng)域的表現(xiàn)優(yōu)于所有以前的算法,同時在所有基準(zhǔn)測試中使用了固定超參數(shù)。
更多技術(shù)細(xì)節(jié)和實驗結(jié)果請參閱原論文。