選自arXiv
機(jī)器之心編譯
編輯:小舟、蛋醬
世界模型在實(shí)體機(jī)器人上能發(fā)揮多大的作用?
教機(jī)器人解決現(xiàn)實(shí)世界中的復(fù)雜任務(wù),一直是機(jī)器人研究的基礎(chǔ)問題。深度強(qiáng)化學(xué)習(xí)提供了一種流行的機(jī)器人學(xué)習(xí)方法,讓機(jī)器人能夠通過反復(fù)試驗(yàn)改善其行為。然而,當(dāng)前的算法需要與環(huán)境進(jìn)行過多的交互才能學(xué)習(xí)成功,這使得它們不適用于某些現(xiàn)實(shí)世界的任務(wù)。
為現(xiàn)實(shí)世界學(xué)習(xí)準(zhǔn)確的世界模型是一個巨大的開放性挑戰(zhàn)。在最近的一項(xiàng)研究中,UC 伯克利的研究者利用 Dreamer 世界模型的最新進(jìn)展,在最直接和最基本的問題設(shè)置中訓(xùn)練了各種機(jī)器人:無需模擬器或示范學(xué)習(xí),就能實(shí)現(xiàn)現(xiàn)實(shí)世界中的在線強(qiáng)化學(xué)習(xí)。
論文鏈接:https://arxiv.org/pdf/2206.14176.pdf
Dreamer 世界模型是谷歌、多倫多大學(xué)等機(jī)構(gòu)在 2021 年提出的一種。如下圖 2 所示,Dreamer 從過去經(jīng)驗(yàn)的回放緩存中學(xué)習(xí)世界模型,從世界模型的潛在空間中想象的 rollout 中學(xué)習(xí)行為,并不斷與環(huán)境交互以探索和改進(jìn)其行為。研究者的目標(biāo)是在現(xiàn)實(shí)世界中推動機(jī)器人學(xué)習(xí)的極限,并提供一個強(qiáng)大的平臺來支持未來的工作。
總體來說,這項(xiàng)研究的貢獻(xiàn)在于:
1、Dreamer on Robots。研究者將 Dreamer 應(yīng)用于 4 個機(jī)器人,無需引入新算法直接在現(xiàn)實(shí)世界中展示了成功的學(xué)習(xí)成果。這些任務(wù)涵蓋了一系列挑戰(zhàn),包括不同的行動空間、感官模式和獎勵結(jié)構(gòu)。
2、1 小時(shí)內(nèi)學(xué)會步行。研究者在現(xiàn)實(shí)世界中從零開始教四足機(jī)器人翻身、站起來并在 1 小時(shí)內(nèi)學(xué)會步行。
此外,他們發(fā)現(xiàn)機(jī)器人會在 10 分鐘內(nèi)能學(xué)會承受推力或快速翻身并重新站起來。
3、視覺拾取和放置。研究者訓(xùn)練機(jī)械臂從稀疏獎勵中學(xué)會拾取和放置對象,這需要從像素定位對象并將圖像與本體感受輸入融合。此處學(xué)習(xí)到的行為優(yōu)于無模型智能體,并接近人類表現(xiàn)。
4、開源。研究者公開發(fā)布了所有實(shí)驗(yàn)的軟件基礎(chǔ)架構(gòu),它支持不同的動作空間和感官模式,為未來研究現(xiàn)實(shí)世界中機(jī)器人學(xué)習(xí)的世界模型提供了一個靈活的平臺。
方法
該研究利用 Dreamer 算法(Hafner et al., 2019; 2020)在物理機(jī)器人上進(jìn)行在線學(xué)習(xí)(online learning),無需模擬器,總體架構(gòu)如上圖 2 所示。Dreamer 從過去經(jīng)驗(yàn)的回放緩沖區(qū)中學(xué)習(xí)世界模型,使用參與者 - 評價(jià)者算法從學(xué)習(xí)模型預(yù)測的軌跡中學(xué)習(xí)行為,并將其行為部署在環(huán)境中來不斷提升回放緩沖區(qū)。
該研究將學(xué)習(xí)更新與數(shù)據(jù)收集解耦,以滿足延遲要求并實(shí)現(xiàn)快速訓(xùn)練而無需等待環(huán)境變化。在該研究的實(shí)現(xiàn)中,一個學(xué)習(xí)線程持續(xù)訓(xùn)練世界模型和參與者 - 評價(jià)者行為,同時(shí)一個參與者線程并行計(jì)算環(huán)境交互動作。
世界模型是一個學(xué)習(xí)預(yù)測環(huán)境動態(tài)的深度神經(jīng)網(wǎng)絡(luò),如下圖 3(a)所示。
世界模型可以被認(rèn)為是機(jī)器人自主學(xué)習(xí)環(huán)境的快速模擬器,在探索現(xiàn)實(shí)世界時(shí)不斷改進(jìn)其模型。世界模型基于循環(huán)狀態(tài)空間模型 (RSSM; Hafner et al., 2018),它由四個組件組成:
世界模型表征了與任務(wù)無關(guān)的動態(tài)知識,而參與者 - 評價(jià)者算法負(fù)責(zé)學(xué)習(xí)特定于當(dāng)前任務(wù)的行為。如上圖 3(b) 所示。該研究從在世界模型的潛在空間中預(yù)測的 rollout 中學(xué)習(xí)行為,而無需解碼觀察結(jié)果。這可以在單個 GPU 上以 16K 的批大小進(jìn)行大規(guī)模并行行為學(xué)習(xí),類似于專門的現(xiàn)代模擬器 (Makoviychuk et al., 2021)。參與者 - 評價(jià)者算法由兩個神經(jīng)網(wǎng)絡(luò)組成:
參與者網(wǎng)絡(luò)的作用是為每個潛在模型狀態(tài) s_t 學(xué)習(xí)成功動作的分布,以最大化未來預(yù)測任務(wù)獎勵(reward)的總和。評價(jià)者網(wǎng)絡(luò)通過時(shí)間差異學(xué)習(xí)來學(xué)習(xí)預(yù)測未來任務(wù)獎勵的總和(Sutton 和 Barto,2018 ),這允許算法學(xué)習(xí)長期策略。
與 Hafner et al. (2020) 相比,Dreamer 方法沒有訓(xùn)練頻率超參數(shù),因?yàn)閷W(xué)習(xí)器優(yōu)化神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)收集并行進(jìn)行,沒有速率限制。
實(shí)驗(yàn)
研究者在 4 個機(jī)器人上評估了 Dreamer,為每個機(jī)器人分配了不同的任務(wù),并將其性能與算法和人類基線進(jìn)行比較,目的是評估近期學(xué)習(xí)世界模型的成功是否能夠直接在現(xiàn)實(shí)世界中實(shí)現(xiàn)樣本高效的機(jī)器人學(xué)習(xí)。
這些實(shí)驗(yàn)代表了常見的機(jī)器人任務(wù),例如運(yùn)動、操縱和導(dǎo)航,帶來了各種各樣的挑戰(zhàn),包括連續(xù)和離散的動作、密集和稀疏的獎勵、本體感受和圖像觀察,以及傳感器融合。
A1 機(jī)器狗四足步行
如圖 4 所示,經(jīng)過一小時(shí)的訓(xùn)練,Dreamer 學(xué)會了不斷地讓機(jī)器人從其背部翻過來、站起來,然后向前走。在訓(xùn)練的前 5 分鐘,機(jī)器人設(shè)法從背部翻滾過來并用腳著地。20 分鐘后,它學(xué)會了如何站起來。大約 1 小時(shí)后,機(jī)器人學(xué)會了一種叉式步態(tài),以所需的速度向前行走。
在成功完成這項(xiàng)任務(wù)后,研究者用一根棍子反復(fù)敲打機(jī)器人的四足來測試算法的魯棒性,如圖 8 所示。在額外在線學(xué)習(xí)的 10 分鐘內(nèi),機(jī)器人會適應(yīng)并承受推力或快速翻身站穩(wěn)。相比之下,SAC 也很快學(xué)會了翻身,但由于數(shù)據(jù)預(yù)算(data budget)太小,無法站立或行走。
UR5 多物體視覺拾取和放置
拾取和放置任務(wù)在倉庫和物流環(huán)境中很常見,需要機(jī)械臂將物品從一個箱子運(yùn)輸?shù)搅硪粋箱子。圖 5 展示了成功拾取和放置的循環(huán)。由于獎勵稀疏、需要從像素推斷對象位置以及多個移動對象的挑戰(zhàn)性動態(tài),該任務(wù)具有一定挑戰(zhàn)性。
XArm 視覺拾取和放置
上面提到的 UR5 機(jī)器人是高性能工業(yè)機(jī)器人,但 XArm 是一種可訪問的低成本 7 DOF 操作,此處任務(wù)類似,需要定位和抓取一個柔軟的物體,將其從一個容器移到另一個容器并返回,如圖 6 所示。
Sphero 導(dǎo)航
此外,研究者還在視覺導(dǎo)航任務(wù)上評估了 Dreamer,該任務(wù)需要將輪式機(jī)器人操縱到固定目標(biāo)位置,僅給定 RGB 圖像作為輸入。這里使用了 Sphero Ollie 機(jī)器人,一個帶有兩個可控電機(jī)的圓柱形機(jī)器人,研究者通過 2 Hz 的連續(xù)扭矩命令對其進(jìn)行控制。鑒于機(jī)器人是對稱的,并且機(jī)器人只能獲得圖像觀察,它必須從觀察歷史中推斷出航向。
2 小時(shí)內(nèi),Dreamer 學(xué)會了快速且始終如一地導(dǎo)航到目標(biāo),并保持在目標(biāo)附近。如圖 7 所示,Dreamer 與目標(biāo)的平均距離為 0.15(以區(qū)域大小為單位測量并跨時(shí)間步求平均值)。
THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com