展會(huì)信息港展會(huì)大全

AI智能體學(xué)會(huì)動(dòng)物進(jìn)化法則:李飛飛等提出深度進(jìn)化RL
來源:互聯(lián)網(wǎng)   發(fā)布日期:2021-02-06 17:48:31   瀏覽:8731次  

導(dǎo)讀:機(jī)器之心報(bào)道 編輯:杜偉、魔王、陳萍 智能體是人工智能領(lǐng)域的一大研究課題,并且也有非具身與具身智能之分。當(dāng)前,AI 領(lǐng)域更多關(guān)注非具身認(rèn)知,而創(chuàng)建具身智能體非常具有挑戰(zhàn)性。近日,斯坦福李飛飛等學(xué)者提出了一種新的計(jì)算框架深度進(jìn)化強(qiáng)化學(xué)習(xí)(DERL),...

機(jī)器之心報(bào)道

編輯:杜偉、魔王、陳萍

智能體是人工智能領(lǐng)域的一大研究課題,并且也有非具身與具身智能之分。當(dāng)前,AI 領(lǐng)域更多關(guān)注非具身認(rèn)知,而創(chuàng)建具身智能體非常具有挑戰(zhàn)性。近日,斯坦福李飛飛等學(xué)者提出了一種新的計(jì)算框架深度進(jìn)化強(qiáng)化學(xué)習(xí)(DERL), 基于該框架創(chuàng)建的具身智能體可以在多個(gè)復(fù)雜環(huán)境中執(zhí)行多項(xiàng)任務(wù)。此外,該研究還通過形態(tài)學(xué)習(xí)首次證明了演化生物學(xué)中的鮑德溫效應(yīng)。

在過去 6 億年中,進(jìn)化帶來了不同類型的「無盡之形最美」(endless forms most beautiful),從古老的兩側(cè)對(duì)稱蟲到多種多樣的動(dòng)物形態(tài)。這些動(dòng)物還展示出了顯著的具身智能(embodied intelligence),利用進(jìn)化的形態(tài)學(xué)習(xí)復(fù)雜任務(wù)。具身認(rèn)知領(lǐng)域認(rèn)為,智能體可以快速學(xué)得這種智能行為,它們的形態(tài)也能很好地適應(yīng)環(huán)境。然而,AI 領(lǐng)域更多地關(guān)注「非具身認(rèn)知」,如語言、視覺或游戲等。

當(dāng)人工具身智能體的形態(tài)能夠很好地適應(yīng)環(huán)境,則它們可以在多種復(fù)雜環(huán)境中學(xué)習(xí)控制任務(wù),然而創(chuàng)建這類智能體很有挑戰(zhàn)性,原因如下:

這需要在大量可能形態(tài)中進(jìn)行搜索;

通過終身學(xué)習(xí)評(píng)估智能體適應(yīng)度需要大量計(jì)算時(shí)間。

因此,之前的研究要么在極度有限的形態(tài)搜索空間中進(jìn)化智能體,要么在給出的固定人工設(shè)計(jì)形態(tài)下找出最優(yōu)參數(shù)。評(píng)估適應(yīng)度(fitness)的難度使得先前研究避免直接基于原始感官觀察學(xué)習(xí)自適應(yīng)控制器;使用少量參數(shù) (≤ 100) 學(xué)習(xí)人工設(shè)計(jì)控制器;學(xué)習(xí)預(yù)測(cè)一種形態(tài)的適應(yīng)度;模仿拉馬克進(jìn)化(Lamarckian)而不是達(dá)爾文進(jìn)化,直接跨代傳輸學(xué)得的信息。此外,之前研究主要局限于平地移動(dòng)的簡單任務(wù),智能體具備的自由度 (DoF) 較少,或者形體構(gòu)型由立方體組成,將學(xué)習(xí)控制器這一問題進(jìn)一步簡化。

如何克服這些局限呢?

近日,來自斯坦福大學(xué)的研究者 Agrim Gupta、Silvio Savarese、Surya Ganguli 和李飛飛提出了一種新型計(jì)算框架深度進(jìn)化強(qiáng)化學(xué)習(xí) (Deep Evolutionary Reinforcement Learning, DERL),該框架能夠在環(huán)境、形態(tài)和控制這三種復(fù)雜度維度下同時(shí)規(guī);瘎(chuàng)建具身智能體。

DERL 框架如下圖 1 所示

DERL 為在計(jì)算機(jī)模擬實(shí)驗(yàn)執(zhí)行大規(guī)模具身智能體創(chuàng)建活動(dòng)打開了大門,這有助于獲得對(duì)學(xué)習(xí)和進(jìn)化如何協(xié)作構(gòu)建環(huán)境復(fù)雜度、形態(tài)智能和控制任務(wù)易學(xué)性之間復(fù)雜關(guān)系的科學(xué)洞見。此外,DERL 還緩解了強(qiáng)化學(xué)習(xí)的樣本低效性,創(chuàng)建具身智能體不僅可以使用較少的數(shù)據(jù),還能夠泛化解決多種新任務(wù)。DERL 通過模仿達(dá)爾文進(jìn)化論中錯(cuò)綜復(fù)雜的跨代進(jìn)化過程來搜索形態(tài)空間,通過終身神經(jīng)學(xué)習(xí)來評(píng)估給定形態(tài)通過智能控制解決復(fù)雜任務(wù)的速度和質(zhì)量。

論文作者之一、斯坦福大學(xué)教授李飛飛表示:「該研究不僅提出了新型計(jì)算框架深度進(jìn)化強(qiáng)化學(xué)習(xí)(DERL),并通過形態(tài)學(xué)習(xí)首次證明了達(dá)爾文 - 鮑德溫效應(yīng)。形態(tài)學(xué)習(xí)是自然界動(dòng)物進(jìn)化必不可少的技能,現(xiàn)已在我們創(chuàng)建的 AI 智能體中展現(xiàn)!埂

論文地址:https://arxiv.org/pdf/2102.02202.pdf

具身智能體能執(zhí)行哪些任務(wù)?

本研究創(chuàng)建的具身智能體可以在平地 (FT)、多變地形 (VT) 和多變地形中的非抓握操作 (MVT) 三種環(huán)境中執(zhí)行巡視(patrol)、點(diǎn)導(dǎo)航(point navigation)、避障(obstacle)、探索(exploration)、逃脫(escape)、爬坡(incline)、斜坡推箱子(push box incline)和控球(manipulate ball)等任務(wù)。

以下三張動(dòng)圖分別為具身智能體的避障(上)、斜坡推箱子(中)和控球(下)行為。

避障。

斜坡推箱子。

控球。

DERL:用于創(chuàng)建具身智能體的計(jì)算框架

對(duì)于學(xué)習(xí),每個(gè)智能體通過只接收低層次的自我本體感受和外部感受觀察來感知世界,并通過由深度神經(jīng)網(wǎng)絡(luò)參數(shù)確定的隨機(jī)策略來選擇其動(dòng)作(上圖 1b),深度神經(jīng)網(wǎng)絡(luò)的參數(shù)通過近端策略優(yōu)化 (PPO) 學(xué)習(xí)得到。

總體來說,DERL 允許研究者在 1152 個(gè) CPU 上進(jìn)行大規(guī)模實(shí)驗(yàn),涉及平均 10 代的進(jìn)化,搜索并訓(xùn)練了 4000 種形態(tài),每種形態(tài)有 500 萬次智能體 - 環(huán)境交互(即學(xué)習(xí)迭代)。該研究可以在并行異步(parallel asynchronous)比賽中訓(xùn)練 288 個(gè)形態(tài),因此在任意給定時(shí)刻,整個(gè)學(xué)習(xí)和進(jìn)化過程可在 16 小時(shí)內(nèi)完成。據(jù)了解,這是迄今為止最大規(guī)模的形態(tài)進(jìn)化和 RL 同步模擬。

UNIMAL:UNIversal aniMAL 形態(tài)設(shè)計(jì)空間

為了克服以往形態(tài)搜索空間表達(dá)能力的限制,該研究引入了一個(gè) UNIversal aniMAL(UNIMAL)設(shè)計(jì)空間(上圖 1e)。該研究的基因型(genotype )是一個(gè)運(yùn)動(dòng)樹,對(duì)應(yīng)于由電機(jī)驅(qū)動(dòng)的鉸鏈連接的 3D 剛性部件的層次結(jié)構(gòu)。運(yùn)動(dòng)樹的節(jié)點(diǎn)由兩種組件類型構(gòu)成:表示智能體頭部的球體(構(gòu)成樹的根)和表示肢體的圓柱體。

進(jìn)化通過三類變異算子進(jìn)行無性繁殖:1)通過長出或刪除肢體來收縮或生長運(yùn)動(dòng)樹(上圖 1d);2)改變現(xiàn)有肢體的物理特性,如長度和密度(上圖 1d);3)修改四肢之間關(guān)節(jié)的屬性,包括自由度、旋轉(zhuǎn)角度限制以及齒輪比。

最重要的是,該研究只允許保持兩側(cè)對(duì)稱的成對(duì)變異,這是動(dòng)物形體構(gòu)型在進(jìn)化過程中最古老的特征(起源于 6 億年前)。一個(gè)關(guān)鍵的物理結(jié)果是,每個(gè)智能體的質(zhì)心都位于矢狀面,從而減少了學(xué)習(xí)左右平衡所需要的控制程度。盡管有這一限制,但該研究提出的形態(tài)設(shè)計(jì)空間極具表達(dá)力,包含大約 1018 種獨(dú)特的智能體形態(tài),至少有 10 個(gè)肢體。

智能體「變形記」:在復(fù)雜環(huán)境中進(jìn)化出不同的形態(tài)

該研究稱,DERL 使智能體首次超出了平地移動(dòng)任務(wù),在 3 種環(huán)境中同時(shí)進(jìn)化多種智能體形態(tài)和學(xué)習(xí)控制器,且 3 種環(huán)境的難度是逐步增加的:平地 (FT)、多變地形 (VT) 和多變地形中的非抓握操作 (MVT)。DERL 能夠?yàn)檫@ 3 種環(huán)境找出成功的形態(tài)解。

首先智能體在 FT 環(huán)境中移動(dòng):

其次智能體在地勢(shì)高低不平的 VT 環(huán)境中移動(dòng):

最后智能體在 MVT 環(huán)境中移動(dòng)并推動(dòng)箱子:

研究者分析了不同形態(tài)描述子在這 3 種環(huán)境中的變化(參見下圖 3),發(fā)現(xiàn)環(huán)境對(duì)形態(tài)進(jìn)化有極大影響。

當(dāng)在所有環(huán)境中進(jìn)化的智能體具備類似的質(zhì)量和控制復(fù)雜度時(shí),VT/MVT 智能體比 FT 智能體在前進(jìn)方向上移動(dòng)時(shí)間較長,在高度方向上移動(dòng)時(shí)間較短,而 FT 智能體所占的空間小于 VT/MVT。FT 智能體占據(jù)空間較少的屬性反映了一個(gè)常見策略:在身體上間隔較遠(yuǎn)地安裝肢體,使之具備完整的運(yùn)動(dòng)范圍(參見下圖 2i、7a、8a)。FT 智能體展示出向前倒的移動(dòng)步態(tài)和蜥蜴樣的移動(dòng)方式(下圖 2i),VT 智能體與 FT 較為相似,但它具備額外的機(jī)制,使步態(tài)更穩(wěn)。最后,MVT 智能體發(fā)展出類似鉗或爪的前伸手臂,從而完成將箱子推到目標(biāo)位置的任務(wù)。

環(huán)境復(fù)雜度衍生出形態(tài)智能

上文關(guān)于環(huán)境對(duì)形態(tài)進(jìn)化的影響的分析主要聚焦于不同形態(tài)描述子或形態(tài)復(fù)雜度,但其關(guān)鍵挑戰(zhàn)是設(shè)計(jì)智能體時(shí)要確保它能快速適應(yīng)任意新任務(wù)。因而,研究者轉(zhuǎn)而通過描述一種形態(tài)中的具身智能,來了解如何通過組合學(xué)習(xí)和進(jìn)化獲得這種能力。具體而言,研究者計(jì)算形態(tài)對(duì)學(xué)習(xí)大量測(cè)試任務(wù)的促進(jìn)作用。這一方法類似于,通過計(jì)算潛在神經(jīng)表示經(jīng)由遷移學(xué)習(xí)在下游任務(wù)上的性能來評(píng)估其質(zhì)量。

研究者一共創(chuàng)建了一組 8 個(gè)任務(wù)(下圖 4a),可分為 3 個(gè)領(lǐng)域,分別測(cè)試智能體形態(tài)的敏捷性(巡視、點(diǎn)導(dǎo)航、避障與探索)、穩(wěn)定性(逃脫與爬坡)和操縱能力(斜坡推箱子和控球)。每個(gè)任務(wù)的控制器都是從頭學(xué)習(xí),從而確保性能差異均來自形態(tài)上的不同。

研究者首先測(cè)試了這一假設(shè):在更復(fù)雜環(huán)境中的進(jìn)化會(huì)帶來更智能的形態(tài),從而在測(cè)試任務(wù)中性能更好(參見上圖 4b)。結(jié)果表明,在 MVT 環(huán)境中進(jìn)化出的智能體性能在 7 項(xiàng)測(cè)試任務(wù)中優(yōu)于在 FT 中進(jìn)化的智能體;在涉及敏捷性和穩(wěn)定性的 6 個(gè)任務(wù)中,VT 智能體在 5 項(xiàng)任務(wù)里優(yōu)于 FT 智能體,在操縱任務(wù)中性能相似。

為了測(cè)試學(xué)習(xí)速度,研究者以 1/5 學(xué)習(xí)迭代重復(fù)了相同實(shí)驗(yàn)(參見上圖 4c),發(fā)現(xiàn) MVT/VT 智能體和 FT 智能體在所有任務(wù)中的區(qū)別更大了。這些結(jié)果表明,在更復(fù)雜環(huán)境中進(jìn)化出的形態(tài)確實(shí)更智能,因?yàn)樗鼈兇龠M(jìn)智能體更好、更快地學(xué)習(xí)多種新任務(wù)。

證明了更強(qiáng)形式的形態(tài)學(xué)鮑德溫效應(yīng)

一個(gè)多世紀(jì)以前,美國心理學(xué)家鮑德溫(Baldwin)推測(cè)存在一種替代機(jī)制,通過這種機(jī)制,最初在早代進(jìn)化中終身學(xué)得的行為將逐漸在后代(later generation)中成為本能甚至可能通過基因傳播。表面上,這種鮑德溫效應(yīng)看起來像拉馬克遺傳(Lamarckian inheritance),但嚴(yán)格來說,它源于達(dá)爾文主義(Darwinian )。然而,長期以來,生物學(xué)家一直認(rèn)為鮑德溫效應(yīng)在復(fù)雜環(huán)境中可能保持在形態(tài)進(jìn)化和感覺運(yùn)動(dòng)學(xué)習(xí)(sensorimotor learning)的層面。所以,盡管這一猜想廣為流傳,但迄今為止尚無研究證明體內(nèi)或計(jì)算機(jī)(vivo or in silico)形態(tài)進(jìn)化中的鮑德溫效應(yīng)。

在模擬中,研究者找到了證明鮑德溫效應(yīng)在形態(tài)學(xué)中存在的首個(gè)證據(jù),這反映在三個(gè)環(huán)境中達(dá)到前 100 個(gè)智能體標(biāo)準(zhǔn)適應(yīng)度水平(level of fitness)所需訓(xùn)練時(shí)間的快速減少,如下圖 5a 所示。值得注意的是,僅在 10 代之內(nèi),平均訓(xùn)練時(shí)間就減少為原來的一半。研究者提供了如何加速學(xué)習(xí)的示例,如下圖 5d 所示,他們展示了 FT 中進(jìn)化的智能體在不同代中的學(xué)習(xí)曲線:

在學(xué)習(xí)結(jié)束時(shí),第 8 代智能體的表現(xiàn)兩倍優(yōu)于第 1 代智能體,而且可以在后者 1/5 的時(shí)間里達(dá)到相同的最終適應(yīng)度。研究者還注意到他們?cè)谀M中對(duì)于快速學(xué)習(xí)沒有遇到任何顯式的選擇壓力,這是因?yàn)橐粋(gè)形態(tài)的適應(yīng)度僅由學(xué)習(xí)結(jié)束時(shí)自身的性能決定。盡管如此,進(jìn)化依然選擇速度更快的學(xué)習(xí)者,這樣做也沒有任何選擇壓力。因此,研究者通過證明技能獲取速度的顯式選擇壓力對(duì)于鮑德溫效應(yīng)并不是必要的,實(shí)際發(fā)現(xiàn)了比以往文獻(xiàn)中猜想的形式更強(qiáng)的鮑德溫效應(yīng)。

有趣的是,形態(tài)學(xué)鮑德溫效應(yīng)的存在可以在未來研究中得到進(jìn)一步探索,以創(chuàng)建更低樣本復(fù)雜度和更高泛化性的具身智能體。

形態(tài)智能以及強(qiáng)大鮑德溫效應(yīng)的機(jī)制基礎(chǔ)

接下來,該研究將探索進(jìn)化如何產(chǎn)生形態(tài)智能(上圖 4b,c)以及如何選擇更快的學(xué)習(xí)者,而無需對(duì)學(xué)習(xí)速度施加任何直接選擇壓力的潛在機(jī)制基矗

該研究假設(shè),按照具身認(rèn)知(embodied cognition)中的推測(cè),進(jìn)化發(fā)現(xiàn)的形態(tài)可以更有效地利用智能體主體與環(huán)境之間物理交互的被動(dòng)動(dòng)力學(xué)(passive dynamics),從而簡化學(xué)習(xí)控制的問題,它既能在新的環(huán)境中實(shí)現(xiàn)更好的學(xué)習(xí)(形態(tài)智能),又能跨代實(shí)現(xiàn)更快的學(xué)習(xí)(鮑德溫效應(yīng))。任何這樣的智能形態(tài)學(xué)都可能表現(xiàn)出能量效率和被動(dòng)穩(wěn)定性的物理特性,因此該研究對(duì)這兩種特性進(jìn)行了研究。

研究者將能源效率定義為每單位質(zhì)量完成一個(gè)目標(biāo)所消耗的能量(見附錄 D)。令人驚訝的是,在沒有能源效率直接選擇壓力的情況下,進(jìn)化選擇了能效形態(tài)解決方案(上圖 5c)。研究證實(shí),能源效率并不是簡單地通過降低肢體密度來實(shí)現(xiàn)的(上圖 3e)。

相反,在所有三種環(huán)境中,總體質(zhì)量實(shí)際上都在增加,這表明能源效率是通過選擇更有效地利用身體 - 環(huán)境相互作用的被動(dòng)物理動(dòng)力學(xué)的形態(tài)來實(shí)現(xiàn)的。此外,在任意固定代,能源效率更高的形態(tài)表現(xiàn)得更好(下圖 6a),學(xué)習(xí)速度也更快(下圖 6b)。

同樣地,在所有的三種環(huán)境中,隨著時(shí)間的推移,進(jìn)化選擇更被動(dòng)穩(wěn)定的形態(tài)(見附錄 D),盡管相對(duì)于 FT、VT/MVT 中穩(wěn)定形態(tài)的比例更高,這表明在這些更復(fù)雜的環(huán)境中穩(wěn)定性的相對(duì)選擇壓力更高(上圖 5b)。

因此,隨著進(jìn)化的推移,能源效率(上圖 5c)和穩(wěn)定性(上圖 5b)都以一種與學(xué)習(xí)速度緊密相關(guān)的方式提高(上圖 5a)。

2021年 2 月的第一周,機(jī)器之心將攜手二十余位 AI 人耳熟能詳?shù)闹匕跫钨e進(jìn)行在線直播,通過圓桌探討、趨勢(shì)Talk,報(bào)告解讀及案例分享等形式,為關(guān)注人工智能產(chǎn)業(yè)發(fā)展趨勢(shì)的AI人解讀技術(shù)演進(jìn)趨勢(shì),共同探究產(chǎn)業(yè)發(fā)展脈絡(luò)。連續(xù)七天,精彩不停。

添加機(jī)器之心Pro小助手(syncedai 或 syncedproii),備注「2021」,進(jìn)群一起看直播。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港