展會(huì)信息港展會(huì)大全

機(jī)器人輕松模仿人類,還能泛化到不同任務(wù)和智能體|微軟新研究
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-22 19:14:30   瀏覽:650次  

導(dǎo)讀:IGOR團(tuán)隊(duì) 投稿 量子位 | 公眾號(hào) QbitAI 讓機(jī)械臂模仿人類動(dòng)作的新方法來(lái)了,不怕缺高質(zhì)量機(jī)器人數(shù)據(jù)的那種。 微軟提出 圖像目標(biāo)表示 (IGOR,Image-GOal Representation),投喂模型人類與現(xiàn)實(shí)世界的交互數(shù)據(jù)。 IGOR能 直接為人類和機(jī)器人學(xué)習(xí)一個(gè)統(tǒng)一的動(dòng)作...

IGOR團(tuán)隊(duì) 投稿

量子位 | 公眾號(hào) QbitAI

讓機(jī)械臂模仿人類動(dòng)作的新方法來(lái)了,不怕缺高質(zhì)量機(jī)器人數(shù)據(jù)的那種。

微軟提出圖像目標(biāo)表示(IGOR,Image-GOal Representation),“投喂”模型人類與現(xiàn)實(shí)世界的交互數(shù)據(jù)。

IGOR能直接為人類和機(jī)器人學(xué)習(xí)一個(gè)統(tǒng)一的動(dòng)作表示空間,實(shí)現(xiàn)跨任務(wù)和智能體的知識(shí)遷移以及下游任務(wù)效果的提升。

要知道,在訓(xùn)練具身智能領(lǐng)域的基礎(chǔ)模型時(shí),高質(zhì)量帶有標(biāo)簽的機(jī)器人數(shù)據(jù)是保證模型質(zhì)量的關(guān)鍵,而直接采集機(jī)器人數(shù)據(jù)成本較高。

考慮到互聯(lián)網(wǎng)視頻數(shù)據(jù)中也展示了豐富的人類活動(dòng),包括人類是如何與現(xiàn)實(shí)世界中的各種物體進(jìn)行交互的,由此來(lái)自微軟的研究團(tuán)隊(duì)提出了IGOR。

究竟怎樣才能學(xué)到人類和機(jī)器人統(tǒng)一的動(dòng)作表示呢?

IGOR框架解讀IGOR框架如下所示,包含三個(gè)基礎(chǔ)模型:

Latent Action Model、Policy Model和World Model

具體來(lái)說(shuō),IGOR先是提出了潛在動(dòng)作模型LAM(Latent Action Model),將初始狀態(tài)和目標(biāo)狀態(tài)之間的視覺(jué)變化壓縮為低維向量,并通過(guò)最小化初始狀態(tài)和動(dòng)作向量對(duì)目標(biāo)狀態(tài)的重建損失來(lái)進(jìn)行訓(xùn)練。

這樣一來(lái),具有相似視覺(jué)變化的圖像狀態(tài)將具有相似的動(dòng)作向量,代表了他們?cè)谡Z(yǔ)義空間而非像素空間上的變化。

通過(guò)LAM,可以將互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)轉(zhuǎn)化為帶有潛在動(dòng)作標(biāo)注的數(shù)據(jù),大大擴(kuò)展了具身智能基礎(chǔ)模型能夠使用的數(shù)據(jù)量。

這個(gè)統(tǒng)一的潛在動(dòng)作空間使團(tuán)隊(duì)能夠在幾乎任意由機(jī)器人和人類執(zhí)行的任務(wù)上訓(xùn)練Policy Model和World Model。

通過(guò)結(jié)合LAM和World Model,IGOR成功地將一個(gè)視頻中的物體運(yùn)動(dòng)“遷移”到其他視頻中。并且,這些動(dòng)作實(shí)現(xiàn)了跨任務(wù)和跨智能體的遷移。

也就是說(shuō),用人的行為給機(jī)器人做演示,機(jī)器人也能做出正確的動(dòng)作。如下圖所示,LAM得到的潛在動(dòng)作表示可以同時(shí)實(shí)現(xiàn)跨任務(wù)(用手移動(dòng)不同物體)和跨智能體(用手的移動(dòng)指導(dǎo)機(jī)械臂的移動(dòng))的遷移。

△Latent Action實(shí)現(xiàn)跨任務(wù)和智能體的遷移

以下是模型架構(gòu)的具體細(xì)節(jié)。

Latent Action ModelLAM的目標(biāo)是以無(wú)監(jiān)督的方式從互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)中學(xué)習(xí)和標(biāo)注潛在動(dòng)作,即給定視頻幀序列,對(duì)于每一對(duì)相鄰幀提取潛在動(dòng)作表示。

為此,LAM模型由一個(gè)Inverse Dynamic Model(IDM)和Forward Dynamic Model(FDM)組成。

IDM的從視頻幀序列中提取潛在動(dòng)作表示,而FDM負(fù)責(zé)用學(xué)到的表示和當(dāng)前視頻幀來(lái)重建接下來(lái)的視頻幀。

由于將潛在動(dòng)作表示限定在較低的維度,因此LAM模型會(huì)將兩幀之間語(yǔ)義上的區(qū)別學(xué)習(xí)到之中。

值得注意的是,這種方式天然保證了學(xué)到的潛在動(dòng)作是具有泛化性的。

如下圖所示, 在未見(jiàn)數(shù)據(jù)集上,LAM學(xué)到的相似潛在動(dòng)作反映了相似的語(yǔ)義,包括打開夾子、機(jī)械臂向左移動(dòng)和關(guān)閉夾子,這些潛在動(dòng)作在不同任務(wù)間共享,進(jìn)而提升下游模型的泛化性。

△Latent Action Model在未見(jiàn)數(shù)據(jù)集上的表現(xiàn)

Foundation World ModelWorld Model的作用是根據(jù)歷史視頻幀和未來(lái)多幀的潛在動(dòng)作表示,生成在歷史幀的基礎(chǔ)上執(zhí)行各個(gè)潛在動(dòng)作之后的未來(lái)視頻幀

為此,研究人員選擇從預(yù)訓(xùn)練的視頻生成模型上進(jìn)行微調(diào),將條件從文本換成了潛在動(dòng)作表示和FDM的重建輸出。

在具身智能的相關(guān)數(shù)據(jù)集上進(jìn)行微調(diào)之后,研究人員觀察到World Model可以成功地在給定相同歷史幀時(shí),針對(duì)不同的潛在動(dòng)作表示生成相對(duì)應(yīng)的未來(lái)視頻鄭

如下圖所示,此方法可以通過(guò)潛在動(dòng)作和World Model控制不同物體的獨(dú)立移動(dòng)。

△World Model對(duì)于給定的不同潛在動(dòng)作表示時(shí)的生成結(jié)果

Foundation Policy ModelPolicy Model的目標(biāo)是在具體的下游任務(wù)上,根據(jù)視頻幀和文本指令來(lái)預(yù)測(cè)智能體每一步要采取的動(dòng)作。

在IGOR中,它的訓(xùn)練分為了兩個(gè)階段。

在第一階段,Policy Model將根據(jù)輸入的視頻幀和文本指令來(lái)預(yù)測(cè)LAM提取出的相應(yīng)的潛在運(yùn)動(dòng)表示,從而建立從視頻幀到通用潛在運(yùn)動(dòng)表示的映射。

在第二階段,該模型則會(huì)根據(jù)文本指令、視頻幀以及第一階段模型預(yù)測(cè)出來(lái)的潛在動(dòng)作表示共同預(yù)測(cè)下游任務(wù)上具體的運(yùn)動(dòng)標(biāo)簽。

和現(xiàn)有模型相比,第一階段預(yù)測(cè)出的潛在動(dòng)作表示蘊(yùn)含了完成該任務(wù)需要達(dá)成的短期目標(biāo),豐富了模型的輸入信息,因此提升了最終策略的任務(wù)成功率,如下圖所示。

△Policy Model在下游機(jī)器人任務(wù)上的表現(xiàn)

在相同的場(chǎng)景下給定不同的文本指令,研究人員也驗(yàn)證了Policy Model的有效性,即模型可以根據(jù)不同的指令生成相應(yīng)的潛在動(dòng)作表示,進(jìn)而通過(guò)World Model模擬執(zhí)行相應(yīng)的指令。

△Policy Model和World Model對(duì)于不同文本指令的生成結(jié)果

總的來(lái)說(shuō),IGOR提出了通過(guò)大量人類和機(jī)器人視頻預(yù)訓(xùn)練學(xué)習(xí)動(dòng)作表示并泛化到不同任務(wù)和智能體的新方法。通過(guò)從大量視頻中學(xué)到的動(dòng)作表示,IGOR可以實(shí)現(xiàn)機(jī)器人輕松模仿人類動(dòng)作,進(jìn)而實(shí)現(xiàn)更通用的智能體。

項(xiàng)目主頁(yè):https://aka.ms/project-igor論文:https://aka.ms/project-igor-paper

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港