來源:MIT Technology Review
教會機(jī)器人在新環(huán)境中導(dǎo)航是個(gè)棘手的任務(wù)。你可以利用人類錄制的真實(shí)世界數(shù)據(jù)對它們進(jìn)行訓(xùn)練,但這些數(shù)據(jù)不僅稀缺,還需要高昂的成本來收集。數(shù)字模擬是一種快速且可擴(kuò)展的訓(xùn)練方式,但機(jī)器人常常在從虛擬世界轉(zhuǎn)移到現(xiàn)實(shí)環(huán)境后難以完成相同的任務(wù)。
如今,有了一種潛在的更優(yōu)方案:一個(gè)結(jié)合生成式 AI 模型和物理模擬器的新系統(tǒng),用于創(chuàng)建更貼近物理世界的虛擬訓(xùn)練場。通過這種方法訓(xùn)練的機(jī)器人,在現(xiàn)實(shí)世界測試中的成功率比采用傳統(tǒng)技術(shù)訓(xùn)練的機(jī)器人更高。
研究人員使用這一名為 LucidSim 的系統(tǒng)訓(xùn)練了一只機(jī)器狗進(jìn)行跑酷,使其能夠爬過箱子、上樓梯,盡管它從未接觸過任何真實(shí)世界的數(shù)據(jù)。這種方法展現(xiàn)了生成式 AI 在教機(jī)器人執(zhí)行復(fù)雜任務(wù)方面的潛力,也提出了一個(gè)可能性:我們或許最終能完全在虛擬世界中訓(xùn)練機(jī)器人。相關(guān)研究已于上周的機(jī)器人學(xué)習(xí)會議(Conference on Robot Learning, CoRL)上發(fā)表。
“我們正處于機(jī)器人領(lǐng)域的工業(yè)革命之中,”MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)的博士后研究員 Ge Yang 說道,他參與了這一項(xiàng)目!斑@是我們嘗試?yán)斫膺@些生成式 AI 模型在其原本預(yù)期用途之外的影響,希望這能引領(lǐng)我們邁向下一代工具和模型。”
LucidSim 使用生成式 AI 模型的組合來創(chuàng)建視覺訓(xùn)練數(shù)據(jù)。研究人員首先為 ChatGPT 生成了數(shù)千個(gè)提示,讓其創(chuàng)建涵蓋多種環(huán)境的描述,這些環(huán)境代表了機(jī)器人可能在現(xiàn)實(shí)世界中遇到的條件,包括不同的天氣、時(shí)間和光照條件。例如,“一個(gè)古老的小巷,兩旁是茶館和小而別致的商店,每家店鋪都陳列著傳統(tǒng)飾品和書法作品”,“陽光照亮了一片有些凌亂的草坪,草地上點(diǎn)綴著干枯的斑點(diǎn)”。
這些描述隨后被輸入一個(gè)系統(tǒng),該系統(tǒng)將 3D 幾何和物理數(shù)據(jù)映射到 AI 生成的圖像上,從而創(chuàng)建一系列短視頻,為機(jī)器人繪制軌跡。這些信息幫助機(jī)器人計(jì)算它需要導(dǎo)航的物體的高度、寬度和深度,例如一個(gè)箱子或一段樓梯。
研究人員通過讓一只配備攝像頭的四足機(jī)器人完成多項(xiàng)任務(wù)來測試LucidSim的性能,包括找到一個(gè)交通錐或足球,爬過一個(gè)箱子,以及上下樓梯。結(jié)果顯示,機(jī)器人使用 LucidSim 時(shí)的表現(xiàn)明顯優(yōu)于使用傳統(tǒng)模擬系統(tǒng)時(shí)的表現(xiàn)。在尋找交通錐的 20 次測試中,LucidSim 實(shí)現(xiàn)了 100% 的成功率,而使用傳統(tǒng)模擬系統(tǒng)的成功率僅為 70%。同樣,在另一組 20 次找到足球的測試中,LucidSim 的成功率為 85%,而傳統(tǒng)系統(tǒng)僅為 35%。
最后,當(dāng)機(jī)器人運(yùn)行 LucidSim 時(shí),它在所有 10 次樓梯攀爬測試中都成功完成了任務(wù),而傳統(tǒng)系統(tǒng)的成功率僅為 50%。
來源:MIT Technology Review | 從左到右:Phillip Isola, Ge Yang, and Alan Yu
“如果 LucidSim 能夠直接利用先進(jìn)的生成式視頻模型,而不是現(xiàn)在這種語言、圖像和物理模型的拼接組合,未來的結(jié)果可能會進(jìn)一步改善,”MIT 副教授 Phillip Isola說,他參與了這項(xiàng)研究。
紐約大學(xué)博士生 Mahi Shafiullah 也表示,研究人員采用生成式 AI 的方式是一種新穎的嘗試,將為更多有趣的新研究鋪平道路。他目前使用 AI 模型訓(xùn)練機(jī)器人,但并未參與該項(xiàng)目。他補(bǔ)充道:“在我看來,更有趣的方向是結(jié)合真實(shí)數(shù)據(jù)和逼真的‘想象’數(shù)據(jù),這樣可以幫助我們現(xiàn)有的依賴數(shù)據(jù)的方法更快更好地?cái)U(kuò)展。”
華為的資深研究科學(xué)家 Zafeirios Fountas,專注于腦啟發(fā)式 AI,他指出,能夠完全基于 AI 生成的情境和場景從零開始訓(xùn)練機(jī)器人是一個(gè)重要成就,其影響可能不僅限于機(jī)器,還能擴(kuò)展到更廣泛的通用 AI 智能體。
“這里‘機(jī)器人’的定義非常廣泛,我們談?wù)摰氖侨魏我环N與現(xiàn)實(shí)世界交互的 AI,”Fountas 說。“我可以想象這一技術(shù)被用于控制各種視覺信息,從機(jī)器人和自動(dòng)駕駛汽車到電腦屏幕或智能手機(jī)的操作!
關(guān)于下一步研究,作者計(jì)劃嘗試使用完全合成的數(shù)據(jù)訓(xùn)練人形機(jī)器人。他們承認(rèn)這是一個(gè)雄心勃勃的目標(biāo),因?yàn)殡p足機(jī)器人通常比四足機(jī)器人更不穩(wěn)定。他們還將目光投向另一個(gè)新挑戰(zhàn):利用 LucidSim 訓(xùn)練用于工廠和廚房的機(jī)器人手臂。這些任務(wù)需要比在場景中奔跑更高的靈活性和物理理解能力。
“例如實(shí)際拿起一杯咖啡并將其倒出,這是一個(gè)非常困難且尚未解決的開放性問題,”Isola 說!叭绻覀兡軌蚶蒙墒 AI 增強(qiáng)的模擬來創(chuàng)造大量的多樣性,并訓(xùn)練出一個(gè)能夠在咖啡館中操作的非常強(qiáng)大的智能體,我覺得那將非?。”
原文鏈接:
https://www.technologyreview.com/2024/11/12/1106811/generative-ai-taught-a-robot-dog-to-scramble-around-a-new-environment/