火爆全網(wǎng)的Mobile Aloha如何做到“眼里有活”?研發(fā)者揭秘稱,背后離不開系統(tǒng)的支持。一是遠程操作系統(tǒng),二是高性能數(shù)據(jù)利用管道。不過,研發(fā)者也提到,Mobile Aloha在軟件方面還不能自主改進或探索獲取新知識,泛化能力還不行,沒法做到舉一反三。
你“眼里有活兒”嗎?不然還不如機器人。比如,這位。
視頻里,一個雙臂機器人站在灶臺邊,化身大廚,熟練使用鍋鏟、廚具,又是煎又是炸,烹制出了蛋蝦仁、干貝燒雞和蠔油生菜。收拾殘羹冷炙,清洗餐具,也可以。它還能澆花、拖地板、開瓶蓋,甚至逗貓貓。
當?shù)貢r間1月4日,斯坦福大學(xué)人工智能實驗室計算機科學(xué)專業(yè)的博士生符梓鵬在社交媒體平臺X上向網(wǎng)友介紹了這款名為Mobile Aloha的機器人。瀏覽量很快達到147萬,Mobile Aloha也成了科技圈“紅人”。
不過,Mobile Aloha有時也會“犯蠢”。
火爆全網(wǎng)的斯坦福家務(wù)機器人也會“犯蠢”。(01:19)
1月6日,另一位研究團隊成員、斯坦福大學(xué)博士生托尼趙(Tony Z. Zhao)在社交媒體平臺展示了它的另一面。它看起來“笨手笨腳”,鍋都放不進櫥柜里,炒完的蝦粘鍋不說,連碗的位置也找不到。托尼趙開玩笑地在社交媒體上留言稱“機器人還沒有做好準備接管這個世界”。
另一位研發(fā)者TonyZ.Zhao在社交媒體平臺X上發(fā)布Mobile Aloha“犯蠢”視頻。
公開資料顯示,Mobile的研究團隊共有3人。符梓鵬和托尼趙負責硬件、軟件和AI算法的開發(fā),斯坦福大學(xué)助理教授切爾西費恩(Chelsea Finn)擔任指導(dǎo)老師。這款家務(wù)機器人制作成本約為3.2萬美元,可以執(zhí)行家務(wù)勞動、廚房工作和與人打招呼、握手等活動。
1月17日,符梓鵬在接受澎湃科技(www.thepaper.cn)采訪時坦言,目前Mobile Aloha沒有任何商業(yè)計劃。“我們公開視頻和研究資料是希望能夠推動機器人領(lǐng)域的發(fā)展,吸引更多人才進入這個行業(yè),解決非常多尚未解決的科學(xué)和工程難題。”
斯坦福家務(wù)機器人研發(fā)者之一符梓鵬。 來源:本人社交媒體賬號
符梓鵬的研究興趣集中在機器人技術(shù)、機器學(xué)習(xí)和計算機視覺的交叉領(lǐng)域。他在接受澎湃科技采訪時稱,Mobile Aloha“眼里有活兒”的背后離不開系統(tǒng)的支持,不過,泛化能力還不行,沒法做到舉一反三,比如無法在一個廚房學(xué)會做事后,在另一個沒見過的廚房做相同的事情。
Mobile Aloha“眼里有活”的背后離不開系統(tǒng)的支持
澎湃科技:很多人都看過Mobile Aloha令人印象深刻的視頻。這款機器人取名為Aloha有什么寓意?
符梓鵬:Mobile,是可以移動的。Aloha,是“A Low-cost Open-source Hardware System for Bimanual Teleoperation”,用于雙手遠程操作的低成本開源硬件系統(tǒng)。
我們認為,“low cost”低成本對于機器人的普及非常重要,“open-source”開源系統(tǒng)有助于推動機器人領(lǐng)域的發(fā)展。
Mobile Aloha“眼里有活”的背后離不開系統(tǒng)的支持。一是遠程操作系統(tǒng),以直觀的方式對復(fù)雜任務(wù)的數(shù)據(jù)進行收集,如煮蝦、疊衣服。二是高性能數(shù)據(jù)利用管道,幫助模仿學(xué)習(xí)。
澎湃科技:Mobile Aloha目前主要的應(yīng)用場景集中在日常家務(wù)活動中,為何要將場景設(shè)定在廚房、家務(wù)中?研發(fā)的初衷有哪些?
符梓鵬:我們希望未來智能機器人真的能每天都幫助人類。
澎湃科技:該系統(tǒng)使用名為Action Chunking with Transformers(ACT)的算法。它與Generative Pre-trained Transformers(GPT)相比有何不同?
符梓鵬:GPT是自然語言模型。ACT是機器人模型。兩者都使用Transformer,具有相似的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
澎湃科技:在研發(fā)這款機器人的過程中,你面臨的最大的技術(shù)挑戰(zhàn)是什么?最重要的突破是什么?
符梓鵬:技術(shù)挑戰(zhàn)是雙重的。從硬件上來說,過去,研究人員大多依賴于從制造商那里購買昂貴的現(xiàn)成的移動操作機器人(指能夠在環(huán)境中移動和操作物體的機器人),找不到既低成本、直觀又功能強大的移動操作機器人/家用機器人。
為了解決這兩個難題,我們組裝了自己的硬件,并通過使用Aloha進行雙手操縱和推動其移動,設(shè)計了高質(zhì)量、低成本的遠程操縱系統(tǒng)。我們構(gòu)建的硬件能夠遠程操控機器人完成復(fù)雜的家庭/辦公任務(wù),而這些任務(wù)在以前是不可能完成的。詳情請參見我們項目網(wǎng)站的“遠程操控”部分。通過使用這些硬件,我們擁有了高質(zhì)量數(shù)據(jù)收集管道。
過去,人們主要通過編程明確家用機器人的行為來完成任務(wù)。比如,編程讓機器人先走到冰箱附近,然后停下來,再移動手臂去拿蘋果等。要讓機器人可靠地完成現(xiàn)實世界中的任務(wù),需要進行大量的編程和手動調(diào)整,而這是無法擴展的。
我們采用數(shù)據(jù)驅(qū)動的人工智能方法,利用人類的演示數(shù)據(jù)來教授機器人(即模仿學(xué)習(xí))。我們在項目網(wǎng)站的“自主技能”部分展示了模仿學(xué)習(xí)和協(xié)同訓(xùn)練技術(shù)的效果,只需使用大約50次演示(大約1小時的人類數(shù)據(jù)),就能教會機器人新的自主技能。通過使用這種軟件/人工智能方法,我們擁有了高質(zhì)量數(shù)據(jù)利用的管道。
更重要的是,我們將硬件和軟件一起設(shè)計,一方面硬件的數(shù)據(jù)收集管道能夠與軟件很好地協(xié)同工作,另一方面軟件的訓(xùn)練模型與硬件配合良好,并可部署到硬件上。
澎湃科技:在Mobile Aloha中,我們觀察到了模仿學(xué)習(xí)(imitation learning)在指導(dǎo)機器人執(zhí)行高度復(fù)雜的類人任務(wù)方面的有效性。然而,強化學(xué)習(xí)(reinforcement learning)在同樣目的上的應(yīng)用卻沒有取得可比的成功結(jié)果。在你看來,哪種學(xué)習(xí)機制在這一領(lǐng)域更有前景?
符梓鵬:模仿學(xué)習(xí)和強化學(xué)習(xí)對機器人技術(shù)都很有用。模仿學(xué)習(xí)可以有效地利用人類的教學(xué),獲得高性能的自主機器人技能。強化學(xué)習(xí)對于要求機器人通過自動練習(xí)、自主微調(diào)和改進技能而不需要太多人類知識非常有價值。
現(xiàn)在泛化能力不行,沒法做到舉一反三
澎湃科技:Mobile Aloha是斯坦福大學(xué)(你的團隊)和Google DeepMind合作開發(fā)的。你們在這次合作中各自扮演了什么角色?
符梓鵬:澄清一下,盡管托尼和切爾西目前就職于Google DeepMind,我曾經(jīng)也是,但Mobile Aloha項目嚴格來說是斯坦福大學(xué)的項目。我和托尼負責硬件、軟件和AI算法的開發(fā),切爾西是指導(dǎo)老師。
澎湃科技:論文提到,在軟件方面,當下機器人還不能自主改進或探索獲取新知識,“對于如何從高度次優(yōu)的異構(gòu)數(shù)據(jù)集中進行模仿學(xué)習(xí),將留待未來的工作來解決。”請問這里如何理解?通俗來說,今后是否有可能會讓Mobile Aloha有“大腦”和“小腦”?
符梓鵬:現(xiàn)在Mobile Aloha的泛化能力還不行,沒法做到舉一反三,比如無法在一個廚房學(xué)會做事后,在另一個沒見過的廚房做相同的事情。
澎湃科技:在Mobile Aloha完成的各種任務(wù)中,有些是通過遠程操作完成的,有些是通過模仿學(xué)習(xí)自主完成的。在未來的發(fā)展中,你打算如何平衡控制和自主學(xué)習(xí)?
符梓鵬:我們希望機器人在收集足夠的數(shù)據(jù)后,能夠自主完成遠程操作視頻中顯示的所有任務(wù)。
澎湃科技:為什么選擇將硬件和算法完全開源公開?
符梓鵬:第一是希望為公眾利益推動現(xiàn)實世界機器人領(lǐng)域的研究,第二是希望吸引更多的人從事家用/辦公/廚房機器人的研究,以解決非常多尚未解決的科學(xué)和工程難題。我們目前還沒有任何商業(yè)計劃。
澎湃科技:Mobile Aloha的預(yù)算只有2萬美元。如果你有更多的預(yù)算和資源,你的下一個研究目標是什么?
符梓鵬:如果有更多的預(yù)算,我們可以嘗試增加更多的傳感器,包括觸覺和觸感設(shè)備。
澎湃科技:自2023年人工智能成為全球焦點以來,關(guān)于人工智能倫理的爭論一直很激烈。如果人工智能訓(xùn)練不當,可能會對人類社會造成潛在危害。對于人形機器人來說,可能會給人類社會帶來更大的風險。作為一名開發(fā)者,你是如何防止這種情況發(fā)生的?
符梓鵬:包括人形機器人在內(nèi)的機器人距離實現(xiàn)對人類社會構(gòu)成威脅的通用智能行為還很遙遠。