原文作者:Elizabeth Gibney
人工智能與機器人技術(shù)交匯融合,相互助力實現(xiàn)飛速發(fā)展。
美國Figure公司開發(fā)的人形機器人使用了OpenAI的語言視覺模型。圖片來源:AP Photo/Jae C. Hong/Alamy
對于看著《星球大戰(zhàn)》長大的這一代科學(xué)家來說,屋里屋外仍見不到如C-3PO般智能的機器人,實在令人失望。那些能夠在工作生活中為我們提供幫助的人形機器人,到底何時才能出現(xiàn)呢?
人工智能技術(shù)的快速發(fā)展或能填補這一空白。美國斯坦福大學(xué)機器學(xué)習(xí)和機器人研究人員Alexander Khazatsky說:“如果下一代人就能目睹那些科幻場景變?yōu)楝F(xiàn)實,我也絲毫不會感到驚訝。”
從OpenAI到谷歌DeepMind,幾乎所有人工智能領(lǐng)域的科技巨頭,都在致力于將支持聊天機器人的多功能學(xué)習(xí)算法(即基礎(chǔ)模型)引入機器人領(lǐng)域,從而使機器人具備常識,有能力處理各種任務(wù)。許多研究人員認(rèn)為,未來機器人功能將更強大,反應(yīng)將更迅速。美國科技公司英偉達(dá)的機器人營銷經(jīng)理Gerard Andrews說:“我們相信機器人行業(yè)將迎來巨大變革。”今年三月,英偉達(dá)公司發(fā)布了用于人形機器人的通用人工智能模型。
與此同時,機器人還能促進(jìn)人工智能的發(fā)展。許多研究人員希望,在人工智能訓(xùn)練中,通過引入環(huán)境互動實現(xiàn)“人工通用智能”,即人工智能在處理各項任務(wù)時展現(xiàn)出類似人類的認(rèn)知能力。美國Meta公司的人工智能研究員Akshara Rai說:“具身智能是通向真正智能的最后一步。”
不過,盡管許多研究人員對將人工智能引入機器人行業(yè)感到興奮,但他們也提醒說,一些看著很厲害的演示也僅僅只是演示而已,往往是希望引發(fā)熱議的公司所為。美國麻省理工學(xué)院的機器人專家Rodney Brooks認(rèn)為,從演示到實際應(yīng)用,任重而道遠(yuǎn)。其公司iRobot研發(fā)了Roomba掃地機器人。
人工智能與機器人融合之路阻礙重重,例如,需要收集大量合適的數(shù)據(jù)供機器人學(xué)習(xí),解決硬件穩(wěn)定性以及安全性等問題。新加坡國立大學(xué)人機互動專家Harold Soh認(rèn)為,“應(yīng)該探索”用于機器人的基礎(chǔ)模型。然而,這能否像一些研究人員所愿觸發(fā)機器人行業(yè)的革命,他對此持保留態(tài)度。
堅實的基礎(chǔ)
機器人這個詞的內(nèi)涵包括了各種自動化設(shè)備,從廣泛用于制造業(yè)的機械臂,到自動駕駛汽車和用于戰(zhàn)爭和救援任務(wù)的無人機。多數(shù)機器人都不同程度地應(yīng)用了人工智能技術(shù),例如物體識別。美國機器人公司創(chuàng)新中心MassRobotics的聯(lián)合創(chuàng)始人Joyce Sidopoulos指出,這些機器人一般用于執(zhí)行特定任務(wù),在特定環(huán)境中工作,或在一定程度上還需要人工控制。美國機器人公司Boston Dynamics研發(fā)的機器人Atlas,曾在2018年展示了令人驚嘆的跑酷技能。然而,即使是Atlas,也需要在全面探測周邊環(huán)境后,基于內(nèi)置模板庫選擇最佳行動方案。
大多數(shù)涉足機器人領(lǐng)域的人工智能專家,希望研發(fā)出行動更自主、適應(yīng)性更強的機器人。Sidopoulos說,他們的工作可能始于工廠“取放”產(chǎn)品的機械臂,最終或能研發(fā)出為老年人提供陪伴和支持的人形機器人,“應(yīng)用領(lǐng)域非常廣泛。”
人形機器人在設(shè)計上很復(fù)雜,而且可能不適用于某些任務(wù),但它有一個巨大優(yōu)勢,即完美融入人類構(gòu)建的世界,像人一樣與周圍的環(huán)境互動。
然而,控制機器人非常困難,人形機器人尤甚。那些看似簡單的任務(wù),比如開個門,實際上卻非常復(fù)雜,要求機器人了解門開合的不同機制,對把手施力大小,以及如何在這個過程中保持平衡,F(xiàn)實世界變化不僅多端,而且持續(xù)變化著。
目前流行的機器人控制方式,是使用驅(qū)動ChatGPT等聊天機器人和圖像生成器的人工智能基礎(chǔ)模型。這類模型基于類似大腦的神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)大量通用數(shù)據(jù)。它們將訓(xùn)練數(shù)據(jù)的不同元素相互關(guān)聯(lián),收到輸出指令時,利用這些關(guān)聯(lián)生成恰當(dāng)?shù)膯卧~或圖像,結(jié)果往往令人驚嘆。
同樣,機器人基礎(chǔ)模型也通過互聯(lián)網(wǎng)上的文本和圖像進(jìn)行訓(xùn)練,獲取物體性質(zhì)及環(huán)境等信息。它還能從機器人操作實例中學(xué)習(xí)。例如,觀看視頻中機器人根據(jù)指令反復(fù)嘗試或人類遠(yuǎn)程操作機器人,輔以相應(yīng)指令,可用于訓(xùn)練機器人基礎(chǔ)模型。經(jīng)過訓(xùn)練的機器人基礎(chǔ)模型可以觀察場景,并利用所學(xué)來預(yù)測什么操作能帶來最佳結(jié)果。
谷歌DeepMind公司研發(fā)的的機器人基礎(chǔ)模型Robotic Transformer 2 (RT-2) 處于業(yè)內(nèi)領(lǐng)先水平,可用于操作其姊妹公司Everyday Robots打造的移動機械臂。同其它機器人基礎(chǔ)模型一樣,它也是用互聯(lián)網(wǎng)和機器人操作視頻進(jìn)行訓(xùn)練的。得益于線上訓(xùn)練,即使指令超出視頻學(xué)習(xí)范圍,RT-2也可以完成指令[1]。例如,它可以按照指令將飲料罐放到泰勒斯威夫特的照片上,盡管RT-2觀看的13萬個操作示例中并沒有出現(xiàn)過這位明星的圖像。
換言之,機器人能將從互聯(lián)網(wǎng)中獲取的知識(比如歌手泰勒斯威夫特的長相)應(yīng)用于操作中。美國谷歌DeepMind公司的人工智能和機器人研究員 Keerthana Gopalakrishnan指出,“機器人能夠遷移應(yīng)用由互聯(lián)網(wǎng)習(xí)得的概念”,這從根本上減少了機器人為應(yīng)對不同情況而需要學(xué)習(xí)的數(shù)據(jù)量。
然而,要完全理解動作的基本原理及其影響,機器人仍需學(xué)習(xí)大量操作實例。問題就在這里。
數(shù)據(jù)匱乏
聊天機器人可通過互聯(lián)網(wǎng)中浩如煙海的詞匯進(jìn)行訓(xùn)練,但我們無法找到同等量級的機器人行為的數(shù)據(jù)。Khazatsky說,數(shù)據(jù)的缺乏讓機器人技術(shù)止步不前。
一個辦法是收集數(shù)據(jù)。Khazatsky和同事創(chuàng)建了開源數(shù)據(jù)集DROID[2],收錄全球18個實驗室遠(yuǎn)程操作德國Franka Robotics公司制造的Franka Panda 7DoF機械臂的視頻,時常約350小時。這些視頻以機器人視角錄制,操作環(huán)境包括浴室、洗衣房、臥室和廚房等。Khazatsky說,場景的多樣性有助于機器人出色完成未曾接觸過的任務(wù)。
接到指令“找出滅絕的動物”后,谷歌 RT-2機器人從桌上一堆物品中選擇了恐龍玩具。圖片來源:谷歌DeepMind
Gopalakrishnan參與了十余個實驗室的聯(lián)合項目,致力于收集從單機械臂到四機械臂等多種形態(tài)的機器人數(shù)據(jù)。他們認(rèn)為,學(xué)習(xí)一類機器人與現(xiàn)實世界交互的經(jīng)驗,有助于人工智能操控其它類型的機器人,就像學(xué)習(xí)英語可以幫助語言模型生成中文,因為不同語言所描述世界的基本概念是相同的。這似乎是可行的。該項目研發(fā)的基礎(chǔ)模型RT-X已于2023年10月發(fā)布[3],與基于單一機器人架構(gòu)訓(xùn)練的模型相比,它在實際任務(wù)中表現(xiàn)更出色。
許多研究人員表示,這種多樣性至關(guān)重要。人工智能專家、美國人工智能公司Covariant聯(lián)合創(chuàng)始人陳曦(Peter Chen)說:“我們認(rèn)為,真正的機器人基礎(chǔ)模型不應(yīng)該只囿于一種機器人形態(tài)。”
Covariant也在努力擴大機器人數(shù)據(jù)庫規(guī)模。該公司由前OpenAI研究人員參與創(chuàng)建,他們自2018 年開始收集30種機械臂的數(shù)據(jù)。這些機械臂來自全球各地的倉庫,均使用Covariant的軟件。Covariant的Robotics Foundation Model 1(RFM-1)采集的數(shù)據(jù)不僅有視頻,還包括貨物重量、施力大小等傳感器讀數(shù)。Gopalakrishnan解釋,理論上,這類數(shù)據(jù)有助于機器人處理柔軟的物體,例如使它學(xué)會避免擠壓香蕉。
Covariant建立了一個專有數(shù)據(jù)庫,數(shù)據(jù)量達(dá)到數(shù)千億token(現(xiàn)實世界的機器人信息單位)。陳曦介紹,這與OpenAI 2020年發(fā)布的大語言模型GPT-3的訓(xùn)練數(shù)據(jù)規(guī)模相當(dāng)。他說:“我們擁有的這類數(shù)據(jù)最多,這是我們一直以來關(guān)注的重點。”陳曦表示, RFM-1即將發(fā)布,屆時搭載Covariant軟件的機器人的操作員,就可以用文字或語音發(fā)布一般性指令,例如“從儲藏箱中取出蘋果”。
另一種獲取大量動作類視頻的方法針對于人形機器人,讓人工智能通過觀看真人視頻來學(xué)習(xí)網(wǎng)絡(luò)上能找到數(shù)以十億計的真人視頻。Andrews舉例說,英偉達(dá)公司的GR00T基礎(chǔ)模型正在學(xué)習(xí)人類執(zhí)行各種任務(wù)的視頻。Gopalakrishnan說,盡管模仿人類有望提高機器人技能,但這并非易事。她解釋道,機器人視頻一般都附有背景介紹和對應(yīng)指令等信息,而真人視頻則沒有。
虛擬現(xiàn)實
研究人員說,獲取交互數(shù)據(jù)的最后一個可行方法是模擬。許多機器人專家正在研究建立三維虛擬現(xiàn)實環(huán)境,其物理機制與真實世界類似,然后將其連接到機器人大腦進(jìn)行訓(xùn)練。模擬器可以產(chǎn)生大量數(shù)據(jù),讓人類和機器人在罕見或危險的虛擬場景中互動,這樣既沒有風(fēng)險,也不會造成機械損傷。英偉達(dá)公司的Andrews說:“如果你有大量機械臂,想通過實操練習(xí)讓它們變得靈活,那電機恐怕要過熱報廢了。”
然而,打造性能優(yōu)良的模擬器也不容易。Khazatsky說:“模擬器物理特性優(yōu)良,但還達(dá)不到完美的程度,要模擬多樣化的場景,難度幾乎與收集多樣化的數(shù)據(jù)相當(dāng)。”
Meta和英偉達(dá)公司都押注通過模擬增加機器人數(shù)據(jù)。他們分別建立了復(fù)雜的模擬世界Habitat和Isaac Sim。在這些模擬世界中,機器人在數(shù)小時內(nèi)就能獲得在真實世界數(shù)年才能積累的經(jīng)驗,然后在試驗中成功利用所學(xué)應(yīng)對現(xiàn)實世界中從未遇到過的情況。Rai說:“模擬是推動機器人技術(shù)發(fā)展的強大工具,但卻未得到足夠的重視,我很高興看到它的發(fā)展勢頭越來越好。”
許多研究人員認(rèn)為,基礎(chǔ)模型能夠制造出可替代人工的通用機器人。今年二月,美國機器人公司 Figure獲得6.75億美元投資,用于研發(fā)搭載OpenAI語言視覺模型的通用人形機器人。在一段展示視頻中,機器人得到“給我一些食物”的模糊請求后,給人拿來了一個蘋果。這段視頻在X(前身為 Twitter)上的點擊量已達(dá)480萬次。
這個機器人的基礎(chǔ)模型是如何訓(xùn)練的,它在不同環(huán)境中具體表現(xiàn)如何,目前尚不清楚(OpenAI 和Figure都未回應(yīng)《自然》的采訪請求)。Soh認(rèn)為應(yīng)謹(jǐn)慎對待這種展示。他說,視頻中的環(huán)境非?諘。提高環(huán)境的復(fù)雜度可能會讓機器人感到困擾,就像自動駕駛汽車難以應(yīng)對復(fù)雜路況。Soh說:“作為機器人的研究者,我們有理由對這類視頻持保留態(tài)度。作為制作者,我們知道100次拍攝通常只能成功一次。”
前路的挑戰(zhàn)
人工智能專家在機器人大腦研發(fā)領(lǐng)域突破不斷,但機器人行業(yè)有人指出硬件也是一個挑戰(zhàn):機器人設(shè)計復(fù)雜,而且經(jīng)常損壞。陳曦說,硬件雖在升級,但“很多人只看到基礎(chǔ)模型的發(fā)展前景,卻不知道打造這類機器人有多困難。”
另一個問題是,使用視覺數(shù)據(jù)完成大多數(shù)交互訓(xùn)練的機器人基礎(chǔ)模型,到底可以走多遠(yuǎn)。Soh指出,機器人可能需要大量其他類型的感覺數(shù)據(jù),例如觸覺或本體感覺(身體在空間中的位置感)。目前還沒有這樣的數(shù)據(jù)集。他說:“我認(rèn)為,這些缺失的數(shù)據(jù),對人形機器人在真實環(huán)境中高效工作是必需的。”
將基礎(chǔ)模型應(yīng)用于真實世界還面臨著另一個重大挑戰(zhàn)安全性。近兩年,大語言模型大量涌現(xiàn),人們發(fā)現(xiàn)它們會提供錯誤和有偏見的信息。它們還可能受到誘導(dǎo)做程序禁止的事情,比如告訴用戶如何制作炸彈。賦予人工智能一個軀體,就會把這類錯誤引入真實世界,產(chǎn)生威脅。Gopalakrishnan說:“如果機器人出錯,會傷到人、弄壞東西,或造成損害。”
Gopalakrishnan介紹,機器人行業(yè)將借鑒人工智能安全領(lǐng)域的寶貴經(jīng)驗。此外,她的團(tuán)隊還為一些機器人人工智能模型設(shè)置了等級高于學(xué)習(xí)的規(guī)則,例如不要嘗試與人、動物或其它生物體互動的任務(wù)。她說:“在我們對機器人有信心之前,需要大量的人類監(jiān)管。”
盡管存在風(fēng)險,但人工智能和機器人技術(shù)的融合和促進(jìn)方興未艾。Gopalakrishnan認(rèn)為,將人工智能大腦與實體機器人關(guān)聯(lián),可以改善基礎(chǔ)模型,例如讓它們具備更好的空間推理能力。Rai說,一些研究人員認(rèn)為“真正的智能只能產(chǎn)生于與真實世界的互動之中”,Meta正是踐行者之一。有人說,現(xiàn)實世界中的互動,能讓人工智能不再囿于學(xué)習(xí)模式和預(yù)測,真正理解這個世界并進(jìn)行推理。
未來如何,尚無定論。Brooks認(rèn)為,機器人會不斷改進(jìn)并應(yīng)用于新的領(lǐng)域,但這些應(yīng)用終究不如人形機器人替代人類勞動來得吸引人。然而,也有人認(rèn)為,研發(fā)出實用安全的人形機器人,幫人做晚飯、跑腿和疊衣服是可能的,只不過可能要花費數(shù)億美元。Khazatsky說:“我相信有人能成功的。就是要花上大量的金錢,還有時間。”
原文以The AI revolution is coming to robots: how will it change them?標(biāo)題發(fā)表在2024年5月28日《自然》的新聞特寫版塊上
nature