黄色视频大全导航在线精品 ,中文字幕亚洲欧美,国产一国产最新一级毛片

導(dǎo)讀：原文作者：Elizabeth Gibney 人工智能與機器人技術(shù)交匯融合，相互助力實現(xiàn)飛速發(fā)展。美國Figure公司開發(fā)的人形機器人使用了OpenAI的語言視覺模型。圖片來源：AP Photo/Jae C. Hong/Alamy 對于看著《星球大戰(zhàn)》長大的這一代科學(xué)家來說，屋里屋外仍見不到如C-...

原文作者：Elizabeth Gibney

人工智能與機器人技術(shù)交匯融合，相互助力實現(xiàn)飛速發(fā)展。

幫人做晚飯、跑腿和疊衣服，AI可以幫助機器人做到這些嗎？ |《自然》長文

美國Figure公司開發(fā)的人形機器人使用了OpenAI的語言視覺模型。圖片來源：AP Photo/Jae C. Hong/Alamy

對于看著《星球大戰(zhàn)》長大的這一代科學(xué)家來說，屋里屋外仍見不到如C-3PO般智能的機器人，實在令人失望。那些能夠在工作生活中為我們提供幫助的人形機器人，到底何時才能出現(xiàn)呢？

人工智能技術(shù)的快速發(fā)展或能填補這一空白。美國斯坦福大學(xué)機器學(xué)習(xí)和機器人研究人員Alexander Khazatsky說：“如果下一代人就能目睹那些科幻場景變?yōu)楝F(xiàn)實，我也絲毫不會感到驚訝。”

從OpenAI到谷歌DeepMind，幾乎所有人工智能領(lǐng)域的科技巨頭，都在致力于將支持聊天機器人的多功能學(xué)習(xí)算法（即基礎(chǔ)模型）引入機器人領(lǐng)域，從而使機器人具備常識，有能力處理各種任務(wù)。許多研究人員認(rèn)為，未來機器人功能將更強大，反應(yīng)將更迅速。美國科技公司英偉達(dá)的機器人營銷經(jīng)理Gerard Andrews說：“我們相信機器人行業(yè)將迎來巨大變革。”今年三月，英偉達(dá)公司發(fā)布了用于人形機器人的通用人工智能模型。

與此同時，機器人還能促進(jìn)人工智能的發(fā)展。許多研究人員希望，在人工智能訓(xùn)練中，通過引入環(huán)境互動實現(xiàn)“人工通用智能”，即人工智能在處理各項任務(wù)時展現(xiàn)出類似人類的認(rèn)知能力。美國Meta公司的人工智能研究員Akshara Rai說：“具身智能是通向真正智能的最后一步。”

不過，盡管許多研究人員對將人工智能引入機器人行業(yè)感到興奮，但他們也提醒說，一些看著很厲害的演示也僅僅只是演示而已，往往是希望引發(fā)熱議的公司所為。美國麻省理工學(xué)院的機器人專家Rodney Brooks認(rèn)為，從演示到實際應(yīng)用，任重而道遠(yuǎn)。其公司iRobot研發(fā)了Roomba掃地機器人。

人工智能與機器人融合之路阻礙重重，例如，需要收集大量合適的數(shù)據(jù)供機器人學(xué)習(xí)，解決硬件穩(wěn)定性以及安全性等問題。新加坡國立大學(xué)人機互動專家Harold Soh認(rèn)為，“應(yīng)該探索”用于機器人的基礎(chǔ)模型。然而，這能否像一些研究人員所愿觸發(fā)機器人行業(yè)的革命，他對此持保留態(tài)度。

堅實的基礎(chǔ)

機器人這個詞的內(nèi)涵包括了各種自動化設(shè)備，從廣泛用于制造業(yè)的機械臂，到自動駕駛汽車和用于戰(zhàn)爭和救援任務(wù)的無人機。多數(shù)機器人都不同程度地應(yīng)用了人工智能技術(shù)，例如物體識別。美國機器人公司創(chuàng)新中心MassRobotics的聯(lián)合創(chuàng)始人Joyce Sidopoulos指出，這些機器人一般用于執(zhí)行特定任務(wù)，在特定環(huán)境中工作，或在一定程度上還需要人工控制。美國機器人公司Boston Dynamics研發(fā)的機器人Atlas，曾在2018年展示了令人驚嘆的跑酷技能。然而，即使是Atlas，也需要在全面探測周邊環(huán)境后，基于內(nèi)置模板庫選擇最佳行動方案。

大多數(shù)涉足機器人領(lǐng)域的人工智能專家，希望研發(fā)出行動更自主、適應(yīng)性更強的機器人。Sidopoulos說，他們的工作可能始于工廠“取放”產(chǎn)品的機械臂，最終或能研發(fā)出為老年人提供陪伴和支持的人形機器人，“應(yīng)用領(lǐng)域非常廣泛。”

人形機器人在設(shè)計上很復(fù)雜，而且可能不適用于某些任務(wù)，但它有一個巨大優(yōu)勢，即完美融入人類構(gòu)建的世界，像人一樣與周圍的環(huán)境互動。

然而，控制機器人非常困難，人形機器人尤甚。那些看似簡單的任務(wù)，比如開個門，實際上卻非常復(fù)雜，要求機器人了解門開合的不同機制，對把手施力大小，以及如何在這個過程中保持平衡�，F(xiàn)實世界變化不僅多端，而且持續(xù)變化著。

目前流行的機器人控制方式，是使用驅(qū)動ChatGPT等聊天機器人和圖像生成器的人工智能基礎(chǔ)模型。這類模型基于類似大腦的神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)大量通用數(shù)據(jù)。它們將訓(xùn)練數(shù)據(jù)的不同元素相互關(guān)聯(lián)，收到輸出指令時，利用這些關(guān)聯(lián)生成恰當(dāng)?shù)膯卧~或圖像，結(jié)果往往令人驚嘆。

同樣，機器人基礎(chǔ)模型也通過互聯(lián)網(wǎng)上的文本和圖像進(jìn)行訓(xùn)練，獲取物體性質(zhì)及環(huán)境等信息。它還能從機器人操作實例中學(xué)習(xí)。例如，觀看視頻中機器人根據(jù)指令反復(fù)嘗試或人類遠(yuǎn)程操作機器人，輔以相應(yīng)指令，可用于訓(xùn)練機器人基礎(chǔ)模型。經(jīng)過訓(xùn)練的機器人基礎(chǔ)模型可以觀察場景，并利用所學(xué)來預(yù)測什么操作能帶來最佳結(jié)果。

谷歌DeepMind公司研發(fā)的的機器人基礎(chǔ)模型Robotic Transformer 2 (RT-2) 處于業(yè)內(nèi)領(lǐng)先水平，可用于操作其姊妹公司Everyday Robots打造的移動機械臂。同其它機器人基礎(chǔ)模型一樣，它也是用互聯(lián)網(wǎng)和機器人操作視頻進(jìn)行訓(xùn)練的。得益于線上訓(xùn)練，即使指令超出視頻學(xué)習(xí)范圍，RT-2也可以完成指令[1]。例如，它可以按照指令將飲料罐放到泰勒斯威夫特的照片上，盡管RT-2觀看的13萬個操作示例中并沒有出現(xiàn)過這位明星的圖像。

換言之，機器人能將從互聯(lián)網(wǎng)中獲取的知識（比如歌手泰勒斯威夫特的長相）應(yīng)用于操作中。美國谷歌DeepMind公司的人工智能和機器人研究員 Keerthana Gopalakrishnan指出，“機器人能夠遷移應(yīng)用由互聯(lián)網(wǎng)習(xí)得的概念”，這從根本上減少了機器人為應(yīng)對不同情況而需要學(xué)習(xí)的數(shù)據(jù)量。

然而，要完全理解動作的基本原理及其影響，機器人仍需學(xué)習(xí)大量操作實例。問題就在這里。

數(shù)據(jù)匱乏

聊天機器人可通過互聯(lián)網(wǎng)中浩如煙海的詞匯進(jìn)行訓(xùn)練，但我們無法找到同等量級的機器人行為的數(shù)據(jù)。Khazatsky說，數(shù)據(jù)的缺乏讓機器人技術(shù)止步不前。

一個辦法是收集數(shù)據(jù)。Khazatsky和同事創(chuàng)建了開源數(shù)據(jù)集DROID[2]，收錄全球18個實驗室遠(yuǎn)程操作德國Franka Robotics公司制造的Franka Panda 7DoF機械臂的視頻，時常約350小時。這些視頻以機器人視角錄制，操作環(huán)境包括浴室、洗衣房、臥室和廚房等。Khazatsky說，場景的多樣性有助于機器人出色完成未曾接觸過的任務(wù)。

幫人做晚飯、跑腿和疊衣服，AI可以幫助機器人做到這些嗎？ |《自然》長文

接到指令“找出滅絕的動物”后，谷歌 RT-2機器人從桌上一堆物品中選擇了恐龍玩具。圖片來源：谷歌DeepMind

Gopalakrishnan參與了十余個實驗室的聯(lián)合項目，致力于收集從單機械臂到四機械臂等多種形態(tài)的機器人數(shù)據(jù)。他們認(rèn)為，學(xué)習(xí)一類機器人與現(xiàn)實世界交互的經(jīng)驗，有助于人工智能操控其它類型的機器人，就像學(xué)習(xí)英語可以幫助語言模型生成中文，因為不同語言所描述世界的基本概念是相同的。這似乎是可行的。該項目研發(fā)的基礎(chǔ)模型RT-X已于2023年10月發(fā)布[3]，與基于單一機器人架構(gòu)訓(xùn)練的模型相比，它在實際任務(wù)中表現(xiàn)更出色。

許多研究人員表示，這種多樣性至關(guān)重要。人工智能專家、美國人工智能公司Covariant聯(lián)合創(chuàng)始人陳曦（Peter Chen）說：“我們認(rèn)為，真正的機器人基礎(chǔ)模型不應(yīng)該只囿于一種機器人形態(tài)。”

Covariant也在努力擴大機器人數(shù)據(jù)庫規(guī)模。該公司由前OpenAI研究人員參與創(chuàng)建，他們自2018 年開始收集30種機械臂的數(shù)據(jù)。這些機械臂來自全球各地的倉庫，均使用Covariant的軟件。Covariant的Robotics Foundation Model 1（RFM-1）采集的數(shù)據(jù)不僅有視頻，還包括貨物重量、施力大小等傳感器讀數(shù)。Gopalakrishnan解釋，理論上，這類數(shù)據(jù)有助于機器人處理柔軟的物體，例如使它學(xué)會避免擠壓香蕉。

Covariant建立了一個專有數(shù)據(jù)庫，數(shù)據(jù)量達(dá)到數(shù)千億token（現(xiàn)實世界的機器人信息單位）。陳曦介紹，這與OpenAI 2020年發(fā)布的大語言模型GPT-3的訓(xùn)練數(shù)據(jù)規(guī)模相當(dāng)。他說：“我們擁有的這類數(shù)據(jù)最多，這是我們一直以來關(guān)注的重點。”陳曦表示， RFM-1即將發(fā)布，屆時搭載Covariant軟件的機器人的操作員，就可以用文字或語音發(fā)布一般性指令，例如“從儲藏箱中取出蘋果”。

另一種獲取大量動作類視頻的方法針對于人形機器人，讓人工智能通過觀看真人視頻來學(xué)習(xí)網(wǎng)絡(luò)上能找到數(shù)以十億計的真人視頻。Andrews舉例說，英偉達(dá)公司的GR00T基礎(chǔ)模型正在學(xué)習(xí)人類執(zhí)行各種任務(wù)的視頻。Gopalakrishnan說，盡管模仿人類有望提高機器人技能，但這并非易事。她解釋道，機器人視頻一般都附有背景介紹和對應(yīng)指令等信息，而真人視頻則沒有。

虛擬現(xiàn)實

研究人員說，獲取交互數(shù)據(jù)的最后一個可行方法是模擬。許多機器人專家正在研究建立三維虛擬現(xiàn)實環(huán)境，其物理機制與真實世界類似，然后將其連接到機器人大腦進(jìn)行訓(xùn)練。模擬器可以產(chǎn)生大量數(shù)據(jù)，讓人類和機器人在罕見或危險的虛擬場景中互動，這樣既沒有風(fēng)險，也不會造成機械損傷。英偉達(dá)公司的Andrews說：“如果你有大量機械臂，想通過實操練習(xí)讓它們變得靈活，那電機恐怕要過熱報廢了。”

然而，打造性能優(yōu)良的模擬器也不容易。Khazatsky說：“模擬器物理特性優(yōu)良，但還達(dá)不到完美的程度，要模擬多樣化的場景，難度幾乎與收集多樣化的數(shù)據(jù)相當(dāng)。”

Meta和英偉達(dá)公司都押注通過模擬增加機器人數(shù)據(jù)。他們分別建立了復(fù)雜的模擬世界Habitat和Isaac Sim。在這些模擬世界中，機器人在數(shù)小時內(nèi)就能獲得在真實世界數(shù)年才能積累的經(jīng)驗，然后在試驗中成功利用所學(xué)應(yīng)對現(xiàn)實世界中從未遇到過的情況。Rai說：“模擬是推動機器人技術(shù)發(fā)展的強大工具，但卻未得到足夠的重視，我很高興看到它的發(fā)展勢頭越來越好。”

許多研究人員認(rèn)為，基礎(chǔ)模型能夠制造出可替代人工的通用機器人。今年二月，美國機器人公司 Figure獲得6.75億美元投資，用于研發(fā)搭載OpenAI語言視覺模型的通用人形機器人。在一段展示視頻中，機器人得到“給我一些食物”的模糊請求后，給人拿來了一個蘋果。這段視頻在X（前身為 Twitter）上的點擊量已達(dá)480萬次。

這個機器人的基礎(chǔ)模型是如何訓(xùn)練的，它在不同環(huán)境中具體表現(xiàn)如何，目前尚不清楚（OpenAI 和Figure都未回應(yīng)《自然》的采訪請求）。Soh認(rèn)為應(yīng)謹(jǐn)慎對待這種展示。他說，視頻中的環(huán)境非�？諘�。提高環(huán)境的復(fù)雜度可能會讓機器人感到困擾，就像自動駕駛汽車難以應(yīng)對復(fù)雜路況。Soh說：“作為機器人的研究者，我們有理由對這類視頻持保留態(tài)度。作為制作者，我們知道100次拍攝通常只能成功一次。”

前路的挑戰(zhàn)

人工智能專家在機器人大腦研發(fā)領(lǐng)域突破不斷，但機器人行業(yè)有人指出硬件也是一個挑戰(zhàn)：機器人設(shè)計復(fù)雜，而且經(jīng)常損壞。陳曦說，硬件雖在升級，但“很多人只看到基礎(chǔ)模型的發(fā)展前景，卻不知道打造這類機器人有多困難。”

另一個問題是，使用視覺數(shù)據(jù)完成大多數(shù)交互訓(xùn)練的機器人基礎(chǔ)模型，到底可以走多遠(yuǎn)。Soh指出，機器人可能需要大量其他類型的感覺數(shù)據(jù)，例如觸覺或本體感覺（身體在空間中的位置感）。目前還沒有這樣的數(shù)據(jù)集。他說：“我認(rèn)為，這些缺失的數(shù)據(jù)，對人形機器人在真實環(huán)境中高效工作是必需的。”

將基礎(chǔ)模型應(yīng)用于真實世界還面臨著另一個重大挑戰(zhàn)安全性。近兩年，大語言模型大量涌現(xiàn)，人們發(fā)現(xiàn)它們會提供錯誤和有偏見的信息。它們還可能受到誘導(dǎo)做程序禁止的事情，比如告訴用戶如何制作炸彈。賦予人工智能一個軀體，就會把這類錯誤引入真實世界，產(chǎn)生威脅。Gopalakrishnan說：“如果機器人出錯，會傷到人、弄壞東西，或造成損害。”

Gopalakrishnan介紹，機器人行業(yè)將借鑒人工智能安全領(lǐng)域的寶貴經(jīng)驗。此外，她的團(tuán)隊還為一些機器人人工智能模型設(shè)置了等級高于學(xué)習(xí)的規(guī)則，例如不要嘗試與人、動物或其它生物體互動的任務(wù)。她說：“在我們對機器人有信心之前，需要大量的人類監(jiān)管。”

盡管存在風(fēng)險，但人工智能和機器人技術(shù)的融合和促進(jìn)方興未艾。Gopalakrishnan認(rèn)為，將人工智能大腦與實體機器人關(guān)聯(lián)，可以改善基礎(chǔ)模型，例如讓它們具備更好的空間推理能力。Rai說，一些研究人員認(rèn)為“真正的智能只能產(chǎn)生于與真實世界的互動之中”，Meta正是踐行者之一。有人說，現(xiàn)實世界中的互動，能讓人工智能不再囿于學(xué)習(xí)模式和預(yù)測，真正理解這個世界并進(jìn)行推理。

未來如何，尚無定論。Brooks認(rèn)為，機器人會不斷改進(jìn)并應(yīng)用于新的領(lǐng)域，但這些應(yīng)用終究不如人形機器人替代人類勞動來得吸引人。然而，也有人認(rèn)為，研發(fā)出實用安全的人形機器人，幫人做晚飯、跑腿和疊衣服是可能的，只不過可能要花費數(shù)億美元。Khazatsky說：“我相信有人能成功的。就是要花上大量的金錢，還有時間。”

原文以The AI revolution is coming to robots: how will it change them?標(biāo)題發(fā)表在2024年5月28日《自然》的新聞特寫版塊上

nature

幫人做晚飯、跑腿和疊衣服，AI可以幫助機器人做到這些嗎？ |《自然》長文
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 13:52:13 瀏覽：2302次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

幫人做晚飯、跑腿和疊衣服，AI可以幫助機器人做到這些嗎？ |《自然》長文 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 13:52:13 瀏覽：2302次