如今,機(jī)器人可以很好地完成某些任務(wù)。它們非常擅長拾取和移動物體,甚至連烹飪也不在話下。
顯然,機(jī)器人很容易在實驗室里完成這些任務(wù),但讓它們在一個幾乎沒有可用數(shù)據(jù)的陌生環(huán)境中工作才是一個真正的挑戰(zhàn)。
現(xiàn)在,一個名為 OK-Robot 的新系統(tǒng)可以訓(xùn)練機(jī)器人在從未見過的環(huán)境中拾娶移動和放下物體。
(來源:arXiv)
這種方法可能能夠填補快速進(jìn)步的人工智能模型和機(jī)器人真實能力之間的差距,因為它不需要任何其他昂貴而復(fù)雜的訓(xùn)練。
為了開發(fā)該系統(tǒng),紐約大學(xué)和 Meta 的研究人員在五戶人家的 10 個房間里測試了 Stretch 機(jī)器人,這是一款由 Hello Robot 制造的商用機(jī)器人,由輪子、高高的桿子和伸縮臂組成。
當(dāng)與機(jī)器人在一個房間里時,研究人員會使用 Record3D 掃描他們的周圍環(huán)境,Record3D 是一款 iPhone 應(yīng)用程序,使用該手機(jī)自帶的激光雷達(dá)系統(tǒng)拍攝 3D 視頻并與機(jī)器人共享。
OK-Robot 系統(tǒng)會針對視頻運行一個開源的人工智能物體檢測模型。與其他開源模型相結(jié)合,它可以幫助機(jī)器人識別房間里的物體,如玩具龍、牙膏、撲克牌、椅子、桌子和垃圾桶等。
然后,研究人員會指示機(jī)器人撿起一件特定的物品,并將其移動到一個新的位置。在 58.5% 的情況下,機(jī)器人依靠機(jī)械臂成功地做到了這一點。
在不那么雜亂的房間里,成功率上升到了 82%。目前,這項研究尚未經(jīng)過同行評審。
谷歌 DeepMind 的高級計算機(jī)視覺研究科學(xué)家馬蒂亞斯明德爾(Matthias Minderer)表示,最近的人工智能熱潮帶來了語言和計算機(jī)視覺能力的巨大飛躍,使機(jī)器人研究人員能夠獲得三年前還不存在的開源人工智能模型和工具。
他說:“完全依賴已有模型(就能成功)是很不尋常的,(因此)這項研究令人印象深刻。”
他補充道:“我們看到了一場機(jī)器學(xué)習(xí)革命,它讓現(xiàn)在新創(chuàng)建的模型不僅在實驗室中有效,而且在開放世界中也很好用?吹剿鼈冊谡鎸嵉奈锢憝h(huán)境中確實有效,這是非常有用的信息。”
因為研究人員使用的模型沒有根據(jù)這個特定項目進(jìn)行微調(diào),所以當(dāng)機(jī)器人找不到指定物體時,它只能停下來等待指令,而不是試圖找出解決方案。
這個限制讓機(jī)器人更有可能在整潔的環(huán)境中成功:更少的物體意味著更少的混亂和更清晰的導(dǎo)航路線。
紐約大學(xué)計算機(jī)科學(xué)助理教授萊爾平托(Lerrel Pinto)表示,使用現(xiàn)成的開源模型有好有壞。
他說:“從積極的方面來看,你不必在新環(huán)境中扔給機(jī)器人任何額外的訓(xùn)練數(shù)據(jù),它可以很快開始工作。
但另一方面,它只能把一個物體撿起來放到其他地方。你不能要求它打開抽屜,因為它只會拿起和放下兩個動作。”
紐約大學(xué)博士生瑪希沙菲烏拉(Mahi Shafiullah)共同領(lǐng)導(dǎo)了這項研究。他說,通過結(jié)合 OK-Robot 與語音識別模型,研究人員可以與機(jī)器人交談并簡單地傳遞指令,從而更容易地使用現(xiàn)成的數(shù)據(jù)集進(jìn)行實驗。
他說:“在(機(jī)器人)社區(qū)中,有一種廣泛存在的潛規(guī)則,家(室內(nèi))是很困難的環(huán)境,機(jī)器人也是很困難的研究領(lǐng)域,而將家庭和機(jī)器人結(jié)合起來是完全不可能的。我認(rèn)為,一旦人們開始相信家用機(jī)器人是可能的,這個領(lǐng)域就會迎來有更多的成果。”
支持:Ren
運營/排版:何晨龍