具身智能在2024年成為科技領(lǐng)域的新熱詞。
人形機器人和具身智能公司,紛紛成立,一時風頭無兩。
不過,目前的人形機器人和具身智能,往往更多停留在概念和demo之中,何時能真正落地,仍然未知。包括特斯拉的Optimus在內(nèi)的不少人形機器人企業(yè),都將人形機器人落地的第一場景,設(shè)在工業(yè)場景當中。
然而,工廠場景中,實際早已存在不少工業(yè)機器人。這些更傳統(tǒng)的工業(yè)機器人,未來會被人形機器人取代嗎?或者,它們是否將在哪些方面結(jié)合新的具身智能技術(shù),帶來新的生產(chǎn)效率的突破?
近期,極客公園接觸到了移動機器人解決方案提供商優(yōu)艾智合。
優(yōu)艾智合在2017年就已經(jīng)成立,為工業(yè)企業(yè)提供物流機器人和巡檢機器人,尤其深耕半導體行業(yè),已經(jīng)形成上游晶圓生產(chǎn)、芯片封測、模組封裝到下游組裝的生產(chǎn)環(huán)節(jié)全覆蓋機器人解決方案,是半導體領(lǐng)域出貨量最大的移動機器人企業(yè)。在2022年,優(yōu)艾智合的機器人已經(jīng)做到年出貨量兩千余臺。
極客公園了解到,從2022年起,優(yōu)艾智合也在部署具身智能相關(guān)的技術(shù)能力,并在11月20日,與西安交通大學共同宣布成立具身智能機器人研究院。
在具身智能火起來之后,人們常常暢想,一個通用的人形機器人,可能會替代很多原有的專用機器人的未來。作為一個已經(jīng)有真實成熟的工業(yè)落地場景的公司,優(yōu)艾智合如何看待具身智能呢?
帶著這樣的疑問,極客公園采訪了優(yōu)艾智合CTO邊旭。采訪記錄有刪節(jié)。
具身智能可以讓機器人更聰明問:什么時候開始思考落地具身智能?
邊旭:這應(yīng)該是從 22 年 10 月份到2023年我們開始真正關(guān)注具身智能這個概念。
當時谷歌和Everyday Robotics合作,第一次將大型語言模型集成到機器人中,我們當時看了論文,下了一個判斷是,多模態(tài)大模型,最終只是一個接口,真正機器人要發(fā)揮作用,光靠大模型是遠遠不夠的,需要強化學習、模擬學習等很多技術(shù)產(chǎn)生突破。
這是我們思考的起點,我們也開始從2023年開始投入了一些預研的資源。
問:目前的具身智能技術(shù)進步,能夠解決哪些你們面臨的問題?
邊旭:目前在進展中的,最快能解決的問題是視覺模型對環(huán)境的理解,能夠讓我們做出更安全、柔性的控制策略。
傳統(tǒng)的機器人對物理環(huán)境的重建,基本都是基于激光雷達的這種直接測量的方法進行構(gòu)建。激光測距這項技術(shù)是有極限的。
比如我們的地面是平的,但是其實傳感器掃描出來的地面不是平的,是震蕩的。它掃出來,可能是5cm厚的一個點云。其中上下2cm,都是它對地掃描的誤差。但是這仍然導致有些情況下,地上出現(xiàn)一條電線,這條電線本身的凸起并不超過2cm,這時候?qū)ξ⑿∥矬w的識別,會被淹沒在噪聲中。
而通過視覺識別,則機器人能夠直接認識到前方出現(xiàn)細小物體,從而進行避障。
我們運送晶圓的機器人,如果被絆一跤,一點點損傷都會帶來很大的經(jīng)濟損失。在之前,我們只能通過工廠的安規(guī)管理,給機器人開辟出專門的運行區(qū)域來保證這樣的事情不會發(fā)生。
優(yōu)艾智合晶圓盒搬運機器人 | 圖源:優(yōu)艾智合
但是真正解決這個問題,要依靠具身智能中可自主學習的多模態(tài)感知也就是機器人能夠通過視覺識別,識別出物體,進行更智能的規(guī)避。
在這點上,我們的研發(fā)已經(jīng)有了階段性的成果,在我們的樣機上,demo上效果已經(jīng)能做到比較好了。
問:具身智能的下一步技術(shù)進步中,作為一個有落地場景的工業(yè)機器人公司,你們更關(guān)注于哪方面的技術(shù)進步?
邊旭:我們也在關(guān)注端到端的運動控制,這件事本身是很難的,目前我們也只是在做前期的研究工作。
端到端的自動控制,類似于特斯拉在做的端到端的自動駕駛,也就是整個運動控制的指令都是模型生成的。而我們提供工業(yè)機器人,要到運動控制的指令都由機器人生成,實際上需要更精準,犯錯率更低。
另外,達成端到端的運動控制,也依賴為我們提供機械臂本體的上下游生態(tài)伙伴,做相應(yīng)的底層調(diào)整,共同進步。
問:端到端的運動控制可以幫你們解決什么樣的問題?
邊旭:比如我們?yōu)榘雽w行業(yè)提供工業(yè)物流機器人,機器人的形態(tài)是復合機器人,這樣的機器人,每臺對接一個工位,正常都需要經(jīng)過一些參數(shù)化的配置和調(diào)試,這是行業(yè)通用的做法。
但實際上這個是非常耗時的。你要做一些標定,做一些過渡點的錄制,這樣的配置和調(diào)試過程其實是非常不柔性的,也無法被批量復制。
我們之前做出海,已經(jīng)賣出了不少機器人解決方案,其實我們在全世界都有很大的需求,但是在近中國的日本和東南亞,開展地更順利,原因之一就是出海的話,我們也需要很大的部署成本。
通過我們前面說的目標識別,融合視覺和3D的點云數(shù)據(jù),保證目標識別的魯棒性,再根據(jù)目標識別,做到通過少量學習和零次學習,可以讓機器人完成手眼協(xié)同,自適應(yīng)部署。
這樣基于目標的端到端的運動控制模型,和通用代碼大模型去自動化腳生成檢測、生成部署腳本能夠幫助我們大幅降低部署成本。
企業(yè)客戶希望有更聰明的機器人,但最好沒有成本增加問:在之前已經(jīng)落地的場景中,其實通過安規(guī)管理等方式,可以部分解決機器人不夠智能的問題,那么使用具身智能會不會使成本提升很高?
邊旭:在人形機器人上要做具身智能,可能需要非常強大的GPU,上萬塊的成本,這確實在工業(yè)機器人里是不可接受的。
我們考慮要使用低算力的平臺,實現(xiàn)高具身智能的效果。我們主要是使用NPU,6-7 TOPS的算力,來跑一些視覺模型。
即使是我們后面說的這種,運動控制方向的具身智能的部署,在我看來,未來也是成本可控的。因為我們機器人硬件中,本身已經(jīng)有了視覺和雷達的部分,這部分的成本是本來就有的。只是需要再對數(shù)據(jù)進行算法層面的訓練。
問:你覺得企業(yè)實際上能接受多少成本的上升?
邊旭:我覺得對企業(yè)來說,其實最好是沒有成本增加,甚至有運維成本的下降。
比如我們前面說的,通過管理的方式可以解決的問題,實際上本身還是依賴于人工,而人是工業(yè)生產(chǎn)中最不可控的變量,根本上如果機器人能智能化地解決這個問題,整體運維成本是下降的。
對于我們自身而言,也會降低很多和企業(yè)之間的溝通成本。
問:除了成本之外,企業(yè)還會比較關(guān)注哪些問題?
邊旭:企業(yè)也會比較在意數(shù)據(jù)鏈路的絕對安全。
很多客戶的要求是數(shù)據(jù)不出園區(qū),那可能一些人形機器人使用公有云上的模型的這種操作模式就不適合我們。
優(yōu)艾智合智能巡檢操作機器人| 圖源:優(yōu)艾智合
此外,前面說過,工業(yè)場景對AI的犯錯容忍度很低?蛻魧ξ覀兊囊缶褪橇惝惓!R话愕墓I(yè)公司對推AI都比較謹慎。
所以我們認為純靠AI算法解決所有問題的思路本身是錯的。越智能就越容易不可控。泛化性的智能控制,還是需要結(jié)合一些條件策略,才能更好地讓產(chǎn)品閉環(huán)。
問:在工業(yè)領(lǐng)域,具身智能還有什么獨特的特點?
邊旭:我們理解具身智能是兩部分,第一個是單體智能,也就是一腦多態(tài)的這種智能控制系統(tǒng),另一方面是,群體智能。
在這套解決方案里,機器人只是一環(huán),機器人的智能化水平可以無限接近于人。但是工廠中要實現(xiàn)全廠的生產(chǎn),它還需要其他的,比如說電梯、產(chǎn)線,和其他設(shè)備類的東西,都會參與到整個的過程中。我們現(xiàn)在傳感器只是布置在機器人上,未來可能傳感器是部署在全場的解決方案里面的。
這個全場的解決方案,里面涉及到的就是群體智能。這里面怎么去融合感知,來保證機器人的安全和效率,我覺得想象的空間比機器人本體更大。
人形機器人,能夠橫掃工業(yè)場景嗎?問:過去一兩年,有很多具身智能和人形機器人的公司成立。很多公司的愿景都是最后走向一個通用的人形機器人,它泛化性非常強,什么工廠都能進,什么工廠內(nèi)的任務(wù)都能做。你怎么看待未來的通用人形機器人,它會成為傳統(tǒng)工業(yè)機器人的終結(jié)者嗎?
邊旭:其實為什么工廠在很多場景下已經(jīng)開始使用機器人了?就是因為其實人類在很多情況下已經(jīng)不夠適應(yīng)工業(yè)所需的一些情況了。
比如在工業(yè)巡檢領(lǐng)域,人只能看到可見光,看不到紅外光,也看不到聲波。我們只能依靠目視距離操作。
因此我們在巡檢中,提出了超視距的多模態(tài)感知,首先傳感器不局限于機器人在哪里,都能獲得數(shù)據(jù),其次能夠通過AI的分析處理,獲得隱藏在聲紋等數(shù)據(jù)中的一些異常,得到自適應(yīng)感知,這其實都是對人類能力的超越。
對于我們工業(yè)從業(yè)者來說,我們看問題比較實際。我認為我們的積累其實是一種壁壘。
一個機器人,你沒有做過這個場景,怎么能講它有泛化的能力,去解決這個場景的問題?
對于工業(yè)場景而言,首先,工業(yè)場景比較閉塞,很難通過互聯(lián)網(wǎng)去學習到相關(guān)的知識,有很強的行業(yè)屬性,機器人很難通過通用的數(shù)據(jù)進行泛化地學習。
其次,工業(yè)機器人的產(chǎn)品定義,本身就是工業(yè)機器人企業(yè)和工業(yè)企業(yè)一起推動的?蛻粜枰獧C器人,但又不完全清晰的知道需求的細節(jié)。很多產(chǎn)品定義都是我們在這個場景中積累總結(jié),和客戶共創(chuàng)獲得的。
問:傳統(tǒng)工業(yè)場景下已經(jīng)落地的機器人企業(yè)的主要優(yōu)勢在哪里?
邊旭:主要還是在行業(yè)深耕后,獲得的壁壘。
比如我們在最基本的SLAM能力上,我們有很多corner case的應(yīng)對經(jīng)驗。比如環(huán)境對機器人定位的多種非線性擾動,對于機器人定位導航的干擾是非常大的,并且是很難量化。這對于你的定位導航的魯棒性,和智能化要求很高。
人形機器人本身,如果能找到一個合適落地的場景,再有很強的技術(shù)基礎(chǔ),或許未來在工業(yè)場景中也會有一席之地。
但我認為在一個我們已經(jīng)深耕過的行業(yè)里,我們再加入具身智能的技術(shù),我們做這件事的路徑可以是最短的。
問:工業(yè)場景,最終的形態(tài)會是人形機器人嗎?
邊旭:一個通用人形機器人,來適配所有的場景是很難的,你很難倒逼所有行業(yè)客戶改去適配你的設(shè)備。
可能只有純?nèi)斯さ膱鼍,用人形做,客戶改造成本就低一點。但也可能在那之前,全場景的移動機器人的方案已經(jīng)覆蓋了這個行業(yè)了。
我覺得工業(yè),相對于對于服務(wù)場景等,最大的區(qū)別就是成本和效率。
越通用,代表著對于某個細分行業(yè)來講,應(yīng)用成本越高,它會有很多功能的冗余。
考慮到效率因素,其實不應(yīng)該所有行業(yè)都用一樣機器人。
特斯拉人形機器人Optimus | 圖片來源:視覺中國
而為不同行業(yè)打造的話,模型也可以是更加針對這個場景的,可以就是以更小的數(shù)據(jù)去訓練,然后運用的成本也更低,然后更針對這個場景,
問:對于只做大腦的具身智能企業(yè)而言,如果不是一個通用的人形機器人來承載其大腦的部分,而是有多種多樣的終端形態(tài),會對執(zhí)行產(chǎn)生一些困難嗎?
邊旭:會有一些困難。
不同的上集成其實是一個新的模型。雖然從目標識別,視覺的角度來講差別不大,但在執(zhí)行和安全角度講,不同的本體構(gòu)型是有差異的。
在工業(yè)里邊,其實在機電系統(tǒng)和機構(gòu)學上不存在通用的。就是每一種構(gòu)型其實都要滿足它的一個特殊工藝的一個設(shè)計生產(chǎn)要求。
問:怎么看未來的人形機器人?
邊旭:我覺得,現(xiàn)在的人形機器人,不論從技術(shù)成熟度、量產(chǎn)能力,還是商業(yè)模式的成熟度上,其實是和幾年前工業(yè)移動機器人剛興起的時候很像。
機器人本體是一部分, 但更重要的是智能系統(tǒng)端的進步。
在移動機器人行業(yè),目前其實有很多做移動機器人本體的廠家,可以把產(chǎn)品做得很標準,成本很低,穩(wěn)定性很強。而我們做解決方案的企業(yè)的優(yōu)勢,則在于需要長時間積累的智能系統(tǒng)。
我想未來,可能也會有很多做這種人形機型本體的廠家,將本體做的很好。而像我們這樣的公司,可以在人形機器人上,構(gòu)建我們的工業(yè)應(yīng)用。
我們目前的技術(shù)布局,已經(jīng)在具身控制器這塊布局了未來兼容足式機器人的架構(gòu),我們目前看不到人形機器人在工業(yè)場景有太好的應(yīng)用,但不代表未來沒有,我們會持續(xù)關(guān)注提前布局。
比起機器人的形態(tài),我們更關(guān)注具身智能技術(shù)在工業(yè)領(lǐng)域規(guī);涞氐穆窂脚c節(jié)點。我們認為“一腦多態(tài)”是具身智能落地工業(yè)場景的最佳形態(tài),再通過集群化的協(xié)同交互,可以實現(xiàn)工業(yè)企業(yè)生產(chǎn)效率和效率的提升。