《科創(chuàng)板日?qǐng)?bào)》6月17日訊(編輯 鄭遠(yuǎn)方)說起AI技術(shù),自動(dòng)駕駛與大模型是兩大重要議題。而在“AI熱潮”催化之下,作為AI關(guān)鍵載體之一的機(jī)器人將這兩條主線匯聚至一處,指向了AI下一個(gè)浪潮“具身智能”,即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。
特斯拉不久前披露Optimus人形機(jī)器人最新進(jìn)展,機(jī)器人展現(xiàn)出不帶輔助的行走能力,且能精準(zhǔn)做到電機(jī)轉(zhuǎn)矩控制,產(chǎn)品力的進(jìn)步也被看作產(chǎn)業(yè)化漸近的信號(hào)。值得注意的是,Optimus內(nèi)置FSD芯片、與汽車共用AI系統(tǒng),畢竟正如馬斯克所說,“我們的汽車差不多算是有輪子的半感知機(jī)器人。”
與此同時(shí),相繼面世的大模型則進(jìn)一步賦予了機(jī)器人更智慧的“大腦”與“感官”。
例如Meta的SAM(Segment Anything Model)模型可分割圖像中的一切對(duì)象,向多模態(tài)更進(jìn)一步的同時(shí),一舉突破了機(jī)器視覺底層技術(shù);還有谷歌聯(lián)合柏林工業(yè)大學(xué)團(tuán)隊(duì)發(fā)布的“史上最大‘通才’AI模型”PaLM-E,只需要一句簡單指令,便可實(shí)現(xiàn)更為自主的機(jī)器人控制,使得機(jī)器人的行動(dòng)不再需要仰賴人類的手寫指令與代碼。
可以看到,這場由ChatGPT引起的“AI狂歡”中,技術(shù)大跨步邁進(jìn)的,并不只有能在線上與用戶自由交流的聊天機(jī)器人,更有線下能與現(xiàn)實(shí)世界切實(shí)交互的實(shí)體機(jī)器人們此番熱潮賦予了后者更聰明的大腦、更敏銳的眼睛以及更具行動(dòng)能力的軀體。
特斯拉“擎天柱”:站在機(jī)器人、AI、自動(dòng)駕駛的交匯點(diǎn)
在人形機(jī)器人行業(yè)中,特斯拉的Optimus(擎天柱)可以說得上是行業(yè)“領(lǐng)頭羊”。
特斯拉研發(fā)人形機(jī)器人的初衷,便是最大程度上利用特斯拉在造車和自動(dòng)駕駛方面的優(yōu)勢(shì),特別是自動(dòng)駕駛研發(fā)過程中積累的算法經(jīng)驗(yàn)、數(shù)據(jù)驅(qū)動(dòng)能力、AI芯片能力、模型訓(xùn)練能力等。開源證券指出,智能是特斯拉投入機(jī)器人領(lǐng)域最核心的競爭力。
人形機(jī)器人與特斯拉自動(dòng)駕駛汽車都遵循“感知-認(rèn)知-決策-執(zhí)行”運(yùn)行邏輯。而正如上文提到的,特斯拉機(jī)器人與汽車共用FSD系統(tǒng)。該系統(tǒng)由數(shù)據(jù)、算法、硬件構(gòu)成整體架構(gòu),其迭代路徑則是通過不斷升級(jí)算力的硬件來支撐不斷升級(jí)的算法,從而處理不斷增加的海量數(shù)據(jù)。
其中,分析師指出,數(shù)據(jù)方面,特斯拉FSD系統(tǒng)已有海量數(shù)據(jù)儲(chǔ)備,開發(fā)人形機(jī)器人可節(jié)省大量前期費(fèi)用。
感知方面,特斯拉FSD系統(tǒng)擁有非常強(qiáng)大的純視覺感知方案,特斯拉已引入Occupancy Network,與激光雷達(dá)相比,其視覺的語義感知能力更強(qiáng)。對(duì)于成本控制更加嚴(yán)格的人形機(jī)器人而言,類似Occupancy Network的方式優(yōu)于激光雷達(dá)解決方案。
規(guī)劃和控制方面,特斯拉“交互搜索”規(guī)劃模型進(jìn)一步增強(qiáng)了FSD系統(tǒng)的規(guī)控能力,且FSD系統(tǒng)還能通過Occupancy Network對(duì)可視區(qū)域進(jìn)行建模,以處理未知不可見場景。
圖|特斯拉Optimus復(fù)用Occupancy Network感知網(wǎng)絡(luò)
人工智能與機(jī)器人相輔相成
大模型可通過將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,引入多模態(tài)輸入,進(jìn)而提升大模型和環(huán)境的交互能力和學(xué)習(xí)能力,推動(dòng)機(jī)器人向更智能、靈活和自主的方向發(fā)展。
人工智能是機(jī)器人實(shí)現(xiàn)智能化的關(guān)鍵,而與此同時(shí),對(duì)于人工智能技術(shù)而言,機(jī)器人則是重要落地場景。如廣發(fā)證券指出的,人形機(jī)器人作為具象的實(shí)體,是AI絕佳載體。
一方面,機(jī)器人、特別是人形機(jī)器人能豐富AI的表現(xiàn)方式。除了傳統(tǒng)的語音交互、圖片交互,人形機(jī)器人也為AI帶來了更多的交互方式,包括表情、手勢(shì)等,極大延展了AI的表達(dá)領(lǐng)域。
另一方面,機(jī)器人也承擔(dān)起了AI輸出窗口的作用。
以英國機(jī)器人公司Engineered Arts研發(fā)的一款類人型機(jī)器人Ameca為例,除了與人類相像的外表,其最重要的功能便是為各種AI技術(shù)提供了一個(gè)真實(shí)的平臺(tái)。用戶可以根據(jù)需要,從庫中快速加載預(yù)先保存的姿勢(shì)、聲音、動(dòng)畫和子序列,只需使用計(jì)算機(jī)鼠標(biāo)或觸摸板,單擊并拖動(dòng)機(jī)器人的功能,就能實(shí)現(xiàn)豐富的面部表情。
機(jī)器人降本“三步走” 哪些環(huán)節(jié)扮演關(guān)鍵角色?
邁過實(shí)驗(yàn)室技術(shù)積累階段,機(jī)器人行業(yè)正逐漸邁向具身智能時(shí)代。產(chǎn)業(yè)鏈各環(huán)節(jié)的技術(shù)進(jìn)步推動(dòng)者機(jī)器人產(chǎn)業(yè)不斷向前,而整體行業(yè)的擴(kuò)張也為產(chǎn)業(yè)鏈打開了更廣闊的的空間。
機(jī)器人關(guān)鍵技術(shù)可分為AI技術(shù)與傳動(dòng)技術(shù),其中廣發(fā)證券指出,運(yùn)動(dòng)模塊硬件等非核心傳動(dòng)部件并非是機(jī)器人公司專長,外購概率較高。
圖|機(jī)器人關(guān)鍵技術(shù)分類(來源:廣發(fā)證券)
機(jī)器人龍頭之一的波士頓公司因缺乏合適供應(yīng)商而“被迫”自研伺服閥,公司曾公開表示,作為機(jī)器人公司并不想自研伺服閥,公開尋求供應(yīng)商。
因此分析師也猜測稱,攝像頭和算法等核心部件,特斯拉將進(jìn)行汽車供應(yīng)商平移或自制供應(yīng);而對(duì)于減速器、伺服等技術(shù)要求較低的驅(qū)動(dòng)部件,或?qū)で笸獠抗⿷?yīng)。
而開源證券補(bǔ)充稱,特斯拉機(jī)器人關(guān)節(jié)執(zhí)行器采用的零部件種類和現(xiàn)有工業(yè)機(jī)器人基本一致,只需根據(jù)人形機(jī)器人特點(diǎn)對(duì)零部件進(jìn)行調(diào)整修改,就可進(jìn)行標(biāo)準(zhǔn)化量產(chǎn),且軸承、齒輪箱、滾珠絲杠、電機(jī)等部件可復(fù)用特斯拉汽車供應(yīng)鏈。
再次以特斯拉Optimus為例,這一機(jī)器人具體有哪些零部件?券商列出了具體零部件名單與相關(guān)標(biāo)的。
(1)旋轉(zhuǎn)關(guān)節(jié):無框力矩電機(jī)、諧波減速器和力矩傳感器是價(jià)值量占比最高的零部件,降價(jià)空間最大的為無框電機(jī)(降價(jià)75%)、諧波減速器(降價(jià)75%)、角接觸軸承(降價(jià)64%)。
(2)線性關(guān)節(jié):是特斯拉機(jī)器人在硬件端優(yōu)化升級(jí)的核心。行星滾柱絲杠、倒置滾柱絲桿價(jià)值量占比,行星滾柱絲杠在特斯拉機(jī)器人硬件總成本中占比也最高。兩者相比早期階段,降價(jià)空間分別達(dá)到93%、95%。
(3)靈巧手:內(nèi)部構(gòu)成是一個(gè)微型線性執(zhí)行器(伺服電缸)。國產(chǎn)廠商在除了減速箱以外的其他零部件領(lǐng)域均處于量產(chǎn)的布局期,能夠率先實(shí)現(xiàn)微型線性執(zhí)行器量產(chǎn)的企業(yè)將通過規(guī)模效應(yīng)大幅降本。
(4)加工設(shè)備:磨床和齒輪加工機(jī)床是減速器、軸承、滾珠絲杠、電機(jī)在精加工階段的重要設(shè)備。國內(nèi)秦川機(jī)床、寧江機(jī)床、北平機(jī)床已具備批量生產(chǎn)高精度齒輪加工設(shè)備的能力。
(5)其他零部件:特斯拉人形機(jī)器人電池實(shí)現(xiàn)小體積大容量,推測復(fù)用汽車動(dòng)力電池技術(shù)。視覺傳感器硬件為左右單目相機(jī)+魚眼相機(jī),硬件成本較低,依賴算法。集成汽車視覺傳感技術(shù),工廠等部分場景有應(yīng)用GPS傳感器。
數(shù)據(jù)顯示,目前Optimus硬件成本占BOM表比例超過50%,要達(dá)到2萬美元售價(jià)還有84%的降價(jià)空間。對(duì)比當(dāng)前時(shí)點(diǎn)和終局狀態(tài)下BOM表拆解,開源證券指出,線性關(guān)節(jié)和靈巧手的降本空間最大。
總體而言,目前人形機(jī)器人成本約為 10-15 萬美元左右。優(yōu)必選預(yù)測,根據(jù)量產(chǎn)規(guī)模不同,人形機(jī)器人降本進(jìn)程大致分為3個(gè)階段:
幾千臺(tái)小批量生產(chǎn),降本20%-30%至約10萬美元;
1萬-幾萬臺(tái)量產(chǎn),降本50%至5萬美元;
幾十萬至上百萬臺(tái)大規(guī)模量產(chǎn),降本70%-80%至2-3萬美元。
結(jié)語
總體而言,AI大模型與人形機(jī)器人的相輔相成,邁出了通向通用人工智能的一大步。
國泰君安指出,服務(wù)機(jī)器人商業(yè)化落地的前提是產(chǎn)品能提供真實(shí)價(jià)值,而真實(shí)價(jià)值的判斷在于機(jī)器人能否通用。將機(jī)器人做成人形,便是為了使機(jī)器人的執(zhí)行能力更加通用。
伴隨著自動(dòng)駕駛技術(shù)的高速發(fā)展,人形機(jī)器人在視覺、SLAM與基礎(chǔ)AI上有了更多方案選擇。分析師預(yù)計(jì),大模型的出現(xiàn),會(huì)從語音、視覺、決策、控制等多方面實(shí)現(xiàn)同人形機(jī)器人的結(jié)合,形成感知、決策、控制閉環(huán),機(jī)器人產(chǎn)業(yè)有望進(jìn)入滲透率快速提升的新階段。
(科創(chuàng)板日?qǐng)?bào) 鄭遠(yuǎn)方)