「AI」這個名詞出現(xiàn)我們日常生活中已經有些時日,不過如果有人問 AI 對人類社會至今起到了怎樣的幫助,產生了怎樣的價值,我想很多人都會陷入沉思。
關于 AI 的釋意,簡單來說,它通常指通過計算機來實現(xiàn)人類智能的技術,比如讓計算機像人類一樣識別,像人類一樣認知,像人類一樣思考。
又或者,像人類一樣駕駛。
2021 年,特斯拉舉辦了第一屆 AI Day,期間公布了大量關于 FSD Beta 的技術細節(jié),并繼 2019 年發(fā)布 FSD 智能駕駛芯片之后,發(fā)布了用于機器學習訓練的自研超算系統(tǒng) Dojo,以及在最后的環(huán)節(jié)還發(fā)布了一款人型機器人 Tesla Bot,發(fā)布會中展現(xiàn)的信息之多、實力之強讓全球同行都為之震驚。
隨后的時間里,馬斯克又給出了全場景智能駕駛的落地進程更為具體的時間承諾:「如果特斯拉沒有在 2022 年實現(xiàn) Full Self-Driving 我會感到非常詫異」。
類似的承諾馬斯克在過去幾年早已說過多次,但之前的每一次都要么跳票要么延期。距離 2022 年結束還有兩個月,在 2022 年 AI Day 的內容里,這個問題有了新的進展。
不過在今年的發(fā)布會上,特斯拉率先展示的內容是工程版的人型機器人「Optimus」。
01Optimus:特斯拉「變人」
隨著印有機器手比心圖案的大幕徐徐拉開,一臺沒有外殼,線束和電路板裸露在外的機器人出現(xiàn)在了舞臺上,它走了兩圈,與眾人打了幾個招呼,隨后便默默站在舞臺上。一套動作下來雖然速度不快,但舉止間已經能看出顯著的仿生動力學設計。
這就是特斯拉人型機器人 Optimus(擎天柱),這還不是它的完成態(tài),但足以完成發(fā)布會展示。
Optimus 正式亮相
其中的一個小細節(jié)是 Optimus 原型機的這次登臺,是它首次在沒有其余輔助設備的幫助下進行演示,所以這次演示環(huán)節(jié)時長短的原因之一用馬斯克的話說就是「怕它待會要一頭摔倒在舞臺上」。
不過把這個聽起來比較搞笑的機器人被放在發(fā)布會的第一個環(huán)節(jié),特斯拉顯然是有其用意的。
從「組裝廠」出來的擎天柱
規(guī)模化效應是特斯拉在每一款新產品中都會著重考慮的因素,在馬斯克看來,市面上現(xiàn)有的人型機器人里其實已經有做得不錯的,只是這些機器人「缺腦子」,即沒有足夠強大的計算單元,無法在真實世界里「獨善其身」,并且價格昂貴,難以走向規(guī);褪袌龌。
以最著名的波士頓動力公司為例,其機械狗機器人「spot」單只售價 7.5 萬美元,輔助配件另算,人型機器人 Atlas 目前還沒有正式公開銷售,價格比起 spot 只會多不會少。
波士頓動力機械狗 spot
波士頓動力人型機器人 Atlas
因為價格和使用價值的原因,目前 spot 并未像其他工業(yè)機器人那樣成為當今制造業(yè)的生產力,老百姓們也基本上只在視頻里見過它。
在特斯拉機器人項目中,馬斯克并不想做一個讓人驚呼完「牛 X」之后就想不到其他用處的工業(yè)奢侈品,他心中的 Tesla Bot 是一款可以創(chuàng)造實用價值的人型機器人。由此出發(fā)引申而來的設計考慮有這么幾點:
易于量產
低成本
高可靠性
于是特斯拉選擇了一個「捷徑」,用自家汽車的零部件來打造這臺機器人。
Optimus 與特斯拉汽車一樣通過純視覺算法實現(xiàn)對環(huán)境的感知,感知器件為安裝在機器人頭部的攝像頭。
2021 年 AI Day 上 Tesla Bot 的硬件介紹
Optimus 與 FSD 共用視覺感知
Optimus 眼中的世界
其「大腦」為特斯拉汽車同款 SoC,內置 Wi-Fi、LTE 天線和音頻模塊,為機器人供能的是埋在胸部的 2.3 kWh 電池組,標稱電壓 52V,搭載特斯拉汽車同款圓柱電芯。
某種程度上,Optimus 就是通過特斯拉汽車零部件「組裝」而成,只是不論從技術相通性還是成本控制的角度,這樣的做法都有其合理性。這種事情特斯拉也并不是第一做,在儲能產品線中特斯拉就采用的很多汽車業(yè)務的零部件,比如電芯、逆變器、熱管理系統(tǒng)等等。
如果已有成熟、可靠且已量產的方案,那么在滿足性能的前提下將這些方案應用于更多平行業(yè)務確實是更高效、占用資源更少的方式。
Optimus 原型機部件一覽
Tesla Bot 從概念到實物經歷的變化
圖注:特斯拉機器人從概念到實物經歷的變化
人和機器人
講 Optimus 的技術細節(jié)之前,特斯拉先把人體的結構拿出來贊嘆了一番,這一幕讓我想到了 2021 年 AI Day 上 Andrej Kapathy 在介紹 FSD 視覺感知系統(tǒng)前,先和大家介紹了一番人類的視覺神經網絡。
特斯拉的 PPT 里放了幾個關于人體的參數(shù):
靜坐能耗 100 W
行走能耗 500 W
體重 73 kg
全身自由度超過 200 個
手部自由度 27 個
其中最重要的參數(shù)是最后兩個,關于自由度的專業(yè)概念我們不做深入解釋,大家可以大致理解為「可活動方式」,自由越高那么部位就越靈活,可以實現(xiàn)的動作越多。
如果想要讓機器人像人類一樣的靈活,那么仿生結構上的自由度同樣也是越多越好,一個很簡單的例子就是人崴腳以后走路會不方便,其實就是踝關節(jié)的自由度受限了。
但增加自由度會帶來系統(tǒng)復雜性和運動學控制難度的顯著增加。做出完全和人體自由度一樣的人型機器人現(xiàn)階段還沒誰做到過。
特斯拉這次也沒有,但特斯拉取了其中優(yōu)先級較高的 28 個自由度,并且給手部分配了 11 個。
Optimus 的電池組在熱管理方面不再采用特斯拉汽車電池包那樣的 S 型液冷片,而是將熱管理板貼在電池底部,因為機器人整體功耗相對汽車而言不再那么需要電池的快充快放,發(fā)熱會相對減少,并且機器人的體積有限,更需要考慮系統(tǒng)的集成度。為此 Optimus 還將將電池管理系統(tǒng)的模塊也一同做進了電池包當中。
如何讓 Optimus 便宜又皮實?
在機器人的防摔設計方面,特斯拉再度拿出了自己在汽車碰撞測試中應用的模擬分析軟件以及積累的數(shù)據(jù),在 Optimus 的胸部做了一塊防摔板,并控制機器人摔倒時的倒地姿勢,讓這塊護板接觸地面承受沖擊成為機器人的「防撞梁」,讓相對昂貴和維修難度較大的手臂部件不至于產生嚴重損壞。
Optimus 胸部的防撞梁
同樣的力學分析模型也被用于 Optimus 的驅動器(Actuators)設計之中,特斯拉會從已驗證的結構力學分析模型上找到合適于驅動器的力學輸入,并且加入機器人后續(xù)可能進行的工況驗證,從簡單的走路、上下臺階再到搬運物體等等,然后再對整個力學模型進行再一輪的優(yōu)化。
力學模型優(yōu)化
在進行人型機器人的集成結構控制設計之初,業(yè)界同行通常會盡可能地給到機器人強大的基礎的動作執(zhí)行能力,讓其基礎動作執(zhí)行頻率可以達到 10 Hz(一秒做十次),這樣會使得設計后續(xù)的行走動作時機器人具備足夠的基礎運動能力,讓「行走」的實現(xiàn)變得更為簡單。
基礎動作模擬
但特斯拉并不認為 Optimus 也該用這樣的設計思路,因為 Optimus 是一臺要大規(guī)模量產,達到百萬級產量的機器人,在成本上應當遵循「滿足基本需求的情況下盡可能的便宜」,所以材料方面別說用鈦合金和碳纖維復合材料,特斯拉連金屬材料都不太想用,能用塑料搞定的就盡可能用塑料。
這么一來把錢省下來的同時 Optimus 自身的結構剛度等力學特性上自然也會遜色于友商們用料豪華的人型機器人,不過在這之后特斯拉又拋出了一個好問題:「我們用得著這么高標準的動作執(zhí)行頻率嗎?畢竟連我自己抖腿的頻率都達不到一秒十次!
言外之意,既然人體能實現(xiàn)的最快基礎動作執(zhí)行頻率不到 10 Hz,那就說明各種肢體動作在低頻率下也是可以實現(xiàn),只是低頻下對于執(zhí)行控制環(huán)節(jié)提出的要求更高,這個是可以去通過軟件算法進步的地方。
這一邏輯很難讓我不聯(lián)想到特斯拉在激光雷達和純視覺路線上的選擇,似乎在每每這種技術岔道口上特斯拉總是會選擇硬成本最低,軟成本最大的方式來后發(fā)制人,某種程度上這也是特斯拉第一性原理的體現(xiàn)。
事半功倍的四連桿膝蓋
如同 Model X 的鷹翼門一般,Optimus 膝蓋關節(jié)的設計在 AI Day 上被專門提及。特斯拉表示這一處仿生學設計,參考對象是人類的膝蓋結構。
Optimus 四連桿膝蓋結構
人體膝蓋結構
基于仿生學的四連桿膝蓋關節(jié)
相比更簡單的轉軸設計,這種模擬人體膝蓋的四連桿膝蓋關節(jié)可以讓 Optimus 腿部的力學模型變得更優(yōu),或者叫更「驅動器更友好」。
其中原因如 PPT 所示,隨著腿部的彎曲角度變大(越接近蹲姿),執(zhí)行同一任務所需的扭矩會越來越大。如果做個類比,就是半蹲走路會比站著走路更費勁。
膝部負載扭矩和彎曲角關系
采用四連桿結構會讓同一負載在直腿狀態(tài)和彎腿角度下的所需的扭矩更為平緩和一致(綠線),而如果只是用簡單的二連桿設計,直接將機器人的大小腿用一個轉軸連接,那么所需的執(zhí)行扭矩圖譜就會變成藍線的狀態(tài),在彎腿狀態(tài)的所需的執(zhí)行扭矩會顯著增加。圖中二連桿結構下對驅動器的最大扭矩要求要比四連桿機構高出一倍不止。采用四連桿膝蓋結構可以實現(xiàn)小馬拉大車的效果。
四連桿結構對比轉軸結構的負載扭矩曲線
汽車到機器人,驅動器從 2 到 28
驅動環(huán)節(jié)的能耗管理是特斯拉一向注重的環(huán)節(jié),在汽車上特斯拉要管理的內容「相對簡單」,一臺特斯拉電動車前后一起頂多三個電機,PPT 上則是更常見的雙電機, 工況分類比較清晰,工程團隊可以針對不同工況的能耗圖譜反過來設定好電機的能耗特性。
電動車與機器人的驅動器對比
但是來到 Optimus 上,驅動的數(shù)量一下增加到了 28 個,至于工況,除了站立、行走、左右轉彎等這些比較好列舉的工況,其他的場景下機器人隨便換個動作,換個發(fā)力都不一樣,數(shù)量和復雜程度進一步增加。
不過實際的方法論上依然和電動車有相通之處。特斯拉會先將某一工況下,某一具體關節(jié)的驅動器工作圖譜記錄起來,然后再對比驅動器自身的能效圖譜,接著就獲得了一組驅動器的能效數(shù)據(jù)。
單一關節(jié)的驅動器性能測試
特斯拉接著又將對應驅動器的總能耗表現(xiàn)與系統(tǒng)成本掛鉤作為縱坐標,并結合驅動器重量作為橫坐標形成一個數(shù)據(jù)點放在下圖之中。
單個驅動器的系統(tǒng)成本與輕量化關系坐標
同樣的流程在更多的驅動器上(特斯拉稱數(shù)百個)去做一遍,就獲得了一個驅動器重量和系統(tǒng)成本的圖譜。越是能同時兼顧低成本和輕量化的驅動器那么就越適合作為這一關節(jié)的驅動器,比如下圖紅叉標記的點就是特斯拉認為最適合作為右髖偏轉關節(jié)的驅動器。
最佳驅動器選型
一個關節(jié)搞定了,還有其他 27 個,同樣的流程再到這 27 個關節(jié)上執(zhí)行一遍,那么所有的關節(jié)基于成本-輕量化最佳考慮下的驅動器選型就確定了。
單一關節(jié)的最佳驅動器選型結果
每個關節(jié)的最佳驅動器選型結果
可特斯拉覺得這還不夠,因為即便如此,整個系統(tǒng)內的驅動器型號組合依然過多,其中有一些是特殊型號,生產制造效率不夠高。
于是「減配」繼續(xù),在前面的選型基礎上特斯拉又對所有驅動器進行了通用互換性測試,再去找到其中在合理范圍的成本-輕量化量導向下,可以在不同關節(jié)實現(xiàn)一機多用的驅動器型號。
加入一機多用考量后的最佳選型結果
經過層層考量,特斯拉最終為 Optimus 的 28 個關節(jié)選出了 6 種驅動器,其中包括 3 個旋轉驅動器和 3 個直線驅動器,每一個都有著很好的「扭重比」。
最終選出的 6 類驅動器
體積不大,力氣不小
在驅動器的設計上特斯拉十分注重扭矩的輸出,因此在 Optimus 的旋轉驅動器和直線驅動器上特斯拉都采用了以「多行程」換雀大力矩」的機械結構,例如直線驅動器內的倒置滾珠絲杠。
驅動器內部也布置了相應的位置傳感器和力矩傳感器,以實現(xiàn)更精準的電控。
為了更直觀地展示效果,特斯拉用 Optimus 上作為「臀大脊和「股直脊的直線驅動器吊了一個重達半噸的九尺三角鋼琴做往復運動演示。
但在演示之后,特斯拉表示這并不是什么值得炫耀的事情,而是人型機器人想「變人」的一個必要性指標,我們人體對應部位的肌肉在直接連接負載的情況下也有差不多的力量,只是經過關節(jié)的幅度放大之后,我們用力矩換取更高的速度能力,也因如此人體才能有出色的運動能力和敏捷性。
打造靈活的機器之手
流程照舊,在介紹 Optimus 的手部設計之前特斯拉又贊嘆了一番人手的強大:
可以輕松在一秒內轉動 300°;
擁有數(shù)以萬計的觸覺傳感器;
#NAME?
而且人類社會中有大量的物品是按照便于人類使用尤其是便于人手使用的邏輯去設計的,所以 Optimus 的手部設計又一次采用了人體仿生設計。這句話又讓人想起了特斯拉以視覺為 FSD 核心感知的原因:因為全世界的道路都是為人類駕駛而設計,而人依靠視覺開車。
Optimus 的每一只手都搭載了 6 個驅動器,擁有 11 個自由度,具備自適應抓取能力。手指關節(jié)采用具備自鎖結構的蝸輪蝸桿設計,只能由蝸桿(左側深色)驅動渦輪(右側亮藍色),反過來渦輪無法驅動蝸桿。
手指關節(jié)采用的蝸輪蝸桿設計
這樣的好處有兩點,一方面機器手不會因關節(jié)負重而導致驅動器反轉,另一方面在提取重物時關節(jié)會因自鎖效應固定從而保持手部姿勢,指關節(jié)驅動器此時無需工作。
能力上 Optimus 可提起一袋 20 磅的重物(9.07 公斤),可以使用部分工具,還可以精確地抓取一些小部件。
都是機器人,帶輪子和有腿的共用一套軟件
軟件環(huán)節(jié),感知上 Optimus 采用了特斯拉 FSD 同款的純視覺環(huán)境感知神經網絡,機器人所處的環(huán)境與道路駕駛會不一樣所以 Optimus 需要認識的特征也會有所區(qū)別。因此機器人的感知神經網絡里需要針對新環(huán)境下的新特征進行專門的機器學習訓練。
FSD 同款視覺感知
另外機器人與物體會有更多的交互動作,在實物的 3D 探測上,機器人的視覺感探測需要提供更為精確的景深和體積感知,這會是 Optimus 視覺感知上后續(xù)會進行強化的主要環(huán)節(jié)之一。
基于視覺的 3D 體積感知
對于機器人,如何在只有 GPS 信號的支持下實現(xiàn)自主室內導航是另一個難題,畢竟室內沒有車道線,也沒有指示路牌。
為了做到這個事情,特斯拉在對機器人采取了一種特殊的路徑導航方式,將機器人通過視覺檢測到的物體搭建成一個空間點云圖譜,通過訓練讓機器人識別室內環(huán)境下的常見物體和關鍵特征,然后再在圖譜中避開環(huán)境中的實體從而規(guī)劃出可行進路徑。
Optimus 的室內導航方案
特斯拉在 FSD 的訓練中有自己專門的環(huán)境道路模擬器,針對 Optimus 的訓練特斯拉也準備了類似的模擬器,下圖就是模擬器內進行的機器人不同階段關節(jié)啟用后的動力學演示。
聯(lián)動關節(jié)越多走路越順暢
行走,其實一點也不容易
「走路看上去挺簡單的對吧?我們每天都在行走,控制行走純憑感覺,甚至都不需要經過思考!巩斠晃惶厮估臋C器人科學家開始這么說的時候,通常意味著這個簡單事情實現(xiàn)起來非常復雜。這位科學家隨后表示在工程學上,讓機器人行走有四大難題。
實現(xiàn)行走的 4 大挑戰(zhàn)
第一,人型機器人要具備物理層面的自我感知能力,它需要知道自己的步幅有多大,自己的腿有多沉,腳踩的位置又會在哪里;
第二,人型機器人的行走動作還需要具備較好的高能效帶寬,保證不同的行走工況都能取得較好的能耗表現(xiàn);
第三,非常重要的一點,要有足夠的自平衡能力,保證走路不摔跤;
第四,具備行走狀態(tài)下的空間坐標定位能力,或者說能將空間坐標轉化為精確的行走位置。
解決這些問題的軟件棧被稱作「Locomotion planning and control stack」,即運動規(guī)控棧。其中會涉及的環(huán)節(jié)包含機器人的動力學、運動學以及肢體接觸控制。
Optimus 運動規(guī)控
一條計劃路徑在輸入系統(tǒng)以后會被拆解成更細分的控制指令,從階段來看一共有三個。
最開始是根據(jù)行進路線生成「腳庸級別的每一步位置規(guī)劃,這一信息在第二個階段的「Locomotion Planner」中被拆解為對應路徑下的抬腳和后跟落地動作。這些動作會銜接每一次邁步,機器人由此可以獲得更大的行走步幅和更小的屈膝,從而降低行走動作消耗的能量。
最后,系統(tǒng)會計算得出機器人在對應動作下的可以保持動態(tài)平衡的重心移動軌跡。于是從路徑到動作的拆解規(guī)劃環(huán)節(jié)就此完成,接著就是如何讓機器人去執(zhí)行。
前面說了很多 Optimus 的運動規(guī)劃策略,但在真實世界的執(zhí)行總是事與愿違,機器人不能按規(guī)劃完成動作而是不斷摔倒。
對這一現(xiàn)象的解釋非常簡單:模擬軟件中的機器人和環(huán)境都是理想化的,而真實世界的環(huán)境要復雜得多。比如機器人自身會有抖動,傳感器會受到噪聲干擾以及類似的種種。這些在運動規(guī)控棧計算之外的干擾會讓原本的運動規(guī)劃在執(zhí)行中發(fā)生偏差。對于本屬于動態(tài)平衡的雙足行走動作,這樣的干擾非常容易導致失穩(wěn)的發(fā)生。
真實世界下的干擾因素
而改善的辦法是打破「閉門造車」,在機器人的穩(wěn)定檢測系統(tǒng)中融入實時的環(huán)境感知反饋,并將穩(wěn)定系統(tǒng)通過環(huán)境檢測得到的糾偏信號輸出給運動控制系統(tǒng),從而形成融入實時狀態(tài)感知的閉環(huán)控制,讓機器人保持動態(tài)平衡。這種做法聽起來有那么點像機器人版本的「車道居中保持」。
加入實時反饋實現(xiàn)閉環(huán)平衡控制
如何幫助機器人「練手」
能保持基礎的行走平衡之后,Optimus 的下一個目標就是「使用雙手」。這是讓 Optimus 從一個傳統(tǒng)的人型機器人轉變?yōu)橛袃r值生產力(機器工人)的關鍵環(huán)節(jié)。
手部動作訓練流程
訓練手部動作的流程可以理解為「真人實操領進門,系統(tǒng)學習重生成」,先用動作捕捉器獲取人類在某一動作下使用雙手的運動學信息,然后將收集到的運動信息逆向生成機器人的模擬動作。當采集的人類演示動作足夠多的時候就可以形成這一套動作的數(shù)據(jù)庫。
通過真人動作捕捉為機器人建立動作素材庫
不過現(xiàn)實生活中同一類動作會有很多不一樣的執(zhí)行細節(jié),就比如搬箱子,箱子的尺寸、位置都會發(fā)生變化,如果真人演示只演示了搬起正前方的箱子,那么通過逆向動作學習的機器人也只能學會搬起正前方的箱子。
這樣的效率顯然是很低的,為了讓系統(tǒng)做到舉一反三,特斯拉在這之中又加入了一套在線運動軌跡優(yōu)化控制系統(tǒng)。這套系統(tǒng)會在已經學會的基礎動作之上加入對于真實環(huán)境的自適應調整,重新得出不同場景下手該怎么放、機器人如何實現(xiàn)新動作下的平衡等信息,從而增加動作學會以后的真實場景適用范圍。
小結一:Optimus 的預期與價值
第一個環(huán)節(jié)關于 Optimus 的內容主要就是這些,特斯拉在發(fā)布會中說了很多關于這臺機器人在設計中的思考以及讓它變得更強大的訓練策略。相比各種技術細節(jié),這臺機器人的核心理念十分明確:要便宜、要大能規(guī)模量產、要能像人類一樣干活。
如果這三個目標的實現(xiàn)到達一定程度,將是一件非常不得了的事情。因為這樣的人型機器人將具備替代部分社會勞動力的可能性。它的售價可能最終會低于 2 萬美元,除去購買成本,后續(xù)生產工作中能耗成本相對于它能產生的價值幾乎可以忽略不計。
大家可以想象一下,如果一個可以幾乎 24 小時工作的機器工人日薪只是幾度電而已,那么哪怕它的效率不如人類工人,仍然具備很高的投入產出比。甚至像守衛(wèi)這一類的工作,眼觀三路、不會疲勞又實時聯(lián)網的 Optimus 簡直就是完美方案。
甚至我還會想,基于純視覺感知,與 FSD 共用神經網絡算法的 Optimus 是不是還能以機器人司機的形式實現(xiàn)另一種方式的「無人駕駛」?
總之,如果 Optimus 的目標是「變人」,那么這一業(yè)務的想象力會非常巨大。
不過回過頭來講,發(fā)布會里關于 Optimus 的很多內容介紹目前仍是「預期」,刻薄一點可說是 PPT 階段。但作為特斯拉的新業(yè)務線,Optimus 從去年公布到今年造出原型機的速度已經十分高效。在這速度下特斯拉會爭取三年內將其量產。
02FSD Beta:兩年駕齡「老司機」
2021 年 AI Day 的重點是 FSD,今年 FSD 在第二環(huán)節(jié)登常首先特斯拉展示了一年時間里 FSD Beta 用戶從 2,000 人增加到 160,000 人之間經歷的變化:
共推送 35 次軟件更新;
已上線 281 個可提升 FSD 表現(xiàn)的神經網絡模型;
期間共有 18,659 次代碼改進;
共對 75,778 個神經網絡模型進行機器學習訓練(平均每 8 分鐘新增一個);
已有 480 萬數(shù)據(jù)集。
FSD Beta 從 2021 到 2022 的演變
如特斯拉此前計劃的那樣,F(xiàn)SD 發(fā)展至今依然是一套基于單車智能和純視覺感知的系統(tǒng),它擁有基于視覺神經網絡的 3D 環(huán)境感知和低延遲的本地規(guī)控能力。如今的 FSD Beta 已經可以實現(xiàn)從 A 到 B 的點對點智能駕駛,F(xiàn)SD 團隊所做的事情就是讓 FSD 可支持的 A 到 B 場景越來越廣泛,同時讓 A 到 B 的過程越來越順利。
特斯拉 FSD 如今包含 5 大塊的部分,最頂端的部分是車輛的規(guī)控系統(tǒng),下方是感知神經網絡,包含對于真實世界的環(huán)境探測,以及對于駕駛道路的識別和理解。神經網絡的下方是機器學習的訓練數(shù)據(jù),特斯拉的訓練數(shù)據(jù)來自于自動標注、訓練專用模擬器以及影子模式驅動的反饋數(shù)據(jù)引擎。
FSD 大系統(tǒng)架構
軟件算法的訓練還需要體系化能力的支持,這個就是感知神經網絡左側的「Training infrastructure」,特斯拉 Dojo 超算系統(tǒng)就是這一系統(tǒng)今后的核心硬件。
圖中右側的輔助部分是 AI 編譯器及推理引擎,主要用于 HW3.0 計算芯片下用雙路獨立 SoC 跑同一個神經網絡,系統(tǒng)必須能通過各種方式的改進達到足夠低的延遲時才能支持這樣的操作。
接下來就從路徑規(guī)劃開始看看現(xiàn)在的 FSD Beta 達到了怎樣的水準。
駕駛決策:要全面、安全還要長遠
這部分的演示上來就用了一個十字路口的無保護左轉案例。圖中標記的三個紅圈是系統(tǒng)在完成這次左轉執(zhí)行動作里需要緊密關注的三處交通參與者,左邊是一個遛狗過馬路的行人,前方是對象路口即將右轉的車輛,右側是正常直行車輛,對這幾處交通參與者的軌跡預判決定了車輛進入路口的時機、速度、物體間距和路線。
無保護左轉案例中需要關注的交通參與者
在車輛的路徑規(guī)控系統(tǒng)內,對這個場景做了這么幾種預測。
第一種是激進駕駛策略,直接快速進入路口,搶在行人之前左轉進入直行車道。此時標淺藍色的兩臺車輛不會與我們的行進發(fā)生干涉,但顯然這種策略對遛狗的行人造成了一定的危險。
策略一可能對遛狗行人威脅
第二種策略是讓人不讓車,車輛進入路口的時機比第一種稍慢,等行人過雙黃線后立即駛入路口進入向左的直行車道,但這種做法會迫使右側直行車輛大幅減速,不符合路口「轉彎讓直行」的邏輯。
策略二可能對右側直行車輛造成阻擋
第三種是車輛實際選擇的做法,等待行人通過雙黃線,右側直行車輛通過之后再駛入路口,此時的選擇下車輛不再會與路口的交通參與者發(fā)生干涉。
策略三等待行人和直行車輛通過再安全駛入路口
將這個案例里系統(tǒng)的決策過程繼續(xù)展開,其實涉及的都是對每一種可能的預判和參數(shù)計算。比如針對右側直行車輛,在我們不同的切入時機下,這臺車如果要不和我們發(fā)生碰撞他最小減速度要為多少?
但這只是其中一環(huán),如果只以不和右側車輛發(fā)生碰撞為目的,那么整個系統(tǒng)做出的決策水平上限也不會太高,因為在真實道路環(huán)境中需要考慮關注的參與者遠比這個要多。
所以問題最終變成了,規(guī)控系統(tǒng)如何對多交通參與者完成路徑預測,同時又在這個基礎上把自身行進路線對他們的影響考慮進來。
系統(tǒng)進行規(guī)劃時能同時納入計算的最多交通參與者變量決定了車輛做出決策的速度,這個過程的最短時間上限會接近 10 ms(0.01 秒)。
真實道路中交通參與者超過 20 個,路線大于 100 條
以無保護左轉為例,路口需要納入路徑規(guī)劃考慮的交通參與者通常會超過 20 個,系統(tǒng)對其生成的行進軌跡組合會超過 100 種,這樣的計算量會給系統(tǒng)帶來很大的負擔,如果按前面的計算方式,這會讓系統(tǒng)的決策時間輕松超過 1,000 ms,而特斯拉要求規(guī)控系統(tǒng)做出最終決策的時間是 50 ms。
為了解決這個問題,F(xiàn)SD 軟件團隊在路徑規(guī)劃的算法中加入了最佳路徑搜索機制,其邏輯簡單來講就是把系統(tǒng)資源優(yōu)先給最可行的方案,而不是簡單的雨露均沾。
這里納入考量的因素包括車輛自身軌跡、道路環(huán)境結構、其余交通參與者軌跡、實際車道線、交通信號燈以及法規(guī),在計算得出的候選路線選擇中,又會考慮到路口決策和后續(xù)更長遠的路徑選擇機動性。
并行樹路徑搜索
在經過并行樹的上兩級推算后,系統(tǒng)會生成多種可行進路線,從第三層開始,系統(tǒng)的在可行路線上擇優(yōu)的考量因素才會開始逐漸加碼,按優(yōu)先級從高到低進行逐層優(yōu)化。
例如前面無保護左轉路口的幾種路線就是在這一層生成,而左側到威脅行人的激進駕駛路線此環(huán)節(jié)被否。
進入到第四層,系統(tǒng)繼續(xù)加入更多約束條件,比如前面案例中左轉后對右側直行車輛的逼迫降速。
在基于數(shù)值優(yōu)化的物理模型下,每生成一次結果需要 1 到 5 ms,前面提到過無保護左轉路口場景下,需要預測的路線組合可能超過 100 種,所以最終的累積延遲依然不短。
于是特斯拉想到了另一個辦法,直接讓系統(tǒng)「查字典」在規(guī)控網絡循環(huán)里加入輕量可查詢網絡,這個網絡上包含特斯拉 FSD 隊列(入網 FSD 車輛)中由人類駕駛者實際示范的模板,以及由時限寬裕的離線求解器訓練得到的方案。適用于這種方案的策略每生成一次只需要 100 us(0.1 ms)。
加入輕量可查詢網絡
兩種路徑生成策略結合運行,系統(tǒng)繼續(xù)對規(guī)劃路徑打分評級,其中環(huán)節(jié)又包括碰撞檢驗、路線舒適性評估,系統(tǒng)還會測試 FSD 隊列中人類示范的駕駛路線,并對相應路線下路口接下來幾秒將發(fā)生的結果進行評分,而另一套評分則是純粹看系統(tǒng)的規(guī)控策略和人類相比有多少相似度。
所以這個大環(huán)節(jié)中既包含了絕對理性的物理模型數(shù)值篩選,又融入了相對感性和人類駕駛邏輯導向的擬人化邏輯程度考量,且根據(jù)評分減少了所需生成的路徑數(shù)量,降低了系統(tǒng)決策過程的時延。
好決策的前提:精確且豐富的感知
在 3D 環(huán)境感知網絡介紹的開頭部分,特斯拉拿出了一個很常見的攝像頭遮擋案例,圖中左上角的紫色車輛會在右側紅圈車輛左轉的過程中被遮擋一段時間。如果不采取其他措施,這段被遮擋的時間里系統(tǒng)就出現(xiàn)了道路物體感知的缺漏。
未被遮擋時的物體
相機被遮擋以后
但如果用物體被遮擋前的行進軌跡通過推理生成遮擋期間的預測軌跡,那么被遮擋期間系統(tǒng)損失的感知信息會因此減少,從而可以做出更優(yōu)的策略。從這個案例中也可看出感知能力對于規(guī)控的重要性。
特斯拉 FSD 軟件中運行的感知神經網絡可以利用 8 個 ADAS 相機獲取的圖像信息生成所在駕駛環(huán)境的的立體感知,對道路環(huán)境中的各種物體可以實現(xiàn)體積感知。在立體探測之外還可以識別不同物體特征的語義信息,例如車、路障、路牌、行人、路肩甚至是道路坡度等。
系統(tǒng)感知的道路環(huán)境的信息流也會用于各種特征的動態(tài)軌跡預測,展示案例中一臺皮卡后的拖掛車在經過拱橋路面時發(fā)生擺振,系統(tǒng)在拖車向右擺動時預判到了其下一階段向左回擺的趨勢,于是向左進行了避讓。
系統(tǒng)發(fā)現(xiàn)拖車出現(xiàn)向右的擺動
車輛的運動軌跡模型預判了往左的回擺并及時躲避
這套動態(tài)軌跡預測系統(tǒng)每 10 ms 就會更新一次數(shù)據(jù),并應用于所有搭載 FSD 芯片(HW3.0)的車輛當中。
高階視覺:從原材料到可用數(shù)據(jù)
特斯拉在視覺感知上的鉆研已經滲透到了每一個環(huán)節(jié)。
最開始的部分是攝像頭的信息校準。在這一環(huán)節(jié),系統(tǒng)對 8 個 ADAS 相機獲取的圖像信息進行「毛加工」畸變修復處理,然后輸入到下一個環(huán)節(jié)的特征提取層。
值得注意的是這個「毛加工」環(huán)節(jié)里,相機獲取的圖像信息不經過 ISP 圖像處理器,而是直接把原始的 12 bit 色深光子信息給到特征提取層,這么做一方面減少了信息流經 ISP 延遲,其次獲得了比 8 bit 色深高出 16 倍的色彩動態(tài)范圍(最大信號和最小信號的比值大 16 倍)。
經圖像特征提取器完成特征識別檢測后,系統(tǒng)會用這些物料構建出一個可查詢的 3D 空間模型,并且將其中的關鍵特征與參數(shù)放到「重點空間」模型中運行。
這些內容經「重點空間」處理后輸出為高維度空間特征,系統(tǒng)接著會把這些高維度空間特征在不同時間下的坐標關聯(lián)起來,完成特征的時序對齊。
最后,系統(tǒng)會將完成時序和空間對齊的高維特征運行逆向計算,最終形成特征在空間中的體積測算結果(模型中用灰色方塊顯示)。
對于精度要求更高的特征,系統(tǒng)還會將上述的「灰色立體方塊」放到 MLP 多層感知運算模型中進行進一步細化還原,利用可查詢 3D 點云數(shù)據(jù)獲取特征在任意位置下的語義和坐標。
說完特斯拉又舉了一個鉸鏈式大巴的特征識別案例。圖中在馬路右側有一臺停站狀態(tài)的鉸鏈大巴,此時系統(tǒng)將其識別為靜態(tài)特征(紅色標記)。
鉸鏈大巴被識別為靜態(tài)
在接近大巴的過程里,大巴開始起步,鉸鏈前半截車廂開始移動,但后面半截車廂依然處于靜止狀態(tài)。此時感知系統(tǒng)已經開始做出反應,將前半截車廂識別為動態(tài)特征(藍色標記)而后半截車車廂依然識別為靜態(tài)特征。
鉸鏈大巴前半截車廂被識別為動態(tài)
當鉸鏈大巴繼續(xù)前進,系統(tǒng)進一步認識到后半截車車廂與前半截車廂是一個移動整體,于是將整個鉸鏈大巴標識別一個連貫動態(tài)特征,并且相對準確地還原了鉸鏈大巴此時前后車廂的折角。
鉸鏈大巴整體被識別為動態(tài),車側彎曲輪廓得以還原
對于傳統(tǒng)特征識別,這個案例的難點是系統(tǒng)到底會把鉸鏈大巴識別為兩個特征還是一個特征,這決定了系統(tǒng)在運算時采用的最大外表體積標記框對鉸鏈大巴用一個體積框還是兩個,因為鉸鏈大巴在轉向時是彎曲的,因此其中的偏差會導致系統(tǒng)對于鉸鏈大巴干涉體積判定的失誤。
而特斯拉的視覺環(huán)境感知系統(tǒng)則相對精確地構建出了這一場景下的特征空間狀態(tài)。
除了交通參與者以外,特斯拉的視覺感知系統(tǒng)還能識別出路面的「可行駛空間」。這一能力可以幫助系統(tǒng)在施工路面和彎道里更好地實施車控。路面 3D 感知的結果相對于其他環(huán)境感知沒有采用體積方塊表達,而是根據(jù)環(huán)境信息生成相對平滑和連續(xù)的模擬表面。
道路型面感知
道路坡度感知
在這一小節(jié)的最后,特斯拉還介紹了近期在 NeRF 上取得的突破,即 Neutral Radiance Field,神經網絡輻射場。特斯拉正在嘗試用這種模型去實現(xiàn)更強大的基于視覺構建而成的 3D 環(huán)境模型。
或者換句話說,特斯拉期望用這樣的方式在全世界實現(xiàn) FSD 車隊用視覺即可采集高分辨、高還原度的立體環(huán)境信息。
可逆向構建 3D 環(huán)境模型的 NeRF 網絡
講 NeRF 時,特斯拉拿出了近期他們用 FSD 隊列收集的體積渲染信息做的一初高精度 3D 環(huán)境重構場景,目前的結果已經有不錯的還原度。
通過 NeRF 構建的 3D 模型
說回特斯拉的視覺感知網絡,整個神經網絡的特征感知能力是通過海量的自動標記數(shù)據(jù)訓練完成的,特斯拉對此的終極目標是在數(shù)據(jù)訓練的閉環(huán)流程中,不再需要任何人工。接下來就是關于特斯拉自動標注環(huán)節(jié)的介紹。
數(shù)據(jù)訓練軟優(yōu)化:減少內耗作用大
機器學習訓練是 FSD 整體結構下重要的一環(huán),同時也是一個數(shù)據(jù)量極其龐大的環(huán)節(jié)。根據(jù)特斯拉的統(tǒng)計,在前面高階視覺環(huán)節(jié)用于演示的幾段素材是經 14 億幀訓練素材學習之后的結果。
如果把用于訓練的 GPU 工作至 90℃ 的性能狀態(tài),那么 10 萬個 GPU 工作一個小時可以完成上述的訓練。反過來,如果只有一個 GPU,那么需要 10 萬個小時(136.9 個月)才能完成這樣的訓練。
這樣工作量的任務如果用人工來完成,是不現(xiàn)實的。
特斯拉當今的訓練量和訓練系統(tǒng)規(guī)模
特斯拉現(xiàn)有的云計算訓練網絡里擁有 1.4 萬個GPU**,其中 1 萬個用于訓練,另外 4 千個用于自動標注**。
用于訓練的視頻素材被存儲為分布式管理的 30 PB(30,720 TB)視頻緩存,每天輸入訓練系統(tǒng)的視頻多達 50 萬個,而訓練系統(tǒng)內每秒同時跟進處理的 python 視頻實例有 40 萬個。
為了處理好這樣規(guī)模的訓練任務,特斯拉自研了訓練的軟件系統(tǒng)。
機器訓練環(huán)節(jié)的軟件優(yōu)化
在一套訓練系統(tǒng)中,加速器(英偉達 A100 GPU 或者是后續(xù)的 Dojo)是成本最高的硬件,所以它應作為系統(tǒng)中使用率最高的環(huán)節(jié),成為系統(tǒng)的性能瓶頸。
或者說,其他所有的環(huán)節(jié)的可處理任務量都不能低于加速器,這樣才能保成本高昂的加速器不會出現(xiàn)性能過剩的情況。
這里涉及的各種漏斗式性能考量十分復雜,包含存儲器容量、存儲的傳輸帶寬、節(jié)點的 CPU 性能、節(jié)點的內存容量以及種種。特斯拉在這個環(huán)節(jié)做了大量優(yōu)化和提升效率的機制。
訓練用的視頻素材本身相比圖片要復雜很多,因此在訓練優(yōu)化的節(jié)點上,特斯拉從上游的存儲端就開始,一路進行優(yōu)化直到最后的加速器。
視頻數(shù)據(jù)庫優(yōu)化帶來 30% 性能提升
視頻物料本身在傳輸?shù)倪^程里不經任何后期處理,特斯拉只會在其中選取訓練所需的素材幀以及的關鍵幀,然后將其打包傳輸至分享內存,再傳輸至 GPU,然后再用經過 GPU 加速后的硬解碼器對視頻素材解碼。因此最后相當于直接用 GPU 來做這個事情,沒有占用其他的計算硬件資源,系統(tǒng)的訓練速度可提升 30%。
這是效率提升最多的措施,其余措施里多的可以到 15%,最少的也有 3%,層層疊加以后環(huán)境感知網絡的訓練速度提升了 2.3 倍。
所有優(yōu)化疊加使得性能提升 2.3 倍
路口難題:依然要地需圖
在車道識別的方式上,大家常用的方式是 2D 像素識別,輸入圖像信息然后區(qū)分哪些是當前車道線,哪些是其他線路。這種方式在良好且情況相對簡單的高速鋪裝路面是沒有問題的。
傳統(tǒng)的 2D 像素車道識別
但是如果將同樣的方式應用于相對復雜的城市級智能駕駛,尤其是難度較大的路口場景,2D 像素識別方式得到的車道線預測結果就完全是另一番景象了,系統(tǒng)得到的識別結果幾乎沒法用,原文中的兩個形容是一個簡單的轉彎就會導致「peaks structured lanes」,而復雜路口的結果更是「hopelessly insufficient」沒救了。
特斯拉期望的效果(左側)和實際的車輛識別結果(右側)
左側的圖片則是特斯拉希望系統(tǒng)可以獲得的信息,整個路口的全路線圖譜。圖譜中每一處有路線合并、分叉或者停車的地方被稱為節(jié)點。
大家可以發(fā)現(xiàn),不同節(jié)點之間的路線既不是簡單的直線也不是簡單的圓弧,而是會受到實際的道路形狀和車道幾何形狀影響,所以系統(tǒng)需要結合這些因素計算出節(jié)點與節(jié)點之間的線路。
因為原先的方法搞不定,于是特斯拉開始采取其他手段,引入的新系統(tǒng)叫「車道探測神經網絡」,它主要包含三個部分。
第一個部分是視覺感知組件,這部分與原來 FSD 的視覺網絡基本相同,系統(tǒng)可以利用視覺感知生成豐富的道路環(huán)境視頻模型。
在第二個部分,這些信息與車輛的導航地圖信息被一起放到一個叫「Lane guidance Module」 的模塊中進行運算推演,這里的地圖并非高精地圖,但是為運算提供了很多基礎指引信息。模塊運算的結果是稠密張量,相當于對路口進行了「信息解碼」。
這些稠密張量隨后又將輸入第三個環(huán)節(jié),特斯拉希望對這些結果進行轉化,最終生成車道圖譜。特斯拉處理這一數(shù)據(jù)的過程有點像通過圖片生成字幕,將前面得到的稠密張量放到語義回歸解碼里可以生成一種能用于推算車道關系的文本,特斯拉將其定義為一種特殊的「路線語句」。
其「單詞」和「標志」就是 3D 世界中的車道坐標,標志內的修飾符工具類可以對車道之間的關聯(lián)解碼。于是最終生成的車道圖譜結果會像下圖所示。
整個過程的步驟上,簡單來說就是先找出路在地圖上的區(qū)域,再在路上標節(jié)點(路的起點、停止線、匯合處等),然后連接點與點之間的路線,在把連接的路線根據(jù)實際道路的幾何形狀做匹配優(yōu)化。
具體的細節(jié)上,特斯拉在最開始將路口的衛(wèi)星俯視圖類比為空白板,然后在圖中某一車道的起點標記一個綠點,將其編碼為這個路口的網格分割圖譜索引起點。
路線語句的起點
網格索引
因為圖里的網格點數(shù)量較多,直接進行全圖預測過于耗費計算資源,如果針對此類問題做出更好的預測策略,帶來的優(yōu)化將同時給訓練和測試過程提供增益。
減少計算消耗的第一步就是先降低索引密度,然后根據(jù)道路的車流熱區(qū)粗定位可能的道路區(qū)域(透明度越低的區(qū)域車流越大),在這些熱區(qū)里選中可能性最大的網格區(qū),對這塊區(qū)域進行下一步的精定位預測,從而找到精確的節(jié)點。
根據(jù)熱區(qū)確定大致區(qū)域
在已確定區(qū)域內提高索引精度
節(jié)點分為不同的種類,這里找到的節(jié)點是一條線路的起點,所以它被標記為綠色的「起始節(jié)點」。于是「路線語句」里的第一個單詞就有了。
路線語句生成的第一個單詞
用前面的流程繼續(xù)找尋下一個節(jié)點,這次找到了右轉后路口的停止線,因為這一節(jié)點處在綠點的延續(xù)路線上,因此它被標記為延續(xù)節(jié)點。
延同路線找到第二個延續(xù)節(jié)點
兩個節(jié)點需要用線路連接,最基礎的是直線連接,但這里需要考慮到路口的幾何形狀,所以系統(tǒng)會讓線路變?yōu)檫m合右轉的行進曲線,這時候「路線語句」的第二個單詞也生成了。
連接兩個節(jié)點生成路線
根據(jù)道路幾何信息重新校準路線曲率
順著剛才的路線繼續(xù),圖上的這條右轉路線就結束了,紫紅色的點被標記為結束點;氐骄G色的起始點繼續(xù)索引,會發(fā)現(xiàn)右轉不僅可以進入右側第一車道,還可以進入右側第二車道。進入右二車道的青色節(jié)點被稱作分支節(jié)點。順著分支點繼續(xù),接著就是這條分支的結束節(jié)點。
同一起始節(jié)點衍生的分支節(jié)點
一遍遍執(zhí)行上述的索引后,整個路口所有的線路圖就構建完了。
這么看下來似乎路口線路的預測方式有些復雜,但實際上 FSD 團隊嘗試過其他「簡單」辦法,比如用車道分割的方式來預測線路,但是現(xiàn)實中車道線經常會有不清晰或者惡劣天氣干擾等系統(tǒng)難以判斷的不確定情況,這時候當你不清楚車道到底有幾條的時候就沒辦法用車道分割來做預測,所以系統(tǒng)會經常失效。
類似的方案還有很多的限制,比如線路重疊時搞不定,如果想解決可能甚至需要對路線在多個圖層上處理,總之復雜且低效。
而「路線語句」的框架模型可以更便利地提取樣本,適合后期感知處理。這樣的框架不僅會用于 FSD 后續(xù)也將用于 Optimus 的感知系統(tǒng)。
最終的效果就像下圖中這樣,車輛自身系統(tǒng)可以在無其他外輔助感知(例如預加載高精地圖)的情況下直接生成路口的行車路線圖。
最后應用的行車路線圖
隨后特斯拉又介紹了另外兩個路線預測上的案例。下圖左側的案例是通過路口時對向有一臺闖紅燈的車輛,系統(tǒng)會預測短期內闖紅燈車輛可能的幾條行進路線,比如圖中有直行、左轉和掉頭,然后根據(jù)實際闖紅燈車輛的行駛軌跡判斷它走了哪條路線,從而做出更合理的規(guī)避。
對其他車輛的路線預測
圖片右側是一個更加體現(xiàn)系統(tǒng)語義解讀能力的案例。案例紅綠燈路口的左側車道有臺打著雙閃的車輛,盡管路口當時是紅燈,而且右側車輛最終也停下來等紅燈,但是系統(tǒng)判斷左側打雙閃的車輛并非正常等紅燈的狀態(tài),等路口變綠燈時這臺車也不一定能走,所以車輛提前向右變道然后在右側車道等紅燈。
所以系統(tǒng)的預測信息構成里不僅包含特征、位置、軌跡、路線,還包含目標的特征屬性識別。因為真實的駕駛環(huán)境下一直是瞬息萬變,所以系統(tǒng)需要有能力在短時間內應對各種變量,所以延遲一定要盡可能的低。
感知的兩個階段第一個是 3D 狀態(tài)下的物體和環(huán)境感知,第二個階段是通過 3D 環(huán)境的張量數(shù)據(jù)配合其余附加信息判斷目標物的屬性和意圖,并依此將系統(tǒng)資源有目的地分配給優(yōu)先級較高的目標。
超過 1,000 個 NN 信號,每一個都不簡單
上一環(huán)節(jié)介紹了生成道路「路線語句」的路徑感知系統(tǒng),讓這套系統(tǒng)做到本地化計算運行是實現(xiàn)單車智能的一大關鍵。在 FSD 芯片里處理這一任務的是一個叫「TRIP ENGINE」的模塊,其功能簡單,特點是可以實現(xiàn)效率極高的密集點預測。
FSD 芯片的量產于 2019 年,在硬件設計階段特斯拉并沒有預見 3 年之后要跑這樣的一套模型,所以特斯拉在這里面對的挑戰(zhàn)是如何用一個硬件去做它原本設計目的之外的復雜工作。
特斯拉 FSD 團隊最終用一種頗有創(chuàng)造性的嵌入表導入節(jié)點緩存再多次迭代的方式解決了這個挑戰(zhàn),整個運算只用到密集點預測引擎「TRIP ENGINE」。實際上為了讓整個流程變得可編譯,團隊在各個環(huán)節(jié)做了大量的措施去提高抓取精度以及優(yōu)化性能。
數(shù)據(jù)上,最終 FSD 的車端路徑神經網絡有 7,500 萬參數(shù),延遲 9.6 ms,能耗為 8W。
FSD 路徑神經網絡的規(guī)模
在整個系統(tǒng)里運行的各種架構、模型與網絡中 TRIP ENGINE 只是其中的一個。FSD神經網咯****系統(tǒng)下有超過 1,000 個神經網絡信號,包含的參數(shù)達到了 10 億個。
海量的神經網絡也帶來了海量的編譯任務,超 15 萬的神經網絡層和 37.5 萬個神經網絡連接最終需要經過專門的神經網絡編譯器與常規(guī)編輯器對接,先用圖片分割器將神經網絡中的圖片根據(jù)下游硬件分割為獨立的子圖,經過神經網絡鏈接器與傳統(tǒng)鏈接器對接,完成鏈接時間優(yōu)化后再經調度編程成為被系統(tǒng)執(zhí)行的指令。
到硬件環(huán)節(jié),F(xiàn)SD 芯片內的兩顆 SoC 以任務混聯(lián)的方式對各類網絡進行處理,經過各個環(huán)節(jié)的優(yōu)化和性能提升后,在 100 TOPS 的算力下系統(tǒng)每一幀的神經網絡信號可輸出超過 1,000 個。
FSD 系統(tǒng)神經網絡的可視化展示
自動標注:能力泛化的底層能力
在 FSD 章節(jié)里特斯拉展示的各種能力除去搭建軟件架構,無一不是經過大量的機器學習訓練而成。讓系統(tǒng)快速學習更多場景,完成不同區(qū)域的能力泛化是 FSD 提升可用性和安全性的重要內容。
比如前面提到的 FSD 路線預測模型,特斯拉認為如果要實現(xiàn)較好的能力泛化,訓練的任務量會超過 100 萬個路口,不過怎么去解決如此大量的系統(tǒng)訓練監(jiān)督問題?
隨著特斯拉交付量的提升,路上帶 FSD 芯片的特斯拉車型已經越來越多,特斯拉收集的數(shù)據(jù)量也在與日俱增,日新增路途收集量為 50 萬條,將收集的數(shù)據(jù)轉變?yōu)榭捎玫挠柧毼锪嫌质且粋不小的挑戰(zhàn)。
路口問題的訓練需要約 100 萬個訓練素材
從 2018 年開始特斯拉就開始用人工搭配自動標注的方法對軟件進行訓練。一開始的自動化程度相對較低,能實現(xiàn)自動化的環(huán)節(jié)也比較受限,效率較低。2018 到 2020 的這兩年里特斯拉的標注效率幾乎都以 100 倍的速度在提升。
FSD 歷年標注效率的進步
然后特斯拉介紹了目前最新的多路途重建自動標注機器,其結果是 1 萬條路線的的標注工作量從原來需要 500 萬小時人工標注才能完成,縮短至僅需 12 小時的機器標注。
特斯拉自動標注最新的水準
實現(xiàn)這種全新標注的步驟包括三點。
第一步是基于 8 攝像頭視覺感知的軌跡高精度重建,車輛獲取環(huán)境的視頻數(shù)據(jù)、自身 IMU 慣導數(shù)據(jù)、里程數(shù)據(jù),可以在向量空間里重構道路模型,其軌跡重構的尺寸誤差為 1.3 cm/m,角度誤差為 0.14°/m。重構的結果會成為后續(xù)人工審核的主要參照,特斯拉會將重構的軌跡與環(huán)境結構與路線數(shù)據(jù)進行前融合。
第二步是多路線重構融合,它是整個三步中最為關鍵的一步,它可以將不同車輛收集的的環(huán)境重構信息進行拼接融合,系統(tǒng)會進行不同路線的拼接、同路線對齊、路面缺失信息補全等工作,從而獲得更完整的道路環(huán)境模型。系統(tǒng)標注完成以后重構素材最后會經人工分析員審核定稿。
眾包方式的拼接融合
因為整個環(huán)節(jié)主要靠云計算系統(tǒng)自動運行,所以重構環(huán)節(jié)到此通常只需要 1 到 2 小時。
第三個環(huán)節(jié)就是在前兩步里已經重構好的模型上不斷地加入新增路線。每條新路線的自動標注只需要 30 分鐘,人工則需要數(shù)個小時。所以這個 3D 重構模型的規(guī);俣戎饕Q于新路線數(shù)據(jù)量和用于訓練的計算性能量。
在素材收集的過程中同一環(huán)境的情況也會發(fā)生變化,比如光照、天氣、交通等,但同一路線的素材可以通過多臺車輛跑多次收集而來,因此重構模型的質量也可以不斷提升。
同路線不同條件下的多素材采集
車道標注只是特斯拉 FSD 眾多標注內容里的一種,在其他類型的標注里,很多都有自動標注機制,甚至有一部分是已經無人化的完全自動標注。
特斯拉團隊形容自己的自動標注就像一個數(shù)據(jù)工廠,一頭進去采集的原材料,另一頭就加工輸出大量的訓練物料。
逆向模擬器:特斯拉的訓練元宇宙
這張路口的圖片并非實拍,而是特斯拉訓練模擬器的視頻截圖。這個場景的人工構建需要花費 2 周時間,在特斯拉團隊看來,這是樣的速度是無法接受的。
用于訓練的道路環(huán)境模擬器
于是特斯拉轉而采用地表環(huán)境自動標注的方法,在新的自動化工具協(xié)助下,機器生成差不多效果的模擬環(huán)境只需要約 5 分鐘,比人工的效率高出近 1,000 倍。
構建的自動化流程始于道路的路面信息(包含路面、車道、路肩等),系統(tǒng)會通過這個數(shù)據(jù)生成模擬的的道路面并完成渲染。
然后系統(tǒng)再根據(jù)車道信息反推生成馬路上的各類車道線和交通線。
接著隨機生成路肩區(qū)域的環(huán)境,例如在馬路中央的路肩里生成綠化帶,在馬路兩側的路肩內生成人行道和建筑物。系統(tǒng)還會隨機生成一些消防栓和垃圾桶這樣的物體,并且生成的的植被也會像真實世界一樣掉葉子。
在路口位置,模擬系統(tǒng)會根據(jù)路線節(jié)點信息生成路口對應的交通指示燈,以及通過路線圖譜生成車流。
模擬環(huán)境生成以后特斯拉可以對這個環(huán)境進行豐富的自定義變量修改,比如各種交通參與者、有不同區(qū)域特性的建筑、環(huán)境天氣、環(huán)境光照、積水等等。
以及為了進一步測試還可以更改路面的通行標志,以測試同一個路口環(huán)境在不同的路線交匯下的情況。以上都讓特斯拉可以更全面地獲得更多的測試場景,有些甚至是原本真實世界中很難采集或者無法采集的。
路口的車道通行標識可自定義修改
修改后路口的路線圖也隨之改變
特斯拉利逆向成器生成的真實道路區(qū)域塊為 150 ,生成好的模擬環(huán)境可以保存并在后續(xù)時間加載,也可以和其他區(qū)塊拼接,一組圖塊的排列可以是 5 × 5 或者是 3 × 3, 通常特斯拉會給區(qū)域里車流較大的熱點區(qū)域或者是值得作為研究的區(qū)域做相應的環(huán)境模擬。
如果是人工來建造模擬環(huán)境,一旦規(guī)模變大所需的時間會非常漫長,但是有了自動化的建模工具以后效率會大大提升,比如圖中圣弗朗西斯科的模擬區(qū)域塊在云特斯拉的訓練系統(tǒng)下運行一天的時間即可生成。大量基于真實道路生成的可自定義模擬環(huán)境有效地增進了 FSD 團隊在各種特殊場景下訓練。
數(shù)據(jù)訓練:老司機是這樣練成的
數(shù)據(jù)訓練的主要作用是幫助系統(tǒng)糾正一些錯誤的邏輯。比如圖中的案例里,這臺違停在路口的車輛應當被視作一個靜態(tài)障礙物,但系統(tǒng)卻誤認為這是右側等待通過路口的車輛。
誤識別右側車輛為等待車輛
為了讓系統(tǒng)學習學習場景,需要從收集的視頻里找到類似場景作為訓練素材。然后經過 13,900 個視頻學習訓練以后,系統(tǒng)再次跑相同的場景就不會再把路口違停車輛標記為待通行車輛,而是標記為紅色靜止車輛。
類似情況的訓練素材
訓練后正確識別違停車輛
機器學習訓練不僅僅用于 FSD 的特征識別和語義理解,還用于更多細化的方面,甚至是判斷車輛的移動的某個信號。
同時訓練也是無止境的,訓練量越多,系統(tǒng)的判斷能力就越精確。特斯拉在今年一共給車輛的移動信號判斷做了 5 次升級,每一次的升級的訓練和評估場景數(shù)量都在增加,而系統(tǒng)的精度也從最初的不到 90% 慢慢增加,直到超過 95% 朝著 100% 接近。
今年的 5 次訓練升級
類似的訓練流程幾乎用于所有的神經網絡信號判斷提升,特斯拉聯(lián)網 FSD 終端的可觀規(guī)模和數(shù)據(jù)收集量是這個閉環(huán)的源頭要素。而訓練背后所需的計算資源也開始成為特斯拉關注的重要環(huán)節(jié)。
訓練的類型多種多樣
小結二:激光雷達時代的 FSD
關于特斯拉純視覺感知的路線選擇是否正確的爭論從未停止過,隨著中國本土新造車軍團紛紛擁抱激光雷達,甚至大家看到在 20 萬級別的車型上激光雷達也能得以應用時,激光雷達智能駕駛的商業(yè)化可行性逐漸開始吸引越來越多的企業(yè)。
激光雷達的成本會越來越低、性能會越來越好是一定的。但即便如此,特斯拉也不會去使用激光雷達。因為激光雷達的成本問題只是特斯拉選擇純視覺路線的一個因素,更重要的原因在于視覺提供的語義信息和感知邏輯擬人度都遠超其他傳感器。
在 2022 AI Day 上關于「感知」的內容只占 FSD 篇章的四分之一左右,其中關于體積感知距離感知的內容特斯拉不再強調視覺的「能不能」,而是著重去講特殊場景下系統(tǒng)對于場景的正確理解的感知精確性。
換句話說,特斯拉對于自己可以通過視覺實現(xiàn) 3D 環(huán)境信息感知這件事已經不那么想重點宣傳了,它更希望向世人展示的是 FSD 的整個架構的先進性。
如今的特斯拉 FSD 已圍繞最初的設想建立起了強大的體系化能力。不論是感知、規(guī)控、訓練還是標注, 在每一個智能駕駛的大環(huán)節(jié)上特斯拉都有足夠的儲備和實力來實現(xiàn)「Full Self-Driving」。并且在各個大小環(huán)節(jié),特斯拉對系統(tǒng)效率的重視和投入也讓 FSD 業(yè)務的快由內而外。
大家最關心的地圖數(shù)據(jù)方面,特斯拉這次十分坦誠地表示在城市的線路感知環(huán)節(jié)用到了非高精地圖用于導入路口的各類車道信息。但在用于系統(tǒng)訓練的 3D 道路模擬環(huán)節(jié)可以明顯發(fā)現(xiàn)特斯拉在美國本土采用了眾包采集的方式。鑒于當下的數(shù)據(jù)敏感情況,國內是否允許這樣的操作不得而知。如果禁止,那么后續(xù)中國區(qū) FSD Beta 的訓練場景獲取成本無疑會更高,迭代升級速度肯定會造成影響。
由于 FSD 進行算法訓練的兩大要素云計算硬件和訓練素材都有著較強的本地化屬性,所以不難預見 FSD Beta 在不同國家之間有著不同的狀態(tài),中國區(qū)后續(xù)推送的 FSD Beta 如果不想辦法針對中國的特殊道路場景進行專項訓練那么實際表現(xiàn)可能會水土不服。
03Dojo:下一階段的制勝之道
在去年的 AI DAY 上,特斯拉已經展示了其自主研發(fā)的首款 AI 神經網絡訓練芯片 Dojo D1,另外還一并展示了由 D1 組成的超級計算機集群 ExaPOD,今年 AI DAY 演講壓軸部分就留給了 Dojo,
之所以需要一個性能如此強大的計算硬件主要在于軟件訓練的速度決定了特斯拉 FSD 進步和迭代的速度,而某些復雜工程的訓練時間在 Dojo 出現(xiàn)之前已經到了按月計時的程度。
如果特斯拉可以自研出性能和成本都具備競爭力的專用訓練硬件,對于后續(xù)更大規(guī)模的訓練將是一舉兩得之策。
因此在系統(tǒng)設計之初,特斯拉團隊重點考慮的目標就是效率,這套系統(tǒng)的算力需要做到在極大的規(guī)模下仍然有很高的利用率。
從上至下的內存選型
一開始特斯拉嘗過試用 DRAM(動態(tài)存儲器)來打造這套系統(tǒng),但是試驗效果不如人意,于是特斯拉十分反常規(guī)地決定放棄 DRAM 轉而采用了 SRAM(靜態(tài)存儲器)來作為 Dojo 系統(tǒng)的存儲媒介。
關于這兩種存儲媒介的區(qū)別可以大致描述為 DRAM 更便宜,更容易做大容量,但是能耗更高,速度更慢。SRAM 更貴,容量要小得多,但速度更快能耗更低。
速度是特斯拉選 SRAM 作為 Dojo 存儲的核心原因,盡管 SRAM 的存儲容量遠不如 DRAM,若想實現(xiàn)高的計算資源利用率,系統(tǒng)就必須要有高帶寬和低延遲,SRAM 在這方面優(yōu)勢明顯。
這種關鍵決定往往會引發(fā)很多的連鎖反應,例如假設系統(tǒng)需要虛擬內存那么就需要頁表(Page Table),可是頁表也需要占據(jù)空間,SRAM 存儲量本來就小所以就不做虛擬內存。
另外系統(tǒng)內也沒有中斷器(interuputs),因為系統(tǒng)的加速器直接與編譯器相連,而編譯器負責所有調度內容,所以系統(tǒng)本身也不需要中斷器?傊谝幌盗械南到y(tǒng)設計上特斯拉都與常規(guī)方案大相徑庭。
特斯拉在系統(tǒng)設計中非常重點追求的一個目標是「No Limits」,這里可以理解為無限擴展性和算力自由組合性。團隊希望打造出來的硬件具備高度靈活而且不存在固定搭配限制的理念,但如今的計算硬件很多時候 GPU、CPU、DRAM 等環(huán)節(jié)都是按照某種配比組合而成,這種方案下如果需要更強的性能通常需要整體升性能更強的新系統(tǒng)。
特斯拉半導體團隊希做出一套體系化考量下軟硬結合的垂直整合方案,實現(xiàn)極高的系統(tǒng)效率、能耗控制、散熱控制、全棧式系統(tǒng)管理等。
為了找到系統(tǒng)的各個限制環(huán)節(jié),在很早的時候 Dojo 芯片就開始實驗性地用于 FSD 軟件的訓練任務之中,而過去的時間里特斯拉半導體團隊在這樣的實踐中收獲了很多經驗和教訓。
Dojo 的基本構成與性能
Dojo D1 在 645 mm 的芯片面積上搭載了 500 億個晶體管,晶體管數(shù)量超越了 AMD Epyc Rome 的 395.4 億個,落后于 NVIDIA 的 GA100 Ampere SoC 的 540 億個,但是后者的芯片面積為 826 mm。
D1 每平方毫米上集成了 7,750 萬個晶體管,有效晶體管密度是首屈一指的,高于 NVIDIA A100 GPU,次于蘋果 M1。
D1 的熱設計功耗為 400W,F(xiàn)P32 精度下的算力峰值達 22.6 TFLOPS。作為對比,我們再次拿出 NVIDIA A100 GPU,后者熱設計功耗同為 400W,但是 FP32 下的峰值算力是 19.5 TFLOPS。
基于 D1 芯片,特斯拉推出晶圓上系統(tǒng)級方案,并通過臺積電 InFO_SoW 封裝技術,將 25 顆 D1 集成為一個訓練瓦。同時,特斯拉將 12 個訓練片集成為一個機柜。
所以,在 10 柜機系統(tǒng)前提下,1 個 ExaPod 即含有 120 個訓練片模組、3,000 個 D1 芯片,超過 1 百萬個訓練節(jié)點,算力達到 1.1 EFLOP,并擁有 1.3 TB 高速 SRAM 和 13 TB 高帶寬 DRAM。
每個訓練瓦由 25 枚 D1 芯片組成,它們以 5 × 5 的方式排布,以二維 Mesh 結構互連。它采用的是近存計算架構,片上跨內核 SRAM 達到了 11 GB,但是耗電量也達到了 15 kW,能耗比為 0.6 TFLOPS/W@BF16/CFP8。
另外,特斯拉還開發(fā)了 Dojo 接口處理器(DIP),位置處于端板邊緣,主要作用是連接訓練處理器和 CPU,每個 DIP 都有 32 GB 的 HBM(高帶寬內存),以及 900 GB/s 的對外傳輸帶寬,總量為 4.5 TB/s,每個 Tile 共有 160 GB 的 HBM。
每個訓練模塊外部邊緣的 40 個 I/O 芯片達到了 36 TB/s 的聚合帶寬,或者 10TB/s 的橫跨帶寬。
Dojo 的性能寶典:密度成就性能
構建一個規(guī)模巨大的一體式加速器是 Dojo 的愿景,對于軟件而言,它將是一個單體式的帶寬極高、內存極快的無縫計算平臺。
實現(xiàn)這一愿景的關鍵是 Dojo 系統(tǒng)的「訓練瓦」,一個訓練瓦內不僅通過極高的帶寬集成了 25 枚 Dojo 芯片,而且多個訓練瓦還可以通過直接連接的方式組成新的訓練瓦片組。
高密度是 Dojo 實現(xiàn)高性能的理念,這里的密度不僅指晶體管密度,還有下游的系統(tǒng)密度、供能密度、散熱密度等一系列提高系統(tǒng)集成度的環(huán)節(jié)。
自去年 AI Day 開始,特斯拉降 Dojo 投入軟件訓練后遇到的第一個難題就是供能。想讓 Dojo 實現(xiàn)高性能運算的供能密度是十分夸張的,圖示芯片上的 12 相獨立供電一共需要 1,000 A 的電流,每平方毫米的電流達到了 0.86 A。面對這樣的供電要求,特斯拉開發(fā)了一套多層垂直供電方案,因為芯片本身又由不同種類的材料組合而成,巨大的供能帶來的發(fā)熱也使得材料的熱延展性成了需要重點關注的內容。
換句話說,如果沒有控制好,芯片在工作中可能會因為材料間的熱延展不一致而開裂損壞。
Dojo 的高性能運轉要求極高的電流供應
起初特斯拉與供應商一同開發(fā)這套供電方案,但后來特斯拉意識到這套系統(tǒng)還是需要通過自研來解決。隨后的 24 個月時間內,特斯拉做了 14 版電壓調節(jié)器模組,最終降低了 54% 的熱延展,同時將供電電流提高了 2.9 倍。
硬件優(yōu)化后的效果
在此之后的振動問題也是一個較為棘手的環(huán)節(jié),因為芯片的 X、Y 軸都被設計用于高帶寬通訊,所以芯片上只有極其有限的垂向空間可供使用,所有的組件都必須與電源集成在一起,包括時鐘、供電系統(tǒng)以及系統(tǒng)控制器。當電流大到一定程度時芯片會因壓電效應產生振動,進而影響周邊電容導致振蕩器的時鐘輸出失效。
解決這個問題特斯拉做了三個措施,改用軟端接電容器,避開共振頻率,采用 Q 因子降低 10 倍的微震蕩器。
降低振動的三大措施
除了在芯片層面提升系統(tǒng)密度,特斯拉也在外部的基礎設備上為提升密度做了優(yōu)化。所有的環(huán)節(jié)正如 Dojo 環(huán)節(jié)一開始就提到的那樣,一切圍繞提升系統(tǒng)密度而打造。因此在每一個階段的「硬件組」上幾乎都可以看到高密度的連接、極快的帶寬、充沛的系統(tǒng)供能和強大的散熱。
訓練中心也講究軟硬一體
硬件大致介紹完,特斯拉開始介紹 Dojo 項目里軟件發(fā)揮的作用,首先就從「性能」的組成開始,性能等于芯片算力 × 一體化程度 × 加速器使用率。所以在硬件相對固定的前提下,提高系統(tǒng)的一體化程度以及加速器的使用率就是提高系統(tǒng)性能的路徑。
性能 = 芯片算力 × 一體化程度 × 加速器使用率
提高一體化率主要靠改進編譯器,提高加速器使用率主靠改進數(shù)據(jù)提齲
在類殘差網絡模型下,隨加速器的數(shù)量增加,系統(tǒng)的吞吐量幾乎是線性增長。
但是視覺模型的實際情況比這個要復雜,運行時系統(tǒng)的步調一致性會出現(xiàn)偏差,進而導致系統(tǒng)性能損失,最后反應在隨加速器的數(shù)量增加,系統(tǒng)的吞吐量并不是線性增長,而是往后斜率越平緩。
Dojo 計算群在硬件設計之初就考慮了這個問題,所以通過各種硬件結構上的方式實現(xiàn)了多硬件并聯(lián)后加速器越變越強但系統(tǒng)內仍然只有一個大加速器的效果。
為了匹配這樣的硬件設計,Dojo 的編譯器采用了批量連續(xù)編碼,并且引入了候補機制。讓信號
花式暴打英偉達
軟件優(yōu)化加 Dojo 的最終效果十分顯著,指令延遲在 24 個 A100 GPU 下為 150 us,但是在 25 個 D1 芯片這邊僅為 5 us。
用 RESNET-50 作為測試,在接近的 FPS 下英偉 A100 需要 192 批,而 Dojo 僅需 8 批。
在更為復雜的自動標注和環(huán)境感知網絡下,Dojo 和英偉達 A100 的效果對比分了三組,灰色組是當前的硬件與編譯器,可以超過 A100 約 30%,2023Q1 的 Dojo 硬件可以超過 190%,如果再加上 2023Q1 的編譯器,那么可以超過 A100 340%。
整個系統(tǒng)下 1 個 Dojo 訓練瓦的計算性能可以抵 6 個 GPU 主機,而成本上連 1 個 GPU 主機都不到。
體積更孝性能更強、價格更低
此前需要耗費一個月的訓練現(xiàn)在用 Dojo 一周就能完成,
訓練時長從月減少到周
在數(shù)據(jù)攝取上特斯拉通過優(yōu)化為前/后處理調用了遠端計算,讓整個數(shù)據(jù)下載層都能和 Dojo 網絡連接,進而讓系統(tǒng)的使用率從最初的 4% 提高到了 97%。
自動標注任務原本的 72 個 GPU 柜機的計算性能現(xiàn)在 4 個 Dojo 柜機就能代替。2023Q1 上線 10 個 Dojo 柜機之后自動標注能力會達到現(xiàn)在的 2.5 倍,在帕洛阿爾托特斯拉計劃建造 7 臺 ExaPOD。
4 臺 Dojo 柜機可替代 72 臺英偉達柜機
2023Q1 將完成第一個 ExaPOD 上線
POLO ALTO 一共規(guī)劃了 7 個 ExaPOD
與此同時,特斯拉還將繼續(xù)開發(fā)新的計算集群硬件并持續(xù)通過軟件優(yōu)化發(fā)掘系統(tǒng)的極限能力,等到下一代硬件亮相時,特斯拉有信心將其性能再提升 10 倍。
同時,ExaPOD 不僅僅會讓特斯拉自用,還會像 aws 亞馬遜網絡一樣,向第三方提供云計算服務。
04寫在最后
對于任何一家科技公司,人才吸引力都是保持競爭力的關鍵要素。
在 2021 年特斯拉影響力報告中,SpaceX 和特斯拉是 2021 年工程學科畢業(yè)生最向往的兩家公司。
馬斯克此前在聊到舉辦 AI Day 的目的時說,這個活動主要是為了吸納全世界各地的 AI 精英加入特斯拉。在 2021 年 AI Day 之后特斯拉收到的相關崗位應聘數(shù)比前幾周增加了超過 100 倍。
與此同時,AI Day 也讓更多人了解到了特斯拉的實力,尤其是 AI 相關的實力。而且不得不說,不論是軟件還是硬件,特斯拉在很多事情上通常都選擇難度最大、但長期收效也最高的方式。
有人把這種做法稱為長期主義,也有人覺得這是第一性原理的體現(xiàn),在我看來這些理解都是對的,但我更想強調的一點是,高舉高打不是誰都能做的。
特斯拉真正讓我覺得極其難以被其他企業(yè)復制的地方,在于不論做的事情有多么困難,作為一家初創(chuàng)企業(yè)它總能堅持到收效的那一天。
都說人無遠慮必有近憂,但反過來講,人無近憂方可遠慮。
特斯拉發(fā)展至今已經渡過了最艱難的時期,在今天這樣的快速發(fā)展期,它有足夠的資本和實力在前瞻性業(yè)務上堅持長期主義。
以中國的新能源市場競爭為例,Model 3 和 Model Y 這兩款分別發(fā)布于 6 年前和 3 年前的產品在這個市場上面對各種今年發(fā)布的新品依然有著明顯領先的銷量。一方面因為這兩款產品本身競爭力不俗,其次在如今新品牌靠產品打江山的時期,特斯拉已經建立起了友商難以企及的品牌影響力和供應鏈優(yōu)勢。
如果和生存相關的問題是「重要且緊急」那么在特斯拉的待辦事項上就沒有「重要且緊急」的事項,目前「重要」的事情是為今后的發(fā)展做規(guī)劃和儲備,「緊急」的事情是增加產能。
于是當一個又一個背負生存危機的自主品牌為了搶占市場被迫打起價格戰(zhàn)時,特斯拉卻有自己選擇的余地,可以按兵不動亦可以以價換量。本就走小電池低制造成本思路的特斯拉車型即便降價也只是賺多和賺少的區(qū)別,遠不至于像某些企業(yè)那般虧本賣車。
對于一家以汽車銷售作為主要營收的公司,良好的銷量就是一切業(yè)務發(fā)展的底氣,比如今年 AI Day 的三大環(huán)節(jié) Optimus、FSD 和 Dojo。
對于 FSD 和 Dojo 的解讀可以總結為特斯拉已經為接下來全球范圍推送 FSD Beta 做好了車端軟件和云計算的充分準備,特斯拉很有可能成為第一個在多個國家地區(qū)依靠單車智能實現(xiàn)點對點智能駕駛的企業(yè),在此之后,F(xiàn)SD 軟件營收的拐點也會隨之而來。
但更宏大的目標是 Optimus。對于全球人口增長的悲觀預判讓馬斯克開始尋找解決社會生產力短缺的解決方案。正如同今天中國市場的新能源內卷,幾年前我們很難想象競爭會變得如此慘烈。雖然當下我們還沒有受到勞動力短缺的制約,但如果在今后的某天制造業(yè)的產能或者利潤率瓶頸變成勞動力,那么 Optimus 就有機會成為特斯拉應對挑戰(zhàn)的法寶。
不難發(fā)現(xiàn),特斯拉習慣把危機前置化,總是在為今后的發(fā)展做布局。所以很多的事情它比別人做得更早,也因此做得更好。這使得特斯拉在每個階段它有足夠的技能應付當下的競爭,同時它的技能庫又在持續(xù)以行業(yè)領先的速度擴充。而所有特斯拉正在或者將要攻克的事情,多數(shù)都是長期的行業(yè)級難題,同時這些難題的背后都有著特斯拉宏大的愿景。
這也是 AI Day 吸引人才的底層邏輯:想造一艘好船,先要激起人們對于探索大海的渴望。
撰文:萊因哈特
編輯:萊因哈特
這些也值得讀