Photo by BoliviaInteligente on Unsplash有界UnKnown原創(chuàng)作者丨錢江編輯|山茶11月底,黃仁勛在香港科技大學(xué)的博士學(xué)位授予儀式上,將人形機(jī)器人與汽車、無人機(jī)并肩列為未來會(huì)實(shí)現(xiàn)大規(guī)模量產(chǎn)的三種機(jī)器人。這已經(jīng)不是黃仁勛第一次在公開場(chǎng)合“力挺”人形機(jī)器人,在今年3月份的英偉達(dá)GTC大會(huì)上,黃仁勛曾與1X Technologies、Agility Robotics、Boston Dynamics、Figure AI、宇樹等9個(gè)人形機(jī)器人同時(shí)登臺(tái),發(fā)布英偉達(dá)人形機(jī)器人通用基礎(chǔ)模型Project GR00T。
▲黃仁勛在GTC大會(huì)上 直播截圖在之后的多個(gè)場(chǎng)合里,黃仁勛都向外界傳遞著相同的觀點(diǎn):人形機(jī)器人將會(huì)成為人類生活里不可缺少的伙伴,它終將成為和汽車一樣的主流產(chǎn)品。在關(guān)于人形機(jī)器人未來在人類生活中重要地位的看法上,黃仁勛也與馬斯克不謀而合。馬斯克也曾在2024年特斯拉股東大會(huì)上表示,未來“全世界每個(gè)人都會(huì)想要一個(gè)機(jī)器人 ”,他認(rèn)為人形機(jī)器人和人類的比例,至少是2比1,甚至能到1比1,未來會(huì)有100億甚至200億、300億臺(tái)人形機(jī)器人。在一次采訪中,黃仁勛也坦言,“100年后大街上將到處都是人形機(jī)器人”,馬斯克則在X上默契地回復(fù),“人形機(jī)器人普及程度將是汽車10倍”。
▲馬斯克在X平臺(tái)上與黃仁勛互動(dòng) 截圖黃仁勛也幾乎成為除了馬斯克之外,最賣力為人形機(jī)器人站臺(tái)的科技大佬。但和馬斯克更側(cè)重于造出人形機(jī)器人本體、并將其應(yīng)用于特斯拉的生產(chǎn)和勞動(dòng)力補(bǔ)給上不同,黃仁勛更專注于做人形機(jī)器人的技術(shù)服務(wù)商。英偉達(dá)機(jī)器人和邊緣計(jì)算副總裁Deepu Talla在東京的一次會(huì)議上直言,英偉達(dá)瞄準(zhǔn)的是一個(gè)由“數(shù)十萬”家機(jī)器人制造商組成的分散市場(chǎng),而不是由少數(shù)幾家主要參與者主導(dǎo)的集中式智能手機(jī)市場(chǎng),“我們?yōu)闄C(jī)器人提供平臺(tái),而不是制造機(jī)器人”。那么,英偉達(dá)究竟想要做一個(gè)什么樣的機(jī)器人平臺(tái)?
打造人形機(jī)器軟件生態(tài)2021年,波士頓動(dòng)力曾發(fā)布一則Atlas的跑酷視頻,在全球范圍內(nèi)第一次掀起了人形機(jī)器人的狂熱。在這則視頻中,Atlas可以輕而易舉地在各種形狀和坡度的踏板之間跳躍、奔跑、上下階梯。但很多人都不知道,在這則驚艷世界的視頻背后,是Atlas十多年如一日的訓(xùn)練。機(jī)器人和人一樣,要學(xué)會(huì)走路也需要經(jīng)過無數(shù)次的訓(xùn)練,通過積累足夠多的數(shù)據(jù)才能實(shí)現(xiàn)。對(duì)于早期的人形機(jī)器人而言,積累數(shù)據(jù)沒有捷徑,只能通過一次又一次的跌倒來完成。所以在Atlas早期的訓(xùn)練視頻中,我們會(huì)看到它身邊時(shí)刻都跟隨著好幾個(gè)工作人員,以便在它“倒下”的時(shí)候及時(shí)檢查零件。但這個(gè)過程顯然太過漫長(zhǎng),不利于人形機(jī)器人快速發(fā)展。為了提高人形機(jī)器人的訓(xùn)練效率,人們?cè)贏I、大數(shù)據(jù)和云計(jì)算等前沿技術(shù)的基礎(chǔ)上,建立了一套利用虛擬世界對(duì)人形機(jī)器人進(jìn)行訓(xùn)練的方法。通常來講,人形機(jī)器人的訓(xùn)練,會(huì)經(jīng)歷一個(gè)從Real2Sim(真實(shí)到虛擬)到Sim2Real(虛擬到真實(shí))的過程。也就是先從真實(shí)環(huán)境采集數(shù)據(jù)投入到仿真環(huán)境,讓機(jī)器人在仿真環(huán)境里做充分學(xué)習(xí)和訓(xùn)練,再將其拉到現(xiàn)實(shí)世界里歷練。這個(gè)過程由于有相當(dāng)一部分在虛擬環(huán)境中進(jìn)行,因此不僅可以加快訓(xùn)練速度,還可以降低硬件損耗。英偉達(dá)在人形機(jī)器人領(lǐng)域的第一個(gè)布局,就是搭建一套仿真訓(xùn)練設(shè)施,它具體包括人形機(jī)器人仿真訓(xùn)練場(chǎng)需要使用的虛擬場(chǎng)所構(gòu)建、人形機(jī)器人與環(huán)境互動(dòng)的仿真訓(xùn)練,以及人形機(jī)器人控制規(guī)劃學(xué)習(xí)的仿真訓(xùn)練。它們分別對(duì)應(yīng)著虛擬協(xié)作和仿真平臺(tái)Omniverse、用于機(jī)器人行為仿真的平臺(tái)Isaac Sim、用于機(jī)器人算法訓(xùn)練與優(yōu)化的平臺(tái)Isaac Lab。
▲英偉達(dá)人形機(jī)器人軟件生態(tài),有界UnKnown制圖用一個(gè)形象的比喻,Omniverse就像一座城市,這座城市里有高樓林立的大廈、車水馬龍的道路以及人類生活所需要的一切基礎(chǔ)設(shè)施,而人形機(jī)器人就像生活在這座城市的人類一樣,他們?cè)诔鞘兄写┧、從事勞?dòng)活動(dòng)。Isaac Sim就像是Omniverse這座城市里的健身房一樣,人形機(jī)器人需要在這個(gè)健身房不斷與各類運(yùn)動(dòng)器材進(jìn)行磨合,這就對(duì)應(yīng)著人形機(jī)器人與環(huán)境交互的能力訓(xùn)練,它們需要了解路徑規(guī)劃,比如怎么樣才能正確抵達(dá)所需要的運(yùn)動(dòng)器材面前,并且了解每一種器材的使用方法,比如看到啞鈴知道是用來抓取的、看到跑步機(jī)就知道是用來跑步的。開發(fā)者使用Isaac Sim來測(cè)試機(jī)器人在不同環(huán)境中的表現(xiàn),不需要實(shí)際硬件即可驗(yàn)證機(jī)器人的動(dòng)作和決策。Isaac Lab就像Omniverse這座城市里的圖書館一樣,人形機(jī)器人需要在這座圖書館之中不斷更新知識(shí),它主要聚焦于算法開發(fā)與訓(xùn)練,為機(jī)器人提供決策和控制能力,允許開發(fā)者在虛擬環(huán)境中開發(fā)、測(cè)試和優(yōu)化機(jī)器人控制和智能算法。
▲英偉達(dá)GTC 2024大會(huì),Isaac Lab環(huán)境里的Digit所以,Omniverse是一個(gè)讓機(jī)器人學(xué)習(xí)如何更好適應(yīng)現(xiàn)實(shí)世界的地方,在這樣的虛擬環(huán)境中,機(jī)器人可以進(jìn)行智力訓(xùn)練和動(dòng)作訓(xùn)練;贠mniverse,英偉達(dá)開發(fā)了機(jī)器人開發(fā)仿真平臺(tái)和參考應(yīng)用程序Isaac Sim和開源的模塊化機(jī)器人學(xué)習(xí)框架Isaac Lab。總的來說,英偉達(dá)這一套人形機(jī)器人軟件生態(tài),能夠?yàn)闄C(jī)器人數(shù)據(jù)訓(xùn)練提高效率、降低成本,讓機(jī)器人可以不必在復(fù)雜的硬件環(huán)境中磕磕碰碰,在進(jìn)入真實(shí)環(huán)境之前,能夠先在虛擬世界里“練兵”。在今年3月份的英偉達(dá)GTC大會(huì)上登臺(tái)的9家人形機(jī)器人,就是這套生態(tài)的首批“種子用戶”。在這樣一套仿真機(jī)制的配合之下,英偉達(dá)發(fā)布了具身智能通用大模型Project GR00T,與迪士尼動(dòng)畫《銀河護(hù)衛(wèi)隊(duì)》中的小樹人格魯特同名,寓意著人形機(jī)器人可以如動(dòng)畫中的格魯特一樣擁有超凡的力量。GROOT使得機(jī)器人能夠理解和處理自然語言,并且具備多模態(tài)感知能力,即它能夠通過視覺、聽覺等多種感官輸入來進(jìn)行信息處理。但只做軟件生態(tài),還無法滿足英偉達(dá)這樣一家以芯片起家的公司的野心。
為人形機(jī)器人造“芯”對(duì)于英偉達(dá)來說,公司的根本一直都是硬件,是GPU。因此在人形機(jī)器人領(lǐng)域,黃仁勛也同樣希望能夠延續(xù)英偉達(dá)在游戲、在AI、在智能汽車領(lǐng)域的神話,做出遙遙領(lǐng)先的芯片。一個(gè)人形機(jī)器人也是由多個(gè)“芯片器官”組成的,每個(gè)芯片負(fù)責(zé)不同的任務(wù),讓機(jī)器人能夠像人一樣思考、感知、行動(dòng)、交流和生活。人形機(jī)器人需要6-8種不同類型的芯片,包括中央控制、運(yùn)動(dòng)、視覺、語音、傳感器和通信處理芯片,以完成全身調(diào)度、環(huán)境感知和與人類交流。
▲人形機(jī)器人所需要的芯片,有界UnKnown制圖而這些芯片中,有兩類是比較關(guān)鍵的。一類是控制機(jī)器人運(yùn)動(dòng)路線的芯片,另一類是幫助機(jī)器人思考的芯片。以特斯拉的人形機(jī)器人Optimus為例,這兩塊芯片分別使用的是特斯拉汽車上使用的FSD自動(dòng)駕駛芯片,以及特斯拉訓(xùn)練自動(dòng)駕駛而專門開發(fā)DOJO芯片。在自動(dòng)駕駛芯片方面,英偉達(dá)一直遙遙領(lǐng)先,其最新發(fā)布的DRIVE AGX Thor可提供高達(dá)2000TFLOPS的算力,是目前算力最高、效果最好的自動(dòng)駕駛芯片。而英偉達(dá)的人形機(jī)器人芯片就與Thor同出一源。今年11月中旬,華爾街日?qǐng)?bào)曾報(bào)道,英偉達(dá)計(jì)劃在2025年推出面向人形機(jī)器人的專用芯片Jetson Thor,在快速增長(zhǎng)的機(jī)器人行業(yè)中占據(jù)一席之地。Jetson Thor具備高性能AI推理能力,支持運(yùn)行如GR00T等大型多模態(tài)生成式AI模型,采用英偉達(dá)最新的Blackwell架構(gòu),并配備Transformer引擎,可以支持人形機(jī)器人在視覺、語音和觸覺等多模態(tài)感知下的交互,增強(qiáng)其與人類的自然交流能力。這也是英偉達(dá)首次公開宣稱專門為人形機(jī)器人打造的芯片平臺(tái)。Jetson是英偉達(dá)旗下專為 AI 應(yīng)用設(shè)計(jì)的緊湊型計(jì)算機(jī)平臺(tái),其芯片除了機(jī)器人之外,還應(yīng)用在無人機(jī)、智能家居、醫(yī)療設(shè)備和工業(yè)自動(dòng)化等場(chǎng)景。Jetson平臺(tái)最早可以追溯到2014年,這也是英偉達(dá)在機(jī)器人領(lǐng)域布局的開始。這一年,物聯(lián)網(wǎng)、邊緣計(jì)算、人工智能和機(jī)器人技術(shù)開始嶄露頭角,市場(chǎng)對(duì)與之匹配的芯片需求也在持續(xù)擴(kuò)大。同時(shí),這一年人形機(jī)器人也開始投入初期應(yīng)用。軟銀在這一年推出Pepper,它是全球首款能夠識(shí)別和回應(yīng)人類情感的商用人形機(jī)器人;法國(guó)Aldebaran Robotics公司開發(fā)NAO機(jī)器人,開始投入教育領(lǐng)域,幫助學(xué)生學(xué)習(xí)編程、科學(xué)和數(shù)學(xué)。也是在這一年,英偉達(dá)上線Jetson TK1芯片,它具備更強(qiáng)的圖形處理能力和AI處理能力,采用了基于Kepler架構(gòu)的GPU,并結(jié)合了ARM Cortex-A15 CPU,適用于低功耗設(shè)備。雖然它并不是直接針對(duì)人形機(jī)器人,但卻為人形機(jī)器人處理復(fù)雜的視覺感知和計(jì)算提供了硬件支持。隨后,幾乎每隔一兩年,英偉達(dá)Jetson系列都會(huì)發(fā)布新產(chǎn)品,其中Jetson Xavier 和Jetson Orin相關(guān)系列對(duì)人形機(jī)器人的發(fā)展提供支持,并且它們清一色都是推理芯片。
▲英偉達(dá)Jetson芯片應(yīng)用介紹雖然Jetson AGX Xavier和Jetson Orin系列適用于機(jī)器人領(lǐng)域,但并非專門為人形機(jī)器人而設(shè)計(jì),它們同樣適用于無人機(jī)、自動(dòng)駕駛等產(chǎn)品。而計(jì)劃于2025年上線的Jetson Thor則是專為人形機(jī)器人打造的,根據(jù)英偉達(dá)官方表示,Jetson Thor能夠執(zhí)行復(fù)雜任務(wù),并與人和機(jī)器安全、自然地交互,它采用英偉達(dá)最新的Blackwell架構(gòu),并配備Transformer引擎,可以支持人形機(jī)器人在視覺、語音和觸覺等多模態(tài)感知下的交互,增強(qiáng)其與人類的自然交流能力。
結(jié)語人形機(jī)器人并非黃仁勛首次做趨勢(shì)性預(yù)測(cè)的領(lǐng)域,在黃仁勛的輝煌歷史中,曾連續(xù)兩次“押對(duì)寶”。1999年,中央處理單元(CPU)仍然是計(jì)算機(jī)系統(tǒng)的核心,雖然圖形處理的需求不斷增長(zhǎng),但CPU主要負(fù)責(zé)所有的計(jì)算任務(wù),包括圖形渲染。當(dāng)時(shí),雖然圖形顯卡市場(chǎng)也在發(fā)展,但多數(shù)顯卡只能提供基礎(chǔ)的2D圖形渲染,并且較少具備3D加速能力。黃仁勛卻在這一年推出GeForce GPU系列,發(fā)布GeForce256,成為世界上第一款GPU,也是首個(gè)支持硬件加速的實(shí)時(shí)3D圖形渲染的圖形處理單元。它給游戲玩家?guī)砹饲八从械捻槙丑w驗(yàn),根據(jù)“英偉達(dá)中國(guó)”紀(jì)念1999年這款GPU的相關(guān)文章描述,與GeForce256結(jié)合的游戲《虛幻競(jìng)技場(chǎng)》是首批擁有逼真反射效果的游戲之一,在發(fā)布的第一年內(nèi),便售出了超過100萬份。[1]2006年,黃仁勛發(fā)布并行計(jì)算平臺(tái)和編程模型“CUDA”,使得GPU具備處理通用計(jì)算任務(wù)的能力,CUDA的發(fā)布被夸張地形容為一場(chǎng)“災(zāi)難”。如果將GPU形容為一個(gè)擁有上千個(gè)工人的工廠,可以驅(qū)動(dòng)工人同時(shí)處理成千上萬的圖形像素,那么,CUDA就像這群工廠工人的管理系統(tǒng),它不僅能做圖像渲染,還能做科學(xué)計(jì)算、分析大數(shù)據(jù)、訓(xùn)練AI模型。這兩次,黃仁勛都贏在芯片上。那么,在人形機(jī)器人領(lǐng)域,除了做仿真訓(xùn)練平臺(tái),黃仁勛為人形機(jī)器人這個(gè)“新物種”造的“芯”,能讓英偉達(dá)再次站在新的時(shí)代高點(diǎn)嗎?也許,不到100年,就能看到大街上到處行走的人形機(jī)器人。
參考資料:[1]:英偉達(dá)中國(guó)《生日快樂!1999年世界上第一塊GPU問世!》