文|白 鴿
編|王一粟
2024年,具身智能可以說是AI領(lǐng)域最火熱的賽道之一。
所謂具身智能,可以理解為人工智能和機(jī)器人技術(shù)深度結(jié)合的產(chǎn)物,是“長了身體的智能”,能夠直接與物理世界進(jìn)行交互。目前業(yè)內(nèi)普遍認(rèn)為,人形機(jī)器人是具身智能落地的最佳硬件載體。
也正因此,以機(jī)器人為主體的具身智能在全球徹底火了,機(jī)器人公司如雨后春筍般出現(xiàn),具身智能領(lǐng)域的投融資也非;馃。
據(jù)公開資料顯示,2024年上半年做具身智能機(jī)器人的公司可能已超過70家,其中,華為等大廠也開始布局該賽道,創(chuàng)企們則頻頻獲得融資,甚至產(chǎn)品尚未落地,就已經(jīng)估值數(shù)十億元。
今年11月5日,成立不到一年,致力于“將通用人工智能帶入物理世界”具身大模型企業(yè)Physical Intelligence宣布新一輪4億美元融資,估值達(dá)到24億美元。9月,李飛飛老師創(chuàng)立的空間智能公司W(wǎng)orld Labs在完成1億美元融資后,兩個月內(nèi)又完成了新一輪2.3億美元融資;7月,致力于“開發(fā)扎根于物理世界的通用人工智能(AGI)”企業(yè)Skild AI宣布完成3億美元A輪融資,估值達(dá)到15億美金。
那么,在這一輪具身智能賽道中,創(chuàng)業(yè)企業(yè)究竟該如何走出差異化競爭優(yōu)勢?具身智能背后的技術(shù)發(fā)展路徑又是如何?未來機(jī)器人時代到底將會在什么時間到來?
近期,我們與具身智能新銳企業(yè)智澄AI創(chuàng)始人兼CEO胡魯輝進(jìn)行了一場深度交流,這位行業(yè)大咖對具身智能的技術(shù)發(fā)展和行業(yè)趨勢,給出了自己的思考和解法。
智澄AI創(chuàng)始人兼CEO胡魯輝
“我們是一家通用人工智能公司,核心技術(shù)是理解物理的世界模型,對標(biāo)斯坦福李飛飛老師的公司!焙斴x如此說道,“但是我們產(chǎn)品形態(tài)并非是模型,而是具身智能機(jī)器人!
在胡魯輝看來,世界模型和主流的多模態(tài)大模型主要有兩方面不同之處,一是世界模型主要通過包括攝像頭在內(nèi)的傳感器直接感知外部環(huán)境信息,相比于多模態(tài)大模型,其輸入的數(shù)據(jù)形式以實時感知的外部環(huán)境為主,而多模態(tài)大模型則是以圖片、文字、視頻、音頻等信息交互為主。
另一方面,世界模型輸出的結(jié)果,更多的是時間序列數(shù)據(jù)(TSD),并通過這個數(shù)據(jù)可以直接控制機(jī)器人。而多模態(tài)大模型輸出的結(jié)果仍是以信息為主。同時物理智能需要與世界進(jìn)行實時交互,其對時效性要求較高,而多模態(tài)大模型更多是與人交互,對時效性要求較低。
也正因此,世界模型也被行業(yè)人士看做是邁向AGI(通用人工智能)的必經(jīng)之路。
作為曾在微軟、亞馬遜、華為美國研究院、Meta這樣的頂尖科技巨頭擔(dān)任高管的行業(yè)專家,胡魯輝其實早就意識到AI能夠與物理世界結(jié)合,并一直尋找合適的創(chuàng)業(yè)機(jī)會。
2024年年初,智澄AI正式成立。胡魯輝對公司的整體發(fā)展規(guī)劃,也分為兩部分:一是以打造世界模型為核心,持續(xù)進(jìn)行技術(shù)創(chuàng)新和研發(fā)突破;二則是要真正的實現(xiàn)產(chǎn)品落地應(yīng)用,“我們現(xiàn)階段也在與客戶進(jìn)行深度合作,今年將以產(chǎn)品升級迭代為主,明年將開始真正落地商業(yè)化應(yīng)用。”
據(jù)悉,今年5月開始,智澄AI的人工智能機(jī)器人原型一(TR1)、原型二(TR2)相繼完成。胡魯輝將智澄AI的人工智能機(jī)器人命名為TR,即Transforming Robot(即意為“改變機(jī)器人”)。
“雖然世界模型的研發(fā)是個持續(xù)的過程 ,但我們產(chǎn)品迭代和商業(yè)落地速度很快,現(xiàn)在基本上兩個月一次迭代!焙斴x說道。
事實上,當(dāng)前具身智能行業(yè)發(fā)展的關(guān)鍵挑戰(zhàn)之一,就是機(jī)器人的泛化能力。
畢竟,在硬件相差不大的情況下,機(jī)器人的抓取能力和動作靈活性完全依賴于“大腦”的智能化程度。只有擁有強(qiáng)大的泛化能力,機(jī)器人才能適應(yīng)各種任務(wù)場景,具備真正的“可用性”。
胡魯輝也表示,應(yīng)對當(dāng)前挑戰(zhàn),智澄AI的泛化能力主要體現(xiàn)在三方面:
任務(wù)泛化:機(jī)器人既能夠做這個任務(wù),也能夠做別的任務(wù)。
環(huán)境泛化:典型場景類似無人駕駛,需要識別理解不同路況環(huán)境,對機(jī)器人而言能夠適應(yīng)不同的環(huán)境。
本體泛化:同一個模型既能驅(qū)動這類機(jī)器人本體,也能夠用另外一類機(jī)器人本體。
“對具身智能來說,只有具備任務(wù)、環(huán)境和本體三種泛化能力,才能夠真正推動機(jī)器人時代到來!焙斴x說道,“但想要實現(xiàn)三種能力的泛化,以目前的多模態(tài)大模型技術(shù)來說很難突破。我們將打造澄靈世界模型,分三個階段,花費2-3年時間,逐步推進(jìn)物理世界模型,使其能夠?qū)崿F(xiàn)像人一樣的泛化能力。”
不過,在邁向通用人工智能的道路上,目前面臨著諸多挑戰(zhàn),包括算法、數(shù)據(jù)、算力等多方面,除了應(yīng)對上述挑戰(zhàn)之外,胡魯輝認(rèn)為,智能工程和模型架構(gòu)是另外兩個更為關(guān)鍵的要素,而智澄AI創(chuàng)始團(tuán)隊在這兩個方面有多年國際領(lǐng)先的實戰(zhàn)經(jīng)驗。
面對日新月異的技術(shù)和產(chǎn)業(yè)變化,胡魯輝也表示,智澄AI將堅持以物理智能為核心技術(shù),不斷加強(qiáng)自身技術(shù)能力的迭代,積極擁抱行業(yè)變化,推動機(jī)器人時代的到來。
以下為光錐智能與智澄AI CEO胡魯輝詳細(xì)對話內(nèi)容(經(jīng)光錐智能編輯整理):
01 每2個月迭代一次,明年將實現(xiàn)產(chǎn)品商業(yè)化落地
Q:從模型算法到智能機(jī)器人的落地,有哪些難點需要克服?我們用了多久實現(xiàn)了從模型算法到智能機(jī)器人的落地?
A: 整體挑戰(zhàn)還是蠻多的,主要是模型架構(gòu)、智能工程和產(chǎn)品落地三個方面。智澄AI模型架構(gòu)是端到端智能原生的世界模型,從智能工程,包括數(shù)據(jù)的采集、模型的訓(xùn)練和發(fā)布等等,產(chǎn)品落地是結(jié)合泛化能力和實際的客戶需求快速迭代。2024年4月初公開創(chuàng)業(yè)方向,也差不多是這個時候開始做產(chǎn)品研發(fā),產(chǎn)品名稱為TR(Transforming Robot),基本上每2個月實現(xiàn)一次產(chǎn)品迭代,現(xiàn)有多款人工智能機(jī)器人產(chǎn)品在進(jìn)行研發(fā)。
Q:最新兩代產(chǎn)品基本完成,智澄AI后續(xù)的產(chǎn)品研發(fā)及市場落地策略如何?
A: 我們的整個戰(zhàn)略方針是兩條腿走路,一方面不斷進(jìn)行技術(shù)創(chuàng)新和研發(fā)突破,另一方面進(jìn)行產(chǎn)品落地,我們現(xiàn)在和多家行業(yè)頭部客戶進(jìn)行深度合作,計劃今年主要以技術(shù)產(chǎn)品迭代為主,明年開始產(chǎn)品落地和商業(yè)化應(yīng)用。
Q:您大概是從什么時候決定做智澄AI這樣的公司?了解到咱們團(tuán)隊具備國際領(lǐng)先的AI模型與數(shù)據(jù)能力,這次創(chuàng)業(yè)為什么選擇具身智能賽道?
A: 在2022年底,我已經(jīng)在思考這個事情,當(dāng)時ChatGPT剛剛出來。其實更早之前我還寫了一篇關(guān)于生成式人工智能的文章,這篇文章被廣泛引用,當(dāng)時AIGC還沒有火起來,結(jié)論就是AI是能夠跟物理智能結(jié)合。從科技角度,現(xiàn)在是移動互聯(lián)網(wǎng)時代,下一個時代是機(jī)器人時代,想改變機(jī)器人現(xiàn)狀,推動機(jī)器人時代的到來,核心技術(shù)是人工智能,而我和智澄AI部分核心團(tuán)隊在人工智能基礎(chǔ)模型及關(guān)鍵大數(shù)據(jù)等方面深耕多年。
Q:因為其實近一年具身智能火爆,有很多企業(yè)加入到賽道當(dāng)中,包括初創(chuàng)企業(yè)和一些大廠。在競爭激烈的環(huán)境下,智澄AI作為創(chuàng)業(yè)團(tuán)隊,未來有哪些核心競爭優(yōu)勢?以及該如何去突破?
A: 主要兩方面,一方面我們堅持以理解物理世界、實現(xiàn)通用人工智能為愿景,不管外界變化如何,以物理智能為核心技術(shù),推動機(jī)器人時代的到來。另一方面,我們不斷加強(qiáng)技術(shù)產(chǎn)品的迭代,同時結(jié)合產(chǎn)業(yè)理解和技術(shù)創(chuàng)新,持續(xù)推出匹配市場需求的產(chǎn)品。
Q:特斯拉在10月份“We,Robot”發(fā)布會上展示了人形機(jī)器人Optimus2,說成本會到2-3萬美金價格區(qū)間,您是如何看待這一定價的,以及您認(rèn)為未來機(jī)器人的價格會到什么區(qū)間,才能夠?qū)崿F(xiàn)真正的普惠于民?
A: 在特斯拉的帶動下,現(xiàn)在人形機(jī)器人確實比較火。另外我們生活的世界其實是圍繞人類習(xí)慣而構(gòu)建的,因此很多場景,人形機(jī)器人會更合適。但我們最終目的是服務(wù)于人,幫助人解決問題,所以要思考做什么樣機(jī)器人,而不僅僅只是說要像人。比如說未來汽車也是一種機(jī)器人,但不能說讓車變成人的形態(tài)背著你跑,現(xiàn)在汽車形態(tài),是比較舒服的形式,所以沒必要做成人形。
對于價格,則是相對的,現(xiàn)在一輛汽車能夠賣到20萬人民幣,就是一個普遍能夠接受的價格,而賣到4-5萬人民幣,也是可行的,因為面對的是不同的需求和不同的受眾群體。因為本身場景就不太一樣,我覺得價格本身不是很關(guān)鍵。
Q:之前在制造業(yè)中,已經(jīng)有很多雙臂機(jī)器人進(jìn)行應(yīng)用,能夠滿足工廠的生產(chǎn)需求,智澄AI的雙臂機(jī)器人,會率先落地制造業(yè),那這與上一代機(jī)器人,在實際應(yīng)用上,會有哪些明顯感知的區(qū)別?以及對制造業(yè)工廠而言,會產(chǎn)生哪些更有價值的效益?
A: 我們圍繞具身智能,做人工智能機(jī)器人,主要目的還是做事情干活,幫助人解決問題,所以也是從人類的角度思考出發(fā)。因為人做事情的主要部位是雙手,所以我們率先從手開始,即單臂機(jī)器人到雙臂機(jī)器人。我們的機(jī)器人是基于AI原生模型,相比傳統(tǒng)機(jī)器人控制系統(tǒng),有本質(zhì)的變化。傳統(tǒng)的MPC/WBC本質(zhì)還是基于規(guī)則的控制系統(tǒng),優(yōu)勢比較明顯,即可以實現(xiàn)精準(zhǔn)控制操作,缺點就在于類似于自動駕駛這種強(qiáng)化學(xué)習(xí),泛化能力比較差,稍微調(diào)整一下,就需要重新開始編程,過程比較繁瑣,類似于自動化系統(tǒng)應(yīng)用。而且,因為這種可擴(kuò)展性差,也會導(dǎo)致其開發(fā)和工程成本比較高。
智澄AI的模型則類似于人腦,已具備一定的泛化能力,最終目標(biāo)是其有很強(qiáng)的泛化能力,能夠很好的適應(yīng)環(huán)境,不會因為環(huán)境的變化或任務(wù)的變化而重新來過。我們的技術(shù)以及解決方案,將真正推動機(jī)器人時代的到來。
移動互聯(lián)網(wǎng)作為上個時代影響全球數(shù)十億用戶的核心技術(shù)浪潮,當(dāng)下已基本進(jìn)入存量市場,機(jī)器人作為AI在物理世界的硬件載體,有望進(jìn)入十億級用戶的日常生產(chǎn)及生活之中,我認(rèn)為將是下一波科技浪潮中更大的增量市場。
雖然逐步優(yōu)化產(chǎn)品成本是讓機(jī)器人快速普及的推動方式之一,但僅降本很難真正改變行業(yè)現(xiàn)狀,所以我們更多要做的是讓一個模型不僅僅驅(qū)動一種本體更實用,而是使得不同型號、不同性能的機(jī)器人本體都能具備更高的功能實 用性,推動本體智能化水平實用、大規(guī)模的量產(chǎn)的同時也大幅降低成本。
02 從交互形式、輸出結(jié)果來看,多模態(tài)大模型與世界模型的本質(zhì)區(qū)別?
Q:多模態(tài)大模型如GPT和我們想做的物理世界大模型,本質(zhì)的區(qū)別是什么?
A: 目前多模態(tài)大模型主要是信息智能(輸入和輸出都是文字、音頻、圖像等信息),以信息交互為主,我們做的事情是物理智能,物理智能可以有很多的應(yīng)用方向,我們主要是聚焦具身智能/機(jī)器人方向的應(yīng)用,幫助機(jī)器人更好的理解物理世界。
從實時性來講,物理智能的輸入是對外界的直接感知,不是靜態(tài)信息輸入的形式,通過傳感器直接感知帶有時間序列的外界環(huán)境信息,輸出的則是時間序列數(shù)據(jù)(TSD),物理智能需要跟現(xiàn)實世界實時、高頻交互。而多模態(tài)大模型的信息往往是過往一段時間的靜態(tài)沉淀信息。
Q:自動駕駛汽車也需要與物理世界實時交互,與家庭/工作場景的機(jī)器人在技術(shù)實現(xiàn)難度有什么異同之處?
A: 自動駕駛汽車也是機(jī)器人的應(yīng)用場景之一,自動駕駛汽車的自由度或者說控制指令相對簡單(如方向、剎車、油門等),其挑戰(zhàn)的地方是車的速度更快,即便出現(xiàn)小概率的失誤也可能造成重大的損失。
相對于“汽車機(jī)器人”來說,如果在家用、生產(chǎn)、危險等場景的替代或服務(wù)人類勞動機(jī)器人,其動作復(fù)雜度及任務(wù)控制指令相對來說也許會更復(fù)雜,但機(jī)器人執(zhí)行一般的生產(chǎn)或服務(wù)工作可接受的失誤容忍度相對自動駕駛來說更寬松,即便偶然出現(xiàn)一次如杯子掉落等問題,損失相對可控。
Q:我們的機(jī)器人模型在實際工作中,如何克服可能出現(xiàn)的長尾問題?從而提高泛化性
A: 當(dāng)前強(qiáng)化學(xué)習(xí)技術(shù)路徑在無人駕駛領(lǐng)域被廣泛使用,但至今仍未讓車真正實現(xiàn)無人駕駛上路。我們的世界模型核心是解決泛化性問題,并沒有從強(qiáng)化學(xué)習(xí)的獎勵機(jī)制出發(fā),而是從端到端神經(jīng)網(wǎng)絡(luò)去實現(xiàn),這是本質(zhì)性的區(qū)別。
同時機(jī)器人在理解物理世界的時候,也需要像人一樣,具備一定的預(yù)測能力,才能夠?qū)]被訓(xùn)練過的事情有一定的應(yīng)對能力。一方面因為永遠(yuǎn)有長尾問題存在,另一方面物理世界本身也是在不斷變化的,所以我們的物理世界模型希望實現(xiàn)機(jī)器人能夠像人一樣具備思考、推斷、舉一反三的能力。
Q:未來物理世界大模型發(fā)展軌跡是否會與GPT在過去幾年的迭代發(fā)展有相通之處?
A: 從未來的發(fā)展預(yù)判來看,就像GPT一樣,它也會是一個階段一個階段的發(fā)展過來。現(xiàn)階段世界模型已經(jīng)表現(xiàn)出很不錯的能力了,例如我們已經(jīng)可以實現(xiàn)了用單個模型控制實現(xiàn)多個任務(wù)、也可以實現(xiàn)在不同光線場景條件下完成任務(wù)的泛化能力。
從另一個層面來說,多模態(tài)大模型其舉一反三能力、自監(jiān)督學(xué)習(xí)等能力,這些技術(shù)、特性也會被引入到世界模型開發(fā)改進(jìn)中,來幫助世界模型快速發(fā)展。
03 具身大模型只有具備任務(wù)、環(huán)境、本體三重泛化能力,才能真正推動機(jī)器人時代到來
Q:如何理解機(jī)器人的泛化能力?是從一個固定場景訓(xùn)練升級,然后泛化應(yīng)用到其他場景中嗎?
A: 現(xiàn)階段深度強(qiáng)化學(xué)習(xí)雖然不能夠解決長尾場景問題,但在實際的生產(chǎn)線中(如汽車生產(chǎn)線的某一部分),通過強(qiáng)化某一任務(wù)的技能,效果反而會更好一些。但如果汽車生產(chǎn)線伴隨柔性生產(chǎn)的趨勢需要定期變化,強(qiáng)化學(xué)習(xí)路徑的可擴(kuò)展性有限,需要重新采集數(shù)據(jù)進(jìn)行學(xué)習(xí)。
而物理世界模型則可以很快適應(yīng)這種調(diào)整,不需要針對任務(wù)變化重新訓(xùn)練一遍,而是可以基于原來的基礎(chǔ)馬上調(diào)整,適用于新任務(wù)。另外在跨場景中,世界模型也可以實現(xiàn)輕松的遷移。
打個比方,現(xiàn)階段世界模型有點像一顆小樹苗,雖然當(dāng)前與其他樹苗在外觀差異不大,未來潛力巨大,更有機(jī)會長成參天大樹。
Q:世界模型有一個很好的泛化能力,您覺得這種泛化的能力,主要來自哪個技術(shù)能力的突破?
A: 一方面是很強(qiáng)的理解物理世界的能力,就像人一樣,在能感知到環(huán)境的情況下,能夠做出實時的決策判斷。機(jī)器人操作也好,無人車運行也好,都是不斷地進(jìn)行決策。
另一方面物理世界大模型與多模態(tài)大模型的涌現(xiàn)很類似,能夠舉一反三,在物理世界的任務(wù)上有很強(qiáng)的泛化推理能力。但也需要避免多模態(tài)大模型會出現(xiàn)的幻覺問題,而物理世界的機(jī)器人我們希望能夠真正可靠(不存在幻覺問題),我們將分成幾個階段逐步優(yōu)化模型,從而使其能夠既可靠,又能夠具備泛化能力。
Q:智澄AI的大模型訓(xùn)練是否會面臨算力成本的問題?如何解決這一難題?
A: 算力也是重點投入的方向之一,我們會隨著模型分階段的訓(xùn)練目標(biāo)持續(xù)投入。同時由于我們具備深厚的模型架構(gòu)及工程化能力,模型體量會遠(yuǎn)小于當(dāng)前多模態(tài)大語言模型,算力需求也相對可控。