兩天前,知名 AR 廠商 Rokid 發(fā)布了新一代 AR 眼鏡Rokid Glasses,通過(guò)攝像頭、多模態(tài)大模型以及(玻璃衍射)光波導(dǎo)等技術(shù),在一定程度上讓 AR 眼鏡實(shí)現(xiàn)了對(duì)真實(shí)世界的感知與理解,以及對(duì)用戶的協(xié)同與展現(xiàn)。
然而就當(dāng)下來(lái)說(shuō),AI 或者說(shuō)視覺(jué)大模型對(duì)真實(shí)世界的理解還遠(yuǎn)遠(yuǎn)不夠,更多還是對(duì)二維照片的物體識(shí)別,很難像人類一樣具備空間理解能力,也根本無(wú)法準(zhǔn)確描述物體與物體、物體與人之間的空間關(guān)系。
而這個(gè)問(wèn)題的答案,或許還是要從大模型技術(shù)中尋找解法。
稍早前,《Pokémon Go》開(kāi)發(fā)商 Niantic 對(duì)外宣布正在開(kāi)發(fā)「地理空間大模型」(Large Geospatial Model,簡(jiǎn)稱 LGM),將利用大規(guī)模機(jī)器學(xué)習(xí)來(lái)理解真實(shí)世界的空間,借助 LGM 模型實(shí)現(xiàn)「空間智能」。
LGM 模型訓(xùn)練,圖/ Niantic
用全球玩家數(shù)據(jù)打造的「地理空間大模型」
正如 Niantic 在新聞稿中提到的,即使是當(dāng)今最先進(jìn)的 AI 模型也難以可視化和推斷場(chǎng)景中的缺失部分,或從新的角度想象一個(gè)地方。而在根本上,Niantic 認(rèn)為借助大語(yǔ)言模型訓(xùn)練的方式,我們已經(jīng)能讓 AI 實(shí)現(xiàn)比擬甚至超越人類空間理解能力的「空間智能」。
野心背后,Niantic 的另一份底氣在于,作為《Pokémon Go》《Ingress》開(kāi)發(fā)商,Niantic 早就手握全球無(wú)數(shù)玩家貢獻(xiàn)的海量真實(shí)影像和地圖數(shù)據(jù),并在過(guò)去五年中開(kāi)發(fā)視覺(jué)定位系統(tǒng) (VPS) ,在手機(jī)上實(shí)現(xiàn)根據(jù)單個(gè)圖像在 3D 地圖中確定用戶的方位。
事實(shí)上,2021 年 Niantic 還發(fā)布過(guò)一項(xiàng)名為 ManyDepth 的技術(shù),能夠通過(guò)單個(gè)手機(jī)攝像頭直接創(chuàng)建 3D 地圖,利用機(jī)器學(xué)習(xí)將沒(méi)有深度信息的二維圖像轉(zhuǎn)化為帶有深度信息的三維圖像,并且不依賴 LiDAR 或者其他深度傳感器。
而作為 Niantic 視覺(jué)定位系統(tǒng)的一部分,LGM 模型目前已經(jīng)訓(xùn)練了超過(guò) 5000 萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò),擁有超過(guò) 150 萬(wàn)億個(gè)參數(shù),能夠在超過(guò) 100 萬(wàn)個(gè)位置運(yùn)行。Niantic 首席科學(xué)家 Victor Prisacariu 還表示:
「利用我們的用戶在玩 Ingress 和 Pokémon Go 等游戲時(shí)上傳的數(shù)據(jù),我們打造了世界的高保真 3D 地圖,其中包括 3D 幾何形狀(或事物的形狀)和語(yǔ)義理解!
最終,LGM 模型的目標(biāo)是在全球范圍內(nèi)實(shí)現(xiàn)對(duì)地理空間的共同理解,即便是那些沒(méi)有被玩家掃描過(guò)的地方。
但 LGM 模型意義不僅是讓設(shè)備「看懂」真實(shí)環(huán)境,提供精準(zhǔn)的空間定位。更重要的是,只有讓計(jì)算機(jī)能夠更準(zhǔn)確、高效地感知和理解物理空間,才能更深刻地改變?nèi)伺c機(jī)器之間基于物理世界的交互方式,進(jìn)而推動(dòng) AR 眼鏡以及智能機(jī)器人真正走進(jìn)我們的生活。
左邊是 Rokid Glasses,右邊是特斯拉擎天柱,圖/ Rokid、特斯拉
不過(guò)具體到 AR 眼鏡上,LGM 模型的推出真的會(huì)如人們期待的那樣,加速 AR 眼鏡的普及嗎?甚至成為 AR 行業(yè)的「一腳地板油」?這不是一個(gè)容易解答的問(wèn)題。
地理空間大模型,AR版的「高精地圖」?
在 AR 眼鏡中,準(zhǔn)確的空間定位一直是重中之重,這一點(diǎn)相信早已不言而喻。問(wèn)題在于,現(xiàn)行的 SLAM(同步定位與建圖)空間定位技術(shù)就像一位即興作畫的畫家:通過(guò)攝像頭等傳感器,實(shí)時(shí)描繪周圍環(huán)境的地圖并確定自身的位置。
但要用這種「即看即建」的方式實(shí)現(xiàn)準(zhǔn)確的空間定位,不僅依賴傳感器支持,往往還需要較高的性能與續(xù)航開(kāi)銷,對(duì)于內(nèi)部空間「寸土寸金」的 AR 眼鏡來(lái)說(shuō),始終是不小的壓力。AR 廠商不是沒(méi)想過(guò)新的解決方案,比如 Rokid AR Studio 上就實(shí)現(xiàn)了基于單目攝像頭的空間定位和手勢(shì)識(shí)別,也只是降低了硬件門檻和成本。
Rokid AR Studio,圖/ Rokid
而與之相對(duì),LGM 模型和 SLAM 技術(shù)可以理解為 AR 眼鏡的「地圖」和「指南針」:LGM 提供了一幅全局性的高精度地圖,為設(shè)備提供宏觀層面的環(huán)境理解;SLAM 則像指南針,幫助設(shè)備在未知或動(dòng)態(tài)環(huán)境中快速調(diào)整和適應(yīng)。
通過(guò)構(gòu)建了一套全球性的高精度 3D 地圖,LGM 模型能夠提供詳盡的地理空間信息。對(duì)于 AR 眼鏡來(lái)說(shuō),這種預(yù)先構(gòu)建的地圖意味著在已知環(huán)境中無(wú)需從零開(kāi)始建圖,而是可以直接利用 LGM 提供的全局地圖進(jìn)行精準(zhǔn)定位,理論上可以在不影響準(zhǔn)確性的前提下,大幅削減性能開(kāi)銷,尤其在室外場(chǎng)景。
想象一下,當(dāng)你在一個(gè)陌生的城市中尋找餐館,AR 眼鏡讓導(dǎo)航箭頭更準(zhǔn)確地貼合地面,更精確地指向餐館的入口,而不是像過(guò)去那樣懸浮在半空,只能提供粗略的方向。這種視覺(jué)上的準(zhǔn)確性不僅提高了便利性,也增強(qiáng)了用戶對(duì) AR 眼鏡的信任感。
另一方面,LGM 模型對(duì)空間的「語(yǔ)義理解」,對(duì)于 AR 眼鏡的意義不只是識(shí)別環(huán)境,還在于「理解」環(huán)境。與 SLAM 只是繪制幾何地圖不同,LGM 模型還能通過(guò)語(yǔ)義理解為空間中的物體賦予了具體意義,讓 AR 眼鏡能夠理解環(huán)境的上下文,將虛擬的 3D 物體合理地放置在真實(shí)空間的方位中。
任天堂與 Niantic 合作的《皮克敏》AR 手游,圖/ Niantic
這一點(diǎn)也與現(xiàn)有視覺(jué)模型依賴二維圖像識(shí)別技術(shù)不同,視覺(jué)模型更多只能識(shí)別出眼前是「路」還是「樹(shù)」,卻無(wú)法理解這些物體在空間中的位置,自然也無(wú)從談起虛擬內(nèi)容在真實(shí)空間的合理放置。
不過(guò)眾所周知,《Pokémon Go》并未進(jìn)入中國(guó),中國(guó)市場(chǎng)也始終沒(méi)有出現(xiàn)一款能夠進(jìn)入大眾視野的 AR+LBS 游戲。類似 LGM 的地理空間大模型,在中國(guó)還沒(méi)有出現(xiàn)成長(zhǎng)的土壤。
但視覺(jué)大模型其實(shí)也有潛力從二維平面的物體識(shí)別進(jìn)化到三維空間的理解,具備「空間智能」,甚至是視頻生成模型也有可能。就像 OpenAI Sora 出現(xiàn)之初,以 360 創(chuàng)始人周鴻為代表的一部分人都認(rèn)為 Sora 不僅是視頻生成模型,還是能夠最終理解物理世界的「世界模型」。
Sora,圖/ OpenAI
再有,Niantic 的 LGM 目前仍在開(kāi)發(fā)中,理論上的潛力是一方面,實(shí)際上的表現(xiàn)則是另一方面,還很難斷言它的未來(lái)。
AI大模型改變 AR 眼鏡,一切才剛開(kāi)始
在之前的報(bào)道,雷科技多次提到一個(gè)觀點(diǎn):最近一年多智能眼鏡的關(guān)鍵轉(zhuǎn)變?cè)谟诖竽P蛶?lái)的自然理解能力大升級(jí),帶來(lái)了人機(jī)語(yǔ)音交互的質(zhì)變,這是交互方式有限的智能眼鏡能夠爆發(fā)的前提條件。
這一點(diǎn)對(duì)于 AR 眼鏡其實(shí)亦然。雖然包括 Rokid、雷鳥(niǎo)創(chuàng)新都在嘗試各種交互方式,比如 Rokid 基于單目攝像頭的手勢(shì)交互,雷鳥(niǎo)創(chuàng)新基于智能戒指的交互,但實(shí)際上主流產(chǎn)品線受限于性能、體驗(yàn)和成本等因素,語(yǔ)音和觸摸交互,才是核心的交互方式。
雷鳥(niǎo) X2,圖/雷鳥(niǎo)創(chuàng)新
從這個(gè)角度看,AI 語(yǔ)音交互帶來(lái)的質(zhì)變也就不言自明了,可以明顯改善 AR 眼鏡在人機(jī)交互方式上的短板。而與此同時(shí),大模型也在帶來(lái)計(jì)算機(jī)視覺(jué)能力上的「基因突變」,決定著 AR 眼鏡的未來(lái)方向。
誠(chéng)然,目前 AI 視覺(jué)的價(jià)值才剛剛嶄露頭腳,比如基于周圍環(huán)境的實(shí)時(shí)問(wèn)答、直接翻譯外文進(jìn)行播報(bào)或文本呈現(xiàn)等,都能做到比以往更低的成本、更好的體驗(yàn)。另外,地理空間大模型、能夠理解世界的視頻生成模型,對(duì)于 AR 眼鏡來(lái)說(shuō)也還未真正達(dá)到可用。
但不管從交互體驗(yàn),還是 AR 眼鏡的「減重」來(lái)看,基于攝像頭的 AI 視覺(jué)(端云混合)在理論上都有更高的潛力,不僅能降低空間交互的復(fù)雜度和門檻,也能減少傳感器和傳統(tǒng)計(jì)算開(kāi)銷,從而做到重量和成本的降低、續(xù)航的提升。
一言以蔽之,大模型改變 AR 眼鏡的旅程,還遠(yuǎn)沒(méi)有走到終點(diǎn)。