當(dāng)前位置：人工智能實(shí)驗(yàn)室> AR增強(qiáng)現(xiàn)實(shí) > Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-21 20:06:03 瀏覽：55次

導(dǎo)讀：兩天前，知名 AR 廠商 Rokid 發(fā)布了新一代 AR 眼鏡Rokid Glasses，通過(guò)攝像頭、多模態(tài)大模型以及（玻璃衍射）光波導(dǎo)等技術(shù)，在一定程度上讓 AR 眼鏡實(shí)現(xiàn)了對(duì)真實(shí)世界的感知與理解，以及對(duì)用戶的協(xié)同與展現(xiàn)。然而就當(dāng)下來(lái)說(shuō)，AI 或者說(shuō)視覺(jué)大模型對(duì)真實(shí)世界的理解還遠(yuǎn)遠(yuǎn)不夠，更多還是對(duì)二維照片的物體識(shí)別，很難像人類一樣具備空間理解能力，也根本無(wú)法準(zhǔn)確描述物體與物體、物 ......

兩天前，知名 AR 廠商 Rokid 發(fā)布了新一代 AR 眼鏡Rokid Glasses，通過(guò)攝像頭、多模態(tài)大模型以及（玻璃衍射）光波導(dǎo)等技術(shù)，在一定程度上讓 AR 眼鏡實(shí)現(xiàn)了對(duì)真實(shí)世界的感知與理解，以及對(duì)用戶的協(xié)同與展現(xiàn)。

然而就當(dāng)下來(lái)說(shuō)，AI 或者說(shuō)視覺(jué)大模型對(duì)真實(shí)世界的理解還遠(yuǎn)遠(yuǎn)不夠，更多還是對(duì)二維照片的物體識(shí)別，很難像人類一樣具備空間理解能力，也根本無(wú)法準(zhǔn)確描述物體與物體、物體與人之間的空間關(guān)系。

而這個(gè)問(wèn)題的答案，或許還是要從大模型技術(shù)中尋找解法。

稍早前，《Pokémon Go》開(kāi)發(fā)商 Niantic 對(duì)外宣布正在開(kāi)發(fā)「地理空間大模型」（Large Geospatial Model，簡(jiǎn)稱 LGM），將利用大規(guī)模機(jī)器學(xué)習(xí)來(lái)理解真實(shí)世界的空間，借助 LGM 模型實(shí)現(xiàn)「空間智能」。

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？

LGM 模型訓(xùn)練，圖/ Niantic

用全球玩家數(shù)據(jù)打造的「地理空間大模型」

正如 Niantic 在新聞稿中提到的，即使是當(dāng)今最先進(jìn)的 AI 模型也難以可視化和推斷場(chǎng)景中的缺失部分，或從新的角度想象一個(gè)地方。而在根本上，Niantic 認(rèn)為借助大語(yǔ)言模型訓(xùn)練的方式，我們已經(jīng)能讓 AI 實(shí)現(xiàn)比擬甚至超越人類空間理解能力的「空間智能」。

野心背后，Niantic 的另一份底氣在于，作為《Pokémon Go》《Ingress》開(kāi)發(fā)商，Niantic 早就手握全球無(wú)數(shù)玩家貢獻(xiàn)的海量真實(shí)影像和地圖數(shù)據(jù)，并在過(guò)去五年中開(kāi)發(fā)視覺(jué)定位系統(tǒng) （VPS），在手機(jī)上實(shí)現(xiàn)根據(jù)單個(gè)圖像在 3D 地圖中確定用戶的方位。

事實(shí)上，2021 年 Niantic 還發(fā)布過(guò)一項(xiàng)名為 ManyDepth 的技術(shù)，能夠通過(guò)單個(gè)手機(jī)攝像頭直接創(chuàng)建 3D 地圖，利用機(jī)器學(xué)習(xí)將沒(méi)有深度信息的二維圖像轉(zhuǎn)化為帶有深度信息的三維圖像，并且不依賴 LiDAR 或者其他深度傳感器。

而作為 Niantic 視覺(jué)定位系統(tǒng)的一部分，LGM 模型目前已經(jīng)訓(xùn)練了超過(guò) 5000 萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò)，擁有超過(guò) 150 萬(wàn)億個(gè)參數(shù)，能夠在超過(guò) 100 萬(wàn)個(gè)位置運(yùn)行。Niantic 首席科學(xué)家 Victor Prisacariu 還表示：

「利用我們的用戶在玩 Ingress 和 Pokémon Go 等游戲時(shí)上傳的數(shù)據(jù)，我們打造了世界的高保真 3D 地圖，其中包括 3D 幾何形狀（或事物的形狀）和語(yǔ)義理解�！�

最終，LGM 模型的目標(biāo)是在全球范圍內(nèi)實(shí)現(xiàn)對(duì)地理空間的共同理解，即便是那些沒(méi)有被玩家掃描過(guò)的地方。

但 LGM 模型意義不僅是讓設(shè)備「看懂」真實(shí)環(huán)境，提供精準(zhǔn)的空間定位。更重要的是，只有讓計(jì)算機(jī)能夠更準(zhǔn)確、高效地感知和理解物理空間，才能更深刻地改變?nèi)伺c機(jī)器之間基于物理世界的交互方式，進(jìn)而推動(dòng) AR 眼鏡以及智能機(jī)器人真正走進(jìn)我們的生活。

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？

左邊是 Rokid Glasses，右邊是特斯拉擎天柱，圖/ Rokid、特斯拉

不過(guò)具體到 AR 眼鏡上，LGM 模型的推出真的會(huì)如人們期待的那樣，加速 AR 眼鏡的普及嗎？甚至成為 AR 行業(yè)的「一腳地板油」？這不是一個(gè)容易解答的問(wèn)題。

地理空間大模型，AR版的「高精地圖」？

在 AR 眼鏡中，準(zhǔn)確的空間定位一直是重中之重，這一點(diǎn)相信早已不言而喻。問(wèn)題在于，現(xiàn)行的 SLAM（同步定位與建圖）空間定位技術(shù)就像一位即興作畫的畫家：通過(guò)攝像頭等傳感器，實(shí)時(shí)描繪周圍環(huán)境的地圖并確定自身的位置。

但要用這種「即看即建」的方式實(shí)現(xiàn)準(zhǔn)確的空間定位，不僅依賴傳感器支持，往往還需要較高的性能與續(xù)航開(kāi)銷，對(duì)于內(nèi)部空間「寸土寸金」的 AR 眼鏡來(lái)說(shuō)，始終是不小的壓力。AR 廠商不是沒(méi)想過(guò)新的解決方案，比如 Rokid AR Studio 上就實(shí)現(xiàn)了基于單目攝像頭的空間定位和手勢(shì)識(shí)別，也只是降低了硬件門檻和成本。

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？

Rokid AR Studio，圖/ Rokid

而與之相對(duì)，LGM 模型和 SLAM 技術(shù)可以理解為 AR 眼鏡的「地圖」和「指南針」：LGM 提供了一幅全局性的高精度地圖，為設(shè)備提供宏觀層面的環(huán)境理解；SLAM 則像指南針，幫助設(shè)備在未知或動(dòng)態(tài)環(huán)境中快速調(diào)整和適應(yīng)。

通過(guò)構(gòu)建了一套全球性的高精度 3D 地圖，LGM 模型能夠提供詳盡的地理空間信息。對(duì)于 AR 眼鏡來(lái)說(shuō)，這種預(yù)先構(gòu)建的地圖意味著在已知環(huán)境中無(wú)需從零開(kāi)始建圖，而是可以直接利用 LGM 提供的全局地圖進(jìn)行精準(zhǔn)定位，理論上可以在不影響準(zhǔn)確性的前提下，大幅削減性能開(kāi)銷，尤其在室外場(chǎng)景。

想象一下，當(dāng)你在一個(gè)陌生的城市中尋找餐館，AR 眼鏡讓導(dǎo)航箭頭更準(zhǔn)確地貼合地面，更精確地指向餐館的入口，而不是像過(guò)去那樣懸浮在半空，只能提供粗略的方向。這種視覺(jué)上的準(zhǔn)確性不僅提高了便利性，也增強(qiáng)了用戶對(duì) AR 眼鏡的信任感。

另一方面，LGM 模型對(duì)空間的「語(yǔ)義理解」，對(duì)于 AR 眼鏡的意義不只是識(shí)別環(huán)境，還在于「理解」環(huán)境。與 SLAM 只是繪制幾何地圖不同，LGM 模型還能通過(guò)語(yǔ)義理解為空間中的物體賦予了具體意義，讓 AR 眼鏡能夠理解環(huán)境的上下文，將虛擬的 3D 物體合理地放置在真實(shí)空間的方位中。

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？

任天堂與 Niantic 合作的《皮克敏》AR 手游，圖/ Niantic

這一點(diǎn)也與現(xiàn)有視覺(jué)模型依賴二維圖像識(shí)別技術(shù)不同，視覺(jué)模型更多只能識(shí)別出眼前是「路」還是「樹(shù)」，卻無(wú)法理解這些物體在空間中的位置，自然也無(wú)從談起虛擬內(nèi)容在真實(shí)空間的合理放置。

不過(guò)眾所周知，《Pokémon Go》并未進(jìn)入中國(guó)，中國(guó)市場(chǎng)也始終沒(méi)有出現(xiàn)一款能夠進(jìn)入大眾視野的 AR+LBS 游戲。類似 LGM 的地理空間大模型，在中國(guó)還沒(méi)有出現(xiàn)成長(zhǎng)的土壤。

但視覺(jué)大模型其實(shí)也有潛力從二維平面的物體識(shí)別進(jìn)化到三維空間的理解，具備「空間智能」，甚至是視頻生成模型也有可能。就像 OpenAI Sora 出現(xiàn)之初，以 360 創(chuàng)始人周鴻為代表的一部分人都認(rèn)為 Sora 不僅是視頻生成模型，還是能夠最終理解物理世界的「世界模型」。

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？

Sora，圖/ OpenAI

再有，Niantic 的 LGM 目前仍在開(kāi)發(fā)中，理論上的潛力是一方面，實(shí)際上的表現(xiàn)則是另一方面，還很難斷言它的未來(lái)。

AI大模型改變 AR 眼鏡，一切才剛開(kāi)始

在之前的報(bào)道，雷科技多次提到一個(gè)觀點(diǎn)：最近一年多智能眼鏡的關(guān)鍵轉(zhuǎn)變?cè)谟诖竽Ｐ蛶?lái)的自然理解能力大升級(jí)，帶來(lái)了人機(jī)語(yǔ)音交互的質(zhì)變，這是交互方式有限的智能眼鏡能夠爆發(fā)的前提條件。

這一點(diǎn)對(duì)于 AR 眼鏡其實(shí)亦然。雖然包括 Rokid、雷鳥(niǎo)創(chuàng)新都在嘗試各種交互方式，比如 Rokid 基于單目攝像頭的手勢(shì)交互，雷鳥(niǎo)創(chuàng)新基于智能戒指的交互，但實(shí)際上主流產(chǎn)品線受限于性能、體驗(yàn)和成本等因素，語(yǔ)音和觸摸交互，才是核心的交互方式。

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？

雷鳥(niǎo) X2，圖/雷鳥(niǎo)創(chuàng)新

從這個(gè)角度看，AI 語(yǔ)音交互帶來(lái)的質(zhì)變也就不言自明了，可以明顯改善 AR 眼鏡在人機(jī)交互方式上的短板。而與此同時(shí)，大模型也在帶來(lái)計(jì)算機(jī)視覺(jué)能力上的「基因突變」，決定著 AR 眼鏡的未來(lái)方向。

誠(chéng)然，目前 AI 視覺(jué)的價(jià)值才剛剛嶄露頭腳，比如基于周圍環(huán)境的實(shí)時(shí)問(wèn)答、直接翻譯外文進(jìn)行播報(bào)或文本呈現(xiàn)等，都能做到比以往更低的成本、更好的體驗(yàn)。另外，地理空間大模型、能夠理解世界的視頻生成模型，對(duì)于 AR 眼鏡來(lái)說(shuō)也還未真正達(dá)到可用。

但不管從交互體驗(yàn)，還是 AR 眼鏡的「減重」來(lái)看，基于攝像頭的 AI 視覺(jué)（端云混合）在理論上都有更高的潛力，不僅能降低空間交互的復(fù)雜度和門檻，也能減少傳感器和傳統(tǒng)計(jì)算開(kāi)銷，從而做到重量和成本的降低、續(xù)航的提升。

一言以蔽之，大模型改變 AR 眼鏡的旅程，還遠(yuǎn)沒(méi)有走到終點(diǎn)。

相關(guān)熱詞： ar眼鏡 pokémon go ar 眼鏡 niantic rokid 地圖

上一篇：當(dāng)生物標(biāo)本被AI“復(fù)活” “數(shù)字世界”如何助力生物多樣性保護(hù)？

下一篇：消息稱“網(wǎng)約車巨頭”Uber計(jì)劃投資自動(dòng)駕駛公司小馬智行赴美IPO

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-21 20:06:03 瀏覽：55次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-21 20:06:03 瀏覽：55次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Pokémon Go開(kāi)發(fā)地理空間大模型，AR眼鏡的高精地圖？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-21 20:06:03 瀏覽：55次