youjizzxxxx18,国产亚洲欧美日韩在线三区,亚日韩在线观看一区二区

為機(jī)器人賦予空間智能，UIUC團(tuán)隊(duì)構(gòu)建多模態(tài)具身智能的3D推理系統(tǒng)

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 18:49:09 瀏覽：3484次

導(dǎo)讀：能夠在三維場(chǎng)景中進(jìn)行空間感知和推理決策是機(jī)器人和具身 AI 區(qū)別于二維圖像智能的重要能力，也是現(xiàn)有人工智能模型的嚴(yán)重局限之一。基于這個(gè)觀察，美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校（UIUC，University of Illinois Urbana-Champaign）團(tuán)隊(duì)研究并證明了空間感...

能夠在三維場(chǎng)景中進(jìn)行空間感知和推理決策是機(jī)器人和具身 AI 區(qū)別于二維圖像智能的重要能力，也是現(xiàn)有人工智能模型的嚴(yán)重局限之一。

基于這個(gè)觀察，美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校（UIUC，University of Illinois Urbana-Champaign）團(tuán)隊(duì)研究并證明了空間感知在三維多模態(tài)推理中的重要性，并結(jié)合大視覺(jué)語(yǔ)言模型提出了強(qiáng)化空間智能的新方法。

相關(guān)論文發(fā)表在 2024 年 IEEE 國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議（CVPR，Conference on Computer Vision and Pattern Recognition）上。

論文的第一作者滿運(yùn)澤，本碩博先后就讀于浙江大學(xué)、美國(guó)卡內(nèi)基梅隆大學(xué)和 UIUC。他曾在 Adobe 實(shí)習(xí)過(guò)，如今又在 NVIDIA 從事科研實(shí)習(xí)工作，目前主要研究多模態(tài)大模型和具身智能。

為機(jī)器人賦予空間智能，UIUC團(tuán)隊(duì)構(gòu)建多模態(tài)具身智能的3D推理系統(tǒng)

圖丨滿運(yùn)澤（來(lái)源：滿運(yùn)澤）

他表示，本次工作在很大程度上基于對(duì)人類智能的觀察。

具體來(lái)說(shuō)：

他和團(tuán)隊(duì)發(fā)現(xiàn)相比于機(jī)器學(xué)習(xí)模型，人類在回答三維空間中的復(fù)雜感知、規(guī)劃任務(wù)和推理任務(wù)的時(shí)候，會(huì)自然而然地從自身所處的情景出發(fā)，來(lái)做第一人稱的理解和判斷。

這種智能使得人們可以很輕易地理解“左右”“遠(yuǎn)近”“上下”等空間相對(duì)概念，并能在復(fù)雜的多物體多模態(tài)環(huán)境中工作。

他和同事把這種智能叫做情景感知。它是空間智能的其中一種，代表著一個(gè)具身智能體能夠理解自身所處環(huán)境，并能依此進(jìn)行空間推理的能力。

這也和美國(guó)斯坦福大學(xué)李飛飛教授所強(qiáng)調(diào)的 Spatial Intelligence 有著密切相關(guān)性。

研究中，該團(tuán)隊(duì)通過(guò)初步實(shí)驗(yàn)證明：現(xiàn)有的人工智能模型并不具備情景感知能力。

首先，在情景估計(jì)任務(wù)中，現(xiàn)有模型的表現(xiàn)僅僅比隨機(jī)猜測(cè)高出一點(diǎn)點(diǎn)而已。

其次，他們還發(fā)現(xiàn)有無(wú)情景輸入，對(duì)于情境相關(guān)的問(wèn)答效果完全沒(méi)有任何區(qū)別，這一點(diǎn)其實(shí)與人類直覺(jué)是完全相悖的。

而在本次研究伊始，他們注意到了 SQA3D 這個(gè)數(shù)據(jù)集，這是一個(gè)鮮少有人注意但卻非常獨(dú)特和重要的數(shù)據(jù)集。

此前通過(guò)使用這個(gè)數(shù)據(jù)集，人們一般用來(lái)研究 3D 問(wèn)答效果。但是，很少有人將這個(gè)數(shù)據(jù)集用于研究情景估計(jì)和基于情景的問(wèn)答效果。

而通過(guò)分析領(lǐng)域內(nèi)的已有工作，并通過(guò)與人類智能對(duì)比，他們將研究方向定為情景感知。

隨后，課題組開(kāi)始針對(duì)現(xiàn)有模型的步驟進(jìn)行分析和可視化，借此找出導(dǎo)致效果變差的成因。

隨后發(fā)現(xiàn)問(wèn)題主要出現(xiàn)在兩方面：

其一，當(dāng)采用端到端直接估計(jì)的架構(gòu)時(shí)，會(huì)導(dǎo)致模型無(wú)法利用估計(jì)出來(lái)的情景，來(lái)輔助問(wèn)答任務(wù)和推理任務(wù)。

其二，采用回歸估計(jì)（Regression Estimation）的方法，會(huì)導(dǎo)致模型無(wú)法在巨大的三維空間中準(zhǔn)確定位到某一位置和某一方向向量。

為此，該團(tuán)隊(duì)設(shè)計(jì)出一款名為 SIG3D 的模型，針對(duì)上述兩方面問(wèn)題進(jìn)行優(yōu)化，這不僅能讓三維搜索空間變小，也能顯著提升準(zhǔn)確度。

同時(shí)，課題組盡可能多地尋找合適的數(shù)據(jù)集來(lái)驗(yàn)證猜想，并再次通過(guò)最終結(jié)果和中間結(jié)果的可視化，來(lái)驗(yàn)證所優(yōu)化模塊的效果。

最終，相關(guān)論文以《情境意識(shí)在三維視覺(jué)語(yǔ)言推理中的重要性》（Situational Awareness Matters in 3D Vision Language Reasoning）為題發(fā)在 CVPR 2024 上 [1]。

為機(jī)器人賦予空間智能，UIUC團(tuán)隊(duì)構(gòu)建多模態(tài)具身智能的3D推理系統(tǒng)

圖丨相關(guān)論文（來(lái)源：CVPR）

對(duì)于相關(guān)論文審稿人一致認(rèn)為：

首先，本次論文研究動(dòng)機(jī)十分明確，并解決了幫助智能體理解三維環(huán)境這一問(wèn)題，在方法上具有一定創(chuàng)新性。

其次，研究人員進(jìn)行了充分的實(shí)驗(yàn)和廣泛的消融研究，在兩個(gè)問(wèn)答任務(wù)和一個(gè)情景估計(jì)任務(wù)進(jìn)行了評(píng)估。

并在所有三個(gè)任務(wù)上均展示出最優(yōu)越的性能，尤其在情境估計(jì)任務(wù)上取得了顯著提升。

最后，研究中對(duì)于鳥(niǎo)眼（BEV，Bird's-Eye Vie）俯視角和情境理解的探討，為 3D 推理和具身 AI 等應(yīng)用做出了一定貢獻(xiàn)。

對(duì)于游戲、居家機(jī)器人、自動(dòng)駕駛車輛、以及增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)等混合現(xiàn)實(shí)產(chǎn)品的智能體系統(tǒng)，本次成果將能帶來(lái)一定的潛在幫助。

而擁有一個(gè)更好的情景感知能力，意味著模型將能擁有更好的 3D 空間理解能力。

它將能明白自己在空間中的位置和方向，因此會(huì)天然地?fù)碛懈鼜?qiáng)的避障能力、導(dǎo)航能力、推理能力、交流能力以及多模態(tài)問(wèn)答，從而催生更安全、更智能的 AI。

為機(jī)器人賦予空間智能，UIUC團(tuán)隊(duì)構(gòu)建多模態(tài)具身智能的3D推理系統(tǒng)

（來(lái)源：CVPR）

另?yè)?jù)滿運(yùn)澤介紹，這是他的第一篇正式向視覺(jué)語(yǔ)言多模態(tài)方向轉(zhuǎn)型的論文。

“論文定題的初期曾經(jīng)歷一些陣痛。由于脫離了自己之前熟悉的領(lǐng)域，所以交流方式也要進(jìn)行更新，還有無(wú)數(shù)的相關(guān)文獻(xiàn)要等著閱讀，因此精神壓力一直比較大。”他說(shuō)。

但是，研究途中滿運(yùn)澤逐漸體會(huì)到豁然開(kāi)朗的感覺(jué)，也讓他產(chǎn)生了很多關(guān)于視覺(jué)語(yǔ)言模型的其他想法。

他說(shuō)：“從對(duì)這個(gè)方向產(chǎn)生興趣、追隨興趣、摸黑探索、以及豁然開(kāi)朗，很像《桃花源記》中的一句話‘山有小口，仿佛若有光（新的方向）。便舍船，從口入。初極狹，才通人（轉(zhuǎn)型的陣痛）。復(fù)行數(shù)十步，豁然開(kāi)朗’。”

而基于本次成果：

首先，他希望可以繼續(xù)拓展模型的研究情景感知能力在 7B 模型、13B 模型、乃至 40B 模型中，是否仍會(huì)帶來(lái)推理效果的提升。

其次，他打算研究場(chǎng)景從室內(nèi)拓展到室外，在更空曠和更復(fù)雜的交互中驗(yàn)證模型。

最后，他還會(huì)研究視覺(jué)模型對(duì)于 3D 多模態(tài)推理的重要性，尤其是探究圖像和視頻中的 2D 基礎(chǔ)模型的泛化能力，能否被拓展到 3D 模型中。而這個(gè)工作的相關(guān)論文，已經(jīng)在 arXiv 預(yù)印本平臺(tái)上發(fā)表。

為機(jī)器人賦予空間智能，UIUC團(tuán)隊(duì)構(gòu)建多模態(tài)具身智能的3D推理系統(tǒng)

圖丨相關(guān)論文（來(lái)源：arXiv ）

滿運(yùn)澤的長(zhǎng)期研究目標(biāo)是：希望開(kāi)發(fā)一個(gè)視覺(jué)感知優(yōu)先的多模態(tài)信息系統(tǒng)，從而為具身 AI 和機(jī)器人構(gòu)建一個(gè)能夠準(zhǔn)確表示周圍世界的動(dòng)態(tài)三維世界模型，并能在進(jìn)行復(fù)雜推理和決策的同時(shí)，與人類和環(huán)境產(chǎn)生交互。

參考資料：

1.https://arxiv.org/pdf/2406.07544

排版：劉雅坤

為機(jī)器人賦予空間智能，UIUC團(tuán)隊(duì)構(gòu)建多模態(tài)具身智能的3D推理系統(tǒng)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 18:49:09 瀏覽：3484次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

為機(jī)器人賦予空間智能，UIUC團(tuán)隊(duì)構(gòu)建多模態(tài)具身智能的3D推理系統(tǒng) 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 18:49:09 瀏覽：3484次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

為機(jī)器人賦予空間智能，UIUC團(tuán)隊(duì)構(gòu)建多模態(tài)具身智能的3D推理系統(tǒng)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 18:49:09 瀏覽：3484次