能夠在三維場(chǎng)景中進(jìn)行空間感知和推理決策是機(jī)器人和具身 AI 區(qū)別于二維圖像智能的重要能力,也是現(xiàn)有人工智能模型的嚴(yán)重局限之一。
基于這個(gè)觀察,美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校(UIUC,University of Illinois Urbana-Champaign)團(tuán)隊(duì)研究并證明了空間感知在三維多模態(tài)推理中的重要性,并結(jié)合大視覺(jué)語(yǔ)言模型提出了強(qiáng)化空間智能的新方法。
相關(guān)論文發(fā)表在 2024 年 IEEE 國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR,Conference on Computer Vision and Pattern Recognition)上。
論文的第一作者滿運(yùn)澤,本碩博先后就讀于浙江大學(xué)、美國(guó)卡內(nèi)基梅隆大學(xué)和 UIUC。他曾在 Adobe 實(shí)習(xí)過(guò),如今又在 NVIDIA 從事科研實(shí)習(xí)工作,目前主要研究多模態(tài)大模型和具身智能。
圖丨滿運(yùn)澤(來(lái)源:滿運(yùn)澤)
他表示,本次工作在很大程度上基于對(duì)人類智能的觀察。
具體來(lái)說(shuō):
他和團(tuán)隊(duì)發(fā)現(xiàn)相比于機(jī)器學(xué)習(xí)模型,人類在回答三維空間中的復(fù)雜感知、規(guī)劃任務(wù)和推理任務(wù)的時(shí)候,會(huì)自然而然地從自身所處的情景出發(fā),來(lái)做第一人稱的理解和判斷。
這種智能使得人們可以很輕易地理解“左右”“遠(yuǎn)近”“上下”等空間相對(duì)概念,并能在復(fù)雜的多物體多模態(tài)環(huán)境中工作。
他和同事把這種智能叫做情景感知。它是空間智能的其中一種,代表著一個(gè)具身智能體能夠理解自身所處環(huán)境,并能依此進(jìn)行空間推理的能力。
這也和美國(guó)斯坦福大學(xué)李飛飛教授所強(qiáng)調(diào)的 Spatial Intelligence 有著密切相關(guān)性。
研究中,該團(tuán)隊(duì)通過(guò)初步實(shí)驗(yàn)證明:現(xiàn)有的人工智能模型并不具備情景感知能力。
首先,在情景估計(jì)任務(wù)中,現(xiàn)有模型的表現(xiàn)僅僅比隨機(jī)猜測(cè)高出一點(diǎn)點(diǎn)而已。
其次,他們還發(fā)現(xiàn)有無(wú)情景輸入,對(duì)于情境相關(guān)的問(wèn)答效果完全沒(méi)有任何區(qū)別,這一點(diǎn)其實(shí)與人類直覺(jué)是完全相悖的。
而在本次研究伊始,他們注意到了 SQA3D 這個(gè)數(shù)據(jù)集,這是一個(gè)鮮少有人注意但卻非常獨(dú)特和重要的數(shù)據(jù)集。
此前通過(guò)使用這個(gè)數(shù)據(jù)集,人們一般用來(lái)研究 3D 問(wèn)答效果。但是,很少有人將這個(gè)數(shù)據(jù)集用于研究情景估計(jì)和基于情景的問(wèn)答效果。
而通過(guò)分析領(lǐng)域內(nèi)的已有工作,并通過(guò)與人類智能對(duì)比,他們將研究方向定為情景感知。
隨后,課題組開(kāi)始針對(duì)現(xiàn)有模型的步驟進(jìn)行分析和可視化,借此找出導(dǎo)致效果變差的成因。
隨后發(fā)現(xiàn)問(wèn)題主要出現(xiàn)在兩方面:
其一,當(dāng)采用端到端直接估計(jì)的架構(gòu)時(shí),會(huì)導(dǎo)致模型無(wú)法利用估計(jì)出來(lái)的情景,來(lái)輔助問(wèn)答任務(wù)和推理任務(wù)。
其二,采用回歸估計(jì)(Regression Estimation)的方法,會(huì)導(dǎo)致模型無(wú)法在巨大的三維空間中準(zhǔn)確定位到某一位置和某一方向向量。
為此,該團(tuán)隊(duì)設(shè)計(jì)出一款名為 SIG3D 的模型,針對(duì)上述兩方面問(wèn)題進(jìn)行優(yōu)化,這不僅能讓三維搜索空間變小,也能顯著提升準(zhǔn)確度。
同時(shí),課題組盡可能多地尋找合適的數(shù)據(jù)集來(lái)驗(yàn)證猜想,并再次通過(guò)最終結(jié)果和中間結(jié)果的可視化,來(lái)驗(yàn)證所優(yōu)化模塊的效果。
最終,相關(guān)論文以《情境意識(shí)在三維視覺(jué)語(yǔ)言推理中的重要性》(Situational Awareness Matters in 3D Vision Language Reasoning)為題發(fā)在 CVPR 2024 上 [1]。
圖丨相關(guān)論文(來(lái)源:CVPR)
對(duì)于相關(guān)論文審稿人一致認(rèn)為:
首先,本次論文研究動(dòng)機(jī)十分明確,并解決了幫助智能體理解三維環(huán)境這一問(wèn)題,在方法上具有一定創(chuàng)新性。
其次,研究人員進(jìn)行了充分的實(shí)驗(yàn)和廣泛的消融研究,在兩個(gè)問(wèn)答任務(wù)和一個(gè)情景估計(jì)任務(wù)進(jìn)行了評(píng)估。
并在所有三個(gè)任務(wù)上均展示出最優(yōu)越的性能,尤其在情境估計(jì)任務(wù)上取得了顯著提升。
最后,研究中對(duì)于鳥(niǎo)眼(BEV,Bird's-Eye Vie)俯視角和情境理解的探討,為 3D 推理和具身 AI 等應(yīng)用做出了一定貢獻(xiàn)。
對(duì)于游戲、居家機(jī)器人、自動(dòng)駕駛車輛、以及增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)等混合現(xiàn)實(shí)產(chǎn)品的智能體系統(tǒng),本次成果將能帶來(lái)一定的潛在幫助。
而擁有一個(gè)更好的情景感知能力,意味著模型將能擁有更好的 3D 空間理解能力。
它將能明白自己在空間中的位置和方向,因此會(huì)天然地?fù)碛懈鼜?qiáng)的避障能力、導(dǎo)航能力、推理能力、交流能力以及多模態(tài)問(wèn)答,從而催生更安全、更智能的 AI。
(來(lái)源:CVPR)
另?yè)?jù)滿運(yùn)澤介紹,這是他的第一篇正式向視覺(jué)語(yǔ)言多模態(tài)方向轉(zhuǎn)型的論文。
“論文定題的初期曾經(jīng)歷一些陣痛。由于脫離了自己之前熟悉的領(lǐng)域,所以交流方式也要進(jìn)行更新,還有無(wú)數(shù)的相關(guān)文獻(xiàn)要等著閱讀,因此精神壓力一直比較大。”他說(shuō)。
但是,研究途中滿運(yùn)澤逐漸體會(huì)到豁然開(kāi)朗的感覺(jué),也讓他產(chǎn)生了很多關(guān)于視覺(jué)語(yǔ)言模型的其他想法。
他說(shuō):“從對(duì)這個(gè)方向產(chǎn)生興趣、追隨興趣、摸黑探索、以及豁然開(kāi)朗,很像《桃花源記》中的一句話‘山有小口,仿佛若有光(新的方向)。便舍船,從口入。初極狹,才通人(轉(zhuǎn)型的陣痛)。復(fù)行數(shù)十步,豁然開(kāi)朗’。”
而基于本次成果:
首先,他希望可以繼續(xù)拓展模型的研究情景感知能力在 7B 模型、13B 模型、乃至 40B 模型中,是否仍會(huì)帶來(lái)推理效果的提升。
其次,他打算研究場(chǎng)景從室內(nèi)拓展到室外,在更空曠和更復(fù)雜的交互中驗(yàn)證模型。
最后,他還會(huì)研究視覺(jué)模型對(duì)于 3D 多模態(tài)推理的重要性,尤其是探究圖像和視頻中的 2D 基礎(chǔ)模型的泛化能力,能否被拓展到 3D 模型中。而這個(gè)工作的相關(guān)論文,已經(jīng)在 arXiv 預(yù)印本平臺(tái)上發(fā)表。
圖丨相關(guān)論文(來(lái)源:arXiv )
滿運(yùn)澤的長(zhǎng)期研究目標(biāo)是:希望開(kāi)發(fā)一個(gè)視覺(jué)感知優(yōu)先的多模態(tài)信息系統(tǒng),從而為具身 AI 和機(jī)器人構(gòu)建一個(gè)能夠準(zhǔn)確表示周圍世界的動(dòng)態(tài)三維世界模型,并能在進(jìn)行復(fù)雜推理和決策的同時(shí),與人類和環(huán)境產(chǎn)生交互。
參考資料:
1.https://arxiv.org/pdf/2406.07544
排版:劉雅坤