新智元報(bào)道
編輯:Aeneas
【新智元導(dǎo)讀】依靠自監(jiān)督神經(jīng)網(wǎng)絡(luò)單眼深度估計(jì),高通眼鏡可以實(shí)時(shí)3D重建了。
高通的AR眼鏡,可以實(shí)時(shí)3D重建了!
最近,高通展示了他們使用自監(jiān)督神經(jīng)網(wǎng)絡(luò)單眼深度估計(jì),在AR眼鏡和智能手機(jī)上實(shí)現(xiàn)實(shí)時(shí)3D重建的過(guò)程。
當(dāng)使用者戴上AR眼鏡后,就實(shí)時(shí)生成了房間的3D影像。
AR眼鏡顯示的視角,就是用戶所觀察到的視角。而這些圖像被輸送到高通的低延遲深度估計(jì)模型中,預(yù)測(cè)的深度和相機(jī)的6自由度被提供給了重建模型。
「自我監(jiān)督」的意思,是使用重投影損失來(lái)監(jiān)督每個(gè)單目深度模型。
而實(shí)時(shí)生成的3D網(wǎng)格和平面非常準(zhǔn)確,使物理世界與數(shù)字世界的沉浸式AR體驗(yàn)得以無(wú)縫對(duì)接。
辦公環(huán)境深度圖的相對(duì)誤差最小可達(dá)10-20%,而深度估計(jì)延遲小于9ms。
Qualcomm AI Research:最新的3D感知前沿研究
如此神奇的功能,背后的原理是怎樣的呢?
在7月高通的一篇blog上,我們或許可以找到答案。
讓我們來(lái)看看這篇博客
世界是3D的,作為人類,我們是以3D的方式感知這世界世界。
與2D相比,3D感知具有許多優(yōu)勢(shì),使我們能夠更準(zhǔn)確地感知和參與我們周圍的世界這就是為什么使機(jī)器具有這種能力這么重要。
例如,3D感知有助于在不同的光照條件下獲得可靠的結(jié)果,為物體和場(chǎng)景識(shí)別提供可靠的線索,并且準(zhǔn)確地估計(jì)尺寸、姿勢(shì)和運(yùn)動(dòng)。
啟用和增強(qiáng)關(guān)鍵用例
3D感知使得跨設(shè)備和行業(yè)的許多程序能夠改善我們的生活,從XR和自動(dòng)駕駛,到物聯(lián)網(wǎng)、相機(jī)和移動(dòng)設(shè)備。
例如,要實(shí)現(xiàn)沉浸式 XR,在6自由度運(yùn)動(dòng)估計(jì)、避障、物體放置、逼真渲染、手勢(shì)估計(jì)以及虛擬環(huán)境中的交互中,3D感知都至關(guān)重要。
3D感知極大地促進(jìn)了沉浸式XR
3D感知為自動(dòng)駕駛提供極大的助力,自動(dòng)駕駛利用來(lái)自攝像頭、LiDAR和雷達(dá)的3D數(shù)據(jù)流,讓更安全的駕駛成為可能。
3D感知還可用于3D地圖重建,它可以將車輛定位在道路上,尋找可通行的路面,避開(kāi)障礙物,估計(jì)車輛、行人等物體的軌跡,進(jìn)行路徑規(guī)劃等等。
3D感知需要克服的新挑戰(zhàn)
為了更好地理解世界,3D感知依賴于多項(xiàng)任務(wù),其中許多任務(wù)在概念上與2D感知很相似。
現(xiàn)在,使3D感知的AI SOTA模型成為現(xiàn)實(shí),并在受功率、熱和性能限制的邊緣設(shè)備上進(jìn)行大規(guī)模的實(shí)際部署,一直是很大的挑戰(zhàn)。
值得注意的是,有兩類挑戰(zhàn)很突出數(shù)據(jù)和實(shí)施挑戰(zhàn)。
與像素排列在均勻網(wǎng)格上的2D圖像不同,3D點(diǎn)云非常稀疏且不均勻,這就需要在可訪問(wèn)性與內(nèi)存之間取得一個(gè)平衡。
3D感知面臨數(shù)據(jù)和實(shí)施挑戰(zhàn)
使大規(guī)模3D感知成為現(xiàn)實(shí)
Qualcomm AI Research領(lǐng)導(dǎo)的這項(xiàng)3D感知研究,獨(dú)特之處在于開(kāi)發(fā)了全新的AI技術(shù)。
高通的專家通過(guò)全棧AI研究構(gòu)建真實(shí)世界的部署,并創(chuàng)建了一個(gè)節(jié)能平臺(tái),使3D感知無(wú)處不在。
專家使用Qualcomm AI Stack工具包和SDK進(jìn)行了全棧優(yōu)化,實(shí)現(xiàn)了許多3D感知突破。
這其中的四個(gè)關(guān)鍵領(lǐng)域深度估計(jì)、目標(biāo)檢測(cè)、后估計(jì)和場(chǎng)景理解的細(xì)節(jié),如下所示。
3D感知研究的四個(gè)關(guān)鍵領(lǐng)域
跨不同模式的準(zhǔn)確深度估計(jì)
深度估計(jì)和3D重建是從2D圖像創(chuàng)建場(chǎng)景和物體的3D模型的感知任務(wù)。我們的研究利用輸入配置,包括單個(gè)圖像、立體圖像和 3D 點(diǎn)云。
研究院已經(jīng)為單目和立體圖像開(kāi)發(fā)了 SOTA 監(jiān)督和自我監(jiān)督學(xué)習(xí)方法,這些方法不僅高效,而且非常準(zhǔn)確。
除了模型架構(gòu)之外,全棧優(yōu)化還包括使用DONNA(提取最佳神經(jīng)網(wǎng)絡(luò)架構(gòu))進(jìn)行神經(jīng)架構(gòu)搜索,以及使用AI 模型效率工具包 (AIMET)進(jìn)行量化。
因此,高通在手機(jī)了展示了世界上第一個(gè)實(shí)時(shí)單眼深度估計(jì),可以從單個(gè)圖像創(chuàng)建3D圖像。
高效準(zhǔn)確的3D物體檢測(cè)
3D物體檢測(cè)是指尋找單個(gè)物體的位置和區(qū)域的感知任務(wù)。
例如,目標(biāo)可能是在用于自動(dòng)駕駛的 LiDAR 數(shù)據(jù)上檢測(cè)所有車輛和行人的相應(yīng) 3D 邊界框。
專家正在使3D點(diǎn)云中的高效對(duì)象檢測(cè)成為可能。
為此,他們開(kāi)發(fā)了一種基于變換器的高效3D對(duì)象檢測(cè)架構(gòu),這個(gè)架構(gòu)利用的是在極地空間中提取的2D偽圖像特征。
憑借更孝更快和更低功耗的模型,專家在LiDAR 3D點(diǎn)云上的車輛、行人和交通標(biāo)志檢測(cè)方面取得了最高的準(zhǔn)確度分?jǐn)?shù)。
低延遲和準(zhǔn)確的3D姿勢(shì)估計(jì)
3D姿態(tài)估計(jì)是指尋找物體方向和關(guān)鍵點(diǎn)的感知任務(wù)。
對(duì)于XR應(yīng)用程序,對(duì)于在虛擬環(huán)境中與虛擬對(duì)象進(jìn)行直觀交互,準(zhǔn)確且低延遲的手部和身體姿勢(shì)估計(jì)是至關(guān)重要的。
專家開(kāi)發(fā)了一種具有動(dòng)態(tài)改進(jìn)功能的高效神經(jīng)網(wǎng)絡(luò)架構(gòu),以減少手部姿勢(shì)估計(jì)的模型大小和延遲。
這個(gè)模型可以從2D圖像解釋3D的人體姿勢(shì)和手部姿勢(shì),計(jì)算可擴(kuò)展架構(gòu)迭代改進(jìn)了關(guān)鍵點(diǎn)檢測(cè),誤差小于5毫米這就實(shí)現(xiàn)了最佳的平均3D誤差。
3D場(chǎng)景理解
3D場(chǎng)景理解是指將場(chǎng)景分解為其3D和物理組件的感知任務(wù)。
專家開(kāi)發(fā)了世界上第一個(gè)用于場(chǎng)景理解的基于變換器的逆向渲染。
經(jīng)過(guò)端到端訓(xùn)練的管道從室內(nèi)圖像估計(jì)基于物理的場(chǎng)景屬性,例如房間布局、表面法線、反照率(表面漫反射率)、材料類型、對(duì)象類別和照明估計(jì)等。
高通的AI模型可以更好地處理場(chǎng)景組件之間的全局交互,從而更好地消除形狀、材料和照明的歧義。
目前,專家在所有3D感知的任務(wù)上都取得了SOTA結(jié)果,并支持高質(zhì)量的AR應(yīng)用程序,例如將逼真的虛擬對(duì)象插入到真實(shí)的場(chǎng)景中。
這個(gè)方法可以正確地估計(jì)光照,以逼真地插入物體,例如兔子
更多3D的感知突破即將到來(lái)
現(xiàn)在,高通的專家正在3D感知方面進(jìn)行更多的研究,并且有望在神經(jīng)輻射場(chǎng) (NeRF)、3D模仿學(xué)習(xí)、神經(jīng)SLAM(同步定位和映射)以及RF (Wi-Fi/5G) 中的3D場(chǎng)景理解方面取得更多突破。
此外,隨著機(jī)器學(xué)習(xí)研究工作的推進(jìn),高通的感知研究會(huì)比3D感知廣泛得多。
在XR、相機(jī)、移動(dòng)、自動(dòng)駕駛、物聯(lián)網(wǎng)等領(lǐng)域,會(huì)有更多感知設(shè)備出現(xiàn)。
我們的日常生活,在未來(lái)會(huì)大不相同。
參考資料:
https://www.reddit.com/r/MachineLearning/comments/z60wuh/r_qualcomm_demos_3d_reconstruction_on_ar_glasses/