展會(huì)信息港展會(huì)大全

英偉達(dá)最新研究成果!開辟機(jī)器人導(dǎo)航更多可能 無需地圖實(shí)時(shí)感知
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-11 19:10:27   瀏覽:217次  

導(dǎo)讀:《科創(chuàng)板日報(bào)》12月11日訊(編輯 宋子喬) 日前,加州大學(xué)研究人員和英偉達(dá)共同發(fā)布了新的視覺語言模型“NaVILA”。亮點(diǎn)在于,NaVILA模型為機(jī)器人導(dǎo)航提供了一種新方案。NaVILA模型的相關(guān)論文視覺語言模型(VLM)是一種多模態(tài)生成式AI模型,能夠?qū)ξ谋、圖像和視頻提示進(jìn)行推理。它通過將大語言模型(LLM)與視覺編碼器相結(jié)合,使LLM具有“看”的能力。傳統(tǒng)的機(jī)器人行動(dòng)往往依 ......

《科創(chuàng)板日報(bào)》12月11日訊(編輯 宋子喬) 日前,加州大學(xué)研究人員和英偉達(dá)共同發(fā)布了新的視覺語言模型“NaVILA”。亮點(diǎn)在于,NaVILA模型為機(jī)器人導(dǎo)航提供了一種新方案。

英偉達(dá)最新研究成果!開辟機(jī)器人導(dǎo)航更多可能 無需地圖實(shí)時(shí)感知

英偉達(dá)最新研究成果!開辟機(jī)器人導(dǎo)航更多可能 無需地圖實(shí)時(shí)感知

NaVILA模型的相關(guān)論文

視覺語言模型(VLM)是一種多模態(tài)生成式AI模型,能夠?qū)ξ谋、圖像和視頻提示進(jìn)行推理。它通過將大語言模型(LLM)與視覺編碼器相結(jié)合,使LLM具有“看”的能力。

傳統(tǒng)的機(jī)器人行動(dòng)往往依賴于預(yù)先繪制的地圖和復(fù)雜的傳感器系統(tǒng)。而NaVILA模型不需要預(yù)先的地圖,機(jī)器人只需“聽懂”人類的自然語言指令,結(jié)合實(shí)時(shí)的視覺圖像和激光雷達(dá)信息,實(shí)時(shí)感知環(huán)境中的路徑、障礙物和動(dòng)態(tài)目標(biāo),就可以自主導(dǎo)航到指定位置。

不僅擺脫了對地圖的依賴,NaVILA還進(jìn)一步將導(dǎo)航技術(shù)從輪式擴(kuò)展到了足式機(jī)器人,希望讓機(jī)器人應(yīng)付更多復(fù)雜場景,使其具備跨越障礙和自適應(yīng)路徑規(guī)劃的能力。

在論文中,加州大學(xué)研究人員使用宇樹Go2機(jī)器狗和G1人形機(jī)器人進(jìn)行了實(shí)測。根據(jù)團(tuán)隊(duì)統(tǒng)計(jì)的實(shí)測結(jié)論,在家庭、戶外和工作區(qū)等真實(shí)環(huán)境中,NaVILA的導(dǎo)航成功率高達(dá)88%,在復(fù)雜任務(wù)中的成功率也達(dá)到了75%。

Go2機(jī)器狗接受行動(dòng)指令:向左轉(zhuǎn)一點(diǎn),朝著肖像海報(bào)走,你會(huì)看到一扇敞開的門

G1人形機(jī)器人接受行動(dòng)指令:立即左轉(zhuǎn)并直行,踩上墊子繼續(xù)前進(jìn),直到接近垃圾桶時(shí)停下來

據(jù)介紹,NaVILA模型的特點(diǎn)在于:

優(yōu)化準(zhǔn)確性與效率:NVILA模型在訓(xùn)練成本上降低了4.5倍,微調(diào)所需內(nèi)存減少了3.4倍。在預(yù)填充和解碼的延遲上幾乎降低了2倍(這些數(shù)據(jù)是與另一個(gè)大型視覺模型LLaVa OneVision進(jìn)行比較得出的)。

高分辨率輸入:NVILA模型并不通過降低照片和視頻的大小來優(yōu)化輸入,而是使用高分辨率圖像和視頻中的多個(gè)幀,以確保不丟失任何細(xì)節(jié)。

壓縮技術(shù):英偉達(dá)指出,訓(xùn)練視覺語言模型的成本非常高,同時(shí),微調(diào)這樣的模型也非常耗費(fèi)內(nèi)存,7B參數(shù)的模型需要超過64GB的GPU內(nèi)存。因此英偉達(dá)采用了一種名為“先擴(kuò)展后壓縮”的技術(shù),通過將視覺信息壓縮為更少的token,來減少輸入數(shù)據(jù)的大小,并將像素進(jìn)行分組,以保留重要信息,平衡模型的準(zhǔn)確性與效率。

多模態(tài)推理能力:NVILA模型能夠根據(jù)一張圖片或一段視頻回答多個(gè)查詢,具有強(qiáng)大的多模態(tài)推理能力。

在視頻基準(zhǔn)測試中,NVILA的表現(xiàn)超過了GPT-4o Mini,并且在與GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比較中也表現(xiàn)出色。NVILA還在與Llama 3.2的對比中取得了微弱勝利。

英偉達(dá)最新研究成果!開辟機(jī)器人導(dǎo)航更多可能 無需地圖實(shí)時(shí)感知

英偉達(dá)表示,目前尚未將該模型發(fā)布到Hugging Face平臺(tái)上,其承諾會(huì)很快發(fā)布代碼和模型,以促進(jìn)模型的可復(fù)現(xiàn)性。

(科創(chuàng)板日報(bào) 宋子喬)

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港