特级毛片永久久免费观看,香蕉久久av一区二区三区,欧美成人中文字幕dvd

英偉達(dá)最新研究成果！開辟機(jī)器人導(dǎo)航更多可能無需地圖實(shí)時(shí)感知

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-11 19:10:27 瀏覽：217次

導(dǎo)讀：《科創(chuàng)板日報(bào)》12月11日訊（編輯宋子喬）日前，加州大學(xué)研究人員和英偉達(dá)共同發(fā)布了新的視覺語言模型“NaVILA”。亮點(diǎn)在于，NaVILA模型為機(jī)器人導(dǎo)航提供了一種新方案。NaVILA模型的相關(guān)論文視覺語言模型（VLM）是一種多模態(tài)生成式AI模型，能夠?qū)ξ谋�、圖像和視頻提示進(jìn)行推理。它通過將大語言模型（LLM）與視覺編碼器相結(jié)合，使LLM具有“看”的能力。傳統(tǒng)的機(jī)器人行動(dòng)往往依 ......

《科創(chuàng)板日報(bào)》12月11日訊（編輯宋子喬） 日前，加州大學(xué)研究人員和英偉達(dá)共同發(fā)布了新的視覺語言模型“NaVILA”。亮點(diǎn)在于，NaVILA模型為機(jī)器人導(dǎo)航提供了一種新方案。

英偉達(dá)最新研究成果！開辟機(jī)器人導(dǎo)航更多可能無需地圖實(shí)時(shí)感知

NaVILA模型的相關(guān)論文

視覺語言模型（VLM）是一種多模態(tài)生成式AI模型，能夠?qū)ξ谋�、圖像和視頻提示進(jìn)行推理。它通過將大語言模型（LLM）與視覺編碼器相結(jié)合，使LLM具有“看”的能力。

傳統(tǒng)的機(jī)器人行動(dòng)往往依賴于預(yù)先繪制的地圖和復(fù)雜的傳感器系統(tǒng)。而NaVILA模型不需要預(yù)先的地圖，機(jī)器人只需“聽懂”人類的自然語言指令，結(jié)合實(shí)時(shí)的視覺圖像和激光雷達(dá)信息，實(shí)時(shí)感知環(huán)境中的路徑、障礙物和動(dòng)態(tài)目標(biāo)，就可以自主導(dǎo)航到指定位置。

不僅擺脫了對地圖的依賴，NaVILA還進(jìn)一步將導(dǎo)航技術(shù)從輪式擴(kuò)展到了足式機(jī)器人，希望讓機(jī)器人應(yīng)付更多復(fù)雜場景，使其具備跨越障礙和自適應(yīng)路徑規(guī)劃的能力。

在論文中，加州大學(xué)研究人員使用宇樹Go2機(jī)器狗和G1人形機(jī)器人進(jìn)行了實(shí)測。根據(jù)團(tuán)隊(duì)統(tǒng)計(jì)的實(shí)測結(jié)論，在家庭、戶外和工作區(qū)等真實(shí)環(huán)境中，NaVILA的導(dǎo)航成功率高達(dá)88%，在復(fù)雜任務(wù)中的成功率也達(dá)到了75%。

Go2機(jī)器狗接受行動(dòng)指令：向左轉(zhuǎn)一點(diǎn)，朝著肖像海報(bào)走，你會(huì)看到一扇敞開的門

G1人形機(jī)器人接受行動(dòng)指令：立即左轉(zhuǎn)并直行，踩上墊子繼續(xù)前進(jìn)，直到接近垃圾桶時(shí)停下來

據(jù)介紹，NaVILA模型的特點(diǎn)在于：

優(yōu)化準(zhǔn)確性與效率：NVILA模型在訓(xùn)練成本上降低了4.5倍，微調(diào)所需內(nèi)存減少了3.4倍。在預(yù)填充和解碼的延遲上幾乎降低了2倍（這些數(shù)據(jù)是與另一個(gè)大型視覺模型LLaVa OneVision進(jìn)行比較得出的）。

高分辨率輸入：NVILA模型并不通過降低照片和視頻的大小來優(yōu)化輸入，而是使用高分辨率圖像和視頻中的多個(gè)幀，以確保不丟失任何細(xì)節(jié)。

壓縮技術(shù)：英偉達(dá)指出，訓(xùn)練視覺語言模型的成本非常高，同時(shí)，微調(diào)這樣的模型也非常耗費(fèi)內(nèi)存，7B參數(shù)的模型需要超過64GB的GPU內(nèi)存。因此英偉達(dá)采用了一種名為“先擴(kuò)展后壓縮”的技術(shù)，通過將視覺信息壓縮為更少的token，來減少輸入數(shù)據(jù)的大小，并將像素進(jìn)行分組，以保留重要信息，平衡模型的準(zhǔn)確性與效率。

多模態(tài)推理能力：NVILA模型能夠根據(jù)一張圖片或一段視頻回答多個(gè)查詢，具有強(qiáng)大的多模態(tài)推理能力。

在視頻基準(zhǔn)測試中，NVILA的表現(xiàn)超過了GPT-4o Mini，并且在與GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比較中也表現(xiàn)出色。NVILA還在與Llama 3.2的對比中取得了微弱勝利。

英偉達(dá)最新研究成果！開辟機(jī)器人導(dǎo)航更多可能無需地圖實(shí)時(shí)感知

英偉達(dá)表示，目前尚未將該模型發(fā)布到Hugging Face平臺(tái)上，其承諾會(huì)很快發(fā)布代碼和模型，以促進(jìn)模型的可復(fù)現(xiàn)性。

（科創(chuàng)板日報(bào) 宋子喬）

英偉達(dá)最新研究成果！開辟機(jī)器人導(dǎo)航更多可能無需地圖實(shí)時(shí)感知
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-11 19:10:27 瀏覽：217次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

英偉達(dá)最新研究成果！開辟機(jī)器人導(dǎo)航更多可能 無需地圖實(shí)時(shí)感知 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-11 19:10:27 瀏覽：217次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

英偉達(dá)最新研究成果！開辟機(jī)器人導(dǎo)航更多可能無需地圖實(shí)時(shí)感知
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-11 19:10:27 瀏覽：217次