国产尤物AV尤物在线观看,91视频香蕉APP,曰本久久久久久久黄色视频

導(dǎo)讀：https://arxiv.org/pdf/2302.11481.pdf 傳感器融合是許多感知系統(tǒng)中的一個(gè)重要課題，例如自動駕駛和機(jī)器人。在許多數(shù)據(jù)集上的排行榜，基于transformer的檢測頭和基于CNN的特征編碼器（從原始傳感器數(shù)據(jù)中提取特征），已成為性能最高的3D檢測多傳感器融合框架...

https://arxiv.org/pdf/2302.11481.pdf

傳感器融合是許多感知系統(tǒng)中的一個(gè)重要課題，例如自動駕駛和機(jī)器人。在許多數(shù)據(jù)集上的排行榜，基于transformer的檢測頭和基于CNN的特征編碼器（從原始傳感器數(shù)據(jù)中提取特征），已成為性能最高的3D檢測多傳感器融合框架之一。本文提供了最近基于transformer的3D目標(biāo)檢測任務(wù)的文獻(xiàn)綜述，主要集中于傳感器融合，介紹了視覺transformer（ViT）的基礎(chǔ)知識，還簡要論述了用于自動駕駛的傳感器融合的幾種非transformer式較少占主導(dǎo)地位的方法。最后總結(jié)了transformer在傳感器融合領(lǐng)域中的作用，并提出了該領(lǐng)域的未來研究方向。

更多內(nèi)容可以參考：https://github.com/ApoorvRoboticist/Transformers-SensorFusion

傳感器融合是整合來自不同信息源的感知數(shù)據(jù)，利用不同傳感器捕獲的互補(bǔ)信息，融合有助于減少狀態(tài)估計(jì)的不確定性，并使3D目標(biāo)檢測任務(wù)更加穩(wěn)劍目標(biāo)屬性在不同的模式中不具有同等的可識別性，因此需要利用不同的模式并從中提取補(bǔ)充信息。例如，激光雷達(dá)可以更好地定位潛在物體，radar可以更好地估計(jì)場景中物體的速度，最后但并非最不重要的是，相機(jī)可以通過密集的像素信息對物體進(jìn)行分類。

為什么傳感器融合困難？

不同模態(tài)的傳感器數(shù)據(jù)除了在每個(gè)傳感器的坐標(biāo)空間的差異之外，通常在數(shù)據(jù)分布上存在較大差異。例如，LiDAR在笛卡爾坐標(biāo)空間中，Radar位于極坐標(biāo)空間，圖像位于透視空間。不同坐標(biāo)系引入的空間失準(zhǔn)使得難以將這些模態(tài)合并在一起。多模態(tài)輸入的另一個(gè)問題是，當(dāng)ML網(wǎng)絡(luò)可以使用camera和LiDAR送入時(shí)，會出現(xiàn)異步時(shí)間線的問題。

最新！基于Transformer的自動駕駛傳感器融合研究綜述

現(xiàn)有的傳感器融合模型的總體架構(gòu)圖如上所示，基于transformer的Head（綠色），基于CNN的特征提取器（藍(lán)色），用于預(yù)測3D鳥瞰圖（BEV）邊界框（黃色塊），每個(gè)傳感器具有中間BEV特征（紫色塊），該傳感器融合設(shè)置為從多視圖相機(jī)、激光雷達(dá)和雷達(dá)接收輸入。

雖然CNNs可用于在單個(gè)模態(tài)內(nèi)捕獲全局上下文，但將其擴(kuò)展到多個(gè)模態(tài)并精確地建模成對特征之間的交互是非常重要的。為了克服這一限制，使用transformer的注意力機(jī)制將關(guān)于2D場景的全局上下文推理直接集成到模態(tài)的特征提取層中。序列建模和視聽融合的最新進(jìn)展表明，基于Transformer的體系結(jié)構(gòu)在序列或跨模態(tài)數(shù)據(jù)的信息交互建模方面非常有效！

領(lǐng)域背景

融合level：最近，多傳感器融合在3D檢測界引起了越來越多的興趣。現(xiàn)有方法可分為detection-level、proposal-level、point-level 融合方法，這取決于融合不同模態(tài)（即相機(jī)、雷達(dá)、激光雷達(dá)等）的早期或后期程度！

detection-level即后期融合已經(jīng)成為最簡單的融合形式，因?yàn)槊總€(gè)模態(tài)都可以單獨(dú)處理自己的BEV檢測，然后可以使用匈牙利匹配算法和卡爾曼濾波進(jìn)行后處理，以聚合和刪除重復(fù)檢測。然而，這種方法不能利用這樣一個(gè)事實(shí)，即每個(gè)傳感器也可以對單個(gè)邊界框預(yù)測中的不同屬性做出貢獻(xiàn)。CLOCS可以融合基于lidar的3D目標(biāo)檢測和2D檢測任務(wù)的結(jié)果，它在非最大值抑制之前對兩個(gè)輸出候選進(jìn)行操作，并使用兩組預(yù)測之間的幾何一致性來消除假陽性（FP），因?yàn)樵诓煌哪Ｊ较潞芸赡芡瑫r(shí)檢測到相同的FP。

point-level又稱早期融合，利用相機(jī)功能增強(qiáng)了LiDAR點(diǎn)云，在該方法中，使用變換矩陣找到LiDAR點(diǎn)和圖像之間的硬關(guān)聯(lián)。然而，由于融合質(zhì)量受到點(diǎn)稀疏性、甚至有時(shí)當(dāng)兩個(gè)傳感器的標(biāo)定參數(shù)中存在輕微誤差時(shí)，這種方法都會受到影響。

proposal-level即深度融合是目前文獻(xiàn)中研究最多的方法，transformer[5，6，7]的進(jìn)展解鎖了中間特征如何交互的可能性，盡管它們來自不同的傳感器。MV3D提出的代表性工作從LiDAR特征中提取初始邊界框，并使用圖像特征對其進(jìn)行迭代優(yōu)化。BEVFusion生成基于相機(jī)的BEV特征，如[10，11，12，13]中所強(qiáng)調(diào)的。Camera和激光雷達(dá)模態(tài)在BEV空間中連接，BEV解碼器用于預(yù)測3D box作為最終輸出。在TransFuser中，單視圖圖像和LiDAR的BEV表示由編碼器中的transformer在各種中間特征圖上融合。這導(dǎo)致編碼器的512維特征向量輸出，其構(gòu)成局部和全局上下文的緊湊表示。此外，本文將輸出反饋給GRU（門控遞歸單元），并使用L1回歸損失預(yù)測可微自車路線點(diǎn)。4D網(wǎng)絡(luò)[16]除了是多模態(tài)的，還將時(shí)間維度作為第四維度添加到問題中。首先單獨(dú)提取相機(jī)和激光雷達(dá)的時(shí)間特征[17]，添加圖像表示的不同上下文，論文收集了三個(gè)層次的圖像特征，即高分辨率圖像、低分辨率圖像和視頻。然后，使用變換矩陣融合交叉模態(tài)信息，以獲取給定3D pillar中心的2D上下文，該中心由BEV網(wǎng)格單元的中心點(diǎn)（xo，yo，zo）定義！

基于transformer的融合網(wǎng)絡(luò)背景

該方法可分為三個(gè)步驟：

1.應(yīng)用基于神經(jīng)網(wǎng)絡(luò)的主干從所有模態(tài)中單獨(dú)提取空間特征；

2.在transformer模塊中迭代細(xì)化一小組學(xué)習(xí)嵌入（目標(biāo)Query/proposal），以生成一組3D box的預(yù)測；

3.計(jì)算loss；

該架構(gòu)如圖1所示！

（1）Backbone

Camera：多camera圖像被饋送到backbone（例如，ResNet-101）和FPN，并獲得特征；

LiDAR：通常使用0.1m體素大小的voxelnet或0.2m pillar大小的PointPill對點(diǎn)進(jìn)行編碼，在3D主干和FPN之后，獲得了多尺度BEV特征圖；

Radar：通過MLP將location、intensity、 speed轉(zhuǎn)換為特征！

（2） Query Initialization

在開創(chuàng)性工作[5]中，稀疏Query 被學(xué)習(xí)為一個(gè)網(wǎng)絡(luò)參數(shù)，并且是整個(gè)訓(xùn)練數(shù)據(jù)的代表。這種類型的Query 需要更長的時(shí)間，即更多的順序解碼器層（通常為6個(gè)）來迭代收斂到場景中的實(shí)際3d目標(biāo)。然而，最近依賴于輸入的Query [20]被認(rèn)為是一種更好的初始化策略。這種策略可以將6層轉(zhuǎn)換器解碼器降到甚至單層解碼器層，Transfusion使用中心熱圖作為Query，BEVFormer引入了密集Query作為等距BEV網(wǎng)格！

（3）Transformers Decoder

為了細(xì)化目標(biāo)proposal，在ViT模型中順序使用Transformer解碼器的重復(fù)模塊，其中每個(gè)塊由自關(guān)注層和交叉關(guān)注層組成。目標(biāo)Query 之間的自關(guān)注在不同的目標(biāo)候選之間進(jìn)行成對推理�；趯W(xué)習(xí)注意力機(jī)制，目標(biāo)Query和特征圖之間的交叉注意力將相關(guān)上下文聚合到目標(biāo)Query中。由于巨大的特征尺寸，交叉注意力是鏈條中最慢的一步，但已經(jīng)提出了減少注意力窗口的技術(shù)[24]。在這些順序解碼器之后，d維細(xì)化Query 被獨(dú)立解碼，F(xiàn)FN層如下[14]. FFN預(yù)測與Query位置的中心偏移δx，δy，邊界框高度為z，尺寸l，w，h為log（l），log（w），log（h），偏航角α為sin（α）和cos（α），速度為vx，vy，最后，針對K個(gè)語義類預(yù)測每類概率，.

（4）損失計(jì)算

通過匈牙利算法，使用基于set的預(yù)測和GT之間的匹配，其中匹配cost定義為：

最新！基于Transformer的自動駕駛傳感器融合研究綜述

基于transformer的傳感器融合

TransFusion：通過特征的軟關(guān)聯(lián)解決了模態(tài)未對準(zhǔn)問題，第一解碼器層構(gòu)成從LiDAR BEV特征生成稀疏Query，第二解碼器層通過利用僅在從Query解碼的邊界框周圍具有交叉關(guān)注的局部感應(yīng)偏差，利用具有軟關(guān)聯(lián)的圖像特征豐富LiDAR Query，它們還具有圖像引導(dǎo)的Query初始化層！

FUTR3D：與[6]密切相關(guān)，它對任何數(shù)量的傳感器模態(tài)都是魯棒的。MAFS（模態(tài)不可知特征采樣器）接受3D Query，并從多視圖相機(jī)、高分辨率激光雷達(dá)、低分辨率激光雷達(dá)和雷達(dá)收集特征。具體來說，它首先對Query進(jìn)行解碼以獲得3D coordinate，然后將其用作錨點(diǎn)，以迭代方式從所有模態(tài)中收集特征。BEV特征用于激光雷達(dá)和相機(jī)，但對于雷達(dá)，在MAFS中選擇了前k個(gè)最近的雷達(dá)點(diǎn)。對于每個(gè)Query i，所有這些特征F都連接如下，其中Φ是MLP層：

最新！基于Transformer的自動駕駛傳感器融合研究綜述

CMT：跨模態(tài)transformer通過坐標(biāo)編碼將3D坐標(biāo)編碼為多模態(tài)token，來自位置引導(dǎo)Query生成器的Query用于與transformer解碼器中的多模態(tài)token交互，然后預(yù)目標(biāo)參數(shù)。進(jìn)一步引入基于點(diǎn)的Query去噪，通過引入局部先驗(yàn)來加速訓(xùn)練收斂。

UVTR: Unifying Voxel based Representation with Transformer統(tǒng)一了體素空間中的多模態(tài)表示，以實(shí)現(xiàn)準(zhǔn)確和穩(wěn)健的單模態(tài)或跨模態(tài)3D檢測。模態(tài)特定空間首先被設(shè)計(jì)為表示體素空間中的不同輸入，而無需高度壓縮，以減輕語義模糊并實(shí)現(xiàn)空間連接。與其它BEV方法相比，這是一種更復(fù)雜、信息更密集的表示。對于圖像體素空間，透視圖特征通過視圖變換變換到預(yù)定義空間，基于CNN的體素編碼器被引入用于多視圖特征交互。對于點(diǎn)體素空間，3D點(diǎn)可以自然地轉(zhuǎn)換為體素。在這些體素特征上使用稀疏卷積來聚集空間信息。與圖像相比，通過在點(diǎn)云中的精確位置，z方向上的語義模糊性大大降低！

LIFT: LiDAR圖像融合transformer能夠?qū)R4D時(shí)空交叉?zhèn)鞲衅餍畔�。與[16]相反，它利用了順序多模態(tài)數(shù)據(jù)的綜合利用。對于順序數(shù)據(jù)處理，使用車輛姿態(tài)的先驗(yàn)來消除時(shí)間數(shù)據(jù)之間自我運(yùn)動的影響。論文將激光雷達(dá)幀和相機(jī)圖像編碼為稀疏的BEV網(wǎng)格特征，并提出了一個(gè)傳感器時(shí)間4D注意力模塊來捕捉相互關(guān)聯(lián)！

與其它相比，DeepInteraction采用了稍微不同的方法，由于其固有的局限性，由于大量不完善的信息融合到統(tǒng)一表示中，可能會降低很大一部分模態(tài)特定表示強(qiáng)度，因此先前的方法在結(jié)構(gòu)上受到限制，如[3，9]所示。它們不是推導(dǎo)融合的單一BEV表示，而是學(xué)習(xí)并保持兩種模態(tài)特定表示，以實(shí)現(xiàn)模態(tài)間的交互，從而可以自發(fā)地實(shí)現(xiàn)信息交換和模態(tài)特定優(yōu)勢。作者將其稱為多輸入多輸出（MIMO）結(jié)構(gòu)，將其作為輸入，并產(chǎn)生兩個(gè)細(xì)化的表示作為輸出。本文包括從LiDAR和視覺特征中順序更新的類似DETR3D的Query，在基于transformer的解碼器層中具有順序交叉關(guān)注層。

Autoalign：論文使用可學(xué)習(xí)的對齊圖來建模圖像和點(diǎn)云之間的映射關(guān)系，而不是像其它方法那樣為傳感器投影矩陣建立確定性對應(yīng)關(guān)系。該映射使模型能夠以動態(tài)數(shù)據(jù)驅(qū)動的方式自動對齊非均勻特征，它們利用交叉關(guān)注模塊自適應(yīng)地聚合每個(gè)體素的像素級圖像特征。

定量分析

在這里，本文比較了之前討論的nuScenes方法，這是一個(gè)大型多模態(tài)數(shù)據(jù)集，由表1中的6臺攝像機(jī)、1臺激光雷達(dá)和5臺雷達(dá)的數(shù)據(jù)組成。該數(shù)據(jù)集共有1000個(gè)場景，訓(xùn)練/驗(yàn)證/測試集分為700/150/150個(gè)場景。

相機(jī)：每個(gè)場景有20幀視頻，12 FPS。3D邊界框標(biāo)注為0.5秒，每個(gè)示例包括6個(gè)相機(jī)。

激光雷達(dá)：具有20FPS的32光束激光雷達(dá)也每0.5秒進(jìn)行一次注釋。

指標(biāo)：遵循nuScene的官方指標(biāo)。關(guān)鍵指標(biāo)如下：nuScenes檢測分?jǐn)?shù)（NDS）、平均精度（mAP）、平均平移誤差（mATE）、平均尺度誤差（mASE）、平均方位誤差（mAOE）、平均速度誤差（mAVE）和平均屬性誤差（mAAE）。

最新！基于Transformer的自動駕駛傳感器融合研究綜述

一些調(diào)研結(jié)論

對于自動駕駛汽車的感知可靠性，準(zhǔn)確的3D目標(biāo)檢測是需要解決的關(guān)鍵挑戰(zhàn)之一，傳感器融合有助于利用平臺上所有傳感器的優(yōu)勢，使這些預(yù)測更加準(zhǔn)確。transformer已成為建模這些跨模態(tài)交互的最重要方法之一，特別是當(dāng)傳感器在不同的坐標(biāo)空間中運(yùn)行時(shí)，這使得無法完美對齊！

參考

[1] TRANSFORMER-BASED SENSOR FUSION FOR AUTONOMOUS DRIVING: A SURVEY

最新！基于Transformer的自動駕駛傳感器融合研究綜述

最新！基于Transformer的自動駕駛傳感器融合研究綜述
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-03-08 14:05:12 瀏覽：8294次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

最新！基于Transformer的自動駕駛傳感器融合研究綜述 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-03-08 14:05:12 瀏覽：8294次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

最新！基于Transformer的自動駕駛傳感器融合研究綜述
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-03-08 14:05:12 瀏覽：8294次