https://arxiv.org/pdf/2302.11481.pdf
傳感器融合是許多感知系統(tǒng)中的一個(gè)重要課題,例如自動駕駛和機(jī)器人。在許多數(shù)據(jù)集上的排行榜,基于transformer的檢測頭和基于CNN的特征編碼器(從原始傳感器數(shù)據(jù)中提取特征),已成為性能最高的3D檢測多傳感器融合框架之一。本文提供了最近基于transformer的3D目標(biāo)檢測任務(wù)的文獻(xiàn)綜述,主要集中于傳感器融合,介紹了視覺transformer(ViT)的基礎(chǔ)知識,還簡要論述了用于自動駕駛的傳感器融合的幾種非transformer式較少占主導(dǎo)地位的方法。最后總結(jié)了transformer在傳感器融合領(lǐng)域中的作用,并提出了該領(lǐng)域的未來研究方向。
更多內(nèi)容可以參考:https://github.com/ApoorvRoboticist/Transformers-SensorFusion
傳感器融合是整合來自不同信息源的感知數(shù)據(jù),利用不同傳感器捕獲的互補(bǔ)信息,融合有助于減少狀態(tài)估計(jì)的不確定性,并使3D目標(biāo)檢測任務(wù)更加穩(wěn)劍目標(biāo)屬性在不同的模式中不具有同等的可識別性,因此需要利用不同的模式并從中提取補(bǔ)充信息。例如,激光雷達(dá)可以更好地定位潛在物體,radar可以更好地估計(jì)場景中物體的速度,最后但并非最不重要的是,相機(jī)可以通過密集的像素信息對物體進(jìn)行分類。
為什么傳感器融合困難?
不同模態(tài)的傳感器數(shù)據(jù)除了在每個(gè)傳感器的坐標(biāo)空間的差異之外,通常在數(shù)據(jù)分布上存在較大差異。例如,LiDAR在笛卡爾坐標(biāo)空間中,Radar位于極坐標(biāo)空間,圖像位于透視空間。不同坐標(biāo)系引入的空間失準(zhǔn)使得難以將這些模態(tài)合并在一起。多模態(tài)輸入的另一個(gè)問題是,當(dāng)ML網(wǎng)絡(luò)可以使用camera和LiDAR送入時(shí),會出現(xiàn)異步時(shí)間線的問題。
現(xiàn)有的傳感器融合模型的總體架構(gòu)圖如上所示,基于transformer的Head(綠色),基于CNN的特征提取器(藍(lán)色),用于預(yù)測3D鳥瞰圖(BEV)邊界框(黃色塊),每個(gè)傳感器具有中間BEV特征(紫色塊),該傳感器融合設(shè)置為從多視圖相機(jī)、激光雷達(dá)和雷達(dá)接收輸入。
雖然CNNs可用于在單個(gè)模態(tài)內(nèi)捕獲全局上下文,但將其擴(kuò)展到多個(gè)模態(tài)并精確地建模成對特征之間的交互是非常重要的。為了克服這一限制,使用transformer的注意力機(jī)制將關(guān)于2D場景的全局上下文推理直接集成到模態(tài)的特征提取層中。序列建模和視聽融合的最新進(jìn)展表明,基于Transformer的體系結(jié)構(gòu)在序列或跨模態(tài)數(shù)據(jù)的信息交互建模方面非常有效!
領(lǐng)域背景
融合level:最近,多傳感器融合在3D檢測界引起了越來越多的興趣。現(xiàn)有方法可分為detection-level、proposal-level、point-level 融合方法,這取決于融合不同模態(tài)(即相機(jī)、雷達(dá)、激光雷達(dá)等)的早期或后期程度!
detection-level即后期融合已經(jīng)成為最簡單的融合形式,因?yàn)槊總(gè)模態(tài)都可以單獨(dú)處理自己的BEV檢測,然后可以使用匈牙利匹配算法和卡爾曼濾波進(jìn)行后處理,以聚合和刪除重復(fù)檢測。然而,這種方法不能利用這樣一個(gè)事實(shí),即每個(gè)傳感器也可以對單個(gè)邊界框預(yù)測中的不同屬性做出貢獻(xiàn)。CLOCS可以融合基于lidar的3D目標(biāo)檢測和2D檢測任務(wù)的結(jié)果,它在非最大值抑制之前對兩個(gè)輸出候選進(jìn)行操作,并使用兩組預(yù)測之間的幾何一致性來消除假陽性(FP),因?yàn)樵诓煌哪J较潞芸赡芡瑫r(shí)檢測到相同的FP。
point-level又稱早期融合,利用相機(jī)功能增強(qiáng)了LiDAR點(diǎn)云,在該方法中,使用變換矩陣找到LiDAR點(diǎn)和圖像之間的硬關(guān)聯(lián)。然而,由于融合質(zhì)量受到點(diǎn)稀疏性、甚至有時(shí)當(dāng)兩個(gè)傳感器的標(biāo)定參數(shù)中存在輕微誤差時(shí),這種方法都會受到影響。
proposal-level即深度融合是目前文獻(xiàn)中研究最多的方法,transformer[5,6,7]的進(jìn)展解鎖了中間特征如何交互的可能性,盡管它們來自不同的傳感器。MV3D提出的代表性工作從LiDAR特征中提取初始邊界框,并使用圖像特征對其進(jìn)行迭代優(yōu)化。BEVFusion生成基于相機(jī)的BEV特征,如[10,11,12,13]中所強(qiáng)調(diào)的。Camera和激光雷達(dá)模態(tài)在BEV空間中連接,BEV解碼器用于預(yù)測3D box作為最終輸出。在TransFuser中,單視圖圖像和LiDAR的BEV表示由編碼器中的transformer在各種中間特征圖上融合。這導(dǎo)致編碼器的512維特征向量輸出,其構(gòu)成局部和全局上下文的緊湊表示。此外,本文將輸出反饋給GRU(門控遞歸單元),并使用L1回歸損失預(yù)測可微自車路線點(diǎn)。4D網(wǎng)絡(luò)[16]除了是多模態(tài)的,還將時(shí)間維度作為第四維度添加到問題中。首先單獨(dú)提取相機(jī)和激光雷達(dá)的時(shí)間特征[17],添加圖像表示的不同上下文,論文收集了三個(gè)層次的圖像特征,即高分辨率圖像、低分辨率圖像和視頻。然后,使用變換矩陣融合交叉模態(tài)信息,以獲取給定3D pillar中心的2D上下文,該中心由BEV網(wǎng)格單元的中心點(diǎn)(xo,yo,zo)定義!
基于transformer的融合網(wǎng)絡(luò)背景
該方法可分為三個(gè)步驟:
1.應(yīng)用基于神經(jīng)網(wǎng)絡(luò)的主干從所有模態(tài)中單獨(dú)提取空間特征;
2.在transformer模塊中迭代細(xì)化一小組學(xué)習(xí)嵌入(目標(biāo)Query/proposal),以生成一組3D box的預(yù)測;
3.計(jì)算loss;
該架構(gòu)如圖1所示!
(1)Backbone
Camera:多camera圖像被饋送到backbone(例如,ResNet-101)和FPN,并獲得特征;
LiDAR:通常使用0.1m體素大小的voxelnet或0.2m pillar大小的PointPill對點(diǎn)進(jìn)行編碼,在3D主干和FPN之后,獲得了多尺度BEV特征圖;
Radar:通過MLP將location、intensity、 speed轉(zhuǎn)換為特征!
(2) Query Initialization
在開創(chuàng)性工作[5]中,稀疏Query 被學(xué)習(xí)為一個(gè)網(wǎng)絡(luò)參數(shù),并且是整個(gè)訓(xùn)練數(shù)據(jù)的代表。這種類型的Query 需要更長的時(shí)間,即更多的順序解碼器層(通常為6個(gè))來迭代收斂到場景中的實(shí)際3d目標(biāo)。然而,最近依賴于輸入的Query [20]被認(rèn)為是一種更好的初始化策略。這種策略可以將6層轉(zhuǎn)換器解碼器降到甚至單層解碼器層,Transfusion使用中心熱圖作為Query,BEVFormer引入了密集Query作為等距BEV網(wǎng)格!
(3)Transformers Decoder
為了細(xì)化目標(biāo)proposal,在ViT模型中順序使用Transformer解碼器的重復(fù)模塊,其中每個(gè)塊由自關(guān)注層和交叉關(guān)注層組成。目標(biāo)Query 之間的自關(guān)注在不同的目標(biāo)候選之間進(jìn)行成對推理;趯W(xué)習(xí)注意力機(jī)制,目標(biāo)Query和特征圖之間的交叉注意力將相關(guān)上下文聚合到目標(biāo)Query中。由于巨大的特征尺寸,交叉注意力是鏈條中最慢的一步,但已經(jīng)提出了減少注意力窗口的技術(shù)[24]。在這些順序解碼器之后,d維細(xì)化Query 被獨(dú)立解碼,F(xiàn)FN層如下[14]. FFN預(yù)測與Query位置的中心偏移δx,δy,邊界框高度為z,尺寸l,w,h為log(l),log(w),log(h),偏航角α為sin(α)和cos(α),速度為vx,vy,最后,針對K個(gè)語義類預(yù)測每類概率,.
(4)損失計(jì)算
通過匈牙利算法,使用基于set的預(yù)測和GT之間的匹配,其中匹配cost定義為:
基于transformer的傳感器融合
TransFusion:通過特征的軟關(guān)聯(lián)解決了模態(tài)未對準(zhǔn)問題,第一解碼器層構(gòu)成從LiDAR BEV特征生成稀疏Query,第二解碼器層通過利用僅在從Query解碼的邊界框周圍具有交叉關(guān)注的局部感應(yīng)偏差,利用具有軟關(guān)聯(lián)的圖像特征豐富LiDAR Query,它們還具有圖像引導(dǎo)的Query初始化層!
FUTR3D:與[6]密切相關(guān),它對任何數(shù)量的傳感器模態(tài)都是魯棒的。MAFS(模態(tài)不可知特征采樣器)接受3D Query,并從多視圖相機(jī)、高分辨率激光雷達(dá)、低分辨率激光雷達(dá)和雷達(dá)收集特征。具體來說,它首先對Query進(jìn)行解碼以獲得3D coordinate,然后將其用作錨點(diǎn),以迭代方式從所有模態(tài)中收集特征。BEV特征用于激光雷達(dá)和相機(jī),但對于雷達(dá),在MAFS中選擇了前k個(gè)最近的雷達(dá)點(diǎn)。對于每個(gè)Query i,所有這些特征F都連接如下,其中Φ是MLP層:
CMT:跨模態(tài)transformer通過坐標(biāo)編碼將3D坐標(biāo)編碼為多模態(tài)token,來自位置引導(dǎo)Query生成器的Query用于與transformer解碼器中的多模態(tài)token交互,然后預(yù)目標(biāo)參數(shù)。進(jìn)一步引入基于點(diǎn)的Query去噪,通過引入局部先驗(yàn)來加速訓(xùn)練收斂。
UVTR: Unifying Voxel based Representation with Transformer統(tǒng)一了體素空間中的多模態(tài)表示,以實(shí)現(xiàn)準(zhǔn)確和穩(wěn)健的單模態(tài)或跨模態(tài)3D檢測。模態(tài)特定空間首先被設(shè)計(jì)為表示體素空間中的不同輸入,而無需高度壓縮,以減輕語義模糊并實(shí)現(xiàn)空間連接。與其它BEV方法相比,這是一種更復(fù)雜、信息更密集的表示。對于圖像體素空間,透視圖特征通過視圖變換變換到預(yù)定義空間,基于CNN的體素編碼器被引入用于多視圖特征交互。對于點(diǎn)體素空間,3D點(diǎn)可以自然地轉(zhuǎn)換為體素。在這些體素特征上使用稀疏卷積來聚集空間信息。與圖像相比,通過在點(diǎn)云中的精確位置,z方向上的語義模糊性大大降低!
LIFT: LiDAR圖像融合transformer能夠?qū)R4D時(shí)空交叉?zhèn)鞲衅餍畔。與[16]相反,它利用了順序多模態(tài)數(shù)據(jù)的綜合利用。對于順序數(shù)據(jù)處理,使用車輛姿態(tài)的先驗(yàn)來消除時(shí)間數(shù)據(jù)之間自我運(yùn)動的影響。論文將激光雷達(dá)幀和相機(jī)圖像編碼為稀疏的BEV網(wǎng)格特征,并提出了一個(gè)傳感器時(shí)間4D注意力模塊來捕捉相互關(guān)聯(lián)!
與其它相比,DeepInteraction采用了稍微不同的方法,由于其固有的局限性,由于大量不完善的信息融合到統(tǒng)一表示中,可能會降低很大一部分模態(tài)特定表示強(qiáng)度,因此先前的方法在結(jié)構(gòu)上受到限制,如[3,9]所示。它們不是推導(dǎo)融合的單一BEV表示,而是學(xué)習(xí)并保持兩種模態(tài)特定表示,以實(shí)現(xiàn)模態(tài)間的交互,從而可以自發(fā)地實(shí)現(xiàn)信息交換和模態(tài)特定優(yōu)勢。作者將其稱為多輸入多輸出(MIMO)結(jié)構(gòu),將其作為輸入,并產(chǎn)生兩個(gè)細(xì)化的表示作為輸出。本文包括從LiDAR和視覺特征中順序更新的類似DETR3D的Query,在基于transformer的解碼器層中具有順序交叉關(guān)注層。
Autoalign:論文使用可學(xué)習(xí)的對齊圖來建模圖像和點(diǎn)云之間的映射關(guān)系,而不是像其它方法那樣為傳感器投影矩陣建立確定性對應(yīng)關(guān)系。該映射使模型能夠以動態(tài)數(shù)據(jù)驅(qū)動的方式自動對齊非均勻特征,它們利用交叉關(guān)注模塊自適應(yīng)地聚合每個(gè)體素的像素級圖像特征。
定量分析
在這里,本文比較了之前討論的nuScenes方法,這是一個(gè)大型多模態(tài)數(shù)據(jù)集,由表1中的6臺攝像機(jī)、1臺激光雷達(dá)和5臺雷達(dá)的數(shù)據(jù)組成。該數(shù)據(jù)集共有1000個(gè)場景,訓(xùn)練/驗(yàn)證/測試集分為700/150/150個(gè)場景。
相機(jī):每個(gè)場景有20幀視頻,12 FPS。3D邊界框標(biāo)注為0.5秒,每個(gè)示例包括6個(gè)相機(jī)。
激光雷達(dá):具有20FPS的32光束激光雷達(dá)也每0.5秒進(jìn)行一次注釋。
指標(biāo):遵循nuScene的官方指標(biāo)。關(guān)鍵指標(biāo)如下:nuScenes檢測分?jǐn)?shù)(NDS)、平均精度(mAP)、平均平移誤差(mATE)、平均尺度誤差(mASE)、平均方位誤差(mAOE)、平均速度誤差(mAVE)和平均屬性誤差(mAAE)。
一些調(diào)研結(jié)論
對于自動駕駛汽車的感知可靠性,準(zhǔn)確的3D目標(biāo)檢測是需要解決的關(guān)鍵挑戰(zhàn)之一,傳感器融合有助于利用平臺上所有傳感器的優(yōu)勢,使這些預(yù)測更加準(zhǔn)確。transformer已成為建模這些跨模態(tài)交互的最重要方法之一,特別是當(dāng)傳感器在不同的坐標(biāo)空間中運(yùn)行時(shí),這使得無法完美對齊!
參考
[1] TRANSFORMER-BASED SENSOR FUSION FOR AUTONOMOUS DRIVING: A SURVEY