多模態(tài)3D目標檢測最新論文分享!自動駕駛研究必看!
目前在自動駕駛領(lǐng)域,多模態(tài)3D目標檢測是一個非常重要的研究熱點。由于引入了其他傳感器數(shù)據(jù),多模態(tài)3D目標檢測在性能上明顯優(yōu)于純視覺的方案,可以同時預(yù)測周圍物體的類別、位置和大小,因此對于自動駕駛領(lǐng)域的同學(xué)來說,多模態(tài)3D目標檢測是必須要掌握的部分。
學(xué)姐今天要和大家分享的論文正是多模態(tài)3D目標檢測方向,研究自動駕駛的同學(xué)必看!目前共匯總了21篇最新論文,來看看大佬們都有哪些成果吧!
掃碼添加小享,回復(fù)“3D檢測”
免費獲取全部論文+代碼合集

決策融合
1.CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection
標題:CLOCs:用于3D目標檢測的Camera-LiDAR對象候選融合
內(nèi)容:作者提出了一種新穎的 Camera-LiDAR 對象候選(CLOCs)融合網(wǎng)絡(luò),可以在保持較低復(fù)雜度的情況下,顯著提高單模態(tài)檢測器的性能。CLOCs 在任意2D和3D檢測器的非極大值抑制(NMS)之前,對其輸出的候選目標進行融合,利用兩者的幾何和語義一致性進行訓(xùn)練,從而產(chǎn)生更準確的最終3D和2D檢測結(jié)果。在具有挑戰(zhàn)性的KITTI目標檢測基準測試中,CLOCs 在3D和鳥瞰圖指標上都取得了顯著提高,尤其在長距離情況下優(yōu)于當(dāng)前最先進的基于融合的方法。

2.Frustum Pointnets for 3D Object Detection from RGB-D Data
作者的方法不僅僅依賴于3D建議,還利用成熟的2D目標檢測器和先進的3D深度學(xué)習(xí)進行目標定位,實現(xiàn)了效率和針對小目標的高召回率。
點/體素融合
1.PointPainting: Sequential Fusion for 3D Object Detection
標題:PointPainting: 3D目標檢測的順序融合
內(nèi)容:作者提出了PointPainting,一種順序融合方法來填補這一差距。PointPainting 的工作原理是將激光雷達點投影到僅圖像語義分割網(wǎng)絡(luò)的輸出中,并將類別評分追加到每個點上。然后可以將追加(繪制)后的點云饋送到任何僅激光雷達的方法。實驗結(jié)果顯示,在KITTI和nuScenes數(shù)據(jù)集上,三種不同的最新方法Point-RCNN、VoxelNet和PointPillars都有了很大的改進。在KITTI基準測試的鳥瞰圖檢測任務(wù)中,繪制后的PointRCNN代表了一種新的最先進狀態(tài)。

2.PointAugmenting: Cross-Modal Augmentation for 3D Object Detection
作者提出了一種新穎的跨模態(tài)3D目標檢測算法,名為PointAugmenting,受益于一種新的跨模態(tài)數(shù)據(jù)增強算法,該算法在網(wǎng)絡(luò)訓(xùn)練期間一致地將虛擬對象粘貼到圖像和點云中。在大規(guī)模的nuScenes和Waymo數(shù)據(jù)集上的大量實驗證明了PointAugmenting的有效性和效率。
3.Multimodal Virtual Point 3D Detection
作者提出了一種無縫融合RGB傳感器到基于激光雷達的3D識別的方法,采用一組2D檢測來生成密集的3D虛擬點,以增強否則稀疏的3D點云。該方法以顯著的6.6 mAP提高了強大的CenterPoint基準,并優(yōu)于競爭的融合方法。
4.Multi-task Multi-Sensor Fusion for 3D Object Detection
在本文中,作者提出利用多個相關(guān)任務(wù)來進行精確的多傳感器3D目標檢測,還提出了一個端到端的可學(xué)習(xí)架構(gòu),可以進行2D和3D目標檢測以及地面估計和深度補全推理。實驗結(jié)果表明,所有這些任務(wù)都是互補的,通過在各個層面融合信息,幫助網(wǎng)絡(luò)學(xué)習(xí)到更好的表示。
5.MVX-Net: Multimodal VoxelNet for 3D Object Detection
論文提出了PointFusion和VoxelFusion:兩種簡單而有效的早期融合方法,通過利用最近引入的VoxelNet架構(gòu)來組合RGB和點云模態(tài)。在KITTI數(shù)據(jù)集上的評估表明,與僅使用點云數(shù)據(jù)的方法相比,性能有顯著改進。
6.PI-RCNN: An Efficient Multi-Sensor 3D Object Detector with Point-based Attentive Cont-Conv Fusion Module
論文提出了一種新穎的融合方法,稱為基于點的注意力Cont-conv融合(PACF)模塊,它直接在3D點上融合多傳感器特征。除了連續(xù)卷積之外,作者還額外添加了一個點池化和一個注意力聚合,以使融合特征更加表達。此外,基于PACF模塊,作者提出了一個處理圖像分割和3D目標檢測任務(wù)的3D多傳感器多任務(wù)網(wǎng)絡(luò),稱為點云圖像RCNN(PI-RCNN簡稱)。
7.EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection
作者提出了一種新穎的融合模塊,以點式方式增強點特征與語義圖像特征,而不需要任何圖像注釋。此外,采用一致性約束損失來明確鼓勵定位和分類置信度的一致性,設(shè)計了一個端到端可學(xué)習(xí)的框架EPNet來集成這兩個組件。在KITTI和SUN-RGBD數(shù)據(jù)集上的大量實驗證明了EPNet優(yōu)于當(dāng)前最先進方法的優(yōu)勢。
掃碼添加小享,回復(fù)“3D檢測”
免費獲取全部論文+代碼合集

特征融合
1.Multi-View 3D Object Detection Network for Autonomous Driving
標題:多視角3D目標檢測網(wǎng)絡(luò)用于自動駕駛
內(nèi)容:論文提出了MV3D多視角3D網(wǎng)絡(luò),將激光雷達點云和RGB圖像作為輸入,預(yù)測oriented 3D bounding boxes,對稀疏3D點云進行了緊湊的多視角表示編碼。網(wǎng)絡(luò)由兩個子網(wǎng)絡(luò)組成:一個用于3D對象提議生成,另一個用于多視角特征融合。提案網(wǎng)絡(luò)高效地從鳥瞰圖上生成3D候選框。
作者設(shè)計了深度融合方案。結(jié)合來自多個視角的區(qū)域特征,啟用不同路徑之間的中間層交互。在KITTI數(shù)據(jù)集上,該方法的3D定位和檢測性能優(yōu)于目前state-of-the-art 25%和30%,2D檢測方面也超過10.3%的AP。

2.Joint 3D Proposal Generation and Object Detection from View Aggregation
本文提出了AVOD,這是一個用于自動駕駛場景的聚合視角目標檢測網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)架構(gòu)使用激光雷達點云和RGB圖像生成兩個子網(wǎng)絡(luò)共享的特征:區(qū)域提議網(wǎng)絡(luò)(RPN)和第二階段檢測器網(wǎng)絡(luò)。提出的RPN使用了一種新穎的架構(gòu),能在高分辨率特征圖上執(zhí)行多模態(tài)特征融合,為多類別道路場景生成可靠的3D對象提議。
3.Cross-Modality 3D Object Detection
該文提出了一個兩階段的多模態(tài)融合網(wǎng)絡(luò),同時使用雙目圖像和原始點云作為輸入。整個架構(gòu)實現(xiàn)兩階段的特征融合。此外,該方法還使用偽LiDAR點作為數(shù)據(jù)增強方法來稠化LiDAR點,因為缺失的目標大多點數(shù)太少,尤其是遠處目標。實驗表明,該多階段融合機制幫助網(wǎng)絡(luò)學(xué)習(xí)到了更好的表示。
4.Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion
本文提出了一種新穎的多模態(tài)框架SFD,利用深度補全生成的偽點云來解決僅LiDAR 3D檢測中點云稀疏性的問題。不同于以往工作,本文提出了一種新的RoI融合策略3D-GAF,以更充分地利用不同類型點云的信息。此外,本文提出了SynAugment,使多模態(tài)框架能夠利用所有針對僅LiDAR方法定制的數(shù)據(jù)增強方法。最后,本文定制了一個有效高效的偽點云特征提取器CPConv,可以同時探索2D圖像特征和3D幾何特征。
5.EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection
本文提出了EPNet++,通過引入新的串聯(lián)雙向融合(CB-Fusion)模塊和多模態(tài)一致性(MC)損失,實現(xiàn)多模態(tài)3D目標檢測。在KITTI、JRDB和SUN-RGBD數(shù)據(jù)集上的實驗表明,EPNet++優(yōu)于當(dāng)前最先進的方法。此外,文章強調(diào)了一個關(guān)鍵但易被忽略的問題,即探索檢測器在更稀疏場景下的性能和魯棒性。
6.AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection
本文提出了AutoAlign,一個用于3D目標檢測的自動特征融合策略。該方法沒有依賴確定性的攝像機投影矩陣,而是采用了可學(xué)習(xí)的對齊映射來建模圖像和點云之間的映射關(guān)系,以動態(tài)的數(shù)據(jù)驅(qū)動方式實現(xiàn)非同構(gòu)特征的自動對齊。
7.AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection
作者提出了Cross-Domain DeformCAFA模塊,用于解決AutoAlign中全局注意力引入的高計算量問題,該模塊僅關(guān)注可學(xué)習(xí)的稀疏采樣點來進行跨模態(tài)關(guān)系建模,增強了對校準誤差的容忍性,大大加速了不同模態(tài)之間的特征聚合。為解決多模態(tài)下復(fù)雜的GT-AUG,作者還設(shè)計了一種簡單有效的跨模態(tài)數(shù)據(jù)增強策略,在圖像patch的深度信息條件下進行凸組合。另外,還提出了圖像級dropout訓(xùn)練方案,使模型能夠動態(tài)推理。
8.DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
本文提出了InverseAug逆向增強和LearnableAlign可學(xué)習(xí)對齊兩種新技術(shù),使得激光點和圖像像素之間實現(xiàn)準確的幾何對齊,以及圖像和激光特征之間的動態(tài)相關(guān)性建模。在此基礎(chǔ)上開發(fā)了通用的多模態(tài)3D檢測模型系列DeepFusion,優(yōu)于之前的方法。
9.TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers
本文提出了TransFusion,一種具有軟關(guān)聯(lián)機制的激光雷達-攝像頭融合的魯棒解決方案,以處理inferior image conditions。此外,作者還設(shè)計了基于圖像的查詢初始化策略,以處理在點云中難以檢測的對象。該方法在大規(guī)模數(shù)據(jù)集上達到最優(yōu)性能,并通過大量實驗證明其對劣質(zhì)圖像和誤校準的魯棒性。
10.DeepInteraction: 3D Object Detection via Modality Interaction
本文提出了一種新穎的模態(tài)交互策略,其中學(xué)習(xí)和維護各個單模態(tài)表示,以發(fā)掘其獨特特征用于目標檢測。為實現(xiàn)該策略,作者設(shè)計了具有多模態(tài)表征交互編碼器和多模態(tài)預(yù)測交互解碼器的DeepInteraction架構(gòu)。在大規(guī)模nuScenes數(shù)據(jù)集上的實驗表明,與所有之前方法相比,提出的方法取得了明顯的性能提升。
11.Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
本文提出了一種稱為Cross Modal Transformer(CMT)的魯棒3D檢測器,用于端到端的3D多模態(tài)檢測。CMT無需顯式的視角變換,直接以圖像和點云作為輸入,輸出準確的3D邊界框。多模態(tài)tokens的空間對齊是通過將3D點編碼成多模態(tài)特征來實現(xiàn)的。CMT的核心設(shè)計非常簡單,但性能出色,它在nuScenes測試集上達到74.1% NDS(單模型最優(yōu)),同時保持更快的推理速度。
12.SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection
作者提出了 SparseFusion,一種新穎的多傳感器 3D 檢測方法,它僅使用稀疏候選框和稀疾表示。作者通過解耦對象表示來將攝像頭候選框變換到激光雷達坐標空間。然后,可以在統(tǒng)一的 3D 空間中通過輕量級的自注意力模塊融合多模態(tài)候選框。為緩解模態(tài)之間的負遷移,作者提出了新穎的語義和幾何跨模態(tài)遷移模塊,在特定模態(tài)檢測器之前應(yīng)用。
掃碼添加小享,回復(fù)“3D檢測”
免費獲取全部論文+代碼合集
