CVPR 2023 | OpenLane性能自動駕駛挑戰(zhàn)賽冠軍解決方案
本研究提出了解決OpenLane拓撲任務(wù)的一流方法,該任務(wù)是自主駕駛挑戰(zhàn)賽中的主要任務(wù)之一。作者通過使用性能強大的PETRv2檢測器和熱門的YOLOv8檢測器,在中心線和交通元素的檢測階段實現(xiàn)了優(yōu)秀的表現(xiàn)。同時,作者的方法還設(shè)計了一個簡單而有效的基于多層感知器的拓撲預(yù)測頭部。實驗結(jié)果顯示,作者的方法在OpenLaneV2測試集上取得了55%的OLS,比第二名解決方案高出8個百分點。這表明作者的方法在拓撲任務(wù)中取得了顯著的性能優(yōu)勢,并具有實際應(yīng)用的潛力。
本文介紹了OpenLane拓撲任務(wù),這是自主駕駛領(lǐng)域的一個新的感知和推理任務(wù),用于理解三維場景結(jié)構(gòu)。任務(wù)的關(guān)鍵是分析交通元素和中心線之間的感知實體之間的關(guān)系。作者提出了一個多階段的框架,將基本的檢測和拓撲預(yù)測任務(wù)解耦。具體方法包括使用先進的3D/2D檢測器進行基本檢測,利用改進的PETRv2檢測器進行3D車道檢測,使用YOLOv8進行2D交通檢測。此外,還設(shè)計了兩個獨立的基于多層感知器的車道-車道和車道-交通拓撲預(yù)測頭部。實驗結(jié)果顯示,該方法在拓撲任務(wù)中取得了優(yōu)秀的性能表現(xiàn),相比第二名解決方案,在Topll上的性能提升近10%,在Toplt上的性能提升了3%。這表明本文提出的解決方案在拓撲任務(wù)中具有較高的準確性和魯棒性,可應(yīng)用于實際的自主駕駛系統(tǒng)中。這里也推薦「3D視覺工坊」新課程《面向自動駕駛領(lǐng)域的3D點云目標檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)》。
作者:小張Tt | 來源:3D視覺工坊
在公眾號「3D視覺工坊」后臺,回復(fù)「原論文」即可獲取論文pdf。
添加微信:dddvisiona,備注:自動駕駛,拉你入群。文末附行業(yè)細分群。
在本節(jié)中,作者詳細介紹我們的模型。首先,作者介紹了基本模型PETRv2,并進行了幾項架構(gòu)修改。然后介紹了改進的YOLOv8,該模型使用了幾種關(guān)鍵策略。最后,作者描述了基于多層感知器的拓撲推理頭部。
本文介紹了在多視角3D物體檢測中使用的簡單而強大的基線模型PETRv2。該模型基于DETR框架,并使用3D位置嵌入來編碼3D坐標位置信息。在車道檢測方面,模型通過使用變壓器解碼器預(yù)測貝塞爾曲線的三維控制點。訓(xùn)練過程中,使用Focal loss和L1 loss進行類別頭和車道頭的損失計算。為了提高性能,采用不同的骨干網(wǎng)絡(luò)和數(shù)據(jù)增強方法??傮w而言,本文提出的方法在多視角3D物體檢測和車道檢測任務(wù)中取得了良好的性能。
作者使用YOLOv8作為2D檢測器,它只接收前方圖像作為輸入,并預(yù)測一組2D框?;贠penlaneV2數(shù)據(jù)集的特點,作者提出了一系列策略來提高交通元素檢測的性能。
強數(shù)據(jù)增強。OpenLane-V2數(shù)據(jù)集中的許多幀共享相似的場景,并且缺乏前景樣本,因此檢測器容易出現(xiàn)過擬合。作者采用YOLOX中的強數(shù)據(jù)增強方法,包括混合、鑲嵌增強和對HSV顏色空間進行色域增強。在引入時需要謹慎,因為顏色增強可能會模糊交通信號燈的顏色,而水平翻轉(zhuǎn)可能會破壞交通標志的方向性。
重新加權(quán)分類損失。通過可視化預(yù)測結(jié)果,作者發(fā)現(xiàn)主要困難在于交通標志之間的高相似性,而不是小尺寸對象的定位,比如“左轉(zhuǎn)”、“禁止左轉(zhuǎn)”和“稍左轉(zhuǎn)”的屬性。同時,交通標志具有相對固定的矩形形狀。因此,作者選擇僅針對前景中這些難樣本重新加權(quán)分類損失。
重新采樣難樣本。數(shù)據(jù)集中類別的分布也值得注意。通過統(tǒng)計,作者觀察到交通信號燈中“unknown”的數(shù)量幾乎占所有注釋的一半,而黃燈的數(shù)量顯著少于綠燈和紅燈。剩下的九種交通標志的數(shù)量只占總注釋的20%。與CBGS類似,作者根據(jù)上述類別統(tǒng)計重新對數(shù)據(jù)集中的幀進行采樣。
偽標簽學(xué)習(xí)。作者發(fā)現(xiàn)在自車前行時,視頻幀中首次出現(xiàn)的遠處交通元素通常由于其小尺寸而沒有進行注釋。此外,訓(xùn)練集和驗證集中都不可避免地存在缺失的注釋,這會困擾模型訓(xùn)練并導(dǎo)致次優(yōu)的性能。圖3中的可視化顯示了在驗證集上的推斷結(jié)果,其中模型僅在訓(xùn)練集上進行了訓(xùn)練。可以看出,模型具有較高的召回率,并對那些遠處小尺寸對象產(chǎn)生了可接受的預(yù)測。作者認為高性能的檢測器可以用于偽標簽學(xué)習(xí),輔助模型進一步訓(xùn)練。在消融實驗中,作者發(fā)現(xiàn)與僅在訓(xùn)練集上使用偽標簽相比,使用驗證集上的偽標簽顯著改善了結(jié)果。
測試時間數(shù)據(jù)增強。測試時間數(shù)據(jù)增強可以在推斷階段穩(wěn)定地帶來好處。z在只采用多尺度測試,因為復(fù)雜的變換可能導(dǎo)致性能下降。這種選擇的尺度范圍在0.7~1.4之間。放大的圖像可以提高檢測器對小尺寸對象的召回率,而縮小的圖像對于檢測自車前方地面上的大尺寸道路標志很有幫助。
本文介紹了車道-車道拓撲的方法。通過收集解碼器層的解碼特征和預(yù)測的車道坐標,使用MLP對坐標進行維度轉(zhuǎn)換,并將特征相加得到拓撲特征。拓撲特征經(jīng)過MLP轉(zhuǎn)換為二進制拓撲表示,并使用Focal loss進行監(jiān)督學(xué)習(xí)。該方法能夠有效地學(xué)習(xí)車道之間的拓撲關(guān)系,提高車道檢測與分割的準確性。
本文介紹了車道-交通拓撲的方法。該方法直接利用YOLOv8對交通的預(yù)測結(jié)果作為輸入,并通過連接和投影操作得到車道-交通的特征。通過MLP和sigmoid函數(shù),預(yù)測的車道-交通拓撲表示受到Focal loss的監(jiān)督。通過該方法,可以有效地學(xué)習(xí)車道與交通之間的拓撲關(guān)系,提高車道與交通的檢測與分析精度。
本節(jié)中,作者首先提供一些實現(xiàn)細節(jié)。然后作者在OpenLaneV2驗證集上評估作者方法中前述的各個部分。最后,作者會呈現(xiàn)在挑戰(zhàn)賽中的最終結(jié)果。
車道檢測中,所有輸入圖像都被調(diào)整為1550×2048大小。
不同的主干網(wǎng)絡(luò)被用于實現(xiàn)模型,包括ResNet50、VOV和ViT-L。
AdamW優(yōu)化器被用于整個網(wǎng)絡(luò)的優(yōu)化,學(xué)習(xí)率設(shè)置為2e-4,主干網(wǎng)絡(luò)使用2e-5的學(xué)習(xí)率。- 車道查詢的數(shù)量設(shè)置為300。
默認情況下,模型進行20輪的訓(xùn)練。
交通元素檢測中,圖像垂直方向上的注釋分布被統(tǒng)計分析,并進行裁剪成896×1550以提高訓(xùn)練效率。
前景分類損失的加權(quán)因子為2,偽標簽損失的加權(quán)因子為1。
數(shù)量比例低于10%的類別進行重新采樣,采樣比例為5到20倍。
COCO預(yù)訓(xùn)練檢查點被加載,并進行為期20輪的微調(diào)作為2D檢測器的基準線。
拓撲預(yù)測中,2D交通和3D車道檢測器被固定,只訓(xùn)練MLP網(wǎng)絡(luò),訓(xùn)練周期為10輪。
學(xué)習(xí)率設(shè)置為2e-4。
在OpenLane-V2驗證數(shù)據(jù)集上,作者測試了不同的主干網(wǎng)絡(luò)。
更強的主干網(wǎng)絡(luò)帶來了更好的性能。
使用更長的訓(xùn)練時間(48個epochs)可以顯著提升性能(DET1上提升了6.05%)。
使用鳥瞰數(shù)據(jù)增強(BDA)可以使DET1性能提升約1%。
性能的提升可以通過表格1和表格2來進行定量評估。這里也推薦「3D視覺工坊」新課程《面向自動駕駛領(lǐng)域的3D點云目標檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)》。
在OpenLane-V2驗證數(shù)據(jù)集上,作者評估了2D交通元素檢測器的性能。
YOLOv8-x在無任何技巧的情況下可以達到65.32%的DET1得分。
應(yīng)用強大的數(shù)據(jù)增強技術(shù)可以提高3.77%的性能。
調(diào)整分類權(quán)重后,模型性能從之前的水平提高到了71.90%。
重新采樣解決了樣本分布不平衡的問題,并進一步提升了性能。
結(jié)合偽標簽訓(xùn)練可以帶來1.31%和2.95%的性能提升。
測試時增強技術(shù)將性能提升到了79.89%,無需訓(xùn)練模型。
在訓(xùn)練過程中,增加訓(xùn)練輪數(shù)從20增加到75并沒有帶來性能的提升。
降低微調(diào)階段的學(xué)習(xí)率會嚴重損害性能。
沒有地面真值注釋的樣本仍然對模型訓(xùn)練有幫助。
拓撲性能受到車道檢測和交通檢測性能的影響。
消融實驗表明,拓撲性能隨著基本檢測性能的提高而改善。
更好的車道檢測和交通檢測結(jié)果對于拓撲預(yù)測有積極的影響。
對于拓撲性能的提升可以通過檢測的最佳得分來定量衡量(35.28% DET1和79.89% DET1)。
作者的方法在OpenLane拓撲挑戰(zhàn)中取得了顯著的性能提升。
與第二解決方案相比,作者的方法在DETt、TOPll、TOPlt和OLS上分別提高了16%、16%、3%和8%。
最終提交的模型是在OpenLaneV2的訓(xùn)練和驗證集上聯(lián)合訓(xùn)練得到的,但沒有進行集成。
目前工坊已經(jīng)建立了3D視覺方向多個社群,包括SLAM、工業(yè)3D視覺、自動駕駛方向,細分群包括:[工業(yè)方向]三維點云、結(jié)構(gòu)光、機械臂、缺陷檢測、三維測量、TOF、相機標定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動駕駛方向]深度估計、Transformer、毫米波|激光雷達|視覺攝像頭傳感器討論群、多傳感器標定、自動駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺產(chǎn)品落地等交流群。大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會拉你入群。