工業(yè)應用中基于三維模型的6D目標檢測綜述
文章名稱:A Survey of 6D Object Detection Based on 3D Models for Industrial Applications,J. Imaging | Free Full-Text | A Survey of 6D Object Detection Based on 3D Models for Industrial Applications (mdpi.com)
綜述
剛性物體的六維檢測是一個與工業(yè)背景下的質量控制和機器人操作特別相關的問題。這項工作是對六維物體檢測技術現(xiàn)狀的調查,其中考慮到了這些用例,特別是側重于只用三維模型或其渲染物訓練的算法。我們的第一個貢獻是列出了工業(yè)應用中通常遇到的要求。第二個貢獻是收集了用合成數(shù)據(jù)訓練的幾種不同的6D物體檢測方法的定量評估結果,并對其進行了比較和分析。我們針對工業(yè)應用對物體檢測器的個別要求確定了頂級方法,但發(fā)現(xiàn)由于缺乏可比較的數(shù)據(jù),無法在多個方面進行大規(guī)模比較。
作者:Yu|來源:微信公眾號「3D視覺工坊」
一、介紹
6D物體檢測的問題包括物體的檢測以及對其平移和旋轉的估計。在三維空間中,這兩個屬性都有三個自由度,因此形成了術語的6D部分。在許多情況下,解決這個問題的算法也給出了目標物體類別的估計(在這項工作中,物體檢測一詞意味著物體分類)。這里用于記錄場景的最常見的傳感器是照相機。在這項工作中,我們著重研究解決這個問題的方法,它有兩個具體的特性。
RGBD相機(即顏色和深度)可用于為算法提供輸入;
只需要三維物體模型(CAD或重建)來設置算法(即不需要真實相機的記錄)。
具有這些特性的算法特別適合于工業(yè)應用,特別是自動化任務。一方面,RGBD圖像在生產環(huán)境中很容易獲得。我們有大部分的室內場景,照明可控,簡化了主動傳感器的使用。與RGB相機相比,較大的外形尺寸在靜態(tài)設置中通常沒有問題,而且高質量的RGBD傳感器的價格不會對公司規(guī)模的預算造成很大影響。另一方面,工業(yè)制造的產品通?;谟嬎銠C輔助設計(CAD),這使得目標物體的3D模型很容易獲得。在工業(yè)環(huán)境中,有兩個主要的用例需要對現(xiàn)實世界的物體進行定位:機器人操縱和質量控制,這些例子在圖1中顯示。

在這項工作中,我們研究了6D物體檢測在工業(yè)用例中的應用現(xiàn)狀。我們把重點放在經驗數(shù)據(jù)上;據(jù)我們所知,我們收集了迄今為止對具有上述特性的物體檢測器的評價分數(shù)的最全面比較。我們的核心貢獻有以下幾點。
典型的工業(yè)用例對物體檢測器的要求清單。
全面收集符合確定標準的6D物體檢測器的實驗經驗數(shù)據(jù)。
關于物體檢測器FFB6D性能的經驗數(shù)據(jù),該檢測器還沒有用純粹的基于模型的訓練進行評估。
在這項工作的其余部分,我們首先對相關工作進行了概述。然后,我們通過提出6D物體檢測任務的定義來介紹我們的工作背景,通過確定典型工業(yè)應用的要求來建立我們關注的理由,并簡要介紹了基于模型的訓練(嚴格來說,訓練一詞是指建立基于學習的算法。為了提高可讀性,在這項工作中,我們也用它來指代為非基于學習的算法生成參考數(shù)據(jù))和為此目的的合成數(shù)據(jù)生成。然后,我們描述了我們的分析方法,包括對所研究的算法的分類和對所使用的數(shù)據(jù)集和指標的描述。最后,對收集到的數(shù)據(jù)進行了介紹和討論,然后是一個簡短的結論。
二、相關工作
在本節(jié)中,我們概述了與工業(yè)應用的6D物體檢測有關的論文,首先列出該領域的綜述和基準,然后介紹各個物體檢測器及其具體貢獻,最后介紹基于模型的訓練和為物體檢測器的訓練生成合成數(shù)據(jù)的技術現(xiàn)狀。
2.1. 綜述和基準
Hoda ˇ n等人在他們的BOP挑戰(zhàn)賽2020中對6D物體檢測器進行了大規(guī)模的基準測試。他們以統(tǒng)一的格式提供了7個文獻中已知的數(shù)據(jù)集,并為每個數(shù)據(jù)集添加了用BlenderProc生成的合成圖像,BlenderProc是一套允許用Blender對程序生成的場景進行基于物理的渲染的腳本(https://www.blender.org/)。他們測試了26種不同的方法,發(fā)現(xiàn)CosyPose在他們的衡量標準下具有最佳的整體得分,以及合成訓練的物體檢測器的最佳得分。除了他們的論文,他們還在附帶的網(wǎng)站(https://bop.felk.cvut.cz/home/)上發(fā)表了他們的評估結果,該網(wǎng)站仍在擴展新的評估數(shù)據(jù)和新的數(shù)據(jù)集。
Sahin等人【A review on object pose recovery: From 3D bounding box detectors to full 6D pose estimators】在2020年發(fā)表了迄今為止關于6D物體檢測的最全面的評論。他們根據(jù)數(shù)學模型對各自的方法進行了分類,比較了其經驗結果,并確定了不同數(shù)據(jù)集的挑戰(zhàn)。
2021年,Cong【A Comprehensive Study of 3-D Vision-Based Robot Manipulation】等人和Du【Vision-based robotic grasping from object localization, object pose estimation to grasp estimation for parallel grippers: a review】等人討論了機器人操縱的具體用例。與Sahin等人一樣,他們對不同的物體檢測器和數(shù)據(jù)集進行了分類。他們還收集了大量的定量數(shù)據(jù)來比較各種方法。然而,與之前的綜述不同,他們考慮了抓取估計的具體指標和數(shù)據(jù)集。
我們將上述參考文獻作為我們研究的起點,但用在撰寫本文時尚未得到的算法的評估結果來擴展這些作品中討論的數(shù)據(jù)。我們還把數(shù)據(jù)放在一個新的背景下,把研究的重點放在第3.2節(jié)中定義的工業(yè)用例的要求上。
2.2. 6D物體檢測器和姿態(tài)估計器
在這里,我們列出了不同的6D姿勢估計方法,以及他們各自出版物中提出的創(chuàng)新之處。粗體關鍵詞標志著符合本工作范圍的要求的方法,因此在我們的分析中被考慮。
2010年,Drost等人[9]提出了一種檢測點云(或深度圖像)中已知三維模型的物體的方法。他們依靠計算基于兩個物體點之間的距離和法線角度的特征,稱為點對特征(PPFs)。
Hinterstoisser等人(2016)通過引入更穩(wěn)健的采樣和投票方案改進了PPFs,Vidal等人進一步發(fā)展了這些方案。他們的方法在2018年BOP挑戰(zhàn)賽中取得了第一名[12]。
2011年,Hinterstoisser等人通過對輸入圖像的模板匹配進行6D物體檢測,他們的方法稱為LineMOD。匹配是在描述RGB-和深度梯度的特征空間中完成的。他們通過改進訓練姿勢的策略和引入基于物體顏色的過濾策略來改進其方法。Rios-Cabrera和Tuytelaars[15]將LineMOD進一步擴展到DTT-OPT-3D,通過SVMs的判別學習模板。2014年和2018年,Tejani等人將LineMOD特征整合到基于斑塊的回歸森林中,并將得到的算法稱為latent-class Hough forest (LCHF) [16,17]。另一個基于模板的方法是由Hodan等人[18]在2015年提出。與LineMOD不同,他們的方法是基于投票方案的。
2014年,Brachmann等人[19]提出了一種基于隨機森林的方法,預測2D-3D的對應關系,從中使用RANSAC估計姿勢。這項工作在[20]中被擴展到自動上下文隨機森林和標記的不確定性驅動的姿勢估計。2016年,Kehl等人[21]發(fā)表了一個基于回歸和投票的方法,在RGBD圖像上使用卷積自動編碼器(CAE)。同一作者在2017年提出了一個單次拍攝姿勢(SSD)算法擴展到SSD6D,該算法在RGB上工作。2017年,Buch等人[22]提出了一個基于子群投票和姿勢聚類的物體檢測器,它使用兩個模型的定向點構成的約束。Rambach等人[23]在2018年明確解決了從合成圖像中學習物體姿勢的任務。他們試圖通過讓他們的網(wǎng)絡在邊緣過濾的圖像上操作來彌補領域的差距。
Tekin等人[24]在2018年發(fā)表了YOLO6D,其主要貢獻是讓CNN預測物體的3D邊界框角的投影,并使用獲得的2D-3D對應關系來解決使用PnP算法的姿勢。2018年,Sundermeyer等人[25]提出了增強的自動編碼器(AAE),它建立在去噪自動編碼器的基礎上,并通過訓練他們的自動編碼器使其不受差距影響的方式來解決合成到現(xiàn)實領域的差距。Park等人[26]發(fā)表了Pix2Pose,預測每個像素的物體的三維坐標,并使用基于RANSAC的PnP算法重建姿勢。Zakharov等人[27]的密集姿勢物體檢測器(DPOD)以類似的方式工作,但也采用了基于RGB的細化方式。
Thalhammer等人[28]提出了SyDPose,它再次明確了只使用合成數(shù)據(jù)進行訓練。Li等人[29]的基于坐標的分解姿勢網(wǎng)絡(CDPN)分別預測了翻譯和旋轉。Hagelskjar和Buch[30]的PointVoteNet,與其他大多數(shù)基于神經網(wǎng)絡的方法不同,它從無序的點云中估計姿勢。Labbé等人的CosyPose[5]也支持多視角姿勢估計,并且是2020年BOP挑戰(zhàn)賽[3]的最佳表現(xiàn)者之一。Hoda ˇ n等人的EPOS[31]將物體表示為緊湊的表面片段。Su等人的SynPo-Net[32]在預測前將訓練圖像和輸入圖像轉換為邊緣過濾的表示,以彌補領域差距。Deng等人[33]提出PoseRBPF,使用Rao-Blackwellized粒子過濾框架,分別考慮旋轉和平移。He等人[34]提出了PVN3D,這是一個依靠關鍵點檢測和Hough投票的網(wǎng)絡,建立在Wang等人[35]的DenseFusion特征之上。他們在2020年擴展了這項工作,對RGB和深度特征進行了雙向融合,并將所得方法稱為FFB6D[2]。Haugaard和Buch[36]的SurfEmb引入了一個對比性損失。
2.3. 基于模型的訓練和圖像合成
在這一節(jié)中,我們介紹了在訓練時只有目標物體的三維模型可用時解決物體檢測任務的工作。這里的一個特殊挑戰(zhàn)是渲染("合成")適合訓練基于學習的檢測器的圖像。
Rudorfer等人[37]發(fā)現(xiàn),通過靜態(tài)背景的剛體模擬,在隨機背景上的渲染優(yōu)于現(xiàn)實背景下的渲染。2019年,Denninger等人[4]提出了BlenderProc,這是一個基于Blender的渲染管道,可以創(chuàng)建基于物理渲染(PBR)的合成圖像。他們提供了逼真的照明和不同的模式,如法線圖和深度圖像。這后來被用于2020年BOP挑戰(zhàn)賽,以提供合成訓練圖像。Hodan等人[38]將基于物理的渲染與現(xiàn)實的光照、表面、物體放置和場景背景進行比較,以渲染隨機照片,發(fā)現(xiàn)基于物理的渲染優(yōu)于后者的方法。這一發(fā)現(xiàn)被Hoda ˇ n等人[3]在他們的2020年BOP挑戰(zhàn)賽的背景下證實。
對于二維物體檢測問題,Hinterstoisser等人[39]表明,在適當?shù)那闆r下,基于合成訓練的檢測器可以勝過用真實圖像訓練的檢測器。他們特別關注將領域隨機化應用于渲染,并創(chuàng)建具有良好視點覆蓋的圖像。Rojtberg等人[40]利用GANs來學習真實和合成圖像之間的差異,然后基于這些網(wǎng)絡將合成圖像轉化為真實域。他們發(fā)現(xiàn),這種策略不能達到真實圖像的性能,但與純領域隨機化相比,性能有所提高。Eversberg和Lambrecht [41]研究了減少真實圖像和合成圖像之間領域差距的不同策略的效果,只關注物體檢測。他們發(fā)現(xiàn),基于圖像的照明,使用高動態(tài)范圍圖像和使用隨機真實圖像作為背景有利于合成訓練;他們建議使用至少5000張圖像。Rambach等人[23]和Su等人[32]通過首先應用各種增強技術,然后將合成訓練圖像和真實輸入圖像帶入一個共同的pencil filter域來解決領域差距問題。他們發(fā)現(xiàn),這種策略提高了合成訓練的物體檢測器的準確性。
三、背景
本節(jié)提供了本工作中所參考的概念的背景信息,并為我們的分析設定了范圍。具體來說,我們定義了6D物體檢測的問題,描述了工業(yè)應用提出的要求,描述了什么是基于模型的訓練,并概述了我們在這項工作中考慮到的模式。
3.1. 問題的定義:6D物體檢測
六維物體檢測包括對物體的檢測以及對其三維平移和三維旋轉的估計。我們將六維物體檢測、物體檢測和六維姿態(tài)估計的關系定義如下。
6D object detection = object detection + 6D pose estimation
即,6D物體檢測器檢測場景中的物體實例,并將其位置輸出為6D姿勢。對于一些檢測方法來說,這是一個單一的算法步驟(通常稱為單階段檢測器,例如[9,26,34]),而其他一些方法則將物體檢測和姿勢估計作為不同的步驟(兩階段或多階段檢測器,例如[42-44])。后者通常首先采用一個物體檢測器,為圖像中發(fā)現(xiàn)的物體實例輸出二維邊界框,然后將其輸入姿勢估計器。
Hoda ˇ n等人[3]在他們工作的附錄1中區(qū)分了物體檢測和物體定位。當檢測物體時,人們試圖找到一個未知數(shù)量的物體,而定位物體意味著我們預先知道場景中可見N個物體,我們需要找到它們的位置。在我們的具體案例中,定位一個物體意味著估計其6D姿勢。因此,在這項工作中,物體定位一詞是N個物體的6維姿勢估計的同義詞,根據(jù)上面給出的關系,物體定位是6維物體檢測的一個子任務。
文獻中物體檢測的常見用法也意味著對物體的分類。在這項工作中,我們假設物體的三維模型作為參考來尋找,也就是說,我們研究的是基于非常具體的幾何屬性來執(zhí)行任務的物體檢測器,這被稱為實例級檢測。這與類別級檢測形成對比,后者的目標是檢測屬于更廣泛類別的物體,例如,"找到圖像中的所有汽車"。
與Sahin等人[6]類似,我們將6D姿勢估計正式定義為

其中,T = (r1, r2, r3, t1, t2, t3)是物體實例i的六維姿勢,I是輸入圖像,S是看到的物體實例,O是一個物體類別的參考。姿勢估計器試圖使概率函數(shù)P最大化。在實踐中,不同的姿勢估計器主要交替使用其對P的表述,例如,一些使用神經網(wǎng)絡[27,34,45],而另一些使用手工制作的啟發(fā)式方法來確定概率[9,14]。P的輸出也可以被解釋為檢測分數(shù)。
一個用例是檢測還是定位任務有兩個重要的實際意義。
該算法的參數(shù)化是不同的。對于定位,我們可以接受物體檢測器產生的N個最佳假設,而對于檢測,我們需要為P設定一個分數(shù)閾值,作為假設的接受標準。
評價性能所需的指標也不同。對于定位來說,確定一個只考慮陽性檢測率的分數(shù)就足夠了(例如,召回率)。由于檢測器最多輸出N個結果,我們知道每一個假陽性都意味著一個假陰性,例如,這里的精度總是至少和召回率一樣好。對于檢測任務來說,這不是真的,所以我們需要考慮到同時考慮到真陽性和假陽性的指標(例如召回率和精確度)。
3.2. 工業(yè)應用
當應用于工業(yè)環(huán)境中發(fā)生的問題時,物體檢測器有很大的潛力。來自質量控制和機器人操作領域的特殊任務需要快速和準確地檢測和估計目標物體的姿勢。為了推斷出工業(yè)用例對物體檢測器的要求,我們確定了它們在6D物體檢測方面的機會和挑戰(zhàn)。機會是這些場景中可能簡化6D物體檢測的方面,而挑戰(zhàn)是那些使之更難的方面。機會如下:
有CAD模型,這意味著生成參考數(shù)據(jù)很便宜。
高端和RGBD相機是可用的,因為與RGB相機相比,較高的成本和較大的外形尺寸在大規(guī)模生產環(huán)境中是可以忽略不計的。
場景設置是可控的。生產大多發(fā)生在室內,燈光和攝像機的位置可以很容易控制。室內設置也允許更多可能的RGBD攝像機,因為主動式攝像機在陽光下往往不能很好地工作。
許多自動化任務的最小要求幀率是生產的任務時間,通常低于互動應用的要求幀率。
我們的結論是,將RGBD相機和3D模型結合起來作為參考,可以最佳地利用這些機會。RGBD允許比RGB有更高的魯棒性和準確性,而3D模型的可用性允許生成合成圖像,這些圖像的獲取比有注釋的真實世界的記錄要簡單和便宜得多。另一方面,我們發(fā)現(xiàn),工業(yè)應用對6D物體檢測提出了以下具體挑戰(zhàn)。
很多工業(yè)化生產的物體是沒有紋理的。具體來說,處于生產鏈初期的工件往往是由單一材料制成的,表面平坦,沒有紋理。
很多人造物體,特別是那些幾何形狀簡單的物體,都是旋轉對稱的,或者至少在某些角度下看起來是如此。這使得它們的姿勢模糊不清,這對依靠優(yōu)化的算法來說是個難題。
機器人操作領域的一個常見任務是物體抓取。在這里,單個物體可能是高度遮蔽的。
此外,特別是在物體抓取任務中,我們有同一物體類別的未知數(shù)量的實例。如第3.1節(jié)所述,我們把這項任務稱為物體檢測,與物體定位相反,在物體定位中,要檢測的物體數(shù)量是預先知道的。當試圖檢測未知數(shù)量的實例時,假陽性可能是一個主要問題。
在參考數(shù)據(jù)中物體的顏色往往是不明確的。CAD模型通常存儲一個物體的幾何和動力學屬性,但不存儲其表面屬性,定義顏色和反射行為。
有些物體的表面特性難以識別,阻礙了基于光學記錄的幾何特性的識別,即由高鏡面反射的材料制成的物體,如金屬,或由半透明或透明材料制成的物體,如玻璃。
在這里,RGBD也可以緩解這些挑戰(zhàn)帶來的問題。當目標物體上沒有可辨別的紋理或參考中沒有顏色信息時,在深度通道中編碼的幾何信息可以補充顏色信息并導致更好的精度。特別是在以大量對象實例為目標的用例中,通過生成帶注釋的合成場景、顯示成堆的對象可以獲得很多好處,因為手動注釋對這些對象來說幾乎是不可行的。
當然,不一定所有這些特性都適用于每個工業(yè)用例。然而,根據(jù)我們的經驗,我們發(fā)現(xiàn)這些特性在生產環(huán)境中是典型的,所以它們設定了這項工作的范圍。在剩下的部分,我們將分析好的已發(fā)表的物體檢測器是否以及如何滿足所提出的機會和挑戰(zhàn)所帶來的要求
3.3. 基于模型的培訓
在本節(jié)中,我們給出了什么是基于模型的訓練的定義,并概述了如何生成合成圖像。對于只考慮目標物體的幾何屬性的物體檢測器,基于模型的訓練是直接的。這種算法可以通過在潛在空間中生成特征,直接用參考模型進行訓練,例如,PPF就屬于這種類型。
訓練對象檢測器的工作是在表面屬性和模型幾何形狀的投影上進行的(即在圖像上),這涉及到更多。這對基于學習的算法來說尤其如此,一般來說,訓練時可用的數(shù)據(jù)與推理時的輸入數(shù)據(jù)越相似,其效果就越好。
生成 "真實的圖像",即用于估計的目標物體的記錄,并用地面真實姿勢來注釋它們,是一個非常復雜和昂貴的過程。如果用例要求在許多不同的角度、光照條件下或從不同的物體上拍攝訓練圖像,這一點尤其嚴重。
另一方面,由模擬記錄組成的合成圖像很方便,可以很容易地生成大量不同模擬條件下的圖像。要做到這一點,必須要有目標物體的三維模型,在工業(yè)生產環(huán)境中就是這樣,因為大多數(shù)產品在制造之前通常都有模型。從這些模型中,人們可以推導出渲染的圖像,同時考慮到記錄過程的屬性。我們發(fā)現(xiàn)利用現(xiàn)實世界的模型來訓練物體檢測器的策略有以下幾種:
三維模型:在這里,我們直接從三維模型中包含的信息,即模型的頂點和法線,推導出潛在空間的特征,例如,PPF在訓練時只需要一個物體的三維模型。
增強的真實圖像:在這個策略中,真實圖像被增強以產生更多種類的訓練圖像。這可以通過模擬不同的記錄條件來實現(xiàn),例如,改變圖像的大小或長寬比,其亮度或清晰度,或添加噪音。一個更復雜的圖像增強模式是 "渲染和粘貼 "策略,在這個策略中,一個物體從它的原始場景中被裁剪出來,粘貼到不同的背景上以模擬不同的背景,或者被另一個裁剪所覆蓋以模擬遮擋情況。
渲染:渲染是模擬整個圖像記錄管道的過程,從而從三維模型生成二維圖像。在這種模擬的實現(xiàn)方式和所產生的輸出的真實性方面有很大的差異。渲染圖像的最簡單、最快速的方法是使用基于光柵化的渲染器,如OpenGL。這種類型的渲染器通常會產生可信的,但不一定是物理上準確的渲染,以實現(xiàn)實時性能。一種更好的生成真實圖像的模式被稱為基于物理的渲染(PBR),這不是一個嚴格定義的術語,但通常需要比常用的Blinn-Phong模型[46]更真實地模擬光線和表面的行為,例如,通過采用光線追蹤。
在這項工作中,基于模型的訓練物體檢測器這一術語指的是僅在三維模型或其渲染(合成圖像)上訓練的算法,即這些算法的訓練不包括記錄物理目標物體。然而,請注意,我們并不排除使用涉及通用真實世界圖像作為背景、紋理或干擾物的訓練圖像的算法,因為這些圖像可以很容易地從二維圖像數(shù)據(jù)集中獲得,例如ImageNet(https://www.image-net.org/)。
我們沒有調查用于訓練這里所提到的方法的每個訓練集的性質。這意味著,如果在用更先進的合成圖像生成策略生成的圖像上進行訓練,一些方法的表現(xiàn)很可能會好得多。因此,所提出的數(shù)值應該被看作是每個算法性能的經驗證明的下限。
3.4. 模態(tài)
如第3.2節(jié)所述,我們假設在工業(yè)使用案例中可以使用RGBD相機,并包括將RGBD圖像作為輸入的6D物體檢測器。對于潛在的用戶來說,一種方法的精度和它使用的模態(tài)更加相關,RGBD比RGB方法精度更高,只要它與可用的硬件兼容。由于基于RGB的檢測器與RGBD圖像完全兼容,我們的調查中也包括前者。請注意,通過采用基于幾何的細化算法,如ICP [47],基于RGB的檢測可以很容易地用深度信息進行細化。
有兩種模式可以很好地滿足第3.1節(jié)中定義的工業(yè)用例的要求,但在這項工作中沒有明確考慮它們:多視角圖像和點云。我們發(fā)現(xiàn),使用這些模式作為輸入的算法很難符合這項工作的范圍,原因如下:
除了CosyPose[5],我們沒有找到任何符合我們用例所給范圍的多視圖方法。
基于點云的物體檢測器在自動駕駛領域非常流行。因此,它們通常在為這一用例量身定做的數(shù)據(jù)集和指標上進行評估(例如,KITTI數(shù)據(jù)集),而文獻中發(fā)現(xiàn)的評估分數(shù)不能與大多數(shù)基于RGBD的物體檢測器相提并論。
然而,我們也發(fā)現(xiàn),這些模式有可能有利于工業(yè)使用案例,特別是在這些方面:
多視角圖像以及點云通常比單視角圖像覆蓋更大的場景部分。因此,它們可以減輕由于遮擋、姿勢不明確和鏡面反射造成的問題。
點云主要是場景的幾何表示,因此,基于幾何三維模型的物體檢測可能需要較少的訓練數(shù)據(jù)預處理,因為輸入和訓練數(shù)據(jù)已經處于同一領域。特別是,可以跳過合成圖像的相關生成。
由于這些原因,我們決定將對基于這些模式的物體檢測器的評估推遲到未來的工作中;特別是,我們計劃用通常用于基于RGBD的檢測器的指標和數(shù)據(jù)集來評估其性能。
四、材料和方法
4.1. 方法
在本節(jié)中,我們將對我們所研究和比較的6D物體檢測方法進行分類。由于這項工作的范圍是特定于使用情況的,我們重點關注對方法的使用進行約束的方法屬性,以及作為實施細節(jié)使用的CNN類型等方面。在下文中,我們將描述我們發(fā)現(xiàn)的與應用場景相關的方法屬性,以及它們能以何種方式約束潛在的使用。這些屬性描述應該被看作是一套一般準則,而不是嚴格的規(guī)則,例如,盡管基于深度的檢測器往往比基于RGB的檢測器能提供更好的相機與物體的距離估計,但這不一定在所有情況下都是真的。表1顯示了我們對算法的分類。
Modality模態(tài):描述了一個方法在訓練時和運行時接受哪種類型的輸入。基于RGB的方法在估計物體與攝像機的距離時,往往有較大的誤差?;谏疃鹊姆椒ㄖ换趲缀螌W,所以它們不能使用物體上可見的顏色線索或紋理?;赗GBD的方法可以利用兩者的優(yōu)點。我們只考慮核心方法使用的模式,即沒有可選的細化步驟。當然,每一個基于RGB的檢測器都可以擴展為RGBD,例如,用ICP[47]對結果進行后處理,每一個基于深度的檢測器都可以通過采用某種基于二維邊緣的姿勢細化擴展為RGBD。
Features特征:說明一個方法是使用學習的還是手工制作的特征進行物體檢測,也就是說,該算法是數(shù)據(jù)驅動還是模型驅動。顧名思義,數(shù)據(jù)驅動的方法往往需要大量的訓練數(shù)據(jù):在我們的例子中是合成圖像。這些數(shù)據(jù)的生成和隨后的訓練在計算上要求很高,在某些情況下需要幾天的時間才能完成全部設置。手工制作的特征通常不需要那么多的數(shù)據(jù),而且訓練數(shù)據(jù)到特征的轉換是直接的,因為不需要進行權重優(yōu)化。然而,后者往往有更多的參數(shù)需要進行微調以獲得最佳結果。
Scope尺度:描述了物體檢測步驟中的特征是代表整個目標物體(如 "模板")還是單個興趣點(如單個像素或圖像補?。4碚麄€物體的全局特征,在檢測一個物體類別的多個實例時,通常更加穩(wěn)健,這些實例彼此接近或甚至相互遮擋。局部特征往往對一般的遮擋或困難的光照條件更加穩(wěn)健。
Output輸出:給出了輸出姿勢所處的空間類型。基于回歸的方法預測的是連續(xù)的結果,也就是說,他們估計的姿勢在理論上是無限精確的?;诜诸惖姆椒A測的是離散的結果,也就是說,它們的輸出是先前學到的有限數(shù)量的類別之一。離散的估計結果是否足夠好,取決于用例的要求,以及是否有足夠的計算資源來執(zhí)行細化步驟。

這項工作中提到的所有方法都是通過基于模型的訓練來測試的。請注意,不同的方法生成合成數(shù)據(jù)的模式不同,也就是說,可能存在更好的分數(shù),因此,所提出的分數(shù)只是下限值。
對個別方法的評論
基于學習的方法FFB6D[2]是由我們自己在合成圖像上訓練的。為了訓練FFB6D,我們使用了BlenderProc[4]為BOP挑戰(zhàn)賽2020[3]生成的合成圖像,將場景2作為驗證集。我們停用了所有的數(shù)據(jù)增強功能,并按照渲染圖的原樣進行訓練。訓練運行了366,000次迭代,批次大小為3。
PoseRBPF[33]是一種跟蹤方法,而不是一種物體檢測方法。然而,該算法實際上可以用于物體檢測(在相應的論文中被稱為初始化),而且姿勢估計的準確性在連續(xù)的幀中得到了改善。出于這個原因,我們在這項工作中考慮了它,盡管它不完全符合所需的特征。
PointVoteNet[30]支持全局和局部特征,因為它是基于Qi等人的PointNet[50],它將目標對象表示為全局和局部特征的級聯(lián)。
基于深度的方法PointVoteNet[30]、PoseCluster[22]和所有PPF變體[9-11]都可以只用點云來訓練,即這里不需要圖像合成。
4.2. 數(shù)據(jù)集
在這項工作中,我們把重點放在數(shù)據(jù)集上,一方面,這些數(shù)據(jù)集提出的挑戰(zhàn)與第3.2節(jié)所述的要求相符,而且文獻中也有大量的定量數(shù)據(jù)。對于這項工作中使用的所有數(shù)據(jù)集,都有RGBD圖像,并有地面真實姿勢和所描述物體的3D模型的注釋。此外,合成的RGBD訓練圖像通過BOP提供(見https://bop.felk.cvut.cz/home/)。數(shù)據(jù)集的樣本圖像可以在圖2中看到。這些都被視為這項工作的一部分。
LineMOD(LM)[14]:LM數(shù)據(jù)集由Hinterstoisser等人首次提出,用于評估他們的同名算法,提供了15個場景。在每個場景中,15個不同的物體中的1個被標注在辦公環(huán)境中,并放置在一個有嚴重雜亂的桌面上。
LineMOD occluded(LMO)[19]:該數(shù)據(jù)集包括原始LineMOD數(shù)據(jù)集中的第2個場景,但在單幀中帶有不同類別的多個物體的地面真實注釋。除了背景雜波外,這也帶來了物體間大量遮擋的挑戰(zhàn)
T-LESS[51]:T-LESS數(shù)據(jù)集包括20個場景,有30個不同物體類別的注釋。所描述的物體都是典型的工業(yè)制造的物體,由無紋理的白色塑料制成,其中許多是旋轉對稱的。這些物體都被放置在一個黑色的背景上,所以沒有什么背景雜波。所有場景都顯示了不同位置的物體的不同組合,一個場景中有多個物體的實例,物體之間相互遮擋。

對于其他通常用于評估6D物體檢測的數(shù)據(jù)集的全面概述,我們建議閱讀Hodan. 等人的出版物[3]。他們的工作不僅給出了數(shù)據(jù)集的細節(jié)和它們所帶來的具體挑戰(zhàn),而且作者還將12個廣泛使用的數(shù)據(jù)集放在一個共同的格式中,并為其中大多數(shù)提供了使用BlenderProc[4]生成的合成訓練圖像。
4.3. 評估指標
對物體檢測器的評估通常是將其視為二進制分類器。因此,用于評估物體檢測器性能的指標是分兩個階段計算的:
1.檢測到的實例和地面真實注釋的距離用一個幾何指標來計算?;谝粋€特定的度量閾值,每個檢測到的實例和地面真實注釋都被分為真陽性(TP)、假陽性(FP)和假陰性(FN)之一。
2.TPs、FPs和FNs的數(shù)量根據(jù)二元分類器的評價指標進行匯總,然后給出最終評價分數(shù)
在文獻中,有幾個常用的指標來確定物體檢測器的性能。我們只詳細描述與本工作有關的指標。如果一個指標能夠對符合工業(yè)使用情況的多個物體檢測器進行比較,則被認為是相關的。我們注意到,大部分考慮基于模型的訓練的出版物都使用了下面介紹的指標之一。關于這些指標在文獻中的分布概況,請參考表2。

以下是文獻中最常使用的幾何指標,用于評估僅在三維模型上訓練的6維物體檢測器的性能:
平均距離(對稱)(ADD(S))[14]:這個指標測量物體模型用兩個不同姿勢變換后的三維點的平均距離。ADD-S(也是ADI)是一個變體,它考慮到旋轉對稱的物體可以有多個有效的姿態(tài)估計。ADD(S)用于表示對稱變體ADD-S用于具有旋轉對稱性的物體,ADD用于非對稱性物體。將一個估計值歸類為正確的最常用的閾值是t = 0.1 - d,其中d是目標物體的直徑。有些出版物使用t = 0.15,在相應的位置上都有標注。
視覺表面差異(VSD)[52]:顧名思義,這個指標衡量的是一個物體用兩個不同的姿勢變換后相對于相機的可見表面的差異,也就是說,如果一個物體用兩個姿勢變換后看起來完全一樣,VSD就是0。特別是,這比ADD(S)更直觀地處理旋轉對稱性。這個指標有兩個閾值參數(shù),決定一個姿勢是否被認為是正確的:
τ是重疊像素的相機距離的最大允許差異;θ是根據(jù)τ條件需要認為正確的物體像素的最小允許百分比,以使整個假設被認為是正確的。一個廣泛使用的閾值組合是τ = 20 mm和θ = 0.3。BOP挑戰(zhàn)賽2020[3]采用了一種不同的方法,在[0.05-d, 0.5-d]區(qū)間內以0.05-d為單位增加τ,在[0.05, 0.5]區(qū)間內以0.05為單位增加θ。然后他們確定每一對τ-θ的得分,并取其平均值作為總分。我們把這種配置稱為VSDBOP。
對于評估作為二進制分類器的物體檢測器,我們發(fā)現(xiàn),對于符合我們要求的方法,最廣泛使用的指標是召回率和F1分數(shù),后者是召回率和精確度的諧波平均值。它們的計算方式如下:

召回適用于評估物體定位任務,如第3.1節(jié)所定義的。在這種情況下,我們知道場景中有N個物體實例,而我們最多有N個結果假設。由此可見,F(xiàn)Ps≤FNs,召回率≤精度。這使得計算精度對這個任務來說是多余的。對于物體檢測來說,要找到的物體的數(shù)量是未知的,所以這里需要F1分數(shù),因為它考慮到了真陽性和假陽性。
我們沒有考慮的幾何指標,由于它們基于上述條件不相關,但可以在文獻中找到,包括二維投影誤差、聯(lián)合體上的交叉(IoU)、平移和角度誤差、最大對稱性感知表面距離(MSSD)、最大對稱性感知投影距離(MSPD)和平均方向相似度(AOS)。我們沒有考慮的二元分類指標包括平均精度(AP)、平均平均精度(mAP)和曲線下面積(AUC)。關于這些指標的更多信息見Hoda ˇ n等人[3]或Sahin等人[6]。
五、評估
物體檢測器的基準由三個主要方面定義:使用的數(shù)據(jù)集、使用的評估基準和用于將檢測結果分類為成功或失敗的閾值(公差)。在搜索符合我們提出的要求的物體檢測器的性能的定量數(shù)據(jù)時,我們發(fā)現(xiàn)了表2中所列的數(shù)據(jù)集-度量組合的數(shù)據(jù)。
盡管我們在這項工作中著重于物體檢測任務,但我們也檢查了物體定位基準的結果。一方面,在一些工業(yè)用例中,物體定位已經足夠,另一方面,如第3.1節(jié)所述,物體定位可以被看作是6D物體檢測的一個子任務。
請注意,我們發(fā)現(xiàn)的經驗數(shù)據(jù)并沒有解決第3.2節(jié)中提出的兩個挑戰(zhàn):未知物體顏色和困難的表面。對于基于學習的方法來說,用于訓練的合成圖像的屬性對物體顏色變化的魯棒性起著重要作用,特別是渲染是用已知的顏色還是用一些隨機化策略生成的。我們無法收集到關于本文介紹的所有算法的訓練數(shù)據(jù)生成模式的足夠信息,因此關于這方面的性能仍然沒有結論。反光或半透明物體也是如此,這對所有的計算機視覺任務來說都是一個非常具有挑戰(zhàn)性的案例,而且據(jù)我們所知,目前還沒有關于6D物體檢測的注釋數(shù)據(jù)集。
5.1. 討論
在下文中,我們介紹了我們?yōu)閹讉€物體檢測器發(fā)現(xiàn)的經驗評估結果。我們首先總結了我們在基準分數(shù)方面的發(fā)現(xiàn),同樣關注第3.2節(jié)中定義的要求,然后我們看看不同方法的運行時間,最后向后退一步,描述我們對文獻中經驗數(shù)據(jù)的可用性和可比性的發(fā)現(xiàn)。
5.1.1. 方法得分
表3中報告了我們在純粹基于模型的數(shù)據(jù)上訓練出來的物體檢測器的定量評估結果。從這些數(shù)字中,我們可以得出以下結論,關于第3.2節(jié)中提出的要求。
物體定位:對于LM-ADD(S)、LM-VSD、LM-VSDBOP、TLESS-VSD和TLESSVSDBOP,以下各自的方法表現(xiàn)最好。LCHFs [17], Vidal等人的PPFs [11], SurfEmb [36], PoseRBPF [33]和SurfEmb [36]。LMOVSDBOP允許對PFFs和SurfEmb進行直接比較,由此我們可以認為后者是總體上更好的方法。我們無法比較其他排名靠前的選手,因為他們沒有在相同的度量-數(shù)據(jù)集組合上進行評估,所以最佳的整體物體定位器仍然沒有結論。
物體檢測:對于LMO-ADD(S)-F1,LCHFs[17]表現(xiàn)最好。由于它們在LM-ADD(S)的物體定位方面也表現(xiàn)非常好,我們得出結論,這種方法可以勝過許多其他的物體檢測器,盡管有一些保留。
遮擋:LMO-VSDBOP排名以SurfEmb[36]為首,其次是PointVoteNet[30]和HybridPose[42],還有一些距離。
工件檢測(無紋理,旋轉對稱):在TLESS-VSD上排名靠前的是帶SDF的PoseRBPF,其次是沒有細化的同一方法[33],帶ICP的AAE細化[43]以較大的優(yōu)勢排名第三。對于TLESS-VSDBOP,SurfEmb[36]再次以較大的優(yōu)勢排名第一,其次是HybridPose[42]和CosyPose[5]。

當RGBD圖像和只有基于模型的訓練數(shù)據(jù)可用時,哪個是總體上最好的6D姿勢估計器?從定量數(shù)據(jù)中,我們發(fā)現(xiàn)我們無法回答這個問題。大多數(shù)表現(xiàn)最好的方法是在不同的數(shù)據(jù)集-指標組合上評估的,因此不能根據(jù)現(xiàn)有的數(shù)據(jù)進行比較。特別是大多數(shù)有前途的方法,LCHF[17]、Vidal等人的PPF[11]、SurfEmb[36]和PoseRBPF[33],不能直接相互比較。
值得注意的是,在某些情況下,手工制作的特征仍然可以與基于學習的方法抗衡。特別是對于LM-ADD(S),十年前的LineMOD算法[14]和Rios-Cabrera[15]的變體幾乎達到了LCHFs[17]的性能,并且超過了很多其他的新方法(例如SSD6D[44]、SynPo-Net[32]和AAEs[43])。對于LM-VSD,Vidal等人[11]的基于PPF的方法仍然優(yōu)于所有其他方法,而對于TLESS-VSD,它取得了第二名。然而,在這個排名中的良好表現(xiàn)需要被置于一些保留意見之下:
文獻中的很多新方法都是在真實數(shù)據(jù)或真實數(shù)據(jù)與合成數(shù)據(jù)的結合上進行訓練的,對于很多普遍看好的方法,目前還沒有或很少有純粹基于模型訓練的性能的經驗數(shù)據(jù);即使有數(shù)據(jù),也沒有可比性。
與基于學習的方法相比,LineMOD和PPF都有缺點,這些缺點沒有反映在分數(shù)上,比如需要手動優(yōu)化參數(shù)(兩者都是),對遮擋的脆弱性(LineMOD)和緩慢的運行時間(PPF)。
LineMOD和PPF對LM-F1的表現(xiàn)都很一般,而在產生高召回率方面卻很好。我們認為這是因為這兩種方法都不是鑒別性的(即它們沒有明確地 "知道 "要排除什么),因此往往比基于學習的方法有較低的精度。
5.1.2. 運行時間
在表4中,我們列出了被評估的方法的運行時間,如果它們可用的話。表現(xiàn)最好的兩個方法和唯一達到交互式實時應用的幀率的方法是基于神經網(wǎng)絡的方法,這些方法在RGB圖像上工作,沒有任何細化[24,32],這并不奇怪。最快的基于RGBD的方法是LineMOD-variant DTT-OPT-3D[15]。這些數(shù)字表明,ICP-細化是一個昂貴的操作。依靠ICP的方法通常表現(xiàn)較差,更具體地說,當我們比較AAE時,我們可以看到0.6秒的差異,有和沒有細化。最慢的方法是那些基于PPF的方法。值得注意的是,SurfEmb,在閉塞和工件檢測方面表現(xiàn)最好的方法,每幀需要大約9秒,這對于許多用例來說是不可接受的。

5.1.3. 經驗數(shù)據(jù)的可用性和可比性
在表2中,我們列出了每個數(shù)據(jù)集-指標組合所擁有的數(shù)據(jù)量。我們觀察到文獻中對基于召回的指標的關注?;谡倩氐闹笜斯灿?0行數(shù)據(jù),而同時考慮精度的F1分數(shù)只有7行,也就是說,許多出版物只評估他們的算法關于物體定位的性能,而忽略了假陽性,這在物體檢測場景中可能是一個重要的問題。
許多方法由于在不同的數(shù)據(jù)集或度量標準上被評估而不能被比較。我們認為這其中的一個主要原因是處理多個數(shù)據(jù)集或實現(xiàn)不同指標所需的努力。最好能有一個基準框架,對數(shù)據(jù)集和姿勢估計結果有一個明確的接口,支持多種指標,并允許簡單的擴展。這個框架應該有一個在線數(shù)據(jù)庫,可以方便地收集和分析關于物體探測性能的經驗數(shù)據(jù)。BOP是朝著這個方向邁出的一大步,特別是在數(shù)據(jù)集的標準化方面。然而,這里實現(xiàn)的評估指標在發(fā)表時是新的,所以它們與舊的結果沒有可比性。
此外,BOP挑戰(zhàn)在他們的基準中沒有考慮精度。在[3]的附錄A.1中,作者討論了他們關于在基準中排除精度的決定,并得出結論,為了他們的基準,基于召回的分數(shù)是合適的,原因有二。首先,這些分數(shù)在寫作時還沒有飽和,其次,對于評估框架來說,只有關于召回的計算復雜性較低。我們認為,對于針對研究界的基準來說,這些論點是有效的,但我們認為,對于物體檢測器的潛在應用,需要更多的信息,以便在考慮特定用例的要求時確定其適用性。
六、總結和展望
在這項工作中,我們調查了6D物體檢測的技術狀況,重點是工業(yè)應用,我們認為基于模型的訓練和對RGBD圖像的支持特別重要。我們介紹了從文獻中收集的關于物體檢測器的定性和定量信息以及物體檢測器FFB6D的新數(shù)據(jù)[2]。我們討論了這些數(shù)據(jù),并確定了應對工業(yè)應用的具體挑戰(zhàn)的有希望的候選者。
此外,我們還看了一下數(shù)據(jù)的可用性,這些數(shù)據(jù)提供了關于算法對我們所分析的用例的適用性的信息。我們發(fā)現(xiàn),對于許多方法來說,文獻中沒有足夠的經驗數(shù)據(jù)來確定它們在應對特定挑戰(zhàn)方面的適合程度,或者將它們與競爭方法進行比較。特別是,文獻中的許多方法只在真實數(shù)據(jù)上進行了測試,而且許多方法只在基于召回的指標上進行了評估。
基于這些發(fā)現(xiàn),我們認為以下未來的研究課題將有利于6D物體檢測在工業(yè)背景下的應用:
用基于模型的數(shù)據(jù)訓練已有的和有前途的物體檢測器,并對其進行評估。
用考慮到精度的指標來評估已建立的和有前途的物體檢測器。
將基于點云和多視角圖像的方法考慮在內。
通過提供工具和框架,使研究人員能夠產生有意義的和可比較的數(shù)據(jù),這些工具和框架提供統(tǒng)一的格式和界面,以便在眾多不同的數(shù)據(jù)集和指標上評估物體檢測器。此外,提供一個在線數(shù)據(jù)庫,以簡化評估結果的收集、分類和分析。我們認為BOP是這個方向的一個良好開端,但是為了成為一個評估物體檢測的通用框架,它應該用更多的指標和更簡單的接口進行擴展。
本文僅做學術分享,如有侵權,請聯(lián)系刪文。
3D視覺工坊精品課程官網(wǎng):3dcver.com1.面向自動駕駛領域的多傳感器數(shù)據(jù)融合技術2.面向自動駕駛領域的3D點云目標檢測全棧學習路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進4.國內首個面向工業(yè)級實戰(zhàn)的點云處理課程5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化8.徹底剖析室內、室外激光SLAM關鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)9.從零搭建一套結構光3D重建系統(tǒng)[理論+源碼+實踐]10.單目深度估計方法:算法梳理與代碼實現(xiàn)11.自動駕駛中的深度學習模型部署實戰(zhàn)12.相機模型與標定(單目+雙目+魚眼)13.重磅!四旋翼飛行器:算法與實戰(zhàn)14.ROS2從入門到精通:理論與實戰(zhàn)15.國內首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)
更多干貨
歡迎加入【3D視覺工坊】交流群,方向涉及3D視覺、計算機視覺、深度學習、vSLAM、激光SLAM、立體視覺、自動駕駛、點云處理、三維重建、多視圖幾何、結構光、多傳感器融合、VR/AR、學術交流、求職交流等。工坊致力于干貨輸出,為3D領域貢獻自己的力量!歡迎大家一起交流成長~
添加小助手微信:dddvision,備注學校/公司+姓名+研究方向即可加入工坊一起學習進步。