最新 | 2023中科院3D點(diǎn)云 Transformer !
作者:HT ?| 來(lái)源:3D視覺(jué)工坊
在公眾號(hào)「3D視覺(jué)工坊」后臺(tái),回復(fù)「原論文」即可獲取論文pdf。
添加微信:dddvisiona,備注:3D點(diǎn)云,拉你入群。文末附行業(yè)細(xì)分群。
文章的主要?jiǎng)訖C(jī)是解決點(diǎn)云數(shù)據(jù)處理中的挑戰(zhàn)性問(wèn)題。點(diǎn)云數(shù)據(jù)具有復(fù)雜的非歐幾里德結(jié)構(gòu),包含了全局和局部的幾何信息,而現(xiàn)有的方法在提取點(diǎn)云的復(fù)雜幾何結(jié)構(gòu)以進(jìn)行分類(lèi)任務(wù)時(shí)存在局限。因此,作者的動(dòng)機(jī)是提出一種新的方法,可以更有效地捕捉點(diǎn)云數(shù)據(jù)的多尺度幾何信息,從而提高點(diǎn)云分類(lèi)的性能。
核心創(chuàng)新點(diǎn)是引入了多尺度幾何感知Transformer(MGT)模型。MGT模型通過(guò)以下方式創(chuàng)新:
多尺度貼片分割:將點(diǎn)云數(shù)據(jù)分成不同尺寸的多尺度小塊,以便探索點(diǎn)云的多尺度結(jié)構(gòu)。
幾何感知的補(bǔ)丁內(nèi)表示:引入了一個(gè)局部特征提取器(SLFE)模塊,利用球面映射來(lái)提取每個(gè)補(bǔ)丁的幾何信息。
幾何感知的補(bǔ)丁間表示:使用基于測(cè)地線(xiàn)距離的自注意機(jī)制來(lái)捕捉補(bǔ)丁之間的全局特征。
該算法方法的好處:
提高了點(diǎn)云分類(lèi)任務(wù)的性能,使其在主流基準(zhǔn)測(cè)試中具有競(jìng)爭(zhēng)力。
可以更好地捕捉點(diǎn)云的多尺度幾何結(jié)構(gòu),從而提高了點(diǎn)云數(shù)據(jù)的表示能力。
具有較強(qiáng)的魯棒性,對(duì)于點(diǎn)云數(shù)據(jù)的缺失也能保持較好的性能。
引入了更合理的幾何感知方法,以適應(yīng)點(diǎn)云數(shù)據(jù)的非歐幾里德結(jié)構(gòu)。
為點(diǎn)云數(shù)據(jù)處理領(lǐng)域帶來(lái)了一種新的方法,可能有助于解決其他點(diǎn)云相關(guān)任務(wù)的挑戰(zhàn)。
自注意模塊在捕獲遠(yuǎn)程關(guān)系和提高點(diǎn)云任務(wù)性能方面表現(xiàn)出了卓越的能力。然而,點(diǎn)云對(duì)象通常具有復(fù)雜、無(wú)序和多尺度的非歐幾里得空間結(jié)構(gòu),其行為往往是動(dòng)態(tài)的和不可預(yù)測(cè)的。目前的自注意模塊大多依賴(lài)于查詢(xún)鍵值特征之間的點(diǎn)積乘法和維度對(duì)齊,無(wú)法充分捕捉點(diǎn)云對(duì)象的多尺度非歐幾里德結(jié)構(gòu)。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程!》。
為了解決這些問(wèn)題,本文提出了一種自注意插件模塊及其變體——多尺度幾何感知Transformer (Multi-scale geometric -aware Transformer, MGT)。MGT從以下三個(gè)方面處理具有多尺度局部和全局幾何信息的點(diǎn)云數(shù)據(jù)。
首先,MGT將點(diǎn)云數(shù)據(jù)分成多個(gè)尺度的小塊。
其次,提出了一種基于球面映射的局部特征提取器,對(duì)每個(gè)斑塊內(nèi)部的幾何形狀進(jìn)行挖掘,并生成每個(gè)斑塊的定長(zhǎng)表示;
第三,將固定長(zhǎng)度表示輸入到一種新的基于測(cè)地線(xiàn)的自注意中,以捕獲斑塊之間的全局非歐幾里得幾何。
最后,通過(guò)端到端的訓(xùn)練方案,將所有模塊集成到MGT框架中。
實(shí)驗(yàn)結(jié)果表明,MGT極大地提高了利用自注意機(jī)制捕獲多尺度幾何的能力,并在主流點(diǎn)云基準(zhǔn)測(cè)試中取得了較強(qiáng)的競(jìng)爭(zhēng)力。
點(diǎn)云數(shù)據(jù)是自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)和機(jī)器人等領(lǐng)域廣泛使用的 3D 數(shù)據(jù)形式。然而,與傳統(tǒng)圖像不同,點(diǎn)云數(shù)據(jù)具有復(fù)雜的全局和局部結(jié)構(gòu),本質(zhì)上是非歐幾里德結(jié)構(gòu),這使得在實(shí)際應(yīng)用中提取特征具有挑戰(zhàn)性。為了應(yīng)對(duì)這一挑戰(zhàn),研究人員提出了各種基于深度學(xué)習(xí)的 3D 點(diǎn)云分類(lèi)方法,可分為基于體素的方法、多視圖方法和點(diǎn)集方法。
基于體素的方法通常會(huì)破壞測(cè)量空間中的重要空間關(guān)系。
多視圖方法將3D云數(shù)據(jù)投影到2D圖像中,導(dǎo)致模型無(wú)法完全捕獲幾何信息和空間關(guān)系。
PointNet是點(diǎn)集方法的先驅(qū),它對(duì)每個(gè)點(diǎn)使用空間編碼,例如多層感知器(MLP)和具有共享權(quán)重的池化層,來(lái)收集點(diǎn)集特征。
盡管在之前的工作中嘗試增強(qiáng)這些技術(shù),但它們捕獲局部特征變化的能力仍然有限。因此,所有這些算法都無(wú)法完全提取點(diǎn)云的復(fù)雜幾何結(jié)構(gòu)進(jìn)行分類(lèi)。
傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)不足以處理點(diǎn)云對(duì)象復(fù)雜的非歐幾里得結(jié)構(gòu)。目前,需要一種功能強(qiáng)大的特征提取器Transformer來(lái)增強(qiáng)點(diǎn)云的幾何形狀,提高局部特征提取能力,同時(shí)利用Transformer強(qiáng)大的全局特征獲取能力。
為此,本文提出了一種新的Transformer,稱(chēng)為多尺度幾何感知變壓器(Multi-Scale geometric -aware Transformer, MGT),用于提取點(diǎn)云中的復(fù)雜幾何結(jié)構(gòu)進(jìn)行分類(lèi)。MGT將點(diǎn)云數(shù)據(jù)劃分為多個(gè)不同數(shù)量和大小的patch,從而獲得多個(gè)尺度的點(diǎn)云特征。圖1顯示了傳統(tǒng)單尺度點(diǎn)云Transformer與MGT的對(duì)比。
此外,該自注意方法在自注意模塊中使用測(cè)地線(xiàn)距離代替點(diǎn)積乘法,更合理地處理點(diǎn)云數(shù)據(jù)。圖4提供了點(diǎn)積注意和測(cè)地線(xiàn)注意之間的簡(jiǎn)單比較。
此外,本文提出了一種基于球面映射算法的共享局部特征提取器(SLFE)模塊,采用更適合點(diǎn)云數(shù)據(jù)的特征提取算法提取點(diǎn)云特征。
? 多尺度貼片分割Transformer。MGT將點(diǎn)云數(shù)據(jù)分成不同尺寸的多尺度小塊,即從小塊到大塊,并將其送入Transformer中,探索點(diǎn)云結(jié)構(gòu)的多尺度。
? 幾何感知的補(bǔ)丁內(nèi)表示。本文提出了一個(gè)SLFE模塊,該模塊增強(qiáng)了補(bǔ)丁內(nèi)的局部特征,并為每個(gè)補(bǔ)丁輸出固定長(zhǎng)度的向量。在SLFE模塊中,提出了一種新的算子,稱(chēng)為球體映射,用于捕獲斑塊鄰居的局部幾何結(jié)構(gòu),即斑塊中點(diǎn)之間的夾角。
? 幾何感知的補(bǔ)丁間表示。采用了一種新的基于計(jì)算測(cè)地線(xiàn)距離的自注意機(jī)制來(lái)更好地捕捉斑塊之間的全局特征。
通過(guò)劃分的多尺度補(bǔ)丁,圖 2 描述了 MGT 模型的流程,該模型組裝了兩個(gè)基本模塊。
首先,用于每個(gè)補(bǔ)丁的幾何感知特征提取的補(bǔ)丁內(nèi)表示模塊。
其次,用于學(xué)習(xí)多尺度補(bǔ)丁的基于流形的自注意力的補(bǔ)丁間表示模塊。
前者提取局部幾何特征并為每個(gè)斑塊生成固定長(zhǎng)度的不變表示向量,后者探索多尺度斑塊之間的非歐幾里得關(guān)系。前者是通過(guò)與球體映射模塊關(guān)聯(lián)的開(kāi)發(fā)的本地共享特征提取器來(lái)實(shí)現(xiàn)的,而基于流形的自注意力模塊則實(shí)現(xiàn)了后者。
在MGT模型的第一層中,執(zhí)行多尺度補(bǔ)丁劃分。如圖2所示。
對(duì)于應(yīng)用多尺度patch劃分,確定每個(gè)patch的中心至關(guān)重要。使用最遠(yuǎn)點(diǎn)采樣(FPS),選擇 個(gè)點(diǎn)作為中心點(diǎn),,其中η表示patch的多個(gè)尺度。給定一個(gè)中心點(diǎn),使用K?近鄰算法(KNN)選擇最近的個(gè)點(diǎn),形成大小為的點(diǎn)云補(bǔ)丁。因此, 表示具有從小到大的多個(gè)尺度/大小的所有斑塊的集合。
補(bǔ)丁大小 根據(jù)基于所使用的數(shù)據(jù)集的不同實(shí)現(xiàn)設(shè)置而變化。例如,在數(shù)值實(shí)驗(yàn)中,我們?yōu)槊總€(gè)補(bǔ)丁設(shè)置4種尺度/大小,例如,補(bǔ)丁大小 , 同種尺度 , 對(duì)應(yīng)的補(bǔ)丁數(shù)量 。
最后,對(duì)于第 η 尺度的點(diǎn)云patch,patch中心和patch可以表示為:
在處理不同尺度的補(bǔ)丁時(shí),一項(xiàng)關(guān)鍵任務(wù)是設(shè)計(jì)一個(gè)特征提取器,為每個(gè)補(bǔ)丁生成固定長(zhǎng)度的表示。為了解決這個(gè)問(wèn)題,作者開(kāi)發(fā)了一個(gè)統(tǒng)一的共享局部特征提取器(SLFE)來(lái)提取所有尺度的補(bǔ)丁的固定長(zhǎng)度的幾何感知特征。
如圖3所示,可以從兩個(gè)方面得出結(jié)論:
(1)提出了一種新穎的局部幾何提取器——球體映射,來(lái)提取補(bǔ)丁的幾何感知結(jié)構(gòu)。
(2)提出了一種稱(chēng)為SLFE的pipeline。
直觀上,如圖3所示,中期的S個(gè)補(bǔ)丁的特征聚合,即補(bǔ)丁中每個(gè)點(diǎn)的K個(gè)鄰居的MaxPooling,使得補(bǔ)丁的特征更加突出,并且其語(yǔ)義信息更容易被識(shí)別。
由于點(diǎn)云具有很強(qiáng)的非歐幾何特性,因此在歐幾里德空間中正確捕獲其幾何特征具有挑戰(zhàn)性。在 SLFE 模塊中,作者提出了一種新穎的球體映射,如圖 3 所示,將點(diǎn)云特征映射到球體空間,以便更好的幾何分析。
然后使用以下公式將鄰居點(diǎn)轉(zhuǎn)換為球體:
通過(guò)球體映射模塊,將補(bǔ)丁的鄰居的局部幾何結(jié)構(gòu)映射到球體。因此,可以以更有效的方式提取點(diǎn)之間的幾何關(guān)系(角度)。因此,有效地提取了斑塊的幾何特征。
在自注意力計(jì)算之前,連接類(lèi)標(biāo)簽并對(duì)嵌入特征進(jìn)行位置編碼,以實(shí)現(xiàn)更好的收斂。與BERT和ViT中類(lèi)似,隨機(jī)初始化一個(gè)可學(xué)習(xí)的類(lèi)標(biāo)記,然后將其與點(diǎn)云嵌入Ep拼接以獲得總序列:
在原始的Transformer中,應(yīng)用了位置編碼模塊來(lái)表示自然語(yǔ)言中的順序,可以反映單詞之間的位置關(guān)系。在本文中,為了反映點(diǎn)云塊之間的位置關(guān)系,作者還在嵌入的點(diǎn)云中添加位置編碼以保留位置信息。
考慮到點(diǎn)云數(shù)據(jù)本身具有位置信息,使用每個(gè)點(diǎn)云面片的中心點(diǎn)坐標(biāo)來(lái)表示每個(gè)點(diǎn)云面片的位置信息。具體來(lái)說(shuō),將類(lèi)標(biāo)簽隨機(jī)初始化,然后與每個(gè)點(diǎn)云補(bǔ)丁的中心點(diǎn)坐標(biāo)進(jìn)行拼接,然后使用學(xué)習(xí)到的MLP層將中心點(diǎn)坐標(biāo)映射到嵌入維度,然后得到位置編碼:
為了提取非歐幾里得補(bǔ)丁間關(guān)系,實(shí)現(xiàn)基于流形的自注意力來(lái)修改自注意力模塊。假設(shè),對(duì)于點(diǎn)云這種典型的非歐數(shù)據(jù),應(yīng)該利用其特征點(diǎn)之間的測(cè)地距離而不是歐幾里德空間中的內(nèi)積來(lái)捕獲其相對(duì)關(guān)系。對(duì)于輸入序列z,將歐幾里得空間中的原始特征投影到斜流形上,即用OM表示的單位長(zhǎng)度球體,并計(jì)算嵌入在斜流形上的補(bǔ)丁特征的測(cè)地自注意力。投影函數(shù)Proj(·)可描述為:
投影后,輸入點(diǎn)對(duì)的測(cè)地距離可以計(jì)算為:
因此,MGT模塊的輸出可以計(jì)算為:
然后,將第獲得的位置編碼的序列 z0 輸入到前面提到的 L 層(LN 表示 LayerNorm)的 Transformer Encoder 中。具體流程如下:
作者在幾個(gè)基準(zhǔn)上評(píng)估了提出的 MGT 框架的多類(lèi)分類(lèi)性能。在消融研究中,對(duì) MGT 框架的有效性進(jìn)行定性和定量評(píng)估。
作者使用標(biāo)簽平滑交叉熵?fù)p失函數(shù)。batch-size和epoch數(shù)分別設(shè)置為 32 和 250。使用SGD優(yōu)化器和CosineAnnealingLR來(lái)調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率為0:02。機(jī)器配置如表1所示。此外,總體準(zhǔn)確率(OA)和類(lèi)平均準(zhǔn)確率(mAcc)被用作分類(lèi)的性能評(píng)估標(biāo)準(zhǔn)。除非實(shí)驗(yàn)研究中明確說(shuō)明,否則輸入1024(1K)個(gè)點(diǎn),并且不采用法向量作為原始點(diǎn)特征。
為了驗(yàn)證所提出方法的有效性,將其與一些主流方法進(jìn)行比較。Modelnet40和ScanobjectNN數(shù)據(jù)集上的結(jié)果分別如表2和表3所示(xyz為坐標(biāo),n為法向量)。表2和表3的實(shí)驗(yàn)結(jié)果表明,與一些主流方法相比,所提出的方法表現(xiàn)出了非常有競(jìng)爭(zhēng)力的結(jié)果。在Modelnet40數(shù)據(jù)集上,算法在OA和mAcc指標(biāo)上分別達(dá)到了93.19%和90.45%。兩個(gè)基準(zhǔn)數(shù)據(jù)集上的強(qiáng)有力的競(jìng)爭(zhēng)結(jié)果表明了所提出的方法與上述基線(xiàn)相比的有效性.
使用原始PointNet和SLFE對(duì)比實(shí)驗(yàn)結(jié)果。表4的實(shí)驗(yàn)結(jié)果表明,單個(gè)SLFE只有0.31M參數(shù),但在OA和mAcc上使用SLFE的結(jié)果分別比使用PointNet的結(jié)果高2.51%和2.71%。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程!》。
這表明所開(kāi)發(fā)的 SLFE 作為局部特征提取器是有效的。消融實(shí)驗(yàn),在 Modelnet40 數(shù)據(jù)集上的測(cè)試結(jié)果,表 5 討論了模塊中 SLFE 的必要性。根據(jù)表中消融實(shí)驗(yàn)結(jié)果分析,A在不添加Sphere Mapping模塊和最大池化模塊的情況下,結(jié)果最差。直觀上來(lái)說(shuō),中期是對(duì)每個(gè)點(diǎn)云進(jìn)行特征聚合。
此外,詳細(xì)討論了基于測(cè)地距離的自注意力機(jī)制對(duì)實(shí)驗(yàn)結(jié)果的影響。在表6中,比較了使用點(diǎn)積的傳統(tǒng)自注意力機(jī)制和基于測(cè)地距離的自注意力機(jī)制的實(shí)驗(yàn)結(jié)果。表中的實(shí)驗(yàn)結(jié)果表明,使用基于測(cè)地距離的自注意力機(jī)制改善了 Modelnet40 和 ScanobjectNN 數(shù)據(jù)集上的結(jié)果。
此外,還探討了尺度數(shù)量對(duì)分類(lèi)精度的影響。表7展示了多尺度劃分中點(diǎn)云數(shù)據(jù)劃分為不同尺度對(duì)實(shí)驗(yàn)結(jié)果的不同影響。實(shí)驗(yàn)中使用的是ScanobjectNN數(shù)據(jù)集。
本文選擇PointNet和Pointnet++作為對(duì)比來(lái)測(cè)試點(diǎn)云丟失(缺失點(diǎn)的數(shù)據(jù))的魯棒性。如圖5所示,當(dāng)使用最遠(yuǎn)點(diǎn)采樣使測(cè)試集的點(diǎn)云數(shù)據(jù)損失50%(即保留512個(gè)點(diǎn))時(shí),準(zhǔn)確率僅下降0.6%,低于1 Pointnet++和Pointnet的下降分別為:8%和2.4%。
當(dāng)丟失點(diǎn)的比例為87.5%(即保留128個(gè)點(diǎn))時(shí),本文算法仍然可以達(dá)到89.5%的優(yōu)異精度,而Pointnet++為83.6%,而PointNet只能準(zhǔn)確率達(dá)到60%,但準(zhǔn)確率明顯下降。這表明該方法對(duì)缺失點(diǎn)的點(diǎn)云數(shù)據(jù)具有較強(qiáng)的魯棒性。實(shí)驗(yàn)表明,當(dāng)識(shí)別模型能夠利用點(diǎn)云的局部信息時(shí),對(duì)于點(diǎn)云數(shù)據(jù)的丟失(缺失點(diǎn))具有更強(qiáng)的魯棒性。
為了探索隱藏在點(diǎn)云中的復(fù)雜幾何結(jié)構(gòu),本文提出了一種新穎的 Transformer 框架 MGT,用于點(diǎn)云對(duì)象的分類(lèi)。
首先,將數(shù)據(jù)劃分為不同尺寸的多尺度斑塊,即從小尺寸到大尺寸的斑塊,以探索點(diǎn)云結(jié)構(gòu)的多個(gè)尺度。然后,構(gòu)建了一個(gè)幾何感知Transformer模型,該模型利用兩級(jí)幾何結(jié)構(gòu),即每個(gè)塊內(nèi)的歐幾里得幾何結(jié)構(gòu)和點(diǎn)云塊間的非歐幾里得幾何結(jié)構(gòu)。前者是通過(guò)與新穎的球體映射模塊關(guān)聯(lián)的本地共享特征提取器來(lái)實(shí)現(xiàn)的,而后者是使用基于流形的自注意力模塊來(lái)實(shí)現(xiàn)的。
與主流方法相比,該方法在點(diǎn)云識(shí)別上的準(zhǔn)確率表現(xiàn)出較強(qiáng)的競(jìng)爭(zhēng)力,并且面對(duì)數(shù)據(jù)點(diǎn)丟失具有良好的魯棒性。