基于深度學習的多視圖幾何:從監(jiān)督學習到無監(jiān)督學習

本文整理自戴玉超教授在第二屆SLAM技術(shù)論壇中的報告:《基于深度學習的多視圖幾何:從監(jiān)督學習到無監(jiān)督學習》,共5700余字。

本報告涵蓋本領(lǐng)域特別是報告人的一系列最新工作,包括如何在監(jiān)督學習框架下實現(xiàn)單目深度估計、雙目深度估計,如何構(gòu)建無監(jiān)督學習框架以實現(xiàn)連續(xù)視頻幀雙目深度估計、具有幾何約束的單目光流估計、多目深度估計和雙目-激光雷達數(shù)據(jù)的有效融合等。最后對于本領(lǐng)域的進一步發(fā)展進行討論。
報告首先簡單介紹了SLAM的相關(guān)技術(shù)背景;其次從傳統(tǒng)的多視角幾何角度介紹了團隊在剛性場景、非剛性物體和復(fù)雜非剛性場景上所做的工作;繼而從監(jiān)督學習和無監(jiān)督/自監(jiān)督學習兩個方面介紹了團隊在基于深度學習的多視角幾何方面開展的工作。
在這兩個方向上,團隊面臨的核心問題就是深度估計問題。針對這個問題,團隊圍繞不同的傳感器設(shè)置下開展了不同的研究工作。
包括如何通過一張圖像去估計場景深度?如何基于兩張圖像進行自監(jiān)督雙目深度估計?在單目和雙目深度估計的基礎(chǔ),如何擴展到多目設(shè)置?
在這個基礎(chǔ)上團隊又進一步探討了面向無人機、無人車上多傳感器的融合問題,比如雙目和激光雷達的融合;除了研究傳感器在空間上的融合問題之外,報告最后也探討了基于時間維度層面的擴展,比如團隊在基于視頻連續(xù)幀的光流估計上的一些工作。
01?無人系統(tǒng)視覺感知

團隊研究的主要背景就是無人系統(tǒng)視覺感知。眾所周知,在我們?nèi)粘I钪校o人機、無人車、室內(nèi)機器人等智能化產(chǎn)品越來越多,它們跟人類發(fā)生交互,例如虛擬現(xiàn)實/增強現(xiàn)實,人機交互等應(yīng)用,都要求無人系統(tǒng)平臺自身具有很好的視覺感知能力。從SLAM角度來講,也就是需要準確的定位與建圖。

在以上背景下團隊開展了一系列的工作,團隊研究的工具和方法主要有兩個:一是從多視角幾何理論出發(fā),利用數(shù)學理論模型來研究其中的一些關(guān)鍵問題;二是結(jié)合機器學習特別是深度學習,這也是團隊應(yīng)用到的主要工具。視覺感知的需求已經(jīng)深入到生活中的很多方面。在這個背景之下,團隊的研究目的是如何基于二維圖像,來估計所觀測場景的三維結(jié)構(gòu)以及相機姿態(tài)。以無人駕駛為例,對于理解三維場景或動態(tài)場景,有以下幾個因素需要考慮:?
1) 所觀測場景在每個時刻的三維狀態(tài);
2) 整個場景的語義信息,場景中各個物體的語義含義;
3) 在動態(tài)感知層面,除了物體每時每刻的三維結(jié)構(gòu)(包括語義結(jié)構(gòu))之外,物體的運動信息也至關(guān)重要。因為只有準確地對物體運動進行建模之后,我們才能進行下一步的運動預(yù)測。
因此我們需要從三維結(jié)構(gòu)、物體運動、語義這三個層面實現(xiàn)對整個場景的透徹感知,對所有信息進行全面理解。
02?基于傳統(tǒng)優(yōu)化的多視角幾何

1、剛性場景的多視角三維重建
剛性場景是指場景無論從什么角度去看,都能夠保持一定的不變性。針對剛性場景的多視角三維重建,團隊主要在以下兩個方面開展工作:
(1)剛性三維重建問題的最優(yōu)性和求解效率;
(2)如何統(tǒng)一處理不同大視角相機;結(jié)合已經(jīng)進行的一些工作,針對這兩個問題,給出相應(yīng)的解決方法。
對于第一個問題,團隊的一些早期工作主要是利用凸優(yōu)化方法,解決方法的創(chuàng)新性在于可以在全局優(yōu)化框架下同時求解場景三維結(jié)構(gòu)、相機運動和深度,在此基礎(chǔ)上進一步提出可以進行大規(guī)模優(yōu)化的交替方法以應(yīng)對現(xiàn)實應(yīng)用中的規(guī)模性問題。
對于第二個問題,團隊將具有全局優(yōu)化意義的重建方法拓展到不同的相機類型,在徑向?qū)ΨQ相機模型下進行統(tǒng)一表達,此方法可以適用于全景、魚眼、透射折射等多種不同的相機模型。

2、非剛性場景的多視角三維重建
剛性場景可以通過多視圖幾何進行求解(特征點提取及匹配問題解決之后,整個問題就比較容易解決)。但是對于我們所關(guān)注的問題,比如我們所處的三維動態(tài)世界,它往往是一個非剛性場景(Non-Rigid或Deformable,即動態(tài)變化的場景)。
這里的主要問題來源于非剛性重建問題本質(zhì)的欠定性和多解性,即如何獲得最佳的重建和如何不受各種不同先驗的有偏影響。針對這個問題,團隊提出的方法利用問題本質(zhì)的約束,無需任何先驗信息的非剛性重建,主要包含以下兩個創(chuàng)新點:
1)無需先驗的非剛性三維重建;
2)矩陣秩最優(yōu)化模型。
該方法可以以單目相機從人臉或人體動作上獲取相對稀疏的關(guān)鍵點,進一步提升到三維空間。

但是由于該方法只能用于小規(guī)模的數(shù)據(jù),團隊在之后將該工作進一步拓展到稠密重建上。團隊從時間和空間兩個維度同時觀察和描述我們所觀察的非剛性的場景或者物體。
從時間上來講,人們所做的一些動作或者表情,都會有一些重復(fù)性。如果把一些高度相似的東西放在一起,就可以用一些簡單的模型來表達。這樣的話,即使整個序列上的模型是復(fù)雜的,但是重組之后就可以通過多個簡單模型進行表達。
同樣空間上也是這樣,人們的很多動作或者表達在相鄰像素上是高度相關(guān)的,因此可以在空間進行表達。這樣可以從時間和空間兩個維度上施加Grassman 流形約束,最終把時間和空間兩個維度加一起。與其它方法相比,團隊提出的方法在標準測試數(shù)據(jù)集上取得了最好的結(jié)果。



3、動態(tài)場景重建:從單個物體到整個場景
以上我們討論的是圍繞單個非剛性物體的三維重建。實際中三維場景更加復(fù)雜,可能包含剛性的背景、剛性運動物體以及非剛性物體等。它的結(jié)構(gòu)又是特別復(fù)雜的,主要難點集中在以下三個方面:
(1)無處不在的單目相機系統(tǒng)對于單目場景重建提出迫切需求;
(2)現(xiàn)實世界場景更加復(fù)雜并且不僅包含剛性物體,也包含非剛性物體;
(3)需要統(tǒng)一的單目三維重建框架以有效應(yīng)對多種不同的復(fù)雜動態(tài)場景。
在實際工作中,為了廣泛統(tǒng)一地描述這種場景,團隊提出在以下假設(shè)的基礎(chǔ)上統(tǒng)一表達不同動態(tài)場景:
(1)兩幀之間的變形滿足局部逐塊剛性,在全局上盡量剛性(As-Rigid-As-Possible)。
(2)待重建的三維場景是逐塊平滑的。
給定以上假設(shè),團隊提出通過求解未知的相對尺度以獲得復(fù)雜動態(tài)場景全局兼容的稠密三維重建方法。

從不具有尺度的超像素三維結(jié)構(gòu)到三維曲面的重建的過程表達為求解三維超像素拼圖問題。

03?基于深度學習的多視角幾何

現(xiàn)在我們討論SLAM中一個核心問題,即深度估計。深度估計大家很容易理解,即需要從一張圖片或者多張圖片中估計出每個像素對應(yīng)的深度,從機器學習的角度來講這是一個稠密標注問題。例如這里輸入一張圖片,我們搭建一個網(wǎng)絡(luò)。
現(xiàn)在的方法就可以分為兩類:一種是有監(jiān)督的學習方法,我們有真值監(jiān)督這個過程;第二種則是無監(jiān)督或自監(jiān)督的學習方法,這種設(shè)置下沒有深度真值作為監(jiān)督,但是可能有額外的數(shù)據(jù)。

1、單目深度估計
單目深度估計更直接一點。一些比較早期的方法是做監(jiān)督方法上的結(jié)果,當時的特點并不是直接設(shè)計端到端的網(wǎng)絡(luò),而是把圖像分成小塊,然后在每個塊上面進行回歸。這種方法的好處是所依賴的數(shù)據(jù)集比較少,因為只需要用到圖像塊和對應(yīng)深度值之間的回歸關(guān)系。這種方法在當時取得了很不錯的深度估計結(jié)果,最近我們在這一問題上進一步擴充,通過全卷積網(wǎng)絡(luò)把它變成一個分類任務(wù),從而進一步提升深度預(yù)測性能。
除此之外還能做進一步的工作,比如引用殘差網(wǎng)絡(luò)包括卷積,將結(jié)果進一步提升。下圖為使用監(jiān)督學習方法在NYU在室內(nèi)數(shù)據(jù)集上的測試結(jié)果,其中輸入為單張圖像,監(jiān)督信號為深度圖,測試時通過給出的RGB圖像預(yù)測出深度圖。


除了有監(jiān)督的學習方法以外,有一些工作關(guān)注無監(jiān)督或自監(jiān)督的學習方法。無監(jiān)督或自監(jiān)督的學習方法并非不包含任何監(jiān)督信息,監(jiān)督信息其實是包含在數(shù)據(jù)里的。以深度估計為例,我們可以利用更多信息來做自監(jiān)督學習,比如雙目圖像信息或者連續(xù)視頻幀信息。例如我們需要估計一張單目圖像對應(yīng)的深度,但是如果給的是雙目圖像,當單目估計好的時候,我們可以直接把左右圖像進行相互映射。此時不需要另一幅圖像的深度,它可以形成自監(jiān)督,這是同時實現(xiàn)的。當然我們也可以做利用前后幀之間的關(guān)系進行時間上的自監(jiān)督學習。當前這張圖片深度估計的好,相機估計的好,則可以預(yù)測下一幀,再根據(jù)預(yù)測出的下一幀圖像去估計再往后的圖像,這樣就構(gòu)成了一個循環(huán)。這就是自監(jiān)督可以做的事情。
這其中也存在一些其他的挑戰(zhàn),比如現(xiàn)實的場景里除了靜態(tài)背景,還包含著動態(tài)物體,還存在一些嚴重的遮擋關(guān)系。最近的一些方法通過引入額外的數(shù)據(jù)集來進行處理:比如為了解決動態(tài)場景中人體深度估計問題,IEEE CVPR 2019的一篇論文通過構(gòu)造一個人在做動作,但是多個相機在同時拍攝,這樣就能夠同時獲取human in the motion的數(shù)據(jù)。另外的一些工作認為,對于單目深度估計,比如像KITTI這種數(shù)據(jù)仍然不夠豐富,他們通過從立體電影中的真實數(shù)據(jù)集獲取數(shù)據(jù),來找到數(shù)據(jù)量更大的更廣泛的數(shù)據(jù)集。
2、雙目深度估計
雙目深度估計是一個在視覺領(lǐng)域研究非常深入的問題,它是獲取深度最直接的方式。有了深度學習之后,基于監(jiān)督的深度學習方法已經(jīng)取得了很好的效果并且占據(jù)了各種排行榜的前列。然而基于監(jiān)督學習的雙目深度估計仍存在幾個問題:
(1)監(jiān)督學習方法依賴大規(guī)模標注數(shù)據(jù);
(2)模型推廣性問題仍需要解決;
(3)其是否真正學會“立體匹配”。

針對這些問題,團隊提出了自監(jiān)督深度雙目立體匹配網(wǎng)絡(luò)結(jié)構(gòu)。此網(wǎng)絡(luò)包含四個模塊:特征提取、特征代價計算、三維特征匹配和圖像誤差計算。它具有如下三方面的優(yōu)點:
(1)可以隨時間動態(tài)演化;
(2)網(wǎng)絡(luò)具有記憶單元,從而具有基于以往經(jīng)歷調(diào)整當前行為的能力;
(3)運行在線后向傳播進行模型更新。

3、多目深度估計
團隊最近在做的一個工作是進一步把雙目深度估計拓展到多目深度估計。我們致力于獲取一個非常稠密的深度圖,在這方面團隊基于自監(jiān)督的學習方法,利用場景的對稱性把雙目的結(jié)果進一步拓展到多目。提出了第一個無監(jiān)督多目深度估計的學習框架。
其網(wǎng)絡(luò)由五個模塊構(gòu)成,分別是特征提取、可微單應(yīng)運算、代價立方體構(gòu)建、空間傳播網(wǎng)絡(luò)和跨視角一致性損失。為增強多幅深度預(yù)測間的一致性,其構(gòu)建了去中心化的網(wǎng)絡(luò),對于每一幀輸入的多目圖像,均使用網(wǎng)絡(luò)進行預(yù)測。利用深度值與相機位姿,可計算出每對圖像間的像素對應(yīng)關(guān)系。利用這些對應(yīng)關(guān)系,在圖像空間與深度空間均進行對比,設(shè)計跨視角一致?lián)p失。促進同一場景下,多個視角觀測保持一致。

4、雙目-LIDAR融合
激光雷達獲取的深度圖是非常準確的,但是比較稀疏。雙目相機可以獲得稠密的深度圖,但是不確定性比較高,在弱紋理、重復(fù)結(jié)構(gòu)和遮擋區(qū)域難以獲得可靠的深度估計。一個自然的想法就是如何對這兩種方法進行融合。對于激光雷達來說,大多數(shù)方法都會把它獲取的數(shù)據(jù)當做一個比較好的結(jié)果。但是其面臨的一個問題是,激光雷達對于動態(tài)物體的深度計算是不可靠的。除此之外,對于物體的邊緣以及強反射的場景,激光雷達都會存在一些問題。

盡管激光雷達不是完美的,但是我們可以選出其中精度高的部分點,來監(jiān)督雙目立體網(wǎng)絡(luò)如何進行匹配。在這部分所面對的問題是如何選取特征點,然后更新融合模型。
團隊提出兩階段的方法,第一階段是做驗證,通過比較確定哪些激光雷達點可靠,用它做融合網(wǎng)絡(luò),便于后續(xù)更新。這樣把驗證和更新兩個階段交替進行,從而進行有效融合的框架。這是一個無監(jiān)督的網(wǎng)絡(luò),主要是通過兩種數(shù)據(jù)的相互融合來實現(xiàn)的。團隊也用了一些場景假設(shè),實驗證明我們的方法甚至比監(jiān)督的方法結(jié)果好一些,同時每個像素都是有深度的。


5、光流估計
上面所講的是從一個時刻通過不同傳感器去做,再進一步可以拓展加入時序信息,這就是光流。光流的歷史非常悠久,它在物體跟蹤方面都有很重要的應(yīng)用。團隊現(xiàn)在研究一個重點是如何去處理其中的一些挑戰(zhàn)性的問題,主要是通過在加入幾何約束后,尤其是在某一個完全約定的場景,建立前后的約束,比如軟約束或者硬約束來做。我們傾向于讓它去滿足模型。
比如說一個幾何約束只能解決一個rigid場景。當場景里包含多個運動物體的時候,可以引入low rank或子空間約束。再進一步假設(shè)場景里面有多個運動物體,每個運動物體可以通過自己的軌跡進行自表達,這樣可以把每一個物體的運動分割出來,再嵌入進去,從而引入一項單獨的約束。

上圖是來自KITTI的數(shù)據(jù),里面有兩個獨立的車還有一些其它背景。經(jīng)過處理我們不僅可以估計出光流,而且可以得到自表達的矩陣,也可以比較清晰的顯示出運動分割的情形。


實驗結(jié)果對比
上文講述了三大類方法,基于傳統(tǒng)優(yōu)化的多視角幾何方法、基于監(jiān)督學習的方法做多視角幾何和基于無監(jiān)督深度學習的方法。這三種方法誰也不能完全替代誰,每一種方法都有自己的優(yōu)勢和劣勢。所以針對具體問題需要去選擇最適合它的方法,這是一個簡單總結(jié)。
課題組近來圍繞無人系統(tǒng)視覺感知中以下三個方面持續(xù)開展工作:
1)幾何模型驅(qū)動方法與數(shù)據(jù)驅(qū)動方法的深度融合;
2)多源多傳感器融合的幾何視覺;
3)面向終端應(yīng)用的幾何視覺(機器人、無人機、SLAM、集群)。
相關(guān)文章
[1] Liu Liu, Hongdong Li, Yuchao Dai. Stochastic Attraction and Repulsion Embedding for Image Based Localization. ICCV, 2019.
[2] Xuelian Cheng, Yiran Zhong, Yuchao Dai, Hongdong Li. Noise-Aware Unsupervised Deep Lidar-Stereo Fusion. CVPR, 2019.
[3] Yiran Zhong, Pan Ji, Jianyuan Wang, Yuchao Dai, Hongdong Li. Unsupervised Deep Epipolar Flow for Stationary or Dynamic Scenes. CVPR, 2019.
[4] Yiran Zhong, Yuchao Dai, Hongdong Li. Stereo Computation for a Single Mixture Image. ECCV 2018.
[5] Yiran Zhong, Hongdong Li, Yuchao Dai. Open-World Stereo Video Matching with Deep RNN. ECCV 2018.
[6] Bo Li, Yuchao Dai, Mingyi He. Monocular Depth Estimation with Hierarchical Fusion of Dilated CNNs and Soft-Weighted-Sum Inference. Pattern Recognition, 2018.
[7] Suryansh Kumar, Anoop Cherin, Yuchao Dai, Hongdong Li. Scalable Dense Non-rigid Structure-from-Motion: A Grassmannian Perspective, CVPR 2018.
[8] Suryansh Kumar, Yuchao Dai and Hongdong Li. Monocular Dense 3D Reconstruction of a Complex Dynamic Scene from Two Perspective Frames. ICCV 2017.
[9] Pan Ji, Hongdong Li, Yuchao Dai and Ian Reid. ``Maximizing Rigidity" Revisited: a Convex Programming Approach for Generic 3D Shape Reconstruction from Multiple Perspective Views. ICCV 2017.
[10] Liu Liu, Hongdong Li and Yuchao Dai. Efficient Global 2D-3D Matching for Camera Localization in a Large-Scale 3D Map. ICCV 2017.
[11] Bo Li, Chunhua Shen, Yuchao Dai, Anton van den Hengel, Mingyi He; Depth and Surface Normal Estimation from Monocular Images Using Regression on Deep Features and Hierarchical CRFs. CVPR 2015.
[12] Jae-Hak Kim*, Yuchao Dai*, Hongdong Li, Xin Du, Jonghyuk Kim: Multi-view 3D Reconstruction from Uncalibrated Radially-Symmetric Cameras. ICCV 2013.
[13] Yuchao Dai, Hongdong Li, Mingyi He. A simple prior-free method for non-rigid structure-from-motion factorization. CVPR 2012.

深藍學院(https://www.shenlanxueyuan.com)是專注于人工智能的在線教育平臺,致力于構(gòu)建前沿科技課程培養(yǎng)體系的業(yè)界標準,涵蓋人工智能基礎(chǔ)、計算機視覺、智能機器人、智能語音等領(lǐng)域。