五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

權(quán)威發(fā)布|計(jì)算機(jī)視覺(jué)重要研究進(jìn)展(一)

2020-10-24 18:00 作者:深藍(lán)學(xué)院  | 我要投稿

傳送門:計(jì)算機(jī)視覺(jué)重要研究進(jìn)展(二)


引言

計(jì)算機(jī)視覺(jué)是研究用計(jì)算機(jī)來(lái)模擬人或生物視覺(jué)系統(tǒng)功能的學(xué)科,其目的是基于圖像讓計(jì)算機(jī)能夠感知和理解周圍世界,具體地說(shuō),就是對(duì)圖像或視頻數(shù)據(jù)中的場(chǎng)景、目標(biāo)、行為等信息進(jìn)行識(shí)別、測(cè)量和理解等。計(jì)算機(jī)視覺(jué)是人工智能的重要研究領(lǐng)域之一。

計(jì)算機(jī)視覺(jué)的前提和基礎(chǔ)是成像技術(shù)。早在公元前魯國(guó)時(shí)代,墨子就已經(jīng)發(fā)現(xiàn)了小孔成像。之后直到19世紀(jì),尼埃普斯(Joseph Nicéphore Nièpce)和達(dá)蓋爾(Louis-Jacques-Mandé Daguerre)等發(fā)明了照相機(jī)。隨后同世紀(jì),惠斯登(Wheaston)發(fā)明了鏡面立體裝置(mirror stereoscope),證實(shí)了雙眼視差現(xiàn)象:兩個(gè)2D圖片可以引起3D立體感覺(jué)。20世紀(jì)40年代,吉布森(Gibson)提出了光流的概念,并提出從二維平面的光流場(chǎng)可以恢復(fù)3D空間運(yùn)動(dòng)參數(shù)和結(jié)構(gòu)參數(shù)的假說(shuō)。20世紀(jì)60年代起,Ulf Grenander從數(shù)學(xué)的角度,整合代數(shù)、集合論和概率論,提出Analysis-by-Synthesis的思想,為計(jì)算機(jī)視覺(jué)奠定了重要的開(kāi)創(chuàng)性的理論基礎(chǔ)。同時(shí)期在視覺(jué)模式識(shí)別研究中,傅京孫(King-Sun Fu)提出了句法結(jié)構(gòu)性的表達(dá)與計(jì)算,支撐了自底向上或自頂向下的視覺(jué)計(jì)算過(guò)程。20世紀(jì)70年代,馬爾(David Marr)力圖用計(jì)算機(jī)模擬人的視覺(jué)過(guò)程,使計(jì)算機(jī)實(shí)現(xiàn)人的立體視覺(jué)功能。馬爾的視覺(jué)計(jì)算理論立足于計(jì)算機(jī)科學(xué),并系統(tǒng)地概括了當(dāng)時(shí)心理學(xué)、神經(jīng)科學(xué)等方面的重要成就,其重要特征在于使視覺(jué)信息處理的研究變得更加嚴(yán)密,把視覺(jué)研究從描述的水平提高到有數(shù)學(xué)理論支撐且可以計(jì)算的層級(jí),從此標(biāo)志著計(jì)算機(jī)視覺(jué)成為了一門獨(dú)立的學(xué)科。自從馬爾視覺(jué)理論提出之后,計(jì)算機(jī)視覺(jué)得到了快速蓬勃的發(fā)展。雖然馬爾視覺(jué)理論框架存在有不足,時(shí)至今日馬爾視覺(jué)理論依然一直占據(jù)著計(jì)算機(jī)視覺(jué)的中心地位。依據(jù)馬爾計(jì)算視覺(jué)理論框架,計(jì)算機(jī)視覺(jué)分為底層的圖像特征提取與處理,中層的三維計(jì)算機(jī)視覺(jué),以及高層的物體識(shí)別與場(chǎng)景理解。由于馬爾視覺(jué)理論的系統(tǒng)性和主導(dǎo)性,過(guò)去幾十年來(lái)的重要研究進(jìn)展,多數(shù)集中在該理論框架之下。

2012年ImageNet大規(guī)模圖像分類挑戰(zhàn)賽中,采用的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的深度學(xué)習(xí)方法帶來(lái)了巨大的突破。其后基于深度學(xué)習(xí)的人臉識(shí)別等被廣泛應(yīng)用于各行各業(yè)。伴隨著計(jì)算資源、人工智能的迅猛發(fā)展和實(shí)際應(yīng)用的大量需求,馬爾視覺(jué)理論曾經(jīng)存在爭(zhēng)議的地方有了更明確的解析。例如,對(duì)馬爾視覺(jué)提出批評(píng)的“主動(dòng)視覺(jué)”(Active Vision)和“目的和定性視覺(jué)”(Purpose and Qualitative Vision)的學(xué)者認(rèn)為視覺(jué)過(guò)程必然存在人與環(huán)境的交互,認(rèn)為視覺(jué)要有目的性,且在很多應(yīng)用中不需要三維重建過(guò)程。但是,隨著深度學(xué)習(xí)與人工智能發(fā)展對(duì)計(jì)算機(jī)視覺(jué)發(fā)展的促進(jìn),當(dāng)今二維視覺(jué)的系列任務(wù)已經(jīng)不能滿足實(shí)際的應(yīng)用需求,各種深度相機(jī)不斷出現(xiàn),二維視覺(jué)任務(wù)正在往三維拓展,越來(lái)越多的三維點(diǎn)云分析與處理的工作正在大量涌現(xiàn),逐漸驗(yàn)證了馬爾視覺(jué)理論的正確性?,F(xiàn)階段專用人工智能得到了充足的發(fā)展,未來(lái)將逐漸邁向通用人工智能的研究階段。通用人工智能要求有“時(shí)間”、“空間”、“推理”的計(jì)算能力,馬爾視覺(jué)理論框架正具備了前二者的能力,再融入“推理”,馬爾視覺(jué)理論未來(lái)將會(huì)成為通用計(jì)算機(jī)視覺(jué)智能的基石。而對(duì)過(guò)去這個(gè)框架下的重要研究進(jìn)展的了解對(duì)未來(lái)研究的指導(dǎo)也將具有重要意義。

本報(bào)告在對(duì)過(guò)去計(jì)算機(jī)視覺(jué)領(lǐng)域的研究進(jìn)展進(jìn)行分析總結(jié)的基礎(chǔ)上,提煉出對(duì)學(xué)科發(fā)展和應(yīng)用技術(shù)產(chǎn)生了重要影響或推動(dòng)力的13項(xiàng)研究進(jìn)展進(jìn)行介紹。這些重要研究進(jìn)展體現(xiàn)在計(jì)算成像學(xué)、初期視覺(jué)、圖像增強(qiáng)與復(fù)原、圖像特征提取與匹配、多視幾何理論、攝像機(jī)標(biāo)定與定位、三維重建、目標(biāo)檢測(cè)與識(shí)別、圖像分割、圖像場(chǎng)景理解、圖像檢索、目標(biāo)跟蹤、行為與事件分析等方面。

1. 計(jì)算成像學(xué)

自由空間中傳播的光線攜帶著三維立體世界豐富的信息,是人類感知外部世界最重要的介質(zhì)和載體之一。光是一種高維信號(hào),不僅自身具有波長(zhǎng) 、傳播時(shí)間 等屬性,在自由空間傳播過(guò)程中還具有位置和方向?qū)傩?,包括三維坐標(biāo)( , , )和角度( , )。計(jì)算成像(Computational Imaging)學(xué)結(jié)合計(jì)算、光學(xué)系統(tǒng)和智能光照等技術(shù),將成像系統(tǒng)采集能力與計(jì)算機(jī)處理能力相結(jié)合,創(chuàng)新性地將視覺(jué)信息處理與計(jì)算前移至成像過(guò)程,提出新的成像機(jī)制,設(shè)計(jì)新的成像光路,開(kāi)發(fā)新的圖像重構(gòu)方法,能夠在視覺(jué)信息的維度、尺度與分辨率等方面實(shí)現(xiàn)質(zhì)的突破,使得對(duì)光信號(hào)進(jìn)行高維高分辨率的采樣成為可能。

1936年,Arun Gersun開(kāi)始研究光線在空間中的分布,首次提出了“光場(chǎng)”(Light Field)的概念,用于描述光在三維空間的輻射特性。1991 年 Adelson等人進(jìn)一步拓展和完善了光場(chǎng)的理論,提出了全光函數(shù)(Plenoptic Function),用一個(gè) 7D 函數(shù)表征光線的空間分布,即 ( , , , , , , )。1992 年 Adelson 等人在全光理論的基礎(chǔ)上研制了光場(chǎng)相機(jī)原型。忽略光線在傳播過(guò)程中的衰減(省略 、 ),Gortler 等人提出了流明圖(Lumigraph)的概念,進(jìn)一步忽略 ,將7D全光函數(shù)降維成 4D,即僅用( , )和( , )四個(gè)維度表示一條光線,包含了光線的空間和角度信息。1996年,Marc Levoy和Pat Hanrahan將光場(chǎng)引入計(jì)算機(jī)圖形學(xué),提出了光場(chǎng)渲染理論(Light Field Rendering),并對(duì)四維光場(chǎng)進(jìn)行了雙平面參數(shù)化。2005年5月,麻省理工學(xué)院、斯坦福大學(xué)、微軟研究院的研究人員在麻省理工學(xué)院召開(kāi)了首屆計(jì)算攝影學(xué)(Computational Photography)研討會(huì)。自2009年,IEEE計(jì)算攝影學(xué)國(guó)際學(xué)術(shù)會(huì)議(IEEE International Conference on Computational Photography)每年舉行。斯坦福大學(xué)博士吳義仁(Ren Ng)在畢業(yè)論文中詳細(xì)地描述了家用級(jí)光場(chǎng)相機(jī)的硬件、軟件問(wèn)題和其解決方案,2006年創(chuàng)立創(chuàng)立Lytro公司,并發(fā)布了Plenoptic 1.0手持式光場(chǎng)相機(jī),隨后又有Raytrix、Pelican等多家公司發(fā)布了光場(chǎng)相機(jī),提出了多種不同的光場(chǎng)成像結(jié)構(gòu)。光場(chǎng)理論發(fā)展的同時(shí),過(guò)去的數(shù)十年間國(guó)內(nèi)外各種各樣的光場(chǎng)成像設(shè)備被研制和開(kāi)發(fā)出來(lái),特別是多種類型的工業(yè)級(jí)和消費(fèi)級(jí)光場(chǎng)相機(jī)相繼問(wèn)世,比較有代表性的光場(chǎng)成像設(shè)備設(shè)計(jì)結(jié)構(gòu)包括:光場(chǎng)采集支架(Light Field Gantry)、相機(jī)陣列(Camera Array)、微透鏡型光場(chǎng)相機(jī)(Microlens-Based Light Field Camera)和可編碼孔徑相機(jī)(Programmable Aperture Camera)。近年來(lái),光場(chǎng)成像技術(shù)多被用于VR/AR等沉浸式體驗(yàn)設(shè)備。同時(shí),光場(chǎng)成像技術(shù)也被用在顯微觀測(cè)中,美國(guó)麻省理工學(xué)院和奧地利維也納大學(xué)的研究人員使用光場(chǎng)顯微鏡第一次可在毫秒時(shí)間的尺度上,產(chǎn)生整個(gè)斑馬魚(yú)幼蟲(chóng)大腦的3D影像,相關(guān)成果發(fā)表在Nature Methods期刊。

相對(duì)傳統(tǒng)光學(xué)成像,光場(chǎng)成像技術(shù)是重大技術(shù)革新,以其多視角、大景深、多聚焦成像等突出特性為模式識(shí)別、計(jì)算機(jī)視覺(jué)等學(xué)科的發(fā)展與創(chuàng)新帶來(lái)了新機(jī)遇,目前已經(jīng)在深度估計(jì)、三維重建、自動(dòng)重聚焦、合成孔徑成像、分割、識(shí)別等視覺(jué)任務(wù)中得到了應(yīng)用。除了經(jīng)典視覺(jué)任務(wù)外,光場(chǎng)成像還在視覺(jué)里程計(jì) (Visual Odometry)、場(chǎng)景光流估計(jì)(Scene-Flow Estimation)、相機(jī)轉(zhuǎn)動(dòng)(Camera Rotation)估計(jì)和視頻防抖(Video Stabilization)、全景拼接(Panoramic Stitching)等視覺(jué)任務(wù)中得到了一定程度的應(yīng)用。

除了光場(chǎng)相機(jī)以外,考慮光線空間位置和傳播方向的成像技術(shù)還有編碼成像、散射成像、全息成像等典型代表。從光線傳播的時(shí)間、相位維度進(jìn)行光場(chǎng)的采集,則有單光子成像、飛行時(shí)間(ToF)成像等手段,而從波長(zhǎng)、光譜層次進(jìn)行研究,則衍生出可見(jiàn)光、近紅外、高光譜等多種成像技術(shù),另外還有利用光線的波動(dòng)屬性進(jìn)行成像,例如偏振成像等。

2. 初期視覺(jué)

人類的視覺(jué)信息處理包括初期視覺(jué)和高層視覺(jué),初期視覺(jué)主要通過(guò)分析輸入的視覺(jué)信號(hào)變化來(lái)獲取物體的位置、形狀、表觀和運(yùn)動(dòng)等信息,基本不涉及場(chǎng)景信息的語(yǔ)義理解。類似于人類的視覺(jué)信息處理過(guò)程,計(jì)算機(jī)視覺(jué)也分為初期視覺(jué)和高層視覺(jué),其中的初期視覺(jué)主要涉及視覺(jué)信息預(yù)處理和編碼,具體包括圖像濾波、邊緣提取、紋理分析、立體視覺(jué)、光流、圖像增強(qiáng)與復(fù)原等方面的研究?jī)?nèi)容。是否具有物體識(shí)別、行為分析、事件解譯等語(yǔ)義理解能力是區(qū)分初期視覺(jué)和高層視覺(jué)的主要依據(jù)。

圖像濾波是圖像預(yù)處理的主要手段之一,目的是突出圖像中的有效信息、壓制不需要的其他信息。根據(jù)濾波的操作域不同,圖像濾波可以分為空域?yàn)V波和頻域?yàn)V波;根據(jù)濾波操作的計(jì)算特性不同,圖像濾波可以分為線性濾波和非線性濾波;根據(jù)濾波的目的不同,圖像濾波可以分為平滑濾波、形態(tài)學(xué)濾波、雙邊濾波、引導(dǎo)濾波等。高斯濾波是最常用的線性濾波器,Gabor濾波器符合人類視覺(jué)初級(jí)視皮層的信息處理特性,在圖像特征提取中應(yīng)用較多,雙邊濾波和引導(dǎo)濾波具有良好的邊緣保持特性,并不會(huì)影響其他非邊緣區(qū)域的濾波效果,相對(duì)雙邊濾波而言,引導(dǎo)濾波更加高效,而且可以保持更多類型的圖像結(jié)構(gòu)。在圖像濾波思想上發(fā)展出了局部圖像特征,其中,LBP和Haar是兩個(gè)具有深遠(yuǎn)影響的局部圖像特征,前者利用相鄰像素之間的灰度大小關(guān)系進(jìn)行特征編碼,具有良好的光照魯棒性和判別能力,在人臉識(shí)別、紋理分析中發(fā)揮了重要作用,而后者通過(guò)定義一系列矩形區(qū)域,通過(guò)它們的平均像素差進(jìn)行判別分析,結(jié)合adaboost特征選擇算法,是人臉檢測(cè)領(lǐng)域里程碑式的工作,也廣泛應(yīng)用于其他目標(biāo)的檢測(cè)任務(wù)中。圖像增強(qiáng)和復(fù)原技術(shù)是基于圖像濾波發(fā)展而來(lái)的,早期的方法集中在濾波器設(shè)計(jì)上,如維納濾波、約束最小二乘濾波、Lucy-Richardson解卷積算法等。在2000年之后,以正則化方法和字典學(xué)習(xí)為代表的稀疏編碼方法因其出色的性能表現(xiàn)逐漸成為主流,如針對(duì)圖像去噪問(wèn)題的BM3D算法、LSC算法、FOE模型等,以及針對(duì)圖像去模糊問(wèn)題的TV正則化算法、L1正則化算法等。目前,也出現(xiàn)了基于深度學(xué)習(xí)的圖像增強(qiáng)和復(fù)原方法。邊緣提取的早期研究中,主要是根據(jù)邊緣的物理特性,設(shè)計(jì)相應(yīng)的濾波器進(jìn)行圖像濾波,代表性工作是canny邊緣算子;在2000年以后,這種根據(jù)設(shè)計(jì)者經(jīng)驗(yàn)設(shè)計(jì)的濾波方法逐漸被基于學(xué)習(xí)的方法所替代,如PB和gPB;近年來(lái),深度學(xué)習(xí)進(jìn)一步促進(jìn)了邊緣檢測(cè)技術(shù)的發(fā)展,最早的工作有DeepContour和DeepEdge,以及可端到端訓(xùn)練的邊緣檢測(cè)算法HED,目前較好的方法是RCF。在立體視覺(jué)和光流這類基于匹配對(duì)應(yīng)的初期視覺(jué)問(wèn)題中,基于馬爾科夫隨機(jī)場(chǎng)將全局約束信息進(jìn)行建模的方法是深度學(xué)習(xí)出現(xiàn)之前比較有代表性的一類方法,該方法利用通常利用圖割、信念傳播、動(dòng)態(tài)規(guī)劃等算法對(duì)構(gòu)造的極小化問(wèn)題進(jìn)行求解。對(duì)于立體匹配問(wèn)題,基于全局優(yōu)化的方法通常速度較慢,半全局和基于特征的局部方法更加實(shí)用,其中,半全局塊匹配算法(SGBM)在速度和精度方面具有良好的折中。解決光流問(wèn)題的基本假設(shè)是運(yùn)動(dòng)的顏色恒常性,可以為變分法、基于區(qū)域的方法、基于特征的方法、頻域處理方法,以及最近出現(xiàn)的基于CNN的方法。在深度學(xué)習(xí)出現(xiàn)之前,變分法在光流的發(fā)展中占主導(dǎo)地位,大部分性能優(yōu)秀的光流算法都屬于變分法的范疇,基于顏色恒常性基本假設(shè)形式化優(yōu)化目標(biāo)函數(shù)中的數(shù)據(jù)項(xiàng),同時(shí)輔于平滑性約束,最終通過(guò)求解最優(yōu)化問(wèn)題得到光流解。最近興起的基于CNN的光流計(jì)算通過(guò)一次網(wǎng)絡(luò)的前向運(yùn)算得到輸入圖像的光流,因此更加高效,計(jì)算速度是傳統(tǒng)方法的幾十倍,具有很大的潛力,比較有代表性的工作是FlowNet系列、SpyNet、TVNet、PWC-Net。

初期視覺(jué)的研究產(chǎn)生了廣泛的影響,如從圖像濾波發(fā)展出來(lái)的圖像卷積是卷積神經(jīng)網(wǎng)絡(luò)的核心組件,光流計(jì)算是視頻行為分析中是最基本的處理方法,基于立體視覺(jué)技術(shù)發(fā)展出來(lái)的RGBD相機(jī)作為傳統(tǒng)圖像傳感器的重要補(bǔ)充在許多應(yīng)用中發(fā)揮重要作用,圖像超分辨率和視頻去模糊技術(shù)已經(jīng)在各類攝像類數(shù)碼產(chǎn)品中廣泛使用。

3. 圖像增強(qiáng)與復(fù)原

圖像增強(qiáng)與復(fù)原是圖像處理領(lǐng)域研究的一類經(jīng)典問(wèn)題。在圖像的成像、保存和傳輸過(guò)程中,受各種外在因素的影響,圖像會(huì)產(chǎn)生不同類型的質(zhì)量退化問(wèn)題。圖像增強(qiáng)和復(fù)原主要研究如何基于圖像先驗(yàn)和圖像退化模型,提升圖像的視覺(jué)質(zhì)量或恢復(fù)圖像的原本面目。圖像增強(qiáng)與圖像復(fù)原又略有區(qū)別。前者通常以提升圖像的視覺(jué)質(zhì)量為最終目的,常常作為后續(xù)圖像處理與分析過(guò)程的預(yù)處理步驟。而后者則以恢復(fù)圖像本來(lái)面目為目標(biāo),因此復(fù)原過(guò)程往往需要考慮圖像的退化機(jī)理,并構(gòu)建圖像質(zhì)量退化模型。經(jīng)典的圖像增強(qiáng)與復(fù)原問(wèn)題包括圖像去噪、圖像去模糊、圖像去霧、去雨、去陰影、圖像超分辨率以及圖像幾何畸變校正等。需要指出,由于退化模型的不適定性,圖像增強(qiáng)與復(fù)原問(wèn)題通常涉及一類逆問(wèn)題的求解,是典型的不適定問(wèn)題。圖像的增強(qiáng)與復(fù)原不存在統(tǒng)一的處理方法,常需要根據(jù)具體問(wèn)題,針對(duì)圖像質(zhì)量退化模型和可利用的圖像先驗(yàn)構(gòu)造恰當(dāng)?shù)那蠼夥椒ā?/p>

早期的圖像增強(qiáng)與復(fù)原方法主要包括各種濾波方法。由于噪聲與圖像內(nèi)容通常具有不同的頻譜,因此可在不同的譜段上分別處理,從而保證在去除噪聲的同時(shí)盡量不損害圖像內(nèi)容。這類方法主要針對(duì)圖像去噪和去模糊等問(wèn)題,代表性的方法包括中值濾波、同態(tài)濾波、維納濾波、約束最小二乘濾波、加權(quán)最小二乘法、Lucy-Richardson解卷積算法等。隨后,以正則化和字典學(xué)習(xí)為代表的稀疏編碼方法因其出色的性能表現(xiàn)逐漸成為圖像復(fù)原方法的主流。從貝葉斯觀點(diǎn)來(lái)看,正則項(xiàng)對(duì)應(yīng)圖像的先驗(yàn)分布,因此,圖像復(fù)原的好壞與選取的圖像先驗(yàn)關(guān)系密切。與濾波方法相比,稀疏編碼提供了一種更為精確、有效的手段來(lái)刻畫(huà)圖像先驗(yàn),往往能夠取得非常優(yōu)異的表現(xiàn)。這一時(shí)期針對(duì)圖像去噪和去模糊問(wèn)題,涌現(xiàn)出大量的研究工作和性能優(yōu)異的算法,如針對(duì)自然圖像去噪的Fields of Experts (FOE)模型、Block-Matching 3D (BM3D)算法、基于K-SVD的圖像去噪算法,以及針對(duì)圖像去模糊問(wèn)題的TV范數(shù)、L1范數(shù)以及Lp范數(shù)正則化算法等。近年來(lái),隨著深度學(xué)習(xí)熱潮的興起,基于數(shù)據(jù)驅(qū)動(dòng)的、可端到端學(xué)習(xí)的圖像復(fù)原方法逐漸獲得研究者青睞。受益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的模型表示能力,研究者嘗試用深度神經(jīng)網(wǎng)絡(luò)來(lái)隱式的刻畫(huà)圖像先驗(yàn)以及圖像退化模型。通過(guò)將其納入生成對(duì)抗網(wǎng)絡(luò)框架,從而將圖像復(fù)原問(wèn)題轉(zhuǎn)化成一個(gè)圖像生成問(wèn)題。該方法的優(yōu)勢(shì)在于可將多種類型的圖像增強(qiáng)與復(fù)原問(wèn)題納入一個(gè)統(tǒng)一的計(jì)算框架來(lái)處理。未來(lái),圖像復(fù)原問(wèn)題仍將是一個(gè)有待繼續(xù)深入研究的問(wèn)題。相關(guān)領(lǐng)域知識(shí)的有效嵌入以及高效便捷計(jì)算模型的構(gòu)建仍將是圖像增強(qiáng)與復(fù)原研究關(guān)注的重點(diǎn)。

由于圖像增強(qiáng)與復(fù)原研究涉及不適定問(wèn)題的求解以及高維空間中圖像先驗(yàn)的表示與學(xué)習(xí)等多個(gè)問(wèn)題,該研究也從客觀上推動(dòng)了圖像稀疏編碼、圖像深度編碼、圖像先驗(yàn)表示與正則化學(xué)習(xí)等研究的進(jìn)展。此外,作為圖像處理領(lǐng)域中的一個(gè)經(jīng)典研究問(wèn)題,圖像增強(qiáng)與復(fù)原也成為新的圖像表示理論與算法研究的試金石。作為提升圖像視覺(jué)質(zhì)量的一種有效手段,圖像增強(qiáng)與復(fù)原在底層視覺(jué)、計(jì)算成像、文字識(shí)別、虹膜識(shí)別、指紋識(shí)別、人臉識(shí)別、目標(biāo)跟蹤、視頻監(jiān)控等眾多領(lǐng)域獲得了廣泛的應(yīng)用。

4. 圖像特征提取與匹配

圖像特征提取和匹配的目的是對(duì)不同圖像中相同或相似的基元建立對(duì)應(yīng)關(guān)系,基元也稱為圖像特征,常用的圖像特征包括點(diǎn)、直線/曲線、區(qū)域,因此根據(jù)使用的特征不同,圖像特征匹配又分為點(diǎn)匹配、直線/曲線匹配、區(qū)域匹配,而從圖像中自動(dòng)提取這些特征的過(guò)程也稱為圖像特征提取。相對(duì)來(lái)說(shuō),點(diǎn)匹配的應(yīng)用最廣,更受研究人員關(guān)注。點(diǎn)匹配又可分為稠密點(diǎn)匹配和稀疏點(diǎn)匹配。稠密點(diǎn)匹配的任務(wù)是建立圖像之間逐像素的對(duì)應(yīng)關(guān)系,廣泛應(yīng)用于立體視覺(jué)、光流、運(yùn)動(dòng)場(chǎng)估計(jì)等計(jì)算機(jī)視覺(jué)任務(wù)中。特征點(diǎn)匹配包括特征點(diǎn)檢測(cè)、特征點(diǎn)描述、匹配模型的魯棒估計(jì)三部分內(nèi)容,旨在建立圖像之間的稀疏點(diǎn)對(duì)應(yīng)關(guān)系。

對(duì)于稠密點(diǎn)匹配,早期工作主要是局部匹配與全局優(yōu)化相結(jié)合的方法,比較有代表性的工作是基于圖割的方法和基于信念傳播的方法,目前的研究重點(diǎn)則集中在利用深度學(xué)習(xí)解決該問(wèn)題。相對(duì)于稠密點(diǎn)匹配,特征點(diǎn)匹配應(yīng)用更廣,是主流的特征匹配方法。其中的特征點(diǎn)檢測(cè)算法用于檢測(cè)圖像上的角點(diǎn)和斑點(diǎn),以使得不同圖像中的相同點(diǎn)能被重復(fù)檢測(cè),這是進(jìn)行特征點(diǎn)匹配的基本前提。早期的Harris角點(diǎn)檢測(cè)算法一直使用至今,并產(chǎn)生了許多改進(jìn)算法,而FAST角點(diǎn)檢測(cè)算子則是快速特征點(diǎn)檢測(cè)的首選算法;斑點(diǎn)檢測(cè)算法中比較有代表性的工作是SIFT特征點(diǎn)檢測(cè)算法以及基于積分圖技術(shù)對(duì)它的改進(jìn)算法SURF。特征點(diǎn)描述的目的是根據(jù)特征點(diǎn)周圍的圖像信息建立一個(gè)向量對(duì)其進(jìn)行表達(dá),以建立不同圖像間相同特征點(diǎn)的對(duì)應(yīng)關(guān)系,分為基于專家知識(shí)設(shè)計(jì)的方法和基于學(xué)習(xí)的方法?;诜謮K梯度方向直方圖設(shè)計(jì)的SIFT算法是基于專家知識(shí)設(shè)計(jì)的諸多特征描述方法中的杰出代表,在其基礎(chǔ)上改進(jìn)的著名特征描述方法還有SURF,其在后來(lái)的二進(jìn)制局部特征(如ORB,BRISK等)出現(xiàn)之前的很長(zhǎng)一段時(shí)間,一直都是作為SIFT在速度要求高的場(chǎng)合的替代算法,同樣獲得了廣泛的應(yīng)用。隨著深度學(xué)習(xí)的興起,特征點(diǎn)描述領(lǐng)域在2017年基本完成了從基于專家知識(shí)設(shè)計(jì)的方法到基于深度學(xué)習(xí)的方法的轉(zhuǎn)變,利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力基于成對(duì)的匹配/不匹配圖像塊自動(dòng)學(xué)習(xí)得到區(qū)分能力強(qiáng)、魯棒性好的特征描述子。目前,面向特征描述使用較多的網(wǎng)絡(luò)結(jié)構(gòu)是L2Net。此外,將特征點(diǎn)檢測(cè)和特征點(diǎn)描述兩個(gè)具有內(nèi)在關(guān)聯(lián)的任務(wù)統(tǒng)一起來(lái)用深度網(wǎng)絡(luò)求解是目前流行的方法,代表性工作有LIFT、RF-Net、D2Net、R2D2。魯棒的模型估計(jì)研究從包含錯(cuò)誤匹配點(diǎn)的點(diǎn)匹配集合中計(jì)算出真實(shí)變換模型的方法,廣泛使用的方法是RANSAC。此外,如何對(duì)特征點(diǎn)匹配結(jié)果進(jìn)行誤匹配去除一直都受到研究人員的關(guān)注,主要有基于圖匹配的方法和基于運(yùn)動(dòng)一致性的方法,如GMS、CODE,近年來(lái),也出現(xiàn)了一些利用深度學(xué)習(xí)進(jìn)行錯(cuò)誤特征點(diǎn)匹配過(guò)濾的方法,總體思路是將一對(duì)匹配特征點(diǎn)看做一個(gè)四維向量,研究深度學(xué)習(xí)方法以四維向量集合作為輸入,挖掘集合中不同點(diǎn)之間的上下文關(guān)系,推理得到誤匹配特征點(diǎn)。

圖像特征提取和匹配產(chǎn)生了廣泛的影響,如受SIFT啟發(fā)出現(xiàn)的HoG特征則在目標(biāo)檢測(cè)領(lǐng)域產(chǎn)生了重要影響,是深度學(xué)習(xí)出現(xiàn)之前目標(biāo)檢測(cè)領(lǐng)域的首選特征;局部圖像特征點(diǎn)提取和描述直接催生了基于詞袋模型的圖像表示研究,是前深度學(xué)習(xí)時(shí)代圖像分類、識(shí)別的主要方法;以圖像特征點(diǎn)匹配為基礎(chǔ)的全景圖像拼接技術(shù)已經(jīng)走進(jìn)了千家萬(wàn)戶,在日常生活中得到廣泛使用;此外,特征點(diǎn)匹配還廣泛應(yīng)用于三維重建、視覺(jué)定位、攝像機(jī)標(biāo)定等三維計(jì)算機(jī)視覺(jué)任務(wù),在增強(qiáng)現(xiàn)實(shí)、基于視覺(jué)的定位、城市數(shù)字化、自動(dòng)駕駛等新興應(yīng)用中發(fā)揮著重要作用。

5. 多視幾何理論

多視圖幾何是計(jì)算機(jī)視覺(jué)研究中幾何視覺(jué)(Geometric Computer Vision)所使用的基本數(shù)學(xué)理論,主要研究在射影變換下,不同視角二維圖像對(duì)應(yīng)點(diǎn)之間,以及圖像點(diǎn)與三維場(chǎng)景、相機(jī)模型之間的幾何約束理論和計(jì)算方法,進(jìn)而實(shí)現(xiàn)通過(guò)二維圖像恢復(fù)和理解場(chǎng)景的三維幾何屬性。多視圖幾何建立在嚴(yán)格的代數(shù)和幾何理論之上,并發(fā)展出了一系列解析計(jì)算方法和非線性優(yōu)化算法,是三維重建、視覺(jué)SLAM、視覺(jué)定位等三維幾何視覺(jué)問(wèn)題所使用的基本數(shù)學(xué)理論。多視圖幾何研究的代表人物包括澳大利亞國(guó)立大學(xué)的R. Hartely、英國(guó)牛津大學(xué)的A. Zisserman、法國(guó)國(guó)家信息與自動(dòng)化研究所的O. Faugeras等學(xué)者,2000年由R. Hartely和A. Zisserman合著的著作《Multiple View Geometry in Computer Vision》對(duì)這方面的研究工作做出了比較系統(tǒng)的總結(jié)??梢哉f(shuō),多視圖幾何的理論研究在2000年左右已基本完善。

多視圖幾何主要研究?jī)煞鶊D像對(duì)應(yīng)點(diǎn)之間的對(duì)極幾何約束(Epipolar Geometry),三幅圖像對(duì)應(yīng)點(diǎn)之間的三焦張量約束(Tri-focal Tensor),空間平面點(diǎn)到圖像點(diǎn)或多幅圖像點(diǎn)之間的單應(yīng)約束(Homography)等。多視圖幾何的核心算法包括三角化、八點(diǎn)法估計(jì)基本矩陣、五點(diǎn)法估計(jì)本質(zhì)矩陣、多視圖因式分解法、基于Kruppa方程的相機(jī)自標(biāo)定等解析計(jì)算方法,以及以捆綁調(diào)整(Bundle Adjustment)為代表的迭代優(yōu)化方法。多視圖幾何中最核心的理論是從1990年至2000年左右建立起來(lái)的分層重建理論。分層重建的基本思想是在從圖像到三維歐氏空間的重建過(guò)程中,先從圖像空間得到射影空間下的重建(11個(gè)未知數(shù)),然后將射影空間下的重建提升到仿射空間(3個(gè)未知數(shù)),最后將仿射空間下的重建提升到歐氏空間(5個(gè)未知數(shù))。在分層重建理論中,從圖像對(duì)應(yīng)點(diǎn)進(jìn)行射影重建,就是確定射影空間下每幅圖像對(duì)應(yīng)的投影矩陣的過(guò)程;從射影重建到仿射重建,在于確定無(wú)窮遠(yuǎn)平面在射影重建下(某個(gè)特定射影坐標(biāo)系)的對(duì)應(yīng)坐標(biāo)向量;從仿射重建到度量重建,本質(zhì)上在于確定相機(jī)的內(nèi)參數(shù)矩陣,即相機(jī)的自標(biāo)定過(guò)程。由于任何一個(gè)幾何視覺(jué)問(wèn)題最終都可以轉(zhuǎn)化為一個(gè)多參數(shù)非線性優(yōu)化問(wèn)題,而非線性優(yōu)化的困難在于找到一個(gè)合理的初值。待優(yōu)化的參數(shù)越多,一般來(lái)說(shuō)解空間越復(fù)雜,尋找合適的初值越困難,所以,如果一個(gè)優(yōu)化問(wèn)題如能將參數(shù)分組分步優(yōu)化,則一般可以大大簡(jiǎn)化優(yōu)化問(wèn)題的難度。分層重建理論由于每一步重建過(guò)程中涉及到的未知變量少,幾何意義明確,因此算法的魯棒性得到了有效提高。

多視圖幾何和分層重建是計(jì)算機(jī)視覺(jué)發(fā)展歷程中的一個(gè)重要的理論成果,其本身的理論框架已經(jīng)構(gòu)建的比較完善。隨著相機(jī)制作水平的提高,傳統(tǒng)小孔成像模型下的相機(jī)內(nèi)參數(shù)通常可以簡(jiǎn)化為只有焦距一個(gè)內(nèi)參數(shù)需要標(biāo)定,且焦距的粗略數(shù)值通常可以從圖像的EXIF頭文件中讀出,因此相機(jī)的內(nèi)參數(shù)通??梢哉J(rèn)為是已知的。此時(shí)基于兩幅圖像之間的本質(zhì)矩陣約束,通過(guò)五點(diǎn)法可以求解兩幅圖像之間的外參數(shù)(旋轉(zhuǎn)和平移向量),進(jìn)而直接進(jìn)行三維重建,而不再需要分層進(jìn)行重建。盡管如此,多視圖幾何和分層重建由于其理論的優(yōu)美性和數(shù)學(xué)的完備性,其在計(jì)算機(jī)視覺(jué)尤其是幾何視覺(jué)領(lǐng)域仍然是不可或缺的。

6. 攝像機(jī)標(biāo)定與視覺(jué)定位

攝像機(jī)的參數(shù)包括內(nèi)參數(shù)與外參數(shù)。內(nèi)參數(shù)包括焦距、縱橫比、斜參數(shù)、主點(diǎn)等,屬于相機(jī)的內(nèi)在屬性。外參數(shù)是指攝像機(jī)的運(yùn)動(dòng)參數(shù),包括攝像機(jī)運(yùn)動(dòng)的旋轉(zhuǎn)矩陣與平移向量。對(duì)攝像機(jī)內(nèi)外參數(shù)的求解可以統(tǒng)稱為攝像機(jī)標(biāo)定。對(duì)攝像機(jī)機(jī)外參數(shù)求解,又可以稱為攝像機(jī)定位或視覺(jué)定位。

攝像機(jī)內(nèi)參數(shù)標(biāo)定分為基于先驗(yàn)信息的標(biāo)定和自標(biāo)定。首先介紹基于先驗(yàn)信息標(biāo)定方法:1986年Tsai提出了利用三維標(biāo)定物的兩步法。由于三維標(biāo)定物的制作要求工藝較高,且容易發(fā)生遮擋,1999年,Zhang提出了基于二維棋盤格的標(biāo)定法,該方法簡(jiǎn)單易用,在工業(yè)界與學(xué)術(shù)界被大家廣泛使用。自標(biāo)定方法中,最重要的方法是1992年Faugeras提出的基于Kruppa方程的自標(biāo)定法,通過(guò)圖像之間的匹配點(diǎn),計(jì)算出圖像之間的基本矩陣,則可建立相機(jī)內(nèi)參數(shù)的方程。通?;谙闰?yàn)信息的標(biāo)定是線性問(wèn)題,而自標(biāo)定都是非線性的。由于Kruppa方程的原理簡(jiǎn)單,方程容易建立,如何求解這類非線性問(wèn)題也曾吸引了很多研究者。當(dāng)相機(jī)參數(shù)較少時(shí),Kruppa方程也可轉(zhuǎn)化為線性問(wèn)題。之后,有比較重要影響的自標(biāo)定方法是1997年,Triggs提出的基于絕對(duì)對(duì)偶二次曲面的自標(biāo)定方法,其中需要射影重建,比Kruppa方程的自標(biāo)定要復(fù)雜一些,但是可以避免一些退化的出現(xiàn)?;诮^對(duì)對(duì)偶二次曲面的自標(biāo)定方法的重要性還體現(xiàn)在當(dāng)相機(jī)自標(biāo)定后,可以在射影重建的基礎(chǔ)上自然過(guò)渡到度量重建上。

攝像機(jī)定位可以分為兩大類,環(huán)境信息已知的方法和環(huán)境信息未知的方法。環(huán)境信息已知主要是PnP問(wèn)題的研究,環(huán)境信息未知主要是SLAM (Simultaneous Localization and Mapping)的研究。PnP的研究最早起源于1841年。1841年及1903年Grunert Finsterwalder及Scheufele 研究得到P3P問(wèn)題最多有4個(gè)解,P4P問(wèn)題有唯一解。之后,開(kāi)啟了PnP問(wèn)題的系列研究。1999年Quan和Lan給出P4P、P5P的近似線性方法。當(dāng)n大于等于6,PnP問(wèn)題是線性的,最早的有影響力的該問(wèn)題求解方法當(dāng)屬Abdel-Aziz和H. M. Karara于1971年提出的直接線性變換法,目前使用最多的有效的處理方法是Lepetit等于2008年給出的EPnP方法。SLAM最早由Smith和Cheeseman于1986年提出,并于1995年在機(jī)器人研究研討會(huì)上被正式命名。SLAM技術(shù)具有重要的理論意義與應(yīng)用價(jià)值,被許多學(xué)者認(rèn)為是移動(dòng)機(jī)器人實(shí)現(xiàn)真正自主的關(guān)鍵,甚至稱其為自主移動(dòng)機(jī)器人界的圣杯。在2002年,Andrew Davison 首次實(shí)現(xiàn)了單目實(shí)時(shí)的SLAM系統(tǒng)MonoSLAM,其中采用了濾波的方法。從此機(jī)器人采用單目相機(jī)進(jìn)行實(shí)時(shí)定位成為可能,也為單目相機(jī)下進(jìn)行增強(qiáng)現(xiàn)實(shí)打下了重要的基礎(chǔ)。隨著計(jì)算機(jī)硬件的發(fā)展以及多視幾何理論的逐漸成熟,2007年,Klein和Murray提出了PTAM(Parallel Tracking and Mapping),拚棄之前濾波方法的主流框架,提出并實(shí)現(xiàn)了基于多視幾何理論的跟蹤與建圖過(guò)程的并行化。之后廣泛流行的Mur-Artal and Tardós 提出的ORB SLAM,正是在PTAM的框架基礎(chǔ)上修改而成。不考慮特征點(diǎn),而是考慮圖像的梯度信息,直接基于圖像的光度一致性,2014年Engel等人提出了直接法的SLAM,不需要提取特征點(diǎn)、不需要計(jì)算描述子,達(dá)到了一個(gè)較高的跟蹤速度。最近幾年,也出現(xiàn)一系列的深度學(xué)習(xí)的視覺(jué)定位方法,代表性的工作有Tateno等于2017年提出的CNN-SLAM,Bloesch等于2018年提出的CodeSLAM,Xue等2019年提出的引入記憶模塊的VO方法。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法具有較高的魯棒性能。

攝像機(jī)內(nèi)參數(shù)標(biāo)定是計(jì)算機(jī)視覺(jué)的基礎(chǔ),很多應(yīng)用都是以標(biāo)定內(nèi)參數(shù)作為前提。攝像機(jī)定位是機(jī)器人、無(wú)人駕駛、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)中的關(guān)鍵技術(shù),具有廣泛的應(yīng)用價(jià)值,不僅可以應(yīng)用于工業(yè)領(lǐng)域,也可以在消費(fèi)級(jí)領(lǐng)域中具有廣闊市場(chǎng),吸引了大量的研究與關(guān)注。


*本文來(lái)自模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室組織發(fā)布的模式識(shí)別學(xué)科發(fā)展報(bào)告,已得到模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室授權(quán)發(fā)布。

權(quán)威發(fā)布|計(jì)算機(jī)視覺(jué)重要研究進(jìn)展(一)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
铜梁县| 延安市| 双江| 介休市| 娱乐| 衡山县| 延边| 卫辉市| 微博| 六安市| 斗六市| 新密市| 华阴市| 镇康县| 祁东县| 舞阳县| 阳高县| 德州市| 赤水市| 宜黄县| 丰顺县| 海原县| 法库县| 喀喇沁旗| 浠水县| 威远县| 万全县| 淅川县| 农安县| 苏尼特左旗| 高邮市| 池州市| 确山县| 深州市| 乐业县| 遂平县| 乌鲁木齐县| 阜新| 福州市| 密云县| 宝山区|