權(quán)威發(fā)布|模式識別應(yīng)用技術(shù)重要研究進展(二)
模式識別應(yīng)用技術(shù)具體研究進展主要表現(xiàn)在如下幾個方面:面部生物特征識別、手部生物特征識別、行為生物特征識別、聲紋生物特征識別、文字與文本識別、復(fù)雜文檔版面分析、多媒體數(shù)據(jù)分析、多模態(tài)情感計算、圖像和視頻合成、圖像取證與安全、遙感圖像分析、醫(yī)學(xué)圖像分析等。接下來著重介紹,本次分享其中后項。?
前六項傳送門:模式識別應(yīng)用技術(shù)重要研究進展(二)
干貨太多,請自帶水杯~^-^?
以下為報告正文部分

7. 醫(yī)學(xué)圖像分析
醫(yī)學(xué)影像分析(Medical Image Analysis)屬于多學(xué)科交叉的綜合研究領(lǐng)域,涉及醫(yī)學(xué)影像、數(shù)據(jù)建模、數(shù)字圖像處理與分析、人工智能和數(shù)值算法等多個學(xué)科。醫(yī)學(xué)圖像中的模式識別問題,主要指將模式識別與圖像處理技術(shù)應(yīng)用在醫(yī)學(xué)影像上,并結(jié)合臨床數(shù)據(jù)加以綜合分析,最終目的是找到與特定疾病相關(guān)的影像學(xué)生物指標,從而達到輔助醫(yī)生早期診斷,輔助治療和預(yù)后評估。醫(yī)學(xué)圖像分析主要包括醫(yī)學(xué)圖像分割、圖像配準、圖像融合、三維重建與可視化,腦功能與網(wǎng)絡(luò)分析、計算機輔助診斷等。下面主要介紹醫(yī)學(xué)圖像分割、配準融合以及計算機輔助診斷方面的重要進展。
醫(yī)學(xué)圖像分割:醫(yī)學(xué)圖像分割是醫(yī)學(xué)圖像分析中典型的任務(wù),是醫(yī)學(xué)圖像分析的基礎(chǔ),它本質(zhì)上是像素級別的分類,即判斷圖片上每一個像素的所屬類別。一般的流程分為數(shù)據(jù)預(yù)處理、感興趣區(qū)域提取、分割、分割結(jié)果后處理等。傳統(tǒng)圖像分割方法包括閾值分割、區(qū)域增長、形變模型、水平集方法、多圖譜引導(dǎo)的分割方法等。隨著全卷積神經(jīng)網(wǎng)絡(luò)(FCN) 和U-Net網(wǎng)絡(luò)等深度學(xué)習(xí)算法的提出,深度學(xué)習(xí)在醫(yī)學(xué)圖像分割領(lǐng)域的應(yīng)用快速發(fā)展。FCN采用端到端的學(xué)習(xí)模式實現(xiàn)了輸出圖像區(qū)域分割,保證了對任意尺寸的圖像都能進行處理,但其在醫(yī)學(xué)圖像上得到的分割結(jié)果相對粗糙。U-Net網(wǎng)絡(luò)結(jié)構(gòu)更適用于醫(yī)學(xué)圖像,并且針對小樣本的醫(yī)學(xué)圖像數(shù)據(jù)也取得了較好的分割結(jié)果,后續(xù)的改進模型引入了殘差結(jié)構(gòu)和循環(huán)結(jié)構(gòu),并且與多尺度特征融合、注意力機制等技術(shù)相結(jié)合,進一步提升了分割的效果。
醫(yī)學(xué)圖像配準和融合:在臨床應(yīng)用中,單一模態(tài)的圖像往往不能提供醫(yī)生所需要的足夠信息,常需將多種模式或同一模式的多次成像通過配準融合來實現(xiàn)感興趣區(qū)的信息互補。醫(yī)學(xué)圖像的配準大部分情況下指對于在不同時間或不同條件下獲取的兩幅圖像,基于一個相似性測度尋求一種或一系列空間變換關(guān)系,使得兩幅待配準圖像間的相似性測度達到最大。醫(yī)學(xué)圖像配準包括被試個體內(nèi)配準、被試組間配準、二維-三維配準等多個應(yīng)用場景。醫(yī)學(xué)圖像配準的經(jīng)典方法包括基于互信息的配準、自由形變模型配準、基于Demons的形變配準(DEMONS)、基于層次屬性的彈性配準(HAMMER)、大形變微分同胚度量映射(LDDMM)等。幾年來,基于深度學(xué)習(xí)的配準方法得到了領(lǐng)域內(nèi)的重視,深度學(xué)習(xí)應(yīng)用在配準上主要采取以下兩種策略,1)用深度神經(jīng)網(wǎng)絡(luò)來預(yù)測兩幅圖像的相似度,2)直接用深度回歸網(wǎng)絡(luò)來預(yù)測形變參數(shù)。
計算機輔助診斷:結(jié)合計算機圖像處理技術(shù)以及其他可能的生理、生化手段,輔助發(fā)現(xiàn)病灶和特異性變化,提高診斷的準確率。其一般流程是對圖像進行預(yù)處理,然后通過手工特征或者特征學(xué)習(xí)方法對整張圖像進行全局掃描,然后訓(xùn)練模型,判斷圖片中是否存在病變,并對疾病進行分類。隨著深度學(xué)習(xí)的發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)CNN的提出,Alexnet、VGG、Resnet等網(wǎng)絡(luò)在圖像分類領(lǐng)域取得了優(yōu)異的結(jié)果,其思想是通過有監(jiān)督或無監(jiān)督的方式學(xué)習(xí)層次化的特征表達,來對物體進行從底層到高層的特征描述。如何設(shè)計網(wǎng)絡(luò),提取圖片或者特定的區(qū)域的有效的特征,提高分類精度是目前主要研究的問題。例如:DeepMind公司利用深度學(xué)習(xí)開發(fā)了一套眼睛OCT診斷系統(tǒng),其準確度和世界一流專家相當。斯坦福大學(xué)的研究者發(fā)布了一系列成功的研究案例,如診斷皮膚癌的算法,準確率高達91%,與人類醫(yī)生的表現(xiàn)相同;開發(fā)了一種新的深度學(xué)習(xí)算法,可基于單導(dǎo)程 ECG 信號分類 10 種心率不齊以及竇性心律和噪音,堪比心臟科醫(yī)生。國內(nèi)自動化所研究團隊基于多中心大樣本的精神分裂癥神經(jīng)影像、多組學(xué)數(shù)據(jù)庫,利用了數(shù)據(jù)建模與機器學(xué)習(xí)技術(shù),首次發(fā)現(xiàn)并從多方面驗證了紋狀體環(huán)路功能異常是精神分裂癥精準診療的有效生物標記,該標記可以精準地從健康人群中篩查出精神分裂癥患者,并預(yù)測患者未來的抗精神病藥物治療效果。另外,最近在形勢緊急的新冠疫情中,國內(nèi)多家研究機構(gòu)分別使用了多種深度網(wǎng)絡(luò)對數(shù)據(jù)進行分析,不僅能夠?qū)Ψ尾坎≡钸M行快速分割,還可基于CT影像對新冠患者進行快速診斷。澳門科技大學(xué)醫(yī)學(xué)院聯(lián)合清華大學(xué)、中山大學(xué)等團隊合作研發(fā)了“面向新冠肺炎的全診療流程的智慧篩查、診斷與預(yù)測系統(tǒng)”,可以根據(jù)胸部的CT影像,對大量疑似病例進行快速篩查、輔助診斷和住院臨床分級預(yù)警,實現(xiàn)對COVID-19病人的全生命周期管理。這些成果進一步驗證了智能醫(yī)學(xué)影像計算在計算機輔助診斷中的應(yīng)用潛力。
8. 文字與文本識別
人類社會生活和互聯(lián)網(wǎng)上存在大量的文字和文檔圖像(把文字和文檔通過掃描或拍照變成圖像)。把圖像中的文字檢測識別出來,轉(zhuǎn)化為電子文本,是計算機文字處理和語言理解的需要。這個過程稱為文檔圖像識別,簡稱文檔識別或文字識別,或稱為光學(xué)字符識別(OCR)。廣義的文字識別是指從文檔圖像中定位并識別出其中的多種文字內(nèi)容(文本、符號、公式、表格等);狹義的文字識別指單個文字(在版面簡單的文檔中容易分割出來)的識別。復(fù)雜版面和復(fù)雜背景文檔圖像中的圖文分割和文本定位也有大量的技術(shù)問題,將另外介紹。這里主要介紹單個文字和文本行(或稱字符串)識別的進展。
文字識別作為模式識別領(lǐng)域的一個研究方向,是在電子計算機出現(xiàn)之后,在20世紀50年代以后發(fā)展起來的。早期文字識別的對象主要是印刷體數(shù)字和英文字母,方法以統(tǒng)計模式識別和特征匹配為主。后來開始手寫數(shù)字、字母和印刷體漢字、手寫體漢字識別的研究,研究中形狀歸一化、特征提取、分類器等技術(shù)受到高度重視。80-90年代也提出了一些結(jié)構(gòu)分析方法,并且字符切分、字符串識別和版面分析受到重視。21世紀以來,文檔分析和識別的各個方面技術(shù)繼續(xù)發(fā)展,性能持續(xù)提高;尤其是近年來,互聯(lián)網(wǎng)大數(shù)據(jù)、GPU并行計算支撐深度學(xué)習(xí)(深度神經(jīng)網(wǎng)絡(luò))快速發(fā)展,文檔分析和識別中基于深度學(xué)習(xí)的方法帶來性能快速提升,全面超越傳統(tǒng)方法,甚至在手寫字符識別等方面的精度超過人類水平。
單字識別作為一個分類問題,其方法大致可分為三類:統(tǒng)計方法、結(jié)構(gòu)方法、深度學(xué)習(xí)方法。統(tǒng)計方法中,對文字圖像歸一化、特征提取、分類三個主要環(huán)節(jié)都提出了很多有效的方法。歸一化是將字符圖像變換到標準大小并校正字符形狀。形狀校正對手寫字符尤其重要,典型方法有非線性歸一化、偽二維歸一化(Pseudo-two-dimensional normalization)方法等。特征提取方法最有代表性的是局部方向(包括筆劃輪廓方向、骨架方向、梯度方向)直方圖特征,最早在20世紀70年代末提出,80年代在學(xué)術(shù)界發(fā)表。分類器分類設(shè)計方面,除了通用的統(tǒng)計分類器、最近鄰原型分類器(學(xué)習(xí)矢量量化)、多層神經(jīng)網(wǎng)絡(luò)、支撐向量機等之外,文字識別領(lǐng)域提出了一些專門針對大類別集分類的改進型分類器,如修正二次判別函數(shù)(MQDF)、樹分類器等。結(jié)構(gòu)方法中,對字符圖像骨架化(又稱細化)、筆劃提取、筆劃匹配(主要基于圖匹配思想)、部首分割和匹配等方面提出了很多方法,但是至今為止,結(jié)構(gòu)匹配的識別精度還不高,且模型學(xué)習(xí)困難。以全連接多層感知器(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等為代表的神經(jīng)網(wǎng)絡(luò)模型在90年代起已經(jīng)開始在文字識別領(lǐng)域得到成功應(yīng)用,特別是在2013年以后,深度神經(jīng)網(wǎng)絡(luò)(主要是深度卷積神經(jīng)網(wǎng)絡(luò)CNN)逐漸占據(jù)主導(dǎo)地位,通過大數(shù)據(jù)訓(xùn)練對特征提取和分類器聯(lián)合學(xué)習(xí)明顯提高了識別精度,目前性能已全面超越傳統(tǒng)方法。對于過去認為很難的大類別集(常用字5000類以上)手寫漢字識別問題,正確率已可達到97%以上。目前,在訓(xùn)練數(shù)據(jù)充足的情況下,單字識別問題基本上已得到了很好解決,不再是一個重要的學(xué)術(shù)問題。
文本行識別比單字識別更有實用價值。由于字符形狀、大小、位置、間隔不規(guī)則,字符在識別之前難以準確切分,因此字符切分和識別必須同時進行,這也就是文本行識別的過程。上世紀80年代,對日文手寫字符串識別、英文詞識別、手寫數(shù)字識別等問題提出了基于過切分和候選切分-識別網(wǎng)格的方法。這種方法至今在中文手寫文本行識別中仍具有優(yōu)勢,結(jié)合深度學(xué)習(xí)分類器(主要是CNN),可以得到優(yōu)異的識別性能。上世紀90年代,基于隱馬爾科夫模型(HMM)的方法在英文手寫詞識別中開始流行。這種方法的好處是可以在詞標注(無需給出每個字的位置)的樣本集上進行弱監(jiān)督學(xué)習(xí)。后來(2006年之后),基于長短時記憶(LSTM)遞歸神經(jīng)網(wǎng)絡(luò) (RNN)和連結(jié)時序分類(CTC)解碼的RNN+CTC模型在英文和阿拉伯文手寫識別中性能超越HMM,逐漸成為手寫詞識別和文本行識別的主導(dǎo)方法。此外,受到機器翻譯及自然語言處理領(lǐng)域中提出的注意力(Attention)序列解碼機制的啟發(fā),注意力模型也被廣泛應(yīng)用到文本行識別領(lǐng)域之中。近年來,結(jié)合CNN(用于圖像特征學(xué)習(xí))的RNN+CTC模型及RNN+Attention模型用于場景文本識別和手寫文本識別都取得了領(lǐng)先的性能?;诨瑒哟癈NN分類的方法(包括CNN+CTC、CNN+Attention)在多語言(包括中文)文本行識別中都比較有效。
文字識別方法研究是模式識別領(lǐng)域的重要部分,一些成果啟發(fā)了模式分類和計算機視覺等方向的研究,比如文字識別領(lǐng)域在20世紀80年代提出的梯度方向直方圖特征在2000年以后被廣泛用于計算機視覺領(lǐng)域,改名叫HOG。文字識別技術(shù)已在很多社會和商業(yè)領(lǐng)域取得成功應(yīng)用。傳統(tǒng)應(yīng)用場景包括印刷文檔數(shù)字化、古籍(歷史文檔)數(shù)字化、郵政分揀、票據(jù)識別、車牌識別、卡證識別、聯(lián)機手寫文字識別(主要是單字識別)等。過去脫機手寫字符識別的成功應(yīng)用不多,近年來,手寫文本識別技術(shù)開始進入實用。各種票據(jù)的識別開始推廣,除了掃描圖像,拍照文檔(包括票據(jù)、卡證等)越來越多。手寫作業(yè)及試卷手寫文字識別、法律文檔和檔案識別開始推廣。相關(guān)方法的研究還在繼續(xù),以不斷提高應(yīng)用系統(tǒng)的性能。研究方向主要包括:小樣本學(xué)習(xí)、輸出置信度和可解釋性、多語言文本識別、交互式文本識別。
9. 復(fù)雜文檔版面分析
文檔圖像識別中,文檔圖像的處理和分割非常關(guān)鍵,因為文字和文本行被識別之前,先要在文檔中定位并被分割出來。對文檔圖像中的文本和圖形(插圖、表格、公式、簽名、印章等)區(qū)域進行分割并分析不同區(qū)域之間的關(guān)系,是版面分析的主要任務(wù)。幾何版面分析是對圖文區(qū)域進行定位和分割;邏輯版面分析則還要標出不同區(qū)域之間的邏輯或語義關(guān)系(如閱讀順序)。版面分析的技術(shù)挑戰(zhàn)主要來自三個方面:低質(zhì)圖像、復(fù)雜版面、復(fù)雜背景。上世紀80年代以來,對文檔圖像預(yù)處理、版面分割、復(fù)雜背景圖像文本檢測方面提出了很多有效的方法,取得了巨大進展,從而推動了文字和文檔識別技術(shù)的成功應(yīng)用。
圖像預(yù)處理方面的技術(shù)包括二值化(文本與背景分離)、圖像增強、旋轉(zhuǎn)校正、畸變校正等。早期提出的Otsu二值化方法至今仍被廣泛使用。對于噪聲圖像的二值化,提出了很多從簡單到復(fù)雜的方法,如局部二值化及系列擴展,用馬爾科夫隨機場、條件隨機場、深度神經(jīng)網(wǎng)絡(luò)(如全卷積網(wǎng)絡(luò))直接對象素進行分類,等等。為了校正旋轉(zhuǎn)的文檔圖像,對旋轉(zhuǎn)方向估計提出了投影分析、Hough變換、紋理分析等方法。手持相機拍照文檔圖像的畸變、光照不均等問題比較突出,對這些畸變和光照的校正提出了一系列基于幾何分析(如三維幾何)和圖像變換矯正方法。
版面分析方法可分為三類:自上而下、自下而上和混合方法。自上而下的方法把圖像從大到小進行劃分,直到每個區(qū)域?qū)?yīng)某一類對象(如文本、圖形)。代表性的自上而下方法如投影法和X-Y Cuts。自下而上的方法從圖像基本單元(像素、連通成分)從小到大聚合為文本行和區(qū)域,對圖像旋轉(zhuǎn)、變形、不規(guī)則區(qū)域等具有更強的適應(yīng)能力。比如手寫文檔中,手寫文本行有傾斜、彎曲,行之間挨得近,用投影法就很難分開,需用自下而上的聚類方法進行分割。經(jīng)典的自下而上方法如Smearing、DocStrum(文檔譜)、Voronoi圖、紋理分析、聚類方法等。用條件隨機場對連通成分進行分類,可以分割復(fù)雜版面的文檔,除了圖文區(qū)域分割,還可區(qū)分印刷和手寫文字。對于比較復(fù)雜的圖像,比如復(fù)雜背景或噪聲嚴重干擾的圖像,很難用傳統(tǒng)二值化去掉背景,近年來提出了基于圖模型(例如條件隨機場、圖卷積)進行版面分析及理解、基于全卷積神經(jīng)網(wǎng)絡(luò)通過像素分類來區(qū)分背景和前景、分割文本、圖形等區(qū)域的新方法。混合方法結(jié)合自下而上和自上而下的方法,如在自下而上聚合過程中引入先驗知識和規(guī)則、對聚合結(jié)果進行后處理等??梢钥闯?,最近提出的圖模型和全卷積神經(jīng)網(wǎng)絡(luò)方法具有很強的從數(shù)據(jù)學(xué)習(xí)的能力,因而適應(yīng)不同風格的文檔產(chǎn)生更好的分割性能。
場景文本檢測可以看成一個特殊的版面分析問題,由于其技術(shù)挑戰(zhàn)性和巨大的應(yīng)用需求,最近10年成為研究熱點,取得了很大進展。相關(guān)方法也可分為自下而上和自上而下、以及自上而下和自下而上相結(jié)合的方法。自下而上的方法基于文字或連通成分檢測,然后聚合成文本行,典型的如SegLink。自上而下的方法用類似物體檢測(Object Detection)直接回歸文本行位置,給出文本行的邊界框,典型方法如EAST等。但針對任意方向文本行和長寬比,需要設(shè)計特殊的模型和學(xué)習(xí)方法,如直接回歸方法。最近對形狀彎曲的所謂任意形狀文本檢測吸引了很多研究,典型的方法如TextSnake、自適應(yīng)區(qū)域表示等。在場景文本檢測基礎(chǔ)上,文本行(或詞)識別方法與普通印刷或手寫文本行識別類似。也有些方法(如CRNN+CTC)是首先在場景文本識別中提出來的。端到端的場景文本檢測與識別是目前的研究熱點之一。
文檔版面分析技術(shù)的發(fā)展推動了文檔識別技術(shù)的成功應(yīng)用。隨著數(shù)碼相機和智能手機的普及,拍照文檔越來越多,文檔類型、圖像質(zhì)量多樣化,對版面分析技術(shù)的要求越來越高。近年來,各類拍照文檔(書籍、檔案、文書、票據(jù)、卡片、證件、場景文本)的自動處理和識別逐漸開始實用,這得益于版面分析技術(shù)和文本識別技術(shù)的巨大進步。但是,任意復(fù)雜結(jié)構(gòu)、低質(zhì)圖像文檔的版面分割與理解及內(nèi)容識別仍是有待解決的問題。
10. 多媒體數(shù)據(jù)分析
隨著網(wǎng)絡(luò)通信、數(shù)字電子設(shè)備、計算機技術(shù)的快速進步,信息社會已進入多媒體大數(shù)據(jù)時代。由于多媒體數(shù)據(jù)的固有屬性是異構(gòu)及多模態(tài)性,因此使用傳統(tǒng)方法處理這些復(fù)雜數(shù)據(jù)是不可行的。多媒體數(shù)據(jù)分析旨在解決多媒體數(shù)據(jù)的操縱、管理、挖掘、理解的問題,同時以高效的方式對不同模態(tài)的異構(gòu)數(shù)據(jù)進行智能感知,從而服務(wù)于實際應(yīng)用。目前,多媒體數(shù)據(jù)的主要存在形式之一是社會多媒體。作為新一代信息資源,社會多媒體數(shù)據(jù)除傳統(tǒng)的文字信息外,還包含了具有表現(xiàn)力強、蘊含信息量大、形象生動等特點的圖像、音頻和視頻等媒體。這些不同的媒體數(shù)據(jù)在形式上多源異構(gòu),語義上相互關(guān)聯(lián)。
多媒體數(shù)據(jù)分析技術(shù)主要包括多模態(tài)表示學(xué)習(xí),模態(tài)間映射、對齊、融合和協(xié)同學(xué)習(xí)等。其中,多模態(tài)表示學(xué)習(xí)的主要目標是將多模態(tài)數(shù)據(jù)所蘊含的語義信息數(shù)值化為實值向量。其主要研究進展包括多模態(tài)哈希編碼、多模態(tài)字典學(xué)習(xí)、多模態(tài)稀疏表達、基于深度學(xué)習(xí)的視覺-語義嵌入及大規(guī)模多模態(tài)數(shù)據(jù)表示學(xué)習(xí)等。模態(tài)間映射主要研究如何將某一特定模態(tài)數(shù)據(jù)中的信息映射至另一模態(tài)。其主要進展包括基于注意力機制和上下文關(guān)系建模的圖像與視頻標注方法。Liu等人提出了VisualBERT,其借助自注意力機制把一段輸入文本中的元素和一張相關(guān)的輸入圖像中的區(qū)域映射到語義空間內(nèi)并隱式地關(guān)聯(lián)起來。對齊主要研究如何識別不同模態(tài)間部件、元素的對應(yīng)關(guān)系。主要進展是使用嵌入子空間的特征方法以增強模態(tài)內(nèi)數(shù)據(jù)的相關(guān)性和語義相關(guān)數(shù)據(jù)的關(guān)聯(lián)。融合主要研究如何整合不同模態(tài)間模型與特征。主要進展是基于條件隨機場、主題模型、多視角學(xué)習(xí)和弱監(jiān)督方式的融合方法。協(xié)同學(xué)習(xí)主要研究如何將富集的模態(tài)上學(xué)習(xí)的知識遷移到信息匱乏的模態(tài),使各個模態(tài)的學(xué)習(xí)互相輔助。主要進展是跨模態(tài)知識遷移網(wǎng)絡(luò)方法。Huang等人提出了一種跨模態(tài)知識遷移網(wǎng)絡(luò),將跨模態(tài)數(shù)據(jù)轉(zhuǎn)換為共同表示用于檢索,其中模態(tài)共享遷移子網(wǎng)絡(luò)利用源域和目標域的模式作為橋梁,將知識同時遷移到兩種模態(tài)。社會多媒體計算作為多媒體數(shù)據(jù)分析的主要應(yīng)用點之一,其通常以用戶為中心進行建模。主要研究進展包括基于排序的多關(guān)聯(lián)因子分析模型、基于關(guān)聯(lián)隱SVM模型的用戶屬性的協(xié)同推斷、多模態(tài)的主題敏感的影響分析方法、基于協(xié)同過濾的內(nèi)容推薦算法等。Chen等人提出了注意力機制協(xié)同過濾內(nèi)容推薦算法,通過設(shè)計元件級的注意力模塊來從多媒體實例中提取富信息的元件,設(shè)計物品級的注意力模塊來為不同的物品進行偏好打分,從而顯著提升了當前最先進的協(xié)同過濾推薦算法。
多媒體數(shù)據(jù)分析是一個充滿活力的多學(xué)科交叉領(lǐng)域,具有廣泛的影響。多媒體數(shù)據(jù)分析是實現(xiàn)跨媒體智能的重要手段,進而可以高效應(yīng)對現(xiàn)實世界中對象復(fù)雜性、數(shù)據(jù)規(guī)?;?、應(yīng)用需求多樣化等挑戰(zhàn)。多媒體數(shù)據(jù)分析的應(yīng)用包含有多媒體數(shù)據(jù)的聚類、索引和內(nèi)容摘要等方向。例如,多媒體數(shù)據(jù)的內(nèi)容摘要不同于傳統(tǒng)的在單模態(tài)上的內(nèi)容摘要方法,需要融合豐富的多媒體數(shù)據(jù)。此外,多模態(tài)無監(jiān)督深度表征學(xué)習(xí)也是最近的研究熱點,其訓(xùn)練不依賴任何標簽,通過對多模態(tài)數(shù)據(jù)內(nèi)在特征的挖掘,找到其間的關(guān)系從而學(xué)習(xí)到高效的特征表示。目前在一些任務(wù)上多模態(tài)無監(jiān)督深度表征學(xué)習(xí)已經(jīng)接近了有監(jiān)督訓(xùn)練的性能。在社會多媒體計算方面,社會多媒體內(nèi)容理解可以通過對多媒體數(shù)據(jù)進行語義分析和關(guān)聯(lián)建模以實現(xiàn)對社會事件的分析、檢測、關(guān)聯(lián)、預(yù)測及決策。其主要應(yīng)用領(lǐng)域包括內(nèi)容監(jiān)測、態(tài)勢分析、智能醫(yī)療、智慧城市等。
11. 多模態(tài)情感計算
所謂“模態(tài)”,英文是modality,每一種信息的來源或者形式,都可以稱為一種模態(tài)。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等。多模態(tài)信息之間具有互補和增強作用,這與大腦通過多種來源的信息感知外在事物是一致的,不同感官會被無意識地自動結(jié)合在一起對信息進行處理,任何感官信息的缺乏或不準確,都將導(dǎo)致大腦對外界信息的理解產(chǎn)生偏差。情感是人類智能的重要組成部分,情感計算的目的是通過賦予計算機識別、理解、表達和適應(yīng)人的情感的能力來建立和諧人機環(huán)境,并使計算機具有更高的、全面的智能。多模態(tài)情感計算是指融合多種模態(tài)信息包括但不限于音頻、視頻、文本和生理信號等模態(tài)進行情感識別、解釋、處理和模擬,促進和諧的人機交互。
有關(guān)情感計算的論述可以追述到二十世紀末的James Russell。1970年,人工智能創(chuàng)始人之一,計算機圖靈獎獲得者,美國麻省理工學(xué)院的Minsky教授在《腦智社會》專著中就情感的重要性專門指出“問題不在于智能機器能否有情感,而在于沒有情感的機器能否實現(xiàn)智能”。1997年,MIT的Rosalind Picard在她的專著中首次提出“情感計算”的概念。之后,情感計算引入機器學(xué)習(xí)方法進行分析,將情感分類分為不同的情感類別進行識別,并且從不同的情感維度(愉悅度和激活度)上表示情感的正負向性和情感程度來量化情感,從而將情感分析建模為一個模式識別問題。因此,不同的機器學(xué)習(xí)方法都被應(yīng)用到了情感計算中,如傳統(tǒng)的支持向量機、隨機森林、隱馬爾科夫模型以及基于事件評價的情感模型等等。近來,隨著深度學(xué)習(xí)的廣泛應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)也被成功地應(yīng)用到了情感計算中。由于情感的時序特性,遞歸神經(jīng)網(wǎng)絡(luò)能夠取得相較于其他網(wǎng)絡(luò)更好的效果。
人類具備多種情感表達方式,并且不同表現(xiàn)方式在表達情感信息時存在一定的互補作用。因此,相比于單模態(tài)情感識別,多模態(tài)情感識別更加完整,更加符合人類自然的行為表達方式。多模態(tài)情感分析的難點在于如何有效融合多模態(tài)信息,利用模態(tài)間的互補性,提升情感分析的能力。1997 年,Duc 等人最先提出“多模態(tài)”(Multi-modal)的概念。Pradeep 總結(jié)了多模態(tài)情感融合的三種基本模式,包括特征層融合、決策層融合和模型層融合。特征層融合在前期融合不同模態(tài)的特征,簡單有效但忽略了不同模態(tài)特征之間的差異性,同時該融合策略很難表示不同模態(tài)之間的時間同步性,并且融合后特征維度太大,容易造成信息冗余甚至引發(fā)“維數(shù)災(zāi)難”;決策層融合在后期綜合不同模態(tài)的預(yù)測,考慮到了不同模態(tài)特征的差異性,但決策層融合沒有考慮到情感特征之間的聯(lián)系,不能充分利用不同模態(tài)特征所蘊含的類別信息,忽略了不同模態(tài)信息的本質(zhì)相關(guān)性;模型層融合依據(jù)于不同模型的內(nèi)在結(jié)構(gòu)進行建模,并且利用深度學(xué)習(xí)方法獲得了更好的效果,是目前研究的熱點。模型層融合的另一種思路是多模態(tài)特征學(xué)習(xí),利用深度學(xué)習(xí)網(wǎng)絡(luò)提取不同模態(tài)信息中的情感共性部分而去除干擾部分,學(xué)習(xí)各個模態(tài)(如音頻、視頻和文本)之間的交互信息,得到魯棒的多模態(tài)情感特征表征。這方面的研究是多模態(tài)情感分析的熱點,吸引了許多研究。如Zadeh 提出Tensor融合,將不同模態(tài)編碼到高層表征然后兩兩模態(tài)之間內(nèi)積拼接得到最終的多模態(tài)表征。
基于多模態(tài)融合的情感計算受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。1998年,美國伊利諾伊大學(xué)和日本 ART 研究院的研究工作者 Chen,Huang和Miyasato等人共同提出了基于表情和語音的雙模態(tài)情感識別框架。2006年,悉尼科技大學(xué)的研究工作者Gunes和Piccard等人建立了基于表情和姿態(tài)的情感數(shù)據(jù)庫,并在該數(shù)據(jù)庫上進行融合表情和姿態(tài)的情感識別實驗。2010年,東南大學(xué)的研究工作者Huang和Jin等人考慮到腦電信號可以充分反映人的生理和心理變化,提出了采用特征融合和決策融合算法實現(xiàn)語音信號和腦電信號的多模態(tài)情感識別。2015年,注意力機制首次被引入到多模態(tài)情感識別領(lǐng)域,該機制能夠考慮到不同模態(tài)對于情感計算的差異貢獻性,并且學(xué)習(xí)在不同時刻動態(tài)地改變各個模態(tài)的權(quán)重。
多模態(tài)情感計算能夠極大地增加情感分析的準確性,強化人機交互的自然度、類人度以及溫度。針對多模態(tài)情感計算的研究,能夠同時促進模態(tài)信息融合、以認知科學(xué)為基礎(chǔ)的視聽覺計算等相關(guān)領(lǐng)域的研究。同時,多模態(tài)情感計算在智能客服、疲勞監(jiān)測、智能教育、智能醫(yī)療等領(lǐng)域有著廣泛地應(yīng)用。例如,利用多模態(tài)情感計算技術(shù),能夠判斷人的情感變化和心理壓力的變化,來偵測人們的一些行為或會話過程中,可能出現(xiàn)的一些心理和精神的異常點,為醫(yī)生做診斷提供輔助。
12. 圖像取證與安全
以圖像為代表的視覺大數(shù)據(jù)作為客觀信息記錄的重要載體,在日常生活中被廣泛應(yīng)用,然而隨著圖像視頻編輯技術(shù)、特別是深度生成對抗和偽造技術(shù)等的快速發(fā)展,圖像視頻極易成為被惡意篡改偽造的對象,在互聯(lián)網(wǎng)和智能手機上廣泛且快速傳播,對網(wǎng)絡(luò)安全和媒體公信力造成巨大威脅。在眼見不為實的背景下,視覺取證技術(shù)應(yīng)運而生,其目的是有效鑒別圖像視頻數(shù)據(jù)的真實性、追溯可疑圖像視頻來源。不同于主動式的圖像水印、數(shù)字簽名技術(shù),圖像視頻取證技術(shù)采用被動方式,僅從數(shù)據(jù)本身抽取可用線索,最終辨別圖像視頻的真實性。
雖然圖像篡改偽造問題早在19世紀照相機發(fā)明不久之后就已出現(xiàn),作為一個科學(xué)問題被廣泛研究的圖像視頻取證起源于2000年,是一個相對較新的研究領(lǐng)域。早期的圖像取證方法受自然圖像統(tǒng)計模型的啟發(fā),關(guān)注篡改圖像或計算機合成圖像不同于真實圖像的統(tǒng)計特征。由于假圖像與真圖像在視覺上很難區(qū)分,研究者多從高頻噪聲層面設(shè)計手工特征,如噪聲的高階矩特征、小波域特征、馬爾科夫轉(zhuǎn)移矩陣特征、鄰域像素共生矩陣特征等。該研究思路下取證問題與圖像隱寫分析問題非常相似,這些手工特征的設(shè)計很多借鑒自發(fā)展較為成熟的圖像隱寫分析領(lǐng)域。隨著研究深入,用于圖像視頻取證的特征維度越來越高,同時分類器也經(jīng)由了簡單線性分類器發(fā)展到核分類器、集成分類器再到近年來流行的深度學(xué)習(xí)網(wǎng)絡(luò)。
與基于統(tǒng)計模型的取證研究同時發(fā)展的另一種取證方法是多線索取證。此類方法通過發(fā)掘各成像環(huán)節(jié)中成像模型與成像規(guī)律被篡改行為破壞的線索來揭示篡改。各種類型的多線索取證方法共同構(gòu)成有效的取證工具集,主要包括相機模式噪聲取證、Color Filter Array (彩色過濾器陣列,簡稱CFA)插值算法取證、JPEG壓縮規(guī)律取證、場景光照一致性取證、場景幾何約束取證、、圖像操作取證等。各類方法的設(shè)計從特定成像環(huán)節(jié)的數(shù)學(xué)模型出發(fā),旨在通過建模來還原篡改行為對正常模型的破壞痕跡。此外,基于計算機視覺中的成熟技術(shù),有研究者提出對篡改圖像中復(fù)制粘貼同源區(qū)域進行配準定位;以及基于檢索與匹配技術(shù)從海量圖像中重建篡改圖像來源和篡改過程的取證溯源技術(shù)。
深度學(xué)習(xí)技術(shù)的發(fā)展,特別是深度偽造技術(shù)的出現(xiàn),對視覺取證領(lǐng)域也帶來了深遠的影響。不同于一般計算機視覺任務(wù),圖像取證深度模型一般在圖像噪聲域設(shè)計,目的是增強包含篡改痕跡的高頻微小信號。近兩年不斷有新的深度模型被提出,研究者在模型的層數(shù)、架構(gòu)、損失設(shè)計、圖像濾波層以及各種訓(xùn)練技巧上進行了大量嘗試。最新的深度取證模型在標準數(shù)據(jù)庫上已經(jīng)能夠超越傳統(tǒng)統(tǒng)計模型的預(yù)測性能,然而此類取證方法仍然面臨實際場景中圖像壓縮、圖像質(zhì)量造成的不利影響以及深度取證方法本身可解釋性弱的問題。
圖像取證研究在內(nèi)容安全方面有著巨大應(yīng)用需求,對于互聯(lián)網(wǎng)虛假媒體檢測、司法鑒定、保險反欺詐等都有實際應(yīng)用場景。“華南虎”、“廣場鴿”、“AI換臉”等事件中,圖像取證技術(shù)都發(fā)揮了重要作用。微軟公司與取證研究專家合作開發(fā)的敏感圖像內(nèi)容指紋比對技術(shù)已大規(guī)模應(yīng)用于各大圖像分享平臺。隨著智能偽造技術(shù)的快速發(fā)展,其危害日益嚴重,取證技術(shù)勢必在內(nèi)容安全應(yīng)用中發(fā)揮越來越大的作用。
*本文來自模式識別國家重點實驗室組織發(fā)布的模式識別學(xué)科發(fā)展報告,已得到模式識別國家重點實驗室授權(quán)發(fā)布。