何愷明團(tuán)隊(duì)新作!深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)新視角:通過相關(guān)圖表達(dá)理解神經(jīng)網(wǎng)絡(luò)
何愷明團(tuán)隊(duì)新作來了!從一個(gè)新奇的角度對神經(jīng)網(wǎng)絡(luò)的表示與設(shè)計(jì)進(jìn)行探索,提出了一種新穎的相關(guān)圖表示方式。有助于對現(xiàn)有網(wǎng)絡(luò)架構(gòu)進(jìn)行更深層次的分析與性能評價(jià)。

導(dǎo)語:愷明大神出品,必屬精品。Facebook的研究員從一個(gè)新奇的角度對神經(jīng)網(wǎng)絡(luò)的表示與設(shè)計(jì)進(jìn)行探索,提出了一種新穎的相關(guān)圖表示方式。它有助于對現(xiàn)有網(wǎng)絡(luò)架構(gòu)進(jìn)行更深層次的分析與性能評價(jià)。這種相關(guān)圖的表示方式、實(shí)驗(yàn)發(fā)現(xiàn)等確實(shí)挺有意思,也與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有一定相通之處,故推薦各位同學(xué)。
Abstract
神經(jīng)網(wǎng)絡(luò)通用被表示成圖的形式(即神經(jīng)元之間通過邊進(jìn)行鏈接),盡管這種表示方式得到了廣泛應(yīng)用,但關(guān)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與性能之間的關(guān)系卻鮮少有所了解。
作者系統(tǒng)的研究了神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)是如何影響其性能的,為達(dá)成該目的,作者開發(fā)了一種新穎的稱之為relational graph
(相關(guān)圖)的圖表示方式,神經(jīng)網(wǎng)絡(luò)的層沿圖像結(jié)構(gòu)進(jìn)行多次信息交互?;谶@種圖表示方式,作者發(fā)現(xiàn)了這樣幾點(diǎn)有意思發(fā)現(xiàn):
相關(guān)圖的靶點(diǎn)(sweet spot)可以促使神經(jīng)網(wǎng)絡(luò)的性能極大提升;
神經(jīng)網(wǎng)絡(luò)的性能與聚類系數(shù)、平均路徑長度成平滑函數(shù)關(guān)系;
該發(fā)現(xiàn)具有跨數(shù)據(jù)集、跨任務(wù)一致性;
優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與真實(shí)生物神經(jīng)網(wǎng)絡(luò)具有驚人的相似性。
該文為神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)與理解提供了一種新方向。
Introduction
神經(jīng)網(wǎng)絡(luò)可以通過計(jì)算圖方式進(jìn)行表示,神經(jīng)元可以表示為節(jié)點(diǎn),不同層神經(jīng)網(wǎng)絡(luò)之間的連接可以通過有向邊表示。這種圖表示方式說明了神經(jīng)網(wǎng)絡(luò)如何進(jìn)行信息傳遞。
已有研究表明:神經(jīng)網(wǎng)絡(luò)的性能嚴(yán)重依賴于網(wǎng)絡(luò)架構(gòu)。但是網(wǎng)絡(luò)架構(gòu)與性能之間的關(guān)聯(lián)性卻鮮少有所研究,而這對于NAS尤為重要。從這個(gè)角度出發(fā),有這樣幾個(gè)開放性的問題:(1) 網(wǎng)絡(luò)架構(gòu)與其性能之間是否存在系統(tǒng)性的聯(lián)系?(2) 具有優(yōu)秀性能的神經(jīng)網(wǎng)絡(luò)具有什么樣的結(jié)構(gòu)形式?(3)這種結(jié)構(gòu)形式跨數(shù)據(jù)集、跨任務(wù)的泛化性能如何?(4)是否存在一種有效的方式可以確認(rèn)給定網(wǎng)絡(luò)具有優(yōu)秀性能?
構(gòu)建這樣一種關(guān)聯(lián)性同時(shí)具有科學(xué)與使用價(jià)值,因其有助于設(shè)計(jì)更高效、更高精度額網(wǎng)絡(luò)架構(gòu),同時(shí)有助于新硬件架構(gòu)的設(shè)計(jì),理解神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)有助于促進(jìn)深度學(xué)習(xí)的前進(jìn)。
然而,由于如何將神經(jīng)網(wǎng)絡(luò)映射為圖形式并不清晰明了,進(jìn)而構(gòu)建這樣一種關(guān)聯(lián)性是非常困難的。計(jì)算圖方式一種自然的選擇,但其存在這樣兩個(gè)局限性:(1)泛化性能缺失;(2)生物神經(jīng)元與神經(jīng)網(wǎng)絡(luò)的聯(lián)系缺失(生物神經(jīng)網(wǎng)絡(luò)不能通過簡單的有向無環(huán)圖表示)。
為系統(tǒng)的研究神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)與性能之間的關(guān)聯(lián)性,作者設(shè)計(jì)了一種稱之為相關(guān)圖的神經(jīng)網(wǎng)絡(luò)圖表示方式。關(guān)鍵聚焦于信息交互,而非交單的有向數(shù)據(jù)流。下圖a給出了示意圖,神經(jīng)元之間進(jìn)行多次信息交互,進(jìn)而可以確保新的表示方式具有更豐富多樣性的網(wǎng)絡(luò)表示。

作者同時(shí)還設(shè)計(jì)了一種稱之為"WS-flex"的圖生成器,它有助于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)空間的系統(tǒng)探索。基于神經(jīng)科學(xué)的發(fā)現(xiàn),作者通過聚類系數(shù)與平均路徑長度描述神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)架構(gòu)具有靈活性與通用性,可以將其轉(zhuǎn)換為多層感知器與卷積神經(jīng)網(wǎng)絡(luò)(見上圖c和d)。
基于圖像分類數(shù)據(jù)集CIFAR10與ImageNet,作者針對網(wǎng)絡(luò)結(jié)構(gòu)與性能之間的關(guān)聯(lián)性進(jìn)行了系統(tǒng)研究并得到了這樣幾點(diǎn)發(fā)現(xiàn):
相關(guān)圖的靶點(diǎn)(sweet spot)可以促使神經(jīng)網(wǎng)絡(luò)的性能極大提升;
神經(jīng)網(wǎng)絡(luò)的性能與聚類系數(shù)、平均路徑長度成平滑函數(shù)關(guān)系;
該發(fā)現(xiàn)具有跨數(shù)據(jù)集、跨任務(wù)一致性;
相關(guān)圖的靶點(diǎn)可以進(jìn)行高效辨別,僅需要少量的相關(guān)圖與少量訓(xùn)練;
優(yōu)秀的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與真實(shí)生物神經(jīng)網(wǎng)絡(luò)具有驚人的相似性。
Relational Graph
為更好的探索神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu),我們首先介紹一下相關(guān)圖的概念,并說明相關(guān)圖的可以靈活的表示不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
Message Exchange over Graph


Fixed-width MLPs as Relational Graph
多層感知器由多個(gè)多層神經(jīng)元構(gòu)成,每個(gè)神經(jīng)元進(jìn)行輸入的加權(quán)求和,同時(shí)后接激活層。假設(shè)MLP的第r層以作為輸入,作為輸出,那么神經(jīng)元的計(jì)算可以描述為:



General Neural Networks as Relational Graph
前述公式描述奠定了定長MLP表示為相關(guān)圖的基礎(chǔ),在這部分內(nèi)容中,我們將進(jìn)一步討論如何將其擴(kuò)展為更廣義的神經(jīng)網(wǎng)絡(luò)。
Variable-width MLP. 變長MLP是一種更通用的形式,無論在MLP中還是在CNN中,特征維度通常是變長的。作者提出通過Concat方式將特征擴(kuò)展為特征向量,同時(shí)將信息函數(shù)擴(kuò)展為矩陣形式,此時(shí)的變換過程描述為:

同時(shí)允許(1) 不同層的相同階段具有不同的維度;(2) 同一層內(nèi),不同節(jié)點(diǎn)具有不同的維度。這種更廣義的定義可以得到更靈活的圖表示。
CNN as relational graph. 我們進(jìn)一步將相關(guān)圖應(yīng)用到CNN,它的輸入為張量X(r),信息函數(shù)同樣進(jìn)行類似擴(kuò)展,此時(shí)的變換過程可以描述為:

前述Table1給出了更詳細(xì)的節(jié)點(diǎn)特征、信息函數(shù)以及匯聚函數(shù)在不同網(wǎng)絡(luò)中的表現(xiàn)形式。
Exploring Relational Graph
在該部分內(nèi)容中,我們將描述如何設(shè)計(jì)與探索相關(guān)圖空間以更好的研究神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其性能之間的關(guān)聯(lián)性。需要從三個(gè)維度進(jìn)行考慮:
Graph Measures;
Graph Generators;
Control Computational Budget
Selection of Graph Measure
給定復(fù)雜的圖結(jié)構(gòu),GraphMeasures
將用于對圖屬性進(jìn)行描述。該文主要聚焦于一個(gè)全局圖度量(average path length)與一個(gè)局部圖度量(clustering coefficient)。注:這兩個(gè)度量方式已被廣泛應(yīng)用與神經(jīng)科學(xué)領(lǐng)域。更詳細(xì)定義如下:
Average path length measure the average shortest path distance between any pairs of nodes;
clustering coefficient measure the proportion of edges between the nodes within a given node's neighborhood, divided by the number of edges that could possibly exist between them, averaged over all the nodes.
Design of Graph Generators
給定所選擇的圖度量方式后,我們期望生成大量的滿足圖度量空間的相關(guān)圖,此時(shí)需要一個(gè)圖生成器。然而,傳統(tǒng)的圖生成器僅僅能生成有限類別的圖,而基于學(xué)習(xí)的方法則主要用于模仿樣板圖。
上圖左說明了現(xiàn)有圖生成技術(shù)的局限性:僅能生成特定類型的圖。為此作者提出了一種新的圖生成器WS-flex,它可以生成更廣義的圖結(jié)果(考考上圖右)。關(guān)于WS-flex圖像生成器的描述見下圖,為避免誤導(dǎo)各位同學(xué),直接將原文搬移過來:
WS-flex可以生成更多樣性的相關(guān)圖,也就是說它幾乎可以覆蓋所有經(jīng)典圖生成方法所生成的圖,見上示意圖。它通過松弛節(jié)點(diǎn)的約束性得生成WS模型。特別的,WS-flex可以通過節(jié)點(diǎn)參數(shù)n、平均自由度k以及重置概率p進(jìn)行描述。而圖中的邊數(shù)量可以通過決定。WS-flex首先常見了一個(gè)包含節(jié)點(diǎn)連接的圖,然后隨機(jī)挑選e與n節(jié)點(diǎn)并進(jìn)行連接,最后所有邊以概率p重置。作者采用WS-flex生成器在相應(yīng)空間進(jìn)行均勻平滑采樣,最終得到了3942個(gè)圖,見Figure1c。
Controlling Computational Budget
為更好的對不同圖表示的神經(jīng)網(wǎng)絡(luò)進(jìn)行比較,我們需要確保所有的網(wǎng)絡(luò)具有相同的復(fù)雜度,從而確保了其性能差異僅源自結(jié)構(gòu)的差異。作者提出采用FLOPS作為度量準(zhǔn)則,首先計(jì)算baseline網(wǎng)絡(luò)的FLOPS,然后將其作為參考調(diào)節(jié)不同的網(wǎng)絡(luò)以匹配該復(fù)雜度(容差0.5%)。
Experimental Setup
在CIFAR10實(shí)驗(yàn)過程中,作者采用具有5層512隱層神經(jīng)元的MLP作為baseline,輸入為3072維,每個(gè)MLP層具有ReLU激活與BatchNorm。Batch=128,合計(jì)訓(xùn)練200epoch,初始學(xué)習(xí)率為0.1,學(xué)習(xí)率衰減機(jī)制為cosine。采用不同種子點(diǎn)訓(xùn)練5次取平均。
在ImageNet實(shí)驗(yàn)過程中,采用了三種類型的ResNet(ResNet34,ResNet34-sep,ResNet50)、EfficientNet-B0以及簡單的類似VGG的8層CNN。所有模型分別訓(xùn)練100epoch,學(xué)習(xí)率方面同前,ResNet的Batch=256,EfficientNet-B0的batch=512。采用了不同種子點(diǎn)訓(xùn)練三次取平均。
下圖給出了不同實(shí)驗(yàn)結(jié)果的系統(tǒng)性效果圖,acf則給出了圖度量的熱圖與性能的示意圖。
總而言之,上圖f示出了現(xiàn)有圖結(jié)構(gòu)優(yōu)于完整圖baseline,而最佳相關(guān)圖在CIFAR10上以1.4%指標(biāo)優(yōu)于完整圖baseline,在ImageNet上0.5%~1.2%的指標(biāo)優(yōu)于完整圖baseline。
與此同時(shí),我們可以看到:具有優(yōu)異性能的相關(guān)圖傾向于聚焦于靶點(diǎn)附近(見上圖f)??梢酝ㄟ^這樣幾個(gè)步驟尋找該靶點(diǎn):
將上圖a中的3942圖下采樣為52個(gè)粗粒度的區(qū)域,每個(gè)區(qū)域記錄了對應(yīng)區(qū)域圖的性能;
記錄具有最佳平均性能的粗粒度區(qū)域;
與此同時(shí)記錄下與最佳平均性能相關(guān)的其他區(qū)域;
覆蓋上述區(qū)域的最小面積框即為靶點(diǎn)。CIFAR10數(shù)據(jù)集上的對于5層MLP而言,它的靶點(diǎn)區(qū)域?yàn)?/p>

如上圖bd所示,模型性能與圖度量準(zhǔn)則之間存在二階多項(xiàng)式關(guān)系,呈現(xiàn)平滑U型相關(guān)性。
接下來,我們再來分析一下相關(guān)圖跨跨數(shù)據(jù)集方面的一致性。從上圖f可以看到:靶點(diǎn)位置具有跨網(wǎng)絡(luò)結(jié)構(gòu)一致性。
全文到此結(jié)束,更多實(shí)驗(yàn)結(jié)果建議去查看原文。作者在文中進(jìn)行了大量的消融實(shí)驗(yàn)、關(guān)聯(lián)性討論、實(shí)現(xiàn)探討以及神經(jīng)網(wǎng)絡(luò)與GNN的關(guān)聯(lián)性。為避免誤導(dǎo)各位同學(xué),這里就不對實(shí)驗(yàn)部分進(jìn)行過多介紹,前面主要針對核心實(shí)驗(yàn)結(jié)果進(jìn)行了說明。更多的實(shí)驗(yàn)分析建議各位同學(xué)去查看原文,以更好的理解作者想要表達(dá)的意思,上文僅為筆者的一點(diǎn)點(diǎn)記錄,難免有理解錯(cuò)誤之處,還望擔(dān)待。
Conclusion
該文提出了一種新的視角:采用相關(guān)圖表達(dá)分析理解神經(jīng)網(wǎng)絡(luò)。該文為為傳統(tǒng)計(jì)算架構(gòu)到圖架構(gòu)研究提供了一種信息過渡。與此同時(shí),其他科學(xué)領(lǐng)域的的優(yōu)秀圖結(jié)構(gòu)與方法可以為深度神經(jīng)網(wǎng)絡(luò)的理解與設(shè)計(jì)提供幫助,該文所提方法有助于深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)的理解與設(shè)計(jì),為未來高效而輕量的網(wǎng)絡(luò)設(shè)計(jì)提供了一種引導(dǎo)。