散文網(wǎng) » 科技 »數(shù)碼 » 林乾：深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋

林乾：深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋

2019-08-22 13:46 作者:智源社區(qū) 0人讀過 | 我要投稿

當(dāng)前人工智能面臨如下重大的理論挑戰(zhàn)：可計算性、可解釋性、泛化性，以及穩(wěn)定性。圍繞這些基礎(chǔ)問題，北京智源人工智能研究院從數(shù)學(xué)、統(tǒng)計和計算的角度，設(shè)立了“人工智能的數(shù)理基礎(chǔ)”重大研究方向，并在該方向首先啟動了三方面研究（可解釋性的新型人工智能模型，新型的機(jī)器學(xué)習(xí)算法，深度學(xué)習(xí)的基礎(chǔ)理論），以期打破基于計算機(jī)實驗和神經(jīng)科學(xué)的人工智能的慣用建模范式，建立以數(shù)學(xué)與統(tǒng)計理論為第一原理的新一代人工智能方法論。

2019 年 5 月 13 日，“智源論壇（第2期）——人工智能的數(shù)理基礎(chǔ)”系列報告第二場再度如約而至。本次論壇在北京大學(xué)教授、智源研究項?經(jīng)理夏壁燦的主持下正式開始。清華大學(xué)工業(yè)工程系統(tǒng)計學(xué)研究中心助理教授林乾分享了他在人工智能數(shù)理基礎(chǔ)領(lǐng)域的研究探索。清華大學(xué)工業(yè)工程系統(tǒng)計學(xué)研究中心助理教授林乾的報告主題為《Towards a statistical understanding of deep network》，其在分享過程中表示，希望能夠通過高維充分性降維理論和方法，得到深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋。

林乾在報告開篇再次強(qiáng)調(diào)了數(shù)學(xué)與統(tǒng)計學(xué)的差異，即前者確定性多一些，后者則是對問題思考的本身，哲學(xué)思辨更多。

查看林乾完整報告視頻請點擊此處

在統(tǒng)計或計算機(jī)數(shù)據(jù)科學(xué)中，大家最關(guān)注的一類問題是回歸和分類：我們觀察的數(shù)據(jù)通常都是一些協(xié)變量，同時對一些響應(yīng)變量感興趣，通常情況下我我們會對這些數(shù)據(jù)進(jìn)行建模，建模時一般認(rèn)為這些數(shù)據(jù)間有關(guān)系，然后用協(xié)變量對響應(yīng)變量做解釋。

第一個，也是大家司空見慣的就是有一個線性回歸，就認(rèn)為 Y 是線性依賴于我們的響應(yīng)變量，統(tǒng)計中很多時候沒辦法做到確定性，對于沒觀察到的/不知道的，通常會作為一個噪音引入。這就可能涉及到很多問題，比如觀察到的 X 太少，導(dǎo)致噪音特別大等。從線性模型提出，到現(xiàn)在至少半個世紀(jì)過去了，高維數(shù)據(jù)的分析已經(jīng)研究得很透徹，這個模型有一個很明顯的缺陷，就是此時的 Y 線性依賴于 X，如果 Y 是零一變量，就肯定沒法用線性模型。

這時就會轉(zhuǎn)向 Logistic regression，考慮 Y=1 給定 X 的概率密度的比值。從這兩個模型來看，我們的假設(shè)都是說，如果給定 X 指向一個方向的投影，試圖用這個投影去解釋 Y。

這種情況下如果更進(jìn)一步來看單指標(biāo)模型，Y 可以非參依賴于這個投影，F(xiàn) 是一個不知道的函數(shù)，此時可以用非參的方法或是其他方法，就相當(dāng)于增加一種建模方法。但和前面一樣，你假定 X 給定一個方向去解釋 Y，這一點我們即使在做 PCA 的時候，都知道一個 Principal Component 可能不能解釋大部分方差，所以我們可以把這個模型變得更加廣泛一點，變成多指標(biāo)模型，我可以考慮 X 向若干個方向的投影，投影下來之后，我再用這些東西來解釋 Y，所以這里實際上是兩步過程，先做一個降維（Dimension Reduction），再做一個非參數(shù)回歸，或者用其他辦法。

這里假定 X 是不知道的，當(dāng)然這個模型很寬泛，我們能想到的所有模型都可以由它來逼近。但這里的問題是，這個時候 β1、βd 沒辦法單獨估計，丟失了可識別性。相對來說它的好處是，這時 β1 到 βd 張成的空間是可以估計的，所以這兩個觀察又使大家在過去二十年提出了一個充分性降維（Sufficient Dimension Reduction，SDR）的統(tǒng)計框架，主要想法就是，如果認(rèn)為數(shù)據(jù)是從這樣一個模型出來的，我們主要的著力點就在于估計由 β1 到 βd 張成的空間，得到這個空間之后再去做非參數(shù)回歸，所以這個想法相對簡單。在過去若干年也產(chǎn)生了很多方法，例如 Sliced inverse regression、Sliced Average Variance Estimation 等很多，過去二十多年基本上都是圍繞這一思路來提出這種算法。

當(dāng)然回過頭來看，大家對線性回歸已經(jīng)研究得很好了，都覺得如果這個模型是線性的，就可以解決所有問題?，F(xiàn)在我們對機(jī)器學(xué)習(xí)的要求是可解釋性和穩(wěn)健性等，但如果我們提的要求線性模型都做不到，也就不應(yīng)該再對一般模型提更多要求。

對于線性模型，如果不做任何假設(shè)，樣本量小于維數(shù)時，就無法估計 β。二十世紀(jì)九十年代到二十一世紀(jì)初，有提出可以加 Sparsity Assumption，這一時期的代表作包括 Tibshirani 的 Losso等：

對線性模型而言是如此，那么單指標(biāo)模型是否也同樣存這些問題？

過去 20 年來，以分片逆回歸為代表的充分性降維方法在實際應(yīng)用中取得了很多成功，但是對于高維數(shù)據(jù)，這些方法都面臨各種各樣的不足。領(lǐng)域內(nèi)的專家一直希望能夠建立相對豐富的充分性降維方法的高維理論。

林乾過去幾年主要致力于從統(tǒng)計決策理論角度理解充分性降維問題，成功探明了分片逆回歸方法在高維數(shù)據(jù)時所面臨的理論障礙，并通過系列工作建立了從線性回歸到非線性多指標(biāo)模型之間的一座橋梁，從而指出一個潛在可能性：線性回歸的理論方法可以平行移植到單指標(biāo)或者多指標(biāo)模型中去。圍繞這個突破將會產(chǎn)生一系列的衍生問題，從而極大地豐富充分性降維問題的理論與方法。

關(guān)于主辦方

北京智源人工智能研究院（Beijing Academy of Artificial Intelligence，BAAI）是在科技部和北京市委市政府的指導(dǎo)和支持下，由北京市科委和海淀區(qū)政府推動成立，依托北京大學(xué)、清華大學(xué)、中國科學(xué)院、百度、小米、字節(jié)跳動、美團(tuán)點評、曠視科技等北京人工智能領(lǐng)域優(yōu)勢單位共建的新型研究機(jī)構(gòu)。

標(biāo)簽：

林乾：深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

林乾：深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋

林乾：深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

林乾：深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋

本文作者的其他文章

林乾：深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

林乾：深度神經(jīng)網(wǎng)絡(luò)在參數(shù)量遠(yuǎn)大于樣本量時不會過擬合的幾何解釋的評論 (共條)