散文網(wǎng) » 科技 »學(xué)習(xí) » 【學(xué)術(shù)人生】Yoshua Bengio：我的一生

【學(xué)術(shù)人生】Yoshua Bengio：我的一生

2023-03-06 12:23 作者:人工智能前沿講習(xí) 0人讀過(guò) | 我要投稿

當(dāng)你初入江湖，迷茫不知道該干什么的時(shí)候，不妨去模仿前人是如何進(jìn)行科研的，并從中歸納出最適合自己的道路。為此，我們推出“學(xué)術(shù)人生”專(zhuān)欄，介紹科研的方法與經(jīng)驗(yàn)，為你的科研學(xué)習(xí)提供幫助，敬請(qǐng)關(guān)注。

2018 年圖靈獎(jiǎng)獲得者、AI 先驅(qū)、深度學(xué)習(xí)三巨頭之一、對(duì)抗生成網(wǎng)絡(luò) GAN、標(biāo)志性的銀灰卷發(fā)和濃眉，如果還沒(méi)猜到的話，當(dāng)你看到這個(gè)封面，一定就會(huì)意識(shí)到自己在學(xué)習(xí)的路上，已經(jīng)或間接或直接地拜讀過(guò)大佬的著作了。

看到花書(shū)的封面，和前面的關(guān)鍵詞，也許你會(huì)意識(shí)到，他就是——Yoshua Bengio。

從下面這個(gè)記錄可以看出，他的著作在谷歌學(xué)術(shù)上的引用量也是一騎絕塵。

就在這兩天的 NeurIPS 2022 New in ML Workshop 上，Yoshua Bengio 做了一個(gè) Live Talk，介紹了自己從本科畢業(yè)開(kāi)始，一直到現(xiàn)在的人生之路。

鏈接:
https://nehzux.github.io/NewInML2022NeurIPS/assets/YoshuaBengio-NewInML-NeurIPS-28nov2022.pdf

接下來(lái)，就是Bengio在大會(huì)上親口講述“自己一生”的故事。

從最初本科畢業(yè)時(shí)的“廣度優(yōu)先搜索”，了解到 Hinton 的連接主義，到探索人腦、初代語(yǔ)言模型、注意力機(jī)制等等，以及度過(guò)人工智能寒冬，再到現(xiàn)在探索抽象、生成流網(wǎng)絡(luò)、Ai4Science、HLAI(人類(lèi)級(jí)別智能)、意識(shí)先驗(yàn)、System-2、因果推斷、元學(xué)習(xí)、模塊化等重要且新穎的領(lǐng)域。Yoshua Bengio 回顧了自己的科研生涯，他說(shuō)“Staying Humble”。

愛(ài)上一個(gè)研究方向

一開(kāi)始，Yoshua 講述了“他是如何愛(ài)上一個(gè)研究方向”。

1985 - 1986 年，他剛讀完本科，思索自己下一步要做什么，閱讀了大量不同領(lǐng)域的論文，將視線聚焦于神經(jīng)網(wǎng)絡(luò)研究，尤其是 Geoff Hinton 和 David Rumelhart 等其他早期連接主義者的論文。
1986 - 1988 年，Yoshua 進(jìn)一步閱讀玻爾茲曼機(jī)，實(shí)現(xiàn)音素分類(lèi)，完成了關(guān)于語(yǔ)音識(shí)別的玻爾茲曼機(jī)的碩士論文，而后當(dāng)了解到反向傳播時(shí)，對(duì)它感到興奮，并開(kāi)始使用它，在之后參加了 1988 年連接主義的暑期學(xué)校，遇到了許多其他充滿熱情的研究生和研究人員們。1988-1991 年，Yoshua 完成了關(guān)于神經(jīng)網(wǎng)絡(luò)(RNNs 和 ConvNets)和 HMM 混合的博士論文。

神經(jīng)網(wǎng)絡(luò)與人工智能

隨后，Yoshua 闡述了自己的工作中對(duì)于神經(jīng)網(wǎng)絡(luò)與 AI 的理解。從一個(gè)令人興奮的先驗(yàn)知識(shí)出發(fā)，他指出，通過(guò)學(xué)習(xí)，智能（機(jī)器、人類(lèi)或動(dòng)物）的產(chǎn)生是有一些原則的，這些原則非常簡(jiǎn)單，可以被簡(jiǎn)潔地描述出來(lái)，類(lèi)似于物理定律，也就是說(shuō)，我們的智能不只是一堆技巧和知識(shí)的結(jié)果，而是獲取知識(shí)的一般機(jī)制。

他還辨析了傳統(tǒng) AI 和機(jī)器學(xué)習(xí)的要點(diǎn)，提到了人工智能的機(jī)器學(xué)習(xí)方法：

經(jīng)典的 AI 一般是基于規(guī)則、基于符號(hào)的：其知識(shí)由人類(lèi)提供，但直覺(jué)知識(shí)是不可傳播的，機(jī)器只做推理工作，沒(méi)有很強(qiáng)的學(xué)習(xí)和適應(yīng)能力，對(duì)不確定性的處理能力不足。
而機(jī)器學(xué)習(xí)則試圖解決這些問(wèn)題：在很大程度上取得了成功，但更高層次的（有意識(shí)的）認(rèn)知尚未實(shí)現(xiàn)。

而后 Yoshua 從維度詛咒和分布式表示（指數(shù)級(jí)優(yōu)勢(shì)）這兩個(gè)細(xì)節(jié)出發(fā)，強(qiáng)調(diào)了促使 ML 向 AI 轉(zhuǎn)變的五個(gè)關(guān)鍵因素：

海量&海量的數(shù)據(jù)；
非常靈活的模型；
足夠的算力；
計(jì)算效率推斷；
強(qiáng)大的先驗(yàn)知識(shí)，可以打破“維度詛咒”，實(shí)現(xiàn)對(duì)新情況的強(qiáng)泛化。

他還提到了腦啟發(fā)（Brain-inspired），以及如下特性：

大量簡(jiǎn)單自適應(yīng)計(jì)算單元的協(xié)同作用；
關(guān)注分布式表示（如單詞表示）；
視智能為結(jié)合的產(chǎn)物（近似優(yōu)化器、初始架構(gòu)/參數(shù)化）；
端到端學(xué)習(xí)

長(zhǎng)期依賴和梯度下降

緊接著，Yoshua 回顧了機(jī)器學(xué)習(xí) 101 課程的要點(diǎn)：

函數(shù)族；
可調(diào)參數(shù)；
從未知數(shù)據(jù)中抽樣的例子產(chǎn)生分布；
對(duì)經(jīng)過(guò)訓(xùn)練的函數(shù)所產(chǎn)生的誤差的度量；
近似最小化算法搜索最佳參數(shù)選擇，迭代減少平均訓(xùn)練誤差

又引出了他們自己 1994 年的工作?"Learning Long-Term Dependencies with Gradient Descent is Difficult"?，并強(qiáng)調(diào)了他的經(jīng)驗(yàn)：負(fù)面結(jié)果可能非常重要，它教會(huì)了我們一些東西，推動(dòng)了許多下游研究，比如 2014 年關(guān)于自注意力機(jī)制的工作。接下來(lái)他展開(kāi)介紹了這項(xiàng)工作：如何存儲(chǔ) 1 bit？在某些維度上有多個(gè)引力盆地的動(dòng)力學(xué)

如果動(dòng)力系統(tǒng)在某些維度上有多個(gè)吸引域，則狀態(tài)的某些子空間可以存儲(chǔ) 1 ?bit 或多個(gè) bit 信息。

在有界噪聲存在的情況下穩(wěn)健地存儲(chǔ) 1 bit：

光譜半徑 > 1，噪聲可以踢出吸引子的狀態(tài)（不穩(wěn)定）；
而當(dāng)半徑 < 1時(shí)就不是這樣了（收縮→穩(wěn)定）。

可靠地存儲(chǔ)→消失的梯度

可靠地存儲(chǔ)比特信息需要譜半徑 < 1
譜半徑 < 1的 T 個(gè)矩陣的乘積是一個(gè)矩陣，其譜半徑在 T 上以指數(shù)速度收斂于 0。

如果 Jacobian 矩陣的譜半徑 < 1 →傳播梯度消失

為什么它會(huì)損害基于梯度的學(xué)習(xí)？

與短期依賴關(guān)系相比，長(zhǎng)期依賴關(guān)系得到的權(quán)重是指數(shù)級(jí)小的(以 T 為單位)。

當(dāng)譜半徑 < 1時(shí)，時(shí)間差越長(zhǎng)，譜半徑越小。

深度學(xué)習(xí)：學(xué)習(xí)內(nèi)部表征

深度學(xué)習(xí)并不像其他機(jī)器學(xué)習(xí)方法：

沒(méi)有中間表示（線性）
或固定的（通常是非常高維的）中間表示（支持向量機(jī)、內(nèi)核機(jī)）

那么什么是好的表征形式呢？——使其他或下游任務(wù)更容易。

于是 Yoshua 又回顧了他們 2003 年的經(jīng)典工作《A Neural Probabilistic Language Model》，這是首次用神經(jīng)網(wǎng)絡(luò)來(lái)解決語(yǔ)言模型的問(wèn)題，也為后來(lái)深度學(xué)習(xí)在解決語(yǔ)言模型問(wèn)題甚至很多別的 NLP 問(wèn)題時(shí)，奠定了堅(jiān)實(shí)的基礎(chǔ)（比如之后 word2vec 的提出）。

每個(gè)詞由一個(gè)分布式連續(xù)值代碼向量表示=嵌入；
跨n-gram（單詞元組）共享；
泛化到語(yǔ)義上與訓(xùn)練序列相似的單詞序列

為什么要設(shè)置多層（multiple layer）？——世界是可構(gòu)成的

具有不斷增加的抽象級(jí)別的表示層次；
每個(gè)階段都是一種可訓(xùn)練的特征變換。
圖像識(shí)別：像素→邊緣→文本→主題→零件→物體；
文本：文字→單詞→詞組→從句→句子→故事；
語(yǔ)音：樣本→譜帶→聲音→……→電話→音素→單。詞

隨著深度學(xué)習(xí)的不斷發(fā)展，不止 NLP 領(lǐng)域，語(yǔ)音和圖像也邁出了重要一步：

但其實(shí) 1996-2012 年也是神經(jīng)網(wǎng)絡(luò)的寒冬：

AI 研究失去了達(dá)到人類(lèi)智能水平的雄心
關(guān)注“更簡(jiǎn)單”(更容易分析)的機(jī)器學(xué)習(xí)
很難說(shuō)服研究生進(jìn)行神經(jīng)網(wǎng)絡(luò)的研究

這需要堅(jiān)持下去，但也要處理一些棘手的問(wèn)題：

遵循直覺(jué)
但嘗試通過(guò)實(shí)驗(yàn)或數(shù)學(xué)方法驗(yàn)證
理清思路以澄清問(wèn)題，提出“為什么”問(wèn)題，試著去理解
支持小組的重要性（CIFAR計(jì)劃）

生成對(duì)抗網(wǎng)絡(luò) GAN

自 2010 年以來(lái)，Yoshua 關(guān)于生成式深度學(xué)習(xí)的論文，尤其是和 Ian Goodfellow 共同研究的生成性對(duì)抗網(wǎng)絡(luò)（GAN），這篇經(jīng)典之作更是引發(fā)了計(jì)算機(jī)視覺(jué)和圖形學(xué)領(lǐng)域的深刻革命。

GAN 以其優(yōu)越的性能，在短短兩年時(shí)間里，迅速成為人工智能的一大研究熱點(diǎn)，也將多個(gè)數(shù)據(jù)集的結(jié)果刷至新高。

Attention 機(jī)制的“革命”

對(duì)一個(gè)輸入序列或圖像，通過(guò)設(shè)置權(quán)重或每個(gè)輸入位置的概率，正如 MLP 中所產(chǎn)生的那樣，運(yùn)用到每一個(gè)位置。Attention 在在翻譯、語(yǔ)音、圖像、視頻和存儲(chǔ)中的應(yīng)用非常廣泛，也具有以下的特點(diǎn)/優(yōu)點(diǎn)：

一次只關(guān)注一個(gè)或幾個(gè)元素；
根據(jù)具體情況，了解該讓哪參與進(jìn)來(lái)；
能對(duì)無(wú)序set操作；
是 NLP 中的 SOTA，為 Transformer 的提出奠定基礎(chǔ)；
在 RNN 中繞過(guò)學(xué)習(xí)長(zhǎng)期依賴的問(wèn)題！！

強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)在 2016 年初露頭角，取得巨大突破：

AlphaGo 以 4-1 擊敗世界冠軍李世石；
人工智能和圍棋專(zhuān)家沒(méi)有預(yù)料到；
將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合。

深度學(xué)習(xí)的生物學(xué)突破

除了在計(jì)算機(jī)領(lǐng)域的成就以外，深度學(xué)習(xí)也在生物學(xué)領(lǐng)域取得重要突破，英國(guó)《Nature》雜志在 2021 年發(fā)表了一項(xiàng)結(jié)構(gòu)生物學(xué)最新研究，人工智能公司 DeepMind 的神經(jīng)網(wǎng)絡(luò) Alphafold 2 ，利用注意力圖神經(jīng)網(wǎng)絡(luò)，預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)能達(dá)到原子水平的準(zhǔn)確度，這也為生命科學(xué)領(lǐng)域帶來(lái)革命性影響。

保持謙遜

最好別想獎(jiǎng)項(xiàng)、獎(jiǎng)品和認(rèn)可：這些都是危險(xiǎn)的干擾！
自負(fù)會(huì)使我們盲目，使我們過(guò)度自信，是科學(xué)發(fā)現(xiàn)的敵人
損害我們靈活思考的能力，質(zhì)疑我們認(rèn)為理所當(dāng)然的東西，傾聽(tīng)別人不同意我們的觀點(diǎn)的能力
我多次改變主意：2005 年有監(jiān)督 vs 無(wú)監(jiān)督，2022 年頻率論 vs 貝葉斯。

學(xué)習(xí)更高層次的抽象

(Bengio & LeCun 2007)

深度學(xué)習(xí)的最大回報(bào)是允許學(xué)習(xí)更高層次的抽象。

更高層次的抽象：將解釋變量和它們的因果機(jī)制分離開(kāi)，這將使得更容易的泛化和轉(zhuǎn)移到新的任務(wù)上去。

如何發(fā)現(xiàn)好的解耦表征

如何發(fā)現(xiàn)抽象?
什么是好的表現(xiàn)形式?（Bengio et al 2013）
需要線索（=歸納偏差）來(lái)幫助理清潛在因素及其依賴性，例如:

空間和時(shí)間尺度
要素之間的依賴關(guān)系簡(jiǎn)單稀疏（意識(shí)優(yōu)先）
因果/機(jī)制獨(dú)立性（可控變量=干預(yù)）
多個(gè)時(shí)空尺度（粗略的高層因素解釋了較低層的細(xì)節(jié)）

繞過(guò)維度的詛咒

我們需要在機(jī)器學(xué)習(xí)模型中構(gòu)建組合性，就像人類(lèi)語(yǔ)言利用組合性為復(fù)雜的思想賦予表征和意義一樣。利用組合性：在指代能力上獲得指數(shù)級(jí)的增長(zhǎng)；

分布式表示/嵌入：特征學(xué)習(xí)；
當(dāng)前的深度架構(gòu)：多層次的特征學(xué)習(xí)；
系統(tǒng) 2 深度學(xué)習(xí)：一次編寫(xiě)幾個(gè)概念；

先驗(yàn)假設(shè)（Priori）：組合性有助于有效地描述我們周?chē)氖澜纭?/p>

深度學(xué)習(xí)目標(biāo)：發(fā)現(xiàn)因果表征

Yoshua 之前也研究過(guò)一段時(shí)間的因果，這里他也發(fā)表了與此相關(guān)的一些看法。我們需要了解這些問(wèn)題：

正確的表述是什么？解釋數(shù)據(jù)的因果變量
如何發(fā)現(xiàn)它們（作為觀測(cè)數(shù)據(jù)的函數(shù)）？
如何發(fā)現(xiàn)他們的因果關(guān)系、因果圖？
行動(dòng)如何與因果干預(yù)相對(duì)應(yīng)？
原始感官數(shù)據(jù)如何與高層因果變量相關(guān)？高層因果變量如何轉(zhuǎn)化為低層行為和局部觀察？
需要額外的偏見(jiàn)：因果關(guān)系是關(guān)于分布的變化

當(dāng)前機(jī)器學(xué)習(xí)的缺失

超越訓(xùn)練分布的理解與泛化；
學(xué)習(xí)理論只處理同一分布內(nèi)的泛化；
模型學(xué)習(xí)但不能很好地泛化（或在適應(yīng)時(shí)具有高樣本復(fù)雜性）修改后的分布、非平穩(wěn)性等。
知識(shí)重用性差、模塊化差

要超越訓(xùn)練分布的泛化

由于性能不佳的 OOD，目前工業(yè)強(qiáng)度的機(jī)器學(xué)習(xí)存在魯棒性問(wèn)題；
如果沒(méi)有獨(dú)立同分布（iid），需要替代假設(shè)，否則沒(méi)有理由期望泛化；
分布如何變化？
人類(lèi)做得更好！
來(lái)自大腦的歸納偏見(jiàn)？
人類(lèi)如何重用知識(shí)？

系統(tǒng)泛化

根據(jù)之前的一些工作，將這種能力總結(jié)如下：

學(xué)過(guò)語(yǔ)言學(xué)；
動(dòng)態(tài)重組現(xiàn)有概念；
即使新組合在訓(xùn)練分布下的概率為 0：

例如:科幻小說(shuō)場(chǎng)景
例:在一個(gè)陌生的城市開(kāi)車(chē)

目前的深度學(xué)習(xí)不太成功，它可能會(huì)“過(guò)擬合”訓(xùn)練分布。

SOTA AI 和人類(lèi)水平智力之間的差距

其主要的差距有：

樣本復(fù)雜度：學(xué)習(xí)一項(xiàng)任務(wù)所需的樣本數(shù)量；
非分布泛化；
適應(yīng)的非分布速度（遷移學(xué)習(xí)）；
因果發(fā)現(xiàn)和推理；
復(fù)合知識(shí)表示和推理

造成差距的唯一原因：有意識(shí)的處理？假設(shè)：這種差距源于一種與人類(lèi)意識(shí)處理相關(guān)的計(jì)算、知識(shí)表示和推理，但在人工智能中尚未掌握。有意識(shí)的處理幫助人類(lèi)處理 OOD 設(shè)置

面對(duì)新奇或罕見(jiàn)的情況，人類(lèi)總是有意識(shí)的注意力，迅速結(jié)合適當(dāng)?shù)闹R(shí)片段，對(duì)它們推理，并設(shè)想解決方案。
我們不遵循我們的慣例，在新奇的環(huán)境中使用有意識(shí)的思維。

系統(tǒng) 1 和系統(tǒng) 2 的認(rèn)知——2個(gè)系統(tǒng)（以及認(rèn)知任務(wù)的類(lèi)別）

系統(tǒng) 1

直覺(jué)、快速、無(wú)意識(shí)、一步并行、非語(yǔ)言、習(xí)慣性；
隱性知識(shí)；
當(dāng)前 DL

系統(tǒng) 2

緩慢的、有邏輯的、順序的、有意識(shí)的；
語(yǔ)言，算法，計(jì)劃，推理；
明確的知識(shí)；
DL 2.0

從推理到 OOD 泛化

目前工業(yè)級(jí)別的機(jī)器學(xué)習(xí)(包括 NLP)由于糟糕的 OOD 性能而遭受魯棒性問(wèn)題；
人類(lèi)使用更高層次的認(rèn)知（系統(tǒng) 2）進(jìn)行非分布泛化；
為什么有幫助，如何有幫助？
這與代理、因果關(guān)系有什么關(guān)系？
我們?nèi)绾卧谏疃葘W(xué)習(xí)中結(jié)合這些原則來(lái)獲得系統(tǒng) 1 和系統(tǒng) 2 的深度學(xué)習(xí)？

將知識(shí)分解成可組合的片段進(jìn)行推理

目前的深度學(xué)習(xí)：同質(zhì)架構(gòu)、知識(shí)沒(méi)有本地化、完全分布式；
遷移學(xué)習(xí)：重用相關(guān)的知識(shí)片段，最大限度地減少干擾，最大化重用；
系統(tǒng) 2 推理選擇和組合可命名的知識(shí)片段，形成思想（想象的未來(lái)、反事實(shí)的過(guò)去、問(wèn)題的解決方案、輸入的解釋等）。
如何將知識(shí)分解成正確的可重組片段?

遷移到修正分布：超越 iid 假設(shè)

iid 假設(shè)太強(qiáng)→分布外泛化能力差；
寬松的假設(shè)：相同的因果動(dòng)力學(xué)，不同的狀態(tài)/干預(yù)

因果關(guān)系作為 OOD 泛化、遷移學(xué)習(xí)、持續(xù)學(xué)習(xí)等的框架：

非平穩(wěn)知識(shí)（變量值）的因子平穩(wěn)知識(shí)（因果機(jī)制）；
干預(yù)=變量的改變，不僅僅是由于默認(rèn)的因果鏈接，而是由于代理；
因果模型=分布族（包括任務(wù)）；
這些分布的指標(biāo)是干預(yù)措施的選擇（或初始狀態(tài)）；
固定知識(shí)被分解成可重組的因果機(jī)制

為什么需要因果

因果模型=通過(guò)干預(yù)/環(huán)境/初始狀態(tài)等與共享參數(shù)(機(jī)制)索引的分布族
學(xué)習(xí)者必須預(yù)測(cè)干預(yù)措施的效果，需要解決 Out-Of-Distribution（OOD）=新的干預(yù)措施；
干預(yù)=完美實(shí)現(xiàn)代理的抽象動(dòng)作；

更現(xiàn)實(shí)：實(shí)現(xiàn)抽象變量變化的意圖=目標(biāo)；

與多任務(wù)和元學(xué)習(xí)不同，不是學(xué)習(xí)特定于任務(wù)或環(huán)境的參數(shù)，而是對(duì)干預(yù)進(jìn)行推斷

Yoshua 團(tuán)隊(duì)今年在因果領(lǐng)域研究也有著一個(gè)研究成果——作為概率推理機(jī)的大型深度網(wǎng)絡(luò)：

總結(jié)

最后，Yoshua 也表達(dá)了自己的愿景：讓機(jī)器學(xué)習(xí)走出實(shí)驗(yàn)室，走入社會(huì)。

機(jī)器學(xué)習(xí)不再只是一個(gè)研究問(wèn)題
基于機(jī)器學(xué)習(xí)的產(chǎn)品正在設(shè)計(jì)和部署中

而這也是人工智能科學(xué)家、工程師、企業(yè)家和政府的共同的新責(zé)任。而 AI 也是一個(gè)強(qiáng)大的工具，要重點(diǎn)關(guān)注它的：

雙重用途；
智慧競(jìng)賽：技術(shù)進(jìn)步 vs 智慧進(jìn)步；
如何最大化其有益的使用，以及減少其誤用？

同時(shí)，一切事物都像雙刃劍，AI 也不例，我們也應(yīng)當(dāng)避免一些對(duì)于社會(huì)的負(fù)面影響：

控制人們思想的 Big Brother 和殺手機(jī)器人；
失業(yè)人士的痛苦來(lái)源，至少在過(guò)渡轉(zhuǎn)型時(shí)期是這樣；
來(lái)自廣告和社交媒體的操縱；
強(qiáng)化社會(huì)偏見(jiàn)和歧視；
使得不平等加劇，權(quán)力集中在少數(shù)人、公司和國(guó)家。

來(lái)源：夕小瑤的賣(mài)萌屋

標(biāo)簽：