【學(xué)術(shù)人生】Yoshua Bengio:我的一生
當(dāng)你初入江湖,迷茫不知道該干什么的時(shí)候,不妨去模仿前人是如何進(jìn)行科研的,并從中歸納出最適合自己的道路。為此,我們推出“學(xué)術(shù)人生”專(zhuān)欄,介紹科研的方法與經(jīng)驗(yàn),為你的科研學(xué)習(xí)提供幫助,敬請(qǐng)關(guān)注。
2018 年圖靈獎(jiǎng)獲得者、AI 先驅(qū)、深度學(xué)習(xí)三巨頭之一、對(duì)抗生成網(wǎng)絡(luò) GAN、標(biāo)志性的銀灰卷發(fā)和濃眉,如果還沒(méi)猜到的話,當(dāng)你看到這個(gè)封面,一定就會(huì)意識(shí)到自己在學(xué)習(xí)的路上,已經(jīng)或間接或直接地拜讀過(guò)大佬的著作了。

看到花書(shū)的封面,和前面的關(guān)鍵詞,也許你會(huì)意識(shí)到,他就是——Yoshua Bengio。

從下面這個(gè)記錄可以看出,他的著作在谷歌學(xué)術(shù)上的引用量也是一騎絕塵。

就在這兩天的 NeurIPS 2022 New in ML Workshop 上,Yoshua Bengio 做了一個(gè) Live Talk,介紹了自己從本科畢業(yè)開(kāi)始,一直到現(xiàn)在的人生之路。
鏈接:
https://nehzux.github.io/NewInML2022NeurIPS/assets/YoshuaBengio-NewInML-NeurIPS-28nov2022.pdf
接下來(lái),就是Bengio在大會(huì)上親口講述“自己一生”的故事。
從最初本科畢業(yè)時(shí)的“廣度優(yōu)先搜索”,了解到 Hinton 的連接主義, 到探索人腦、初代語(yǔ)言模型、注意力機(jī)制等等,以及度過(guò)人工智能寒冬,再到現(xiàn)在探索抽象、生成流網(wǎng)絡(luò)、Ai4Science、HLAI(人類(lèi)級(jí)別智能)、意識(shí)先驗(yàn)、System-2、因果推斷、元學(xué)習(xí)、模塊化等重要且新穎的領(lǐng)域。Yoshua Bengio 回顧了自己的科研生涯,他說(shuō)“Staying Humble”。
愛(ài)上一個(gè)研究方向
一開(kāi)始,Yoshua 講述了“他是如何愛(ài)上一個(gè)研究方向”。
1985 - 1986 年,他剛讀完本科,思索自己下一步要做什么,閱讀了大量不同領(lǐng)域的論文,將視線聚焦于神經(jīng)網(wǎng)絡(luò)研究,尤其是 Geoff Hinton 和 David Rumelhart 等其他早期連接主義者的論文。
1986 - 1988 年,Yoshua 進(jìn)一步閱讀玻爾茲曼機(jī),實(shí)現(xiàn)音素分類(lèi),完成了關(guān)于語(yǔ)音識(shí)別的玻爾茲曼機(jī)的碩士論文,而后當(dāng)了解到反向傳播時(shí),對(duì)它感到興奮,并開(kāi)始使用它,在之后參加了 1988 年連接主義的暑期學(xué)校,遇到了許多其他充滿熱情的研究生和研究人員們。1988-1991 年,Yoshua 完成了關(guān)于神經(jīng)網(wǎng)絡(luò)(RNNs 和 ConvNets)和 HMM 混合的博士論文。
神經(jīng)網(wǎng)絡(luò)與人工智能
隨后,Yoshua 闡述了自己的工作中對(duì)于神經(jīng)網(wǎng)絡(luò)與 AI 的理解。從一個(gè)令人興奮的先驗(yàn)知識(shí)出發(fā),他指出,通過(guò)學(xué)習(xí),智能(機(jī)器、人類(lèi)或動(dòng)物)的產(chǎn)生是有一些原則的,這些原則非常簡(jiǎn)單,可以被簡(jiǎn)潔地描述出來(lái),類(lèi)似于物理定律,也就是說(shuō),我們的智能不只是一堆技巧和知識(shí)的結(jié)果,而是獲取知識(shí)的一般機(jī)制。
他還辨析了傳統(tǒng) AI 和機(jī)器學(xué)習(xí)的要點(diǎn),提到了人工智能的機(jī)器學(xué)習(xí)方法:
經(jīng)典的 AI 一般是基于規(guī)則、基于符號(hào)的:其知識(shí)由人類(lèi)提供,但直覺(jué)知識(shí)是不可傳播的,機(jī)器只做推理工作,沒(méi)有很強(qiáng)的學(xué)習(xí)和適應(yīng)能力,對(duì)不確定性的處理能力不足。
而機(jī)器學(xué)習(xí)則試圖解決這些問(wèn)題:在很大程度上取得了成功,但更高層次的(有意識(shí)的)認(rèn)知尚未實(shí)現(xiàn)。
而后 Yoshua 從維度詛咒和分布式表示(指數(shù)級(jí)優(yōu)勢(shì))這兩個(gè)細(xì)節(jié)出發(fā),強(qiáng)調(diào)了促使 ML 向 AI 轉(zhuǎn)變的五個(gè)關(guān)鍵因素:
海量&海量的數(shù)據(jù);
非常靈活的模型;
足夠的算力;
計(jì)算效率推斷;
強(qiáng)大的先驗(yàn)知識(shí),可以打破“維度詛咒”,實(shí)現(xiàn)對(duì)新情況的強(qiáng)泛化。
他還提到了腦啟發(fā)(Brain-inspired),以及如下特性:
大量簡(jiǎn)單自適應(yīng)計(jì)算單元的協(xié)同作用;
關(guān)注分布式表示(如單詞表示);
視智能為結(jié)合的產(chǎn)物(近似優(yōu)化器、初始架構(gòu)/參數(shù)化);
端到端學(xué)習(xí)
長(zhǎng)期依賴和梯度下降
緊接著,Yoshua 回顧了機(jī)器學(xué)習(xí) 101 課程的要點(diǎn):
函數(shù)族;
可調(diào)參數(shù);
從未知數(shù)據(jù)中抽樣的例子產(chǎn)生分布;
對(duì)經(jīng)過(guò)訓(xùn)練的函數(shù)所產(chǎn)生的誤差的度量;
近似最小化算法搜索最佳參數(shù)選擇,迭代減少平均訓(xùn)練誤差
又引出了他們自己 1994 年的工作?"Learning Long-Term Dependencies with Gradient Descent is Difficult"?,并強(qiáng)調(diào)了他的經(jīng)驗(yàn):負(fù)面結(jié)果可能非常重要,它教會(huì)了我們一些東西,推動(dòng)了許多下游研究,比如 2014 年關(guān)于自注意力機(jī)制的工作。接下來(lái)他展開(kāi)介紹了這項(xiàng)工作:如何存儲(chǔ) 1 bit?在某些維度上有多個(gè)引力盆地的動(dòng)力學(xué)
如果動(dòng)力系統(tǒng)在某些維度上有多個(gè)吸引域,則狀態(tài)的某些子空間可以存儲(chǔ) 1 ?bit 或多個(gè) bit 信息。

在有界噪聲存在的情況下穩(wěn)健地存儲(chǔ) 1 bit:
光譜半徑 > 1,噪聲可以踢出吸引子的狀態(tài)(不穩(wěn)定);
而當(dāng)半徑 < 1時(shí)就不是這樣了(收縮→穩(wěn)定)。

可靠地存儲(chǔ)→消失的梯度
可靠地存儲(chǔ)比特信息需要譜半徑 < 1
譜半徑 < 1的 T 個(gè)矩陣的乘積是一個(gè)矩陣,其譜半徑在 T 上以指數(shù)速度收斂于 0。

如果 Jacobian 矩陣的譜半徑 < 1 →傳播梯度消失
為什么它會(huì)損害基于梯度的學(xué)習(xí)?
與短期依賴關(guān)系相比,長(zhǎng)期依賴關(guān)系得到的權(quán)重是指數(shù)級(jí)小的(以 T 為單位)。

當(dāng)譜半徑 < 1時(shí),時(shí)間差越長(zhǎng),譜半徑越小。
深度學(xué)習(xí):學(xué)習(xí)內(nèi)部表征
深度學(xué)習(xí)并不像其他機(jī)器學(xué)習(xí)方法:
沒(méi)有中間表示(線性)
或固定的(通常是非常高維的)中間表示(支持向量機(jī)、內(nèi)核機(jī))
那么什么是好的表征形式呢?——使其他或下游任務(wù)更容易。

于是 Yoshua 又回顧了他們 2003 年的經(jīng)典工作《A Neural Probabilistic Language Model》,這是首次用神經(jīng)網(wǎng)絡(luò)來(lái)解決語(yǔ)言模型的問(wèn)題,也為后來(lái)深度學(xué)習(xí)在解決語(yǔ)言模型問(wèn)題甚至很多別的 NLP 問(wèn)題時(shí),奠定了堅(jiān)實(shí)的基礎(chǔ)(比如之后 word2vec 的提出)。
每個(gè)詞由一個(gè)分布式連續(xù)值代碼向量表示=嵌入;
跨n-gram(單詞元組)共享;
泛化到語(yǔ)義上與訓(xùn)練序列相似的單詞序列


為什么要設(shè)置多層(multiple layer)?——世界是可構(gòu)成的
具有不斷增加的抽象級(jí)別的表示層次;
每個(gè)階段都是一種可訓(xùn)練的特征變換。
圖像識(shí)別:像素→邊緣→文本→主題→零件→物體;
文本:文字→單詞→詞組→從句→句子→故事;
語(yǔ)音:樣本→譜帶→聲音→……→電話→音素→單。詞

隨著深度學(xué)習(xí)的不斷發(fā)展,不止 NLP 領(lǐng)域,語(yǔ)音和圖像也邁出了重要一步:


但其實(shí) 1996-2012 年也是神經(jīng)網(wǎng)絡(luò)的寒冬:
AI 研究失去了達(dá)到人類(lèi)智能水平的雄心
關(guān)注“更簡(jiǎn)單”(更容易分析)的機(jī)器學(xué)習(xí)
很難說(shuō)服研究生進(jìn)行神經(jīng)網(wǎng)絡(luò)的研究
這需要堅(jiān)持下去,但也要處理一些棘手的問(wèn)題:
遵循直覺(jué)
但嘗試通過(guò)實(shí)驗(yàn)或數(shù)學(xué)方法驗(yàn)證
理清思路以澄清問(wèn)題,提出“為什么”問(wèn)題,試著去理解
支持小組的重要性(CIFAR計(jì)劃)
生成對(duì)抗網(wǎng)絡(luò) GAN
自 2010 年以來(lái),Yoshua 關(guān)于生成式深度學(xué)習(xí)的論文,尤其是和 Ian Goodfellow 共同研究的生成性對(duì)抗網(wǎng)絡(luò)(GAN),這篇經(jīng)典之作更是引發(fā)了計(jì)算機(jī)視覺(jué)和圖形學(xué)領(lǐng)域的深刻革命。

GAN 以其優(yōu)越的性能,在短短兩年時(shí)間里,迅速成為人工智能的一大研究熱點(diǎn),也將多個(gè)數(shù)據(jù)集的結(jié)果刷至新高。
Attention 機(jī)制的“革命”
對(duì)一個(gè)輸入序列或圖像,通過(guò)設(shè)置權(quán)重或每個(gè)輸入位置的概率,正如 MLP 中所產(chǎn)生的那樣,運(yùn)用到每一個(gè)位置。Attention 在在翻譯、語(yǔ)音、圖像、視頻和存儲(chǔ)中的應(yīng)用非常廣泛,也具有以下的特點(diǎn)/優(yōu)點(diǎn):
一次只關(guān)注一個(gè)或幾個(gè)元素;
根據(jù)具體情況,了解該讓哪參與進(jìn)來(lái);
能對(duì)無(wú)序set操作;
是 NLP 中的 SOTA,為 Transformer 的提出奠定基礎(chǔ);
在 RNN 中繞過(guò)學(xué)習(xí)長(zhǎng)期依賴的問(wèn)題!!

強(qiáng)化學(xué)習(xí)
深度強(qiáng)化學(xué)習(xí)在 2016 年初露頭角,取得巨大突破:
AlphaGo 以 4-1 擊敗世界冠軍李世石;
人工智能和圍棋專(zhuān)家沒(méi)有預(yù)料到;
將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合。

深度學(xué)習(xí)的生物學(xué)突破
除了在計(jì)算機(jī)領(lǐng)域的成就以外,深度學(xué)習(xí)也在生物學(xué)領(lǐng)域取得重要突破,英國(guó)《Nature》雜志在 2021 年發(fā)表了一項(xiàng)結(jié)構(gòu)生物學(xué)最新研究,人工智能公司 DeepMind 的神經(jīng)網(wǎng)絡(luò) Alphafold 2 ,利用注意力圖神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)能達(dá)到原子水平的準(zhǔn)確度,這也為生命科學(xué)領(lǐng)域帶來(lái)革命性影響。

保持謙遜
最好別想獎(jiǎng)項(xiàng)、獎(jiǎng)品和認(rèn)可:這些都是危險(xiǎn)的干擾!
自負(fù)會(huì)使我們盲目,使我們過(guò)度自信,是科學(xué)發(fā)現(xiàn)的敵人
損害我們靈活思考的能力,質(zhì)疑我們認(rèn)為理所當(dāng)然的東西,傾聽(tīng)別人不同意我們的觀點(diǎn)的能力
我多次改變主意:2005 年有監(jiān)督 vs 無(wú)監(jiān)督,2022 年頻率論 vs 貝葉斯。
學(xué)習(xí)更高層次的抽象
(Bengio & LeCun 2007)
深度學(xué)習(xí)的最大回報(bào)是允許學(xué)習(xí)更高層次的抽象。
更高層次的抽象:將解釋變量和它們的因果機(jī)制分離開(kāi),這將使得更容易的泛化和轉(zhuǎn)移到新的任務(wù)上去。
如何發(fā)現(xiàn)好的解耦表征
如何發(fā)現(xiàn)抽象?
什么是好的表現(xiàn)形式?(Bengio et al 2013)
需要線索(=歸納偏差)來(lái)幫助理清潛在因素及其依賴性,例如:
空間和時(shí)間尺度
要素之間的依賴關(guān)系簡(jiǎn)單稀疏(意識(shí)優(yōu)先)
因果/機(jī)制獨(dú)立性(可控變量=干預(yù))
多個(gè)時(shí)空尺度(粗略的高層因素解釋了較低層的細(xì)節(jié))
繞過(guò)維度的詛咒
我們需要在機(jī)器學(xué)習(xí)模型中構(gòu)建組合性,就像人類(lèi)語(yǔ)言利用組合性為復(fù)雜的思想賦予表征和意義一樣。利用組合性:在指代能力上獲得指數(shù)級(jí)的增長(zhǎng);
分布式表示/嵌入:特征學(xué)習(xí);
當(dāng)前的深度架構(gòu):多層次的特征學(xué)習(xí);
系統(tǒng) 2 深度學(xué)習(xí):一次編寫(xiě)幾個(gè)概念;
先驗(yàn)假設(shè)(Priori):組合性有助于有效地描述我們周?chē)氖澜纭?/p>
深度學(xué)習(xí)目標(biāo):發(fā)現(xiàn)因果表征
Yoshua 之前也研究過(guò)一段時(shí)間的因果,這里他也發(fā)表了與此相關(guān)的一些看法。我們需要了解這些問(wèn)題:
正確的表述是什么?解釋數(shù)據(jù)的因果變量
如何發(fā)現(xiàn)它們(作為觀測(cè)數(shù)據(jù)的函數(shù))?
如何發(fā)現(xiàn)他們的因果關(guān)系、因果圖?
行動(dòng)如何與因果干預(yù)相對(duì)應(yīng)?
原始感官數(shù)據(jù)如何與高層因果變量相關(guān)?高層因果變量如何轉(zhuǎn)化為低層行為和局部觀察?
需要額外的偏見(jiàn):因果關(guān)系是關(guān)于分布的變化

當(dāng)前機(jī)器學(xué)習(xí)的缺失
超越訓(xùn)練分布的理解與泛化;
學(xué)習(xí)理論只處理同一分布內(nèi)的泛化;
模型學(xué)習(xí)但不能很好地泛化(或在適應(yīng)時(shí)具有高樣本復(fù)雜性)修改后的分布、非平穩(wěn)性等。
知識(shí)重用性差、模塊化差
要超越訓(xùn)練分布的泛化
由于性能不佳的 OOD,目前工業(yè)強(qiáng)度的機(jī)器學(xué)習(xí)存在魯棒性問(wèn)題;
如果沒(méi)有獨(dú)立同分布(iid),需要替代假設(shè),否則沒(méi)有理由期望泛化;
分布如何變化?
人類(lèi)做得更好!
來(lái)自大腦的歸納偏見(jiàn)?
人類(lèi)如何重用知識(shí)?
系統(tǒng)泛化
根據(jù)之前的一些工作,將這種能力總結(jié)如下:
學(xué)過(guò)語(yǔ)言學(xué);
動(dòng)態(tài)重組現(xiàn)有概念;
即使新組合在訓(xùn)練分布下的概率為 0:
例如:科幻小說(shuō)場(chǎng)景
例:在一個(gè)陌生的城市開(kāi)車(chē)
目前的深度學(xué)習(xí)不太成功,它可能會(huì)“過(guò)擬合”訓(xùn)練分布。

SOTA AI 和人類(lèi)水平智力之間的差距
其主要的差距有:
樣本復(fù)雜度:學(xué)習(xí)一項(xiàng)任務(wù)所需的樣本數(shù)量;
非分布泛化;
適應(yīng)的非分布速度(遷移學(xué)習(xí));
因果發(fā)現(xiàn)和推理;
復(fù)合知識(shí)表示和推理
造成差距的唯一原因:有意識(shí)的處理?假設(shè):這種差距源于一種與人類(lèi)意識(shí)處理相關(guān)的計(jì)算、知識(shí)表示和推理,但在人工智能中尚未掌握。有意識(shí)的處理幫助人類(lèi)處理 OOD 設(shè)置
面對(duì)新奇或罕見(jiàn)的情況,人類(lèi)總是有意識(shí)的注意力,迅速結(jié)合適當(dāng)?shù)闹R(shí)片段,對(duì)它們推理,并設(shè)想解決方案。
我們不遵循我們的慣例,在新奇的環(huán)境中使用有意識(shí)的思維。
系統(tǒng) 1 和系統(tǒng) 2 的認(rèn)知——2個(gè)系統(tǒng)(以及認(rèn)知任務(wù)的類(lèi)別)
系統(tǒng) 1
直覺(jué)、快速、無(wú)意識(shí)、一步并行、非語(yǔ)言、習(xí)慣性;
隱性知識(shí);
當(dāng)前 DL
系統(tǒng) 2
緩慢的、有邏輯的、順序的、有意識(shí)的;
語(yǔ)言,算法,計(jì)劃,推理;
明確的知識(shí);
DL 2.0

從推理到 OOD 泛化
目前工業(yè)級(jí)別的機(jī)器學(xué)習(xí)(包括 NLP)由于糟糕的 OOD 性能而遭受魯棒性問(wèn)題;
人類(lèi)使用更高層次的認(rèn)知(系統(tǒng) 2)進(jìn)行非分布泛化;
為什么有幫助,如何有幫助?
這與代理、因果關(guān)系有什么關(guān)系?
我們?nèi)绾卧谏疃葘W(xué)習(xí)中結(jié)合這些原則來(lái)獲得系統(tǒng) 1 和系統(tǒng) 2 的深度學(xué)習(xí)?
將知識(shí)分解成可組合的片段進(jìn)行推理
目前的深度學(xué)習(xí):同質(zhì)架構(gòu)、知識(shí)沒(méi)有本地化、完全分布式;
遷移學(xué)習(xí):重用相關(guān)的知識(shí)片段,最大限度地減少干擾,最大化重用;
系統(tǒng) 2 推理選擇和組合可命名的知識(shí)片段,形成思想(想象的未來(lái)、反事實(shí)的過(guò)去、問(wèn)題的解決方案、輸入的解釋等)。
如何將知識(shí)分解成正確的可重組片段?
遷移到修正分布:超越 iid 假設(shè)
iid 假設(shè)太強(qiáng)→分布外泛化能力差;
寬松的假設(shè):相同的因果動(dòng)力學(xué),不同的狀態(tài)/干預(yù)
因果關(guān)系作為 OOD 泛化、遷移學(xué)習(xí)、持續(xù)學(xué)習(xí)等的框架:
非平穩(wěn)知識(shí)(變量值)的因子平穩(wěn)知識(shí)(因果機(jī)制);
干預(yù)=變量的改變,不僅僅是由于默認(rèn)的因果鏈接,而是由于代理;
因果模型=分布族(包括任務(wù));
這些分布的指標(biāo)是干預(yù)措施的選擇(或初始狀態(tài));
固定知識(shí)被分解成可重組的因果機(jī)制
為什么需要因果
因果模型=通過(guò)干預(yù)/環(huán)境/初始狀態(tài)等與共享參數(shù)(機(jī)制)索引的分布族
學(xué)習(xí)者必須預(yù)測(cè)干預(yù)措施的效果,需要解決 Out-Of-Distribution(OOD)=新的干預(yù)措施;
干預(yù)=完美實(shí)現(xiàn)代理的抽象動(dòng)作;
更現(xiàn)實(shí):實(shí)現(xiàn)抽象變量變化的意圖=目標(biāo);
與多任務(wù)和元學(xué)習(xí)不同,不是學(xué)習(xí)特定于任務(wù)或環(huán)境的參數(shù),而是對(duì)干預(yù)進(jìn)行推斷
Yoshua 團(tuán)隊(duì)今年在因果領(lǐng)域研究也有著一個(gè)研究成果——作為概率推理機(jī)的大型深度網(wǎng)絡(luò):
總結(jié)
最后,Yoshua 也表達(dá)了自己的愿景:讓機(jī)器學(xué)習(xí)走出實(shí)驗(yàn)室,走入社會(huì)。
機(jī)器學(xué)習(xí)不再只是一個(gè)研究問(wèn)題
基于機(jī)器學(xué)習(xí)的產(chǎn)品正在設(shè)計(jì)和部署中
而這也是人工智能科學(xué)家、工程師、企業(yè)家和政府的共同的新責(zé)任。而 AI 也是一個(gè)強(qiáng)大的工具,要重點(diǎn)關(guān)注它的:
雙重用途;
智慧競(jìng)賽:技術(shù)進(jìn)步 vs 智慧進(jìn)步;
如何最大化其有益的使用,以及減少其誤用?
同時(shí),一切事物都像雙刃劍,AI 也不例,我們也應(yīng)當(dāng)避免一些對(duì)于社會(huì)的負(fù)面影響:
控制人們思想的 Big Brother 和殺手機(jī)器人;
失業(yè)人士的痛苦來(lái)源,至少在過(guò)渡轉(zhuǎn)型時(shí)期是這樣;
來(lái)自廣告和社交媒體的操縱;
強(qiáng)化社會(huì)偏見(jiàn)和歧視;
使得不平等加劇,權(quán)力集中在少數(shù)人、公司和國(guó)家。
來(lái)源:夕小瑤的賣(mài)萌屋
