五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

29.2 ResNet為什么能訓練出1000層的模型【動手學深度學習v2】

2022-03-01 16:59 作者:如果我是泡橘子  | 我要投稿

ResNet為什么能訓練出1000層的模型?


如何避免梯度消失?


  • 將乘法運算變成加法運算(ResNet就是這么做的,特別是殘差連接(Residual Connection))



Residual如何處理梯度消失?


假設有一個預測模型:y = f(x)

  • x:輸入
  • f:表示神經(jīng)網(wǎng)絡模型
  • y:輸出



w:權重


藍色部分:

  • 表示原有模型某一層的 w 的更新計算(輸出 y 中省略了損失函數(shù))
  • η:學習率
  • y 對 w 的梯度不能太小,如果太小的話,η 無論多大都不會起作用,并且也會影響數(shù)值的穩(wěn)定性


紫色部分:

  • y‘ = f(x) + g( f(x) ) 表示使用堆疊的方式對原有的模型進行加深之后的模型

  • 后面的部分表示 y' 對w的梯度,,經(jīng)過鏈式法則展開之后:第二項 y‘ 關于 w 的梯度和之前藍色部分的結果是一樣的,沒有任何變化;第一項 g(y) 關于 y 的梯度是新加的層的輸出對輸入的導數(shù),它和預測值與真實值之間的差別有關系,假設預測的值和真實值之間的差別比較小的話,第一項的值就會變得特別小(假設所加的層的擬合能力比較強,第一項就會變得特別小,在這種情況下,和第二項相乘之后,乘積的值就會變得特別小,也就是梯度就會變得特別小,就只能增大學習率,但可能增大也不是很有用,因為這是靠近底部數(shù)據(jù)層的更新,如果增加得太大,很有可能新加的層中的w就已經(jīng)很大了,這樣的話可能會導致數(shù)值不穩(wěn)定)
  • 正是因為乘法的存在,所以如果中間有一項比較小的話,可能就會導致整個式子的乘積比較小,越到底層的話乘積就越小


綠色部分:

  • y‘' = f(x) + g( f(x) ) 表示使用殘差連接的方式對原有的模型進行加深之后的模型輸出
  • 使用加法的求導對模型表達式進行展開得到兩項,第一項和前面所說的一樣,就是藍色的部分
  • 對于這兩項來說,就算第二項的值比較小,但還是有第一項的值進行補充(大數(shù)加上一個小數(shù)還是一個大數(shù),但是大數(shù)乘以一個小數(shù)就可能變成小數(shù)),正是由于跨層數(shù)據(jù)通路的存在,模型底層的權重相比于模型加深之前不會有大幅度的縮小


靠近數(shù)據(jù)端的權重 w 難以訓練,但是由于加入了跨層數(shù)據(jù)通路,所以在計算梯度的時候,上層的loss可以通過跨層連接通路直接快速地傳遞給下層,所以在一開始,下面的層也能夠拿到比較大的梯度


梯度大小的角度來解釋,residual connection 使得靠近數(shù)據(jù)的層的權重 w 也能夠獲得比較大的梯度,因此,不管網(wǎng)絡有多深,下面的層都是可以拿到足夠大的梯度,使得網(wǎng)絡能夠比較高效地更新





Q&A


  • 1、學習率可不可以使靠近輸出的小一點,靠近輸入的大一點,這樣會不會就可以解決梯度消失的問題?
    ?
    QA P2 - 00:00
    ?


  • 2、為什么深層的網(wǎng)絡,底層比較難訓練?是因為它拿到的梯度一般比較小嗎?
    ?
    QA P2 - 01:15
    ?





----end----

29.2 ResNet為什么能訓練出1000層的模型【動手學深度學習v2】的評論 (共 條)

分享到微博請遵守國家法律
紫金县| 诸暨市| 万年县| 无棣县| 萨嘎县| 金堂县| 仁化县| 德昌县| 兰州市| 托克逊县| 于田县| 饶河县| 奉新县| 夏津县| 万安县| 万年县| 光山县| 彭泽县| 麻城市| 苍山县| 苏州市| 汪清县| 鹿泉市| 麦盖提县| 曲阳县| 中宁县| 毕节市| 钦州市| 永安市| 盐山县| 普定县| 义乌市| 游戏| 东兴市| 建德市| 固原市| 长葛市| 棋牌| 资阳市| 翁牛特旗| 巴青县|