12 權(quán)重衰退【動(dòng)手學(xué)深度學(xué)習(xí)v2】

權(quán)重衰退
最常見的處理過擬合的方法
如何控制模型的容量
- 將模型變得比較小,減少里面的參數(shù)的數(shù)量
- 縮小參數(shù)值的取值范圍
硬性限制

- θ用來限制權(quán)重 w 的變化范圍
- 通常不會(huì)限制偏移 b ,從統(tǒng)計(jì)學(xué)上來講,偏移是整個(gè)數(shù)據(jù)對(duì)于 0 點(diǎn)的偏移,是不應(yīng)該限制的,但是實(shí)際上,限不限制效果相同
- θ越小,限制就越強(qiáng)。最強(qiáng)的情況下就是θ等于0,所有的w都等于0,只能選一個(gè)偏移
- 一般來說θ會(huì)選擇1、0.1、0.01
柔性限制

- λ是一個(gè)超參數(shù),λ控制了整個(gè)正則項(xiàng)的重要程度
- λ趨向于無窮大的時(shí)候就等價(jià)于硬性限制中θ趨向于0,使得最優(yōu)解w*也會(huì)慢慢趨向于0
- 可以通過增加λ來控制模型的復(fù)雜度(讓模型不要太復(fù)雜)
演示對(duì)最優(yōu)解的影響

- 綠線代表損失函數(shù)l的等高線
- 綠點(diǎn)代表損失函數(shù)l的最優(yōu)點(diǎn)(只優(yōu)化損失的情況)
- w的2次項(xiàng)可以認(rèn)為是一個(gè)以原點(diǎn)為中心的等高線,如橘黃色圓圈
- 原始的最優(yōu)解(綠點(diǎn))就不是最優(yōu)了,因?yàn)樗闹祵?duì)于橘黃色的線來說比較大。這里可以理解為w~*就是橘黃色圓圈和綠色圓圈的等高線的值之和,在橘黃色圓圈中,原點(diǎn)值最小,向外增加;在綠色圓圈中,綠點(diǎn)值最小向外增加
- 如果w~*從綠點(diǎn)出發(fā),沿著藍(lán)色箭頭走,l的值會(huì)增大,但是w的二次項(xiàng)(閥的項(xiàng))的值會(huì)減小,走到w*處達(dá)到平衡點(diǎn)總體上來講,閥的引入,使得最優(yōu)解向原點(diǎn)偏移,對(duì)應(yīng)的最優(yōu)解的值會(huì)變得小一些,絕對(duì)值會(huì)變小,從而模型的復(fù)雜度會(huì)變低
參數(shù)更新法則

- 通常來講,λ和學(xué)習(xí)率的乘積是小于1的
- 為什么叫權(quán)重衰退?因?yàn)棣说囊胧沟卯?dāng)前的權(quán)重做了一次縮小操作,即所說的衰退
總結(jié)

- λ是控制模型的超參數(shù),通過控制λ的大小來控制模型的復(fù)雜度
----to be continued----
標(biāo)簽: