五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ALBERT老師13 NLP-閱讀理解

2023-07-10 10:40 作者:bili_81527274639  | 我要投稿

2. ALBERT改進(jìn)之處

ALBERT和BERT模型采用了相同的結(jié)構(gòu),主要的改進(jìn)之處在三個(gè)方面:

2.1 Factorized embedding parameterization

很多BERT相關(guān)的模型比如RoBERT,XLNET等,將詞表emb size的大小和網(wǎng)絡(luò)中hidden size的大小,設(shè)置的是一樣的。這樣embedding層的網(wǎng)絡(luò)參數(shù)數(shù)量為:,為了減小embedding層網(wǎng)絡(luò)參數(shù)ALBERT中將和設(shè)置的不一樣,通常來說不能設(shè)置的太大,而應(yīng)該將設(shè)置的比較大。最終embedding層的參數(shù)數(shù)量從減小到,當(dāng)?shù)拇笮∵h(yuǎn)大于的時(shí)候,參數(shù)數(shù)量減小更加明顯。

2.2 Cross-layer parameter sharing

將transformer不同層之間的參數(shù)進(jìn)行共享,常見的比如共享feed forward層參數(shù)或者attention層的參數(shù),或者全部參數(shù)都共享。ALBERT默認(rèn)采用的是共享所有的參數(shù)。并且論文中實(shí)驗(yàn)顯示,通過不同層的參數(shù)共享模型的穩(wěn)定性更好。


ALBERT老師13 NLP-閱讀理解的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
黔西县| 溧阳市| 南安市| 福州市| 灯塔市| 乌什县| 兴仁县| 沙河市| 康保县| 白城市| 夏津县| 武威市| 惠州市| 淳安县| 宜春市| 工布江达县| 怀仁县| 仙居县| 永嘉县| 莱芜市| 崇礼县| 黄浦区| 蛟河市| 泌阳县| 宜兰县| 攀枝花市| 桐柏县| 乐安县| 淮北市| 洪泽县| 中阳县| 凤山市| 明溪县| 开化县| 外汇| 宁强县| 增城市| 盱眙县| 轮台县| 达拉特旗| 泾阳县|