五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

強(qiáng)烈推薦!臺大李宏毅自注意力機(jī)制和Transformer詳解!

2023-01-16 17:32 作者:夢到死鎖的銀行家  | 我要投稿
  • word embedding: https//www.youtube.com/watch?v=X7PH3NuYW0Q

self-attention處理整個sequence,F(xiàn)C專注處理某一個位置的資訊,self-attention和FC可以交替使用

  • transformer架構(gòu)
  • self-attention的簡單理解

a1~a4可能是input也可以作為中間層的輸入,b1~b4每個向量都會考慮整個input sequence

  • 計(jì)算關(guān)聯(lián)性(例如向量a1和a2的關(guān)聯(lián)性,一般都是使用下圖左邊的方法Dot-product)
  • 計(jì)算a1和a1自身以及a2,a3,a4的關(guān)聯(lián)性,得到a11,a12,a13,a14
  • 得到關(guān)聯(lián)性向量之后,再經(jīng)過softmax處理(和分類是一個softmax)
  • 基于attention scores抽取信息

a1-a4每個向量都可以×Wv得到對應(yīng)的value: v1-v4。然后將關(guān)聯(lián)性向量a11‘-a14’乘上對應(yīng)的value,然后結(jié)果相加得到b1

然后依次計(jì)算b2,b3,b4,所以哪個關(guān)聯(lián)性更大,得到的結(jié)果也就越接近那個關(guān)聯(lián)性數(shù)據(jù)(比如a11'最大,得到的b1也就最接近a11‘,或者說b1的主要構(gòu)成是由a11’構(gòu)成)

  • 概括計(jì)算b2流程

a1~a4乘上martix Wq,得到q1~q4,a1~a4乘上martix Wk,得到k1~k4,q2和k1~k4做dot-product操作,得到self-attention score(可能還會經(jīng)過softmax處理): a21‘,a22‘,a23‘,a24‘,然后各自與v1~v4相乘,然后相加得到b2

  • 從矩陣角度理解計(jì)算過程

我的理解:這樣就很容易提高運(yùn)算速度,因?yàn)椴⑿卸雀?/p>


強(qiáng)烈推薦!臺大李宏毅自注意力機(jī)制和Transformer詳解!的評論 (共 條)

分享到微博請遵守國家法律
鸡西市| 肃宁县| 乐平市| 左贡县| 建瓯市| 黔南| 孟津县| 南华县| 五寨县| 盐城市| 五华县| 阿坝县| 永川市| 弋阳县| 湘阴县| 德保县| 仁化县| 新蔡县| 东阿县| 肇东市| 柳林县| 绍兴县| 乡宁县| 嘉义县| 绥阳县| 荥阳市| 双城市| 沙湾县| 娄底市| 晋州市| 攀枝花市| 谷城县| 偏关县| 丽江市| 资溪县| 秀山| 东安县| 苏尼特左旗| 响水县| 阿坝| 易门县|