五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Swin Transformer源碼解析

2023-07-01 21:35 作者:0x435959  | 我要投稿

一、Patch Partition、Liner Embedding

為什么通過卷積就能完成patch partition操作?

因?yàn)榫矸e核大小就是一個(gè)patch,通過卷積操作(一次卷積操作把一小塊圖變成一個(gè)數(shù)),將原圖中一個(gè)patch大小的圖塊,變成一個(gè)指定維度(和指定的過濾器數(shù)量即輸出維度有關(guān))的特征圖。

Liner Eebedding 操作是為了什么,為什么要做該操作?

類比NLP中的embedding 操作,因?yàn)橐粋€(gè)patch就是一個(gè)token,對(duì)于一個(gè)詞,在NLP中我們把詞投射到某個(gè)高維詞向量空間中,以獲得詞和詞之間的關(guān)系。而這里的liner embedding就是通過卷積后的flatten(2)和transpose(1, 2)操作將特征圖轉(zhuǎn)成embedding的格式 (bs,token,dim),至于為什么要轉(zhuǎn)成這種格式,是因?yàn)橐鲎宰⒁饬Α?/p>

輸入輸出示例

輸入兩張224x224的rgb圖片,即輸入為(2,3,224,224),設(shè)置patch_size為4x4,那么共54x54=3136個(gè)patch,設(shè)置輸出維度為96,經(jīng)過經(jīng)過卷積和embedding操作變成了(2,3136,96)

Swin Transformer源碼解析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
家居| 巫溪县| 吴江市| 英吉沙县| 九江县| 县级市| 莫力| 华坪县| 大厂| 尼玛县| 眉山市| 盐边县| 电白县| 济源市| 鄄城县| 池州市| 乌拉特后旗| 平遥县| 离岛区| 永福县| 九江市| 黎平县| 醴陵市| 鄂伦春自治旗| 靖西县| 龙海市| 柏乡县| 安远县| 衡水市| 基隆市| 梅州市| 乌拉特前旗| 石嘴山市| 邹平县| 呼图壁县| 鹿泉市| 怀化市| 阿坝| 浮梁县| 屯昌县| 房山区|