五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

論文筆記|一種端到端的VL預(yù)訓(xùn)練網(wǎng)絡(luò)SOHO

2022-02-24 17:35 作者:深度之眼官方賬號(hào)  | 我要投稿

來(lái)源:投稿 作者:摩卡 編輯:學(xué)姐(文末有驚喜)

《Seeing Out of tHe bOx :End-to-End Pre-training for Visual-Language Representation Learning》

Motivation


本文針對(duì)目前大量Visual-Language(VL) tasks使用由Faster-RCNN提取出的region features這一問題,提出了使用region features的三個(gè)缺點(diǎn):


  • 使用region features會(huì)忽略掉bounding box外的visual context,從而導(dǎo)致模型理解VL錯(cuò)誤;

  • 模型理解圖像會(huì)受限于region features預(yù)先定義好的類別(e.g., MSCOCO數(shù)據(jù)集對(duì)bounding box定義了1600個(gè)類別);

  • 由于region features由目標(biāo)檢測(cè)模型提取出來(lái)的會(huì)出現(xiàn)數(shù)據(jù)質(zhì)量低,有噪聲,過采樣等問題。


圖1:在VQA任務(wù)和圖像檢索任務(wù)中Baseline和本文提出模型的結(jié)果對(duì)比

Method

由上述原因,本文提出了使用global features的預(yù)訓(xùn)練模型SOHO。此外受到語(yǔ)言模型字典的啟發(fā),本文提出了visual dictionary的概念,將圖像特征進(jìn)行聚類,每一個(gè)類別的每個(gè)圖像特征都用其聚類中心的特征所代替。

做完這些工作后在其提出的三個(gè)預(yù)訓(xùn)練任務(wù)(Masked Language Modeling, Masked Visual Modeling, Image-Text Matching)上進(jìn)行訓(xùn)練,每個(gè)任務(wù)的損失函數(shù)都采用同樣的權(quán)重。



圖2:SOHO模型框架


Result

預(yù)訓(xùn)練完成后在下游任務(wù)上fine-tuning,分別在VQA,Image-Text Retrieval(ITR), Visual Reasoning with Natural Language(NLVR), Visual Entailment上進(jìn)行驗(yàn)證。

在VQA任務(wù)上test-dev達(dá)到了73.25,test-std達(dá)到了73.47(相比于其基線LXMERT提高了0.83,0.93),在其他任務(wù)上也有不同程度的提高。


表1:SOHO在圖像檢索任務(wù)上的結(jié)果(MSCOCO dataset)


表2:SOHO在圖像檢索任務(wù)上的結(jié)果(Flickr30K dataset)


表3:SOHO在VQA任務(wù)上的結(jié)果



表4:SOHO在NLVR任務(wù)上的結(jié)果


關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)

領(lǐng)百份資料

(看不看都是后話,先屯著)


論文筆記|一種端到端的VL預(yù)訓(xùn)練網(wǎng)絡(luò)SOHO的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
太白县| 仙游县| 遂溪县| 陇川县| 姚安县| 天柱县| 武清区| 沭阳县| 安康市| 威海市| 青神县| 庄浪县| 郑州市| 大方县| 双流县| 前郭尔| 镇坪县| 汝南县| 磐安县| 通州市| 镇远县| 罗山县| 洛浦县| 广平县| 高邑县| 梓潼县| 泰顺县| 安新县| 邓州市| 金沙县| 临江市| 江城| 榆社县| 九寨沟县| 和林格尔县| 东乡族自治县| 拜泉县| 翁源县| 水富县| 施甸县| 青浦区|