五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

AIGC: InstructPix2Pix 筆記

2023-06-28 16:13 作者:剎那-Ksana-  | 我要投稿

簡(jiǎn)介

原圖 + 指令 -> 編輯后的圖片

InstructPix2Pix 由 2 個(gè)模型:一個(gè)自然語(yǔ)言模型(GPT-3)和一個(gè)文字轉(zhuǎn)圖像模型(SD)拼接起來(lái)

用戶(hù)輸入原圖指令,模型將輸出編輯過(guò)后的圖片

訓(xùn)練機(jī)制

模型的訓(xùn)練難度在于,符合條件的數(shù)據(jù)集基本不存在。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)將訓(xùn)練分成兩個(gè)部分

  1. Fine-Tuning GPT-3

  2. 將前后兩個(gè)指令生成其各自對(duì)應(yīng)的圖像

首先,研究團(tuán)隊(duì)利用一個(gè)人工輸入的數(shù)據(jù)集作為 fine-tuning GPT-3 的訓(xùn)練集,這個(gè)訓(xùn)練集的格式為輸入描述(Input Caption),編輯指令(Edit Instruction)和編輯后描述(Editted Caption

數(shù)據(jù)集格式

輸入描述是從現(xiàn)有數(shù)據(jù)集中取到,編輯指令和編輯后描述這兩部分都是人工編輯輸入

通過(guò)上述的?fine-tuning, GPT-3 可以通過(guò)輸入描述編輯指令,輸出編輯后的對(duì)應(yīng)描述

Prompt-to-Prompt

為了使編輯前和編輯后的圖像具有一致性 (即結(jié)構(gòu)、構(gòu)圖上的一致),模型采用了 prompt-to-prompt

prompt-to-prompt 的效果示意圖

prompt-to-prompt 的巧妙之處在于,團(tuán)隊(duì)發(fā)現(xiàn),文字和圖像像素關(guān)聯(lián)對(duì)應(yīng)的 cross-attention 層包含了大量的結(jié)構(gòu)性息

attention map 的均值和文字的對(duì)應(yīng)

簡(jiǎn)單地說(shuō),如果對(duì)這個(gè) cross-attention 層中的 attention maps 直接進(jìn)行操作,就可以維持圖像的其他部分不變,而只變換被操作的部分。

對(duì) attention map 的三種操作

例如,替換文字(將一部分 attention map 替換為新的 map),加入新的文字(在原有的 map 基礎(chǔ)上加入新的 map)?,以及改變重點(diǎn)(改變?cè)?map 的比重)

所以,根據(jù) prompt-to-prompt,可以生成大量的配對(duì)的圖像作為訓(xùn)練素材。

最后,模型訓(xùn)練的目標(biāo)是去噪擴(kuò)散模型的目標(biāo),只不過(guò)多了兩個(gè)依賴(lài)條件 c_%7B%5Ctextbf%7BI%7D%7D?(image conditioning) 和 c_%7B%5Ctextbf%7BT%7D%7D?(text instruction conditioning):

L%3D%5Cmathbb%7BE%7D_%7B%5Cmathcal%7BE%7D(x)%2C%20%5Cmathcal%7BE%7D(c_I)%2Cc_T%2C%20%5Cepsilon%5Csim%20%5Cmathcal%7BN%7D(0%2C1)%2Ct%7D%5B%7C%7C%20%5Cepsilon-%5Cepsilon_%7B%5Ctheta%7D(z_t%2Ct%2C%5Cmathcal%7BE%7D(c_I)%2Cc_T)%7C%7C_2%5E2%5D

更多細(xì)節(jié),以及效果圖片參照原論文,不在此論述。

另外,推薦一個(gè)前幾天看到的,講 DDPM 的好文章:https://zhuanlan.zhihu.com/p/638442430

論文信息

InstructPix2Pix: Learning to Follow Image Editing Instructions

Tim Brooks, Aleksander Holynski, Alexei A. Efros

https://arxiv.org/abs/2211.09800

Prompt-to-Prompt Image Editing with Cross Attention Control

Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, Daniel Cohen-Or

https://arxiv.org/abs/2208.01626




AIGC: InstructPix2Pix 筆記的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
贞丰县| 黄山市| 龙陵县| 五家渠市| 安义县| 泰顺县| 东至县| 玛多县| 大理市| 邵东县| 华池县| 宁明县| 松原市| 荆州市| 诸暨市| 芷江| 剑河县| 克什克腾旗| 邳州市| 和田县| 肇州县| 策勒县| 承德市| 乌鲁木齐县| 二连浩特市| 永济市| 和平区| 廊坊市| 河北区| 扎鲁特旗| 定兴县| 江城| 青岛市| 萨嘎县| 漯河市| 上蔡县| 伊宁市| 沙雅县| 子长县| 科技| 营山县|