五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

AIGC: SDEdit (Stochastic Differential Editing) 筆記

2023-09-09 17:27 作者:剎那-Ksana-  | 我要投稿

上一個(gè)文章介紹了擴(kuò)散模型的圖像修復(fù),這次順勢介紹一下擴(kuò)散模型的 img2img. 論文(2108.01073)里面的一些符號喜歡用函數(shù)表示,這里全部改成通用的下標(biāo)形式了。

Img2img 的任務(wù),左側(cè)為輸入圖像,右側(cè)為輸出圖像

從回顧SGM開始

這里,先回顧一下?Score-based Generative Models?(2011.13456). 對于擴(kuò)散的正向加噪過程,我們可以有以下的通用形式(假設(shè)擴(kuò)散項(xiàng)只與時(shí)間有關(guān)):

d%5Cmathbf%7Bx%7D%3D%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)dt%2Bg(t)d%5Cmathbf%7Bw%7D

對于 VP-SDE (Variance Preserving SDE), 我們有??%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)%3D-%5Cfrac%7B1%7D%7B2%7D%5Cbeta(t)%5Cmathbf%7Bx%7D?和?g(t)%3D%5Csqrt%7B%5Cbeta(t)%7D. 對于 VE-SDE (Variance Exploding SDE), 我們有?%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)%3D0?和?g(t)%3D%5Csqrt%7B%5Cfrac%7Bd%5B%5Csigma%5E2(t)%5D%7D%7Bdt%7D%7D.

而對于每一個(gè)正向加噪過程,我們都有一個(gè)對應(yīng)的逆向去噪過程:

d%5Cmathbf%7Bx%7D%3D%5B%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)-g(t)%5E2%5Cnabla_%7B%5Cmathbf%7Bx%7D%7D%20%5Clog%20p_t(x)%5Ddt%20%2B%20g(t)d%5Cbar%7B%5Cmathbf%7Bw%7D%7D

其中,%5Cnabla_%7B%5Cmathbf%7Bx%7D%7D%20%5Clog%20p_t(x)?被稱作分?jǐn)?shù)函數(shù) (score function), 我們使用一個(gè)模型?s_%7B%5Ctheta%7D(x_t%2C%20t)?去"學(xué)習(xí)"這個(gè)分?jǐn)?shù)函數(shù)。通常我們沒法求上述 SDE 的解析解,所以我們將連續(xù)時(shí)間?t%5Cin%20%5B0%2C1%5D?做一個(gè)離散化,然后利用一些數(shù)值解法來求解。

所以,論文中(對于?VE-SDE)采用了 Euler-Maruyama 的數(shù)值解法:

%7B%5Cmathbf%7Bx%7D%7D_t%20%3D%20%7B%5Cmathbf%7Bx%7D%7D_%7Bt%20%2B%20%5CDelta%20t%7D%20%2B%20(%5Csigma%5E2_%7Bt%7D-%20%5Csigma%5E2_%7Bt%20%2B%20%5CDelta%20t%7D)s_%5Ctheta%20(%5Cmathbf%7Bx%7D_t%2C%20t)%2B%5Csqrt%7B%5Csigma%5E2_t-%5Csigma%5E2_%7Bt%20%2B%20%5CDelta%20t%7D%7D%5Cmathbf%7Bz%7D

其中,

%5Csigma_t%3D%5Cbegin%7Bcases%7D%200%2C%20%26%5Cquad%20t%20%3D%200%5C%5C%0A%20%20%20%20%5Csigma_%5Ctext%7Bmin%7D%20%5Cleft(%5Cfrac%7B%5Csigma_%5Ctext%7Bmax%7D%7D%7B%5Csigma_%5Ctext%7Bmin%7D%7D%20%5Cright)%5Et%2C%20%26%5Cquad%20t%20%3E%200%20%5Cend%7Bcases%7D

Img2Img

接下來是 SDEdit 的初始設(shè)定,我們的任務(wù)是一個(gè) img2img ——將一個(gè)圖片轉(zhuǎn)換為另外一個(gè)圖片。原圖我們稱作引導(dǎo)圖像(guide),用?%5Cmathbf%7Bx%7D%5E%7B(g)%7D?來表示,轉(zhuǎn)換后的圖像我們用 %5Cmathbf%7Bx%7D_0 表示。

我們發(fā)現(xiàn),解 SDE 其實(shí)未必要從 t%3D1 出發(fā),而是可以從中途的任一時(shí)間點(diǎn)開始。所以,我們選取一個(gè)時(shí)間點(diǎn) t_0, 對?%5Cmathbf%7Bx%7D%5E%7B(g)%7D?加噪聲:%5Cmathbf%7Bx%7D%5E%7B(g)%7D_%7Bt_0%7D%5Csim%20%5Cmathcal%7BN%7D(%5Cmathbf%7Bx%7D%5E%7B(g)%7D%3B%20%5Csigma%5E2_%7Bt_0%7DI).?

然后,我們利用上述的數(shù)值解法,從?%5Cmathbf%7Bx%7D%5E%7B(g)%7D_%7Bt_0%7D?進(jìn)行逆向去噪過程,然后獲得圖像 %5Cmathbf%7Bx%7D_0.?

這一整個(gè)過程,我們把它稱作?%5Ctext%7BSDEdit%7D%20(x%5E%7B(g)%7D%3Bt_0%2C%5Ctheta).

我們把接近原圖像的程度稱作是 faithful, 把生成圖片的質(zhì)量稱作是?realistic. 那么我們可以得到如下的一個(gè)圖像:

橫軸是 t0, 藍(lán)色的線是 KID, 衡量了合成的圖片質(zhì)量(越低越好), 橙色的線是 L2 距離,衡量了生成圖像和原圖像的相似程度(越低越好). 所以從圖像上來看,t0 設(shè)置在 0.3 到 0.6 之間是最佳的范圍

很顯然,如果我們把?t_0?設(shè)置為 0, 意味著我們沒有加入任何的噪聲,那么我們最終生成的圖像就是我們的引導(dǎo)圖像(意味著 L2 距離為 0);如果我們把?t_0?設(shè)置為 1,那么就相當(dāng)于純高斯噪聲開始去噪,所以最終生成的圖像將和引導(dǎo)圖像毫無關(guān)聯(lián)。

遮罩編輯

我們在上面的基礎(chǔ)上再進(jìn)一步,希望只"編輯"源圖像的一小部分,那么我們就需要有一個(gè)遮罩,我們把它稱作?%5COmega%20%5Cin%20%5C%7B0%2C1%5C%7D%5E%7BC%5Ctimes%20H%5Ctimes%20W%7D.?

首先我們還是選擇一個(gè)時(shí)間點(diǎn)?t_0 對原圖像 %5Cmathbf%7Bx%7D_0 進(jìn)行加噪,得到?%5Cmathbf%7Bx%7D_%7Bt_0%7D.?

然后我們針對遮罩的部分,和被遮罩的部分,這兩個(gè)部分進(jìn)行分別處理。對于遮罩的部分,我們利用上述的?%5Ctext%7BSDEdit%7D%20?進(jìn)行去噪,然后將每一步去噪的結(jié)果和遮罩 %5COmega?進(jìn)行元素間相乘。用公式表達(dá),即?%5COmega%20%5Codot%20(%5Cmathbf%7Bx%7D_t%2B%5Cepsilon%5E2s_%5Ctheta(%5Cmathbf%7Bx%7D_t%2Ct)%2B%5Cepsilon%20z).

而對于未遮罩的部分,我們則直接進(jìn)行一個(gè)加噪,即??(1-%5COmega)%20%5Codot%20(%5Cmathbf%7Bx%7D_0%20%2B%5Csigma_t%20%5Cmathbf%7Bz%7D).

然后我們把上面兩部分相加,就得到了每個(gè)時(shí)間點(diǎn) t 時(shí)對應(yīng)的圖像。

完。

B站公式編輯器經(jīng)常崩潰,所以如果看到 tex parse error 之類的錯(cuò)誤信息時(shí),刷新一下頁面一般能解決。

AIGC: SDEdit (Stochastic Differential Editing) 筆記的評論 (共 條)

分享到微博請遵守國家法律
尼木县| 前郭尔| 延长县| 韶关市| 乐都县| 罗甸县| 乌拉特前旗| 东乡族自治县| 肇庆市| 丁青县| 石首市| 耿马| 岑溪市| 秀山| 彭泽县| 隆林| 黄浦区| 佛学| 施秉县| 依安县| 西藏| 平南县| 夹江县| 永胜县| 濉溪县| 吉首市| 宣恩县| 永定县| 兴安县| 文昌市| 潮州市| 江都市| 咸宁市| 长泰县| 南安市| 尼玛县| 内乡县| 颍上县| 浦江县| 繁峙县| 皮山县|