散文網(wǎng) » 科技 »學(xué)習(xí) » AIGC: SDEdit (Stochastic Differential Editing) 筆記

AIGC: SDEdit (Stochastic Differential Editing) 筆記

2023-09-09 17:27 作者:剎那-Ksana- 0人讀過 | 我要投稿

上一個(gè)文章介紹了擴(kuò)散模型的圖像修復(fù)，這次順勢介紹一下擴(kuò)散模型的 img2img. 論文（2108.01073）里面的一些符號喜歡用函數(shù)表示，這里全部改成通用的下標(biāo)形式了。

從回顧SGM開始

這里，先回顧一下?Score-based Generative Models?(2011.13456). 對于擴(kuò)散的正向加噪過程，我們可以有以下的通用形式（假設(shè)擴(kuò)散項(xiàng)只與時(shí)間有關(guān)）：

$d%5Cmathbf%7Bx%7D%3D%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)dt%2Bg(t)d%5Cmathbf%7Bw%7D$

對于 VP-SDE (Variance Preserving SDE), 我們有?? $%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)%3D-%5Cfrac%7B1%7D%7B2%7D%5Cbeta(t)%5Cmathbf%7Bx%7D$ ?和? $g(t)%3D%5Csqrt%7B%5Cbeta(t)%7D$ . 對于 VE-SDE (Variance Exploding SDE), 我們有? $%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)%3D0$ ?和? $g(t)%3D%5Csqrt%7B%5Cfrac%7Bd%5B%5Csigma%5E2(t)%5D%7D%7Bdt%7D%7D$ .

而對于每一個(gè)正向加噪過程，我們都有一個(gè)對應(yīng)的逆向去噪過程：

$d%5Cmathbf%7Bx%7D%3D%5B%5Cmathbf%7Bf%7D(%5Cmathbf%7Bx%7D%2Ct)-g(t)%5E2%5Cnabla_%7B%5Cmathbf%7Bx%7D%7D%20%5Clog%20p_t(x)%5Ddt%20%2B%20g(t)d%5Cbar%7B%5Cmathbf%7Bw%7D%7D$

其中， $%5Cnabla_%7B%5Cmathbf%7Bx%7D%7D%20%5Clog%20p_t(x)$ ?被稱作分?jǐn)?shù)函數(shù) (score function), 我們使用一個(gè)模型? $s_%7B%5Ctheta%7D(x_t%2C%20t)$ ?去"學(xué)習(xí)"這個(gè)分?jǐn)?shù)函數(shù)。通常我們沒法求上述 SDE 的解析解，所以我們將連續(xù)時(shí)間? $t%5Cin%20%5B0%2C1%5D$ ?做一個(gè)離散化，然后利用一些數(shù)值解法來求解。

所以，論文中（對于?VE-SDE）采用了 Euler-Maruyama 的數(shù)值解法：

$%7B%5Cmathbf%7Bx%7D%7D_t%20%3D%20%7B%5Cmathbf%7Bx%7D%7D_%7Bt%20%2B%20%5CDelta%20t%7D%20%2B%20(%5Csigma%5E2_%7Bt%7D-%20%5Csigma%5E2_%7Bt%20%2B%20%5CDelta%20t%7D)s_%5Ctheta%20(%5Cmathbf%7Bx%7D_t%2C%20t)%2B%5Csqrt%7B%5Csigma%5E2_t-%5Csigma%5E2_%7Bt%20%2B%20%5CDelta%20t%7D%7D%5Cmathbf%7Bz%7D$

其中，

$%5Csigma_t%3D%5Cbegin%7Bcases%7D%200%2C%20%26%5Cquad%20t%20%3D%200%5C%5C%0A%20%20%20%20%5Csigma_%5Ctext%7Bmin%7D%20%5Cleft(%5Cfrac%7B%5Csigma_%5Ctext%7Bmax%7D%7D%7B%5Csigma_%5Ctext%7Bmin%7D%7D%20%5Cright)%5Et%2C%20%26%5Cquad%20t%20%3E%200%20%5Cend%7Bcases%7D$

Img2Img

接下來是 SDEdit 的初始設(shè)定，我們的任務(wù)是一個(gè) img2img ——將一個(gè)圖片轉(zhuǎn)換為另外一個(gè)圖片。原圖我們稱作引導(dǎo)圖像（guide），用? $%5Cmathbf%7Bx%7D%5E%7B(g)%7D$ ?來表示，轉(zhuǎn)換后的圖像我們用 $%5Cmathbf%7Bx%7D_0$ 表示。

我們發(fā)現(xiàn)，解 SDE 其實(shí)未必要從 $t%3D1$ 出發(fā)，而是可以從中途的任一時(shí)間點(diǎn)開始。所以，我們選取一個(gè)時(shí)間點(diǎn) $t_0$ , 對? $%5Cmathbf%7Bx%7D%5E%7B(g)%7D$ ?加噪聲： $%5Cmathbf%7Bx%7D%5E%7B(g)%7D_%7Bt_0%7D%5Csim%20%5Cmathcal%7BN%7D(%5Cmathbf%7Bx%7D%5E%7B(g)%7D%3B%20%5Csigma%5E2_%7Bt_0%7DI)$ .?

然后，我們利用上述的數(shù)值解法，從? $%5Cmathbf%7Bx%7D%5E%7B(g)%7D_%7Bt_0%7D$ ?進(jìn)行逆向去噪過程，然后獲得圖像 $%5Cmathbf%7Bx%7D_0$ .?

這一整個(gè)過程，我們把它稱作? $%5Ctext%7BSDEdit%7D%20(x%5E%7B(g)%7D%3Bt_0%2C%5Ctheta)$ .

我們把接近原圖像的程度稱作是 faithful, 把生成圖片的質(zhì)量稱作是?realistic. 那么我們可以得到如下的一個(gè)圖像：

橫軸是 t0, 藍(lán)色的線是 KID, 衡量了合成的圖片質(zhì)量（越低越好）, 橙色的線是 L2 距離，衡量了生成圖像和原圖像的相似程度（越低越好）. 所以從圖像上來看，t0 設(shè)置在 0.3 到 0.6 之間是最佳的范圍

很顯然，如果我們把? $t_0$ ?設(shè)置為 0, 意味著我們沒有加入任何的噪聲，那么我們最終生成的圖像就是我們的引導(dǎo)圖像（意味著 L2 距離為 0）；如果我們把? $t_0$ ?設(shè)置為 1，那么就相當(dāng)于純高斯噪聲開始去噪，所以最終生成的圖像將和引導(dǎo)圖像毫無關(guān)聯(lián)。

遮罩編輯

我們在上面的基礎(chǔ)上再進(jìn)一步，希望只"編輯"源圖像的一小部分，那么我們就需要有一個(gè)遮罩，我們把它稱作? $%5COmega%20%5Cin%20%5C%7B0%2C1%5C%7D%5E%7BC%5Ctimes%20H%5Ctimes%20W%7D$ .?

首先我們還是選擇一個(gè)時(shí)間點(diǎn)? $t_0$ 對原圖像 $%5Cmathbf%7Bx%7D_0$ 進(jìn)行加噪，得到? $%5Cmathbf%7Bx%7D_%7Bt_0%7D$ .?

然后我們針對遮罩的部分，和被遮罩的部分，這兩個(gè)部分進(jìn)行分別處理。對于遮罩的部分，我們利用上述的? $%5Ctext%7BSDEdit%7D%20$ ?進(jìn)行去噪，然后將每一步去噪的結(jié)果和遮罩 $%5COmega$ ?進(jìn)行元素間相乘。用公式表達(dá)，即? $%5COmega%20%5Codot%20(%5Cmathbf%7Bx%7D_t%2B%5Cepsilon%5E2s_%5Ctheta(%5Cmathbf%7Bx%7D_t%2Ct)%2B%5Cepsilon%20z)$ .