推薦一堆講GAN方面的論文
最近終于有NLP方向的同學(xué)來問我,有咩有NLP方向的論文推薦了!我以為我的粉絲都是CV方向的呢!不要著急,下下周就開始給大家推薦NLP方向的經(jīng)典論文。如果你著急要,就先加入學(xué)姐的交流群領(lǐng)取一部分論文資料吧。
關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)??點(diǎn)擊菜單領(lǐng)資料??點(diǎn)擊鏈接??加群??領(lǐng)資料
熱場(chǎng)完畢,我們來看論文——
GAN
給出GAN的基本框架和理論證明
期刊日期
2014 NIPS(NeurIPS)
論文名稱
《Generative Adversarial Nets》
描述
生成對(duì)抗網(wǎng)絡(luò)通過一個(gè)對(duì)抗步驟來估計(jì)生成模型,它同時(shí)訓(xùn)練兩個(gè)模型:一個(gè)是獲取數(shù)據(jù)分布的生成模型G,一個(gè)是估計(jì)樣本來自訓(xùn)練數(shù)據(jù)而不是G的概率的判別模型D。G的訓(xùn)練步驟就是最大化D犯錯(cuò)的概率。這個(gè)框架對(duì)應(yīng)于一個(gè)二元極小極大博弈。在任意函數(shù)G和D的空間中,存在唯一解,G恢復(fù)數(shù)據(jù)分布,D總是等于1/2。在G和D通過多層感知機(jī)定義的情況下,整個(gè)系統(tǒng)通過反向傳播訓(xùn)練。在訓(xùn)練或者生成樣本過程中,不需要任何馬爾科夫鏈或者展開近似推理網(wǎng)絡(luò)。通過對(duì)生成樣本定性和定量分析,實(shí)驗(yàn)證明了框架的潛力。
論文鏈接
https://arxiv.org/pdf/1406.2661.pdf
代碼:
https://github.com/goodfeli/adversarial
CGAN
在輸入中加入額外的條件信息來控制輸出
期刊日期
2014 arxiv 2014
論文名稱
《Conditional Generative Adversarial Nets》
描述
Conditional Generative Adversarial Networks,這是一種帶條件約束的生成對(duì)抗模型,它在生成模型(G)和判別模型(D)的建模中均引入了條件變量y,這里y可以是label,可以是tags,可以是來自不同模態(tài)是數(shù)據(jù),甚至可以是一張圖片,使用這個(gè)額外的條件變量,對(duì)于生成器對(duì)數(shù)據(jù)的生成具有指導(dǎo)作用,因此,Conditional Generative Adversarial Networks也可以看成是把無監(jiān)督的GAN變成有監(jiān)督模型的一種改進(jìn),這個(gè)改進(jìn)也被證明是非常有效的,為后續(xù)的相關(guān)工作提供了指導(dǎo)作用。
論文鏈接
https://arxiv.org/abs/1411.1784
DCGAN
使用深度卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)生成器和判別器
期刊日期
2015 ICLR
論文名稱
《Unsupervised representation learning with deep convolutional generative adversarial?? networks》
描述
近年來,使用卷積神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)被大量應(yīng)用于計(jì)算機(jī)視覺應(yīng)用中。相對(duì)地,使用卷積神經(jīng)網(wǎng)絡(luò)的非監(jiān)督學(xué)習(xí)則被較少的關(guān)注。在這項(xiàng)工作中,我們希望可以幫助縮小監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)在CNN的成功上差距。我們介紹了CNN的一個(gè)類,稱為深度卷積生成對(duì)抗網(wǎng)絡(luò)(DCGANs),這個(gè)網(wǎng)絡(luò)有著明確的結(jié)構(gòu)約束,并且表明他們對(duì)非監(jiān)督學(xué)習(xí)有著強(qiáng)烈的可信度。
在不同的圖像數(shù)據(jù)集上訓(xùn)練,我們展示出了令人信服的證據(jù),我們的深度卷積對(duì)抗對(duì),從對(duì)象部分到場(chǎng)景,在生產(chǎn)器和判別器上都能學(xué)到層級(jí)的表示。此外,我們?cè)谝恍┬碌娜蝿?wù)上使用學(xué)習(xí)到的特征,表明了它們?cè)谝话慊瘓D像的表示上具有通用性。
論文鏈接
https://arxiv.org/pdf/1511.06434v2.pdf
Improved GAN
對(duì)GAN的全方位改進(jìn)以及評(píng)價(jià)指標(biāo)IS的提出
期刊日期
2016 NIPS(NeurIPS)
論文名稱
《Improved Techniques for Training GANs》
描述
GAN是基于博弈論的生成模型方法。GAN訓(xùn)練一個(gè)生成網(wǎng)絡(luò)來生成盡可能真實(shí)的圖像,一個(gè)判別網(wǎng)絡(luò)盡可能區(qū)分真是圖像和生成圖像。
訓(xùn)練GAN要求找到在連續(xù)高維參數(shù)下非凸博弈的納什均衡。但是通常GAN用梯度下降方法去尋找損失函數(shù)的最小值,而不是納什均衡。
本文,我們介紹了幾個(gè)方法去鼓勵(lì)GAN博弈的收斂。這些方法的靈感來源于非凸問題的啟發(fā)式理解??梢詭椭嵘氡O(jiān)督學(xué)習(xí)性能和提升采樣生成。
論文鏈接
https://arxiv.org/pdf/1606.03498.pdf
Pix2Pix
把輸入由隨機(jī)噪聲改為圖像
期刊日期
2017 CVPR
論文名稱
《Image-to-Image Translation with Conditional Adversarial Networks》
描述
在圖像處理、計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺領(lǐng)域,很多問題都可以認(rèn)為是將一張輸入圖片“轉(zhuǎn)換”成相對(duì)應(yīng)的輸出圖片。一個(gè)場(chǎng)景可以被渲染為RGB圖像,梯度域,邊緣圖或語義圖等。類比自動(dòng)語言翻譯,我們將圖像到圖像的轉(zhuǎn)換問題定義為,在給定足夠訓(xùn)練數(shù)據(jù)的情況下,將場(chǎng)景的一個(gè)可能表示轉(zhuǎn)換成另一個(gè)。
語言翻譯之所以困難的一個(gè)原因是,語言之間的映射很少是一對(duì)一的,一種語言中的概念總是比用其他語言表達(dá)來的容易。相似的,絕大多數(shù)圖像轉(zhuǎn)換問題也是多對(duì)一的(計(jì)算機(jī)視覺)或者一對(duì)多的(計(jì)算機(jī)圖形學(xué))。
傳統(tǒng)上,每個(gè)任務(wù)都使用一種單獨(dú)的,專用的機(jī)制來解決。但是實(shí)際上這些任務(wù)本質(zhì)上都是一樣的:從像素點(diǎn)預(yù)測(cè)新的像素點(diǎn)。本文的目標(biāo)就是為這些問題設(shè)計(jì)一種通用的框架。
論文鏈接
https://arxiv.org/pdf/1611.07004.pdf
CycleGAN
輸入和輸出是無需一一對(duì)應(yīng)的兩組圖像
期刊日期
2017 CVPR
論文名稱
《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》
描述
圖像到圖像的轉(zhuǎn)換是一個(gè)經(jīng)典的視覺和圖形問題,目的是在對(duì)齊的數(shù)據(jù)集中學(xué)習(xí)輸入圖像和輸出圖像之間的映射關(guān)系。然而,許多任務(wù),對(duì)齊訓(xùn)練數(shù)據(jù)很難獲取。作者提出一種不對(duì)齊數(shù)據(jù)集訓(xùn)(源數(shù)據(jù)域X到目標(biāo)域Y)的學(xué)習(xí)方法。
目標(biāo)是學(xué)習(xí)映射G: X -> Y 認(rèn)為來自G(x)的分布圖與使用對(duì)抗性損失的分布圖無法區(qū)分。因?yàn)檫@個(gè)映射是高度受限,所以作者使用一個(gè)逆映射:Y -> X, 并引入一個(gè)循環(huán)一致性損失強(qiáng)制 F(G(X))~X(反之亦然)。
在不存在配對(duì)訓(xùn)練數(shù)據(jù)的情況下,給出了定性的結(jié)果,包括收集風(fēng)格遷移,物體變形,季節(jié)轉(zhuǎn)移,光增強(qiáng)等。通過對(duì)幾種已有方法的定量比較,證明了作者的方法的優(yōu)越性。
論文鏈接
https://ieeexplore.ieee.org/document/8237506
Progressively-Growing GAN
GAN使用漸進(jìn)式訓(xùn)練來逐步生成越來越大的圖像
期刊日期
2018 ICLR
論文名稱
《Progressive Growing of GANs for Improved Quality, Stability, and Variation》
描述
提出了一種新的訓(xùn)練對(duì)抗神經(jīng)網(wǎng)絡(luò)的方法。核心思想是逐步訓(xùn)練生成器和分別器:從低分辨率開始,隨著訓(xùn)練進(jìn)程推進(jìn),逐步增加新的層來提煉細(xì)節(jié)。這種方法不僅加快了訓(xùn)練速度并且更加穩(wěn)定,可以產(chǎn)生高質(zhì)量的圖像
提出了一些實(shí)施的細(xì)節(jié)對(duì)于消除生成器和分辨器的不好的競(jìng)爭(zhēng)
提出了新的方法來評(píng)估GAN產(chǎn)生的結(jié)果
論文鏈接
https://arxiv.org/pdf/1710.10196v3.pdf
代碼:
https://github.com/tkarras/progressive_growing_of_gans
StackGAN
根據(jù)一段文本描述來生成對(duì)應(yīng)的圖像
期刊日期
2017 ICCV
論文名稱
《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial?? Networks》
描述
本文是研究文本生成圖片的問題,相比于之前的論文不能生成必要的細(xì)節(jié)和具體的對(duì)象,本文著重要解決的問題是提高圖片的分辨率同時(shí)為圖片添加必要的細(xì)節(jié)。
其實(shí)stackGAN的原理和做法很類似,可以看作是兩個(gè)CGAN串聯(lián)在一起。
論文鏈接
https://arxiv.org/pdf/1612.03242v1.pdf
代碼:
https://github.com/hanzhanggit/StackGAN
BigGAN
大batch、大網(wǎng)絡(luò)、限制輸入噪聲z的分布,訓(xùn)練穩(wěn)定性trick-
期刊日期
2018 ICLR
論文名稱
《Large Scale GAN Training for High Fidelity Natural Image Synthesis》
描述
1、論證了GANs能通過scaling來提升性能。他們使用與原先技術(shù)相比,2~4倍的參數(shù)量和8倍的batch size,引入了兩種簡(jiǎn)單的結(jié)構(gòu)調(diào)整方法來提升網(wǎng)絡(luò)的可擴(kuò)展性,并修改一種正則化方案來提高conditioning。
2、上述修改產(chǎn)生的另一種影響是,模型非常適用于“trucation trick”,它是一種簡(jiǎn)單的采樣技術(shù),可以對(duì)樣本多樣性與保真性進(jìn)行外部地細(xì)粒度地調(diào)節(jié)。
3、發(fā)現(xiàn)大型GAN特有的不穩(wěn)定性,并從經(jīng)驗(yàn)上對(duì)他們進(jìn)行描述。經(jīng)過分析表明通過現(xiàn)有技術(shù)與創(chuàng)新的技術(shù)的結(jié)合能夠減少這種不穩(wěn)定性,但是訓(xùn)練時(shí)完全的穩(wěn)定性只能通過以較大地犧牲模型表現(xiàn)來實(shí)現(xiàn)。
論文鏈接
https://arxiv.org/pdf/1809.11096.pdf
StyleGAN
基于progressively-growing?GAN可以精細(xì)控制輸出圖像不同尺度的特征
期刊日期
2018 CVPR
論文名稱
《A Style-Based Generator Architecture for Generative Adversarial Networks》
描述
這是NVIDIA的一篇新論文,一個(gè)對(duì)于GAN(StyleGAN)的基于樣式的生成器體系結(jié)構(gòu),提出了一個(gè)新的模型來應(yīng)對(duì)這個(gè)挑戰(zhàn)。StyleGAN是一步一步地生成人工圖像的,從非常低的分辨率開始,一直到高分辨率(1024×1024)。通過分別地修改網(wǎng)絡(luò)中每個(gè)級(jí)別的輸入,它可以控制在該級(jí)別中所表示的視覺特征,從粗糙的特征(姿勢(shì)、面部形狀)到精細(xì)的細(xì)節(jié)(頭發(fā)顏色),而不會(huì)影響其它的級(jí)別。
這種技術(shù)不僅可以更好地理解所生成的輸出,而且還可以產(chǎn)生最高水平的結(jié)果 — 比以前生成的圖像看起來更加真實(shí)的高分辨率圖像。
論文鏈接
https://arxiv.org/pdf/1812.04948.pdf
代碼:
https://github.com/NVlabs/ffhq-dataset
https://github.com/NVlabs/stylegan
免責(zé)聲明:所載內(nèi)容來源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請(qǐng)聯(lián)系我們刪除。
關(guān)注【學(xué)姐帶你玩AI】
找論文不迷路
