【AI繪畫】全部模型種類總結(jié) / 使用方法 / 簡易訓(xùn)練指導(dǎo)——魔導(dǎo)緒論

引言
目前,AI繪畫 的各種模型層出不窮,哪些模型都有什么用?又如何使用?對剛?cè)肟踊蛘卟辉趺聪螺d別人模型使用的人造成了很大困擾。也沒有一個統(tǒng)一的總結(jié)或者教程指導(dǎo)。
這篇文章將會為你介紹目前所有 AI繪畫[1] 的模型種類、使用方法、簡單的訓(xùn)練指導(dǎo)。
歡迎分享給更多的人看到這篇文章,希望可以為你們解惑。
[1] 此處的AI繪畫,特指 stable-diffusion 。
本文嚴(yán)禁轉(zhuǎn)載

1? 緒論
1.1?緒論
不同的模型會帶來不同的畫風(fēng)、認(rèn)識不同的概念(人物/物體/動作),這是模型眾多的原因。
常說的 NovelAI 就是特指 NovelAI 制作的一款 日系二次元特化 的模型。
而 stable-diffusion 1.5、2.0、SDXL這些模型是較為通用的、現(xiàn)實模型,無法畫出二次元圖片
而其他的各種大模型,則是在上面這些基礎(chǔ)上繼續(xù)訓(xùn)練得到的特化模型。

1.2 模型概況
當(dāng)前,常見的模型可以分為兩大類:大模型 [2],用于微調(diào)大模型的小型模型。
[2] 這里的大模型特指標(biāo)準(zhǔn)的 latent-diffusion 模型。擁有完整的 TextEncoder、U-Net、VAE。
由于想要煉制、微調(diào)(finetune)大模型十分困難,需要好顯卡、算力,所以更多的人選擇去煉制小型模型。這些小型模型通過作用在大模型的不同部分,來簡單的修改大模型,從而達(dá)到目的。
常見的用于微調(diào)大模型的小型模型又分為以下幾種:Textual inversion (常說的Embedding模型)、Hypernetwork模型、LoRA模型。
此外,還有一種叫做 VAE 的模型,通常來講 VAE 可以看做是類似(但不是)濾鏡一樣的東西[3]。他會影響出圖的畫面的色彩和某些極其微小的細(xì)節(jié)。大模型本身里面就自帶 VAE 的,但是一些融合模型的?VAE 爛掉了 (典型:Anything-v3),需要外置 VAE 的覆蓋來救救。有時畫面發(fā)灰就是因為這個原因。
[3] VAE,??Variational autoencoder。變分自編碼器,負(fù)責(zé)將潛空間的數(shù)據(jù)轉(zhuǎn)換為正常圖像。
由于模型的種類不同、作用位置也不同,所以想要使用這些模型文件必須分清這些模型類別,并且正確的使用對應(yīng)的方法模型才會生效。
如何區(qū)分這些模型對新手來說是一件非常困難的事情,因為他們都可以擁有一樣的后綴名(下一節(jié)將詳細(xì)展開說明)。通常沒有專業(yè)知識的人員應(yīng)該通過文件大小來簡單判斷模型類別。
針對此,我特意開發(fā)了這個工具來快速辨別模型種類。只需要把模型拖進(jìn)來就行

鏈接:https://spell.novelai.dev/

2 模型種類及使用方法一覽
2.1 模型后綴名之謎
目前,常見的 AI繪畫 用模型后綴名有如下幾種:
1. ckpt ,2. pt ,3. pth,4. safetensors,5(特殊)embedding 模型:PNG、WEBP圖片格式。
暫且拋開第五種不談。這幾種后綴名都是標(biāo)準(zhǔn)的模型,從后綴名是無法判斷具體是哪一種類的模型。
其中,1,2,3 這三種是 pytorch[2] 的標(biāo)準(zhǔn)模型保存格式,由于使用了 Pickle,會有一定的安全風(fēng)險(自行百度:pickle反序列化攻擊)。第四種為一種新型的模型格式,正如同他的名字,安全。為了解決前面的這幾種模型的安全風(fēng)險而出現(xiàn)的。safetensors 格式與 pytorch 的模型可以通過工具進(jìn)行任意轉(zhuǎn)換,只是保存數(shù)據(jù)的方式不同,內(nèi)容數(shù)據(jù)沒有任何區(qū)別。
[2] Pytorch, 深度學(xué)習(xí)框架?https://pytorch.org/
2.2 常見模型種類及使用方法
以下所有模型都可以保存為 safetensors 格式,故常見格式中都不再提及safentensors。
辨別模型類型請使用這個工具:https://spell.novelai.dev/
2.2.1?大模型
大模型,又稱底模、基礎(chǔ)模型。常見格式為 ckpt、safetensors,一個字,大。大小在GB級別,常見有 2G、4G、7G、8G等等大小的模型。
而常見的大模型,又根據(jù)不同的版本,分為 SD1.5、SD2、SD2.1、SDXL。這些大模型之間是不通用的,而我們下載的各種別人煉制的大模型是在這些基礎(chǔ)版本上調(diào)整出來的
模型大小不代表模型質(zhì)量,并且都可以修剪為2G模型。原因如下,有興趣可以學(xué)習(xí)

使用方法:放在這個文件夾內(nèi)。

在 webui 左上角選擇對應(yīng)的模型。

部分合并出來的大模型VAE爛掉了,畫面會發(fā)灰,這時候需要你去手動選擇 vae 使用。
2.2.2 LoRA / LyCORIS
常見格式為 pt、ckpt、safetensors。大小一般在8mb~144mb不等。
使用方法:目前有兩種用法。
一種是插件方式使用,已經(jīng)廢棄故不在提及。
另一種是v1.0以后的版本,原生支持lora。
模型需要放在 models/Lora 文件夾。使用方法如圖所示,點擊一個模型以后會向提示詞列表添加類似這么一個tag, <lora:模型名:權(quán)重> 也可以直接用這個tag調(diào)用lora模型。

v1.6以后的版本,界面則變成了這樣

2.2.3?Embedding (Textual inversion)
俗稱的 embedding 模型。常見格式為 pt、png圖片、webp圖片。大小一般在 KB 級別。
常見的是一些 EasyNegative、bad_image 這些負(fù)面 embedding,放在負(fù)面提示詞內(nèi)使用。

使用方法:
放在這個文件夾里面,生成圖片的時候需要帶上 文件名 作為 tag。
例如,上面這張圖里面的 shiratama_at_2-3000.pt 這個模型,使用的時候就需要帶上這個tag:shiratama_at_2-3000

2.2.4 VAE 模型
常見格式為 .pt
使用方法:將其放在 models/VAE 文件夾。

放置完畢后,在可以在頂欄直接找到

2.2.5 Hypernetwork
一般沒人用了。
常見格式為 pt。大小一般在幾十兆到幾百兆不等。由于這種模型可以自定義的參數(shù)非常之多,一些離譜的?Hypernetwork 模型可以達(dá)到 GB 級別。

使用方法:放在圖中文件夾內(nèi)。



3 模型訓(xùn)練方式簡易指導(dǎo)
3.1 LoRA
可訓(xùn)練:畫風(fēng)√?人物√? 概念√ |?推薦訓(xùn)練:畫風(fēng)、人物
配置要求:顯存8GB以上。
訓(xùn)練速度:快?| 訓(xùn)練難度:簡單
綜合評價:☆☆☆☆☆
評價:目前一般用戶最推薦訓(xùn)練的模型!非常好訓(xùn)練、好出效果的訓(xùn)練,配置要求低,圖要求少。
本地訓(xùn)練教程:


云端訓(xùn)練教程:


3.2?Embedding (Textual inversion)
可訓(xùn)練:畫風(fēng)√ 人物√ | 推薦訓(xùn)練:人物
配置要求:顯存6GB以上。
訓(xùn)練速度:中等 | 訓(xùn)練難度:中等
綜合評價:☆☆
評價:比較基礎(chǔ)的一種,2023年以后已不再推薦訓(xùn)練。目前都用來訓(xùn)練負(fù)面?embedding,提升畫面效果。代替一些復(fù)雜的提示詞。
訓(xùn)練教程:

3.3?Hypernetwork
可訓(xùn)練:畫風(fēng)√ 人物√ |?推薦訓(xùn)練:畫風(fēng)
配置要求:顯存6GB以上。
訓(xùn)練速度:中等 | 訓(xùn)練難度:難
綜合評價:☆☆
評價:不推薦訓(xùn)練。
訓(xùn)練教程:不更新了
3.4?Dreambooth / Native Train
可訓(xùn)練:畫風(fēng)√ 人物√ 概念√ |?推薦訓(xùn)練:Dreambooth 推薦人物,Native Train 推薦畫風(fēng)
配置要求:顯存12GB以上。
訓(xùn)練速度:慢 | 訓(xùn)練難度:可以簡單可以很難
綜合評價:☆☆☆☆☆
評價:微調(diào)大模型,非常強大的訓(xùn)練方式,但是使用上會不那么靈活,推薦訓(xùn)練畫風(fēng)用,人物使用 LoRA 訓(xùn)練。
訓(xùn)練教程:


總結(jié)
本篇文章中介紹了不同模型種類及訓(xùn)練方式。由于時間倉促,并沒能提供全部的訓(xùn)練教程
三連+關(guān)注 后續(xù)更新更多訓(xùn)練教程。也希望可以多多分享這篇文章,來幫助更多的人普及這些知識。本文章禁止無授權(quán)轉(zhuǎn)載。
冷知識:專欄長按點贊就可以投幣三連!點贊對我很重要?。?/span>