五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

個人記錄VITS使用問題(先發(fā)一些,持續(xù)摸索)

2023-02-27 02:30 作者:末夜の十字  | 我要投稿
  1. 不要感覺配置高就堆batch

    之前看教程,別人演示的batch=2,說顯存高可以配置高點,我想我的24G顯存不能浪費,直接填了12。

    so-vits-svc環(huán)境安裝和AI訓練提供的文檔中,up主提到,global-step每1000步存一次,global-step=訓練集數(shù) * epoch / batch-size。

    訓練集數(shù)是固定的,batch_size越高,達成同樣global-step就需要越多的epoch,在8 batch-size下,我推理1000個global_step用了15分鐘,而我換成2 batch-size后,洗個澡出來就7000global-step了,增加了迭代速度可以更容易的分辨出訓練結(jié)果的好壞。

    同時提供一個不確定的觀點:數(shù)據(jù)集少的情況下,batch-size不要調(diào)太大。我在看diffusion ai生成圖片教程5分20秒時,up主提到過,batch還要根據(jù)訓練集數(shù)量來決策,我是從游戲和官方互動視頻提取的音源,數(shù)據(jù)集不多,加起來不到30分鐘,分成10秒片段,也就不到200個,因此我在batch-size=8時,訓練到G10000,感覺效果不如batch-size=2時,訓練到G7000。

  2. 音高的調(diào)整

    女翻唱男時,音高不變的情況下很難聽出是女聲,一般會提高3-7個音高。但提高音高后會出現(xiàn)高音嘶啞、破桑唱不出來等情況。

    不太懂AU的操作,我能想到的是多推理幾種音高,然后用AU合成。

    或者可以試試AU的頻譜頻率顯示器(Shift+D),明顯的瑕疵一般能在頻域內(nèi)發(fā)現(xiàn),比如有些混音能在低頻區(qū)發(fā)現(xiàn)多一些亮的片段,擦除就能恢復正常;有的是聲音頻率不對,高頻區(qū)跑低頻區(qū)去了,這個我不知道怎么修復。


個人記錄VITS使用問題(先發(fā)一些,持續(xù)摸索)的評論 (共 條)

分享到微博請遵守國家法律
图们市| 张北县| 凌源市| 澄迈县| 武义县| 仙游县| 高密市| 娄底市| 安陆市| 辉县市| 桐柏县| 霞浦县| 溧水县| 扎鲁特旗| 博客| 阿瓦提县| 横峰县| 漳浦县| 盖州市| 井陉县| 横山县| 武山县| 略阳县| 聂荣县| 安仁县| 南汇区| 沈丘县| 固阳县| 海原县| 远安县| 淮阳县| 小金县| 亳州市| 泾阳县| 金溪县| 甘谷县| 天祝| 河南省| 库车县| 长兴县| 双流县|