使用 roberta_wwm 模型實(shí)現(xiàn)文本分類
可在線運(yùn)行的notebook鏈接:在kaggle網(wǎng)站搜索:
Use roberta_wwm_Chinese for text classification
首先將uer倉(cāng)庫(kù)克隆下來。該倉(cāng)庫(kù)是人大和北大合作發(fā)布的模型訓(xùn)練工具包,非常好用:
接著我們修改當(dāng)前目錄為項(xiàng)目的根目錄:
接著我將kaggle上的模型移動(dòng)到項(xiàng)目的models目錄下:(當(dāng)然,你可以使用其他型號(hào)的模型,你可以在github的uer倉(cāng)庫(kù)中找到其他bert型號(hào)的模型)
接著,我們就可以進(jìn)行模型訓(xùn)練了:(請(qǐng)注意修改對(duì)應(yīng)的參數(shù),具體每個(gè)參數(shù)的作用請(qǐng)看下我的視頻)
當(dāng)你完成模型的訓(xùn)練之后,你可以進(jìn)行批量的預(yù)測(cè),然后將預(yù)測(cè)后的數(shù)據(jù)用于人工審核,最終得到更多高質(zhì)量的數(shù)據(jù),從而可以訓(xùn)練得到更強(qiáng)的模型:
標(biāo)簽: