五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

深度之眼文本分類科研小班

2023-07-26 15:45 作者:bili_34604920956  | 我要投稿

數(shù)據(jù)清洗

在實際的中文文本分類問題中,我們面對的原始中文文本數(shù)據(jù)經(jīng)常會存在許多影響最終分類效果的部分,這部分數(shù)據(jù)或文本都需要在文本分類最開始的時候就被清洗干凈,否則很容易導致所謂的“Trash in,trash out”問題。除了一般分類問題的數(shù)據(jù)清洗都包含的缺失值處理、去重處理和噪聲處理等步驟之外,中文文本分類還應(yīng)該做到以下的清洗與處理以下數(shù)據(jù):

  • 非文本數(shù)據(jù)

很多時候我們的分類文本都來自爬蟲的爬取結(jié)果,因此文本中常常會附帶有HTML標簽、URL地址等非文本內(nèi)容,所以需要清除這部分內(nèi)容對分類沒有什么幫助的內(nèi)容。

  • 長串數(shù)字或字母

通常情況下中文文本中長串的數(shù)字代表手機號、車牌號、用戶名ID等文本內(nèi)容,在非特定的文本分類情境下可以去除?;蛘邔⑵滢D(zhuǎn)換為歸一化的特征,如是否出現(xiàn)長串數(shù)字的布爾值特征HAS_DIGITAL、按長度歸一的DIGIAL_LEN_10等等。值得一提的是,表情代號常常作為長串數(shù)字或字母出現(xiàn),卻能在情感分析中卻能起到巨大作用。

  • 無意義文本

此外,還需要過濾掉剩余文本當中的諸如廣告內(nèi)容、版權(quán)信息和個性簽名的部分,毫無疑問這些也都不應(yīng)該作為特征被模型所學習。


深度之眼文本分類科研小班的評論 (共 條)

分享到微博請遵守國家法律
九寨沟县| 镇安县| 永泰县| 将乐县| 道孚县| 屏东市| 三门县| 体育| 二连浩特市| 和政县| 台前县| 北票市| 祁门县| 宜阳县| 那坡县| 镇雄县| 阿拉善左旗| 松桃| 多伦县| 延长县| 黔东| 岑溪市| 宿州市| 海城市| 文登市| 陆良县| 清新县| 远安县| 梓潼县| 黄冈市| 涟水县| 宁武县| 临西县| 吉木萨尔县| 松潘县| 横山县| 台中县| 盘山县| 屏东市| 大竹县| 绥中县|