1.4 數(shù)據(jù)標注【斯坦福21秋季:實用機器學習中文版】

數(shù)據(jù)的標注
本節(jié)課主要講數(shù)據(jù)如果沒有足夠的標注(label), 該怎么辦.

最理想的情況就是你有足夠的數(shù)據(jù)與足夠的標注(label)
數(shù)據(jù)不夠就去補數(shù)據(jù),可以參考之前的課程.?
而你如果想要改善數(shù)據(jù)的標注(label):
1. 當你已經(jīng)有一部分標注,可以使用半監(jiān)督學習
2. 如果你的標志不夠多, 但你有錢, 可以花錢去眾包, 找人來標注.
3. 如果你的標注不夠, 但你又沒錢,你需要弱監(jiān)督學習
4. 實在不行, 用無監(jiān)督學習方法
================如果已經(jīng)有一部分的標注了======================
半監(jiān)督學習

半監(jiān)督學習適用于標注不完整的數(shù)據(jù)集.??
半監(jiān)督學習的假設
1. 連續(xù)性假設: 樣本特征類似則標簽也類似
2. 聚類假設: 數(shù)據(jù)存在內(nèi)在的類別, 同一類的數(shù)據(jù)具有相同的標簽
3. 流型假設: 數(shù)據(jù)實際上是一個低維度的流型(manifold).
半監(jiān)督學習簡單常用案例: 自學習self-training

自學習的簡單過程:
1.通過有標注的數(shù)據(jù)建立一個模型,
2. 用這個模型對未標注的數(shù)據(jù)來產(chǎn)生一個標簽(label)
3. 只保留其中質(zhì)量最好的標簽
4. 并將這些數(shù)據(jù)加到已標注數(shù)據(jù)內(nèi).
自學習過程中的模型需要優(yōu)先考慮標注的準確性.
可以使用一些消耗大的模型.
自學習模型生成的標簽. "質(zhì)量好"指的是,分類中有一類占據(jù)絕對優(yōu)勢. (低熵)
====================如果你錢多=======================
標注不夠,絕大部分時候都是花錢招人標注數(shù)據(jù)(眾包)
就是花錢在網(wǎng)上雇人給你人工標注數(shù)據(jù).

用眾包來標注數(shù)據(jù),給你標數(shù)據(jù)的人教育水平參差不齊, 工作態(tài)度也可能大相徑庭,
所以你需要考慮:
1. 用戶界面盡量方便易懂,
2. 成本,
3. 質(zhì)量控制, 需要想辦法來確保標注的質(zhì)量

主動學習Active learning : 人工幫助下生成標注?

類似于半監(jiān)督學習,但每一步把機器不能確定的數(shù)據(jù)給人來區(qū)分.
常常和半監(jiān)督學習結(jié)合起來?
也是使用部分標注好的數(shù)據(jù)建立模型,
但是在給給未標注數(shù)據(jù)加標簽的時候.?
這些數(shù)據(jù)按照標簽質(zhì)量好壞分成兩個去處.?
質(zhì)量好的加入標注好的數(shù)據(jù)
質(zhì)量不好的給人工去標注
質(zhì)量控制

這個部分比較難, 也靈活.
大體思路是要降低成本
因為你如果把一個數(shù)據(jù)分給多個人去標注總是最好的,但也是最貴的.
======================如果你沒足夠的標注,也沒錢: ======
弱監(jiān)督學習 Weak Supervision

弱監(jiān)督的弱, 指生成的標注比人工結(jié)果要差,但能用來訓練數(shù)據(jù).
這個方法是比較新, 而且看來也并沒有一個成文的標準
簡單的說,比如判斷廣告的時候使用關(guān)鍵詞搜索.?
或者是文本的一些模式匹配.?
或者白嫖其他人的模型.
總結(jié)
數(shù)據(jù)中標注(label)不夠多怎么辦?
如果你有一部分的標簽,
那么用這些標簽去建立模型自學習(self-training)來生成更多標簽
或者花點錢去,眾包在網(wǎng)上找人給你人工標注, 人工標注和自學習可以結(jié)合起來使用
再其次就是你依照一些先驗的知識來建立啟發(fā)式的規(guī)則,生成一些質(zhì)量不如人工,但是可以用來訓練模型的標簽
再不行就可以去考慮一些無監(jiān)督學習方法
.
