五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

1.4 數(shù)據(jù)標注【斯坦福21秋季:實用機器學習中文版】

2021-10-29 13:33 作者:zerodel  | 我要投稿

數(shù)據(jù)的標注


本節(jié)課主要講數(shù)據(jù)如果沒有足夠的標注(label), 該怎么辦.


?
00:00
?




最理想的情況就是你有足夠的數(shù)據(jù)與足夠的標注(label)


數(shù)據(jù)不夠就去補數(shù)據(jù),可以參考之前的課程.?


而你如果想要改善數(shù)據(jù)的標注(label):

1. 當你已經(jīng)有一部分標注,可以使用半監(jiān)督學習

2. 如果你的標志不夠多, 但你有錢, 可以花錢去眾包, 找人來標注.

3. 如果你的標注不夠, 但你又沒錢,你需要弱監(jiān)督學習

4. 實在不行, 用無監(jiān)督學習方法




================如果已經(jīng)有一部分的標注了======================


半監(jiān)督學習

?
01:49
?


半監(jiān)督學習適用于標注不完整的數(shù)據(jù)集.??


半監(jiān)督學習的假設

1. 連續(xù)性假設: 樣本特征類似則標簽也類似

2. 聚類假設: 數(shù)據(jù)存在內(nèi)在的類別, 同一類的數(shù)據(jù)具有相同的標簽

3. 流型假設: 數(shù)據(jù)實際上是一個低維度的流型(manifold).


半監(jiān)督學習簡單常用案例: 自學習self-training

?
04:50
?




自學習的簡單過程:

1.通過有標注的數(shù)據(jù)建立一個模型,

2. 用這個模型對未標注的數(shù)據(jù)來產(chǎn)生一個標簽(label)

3. 只保留其中質(zhì)量最好的標簽

4. 并將這些數(shù)據(jù)加到已標注數(shù)據(jù)內(nèi).


自學習過程中的模型需要優(yōu)先考慮標注的準確性.

可以使用一些消耗大的模型.


自學習模型生成的標簽. "質(zhì)量好"指的是,分類中有一類占據(jù)絕對優(yōu)勢. (低熵)



====================如果你錢多=======================


標注不夠,絕大部分時候都是花錢招人標注數(shù)據(jù)(眾包)

?
09:08
?


就是花錢在網(wǎng)上雇人給你人工標注數(shù)據(jù).




用眾包來標注數(shù)據(jù),給你標數(shù)據(jù)的人教育水平參差不齊, 工作態(tài)度也可能大相徑庭,

所以你需要考慮:

1. 用戶界面盡量方便易懂,

2. 成本,

3. 質(zhì)量控制, 需要想辦法來確保標注的質(zhì)量

?
13:04
?




主動學習Active learning : 人工幫助下生成標注?

?
23:15
?




類似于半監(jiān)督學習,但每一步把機器不能確定的數(shù)據(jù)給人來區(qū)分.

常常和半監(jiān)督學習結(jié)合起來?


也是使用部分標注好的數(shù)據(jù)建立模型,

但是在給給未標注數(shù)據(jù)加標簽的時候.?


這些數(shù)據(jù)按照標簽質(zhì)量好壞分成兩個去處.?

質(zhì)量好的加入標注好的數(shù)據(jù)

質(zhì)量不好的給人工去標注


質(zhì)量控制

?
24:57
?




這個部分比較難, 也靈活.

大體思路是要降低成本


因為你如果把一個數(shù)據(jù)分給多個人去標注總是最好的,但也是最貴的.



======================如果你沒足夠的標注,也沒錢: ======


弱監(jiān)督學習 Weak Supervision

?
29:57
?




弱監(jiān)督的弱, 指生成的標注比人工結(jié)果要差,但能用來訓練數(shù)據(jù).


這個方法是比較新, 而且看來也并沒有一個成文的標準

簡單的說,比如判斷廣告的時候使用關(guān)鍵詞搜索.?

或者是文本的一些模式匹配.?

或者白嫖其他人的模型.


總結(jié)


數(shù)據(jù)中標注(label)不夠多怎么辦?


如果你有一部分的標簽,

那么用這些標簽去建立模型自學習(self-training)來生成更多標簽


或者花點錢去,眾包在網(wǎng)上找人給你人工標注, 人工標注和自學習可以結(jié)合起來使用


再其次就是你依照一些先驗的知識來建立啟發(fā)式的規(guī)則,生成一些質(zhì)量不如人工,但是可以用來訓練模型的標簽


再不行就可以去考慮一些無監(jiān)督學習方法

.

?
35:53
?




1.4 數(shù)據(jù)標注【斯坦福21秋季:實用機器學習中文版】的評論 (共 條)

分享到微博請遵守國家法律
东丰县| 洪雅县| 麦盖提县| 门源| 大庆市| 延吉市| 建宁县| 浦县| 佛冈县| 荔浦县| 中方县| 渭南市| 宕昌县| 贵德县| 英吉沙县| 宝鸡市| 拉孜县| 凤冈县| 南岸区| 贺州市| 河南省| 营口市| 平山县| 华蓥市| 镇平县| 繁峙县| 葫芦岛市| 忻州市| 昌吉市| 合川市| 余姚市| 宁强县| 增城市| 馆陶县| 枣阳市| 客服| 新余市| 南郑县| 武山县| 石台县| 旺苍县|