五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

機器學習(西瓜書筆記)第一章

2020-12-29 13:53 作者:薈呀薈學習  | 我要投稿

一、緒論

1.1引言

1.1.1定義

????????機器學習是致力于通過計算的手段,利用數(shù)據(jù)來改善系統(tǒng)自身的性能的學科。

1.1.2研究內(nèi)容

????????從數(shù)據(jù)中產(chǎn)生“模型”的算法(即學習算法)

1.1.3如何運用

????????有了學習算法,將經(jīng)驗數(shù)據(jù)傳給學習算法后,產(chǎn)生相應(yīng)模型;在面對新情況時,模型將會給出相應(yīng)的判斷。


1.2基本術(shù)語

????????數(shù)據(jù)集:一組記錄的集合

????????示例/樣本:每條記錄

????????屬性:反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項。例如每條記錄中的“色澤”、“根蒂”、“敲聲”就是西瓜的屬性

????????屬性空間:屬性張成的空間。例如我們把"色澤" "根蒂" "敲聲"作為三個坐標軸,則它們張成一個用于描述西瓜的三維空間就是屬性空間

????????特征向量:每個西瓜都可在這個空間中找到自己的坐標位置。由于空間中的每個點對應(yīng)一個坐標向量,因此我們也把這個坐標向量稱為一個特征向量。

????????

????????將每個屬性作為一個坐標軸,多個屬性就多個坐標軸,從而形成一個描述物體的屬性空間。此空間中的每個樣本對應(yīng)一個點,每個點都有一個坐標向量,把這個坐標向量稱為特征向量。

????????

????????學習/訓練:從數(shù)據(jù)中學得模型的過程

????????訓練數(shù)據(jù):訓練過程中使用的數(shù)據(jù)

????????訓練樣本:訓練過程中使用的每一個樣本

????????訓練集:訓練樣本組成的集合

????????假設(shè):學得模型對應(yīng)了關(guān)于數(shù)據(jù)的某種潛在規(guī)律

????????真相/真實:這種潛在規(guī)律自身

????????

????????如果希望學得一個能幫助我們判斷沒剖開的是不是"好瓜"的模型,僅有前面的示例數(shù)據(jù)顯然是不夠的要建立這樣的關(guān)于"預(yù)測" 的模型,我們還需獲得訓練樣本的"結(jié)果"信息,例如"((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)" 。

????????

????????標記:關(guān)于示例結(jié)果的信息,比如上面例子中的 "好瓜" 就屬于標記。

????????樣例:擁有了標記信息的示例,則稱為樣例。一般地,用 (xi,yi) 表示第 i 個樣例,其中 xi 是特征向量,yi 是這個樣本的標記。

????????標記空間/輸出空間:一般的用(xi,yi)表示第i個樣例,其中yi∈Y是示例xi的標記,Y是所有標記的集合

????????

????????根據(jù)預(yù)測結(jié)果的類型,可以將機器學習任務(wù)分為二類。

????????分類:預(yù)測結(jié)果的類型是離散值,例如"好瓜","壞瓜";

????????回歸:預(yù)測結(jié)果的類型是連續(xù)值,例如西瓜的成熟度0.37、0.95。

????????

????????學得模型后,使用其進行預(yù)測的過程稱為測試

????????測試樣本:被預(yù)測的樣本被稱為測試樣本

????????

????????我們還可以對西瓜做聚類

????????在聚類學習中,“淺色瓜”,“外地瓜”這樣的概念我們事先是不知道的,而且學習過程中使用的訓練樣本通常不擁有標記信息

????????

????????根據(jù)訓練數(shù)據(jù)是否擁有標記信息,學習任務(wù)也可大致劃分為兩大類。

????????監(jiān)督學習:訓練數(shù)據(jù)有標記信息,其中分類與回歸屬于監(jiān)督學習

????????無監(jiān)督學習:訓練數(shù)據(jù)沒有標記信息,代表有聚類

????????機器學習的目標:使得學到的模型能夠很好的適用"新樣本"

????????泛化:學得模型適用于新樣本的能力

????

1.3假設(shè)空間

1.3.1歸納與假設(shè)

????????歸納:從特殊到一般的“泛化”過程,即從具體的事實歸結(jié)出一般性規(guī)律

????????假設(shè):從一般到特殊的“特化”過程,即從基礎(chǔ)原理推演出具體情況

1.3.2假設(shè)空間定義

????????所有假設(shè)構(gòu)成的集合

1.3.3版本空間

????????只保留了假設(shè)空間中與訓練數(shù)據(jù)集中正例一致的假設(shè),由這些正確的假設(shè)構(gòu)成的集合成為版本空間(簡單來說,版本空間就是正例的泛化)。

????????

????????假設(shè)空間大小計算、構(gòu)建假設(shè)空間以及版本空間

????????舉個例子,假設(shè)西瓜的好壞由“色澤”,“根蒂”以及“敲聲”決定,且"色澤"、"根蒂"和"敲聲"分別有3、2、2 種可能取值。

1.3.4假設(shè)空間大小

1.3.5假設(shè)空間圖示

1.3.6訓練集

1.4歸納偏好

????????定義:機器學習算法在學習過程中對某種類型假設(shè)的偏好。

????????任何一個有效的機器學習算法必有其歸納偏好,否則它將被假設(shè)空間中看似在訓練集上"等效"的假設(shè)所迷惑,無法產(chǎn)生確定的學習結(jié)果。如果沒有偏好,剛才那個例子就沒有確定的答案了。這樣的學習結(jié)果顯得沒有意義。

????????歸納偏好可以看做學習算法自身在一個可能很龐大的假設(shè)空間對假設(shè)進行選擇的啟發(fā)式或“價值觀”

????????奧卡姆剃刀:若有多個假設(shè)與觀察一直,則選擇最簡單的那個。


1.5發(fā)展歷程

????????20世紀80年代,“從樣例中學習”的一大主流師符號主義學習,其代表包括決策樹和基于邏輯學習。

????????20世紀90年代中期之前,“從樣例中學習”的另一主流技術(shù)是基于神經(jīng)網(wǎng)絡(luò)的連接主義學習。

????????20世紀90年代中期, “統(tǒng)計學習(statistical learning)”閃亮登場并迅速占據(jù)主流舞臺,代表技術(shù)是支持向量機(Support Vector Machine,簡稱SVM)以及更一般的“核方法”(kernel methods)

????????21世紀初,連接主義卷土重來,掀起了以“深度學習”為名的熱潮。深度學習的前身是連接主義學習。

小貼士:

????點擊下方左右箭頭,自動跳轉(zhuǎn)到文集的上一篇和下一篇。

????機器學習系列文檔持續(xù)更新,求關(guān)注求三連!

機器學習(西瓜書筆記)第一章的評論 (共 條)

分享到微博請遵守國家法律
佛冈县| 安塞县| 达日县| 邵武市| 古田县| 兴山县| 文安县| 富川| 棋牌| 满城县| 涪陵区| 华宁县| 富平县| 定边县| 玛多县| 隆尧县| 年辖:市辖区| 平邑县| 深泽县| 营口市| 库伦旗| 华蓥市| 翁源县| 四子王旗| 青川县| 平舆县| 华阴市| 双牌县| 塔城市| 岳池县| 徐闻县| 镇安县| 龙里县| 胶州市| 霸州市| 溧水县| 万山特区| 沂源县| 梅河口市| 兴海县| 涡阳县|