機器學習(西瓜書筆記)第一章

一、緒論
1.1引言
1.1.1定義
????????機器學習是致力于通過計算的手段,利用數(shù)據(jù)來改善系統(tǒng)自身的性能的學科。
1.1.2研究內(nèi)容
????????從數(shù)據(jù)中產(chǎn)生“模型”的算法(即學習算法)
1.1.3如何運用
????????有了學習算法,將經(jīng)驗數(shù)據(jù)傳給學習算法后,產(chǎn)生相應(yīng)模型;在面對新情況時,模型將會給出相應(yīng)的判斷。
1.2基本術(shù)語
????????數(shù)據(jù)集:一組記錄的集合
????????示例/樣本:每條記錄
????????屬性:反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項。例如每條記錄中的“色澤”、“根蒂”、“敲聲”就是西瓜的屬性
????????屬性空間:屬性張成的空間。例如我們把"色澤" "根蒂" "敲聲"作為三個坐標軸,則它們張成一個用于描述西瓜的三維空間就是屬性空間
????????特征向量:每個西瓜都可在這個空間中找到自己的坐標位置。由于空間中的每個點對應(yīng)一個坐標向量,因此我們也把這個坐標向量稱為一個特征向量。
????????
????????將每個屬性作為一個坐標軸,多個屬性就多個坐標軸,從而形成一個描述物體的屬性空間。此空間中的每個樣本對應(yīng)一個點,每個點都有一個坐標向量,把這個坐標向量稱為特征向量。
????????
????????學習/訓練:從數(shù)據(jù)中學得模型的過程
????????訓練數(shù)據(jù):訓練過程中使用的數(shù)據(jù)
????????訓練樣本:訓練過程中使用的每一個樣本
????????訓練集:訓練樣本組成的集合
????????假設(shè):學得模型對應(yīng)了關(guān)于數(shù)據(jù)的某種潛在規(guī)律
????????真相/真實:這種潛在規(guī)律自身
????????
????????如果希望學得一個能幫助我們判斷沒剖開的是不是"好瓜"的模型,僅有前面的示例數(shù)據(jù)顯然是不夠的要建立這樣的關(guān)于"預(yù)測" 的模型,我們還需獲得訓練樣本的"結(jié)果"信息,例如"((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)" 。
????????
????????標記:關(guān)于示例結(jié)果的信息,比如上面例子中的 "好瓜" 就屬于標記。
????????樣例:擁有了標記信息的示例,則稱為樣例。一般地,用 (xi,yi) 表示第 i 個樣例,其中 xi 是特征向量,yi 是這個樣本的標記。
????????標記空間/輸出空間:一般的用(xi,yi)表示第i個樣例,其中yi∈Y是示例xi的標記,Y是所有標記的集合
????????
????????根據(jù)預(yù)測結(jié)果的類型,可以將機器學習任務(wù)分為二類。
????????分類:預(yù)測結(jié)果的類型是離散值,例如"好瓜","壞瓜";
????????回歸:預(yù)測結(jié)果的類型是連續(xù)值,例如西瓜的成熟度0.37、0.95。
????????
????????學得模型后,使用其進行預(yù)測的過程稱為測試
????????測試樣本:被預(yù)測的樣本被稱為測試樣本
????????
????????我們還可以對西瓜做聚類
????????在聚類學習中,“淺色瓜”,“外地瓜”這樣的概念我們事先是不知道的,而且學習過程中使用的訓練樣本通常不擁有標記信息
????????
????????根據(jù)訓練數(shù)據(jù)是否擁有標記信息,學習任務(wù)也可大致劃分為兩大類。
????????監(jiān)督學習:訓練數(shù)據(jù)有標記信息,其中分類與回歸屬于監(jiān)督學習
????????無監(jiān)督學習:訓練數(shù)據(jù)沒有標記信息,代表有聚類
????????機器學習的目標:使得學到的模型能夠很好的適用"新樣本"
????????泛化:學得模型適用于新樣本的能力
????
1.3假設(shè)空間
1.3.1歸納與假設(shè)
????????歸納:從特殊到一般的“泛化”過程,即從具體的事實歸結(jié)出一般性規(guī)律
????????假設(shè):從一般到特殊的“特化”過程,即從基礎(chǔ)原理推演出具體情況
1.3.2假設(shè)空間定義
????????所有假設(shè)構(gòu)成的集合
1.3.3版本空間
????????只保留了假設(shè)空間中與訓練數(shù)據(jù)集中正例一致的假設(shè),由這些正確的假設(shè)構(gòu)成的集合成為版本空間(簡單來說,版本空間就是正例的泛化)。
????????
????????假設(shè)空間大小計算、構(gòu)建假設(shè)空間以及版本空間
????????舉個例子,假設(shè)西瓜的好壞由“色澤”,“根蒂”以及“敲聲”決定,且"色澤"、"根蒂"和"敲聲"分別有3、2、2 種可能取值。
1.3.4假設(shè)空間大小


1.3.5假設(shè)空間圖示

1.3.6訓練集

1.4歸納偏好
????????定義:機器學習算法在學習過程中對某種類型假設(shè)的偏好。
????????任何一個有效的機器學習算法必有其歸納偏好,否則它將被假設(shè)空間中看似在訓練集上"等效"的假設(shè)所迷惑,無法產(chǎn)生確定的學習結(jié)果。如果沒有偏好,剛才那個例子就沒有確定的答案了。這樣的學習結(jié)果顯得沒有意義。
????????歸納偏好可以看做學習算法自身在一個可能很龐大的假設(shè)空間對假設(shè)進行選擇的啟發(fā)式或“價值觀”
????????奧卡姆剃刀:若有多個假設(shè)與觀察一直,則選擇最簡單的那個。
1.5發(fā)展歷程
????????20世紀80年代,“從樣例中學習”的一大主流師符號主義學習,其代表包括決策樹和基于邏輯學習。
????????20世紀90年代中期之前,“從樣例中學習”的另一主流技術(shù)是基于神經(jīng)網(wǎng)絡(luò)的連接主義學習。
????????20世紀90年代中期, “統(tǒng)計學習(statistical learning)”閃亮登場并迅速占據(jù)主流舞臺,代表技術(shù)是支持向量機(Support Vector Machine,簡稱SVM)以及更一般的“核方法”(kernel methods)
????????21世紀初,連接主義卷土重來,掀起了以“深度學習”為名的熱潮。深度學習的前身是連接主義學習。

小貼士:
????點擊下方左右箭頭,自動跳轉(zhuǎn)到文集的上一篇和下一篇。
????機器學習系列文檔持續(xù)更新,求關(guān)注求三連!