手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學習 » 機器學習（西瓜書筆記）第一章

機器學習（西瓜書筆記）第一章

2020-12-29 13:53 作者:薈呀薈學習 0人讀過 | 我要投稿

一、緒論

1.1引言

1.1.1定義

????????機器學習是致力于通過計算的手段，利用數(shù)據(jù)來改善系統(tǒng)自身的性能的學科。

1.1.2研究內(nèi)容

????????從數(shù)據(jù)中產(chǎn)生“模型”的算法（即學習算法）

1.1.3如何運用

????????有了學習算法，將經(jīng)驗數(shù)據(jù)傳給學習算法后，產(chǎn)生相應(yīng)模型；在面對新情況時，模型將會給出相應(yīng)的判斷。

1.2基本術(shù)語

????????數(shù)據(jù)集：一組記錄的集合

????????示例/樣本：每條記錄

????????屬性：反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項。例如每條記錄中的“色澤”、“根蒂”、“敲聲”就是西瓜的屬性

????????屬性空間：屬性張成的空間。例如我們把"色澤" "根蒂" "敲聲"作為三個坐標軸，則它們張成一個用于描述西瓜的三維空間就是屬性空間

????????特征向量：每個西瓜都可在這個空間中找到自己的坐標位置。由于空間中的每個點對應(yīng)一個坐標向量，因此我們也把這個坐標向量稱為一個特征向量。

????????

????????將每個屬性作為一個坐標軸，多個屬性就多個坐標軸，從而形成一個描述物體的屬性空間。此空間中的每個樣本對應(yīng)一個點，每個點都有一個坐標向量，把這個坐標向量稱為特征向量。

????????

????????學習/訓練：從數(shù)據(jù)中學得模型的過程

????????訓練數(shù)據(jù)：訓練過程中使用的數(shù)據(jù)

????????訓練樣本：訓練過程中使用的每一個樣本

????????訓練集：訓練樣本組成的集合

????????假設(shè)：學得模型對應(yīng)了關(guān)于數(shù)據(jù)的某種潛在規(guī)律

????????真相/真實：這種潛在規(guī)律自身

????????

????????如果希望學得一個能幫助我們判斷沒剖開的是不是"好瓜"的模型，僅有前面的示例數(shù)據(jù)顯然是不夠的要建立這樣的關(guān)于"預(yù)測" 的模型，我們還需獲得訓練樣本的"結(jié)果"信息，例如"((色澤=青綠;根蒂=蜷縮;敲聲=濁響)，好瓜)" 。

????????

????????標記：關(guān)于示例結(jié)果的信息，比如上面例子中的 "好瓜" 就屬于標記。

????????樣例：擁有了標記信息的示例，則稱為樣例。一般地，用 (xi,yi) 表示第 i 個樣例，其中 xi 是特征向量，yi 是這個樣本的標記。

????????標記空間/輸出空間：一般的用（xi,yi）表示第i個樣例，其中yi∈Y是示例xi的標記，Y是所有標記的集合

????????

????????根據(jù)預(yù)測結(jié)果的類型，可以將機器學習任務(wù)分為二類。

????????分類：預(yù)測結(jié)果的類型是離散值，例如"好瓜"，"壞瓜"；

????????回歸：預(yù)測結(jié)果的類型是連續(xù)值，例如西瓜的成熟度0.37、0.95。

????????

????????學得模型后，使用其進行預(yù)測的過程稱為測試

????????測試樣本：被預(yù)測的樣本被稱為測試樣本

????????

????????我們還可以對西瓜做聚類

????????在聚類學習中，“淺色瓜”，“外地瓜”這樣的概念我們事先是不知道的，而且學習過程中使用的訓練樣本通常不擁有標記信息

????????

????????根據(jù)訓練數(shù)據(jù)是否擁有標記信息，學習任務(wù)也可大致劃分為兩大類。

????????監(jiān)督學習：訓練數(shù)據(jù)有標記信息，其中分類與回歸屬于監(jiān)督學習

????????無監(jiān)督學習：訓練數(shù)據(jù)沒有標記信息，代表有聚類

????????機器學習的目標：使得學到的模型能夠很好的適用"新樣本"

????????泛化：學得模型適用于新樣本的能力

????

1.3假設(shè)空間

1.3.1歸納與假設(shè)

????????歸納：從特殊到一般的“泛化”過程，即從具體的事實歸結(jié)出一般性規(guī)律

????????假設(shè)：從一般到特殊的“特化”過程，即從基礎(chǔ)原理推演出具體情況

1.3.2假設(shè)空間定義

????????所有假設(shè)構(gòu)成的集合

1.3.3版本空間

????????只保留了假設(shè)空間中與訓練數(shù)據(jù)集中正例一致的假設(shè)，由這些正確的假設(shè)構(gòu)成的集合成為版本空間（簡單來說，版本空間就是正例的泛化）。

????????

????????假設(shè)空間大小計算、構(gòu)建假設(shè)空間以及版本空間

????????舉個例子，假設(shè)西瓜的好壞由“色澤”，“根蒂”以及“敲聲”決定，且"色澤"、"根蒂"和"敲聲"分別有3、2、2 種可能取值。

1.3.4假設(shè)空間大小

1.3.5假設(shè)空間圖示

1.3.6訓練集

1.4歸納偏好

????????定義：機器學習算法在學習過程中對某種類型假設(shè)的偏好。

????????任何一個有效的機器學習算法必有其歸納偏好，否則它將被假設(shè)空間中看似在訓練集上"等效"的假設(shè)所迷惑，無法產(chǎn)生確定的學習結(jié)果。如果沒有偏好，剛才那個例子就沒有確定的答案了。這樣的學習結(jié)果顯得沒有意義。

????????歸納偏好可以看做學習算法自身在一個可能很龐大的假設(shè)空間對假設(shè)進行選擇的啟發(fā)式或“價值觀”

????????奧卡姆剃刀：若有多個假設(shè)與觀察一直，則選擇最簡單的那個。

1.5發(fā)展歷程

????????20世紀80年代，“從樣例中學習”的一大主流師符號主義學習，其代表包括決策樹和基于邏輯學習。

????????20世紀90年代中期之前，“從樣例中學習”的另一主流技術(shù)是基于神經(jīng)網(wǎng)絡(luò)的連接主義學習。

????????20世紀90年代中期, “統(tǒng)計學習（statistical learning）”閃亮登場并迅速占據(jù)主流舞臺，代表技術(shù)是支持向量機（Support Vector Machine,簡稱SVM）以及更一般的“核方法”（kernel methods）

????????21世紀初，連接主義卷土重來，掀起了以“深度學習”為名的熱潮。深度學習的前身是連接主義學習。

小貼士：

????點擊下方左右箭頭，自動跳轉(zhuǎn)到文集的上一篇和下一篇。

????機器學習系列文檔持續(xù)更新，求關(guān)注求三連！

標簽：模型學習訓練筆記機器學習線性回歸樣本測試集西瓜書驗證集