五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網 會員登陸 & 注冊

ApacheCN 機器學習實戰(zhàn)講義 十三、利用 PCA 來簡化數據

2018-05-03 00:04 作者:絕不原創(chuàng)的飛龍  | 我要投稿

降維技術

場景

  • 我們正通過電視觀看體育比賽,在電視的顯示器上有一個球。

  • 顯示器大概包含了100萬像素點,而球則可能是由較少的像素點組成,例如說一千個像素點。

  • 人們實時的將顯示器上的百萬像素轉換成為一個三維圖像,該圖像就給出運動場上球的位置。

  • 在這個過程中,人們已經將百萬像素點的數據,降至為三維。這個過程就稱為降維(dimensionality reduction)

數據顯示 并非大規(guī)模特征下的唯一難題,對數據進行簡化還有如下一系列的原因:

  • 1) 使得數據集更容易使用

  • 2) 降低很多算法的計算開銷

  • 3) 去除噪音

  • 4) 使得結果易懂

適用范圍:

  • 在已標注與未標注的數據上都有降維技術。

  • 這里我們將主要關注未標注數據上的降維技術,將技術同樣也可以應用于已標注的數據。

在以下3種降維技術中, PCA的應用目前最為廣泛,因此本章主要關注PCA。

  • 1) 主成分分析(Principal Component Analysis, PCA)

    • 通俗理解:就是找出一個最主要的特征,然后進行分析。

    • 例如: 考察一個人的智力情況,就直接看數學成績就行(存在:數學、語文、英語成績)

  • 2) 因子分析(Factor Analysis)

    • 假設觀察數據的成分中有一些觀察不到的隱變量(latent variable)。

    • 假設觀察數據是這些隱變量和某些噪音的線性組合。

    • 那么隱變量的數據可能比觀察數據的數目少,也就說通過找到隱變量就可以實現(xiàn)數據的降維。

    • 通俗理解:將多個實測變量轉換為少數幾個綜合指標。它反映一種降維的思想,通過降維將相關性高的變量聚在一起,從而減少需要分析的變量的數量,而減少問題分析的復雜性

    • 例如: 考察一個人的整體情況,就直接組合3樣成績(隱變量),看平均成績就行(存在:數學、語文、英語成績)

    • 應用的領域:社會科學、金融和其他領域

    • 在因子分析中,我們

  • 3) 獨立成分分析(Independ Component Analysis, ICA)

    • 通俗理解:ICA 認為觀測信號是若干個獨立信號的線性組合,ICA 要做的是一個解混過程。

    • 例如:我們去ktv唱歌,想辨別唱的是什么歌曲?ICA 是觀察發(fā)現(xiàn)是原唱唱的一首歌【2個獨立的聲音(原唱/主唱)】。

    • ICA 是假設數據是從 N 個數據源混合組成的,這一點和因子分析有些類似,這些數據源之間在統(tǒng)計上是相互獨立的,而在 PCA 中只假設數據是不 相關(線性關系)的。

    • 同因子分析一樣,如果數據源的數目少于觀察數據的數目,則可以實現(xiàn)降維過程。

閱讀全文:http://ml.apachecn.org/mlia/pca/

ApacheCN 機器學習實戰(zhàn)講義 十三、利用 PCA 來簡化數據的評論 (共 條)

分享到微博請遵守國家法律
辽宁省| 天镇县| 甘谷县| 东方市| 肇州县| 南充市| 庆安县| 那曲县| 永新县| 米脂县| 宁海县| 仪陇县| 金山区| 永福县| 威远县| 行唐县| 壤塘县| 衡阳市| 宣汉县| 邢台县| 米脂县| 平顶山市| 肥乡县| 五莲县| 赤水市| 长兴县| 河源市| 博乐市| 贡山| 红桥区| 西乌珠穆沁旗| 章丘市| 康保县| 天长市| 武功县| 玉屏| 长寿区| 扬州市| 长垣县| 山东省| 郓城县|