拓端tecdat|R語言:邏輯回歸ROC曲線對角線分析過程及結(jié)果
原文鏈接:http://tecdat.cn/?p=19018
原文出處:拓端數(shù)據(jù)部落公眾號
之前我們討論了使用roc曲線來描述分類器的優(yōu)勢,有人說它描述了“隨機猜測類別的策略”,讓我們回到roc曲線來說明??紤]一個非常簡單的數(shù)據(jù)集,其中包含10個觀測值(不可線性分離)
在這里我們可以檢查一下,確實是不可分離的

考慮邏輯回歸
我們可以使用我們自己的roc函數(shù)
或R包
我們可以在這里同時繪制兩個

因此,我們的代碼在這里可以正常工作。讓我們考慮一下對角線。第一個是:每個人都有相同的概率(例如50%)
?

但是,我們這里只有兩點:(0,0)和(1,1)。實際上,無論我們選擇何種概率,都是這種情況

我們可以嘗試另一種策略,例如“通過扔無偏硬幣進行預(yù)測”。我們得到

我們還可以嘗試“隨機分類器”,在其中我們隨機選擇分數(shù)

更進一步。我們考慮另一個函數(shù)來繪制roc曲線

但是現(xiàn)在考慮隨機選擇的策略

紅線是所有隨機分類器的平均值。它不是一條直線,我們觀察到它在對角線周圍的波動。

這是一個“隨機分類器”,我們在單位區(qū)間上隨機繪制分數(shù)

如果我們重復(fù)500次,我們可以獲得

因此,當我在單位區(qū)間上隨機繪制分數(shù)時,就會得到對角線的結(jié)果。給定Y,我們可以繪制分數(shù)的兩個經(jīng)驗累積分布函數(shù)

我們還可以使用直方圖(或密度估計值)查看分數(shù)的分布

我們確實有一個“完美的分類器”(曲線靠近左上角)


有錯誤。那應(yīng)該是下面的情況

在10%的情況下,我們可能會分類錯誤

更多的錯誤分類


最終我們有對角線


?

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.在R語言中實現(xiàn)Logistic邏輯回歸
8.python用線性回歸預(yù)測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標