R語言OutliersO3軟件包異常值檢測方法比較
原文鏈接:http://tecdat.cn/?p=8502
?
識別異常值的方法有很多種,R中有很多不同的方法。?
關于異常值方法的文章使用了理論和實踐的混合體。理論一切都很好,但異常值是異常值,因為它們不遵循理論。實踐涉及數(shù)據(jù)的測試方法,有時用基于理論模擬的數(shù)據(jù),更好地使用“真實”數(shù)據(jù)集。如果一種方法發(fā)現(xiàn)我們都同意的異常值,那么它可以被認為是成功的,但是我們是否都同意哪些個案是異常值?
異常值概述(O3)圖旨在幫助比較和理解異常值方法的結果。
?

?
Stackloss數(shù)據(jù)集的O3圖。每個變量組合(由左邊的列定義)有一行,找到了異常值,并將每個案例的一列標識為異常值(右邊的列)。
?
威爾金森的算法為整個數(shù)據(jù)集找到了6個離群值(圖的最下面一行)??傮w而言,對于各種變量組合,發(fā)現(xiàn)14個案例是潛在的異常值 。?

?
一個O3plot,用于比較堆棧損耗數(shù)據(jù)集中由HDoutliers和mvBACON標識的異常值。
?
在OutliersO3中有四種其他方法可用, :
##? ? HDo? ? PCS? ? BAC adjOut? ? DDC? ? MCD##? ? 14? ? ? 4? ? ? 5? ? ? 0? ? ? 6? ? ? 5

?
?
?
R中還有其他異常方法,他們無疑會給出更多不同的結果。建議必須謹慎行事。離群值本身可能是有趣的,它們可能是某種錯誤 - 我們可能不同意它們是否是異常值。
標簽: