如何用SPSS做ROC曲線,檢測(cè)預(yù)測(cè)模型的準(zhǔn)確性
我們今天就用一套基因表達(dá)數(shù)據(jù)集。這是小編之前在做關(guān)于酒精性脂肪肝相關(guān)研究時(shí)從GEO數(shù)據(jù)庫(kù)下載的數(shù)據(jù)。我們通過(guò)前期的分析最終篩選得到了五個(gè)基因來(lái)構(gòu)建模型預(yù)測(cè)患者的預(yù)后。今天就用這五個(gè)基因的表達(dá)值來(lái)做一個(gè)ROC曲線來(lái)看看模型的預(yù)測(cè)價(jià)值吧。
一、數(shù)據(jù)的輸入
首先還是數(shù)據(jù)的輸入:在變量視圖里面輸入各項(xiàng)數(shù)據(jù)的基因參數(shù),其中我們將Group疾病組賦值為1,將正常組賦值為2。

二、數(shù)據(jù)錄入
數(shù)據(jù)錄入:在數(shù)據(jù)視圖中錄入各項(xiàng)數(shù)據(jù)

三、做logistic回歸
做logistic回歸,保存預(yù)測(cè)值(這個(gè)在上期我們講解過(guò),不會(huì)的小伙伴可以查看開(kāi)頭的連接查看)。針對(duì)今天的數(shù)據(jù),小薇再給大家演示一遍:

將Group選入因變量,其他基因選入?yún)f(xié)變量。之后點(diǎn)擊保存,勾選概率,點(diǎn)擊繼續(xù),點(diǎn)擊確定。

之后我們就會(huì)發(fā)現(xiàn)多了一列數(shù)據(jù),即預(yù)測(cè)概率:

四、做ROC曲線
制作ROC曲線:點(diǎn)擊分析,隨后點(diǎn)擊ROC曲線:

五、最后操作
5.點(diǎn)擊ROC曲線后會(huì)出現(xiàn)如下頁(yè)面,我們將:基因以及新出現(xiàn)的預(yù)測(cè)概率選入控制變量中,將 Group選入狀態(tài)變量中,狀態(tài)變量的值填入2,并勾選下面所有選項(xiàng),最后點(diǎn)擊確定。

六、結(jié)果解讀
結(jié)果解讀:ROC曲線一共給出七條線,其中五條是單個(gè)基因的預(yù)測(cè)線,一條是基因構(gòu)建的綜合模型的預(yù)測(cè)曲線,最后一條是AUC為0.5的參考線。再看下面具體的數(shù)據(jù)我們可以發(fā)現(xiàn),預(yù)測(cè)概率的AUC值最高,為0.942最高,即模型的預(yù)測(cè)性能最好。

七、圖形美化
如果覺(jué)得SPSS輸出的圖形不好看,可以雙擊圖片,然后就會(huì)出現(xiàn)編輯頁(yè)面,可對(duì)圖中線條的顏色和粗細(xì)等進(jìn)行編輯:

