R語言廣義線性模型(GLMs)算法和零膨脹模型分析
原文鏈接:http://tecdat.cn/?p=14887?
廣義線性模型(GLM)?是通過連接函數(shù),把自變量線性組合和因變量的概率分布連起來,該概率分布可以是高斯分布、二項(xiàng)分布、多項(xiàng)式分布、泊松分布、伽馬分布、指數(shù)分布。連接函數(shù)有:

平方根連接(用于泊松模型)
考慮一些均值μ和方差σ2的隨機(jī)變量Y。利用泰勒展開式


假使

,考慮平方根變換g(y)= \ sqrt {y} g(y)= y,則第二個(gè)等式變?yōu)?/p>
因此,通過平方根變換,我們具有方差穩(wěn)定性,可以將其解釋為一定的同調(diào)性。
伯努利模型的對(duì)數(shù)函數(shù)
假設(shè)變量是泊松變量,


先前的模型看起來像是伯努利回歸分析,其中H作為鏈接函數(shù),\ mathbb {P}

因此,現(xiàn)在假設(shè)代替觀察N,我們觀察到Y(jié) = 1(N> 0)。在那種情況下,運(yùn)行帶有對(duì)數(shù)鏈接函數(shù)的伯努利回歸,首先與對(duì)原始數(shù)據(jù)運(yùn)行泊松回歸,然后在我們的二進(jìn)制變量零和非零上使用。讓我們先生成一些模擬數(shù)據(jù),比較從標(biāo)準(zhǔn)邏輯回歸得到的eλx和px
regPois = glm(Y~.,data=base,family=poisson(link="log"))
regBinom = glm((Y==0)~.,data=base,family=binomial(link="probit"))
?

?
?
如果px \是從Bernoulli回歸中獲得的,并且具有連接功能,該怎么辦?
plot(prob,1-exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")
?

擬合很好,現(xiàn)在,如果我們對(duì)婚姻出軌數(shù)據(jù)集,由雷·費(fèi)爾,在1978年出版的??期刊政治經(jīng)濟(jì)學(xué)??(含563個(gè)觀察,九個(gè)變量)進(jìn)行建模:
prob = predict(regBinom, type="response")
plot(prob,exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")
?

在這種情況下,這兩種模型結(jié)果是非常不同的。第二個(gè)模型也是
plot(prob,1-exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")
?

?
?
我們?nèi)绾谓忉屇??是因?yàn)椴此赡P筒缓脝幔课覀冊(cè)谶@里運(yùn)行零膨脹模型進(jìn)行比較,
summary(regZIP)
Count model coefficients (poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.002274 ? 0.048413 ?-0.047 ? ?0.963
X1 ? ? ? ? ? 1.019814 ? 0.026186 ?38.945 ? <2e-16 ***
X2 ? ? ? ? ? 1.004814 ? 0.024172 ?41.570 ? <2e-16 ***
Zero-inflation model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.90190 ? ?2.07846 ?-2.358 ? 0.0184 *
X1 ? ? ? ? ?-2.00227 ? ?0.86897 ?-2.304 ? 0.0212 *
X2 ? ? ? ? ?-0.01545 ? ?0.96121 ?-0.016 ? 0.9872
---
Signif. codes: ?0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
由于零的膨脹,我們?cè)谶@里拒絕了泊松分布的假設(shè),可以使用對(duì)數(shù)連接來檢查泊松分布是否是一個(gè)好的模型。
?
?

參考文獻(xiàn)
1.用SPSS估計(jì)HLM層次線性模型模型
2.R語言線性判別分析(LDA),二次判別分析(QDA)和正則判別分析(RDA)
3.基于R語言的lmer混合線性回歸模型
4.R語言Gibbs抽樣的貝葉斯簡(jiǎn)單線性回歸仿真分析
5.在r語言中使用GAM(廣義相加模型)進(jìn)行電力負(fù)荷時(shí)間序列分析
6.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
7.R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化
8.R語言用線性回歸模型預(yù)測(cè)空氣質(zhì)量臭氧數(shù)據(jù)
9.R語言分層線性模型案例