互助問答第25期:控制變量選擇及Z-T檢驗(yàn)問題

問題1: 我想利用固定效應(yīng)面板數(shù)據(jù)模型研究X對(duì)Y的影響,我在模型中加入了控制變量Z1,Z2,Z3,Z4,Z5,Z6等,但是我所列舉的控制變量回歸系數(shù)顯著性不是很好?比如,當(dāng)我撤掉Z6時(shí),Z5的系數(shù)變得顯著了。但是,我是否應(yīng)該撤掉Z6呢?按照理論是可以保留Z6的,但是要是為了湊顯著性,我可能會(huì)選擇把Z6撤掉,這些控制變量的顯著性是否重要呢,是否可以撤掉?因?yàn)闊o論怎么撤控制變量,X的顯著性都沒變。我猜是多重共線引起的但是在面板數(shù)據(jù)中好像沒太多人強(qiáng)調(diào)多重共線?我應(yīng)該怎么處理比較好?簡(jiǎn)單的說,請(qǐng)可否告知我怎么觀測(cè)固定效應(yīng)模型和動(dòng)態(tài)面板模型中的多重共線性?
答案1:?
? ? ? ? 一個(gè)變量是否應(yīng)該作為控制變量,應(yīng)該從理論出發(fā)。換句話說,應(yīng)當(dāng)依據(jù)理論事先確定控制變量,而不應(yīng)根據(jù)回歸結(jié)果事后確定保留哪些變量。根據(jù)問題所述,X的系數(shù)在不同控制變量下均保持穩(wěn)健,這是一個(gè)正面信號(hào)。此外,多重共線性不是一個(gè)必須處理的問題,它的存在并不影響關(guān)鍵估計(jì)量的一致性。如果非要處理,可以看看哪些自變量實(shí)際上度量了類似的信息——這種情況下可以去掉多余變量,緩解多重共線性。
問題2:?在做回歸時(shí),對(duì)于系數(shù)的顯著性,大部分stata給出的是t值,但是有時(shí)候是z值,這個(gè)有什么不同呢?什么時(shí)候會(huì)是z值?
? ? ? ? 我在百度上看到,有的說是,樣本量的問題,小樣本下,假定擾動(dòng)項(xiàng)正態(tài),估計(jì)參數(shù)服從t分布,在大樣本下,漸進(jìn)到正態(tài),所以是Z值,不知道這種說法對(duì)嗎?如果是這樣的話,那就是跟樣本量有關(guān),但是我試了同樣的樣本量,在ols估計(jì)時(shí),系數(shù)顯著性給的是t值,GMM時(shí),系數(shù)顯著性給的是Z值,那這個(gè)怎么解釋?另外,z值也是等于參數(shù)估計(jì)值除以標(biāo)準(zhǔn)誤嗎?在使用2sls時(shí),為什么一階段回歸的系數(shù)顯著性給出的是t值,而第二階段的系數(shù)顯著性給的z值?很明顯,這應(yīng)該不是樣本量大小的問題,因?yàn)檫@是對(duì)于同樣的數(shù)據(jù)集的結(jié)果。所以,系數(shù)顯著性的判斷,為什么有時(shí)候是t值有時(shí)候是z值?
答案2:?
? ? ? ? 在線性回歸的經(jīng)典假設(shè)(同方差、誤差項(xiàng)服從正態(tài)分布等等)下,系數(shù)估計(jì)量除以標(biāo)準(zhǔn)誤服從t分布,這是regress命令在傳統(tǒng)上將這一比值命名為“t值”的原因。但是在一般情形下,估計(jì)量與其標(biāo)準(zhǔn)誤的比值在有限樣本中不服從t分布,而是在漸進(jìn)意義上(大樣本)服從正態(tài)分布,這是許多命令將其命名為“z值”而非“t值”的原因。所以,當(dāng)你看到Stata報(bào)告z值,這背后一般對(duì)應(yīng)著一個(gè)漸進(jìn)服從正態(tài)分布的統(tǒng)計(jì)量。但是,當(dāng)你看到Stata報(bào)告t值,也不意味著背后的統(tǒng)計(jì)量一定服從t分布(比如reg加robust選項(xiàng),估計(jì)量與其標(biāo)準(zhǔn)誤的比值已不服從t分布,而漸進(jìn)服從正態(tài)分布,但是Stata按照習(xí)慣仍將其叫做“t值”)。不論如何,在大樣本情形下,t值和z值都漸進(jìn)服從正態(tài)分布,跟它們叫什么名字關(guān)系不大。
學(xué)術(shù)指導(dǎo):張曉峒老師?
本期解答人:中關(guān)村大街
編輯:冷萱 楊芳 Hollian?
統(tǒng)籌:芋頭??易仰楠
技術(shù):知我者 ?
