五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【茗創(chuàng)科技】如何看待心理學(xué)實(shí)驗(yàn)中的數(shù)據(jù)缺失?

2022-06-28 16:53 作者:茗創(chuàng)科技  | 我要投稿


導(dǎo)讀

缺失數(shù)據(jù)是實(shí)驗(yàn)數(shù)據(jù)集的一個(gè)共同特征。心理學(xué)研究人員用來(lái)處理缺失的標(biāo)準(zhǔn)方法依賴于不切實(shí)際的假設(shè)、無(wú)效的隨機(jī)分配程序,以及效應(yīng)量的偏差估計(jì)。作者描述了實(shí)驗(yàn)數(shù)據(jù)集中通常遇到的不同類別的缺失數(shù)據(jù),并討論了它們?nèi)绾斡绊懷芯咳藛T的因果推斷。本文提供了處理每類缺失數(shù)據(jù)的具體指南,重點(diǎn)關(guān)注做出合理假設(shè)的兩種方法:i) 輕度缺失實(shí)例的逆概率加權(quán) (IPW),以及 ii) 嚴(yán)重缺失實(shí)例的雙重抽樣和邊界。在回顧了這些方法提高研究人員對(duì)效應(yīng)量估計(jì)準(zhǔn)確性的原因之后,作者提供了研究人員可以在自己的研究分析中使用的R代碼。


前言

實(shí)驗(yàn)數(shù)據(jù)集通常存在一定程度的數(shù)據(jù)缺失。當(dāng)數(shù)據(jù)集中某些被試的一個(gè)或多個(gè)變量包含缺失值,但其他變量不包含缺失值時(shí),就會(huì)出現(xiàn)此問(wèn)題。本教程的重點(diǎn)是向心理學(xué)研究人員介紹損耗問(wèn)題和糾正方法,并定義為因變量中的缺失。損耗是心理學(xué)研究中最普遍和最關(guān)鍵的缺失類型。作者還回顧了預(yù)處理協(xié)變量的缺失,研究人員在回歸分析中使用這些協(xié)變量來(lái)提高統(tǒng)計(jì)功效和他們估計(jì)實(shí)驗(yàn)治療效果的精確度。預(yù)處理協(xié)變量中存在缺失是有問(wèn)題的,但可以通過(guò)簡(jiǎn)單的插補(bǔ)方法輕松解決。本文將描述其中一種糾正方法。最后一種可能的缺失類型是處理賦值變量的缺失。然而,在實(shí)驗(yàn)研究的情況下,這種可能性被設(shè)計(jì)排除了,因?yàn)檠芯咳藛T總是可以知道(至少在原則上),誰(shuí)被隨機(jī)分配到了實(shí)驗(yàn)條件與控制條件。

缺失現(xiàn)象在心理學(xué)研究中普遍存在,因?yàn)檠芯咳藛T很少能從樣本中的每個(gè)被試那里收集到他們需要的所有信息。首先,參與者可能不愿意提供某些回答,這通常是當(dāng)問(wèn)題被認(rèn)為是敏感的情況下。例如,關(guān)于參與者的心理健康、就業(yè)狀況、對(duì)有爭(zhēng)議話題的態(tài)度等問(wèn)題可能會(huì)引起焦慮并導(dǎo)致人員流失。其次,參與者退出研究可能會(huì)導(dǎo)致數(shù)據(jù)缺失。退出的動(dòng)機(jī)可能是無(wú)聊、有其他優(yōu)先事項(xiàng)、不再需要報(bào)酬,或者只是決定以不同的方式利用空閑時(shí)間。第三,參與者可能無(wú)法完成研究。最后,數(shù)據(jù)缺失可能是由于操作者錯(cuò)誤,例如意外刪除了數(shù)據(jù)集中的某些值。

缺失值是心理學(xué)家需要在他們的數(shù)據(jù)分析中解決的一個(gè)嚴(yán)重問(wèn)題。具體來(lái)說(shuō),缺失數(shù)據(jù)不利于因果推斷,因?yàn)閿?shù)據(jù)的缺失會(huì)使隨機(jī)分配程序無(wú)效和在研究人員對(duì)效應(yīng)量進(jìn)行估計(jì)時(shí)引入偏差。如果處理不當(dāng),這種缺失會(huì)將精心設(shè)計(jì)的實(shí)驗(yàn)變成相關(guān)性研究。

盡管已經(jīng)開(kāi)發(fā)出強(qiáng)大的方法來(lái)解釋實(shí)驗(yàn)研究中的缺失數(shù)據(jù),但心理學(xué)家很少使用它們。相反,心理學(xué)家通常會(huì)忽略缺失值的存在,而只是簡(jiǎn)單地對(duì)沒(méi)有缺失的數(shù)據(jù)進(jìn)行分析。在某些情況下,這種做法伴隨著使用統(tǒng)計(jì)檢驗(yàn)(例如 t 檢驗(yàn))比較不同實(shí)驗(yàn)條件或人口統(tǒng)計(jì)組中的缺失率。不幸的是,這些廣泛使用的策略是不恰當(dāng)?shù)?,并且依賴于不切?shí)際的假設(shè)。本文建議研究人員使用不同的方法來(lái)處理數(shù)據(jù)中的損耗。具體來(lái)說(shuō),作者回顧了做出更為現(xiàn)實(shí)假設(shè)的方法:逆概率加權(quán)和雙重抽樣與邊界。這里不討論做出更強(qiáng)模型假設(shè)的統(tǒng)計(jì)方法,例如多重插補(bǔ) (MI) 或多重過(guò)度插補(bǔ) (MO)。有興趣了解這些方法的研究人員可以查閱有關(guān)該主題的相關(guān)文獻(xiàn)。

本文的目標(biāo)是為在實(shí)驗(yàn)研究中遇到缺失數(shù)據(jù)的研究人員提供具體的指南。在存在缺失值的情況下,研究人員需要仔細(xì)考慮為什么某些參與者的數(shù)據(jù)缺失而另一些參與者的數(shù)據(jù)沒(méi)有缺失的可能原因。這將導(dǎo)致研究人員對(duì)其數(shù)據(jù)中的缺失類別做出關(guān)鍵假設(shè),并且該假設(shè)將確定適當(dāng)?shù)慕y(tǒng)計(jì)或基于設(shè)計(jì)的程序來(lái)處理?yè)p耗。需要明確的是,在此過(guò)程中做出的任何假設(shè)都是基于人的判斷,研究人員應(yīng)該準(zhǔn)備好在他們的文章中證明他們的決定是正確的。

本教程的其余部分旨在幫助研究人員完成這些不同的步驟。首先,作者回顧了一個(gè)框架,以了解缺失數(shù)據(jù)如何影響實(shí)驗(yàn)研究的結(jié)果。具體來(lái)說(shuō),作者引入了潛在結(jié)果框架并將缺失定義為潛在結(jié)果。該框架使我們能夠區(qū)分不同類別的缺失數(shù)據(jù)。第一類缺失,稱為完全隨機(jī)缺失 (MCAR),在心理學(xué)研究中是極不可能的。但通常的做法卻是不恰當(dāng)?shù)丶僭O(shè)缺失值是MCAR。第二類和第三類缺失,稱為完全隨機(jī)的以觀察變量為條件的缺失 (MCAR|X) 和非隨機(jī)缺失 (MNAR),更為合理。本教程重點(diǎn)介紹針對(duì)這些更現(xiàn)實(shí)案例的方法。具體來(lái)說(shuō),作者解釋了逆概率加權(quán) (IPW)和雙重抽樣與界限 (DSB) 的理論基礎(chǔ),并提供了研究人員可以用作模板進(jìn)行其研究分析的R代碼行。


潛在結(jié)果:理解實(shí)驗(yàn)數(shù)據(jù)集中缺失的框架

實(shí)驗(yàn)設(shè)計(jì)的分析策略

具體而言,假設(shè)在某虛構(gòu)學(xué)校(一所六年級(jí)和七年級(jí)的中學(xué))中進(jìn)行了一項(xiàng)實(shí)驗(yàn),測(cè)試治療對(duì)因變量 (DV) 的因果效應(yīng)。對(duì)于這個(gè)假設(shè)實(shí)驗(yàn),招募了一組學(xué)生樣本,將每個(gè)學(xué)生隨機(jī)分配到治療或控制條件,并收集數(shù)據(jù)。最終數(shù)據(jù)集包括 DV 和三個(gè)預(yù)處理協(xié)變量:種族、性別和年級(jí)。表 1 顯示了本研究的假設(shè)數(shù)據(jù)集 (N = 8)。

表1.無(wú)缺失值的虛構(gòu)學(xué)校學(xué)生數(shù)據(jù)集的說(shuō)明。


接下來(lái)考慮兩種常見(jiàn)的分析策略來(lái)測(cè)試實(shí)驗(yàn)研究中治療對(duì)DV 的影響:i)簡(jiǎn)單回歸分析(相當(dāng)于ANOVA)和 ii)多元回歸分析,其中控制預(yù)處理協(xié)變量。

簡(jiǎn)單回歸模型可以正式寫(xiě)成:

Yi=β0+τZi+?i (1)

其中 i 表示樣本中的參與者,Y 是因變量,τ 是治療效果,Zi 是二元治療分配指標(biāo),如果參與者被分配到治療條件,則返回1,如果參與者被分配到控制條件,則返回0,?是一個(gè)誤差項(xiàng)。

要在 R 中運(yùn)行此分析,可以編寫(xiě)以下代碼行:

lm(DV ~ treatment , data = data)


多元回歸模型可以正式寫(xiě)成:

Yi=β0+τZi+Xiβ+?i (2)

其中 i表示樣本中的參與者,Y 是因變量,τ 是治療效果,Zi是二元治療分配指標(biāo),如果參與者被分配到治療條件,則返回1,如果參與者被分配到控制條件,則返回0,X是預(yù)處理協(xié)變量矩陣,β是協(xié)變量效應(yīng)向量,?是誤差項(xiàng)。

要在 R 中運(yùn)行此分析,可以編寫(xiě)以下代碼行:

lm(DV ~ treatment + race + gender + grade, data = data)



如果數(shù)據(jù)集中沒(méi)有數(shù)據(jù)點(diǎn)缺失,例如表1中顯示的數(shù)據(jù),則兩種分析策略都會(huì)對(duì)虛構(gòu)學(xué)校的平均治療效果 (ATE) 產(chǎn)生無(wú)偏估計(jì)。請(qǐng)注意,多元回歸分析通常表現(xiàn)更好,因?yàn)閷⑿詣e、種族和等級(jí)等預(yù)處理協(xié)變量納入回歸模型可提高ATE的精度,即估計(jì)的平均治療效果。即使研究人員沒(méi)有指定將協(xié)變量與因變量聯(lián)系起來(lái)的“正確”基礎(chǔ)模型,或者當(dāng)協(xié)變量的測(cè)量存在誤差(例如,通過(guò)插補(bǔ))時(shí),情況也是如此。


潛在結(jié)果和平均治療效果

研究人員進(jìn)行實(shí)驗(yàn)以估計(jì)感興趣的治療(例如干預(yù)、訓(xùn)練)對(duì)群體(例如虛構(gòu)學(xué)校的學(xué)生)的因變量(例如歸屬感、智商)的平均因果效應(yīng)。為此,從感興趣的人群中隨機(jī)抽取個(gè)體,并隨機(jī)分配到以下兩種實(shí)驗(yàn)條件之一:治療與對(duì)照。本質(zhì)上,這個(gè)程序旨在回答一個(gè)難以直接測(cè)試的問(wèn)題。假設(shè)我們可以在兩個(gè)平行世界中同時(shí)觀察研究對(duì)象中的所有個(gè)體,這些個(gè)體只在一個(gè)維度上存在差異:有無(wú)治療。這兩個(gè)世界的 DV 平均差異是多少?

這個(gè)問(wèn)題假設(shè)每個(gè)個(gè)體 i 對(duì)因變量有兩個(gè)潛在的結(jié)果:在沒(méi)有治療的情況下結(jié)果為 Yi(0) 和有治療的情況下結(jié)果為 Yi(1)。在這個(gè)框架下,治療對(duì)每個(gè)個(gè)體 i 都有一個(gè)因果效應(yīng) τi,可以寫(xiě)成:

τi = Yi(1) ? Yi(0) (3)

來(lái)自大小為 N 的群體中所有個(gè)體的平均治療效果 (ATE) 等于 τi 的平均值,可以表示為:


表2中說(shuō)明了潛在結(jié)果的概念,該表顯示了虛構(gòu)學(xué)校學(xué)生的假設(shè)潛在結(jié)果。例如,可以觀察到,治療對(duì)學(xué)生1的因果效應(yīng)量為4,而對(duì)學(xué)生7的因果效應(yīng)為0。表2中8名學(xué)生的平均治療效應(yīng)等于 2.5,即 τi的總和除以8(學(xué)生人數(shù))。

表2.潛在結(jié)果。


實(shí)際上,治療 τi 對(duì)個(gè)體 i 的因果效應(yīng)是無(wú)法衡量的,因?yàn)闊o(wú)法同時(shí)觀察到同一個(gè)體的潛在結(jié)果 Yi(0) 和 Yi(1)。相反,在沒(méi)有缺失的情況下,觀察到的 Yi(0) 或 Yi(1) 取決于個(gè)體i被分配到的實(shí)驗(yàn)條件 zi(治療或控制)。每個(gè)個(gè)體 i 觀察到的潛在結(jié)果可以寫(xiě)成:

Yi = Yi(1)zi + Yi(0)(1 ? zi) (5)

其中,當(dāng)個(gè)體i被分配到治療條件時(shí),zi取值1,當(dāng)個(gè)體i被分配到控制條件時(shí),zi取值0。因?yàn)閦i ∈ (0, 1),等式5意味著觀察到分配給治療條件的參與者為Yi(1),以及分配給控制條件的參與者為Yi(0)。


用實(shí)驗(yàn)設(shè)計(jì)估計(jì)ATE

如果實(shí)驗(yàn)無(wú)法推導(dǎo)出 τi,那么實(shí)驗(yàn)設(shè)計(jì)如何讓我們實(shí)際估計(jì) ATE?為了理解這一點(diǎn),接下來(lái)使用公式 4 來(lái)推導(dǎo) ATE的潛在結(jié)果:


其中μYi(1)是Yi(1)的平均值,μYi(0)是Yi(0)的平均值。

通過(guò)將個(gè)體隨機(jī)分配到不同實(shí)驗(yàn)條件下,以期消除治療組和對(duì)照組之間存在的任何系統(tǒng)性差異。這意味著在沒(méi)有數(shù)據(jù)缺失的情況下,實(shí)驗(yàn)設(shè)計(jì)允許我們使用分配給治療的結(jié)果得出μYi(1)的無(wú)偏估計(jì)和使用分配給控制的結(jié)果得出μYi(0)的無(wú)偏估計(jì)。具體來(lái)說(shuō),μYi(1)是通過(guò)平均Yi(1)的觀測(cè)值來(lái)估計(jì)的,而μYi(0)是通過(guò)平均Yi(0)的觀測(cè)值來(lái)估計(jì)的。從這個(gè)意義上說(shuō),估計(jì)的平均治療效果

最好使用條件期望來(lái)表示:


關(guān)于偏差的注意事項(xiàng)

重要的是,偏差并不是指某一感興趣量(例如,ATE、μYi(0)、μYi(0))的單個(gè)估計(jì)與該感興趣量在總體中的真實(shí)值之間的差異。相反,偏差是估計(jì)過(guò)程中的產(chǎn)物。因此,ATE的偏差可以被認(rèn)為是所有可能隨機(jī)分配的平均 ATE估計(jì)值與真實(shí)總體ATE之間的差異。在等式7 中,如果隨機(jī)分配過(guò)程沒(méi)有偏差,預(yù)期μYi(0)和μYi(0)估計(jì)是正確的,則ATE是無(wú)偏的。

在實(shí)踐中,ATE的無(wú)偏估計(jì)及其標(biāo)準(zhǔn)誤差和相應(yīng)的p值是通過(guò)使用簡(jiǎn)單或多元線性回歸的一行代碼得出的,如公式1和2后面的代碼中所述。接下來(lái)將探討這些分析是如何在缺失數(shù)據(jù)的情況下導(dǎo)致偏差的。


缺失值導(dǎo)致的偏差

統(tǒng)計(jì)軟件從分析中排除存在缺失值的個(gè)體

當(dāng)實(shí)驗(yàn)數(shù)據(jù)集的值缺失時(shí),統(tǒng)計(jì)軟件(例如,R、Stata、SPSS)完全忽略了分析過(guò)程的變量中顯示的缺失值,而且沒(méi)有給出系統(tǒng)提示。 表 3 顯示了一個(gè)新版本的模擬虛構(gòu)學(xué)校的數(shù)據(jù)集,其中包括 DV 和預(yù)處理協(xié)變量中的缺失值,用“NA”表示。作者將使用表 3 來(lái)說(shuō)明缺失如何影響實(shí)驗(yàn)數(shù)據(jù)分析的結(jié)果。

表3.數(shù)據(jù)集中缺失值的說(shuō)明。


預(yù)處理協(xié)變量的缺失。預(yù)處理協(xié)變量中的缺失值會(huì)影響多元線性回歸,但不會(huì)影響簡(jiǎn)單線性回歸。具體來(lái)說(shuō),統(tǒng)計(jì)軟件會(huì)刪除模型中包含的預(yù)處理協(xié)變量之一中至少有一個(gè)缺失值的參與者。例如,在虛擬學(xué)校數(shù)據(jù)集中,在包含預(yù)處理協(xié)變量種族和性別的多元回歸分析中,表3中顯示的所有學(xué)生都不會(huì)被考慮在內(nèi)。一些學(xué)生,例如學(xué)生 1 和 7,會(huì)因?yàn)槿鄙傩詣e而被軟件刪除。其他學(xué)生將因?yàn)樗麄兊姆N族(例如,學(xué)生 3 和 6)或 DV 缺失(例如,學(xué)生 2)被刪除。

這意味著當(dāng)研究人員忽略協(xié)變量中缺失值的存在并使用多元線性回歸時(shí),他們會(huì)引入因變量中的缺失值來(lái)進(jìn)行分析。因此,協(xié)變量中的缺失,如果不加以校正,就會(huì)產(chǎn)生損耗。這兩種形式的缺失數(shù)據(jù)的主要區(qū)別在于協(xié)變量中的缺失很容易校正。研究人員可以(并且應(yīng)該始終)使用一個(gè)簡(jiǎn)單的策略,例如均值替換,以防止統(tǒng)計(jì)軟件因?yàn)閰f(xié)變量缺損而排除觀測(cè)值。該方法包括用該協(xié)變量的均值來(lái)替換該協(xié)變量中的缺失值。在本教程中,作者提供了一個(gè)簡(jiǎn)單的代碼來(lái)實(shí)現(xiàn)這一點(diǎn)(參見(jiàn)場(chǎng)景2)。重要的是,這種替代方法(或類似的替代方法)不會(huì)在ATE中引入偏差,并且可用于糾正協(xié)變量中任何類型的缺失。但是,這種方法永遠(yuǎn)不適用于校正損耗。

損耗:因變量 Yi 中的缺失以完全相同的方式影響簡(jiǎn)單和多元線性回歸分析。統(tǒng)計(jì)軟件會(huì)在沒(méi)有警告的情況下排除任何因變量缺失的個(gè)體,并僅對(duì)剩余的參與者進(jìn)行分析。校正損耗很關(guān)鍵,但并不那么簡(jiǎn)單。為了了解損耗如何影響實(shí)驗(yàn)結(jié)果,回溯到潛在結(jié)果框架并將損耗定義為一種潛在結(jié)果。


損耗作為一種潛在的結(jié)果

在實(shí)驗(yàn)中,被分配到實(shí)驗(yàn)條件zi的個(gè)體有兩個(gè)可能的結(jié)果:他們的因變量要么被報(bào)告,要么被遺漏。令ri(z)表示分配給實(shí)驗(yàn)條件z的個(gè)體i的潛在結(jié)果,如果將個(gè)體i分配給治療條件,則zi = 1,如果將個(gè)體i分配給控制條件,則zi = 0。當(dāng)報(bào)告因變量時(shí)令ri = 1,當(dāng)因變量缺失時(shí)令ri = 0。因此,ri(0) 表示當(dāng)個(gè)體i被分配到控制條件時(shí),是否報(bào)告了個(gè)體i的因變量。相反,ri(1) 表示當(dāng)個(gè)體i被分配到治療條件時(shí),是否報(bào)告了個(gè)體i的因變量(表4)。觀察到的潛在結(jié)果ri可以寫(xiě)成:

ri= ri(0)(1?zi)+ri(1)zi (8)

如表4所示,等式8暗示了實(shí)驗(yàn)中4種可能類型的缺失。 參與者可以始終是響應(yīng)者,在這種情況下,觀察他們獨(dú)立于治療任務(wù)的DV。參與者可能永遠(yuǎn)不會(huì)是響應(yīng)者,在這種情況下,其缺失值與治療分配無(wú)關(guān)。最后,一些參與者的潛在缺失結(jié)果可能取決于治療分配。當(dāng)治療分配不會(huì)導(dǎo)致?lián)p耗時(shí),可以獲得對(duì)特定人群的ATE無(wú)偏估計(jì)。

表4.潛在結(jié)果說(shuō)明。


什么時(shí)候缺失無(wú)傷大雅?

簡(jiǎn)短的回答:缺失很少是無(wú)害的。很難想象任何心理學(xué)研究中,研究人員可以安全地假設(shè)缺失是以不偏向總體ATE估計(jì)的方式產(chǎn)生。僅當(dāng)這些值是完全隨機(jī)缺失(MCAR)時(shí),缺失值的存在才不會(huì)影響研究人員的因果推斷。

完全隨機(jī)缺失 (MCAR) 是研究人員對(duì)數(shù)據(jù)集中的缺失可能做出的最強(qiáng)有力的假設(shè)。這種類型的缺失極不可能且難以證明,因?yàn)樗馕吨笔c人們可以想象的任何變量無(wú)關(guān),包括研究中沒(méi)有收集到的變量。例如,MCAR 暗示缺失與治療分配以及參與者的情緒、價(jià)值觀、收入、性別、種族、政治取向、宗教信仰、睡眠方式、頭發(fā)顏色等無(wú)關(guān)。換句話說(shuō),如果缺失數(shù)據(jù)是 MCAR,則研究中的每個(gè)參與者都有完全相同的缺失概率。如果某些值被計(jì)算機(jī)程序以完全隨機(jī)的方式意外刪除,則可能會(huì)出現(xiàn)這種情況。

當(dāng)缺失為 MCAR時(shí),Ri獨(dú)立于治療分配Zi和因變量Yi的潛在結(jié)果。回顧等式7,這意味著,μYi(0)和μYi(1)以及μYi(0)和μYi(1)之間的差異都不受缺失的影響??偠灾绻霈F(xiàn)以下情況,缺失值不會(huì)導(dǎo)致偏差:


何時(shí)假設(shè)數(shù)據(jù)完全隨機(jī)丟失 (MCAR)

作者竭力主張心理學(xué)者不要假設(shè)數(shù)據(jù)值是完全隨機(jī)缺失(MCAR)的。當(dāng)參與者決定退出研究或不回答某些問(wèn)題時(shí)(這是心理學(xué)研究中數(shù)據(jù)缺失的最常見(jiàn)原因),不可能證明缺失值是MCAR,因?yàn)檫@將需要證明無(wú)數(shù)未知的不可觀測(cè)值為零。在極少數(shù)情況下,研究人員有充分的理由相信缺失是以完全隨機(jī)的方式產(chǎn)生的(例如,由不了解參與者特征或反應(yīng)的計(jì)算機(jī)程序),并能證明這一點(diǎn),那么缺失被認(rèn)為是可忽略的。


統(tǒng)計(jì)分析不能證明放寬關(guān)于缺失的假設(shè)是合理的

與常見(jiàn)的誤解相反,比較不同組水平(例如男性和女性,或治療和控制條件參與者)之間缺失值比率的統(tǒng)計(jì)分析通常無(wú)法證明缺失是 MCAR。只有在一種情況下,這些分析可以提供相應(yīng)的證明信息:如果它們揭示了不同組之間的缺失差異率。在這種情況下,他們確認(rèn)缺失不是 MCAR,研究人員可以使用它們來(lái)推測(cè)數(shù)據(jù)中缺失值的可能原因。當(dāng)研究人員發(fā)現(xiàn)不同組或?qū)嶒?yàn)條件之間的缺失率沒(méi)有顯著差異時(shí),這些分析無(wú)法提供信息。在這種情況下,研究人員不應(yīng)斷定缺失是 MCAR。首先,研究人員通常缺乏合適的方法來(lái)預(yù)測(cè)樣本中的缺失。也就是說(shuō),他們可能沒(méi)有測(cè)量足夠的變量來(lái)預(yù)測(cè)缺失。其次,研究人員可能缺乏檢測(cè)不對(duì)稱缺失的統(tǒng)計(jì)能力。例如,研究人員可以比較男性和女性、黑人參與者和白人參與者、自由派和保守派之間的缺失率并找出不顯著的差異。然而,這些不顯著的結(jié)果并不能證明缺失是對(duì)稱的或缺失是無(wú)影響的。事實(shí)上,這些不顯著的結(jié)果可能是由于統(tǒng)計(jì)功效低,尤其是在小樣本中。


非隨機(jī)缺失是如何導(dǎo)致偏差的?

作者描述了數(shù)據(jù)很少完全隨機(jī)丟失(MCAR),因?yàn)閾p耗不太可能真正完全隨機(jī)發(fā)生。大多數(shù)時(shí)候,一些參與者比其他參與者有更高的缺失概率。當(dāng)非隨機(jī)缺失不獨(dú)立于Yi的潛在結(jié)果時(shí),它會(huì)引入偏差。接下來(lái)將說(shuō)明非隨機(jī)缺失如何影響實(shí)驗(yàn)研究的結(jié)果。


治療分配引起的非隨機(jī)缺失偏差。由治療分配引起的非隨機(jī)缺失會(huì)產(chǎn)生偏差,即使治療效果不存在異質(zhì)性,也就是說(shuō),即使治療對(duì)缺失數(shù)據(jù)的個(gè)體具有相同的效應(yīng)大小的τattrit。


來(lái)自與治療分配無(wú)關(guān)的非隨機(jī)缺失偏差。現(xiàn)在假設(shè)在虛構(gòu)學(xué)校研究中,七年級(jí)學(xué)生仍然有因變量 Yi值較低的趨勢(shì),并且其數(shù)據(jù)更有可能缺失。在這種情況下,非隨機(jī)缺失不是治療分配的函數(shù)。如果七年級(jí)學(xué)生的治療效果與總體(本例中為虛構(gòu)學(xué)校)的平均治療效果相同,則μYi(1)和μYi(0)都會(huì)向上偏倚,但差異μYi(1)- μYi(0)對(duì)于ATE將保持無(wú)偏。想象一下如果對(duì)參與者的治療效果τattrit為10,但對(duì)其他人群的治療效果為1會(huì)發(fā)生什么?在這種情況下,缺失會(huì)在估計(jì)的總體ATE中產(chǎn)生向下偏差。


實(shí)驗(yàn)研究中關(guān)于缺失的解決方法

作者重點(diǎn)關(guān)注以下方面:i) 校正協(xié)變量中的缺失值;ii) 實(shí)施逆概率加權(quán) (IPW),以及 iii) 使用雙重抽樣和邊界法 (DSB)。

接下來(lái)將使用以下假設(shè)情景:一家公司有意為其2萬(wàn)名員工引入多元化培訓(xùn)計(jì)劃。在引入該計(jì)劃之前,希望在2000名員工中隨機(jī)抽樣來(lái)測(cè)試其效能。公司對(duì)所有員工進(jìn)行調(diào)查,詢問(wèn)他們的種族、性別和教育水平。為簡(jiǎn)單起見(jiàn),假設(shè)所有員工都為黑人或白人、女性或男性,并擁有大學(xué)或研究生學(xué)位。作為本次調(diào)查的一部分,該公司還測(cè)量了每位員工對(duì)多樣性的基本看法。樣本被隨機(jī)分配處理?xiàng)l件(多樣性培訓(xùn))和控制條件(可持續(xù)性培訓(xùn))。除了內(nèi)容,這些培訓(xùn)的結(jié)構(gòu)是相同的。一天培訓(xùn)結(jié)束時(shí),樣本中的所有員工都被要求完成一系列測(cè)量培訓(xùn)有效性的任務(wù)。

使用模擬器生成一個(gè)完整的數(shù)據(jù)集(即沒(méi)有缺失值),其中包括這家假設(shè)公司的所有2萬(wàn)名員工的人口統(tǒng)計(jì)信息和前測(cè)變量。通過(guò)為處理和控制條件下的員工分配潛在結(jié)果值來(lái)生成因變量 (DV)。為此,作者從N = 20000中隨機(jī)抽取了2000名員工樣本,并將其用于四種不同的場(chǎng)景。在每個(gè)場(chǎng)景中,使用完全相同的2000名員工樣本,但引入了不同數(shù)量和類型的缺失數(shù)據(jù)。然后使用適當(dāng)?shù)姆椒▉?lái)糾正R中的缺失并估計(jì)ATE。


場(chǎng)景 1:沒(méi)有缺失數(shù)據(jù)

在場(chǎng)景 1 中,作者處理的是一個(gè)完全沒(méi)有缺失數(shù)據(jù)的樣本。在這個(gè)假設(shè)場(chǎng)景中,隨機(jī)抽樣的2000名員工都提供了人口統(tǒng)計(jì)信息并完成了培訓(xùn)后的調(diào)查。為了根據(jù)這2000名員工的樣本來(lái)估計(jì)2萬(wàn)名員工中的ATE,作者使用以下兩個(gè)線性回歸模型之一:

模型 1:

模型 2:



在沒(méi)有缺失值的情況下,簡(jiǎn)單線性回歸估計(jì)量(模型1)和多元線性回歸估計(jì)量(模型 2)對(duì)于平均處理效果都是無(wú)偏的。


場(chǎng)景 2:協(xié)變量缺失

校正協(xié)變量缺失數(shù)據(jù)的過(guò)程始終相同。它簡(jiǎn)單、高效,并且不依賴于所涉及的缺失類別。實(shí)驗(yàn)框架的分析中包含協(xié)變量有一個(gè)目的:提高處理?xiàng)l件對(duì) DV(ATE)影響的估計(jì)精度。此過(guò)程的目的是確保統(tǒng)計(jì)軟件不會(huì)因協(xié)變量缺失而排除任何被試。為此,只需將每個(gè)協(xié)變量的缺失值替換為該協(xié)變量的平均值。這樣,因變量保持不變,不會(huì)在估計(jì)對(duì)因變量的影響時(shí)引入偏差。想象一下,因變量中沒(méi)有缺失值,但樣本中的 2000 名員工中總共有 500 名缺少來(lái)自種族、性別、教育或前測(cè)值。由于簡(jiǎn)單線性回歸分析(模型1)中不包含協(xié)變量,因此這種缺失協(xié)變量的假設(shè)情況只會(huì)影響多元線性回歸分析(模型2)。

當(dāng)協(xié)變量值缺失時(shí)校正ATE中的偏差很簡(jiǎn)單,并且不依賴于缺失的類型。當(dāng)協(xié)變量中缺少值時(shí),只需用該協(xié)變量的可用值的均值替換所有缺失值即可。例如,在R中用種族變量的均值替換種族變量中的缺失值,可以使用以下代碼:


場(chǎng)景 3:結(jié)果數(shù)據(jù)完全隨機(jī)缺失(MCAR|X)

假設(shè)樣本中的2000名員工中有750人決定退出研究。仔細(xì)觀察后會(huì)發(fā)現(xiàn),對(duì)于所有員工,變量前測(cè)值逐漸偏高。但整個(gè)數(shù)據(jù)集中的數(shù)據(jù)并不是完全隨機(jī)缺失的,而是在前測(cè)得分高的參與者子集中完全隨機(jī)缺失。如果某些參與者的結(jié)果數(shù)據(jù)缺失,并且我們想假設(shè)一個(gè)或多個(gè)觀察變量完全解釋結(jié)果缺失的模式,可以使用逆概率加權(quán)(IPW)來(lái)校正偏差。這種方法通常用于醫(yī)學(xué)研究或社會(huì)科學(xué)中的縱向研究以解釋參與者的退出,為DV的每個(gè)值分配一個(gè)權(quán)重。較大的權(quán)重分配給丟失概率較大的觀測(cè)值,較小的權(quán)重分配給丟失機(jī)會(huì)較低的觀測(cè)值。一旦為每個(gè)可用的觀測(cè)值計(jì)算出權(quán)重,就可以運(yùn)行加權(quán)多元線性回歸而不是常規(guī)的多元線性回歸。以下是 R 中關(guān)于缺失處理的詳細(xì)步驟。


步驟 1 :創(chuàng)建響應(yīng)虛擬變量


步驟 2:預(yù)測(cè)樣本中每個(gè)員工的響應(yīng)概率

(a) 對(duì)于一個(gè)變量的缺失,例如前測(cè)值:


(b) 對(duì)于多個(gè)變量的缺失,例如前測(cè)、種族、性別和教育:


步驟 3 :響應(yīng)概率


步驟 4:生成權(quán)重


步驟 5:加權(quán)線性回歸

這種加權(quán)多元線性回歸能夠恢復(fù)樣本的真實(shí)ATE。


場(chǎng)景 4:結(jié)果數(shù)據(jù)非隨機(jī)缺失 (MNAR)

結(jié)合雙重抽樣和邊界法,該方法由 Coppock 等人開(kāi)發(fā)。這種方法通常因產(chǎn)生的界限太寬而無(wú)法提供足夠的信息,研究人員也因此不太愿意使用該方法。但Coppock 等人(2017)提出了一種策略,通過(guò)結(jié)合雙重抽樣來(lái)彌補(bǔ)這一不足。雙重抽樣方法要求研究人員從結(jié)果值缺失的被試那里獲取更多數(shù)據(jù)。假設(shè)通過(guò)雙重隨機(jī)抽樣,能夠獲得一些結(jié)果缺失被試的數(shù)據(jù),可以使用 Coppock等(2017)開(kāi)發(fā)的 R 包“attrition”中的以下代碼。


結(jié)論

實(shí)驗(yàn)研究中數(shù)據(jù)的缺失對(duì)因果推理具有重要影響。作者主張研究人員對(duì)他們的數(shù)據(jù)中的缺失做出現(xiàn)實(shí)的假設(shè),并且本文提供了兩種方法的具體指南,這些方法可以做出更切實(shí)際的假設(shè)來(lái)處理實(shí)驗(yàn)數(shù)據(jù)集中的缺失。在使用均值替代解決其分析中包含的所有協(xié)變量的缺失后,研究人員可以使用逆概率加權(quán)或雙重抽樣和邊界來(lái)校正因變量中的缺失。逆概率加權(quán)是純統(tǒng)計(jì)學(xué)方法,研究人員在完成數(shù)據(jù)收集后可以立即執(zhí)行此步驟。雙重抽樣和邊界需要研究人員收集額外的數(shù)據(jù)。關(guān)于使用哪種方法的假設(shè)和決定是基于人的判斷,研究人員應(yīng)該在他們的文章中進(jìn)行有關(guān)證明。最后,作者強(qiáng)烈建議研究人員不要假設(shè)缺失是完全隨機(jī)產(chǎn)生的。這意味著研究人員不應(yīng)該將他們的分析局限在可用數(shù)據(jù)上而不去校正缺失值。


原文:Missing Data in Experiments: Challenges and Solutions.

http://dx.doi.org/10.1037/met0000361

模擬數(shù)據(jù)和R代碼網(wǎng)址:https://osf.io/9sva5

【茗創(chuàng)科技】如何看待心理學(xué)實(shí)驗(yàn)中的數(shù)據(jù)缺失?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
仙桃市| 马鞍山市| 镇巴县| 宜州市| 廉江市| 原阳县| 休宁县| 新宾| 淳化县| 东安县| 寻乌县| 五台县| 昌江| 永州市| 友谊县| 车险| 中江县| 明水县| 昌都县| 蒙城县| 旬邑县| 蓝山县| 柳江县| 门源| 永城市| 中西区| 杭锦旗| 辰溪县| 磴口县| 大冶市| 泾川县| 罗源县| 浦县| 榆中县| 忻州市| 枣庄市| 垫江县| 井陉县| 双城市| 桦南县| 明溪县|