JMP數(shù)據(jù)清洗之“拆分” — 快速實(shí)現(xiàn)一列拆分為多列

上期我們介紹了如何通過(guò)JMP的“堆疊”功能快速將多列指標(biāo)合并為一列指標(biāo)。相反地,在其他一些時(shí)候,你可能需要將一列或多列指標(biāo)根據(jù)某個(gè)指標(biāo)拆分為多列指標(biāo)。比如在人口普查結(jié)果中想看看男性和女性在不同年齡段的分布。又或者,出于分析或作圖的需要,如何將身高依據(jù)性別拆分為兩列?

今天帶大家學(xué)習(xí)的數(shù)據(jù)清洗神器之JMP“拆分”功能,就是這樣一個(gè)可以快速將一列或多列指標(biāo)拆分為多列指標(biāo)的高效工具,有了它,就可以滿(mǎn)足大家在不同分析情境下的不同需求。
為了幫助更多的臨床醫(yī)師學(xué)習(xí)如何運(yùn)用JMP高效地開(kāi)展數(shù)據(jù)分析,提高日常工作和發(fā)表論文的效率,2020年8月起,JMP資深用戶(hù)、JMP特約專(zhuān)欄作者、資深統(tǒng)計(jì)學(xué)家馮國(guó)雙博士及其團(tuán)隊(duì)將在JMP數(shù)據(jù)分析平臺(tái)為大家分享一系列統(tǒng)計(jì)及數(shù)據(jù)分析、JMP實(shí)戰(zhàn)操作、JMP分析報(bào)表解讀等干貨內(nèi)容,每期一個(gè)經(jīng)典話(huà)題,幫助大家掌握一個(gè)新技能。值得注意的是,這些話(huà)題并非僅針對(duì)臨床醫(yī)師,對(duì)所有運(yùn)用JMP軟件開(kāi)展數(shù)據(jù)分析的小伙伴都適用。本文為此系列文章的第六期。點(diǎn)擊上方專(zhuān)輯或文末可回顧其他幾期。
假如我們有一份重復(fù)測(cè)量數(shù)據(jù),時(shí)間點(diǎn)和測(cè)量值是作為兩個(gè)變量記錄的,如果我們想采用重復(fù)測(cè)量方差分析探索處理和時(shí)間點(diǎn)的效應(yīng),那我們就必須將每一個(gè)時(shí)間點(diǎn)的測(cè)量值單獨(dú)成列。又比如,大家常見(jiàn)的男女對(duì)比金字塔圖,也需要將男和女的信息分列成兩個(gè)變量后再進(jìn)行繪制。今天我們就依據(jù)這兩個(gè)例子,給大家介紹JMP的另一個(gè)實(shí)用功能——“拆分”。
首先看一下重復(fù)測(cè)量的示例數(shù)據(jù),共15個(gè)被試者,分為三組接受不同處理,重復(fù)測(cè)量三次,數(shù)據(jù)(截取部分)如圖1。

為了進(jìn)行重復(fù)測(cè)量方差分析,我們需要將三個(gè)時(shí)間點(diǎn)的測(cè)量值根據(jù)時(shí)間點(diǎn)分成三列。拆分的對(duì)話(huà)框通過(guò)點(diǎn)擊菜單欄的表→拆分觸發(fā),如圖2.

打開(kāi)拆分對(duì)話(huà)框,如圖3。這里,我們將時(shí)間點(diǎn)放入拆分依據(jù)框中,然后將測(cè)量值放入拆分列,即根據(jù)時(shí)間點(diǎn)對(duì)測(cè)量值進(jìn)行拆分,拆分為與時(shí)間點(diǎn)個(gè)數(shù)相同數(shù)量的列。其余列我們可以選擇全部保留,如果后續(xù)分析用不到,也可以選擇全部刪除,或者手動(dòng)選擇想保存的列。

因?yàn)椴鸱謹(jǐn)?shù)據(jù)必然形成新的數(shù)據(jù)表,可為新數(shù)據(jù)表命名。用動(dòng)圖進(jìn)行動(dòng)態(tài)演示,見(jiàn)圖4。

拆分之后生成的新數(shù)據(jù)表如圖5所示。原數(shù)據(jù)為45行,每個(gè)被試者三個(gè)時(shí)間點(diǎn)各占一行,拆分之后,新數(shù)據(jù)為15行,每個(gè)被試者占一行,三個(gè)時(shí)間點(diǎn)分別在t1-t3三列顯示,這樣就可以滿(mǎn)足重復(fù)測(cè)量方差分析的數(shù)據(jù)格式要求了。

再給大家列舉兩種需要用到JMP拆分功能的情形。
第一個(gè)就是我們常見(jiàn)的金字塔圖(又稱(chēng)蝴蝶圖),如圖6所示(注:金字塔圖我們常常用來(lái)發(fā)表文章,這里僅做演示,圖注等已抹去)。

若想做出這樣的圖,男性和女性的數(shù)據(jù)必須單獨(dú)成列,作為兩個(gè)變量,但是在正常情況下,性別往往是作為一個(gè)獨(dú)立變量存在的,這時(shí)就需要用到今天講的拆分功能。
我們以某個(gè)示例數(shù)據(jù)用動(dòng)圖進(jìn)行展示,假設(shè)我們想作圖展示男女糖尿病人的BMI值分布情況,該怎么拆分呢?如圖7動(dòng)圖所示。

當(dāng)新的數(shù)據(jù)表生成后,我們就可以作圖了。至于如何制作金字塔圖,敬請(qǐng)關(guān)注本系列后續(xù)的JMP作圖專(zhuān)輯。
此外,還有一種情況需要用到列的拆分,那就是我們要進(jìn)行配對(duì)t檢驗(yàn)(或者配符號(hào)秩和檢驗(yàn))的時(shí)候,這是為什么呢?請(qǐng)大家開(kāi)動(dòng)腦筋思考下,并歡迎留言討論。
列的拆分和堆疊是大家在JMP中清洗數(shù)據(jù)非常常見(jiàn)且實(shí)用的功能,只要你掌握了一點(diǎn)點(diǎn)其中的小技巧,學(xué)會(huì)融會(huì)貫通(根據(jù)不同情況選擇不同的操作),你就會(huì)發(fā)現(xiàn)處理數(shù)據(jù)的效率大大提升,從而將精力花費(fèi)在更關(guān)注的地方,比如后續(xù)的作圖、分析等等。系列文章持續(xù)推送中,敬請(qǐng)期待!
如果你還未體驗(yàn)過(guò)JMP,歡迎復(fù)制以下鏈接到瀏覽器下載JMP試用,跟著文章練起來(lái)吧!
https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002sEGsQAM&utm_source=weibo&utm_medium=social
