散文網(wǎng) » 筆記 »全部筆記 » 一起向“統(tǒng)計(jì)諾獎(jiǎng)”大佬學(xué)習(xí)R！R語言進(jìn)階教學(xué)之?dāng)?shù)據(jù)清洗（dplyr&tid...

一起向“統(tǒng)計(jì)諾獎(jiǎng)”大佬學(xué)習(xí)R！R語言進(jìn)階教學(xué)之?dāng)?shù)據(jù)清洗（dplyr&tid...

2022-11-23 16:28 作者:男朋友的餅 0人讀過 | 我要投稿

https://github.com/rstudio/cheatsheets

https://github.com/rstudio/cheatsheets/tree/main/translations/chinese

tbl: data frame的一個(gè)子類

dplyr 數(shù)據(jù)清洗常用函數(shù)

1、篩選

select：對(duì)列取子集

filter：通過邏輯，對(duì)行取子集

slice：通過位置，對(duì)行取子集，返回?cái)?shù)據(jù)框

distinct / unique：選取沒出現(xiàn)過的行

sample：隨機(jī)選取一定比例的樣本

arrange：排序（stable排序），desc()取倒序 VS?order：排序 VS sort：排序向量，rev()取倒序???

2、合并

通過相同列名來合并（因此需要取名），可match很多列

可用by指定依據(jù)的列（默認(rèn)依據(jù)第一列）

left_join：以左列為準(zhǔn)，多退（刪）少補(bǔ)（NA）

right_join：以右列為準(zhǔn)

inner_join：刪含NA的數(shù)據(jù)

full_join：包含所有數(shù)據(jù)

3、生成

mutate：根據(jù)原數(shù)據(jù)生成新列（可用lag做時(shí)間序列的延遲、cumsum做累加堆積圖）

4、歸納

向量 → 標(biāo)量

搭配group_by

tapply函數(shù)

（如果沒有attach和detach，則需要加上前綴 iris$.，或者用管道）

管道

tidyr（數(shù)據(jù)規(guī)整）

gather：把數(shù)據(jù)給拆成measure和value兩列，放在原數(shù)據(jù)右邊

separate / unite

標(biāo)簽：

一起向“統(tǒng)計(jì)諾獎(jiǎng)”大佬學(xué)習(xí)R！R語言進(jìn)階教學(xué)之?dāng)?shù)據(jù)清洗（dplyr&tid...的評(píng)論 (共條)