一起向“統(tǒng)計(jì)諾獎(jiǎng)”大佬學(xué)習(xí)R!R語言進(jìn)階教學(xué)之?dāng)?shù)據(jù)清洗(dplyr&tid...

https://github.com/rstudio/cheatsheets
https://github.com/rstudio/cheatsheets/tree/main/translations/chinese
tbl: data frame的一個(gè)子類

dplyr 數(shù)據(jù)清洗 常用函數(shù)
1、篩選
select:對(duì)列取子集

filter:通過邏輯,對(duì)行取子集
slice:通過位置,對(duì)行取子集,返回?cái)?shù)據(jù)框
distinct / unique:選取沒出現(xiàn)過的行
sample:隨機(jī)選取一定比例的樣本
arrange:排序(stable排序),desc()取倒序 VS?order:排序 VS sort:排序向量,rev()取倒序???
2、合并
通過相同列名來合并(因此需要取名),可match很多列
可用by指定依據(jù)的列(默認(rèn)依據(jù)第一列)
left_join:以左列為準(zhǔn),多退(刪)少補(bǔ)(NA)
right_join:以右列為準(zhǔn)
inner_join:刪含NA的數(shù)據(jù)
full_join:包含所有數(shù)據(jù)
3、生成
mutate:根據(jù)原數(shù)據(jù)生成新列(可用lag做時(shí)間序列的延遲、cumsum做累加堆積圖)
4、歸納
向量 → 標(biāo)量

搭配group_by

tapply函數(shù)
(如果沒有attach和detach,則需要加上前綴 iris$.,或者用管道)

管道

管道

tidyr(數(shù)據(jù)規(guī)整)
gather:把數(shù)據(jù)給拆成measure和value兩列,放在原數(shù)據(jù)右邊

separate / unite
