數(shù)據(jù)分享|R語(yǔ)言逐步回歸、方差分析anova電影市場(chǎng)調(diào)查問(wèn)卷數(shù)據(jù)可視化|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=30680
最近我們被客戶要求撰寫關(guān)于電影市場(chǎng)調(diào)查問(wèn)卷數(shù)據(jù)的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
這是一份有關(guān)消費(fèi)者對(duì)電影市場(chǎng)看法及建議的調(diào)查報(bào)告,我們采取了問(wèn)卷調(diào)查法,其中發(fā)放問(wèn)卷256份,回收有效問(wèn)卷200份
我們對(duì)數(shù)據(jù)?(?查看文末了解數(shù)據(jù)免費(fèi)獲取方式?)?進(jìn)行了基本分析,比如:相關(guān)性。還有基本圖形、回歸方差分析。最后模型比較。

讀入數(shù)據(jù)
head(data)

數(shù)據(jù)的描述
str(data)
數(shù)據(jù)一共有200個(gè)樣本,25個(gè)屬性。具體屬性和取值及其含義如下:

數(shù)據(jù)展示
繪制各個(gè)變量的餅圖可以看到基本人口信息的各個(gè)取值的所占的百分比。


點(diǎn)擊標(biāo)題查閱往期內(nèi)容

數(shù)據(jù)分享|數(shù)據(jù)視角可視化分析豆瓣電影評(píng)分爬蟲數(shù)據(jù)

左右滑動(dòng)查看更多

01

02

03

04

數(shù)據(jù)特性總結(jié)
基本統(tǒng)計(jì)量


數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)的清理
#數(shù)據(jù)清理
對(duì)缺失值(NA)的處理data=na.omit(data)
?
#變量篩選
?colnames(data)
?data=data[, -which(colnames(data) %in% c("填寫時(shí)間","是否星標(biāo)","提交后隨機(jī)碼" , "是否已
數(shù)據(jù)分析
基本數(shù)據(jù)分析,比如:相關(guān)性。還有基本圖形、回歸方差分析。最后模型比較。
數(shù)據(jù)檢驗(yàn)
相關(guān)性
查看您對(duì)中國(guó)電影產(chǎn)業(yè)的發(fā)展建議和請(qǐng)問(wèn)您看電影的主要目的是什么變量之間是否具有相關(guān)關(guān)系

檢驗(yàn)的結(jié)果是,由于P =0.016<0.05,因此在0.05的顯署性水平下,拒絕原假設(shè),認(rèn)為兩者之間具有相關(guān)關(guān)系。
下面進(jìn)行方差分析
m1<-aov(Q12.您一般通過(guò)什么途徑購(gòu)買電影票~Q9.請(qǐng)問(wèn)您看電影的主要目的是什么,data=datacor)

?由于p值大于0.05,從這個(gè)結(jié)果可以看出看電影的不同目下購(gòu)買電影股票的差別不顯著。

?由于p值小于0.05,從這個(gè)結(jié)果可以看出看電影的不同目下購(gòu)買電影股票的差別不顯著。
回歸分析

從回歸模型的結(jié)果來(lái)看,可以看到接受電影票價(jià)格區(qū)間對(duì)被調(diào)查對(duì)象考慮的電影外在因素有比較大的影響,p值小于0.05,因此該變量對(duì)被調(diào)查者選擇去看電影有顯著的影響 。其次被調(diào)查者的年齡也有較明顯的影響,可以年齡和被調(diào)查者去看電影有較大的負(fù)相關(guān)關(guān)系,因此可以認(rèn)為年齡大的人會(huì)傾向于考慮的看電影各種外在因素。
plot(model)

從回歸模型的殘差結(jié)果圖來(lái)看,殘差比較均勻地分布在0線周圍,和qq圖周圍,說(shuō)明殘差隨機(jī)服從正態(tài)分布,因此,回歸模型具有較好的效果。
模型的比較和討論
模型篩選與比較,使用逐步回歸進(jìn)行模型篩選最優(yōu)模型,然后和傳統(tǒng)的回歸模型進(jìn)行比較。刪去不顯著的變量.

進(jìn)行變量刪減后的回歸模型,我們得到最優(yōu)變量是被調(diào)查者接受的電影票價(jià)格區(qū)間,p值小于0.05,說(shuō)明該變量對(duì)被調(diào)查者考慮的外在因素有顯著的影響。
數(shù)據(jù)獲取
在公眾號(hào)后臺(tái)回復(fù)“電影數(shù)據(jù)”,可免費(fèi)獲取完整數(shù)據(jù)。****
點(diǎn)擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語(yǔ)言電影市場(chǎng)調(diào)查問(wèn)卷回歸模型、方差anova分析可視化》。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
R語(yǔ)言用邏輯回歸、決策樹和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)
邏輯回歸(對(duì)數(shù)幾率回歸,Logistic)分析研究生錄取數(shù)據(jù)實(shí)例
R語(yǔ)言使用Metropolis- Hasting抽樣算法進(jìn)行邏輯回歸
R語(yǔ)言邏輯回歸Logistic回歸分析預(yù)測(cè)股票漲跌
R語(yǔ)言在邏輯回歸中求R square R方
R語(yǔ)言邏輯回歸(Logistic Regression)、回歸決策樹、隨機(jī)森林信用卡違約分析信貸數(shù)據(jù)集
R語(yǔ)言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
R語(yǔ)言進(jìn)行支持向量機(jī)回歸SVR和網(wǎng)格搜索超參數(shù)優(yōu)化
R語(yǔ)言貝葉斯MCMC:GLM邏輯回歸、Rstan線性回歸、Metropolis Hastings與Gibbs采樣算法實(shí)例
在R語(yǔ)言中實(shí)現(xiàn)Logistic邏輯回歸
R語(yǔ)言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測(cè)心臟病
R語(yǔ)言用Rcpp加速M(fèi)etropolis-Hastings抽樣估計(jì)貝葉斯邏輯回歸模型的參數(shù)
R語(yǔ)言邏輯回歸logistic模型分析泰坦尼克titanic數(shù)據(jù)集預(yù)測(cè)生還情況
R語(yǔ)言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級(jí)調(diào)查數(shù)據(jù)
R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析
R語(yǔ)言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語(yǔ)言邏輯回歸(Logistic回歸)模型分類預(yù)測(cè)病人冠心病風(fēng)險(xiǎn)