數(shù)據(jù)會(huì)說(shuō)謊的真實(shí)例子有哪些?

作者:可樂(lè)
轉(zhuǎn)載自:可樂(lè)的數(shù)據(jù)分析之路
(ID:the_way_of_data_cola)
作者周日參加知乎的一個(gè)線(xiàn)下活動(dòng):程毅南老師主講《數(shù)據(jù)會(huì)說(shuō)謊嗎?》
為了避免遺忘,所以將內(nèi)容整理并附帶我自己的理解,和大家分享。
主要分享如何收集到真實(shí)的用戶(hù)數(shù)據(jù)并用好這些數(shù)據(jù)。
一、我們?yōu)槭裁葱枰獢?shù)據(jù)
我們?yōu)槭裁葱枰獢?shù)據(jù),因?yàn)橐獩Q策,更準(zhǔn)確地說(shuō),要科學(xué)、準(zhǔn)確地決策,并解決實(shí)際問(wèn)題。
什么是科學(xué)的搜集數(shù)據(jù)?
世界客觀存在,但需要人去發(fā)現(xiàn)和認(rèn)知
在這個(gè)大數(shù)據(jù)時(shí)代,每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),如何從這么多數(shù)據(jù)里發(fā)現(xiàn)有效數(shù)據(jù)并進(jìn)行科學(xué)地決策,是我們重點(diǎn)關(guān)注的問(wèn)題。
數(shù)據(jù)是連接客觀世界和主觀認(rèn)知的橋梁,但修橋是個(gè)技術(shù)活
數(shù)據(jù)客觀地存在,人們對(duì)數(shù)據(jù)的解讀各有千秋,就像一千個(gè)人的心中有一千個(gè)哈姆雷特一樣,不同的人對(duì)同一份數(shù)據(jù)可能都會(huì)有不同的說(shuō)法,后面會(huì)舉例。
搜集數(shù)據(jù)有什么難處?
獲取數(shù)據(jù)不難,但是獲取真實(shí)、有效的數(shù)據(jù),確實(shí)沒(méi)那么簡(jiǎn)單。比如:
人的想法和感受很難丈量
一個(gè)簡(jiǎn)單的情侶交流問(wèn)題,就可以知道人的想法和感受是很難丈量的,請(qǐng)看下面例子:
小茗同學(xué):我愛(ài)你
可樂(lè):你有多愛(ài)我

為什么我愛(ài)你很難回答,因?yàn)椋?/p>
愛(ài)的程度無(wú)法用工具測(cè)量
用得分或數(shù)字表達(dá),都極易失真,缺乏信度
愛(ài)的狀態(tài)本身就不穩(wěn)定,但是測(cè)量時(shí)的狀態(tài)卻很重要
愛(ài)的感受可以對(duì)比參照(前女友,你媽?zhuān)?/p>
你可以用優(yōu)美的情話(huà)來(lái)比喻,但這考驗(yàn)的就是語(yǔ)文能力,缺乏效度。
測(cè)量不準(zhǔn)有什么問(wèn)題
1. 造成決策失誤
舉三個(gè)測(cè)量不準(zhǔn)導(dǎo)致決策失誤的栗子:
感情被騙
比如上面的 我愛(ài)你 的案例,對(duì)小茗同學(xué)是否愛(ài)可樂(lè)這件事情如果測(cè)量不準(zhǔn),很可能導(dǎo)致可樂(lè)遭受?chē)?yán)重的情感詐騙事件。
美國(guó)大選民調(diào)翻車(chē)
2016年特朗普當(dāng)選,是美國(guó)民調(diào)的滑鐵盧,2020年差點(diǎn)又翻車(chē)。
對(duì)開(kāi)放二胎的決策
開(kāi)放二胎后,人口增量顯著低于預(yù)期,中國(guó)適齡人群的生育意愿到底怎樣,依然是一個(gè)有挑戰(zhàn)的問(wèn)題。
2. 對(duì)世界產(chǎn)生認(rèn)知偏差
測(cè)量精準(zhǔn)到底有多難?
舉3個(gè)比較難以獲取真實(shí)數(shù)據(jù)的例子
美國(guó)大選民調(diào)
對(duì)于美國(guó)大選的預(yù)測(cè),大家一直以來(lái)都津津樂(lè)道,2016年,民調(diào)預(yù)測(cè)希拉里會(huì)贏得大選,結(jié)果我們都知道卻是特朗普上臺(tái),今年雖然整體上民調(diào)顯示拜登的支持率較高,但在一些搖擺州的預(yù)測(cè)上還是打了臉。
所以把數(shù)據(jù)測(cè)量準(zhǔn)確這件事情還是很難的。當(dāng)然對(duì)于民調(diào)這種問(wèn)題,結(jié)果不準(zhǔn)確更多地可能還是取樣的偏差?

如何了解某種難以啟齒的行為的滲透率
如家庭暴力、偷竊、出軌等難以啟齒的行為,如何了解它們的滲透率?
實(shí)際報(bào)案的、被警察抓獲的、被他人發(fā)現(xiàn)的來(lái)這只是一小部分人,或者你可以說(shuō)是幸存者偏差,到底有多少人有過(guò)類(lèi)似的行為?
我們可能會(huì)想到通過(guò)以下方式來(lái)獲?。?br>
網(wǎng)絡(luò)問(wèn)卷調(diào)查。成本低,也無(wú)法核實(shí)用戶(hù)身份,但也因此用戶(hù)也就可以隨意說(shuō)謊
入戶(hù)調(diào)查、街頭攔訪。也會(huì)撒謊,或者不好意思坦白
在居民家安裝監(jiān)控,排查所有轉(zhuǎn)賬數(shù)據(jù)。類(lèi)似我們的數(shù)據(jù)埋點(diǎn),可能效果好,但不現(xiàn)實(shí)。
這里程老師提供了另外一種獲取思路:
抽一張牌,但不告訴我抽到的是什么?

問(wèn)被訪者:是否打過(guò)自己的伴侶?
如果抽到黑桃,則可以隨心回答如果抽到除黑桃外的其他3種花色,則只能回答“是”
最后,將回答是的比例減去75%,再除以25%,即是較為真實(shí)的家暴行為滲透率。
因?yàn)檫@里,回答“是”,變成了大概率事件,且這種方法保持了面對(duì)面調(diào)查卻仍然匿名的方式,結(jié)果就較為真實(shí)一些。
調(diào)查用戶(hù)對(duì)微博產(chǎn)品的體驗(yàn)和感受
一個(gè)真實(shí)的案例,微博對(duì)用戶(hù)的滿(mǎn)意度問(wèn)卷投放數(shù)個(gè)小時(shí)后,評(píng)分突然大幅下降,發(fā)生什么事兒了?

結(jié)果發(fā)現(xiàn)是飯圈水軍,“我們給新浪微博打差評(píng),讓騰訊微博復(fù)活,給新浪點(diǎn)顏色看看”
這個(gè)案例可以幫助我們思考一個(gè)問(wèn)題:意想不到的數(shù)據(jù)出現(xiàn),是?有效?還是?無(wú)效??
二、如何做好測(cè)量
前面提到收集數(shù)據(jù)有那么多的困難,那么該如何科學(xué)有效地收集數(shù)據(jù)?
避免偽裝
人是愛(ài)面子的,會(huì)偽裝:調(diào)整問(wèn)法,讓他更自然地表達(dá)
比起直接問(wèn)你支持誰(shuí),還不如問(wèn),你的鄰居支持誰(shuí)?:巧妙設(shè)計(jì),讓他明白真實(shí)答案沒(méi)有后果
比如,剛剛提到的抽牌匿名法:官方身份,反正你們都知道,說(shuō)謊沒(méi)有意義
比如知乎問(wèn)你最喜歡看哪些問(wèn)題?普羅大眾肯定覺(jué)得,你應(yīng)該都知道的吧,不然每天給我推送的是啥?
避免從眾
人性是容易服從、容易引導(dǎo)的,要避免從眾壓力。
《是,首相》中奸臣做民調(diào)就體現(xiàn)了這一點(diǎn)。就“是否支持恢復(fù)兵役”的民調(diào)是可控制的。在下面一系列“是”的回答后,人們有很大的可能支持恢復(fù)兵役。

但換一種問(wèn)法也是可以的:

因此不同的問(wèn)卷調(diào)查方法,可能會(huì)得到不同的結(jié)果,要避免給人從眾的壓力。
避免復(fù)雜
人性是懶惰的,調(diào)查請(qǐng)不要太麻煩動(dòng)輒幾十道問(wèn)卷調(diào)查題目真的很讓人頭疼。
包容
人性是千奇百怪的,要盡可能包容你所見(jiàn)到的現(xiàn)象
如何用好數(shù)據(jù)
幸存者偏差想必大家已經(jīng)聽(tīng)過(guò)無(wú)數(shù)次了,不太了解的童鞋可以在這篇文章中看看。
簡(jiǎn)單來(lái)說(shuō)幸存者偏差就是只能看到經(jīng)過(guò)某種篩選而產(chǎn)生的結(jié)果,忽略了被篩選掉的關(guān)鍵信息。這個(gè)案例告訴我們用好數(shù)據(jù)多么的重要。

一個(gè)問(wèn)題
有什么方法能測(cè)量感情的健康程度?
如何測(cè)量感情的健康程度?用下面的指標(biāo)來(lái)衡量嗎?
禮物個(gè)數(shù)
約會(huì)次數(shù)
陪伴時(shí)長(zhǎng)
吵架次數(shù)
打架次數(shù)
還是那句話(huà),不同的人心中有不同的評(píng)判標(biāo)準(zhǔn),感情是特指男女還是包括父母親情?什么是健康程度?感覺(jué)又回到了文章一開(kāi)頭收集數(shù)據(jù)有什么難處的問(wèn)題,人的想法和感受本身就很難丈量,我們可以通過(guò)構(gòu)建不同的用戶(hù)畫(huà)像來(lái)具體問(wèn)題具體分析,主要目的是哪些指標(biāo)能夠幫助我們做決策。
所以大家也可以評(píng)論區(qū)聊聊,有什么方法能測(cè)量感情的健康程度?
