五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

新冠病毒數(shù)據(jù)分析過程中的數(shù)據(jù)科學基礎知識

2020-04-30 15:09 作者:跨象乘云  | 我要投稿

本文轉載自:大數(shù)據(jù)文摘 | BigDataDigest;結合跨象乘云原創(chuàng)發(fā)布的:新冠病毒(COVID-19)數(shù)據(jù)分析系列視頻,對新冠病毒數(shù)據(jù)分析過程中的數(shù)據(jù)科學基礎知識和思維模型,進行清晰的脈絡梳理與補充。

山川異域,風月同天。在全球蔓延的新型冠狀病毒肺炎,已成為全世界關注的焦點,全球數(shù)據(jù)科學家,人工智能專業(yè)團隊,都在通過不同的途徑,從不同的角度支援這場全人類的『抗疫』戰(zhàn)爭,包括:對新冠疫情趨勢進行分析和預測;對病毒基因進行解構,加速疫苗研發(fā);對肺炎病患 X 光片進行智能甄別;對行人是否佩戴口罩進行識別??缦蟪嗽? 專門開辟了針對新冠病毒(COVID-19)的數(shù)據(jù)分析系列視頻,跟大家一起,對新冠病毒的相關數(shù)據(jù)進行深入探討。

同時,我們也聽到了許多關于奮戰(zhàn)在一線的醫(yī)護工作者、提供關鍵物資和支援的企業(yè)以及互幫互助的家庭和社區(qū)的令人震撼和鼓舞人心的故事,這一切告訴我們,只要每個人都能貢獻自己的一份微薄之力,我們就能共渡難關。籍此,我們向戰(zhàn)斗在抗疫一線的醫(yī)護人員致敬。

本文轉載自:大數(shù)據(jù)文摘 | BigDataDigest

來源:medium

編譯:千雪、aileen

原文標題:《我從新冠數(shù)據(jù)里學到的四個數(shù)據(jù)科學基礎知識》

雖然現(xiàn)在大家很容易獲取機器學習和數(shù)據(jù)科學的學習工具,但是除了學習如何使用工具以外,往工具里輸入數(shù)據(jù)之前如何有效地探索數(shù)據(jù),并找出其局限性也同樣重要。

最令人驚訝的是,總有很多人經(jīng)常不看數(shù)據(jù)就開始構建模型,這很明顯是一個錯誤行為。想構建一個有效的模型,就必須了解如何收集數(shù)據(jù),以及數(shù)據(jù)之間在哪些地方存在差距。無論你是要處理 Excel 表格里的幾百行數(shù)據(jù)還是 TB 級別的圖像分類數(shù)據(jù)集,這都同樣重要。

因為數(shù)據(jù)是從現(xiàn)實世界中收集而來的,而現(xiàn)實世界充滿了怪誕奇葩的事,所以每一個現(xiàn)實世界的數(shù)據(jù)集也都充滿了不確定性。目前在 COVID-19 流行期間,人們日常關注的疫情數(shù)據(jù)就是如此:每天收集整理并修正來自全世界的數(shù)據(jù),這并不是一件容易的事。因此,你現(xiàn)在看到的報告數(shù)字,就顯示出了你在其他現(xiàn)實世界的數(shù)據(jù)集中也能看到的差別和問題。

現(xiàn)在,讓我們一起來看看 COVID-19 的報告數(shù)據(jù),感受一下如果不提前檢查數(shù)據(jù)就開始構建模型,我們將會出現(xiàn)哪些錯誤。

第 1 課:不同的數(shù)據(jù)收集方式會創(chuàng)造出并不真實的數(shù)據(jù)趨勢

COVID-19 的國際報告標準是要求每個國家或地區(qū)報告醫(yī)院的每天死亡人數(shù),這樣就可以比較出該疾病是如何影響不同的國家的。

我們來看看英國報道的每日數(shù)字:

英國因 COVID-19 導致的每天死亡人數(shù):每個周日/周一死亡人數(shù)都會大幅下降!

請注意,該報告的死亡人數(shù)遵循著完美的每周周期:死亡人數(shù)在每個星期之初(即周日和周一)發(fā)生顯著下降。這是一個非常有趣的發(fā)現(xiàn),對模型可能會產(chǎn)生巨大影響。讓我們猜測一下,是否是因為那兩天人們的物資待遇或生活方式有所不同,所以才會導致不同的結果?

然而,這個每周的周期是假的,它只是一個涉及到數(shù)據(jù)如何收集和報告的人工產(chǎn)物。

每個醫(yī)療機構每天向中央機構報告一次死亡總數(shù),英國報告的總死亡人數(shù)就是用這些數(shù)字的總和減去昨天的數(shù)字。這會導致兩個明顯的問題:

  • 一天的總和可能是(甚至通常是)不完整的。如果有醫(yī)療機構未能及時報告或報告不全,那么這些死亡人數(shù)就不會計入英國當天的死亡總數(shù),而是匯總到未來一天的總數(shù)中。

  • 每個醫(yī)療機構報告的死亡人數(shù)總和與英國范圍內向公眾報告的死亡人數(shù)總和之間存在1天的延遲。

那么解釋這個每周的周期就很簡單了。周末時醫(yī)院人手不夠,他們沒法及時報告自己的全部死亡人數(shù)。延遲報告就會導致周末時死亡人數(shù)下降,而周末之后死亡人數(shù)相應上升。由于報告滯后了一天,因此數(shù)據(jù)中是周日和周一顯示死亡人數(shù)下降,而不是周六和周日。

這就是數(shù)據(jù)集的常見問題 —— 不同的數(shù)據(jù)收集方式會制造出真實數(shù)據(jù)本身并不存在的數(shù)據(jù)趨勢。再舉個例子,許多免費的圖像數(shù)據(jù)集是由攻讀博士學位的研究生創(chuàng)建的。因此,如果你想從網(wǎng)上獲取帶有汽車圖像的隨機數(shù)據(jù)集,那么你可能會獲得很多校園停車場中的小汽車圖片,而不會有很多大型卡車的圖片。但是在美國,皮卡車與小汽車的銷量卻幾乎是 3 比 1!

第 2 課:一定要多多探究離群值

數(shù)據(jù)集里幾乎總是會存在離群值(也叫逸出值,是指數(shù)據(jù)中有一個或幾個數(shù)值超出了其余數(shù)值的范圍),但你絕不會希望你的數(shù)據(jù)分析里一直出現(xiàn)離群值,這是因為離群值可能只是簡單疏忽或異常事件發(fā)生的結果。所以,探究離群值是一件很重要的事,

這樣就可以確定在數(shù)據(jù)分析中是否應當包括它們,還是將它們排除出去。

這是全球實時數(shù)據(jù)統(tǒng)計網(wǎng)站 worldometers.info 提供的中國 COVID-19 新增病例報告的比率:

每日新增病例

2 月 12 日有一個巨大的離群值,中國報告了 14,108 例新增 COVID-19 病例,這一天的增加量是前一天新增病例的好幾倍。

如果你盲目地用這些數(shù)據(jù)建立模型,那么這個離群值會把整個模型的結果弄亂。相反,如果你認為這個離群值代表真實事件,則可能會誤導你以為 2 月 12 日左右發(fā)生了一些特殊情況,所以導致感染增加。

跨象乘云? 新冠病毒(COVID-19)的數(shù)據(jù)分析系列視頻截圖

然而事實上,出現(xiàn)這種大幅度躍升情況的真正原因是中國于 2 月 12 日更改了報告方法。在此之前,中國僅報告由 RNA 病毒測試方法確認的病例。但是由于測試瓶頸,醫(yī)生同時也通過胸部 X 光片來檢查患者的肺部癥狀,以此篩查 COVID-19 病患。2 月 12 日,中國將之前所有通過 X 光片確診的病例也進行了報告,這才導致報告病例激增。也就是說,這些病例并不是全在 2 月 12 日這一天發(fā)生,只是在那天將他們全部添加到了報告總數(shù)中。

只要你做一下搜索,很容易為這個離群值找到解釋。而有了這些信息,你就可以決定如何處理這個離群值。但如果你在開始建模之前沒有真正仔細查看數(shù)據(jù),就不會發(fā)現(xiàn)這些。

第 3 課:對地理數(shù)據(jù)進行歸一化

大家特別容易忘記的一個基本技巧是,用人口或其他具有代表性的因素對數(shù)據(jù)進行歸一化后,按地理區(qū)域收集的數(shù)據(jù)總是更有意義。畢竟,一個擁有 500 人的村莊,與一座 800 萬人口的城市相比,300 例病例代表的發(fā)生概率要大得多。

跨象乘云? 新冠病毒(COVID-19)的數(shù)據(jù)分析系列視頻截圖

例如,下面這張地圖使用了政府提供的統(tǒng)計數(shù)據(jù),截至 2020 年 4 月 8 日為止,以倫敦每個區(qū)的 COVID-19 病例數(shù)為陰影:

倫敦各個區(qū)的 COVID-19 病例數(shù)分布圖,顏色更深 = 病例更多

然而問題在于,不同的行政區(qū)有不同的人口數(shù)量。當我們在地圖上僅僅使用病例數(shù)進行著色時,最終不可避免地還是要重新繪制人口圖。

跨象乘云? 新冠病毒(COVID-19)的數(shù)據(jù)分析系列視頻截圖

在這個地圖上,位于城市最南端的克羅伊登(Croydon)和位于市中心的南華克(Southwark)具有相同的顏色。但是克羅伊登的人口比南華克多 20%,而且面積更大。如果僅僅因為這兩個地區(qū)的病例數(shù)相同,就說這兩個地區(qū)受到同樣的影響,這是沒有道理的,因為克羅伊登的感染率相對更低。

那么解決方案就是通過人口等其他因素對地圖進行歸一化。只需要簡單地將每個區(qū)的病例數(shù)除以該區(qū)的總人口數(shù),就可以得出發(fā)病率。使用發(fā)病率來繪制,我們將獲得一個更容易理解的地圖,從而評估受影響最嚴重的區(qū)域:

倫敦各個區(qū)按 2018 年人口標準化的 COVID-19 病例數(shù)分布圖,顏色更深 = 病例更多

如果按人口劃分,我們會發(fā)現(xiàn)克羅伊登(Croydon)的發(fā)病率只是中等水平,而泰晤士河邊的南沃克(Southwark)是受災最嚴重的地區(qū)之一。

在美國這樣人口分布非常不均的國家查看國家或地區(qū)級數(shù)據(jù)時,這種影響甚至更大。在美國,幾乎所有人都居住在東海岸、西海岸或德克薩斯州附近。相比之下,其他大部分地區(qū)都人口稀少。如果我們對數(shù)據(jù)不進行歸一化就繪制美國地圖,最終可能只是按照人口密閉度畫了地圖。

第 4 課:對一些出乎意料的結果保持懷疑并多次檢查

無論你多么努力地去理解數(shù)據(jù)然后建立正確的模型,總會有無數(shù)種方式導致模型意外出錯。因此,如果你將數(shù)據(jù)輸入模型后,得出了一個出乎意料的特殊結果,那么你應該考量一下,是否要對數(shù)據(jù)有所懷疑,并且仔細檢查是否遺漏了數(shù)據(jù)。

IHME 創(chuàng)建的模型是報告美國 COVID-19 疫情的模型之一,該模型預測了 COVID-19 的流行高峰期和對醫(yī)療保健系統(tǒng)的總需求。他們預計在美國將造成約 6 萬人死亡:

IHME 預測的美國 COVID-19 死亡人數(shù)

他們最近還增加了對英國的預測,盡管只是初步預測,但預測的死亡人數(shù)甚至更高,達到 66,000:

IHME 預測的英國 COVID-19 死亡人數(shù)(舊)

這是一個非同尋常的預測。該模型表示,人口約為 3.3 億的美國,將比人口約為 6,600 萬(美國的 1/5)的英國死亡人數(shù)更少。由于差異如此之大,在我們搞清楚原因之前,應當對此有所懷疑。

這種懷疑與該模型創(chuàng)建團隊的能力或工作質量無關,畢竟非常確定性地去預測一個罕見事件,這本就是一件難事。模型可以幫助我們了解不同的變量是如何驅動結果的,但它們也僅僅只是模型。所以我們不能盲目地相信模型,每當我們看到比較極端的預測結果時,都應當去嘗試了解到底發(fā)生了什么。

新模型發(fā)布后的頭幾天,英國報告的實際數(shù)字都低于該模型的最低預測范圍。于是幾天后,IHME 就用更大的置信區(qū)間更新了這張圖,這代表該預測具有更多的不確定性:

IHME 預測的英國 COVID-19 死亡人數(shù)(新)

即使有了新的置信度區(qū)間,該模型仍然預測出了比其他團隊類似模型預測的更高的數(shù)字。倫敦帝國理工學院的 Neil Ferguson 教授在媒體上引用了這個模型,他認為這個模型在英國的預測是有缺陷的,因為 IHME 錯誤地模擬了醫(yī)院利用率,而他的模型則預測出了更低的數(shù)字。因此,現(xiàn)在我們就能看到這樣的案例,兩個單獨的模型給出了兩個完全不同的預測范圍。

當然這并不是什么壞事。探究別人的模型,本就是檢驗自己的假設和模型中是否存在未考慮因素的好方法。真正糟糕的情況是我們盲目地相信任何特定的模型,因為沒有一個模型可以完美地處理所有的極端情況。

同樣,我們也要對自己的模型保持質疑 —— 如果你覺得結果令人匪夷所思,那么就假設你的模型犯了一個錯誤,去探究,去查看,直到你搞清楚為什么會得到這樣的結果??偠灾?,不要盲目相信自己的模型!

當作者發(fā)表這篇文章幾小時后,IHME 更新了他們的英國模型并將其對英國死亡人數(shù)的預測從 66,314 大幅度降低至 37,494(降低了近 50%)。然而這個數(shù)字仍然比其他模型的預測值還要高一些,不過已經(jīng)接近多了。因此,這個故事的寓意是正確的 —— 對意外的結果要始終保持懷疑。

原文鏈接:https://medium.com/@ageitgey/four-basic-data-science-lessons-illustrated-by-covid-19-data-7d94134a5b0e

大數(shù)據(jù)文摘

視頻原創(chuàng)制作:廣州跨象乘云軟件技術有限公司
公司網(wǎng)站:https://www.080910t.com/
演示數(shù)據(jù)集下載:https://github.com/KXCY-AI/MLVP
Orange 原版下載:https://orange.biolab.si/

新冠病毒數(shù)據(jù)分析過程中的數(shù)據(jù)科學基礎知識的評論 (共 條)

分享到微博請遵守國家法律
天祝| 凤山县| 台山市| 崇阳县| 天津市| 会昌县| 垫江县| 泸州市| 黄陵县| 新和县| 乌苏市| 策勒县| 清水县| 革吉县| 千阳县| 合水县| 当雄县| 南充市| 竹溪县| 民权县| 海原县| 西藏| 宁夏| 博罗县| 札达县| 航空| 和顺县| 五家渠市| 永宁县| 新竹县| 介休市| 务川| 南岸区| 苗栗市| 伊川县| 辽中县| 会理县| 抚州市| 耒阳市| 武安市| 增城市|