蓝月亮四肖中特

about云開發

 找回密碼
 立即注冊

QQ登錄

只需一步,快速開始

打印 上一主題 下一主題

[技術應用] 如何使用機器學習來預測新型冠狀病毒

[復制鏈接]
跳轉到指定樓層
樓主
阿飛 發表于 2020-1-29 07:10:58 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
本帖最后由 阿飛 于 2020-1-29 07:12 編輯


導讀
機器學習相信我們很多人都接觸過,但是很多大牛利用機器學習來預測新型冠狀病毒,當然無論對錯,其實這正是我們學習技術的價值,讓我們的知識能夠應用于生活,對我們的身邊的事情能夠起一個指導作用。如果大家感興趣,想練手,其實自己也可以實際嘗試下。下面是是大牛的實驗。

目的:
本文探討的主要目的是,有沒有一種算法可以根據已有的數據對疫情進行預測和評估,可以方便在疫情出現的時候,根據預測的數據來判斷當前的疫情狀況。

文章分為 5 段
  • 猜想
  • 數據準備
  • 猜想驗證
  • 新型冠狀病毒確診數據的預測和評估
  • 總結

Ps : 心急的朋友可以直接拖到末尾 看結論。



0x01 猜想
由于當前新型冠狀病毒的數據并不多(從 11 號-26 號),所以僅僅是新型冠狀病毒的數據來做研究是不夠的,必須還要一組參考驗證組。(當然是越多越好,但是精力有限,所以只找了一組)。

首先明確一下判斷疫情的嚴重情況的指標,目前疫情一般會公告這四個數據:
  • 確診病例
  • 疑似的病例
  • 感染的地區
  • 死亡的人數

由于我們把地區限定在了中國(雖然各個地區不一樣),所這個地區的指標就不用了,死亡人數在疫情的前中后期都不太一樣,這個也不用。疑似病例這個和各地的收診情況有關系,比如香港的疑似病例就非常多,確診很少,所以這個指標也不采用,剩下就以確診病例作為唯一的參考指標。

猜想 1
假設病毒的傳播和地區,氣候以及病毒自身的特征有非常大的關系,那么只要找到一個和新型冠狀病毒這三個屬性非常相似的病毒,只要算法能夠對這種病毒的確診病例進行預估和判斷,那么算法也可以對新型冠狀病毒進行預估和判斷。





( 03 年 4 月 22 日 SRAS,圖源..不太清楚)

目前和新型冠狀病毒最像的應該就是 SARS: 氣候和現在差不多,1 月和 3 月。 地區主要是是中國。 病毒類型:都是冠狀病毒,都有發燒咳嗽等特征。
那么基于上述的條件,采用了 SARS 作為參考組。

猜想 2:
可以給定一個 Δ,
  • 如果 當前確診的病例 - 預測的確診病例的比率 >Δ,那么當前的疫情變異了,進一步擴大影響的范圍。
  • 如果 當前確診的病例 - 預測的確診病例的比率 < -Δ,那么當前的疫情已經基本被控制,已經減弱了。
  • 如果 -Δ < 當前確診的病例 - 預測的確診病例的比率 < Δ,那么當前的疫情還在平穩的發展中,沒有進一步變異。

0x02 數據的準備
確診病例的數據


如果可以拿到 SARS 在 1 月份的數據就好了,可惜沒有一個比較完整的地方有記錄,基本上衛生部發布的好像是從四月份開始。于是只能采用四月份的數據了。

評估的算法

采用了 LSTM(長短期記憶網絡),搭建的話 Keras。LSTM 已經是個老算法了,經常用于量化投資(簡單點來說就是炒股之類,預測股票的增長),非常擅長于時間序列的預測。 最終調教后的算法模型是,根據過去三天的數據,可以預估最新一天的數據。


LSTM

實驗的環境
數據量比較少,直接租了一臺 16 核 8G 的云主機進行測試。

0x03 猜想驗證

猜想驗證部分直接全部使用 WHO 的 SARS 的數據進行驗證。采用的字段是 Cumulative number of case(s),累計病例數,我這里就當它是確診人數了。

SARS 的數據分別有兩部分,一部分是中國大陸的,一部分是中國香港的。 在 5 月份后基本已經趨于平緩,所以只取了前兩個月(約 60 天左右的數據)。



中國大陸確診人數變化曲線



中國香港確診人數變化曲線
可以看到數據涵蓋了病毒爆發期,病毒平穩增長期,以及病毒被消滅期,比較合適用來驗證算法是否可以擬合整體的曲線。

0x031 猜想一
這里采用前 50 天的數據做訓練樣本,訓練的結果用來預測 60 天的情況, 預測和實際的對比如下:



中國大陸 SARS 確診人數變化曲線(預測和實際)



中國香港 SARS 確診人數變化曲線(預測和實際)

從圖中我們可以看到,在使用了 90%的數據量下,數據是擬合的比較好的,肉眼看上去香港的數據基本可以用算法完全預估。這里給一下數據誤差的對比情況:

  • 誤差:|(實際值-預估值)/ 實際值 |
  • 中國大陸:誤差的平均值 0.057 , 誤差的均方差 0.060 。
  • 中國香港:誤差的平均值 0.053 , 誤差的均方差 0.137 。

說人話就是,模型預測的數據和實際的數據最多差了 6%。效果是非常理想的。這里我們可以證明第一個猜想,即 LSTM 可以用來擬合 SARS 確診人數的變化情況。

0x032 猜想二
實際上雖然猜想一得到了證實,但是依舊沒啥用,因為這里的模型是使用了 90%的數據,基本已經到了傳播的后期。那么前期是否可以使用同一個模型進行驗證呢? 這里只取中國大陸的數據進行試驗。


根據三個階段(這三個階段是肉眼判斷截取的,是否合理當時沒有考慮)截取對應的數據進行建模,建模后的預測效果如下:


前期的數據建模人數變化曲線(預測和實際)


中期的數據建模人數變化曲線(預測和實際)


后期的數據建模人數變化曲線(預測和實際)

在前期的數據的預測中,到后面兩個階段實際的數據都比預測的數據比要大,說明在疫情開始了爆發。

在中期的數據的預測中,其他兩個階段預測的數據基本都比實際的數據要大, 說明在疫情在前期的感染速度較低,后期的感染速度也變低 。

根據上面兩個數據,是可以推測是存在一個 Δ 去判斷當前的疫情狀況的。但是 Δ究竟是多少呢,這里倒是可以根據好幾個因素去設置:

  • 斜率的改變
  • 誤差的改變
  • 轉折點的個數等

這里就偷懶了,可以明顯看到各個時期都有一個或者多個轉折點(消亡期不算),直接取最接近轉折點的誤差率來計算:

  • 在爆發期里面,最靠近轉折點的誤差值是 0.21 。
  • 在控制期里面,最靠近轉折點的誤差值是 0.14 。

兩個取平均作為 Δ的值,也就是 0.175 。

0x04 新型冠狀病毒確診數據的預測和驗證


(新型冠狀病毒從 16 號至 26 號確診人數變化曲線)

分別取前 6 天的數據(到 20 號),取前面 9 天的數據(到 25 號)的數據代入模型進行預估


到 20 號的數據模型確診人數變化曲線(預估和實際)

到 25 號的數據模型確診人數變化曲線(預估和實際)

為什么選 20 號呢,20 號主要是央視有采訪鐘南山大佬,而且第一次說明了人傳人的存在,以及 14 名醫護被感染。我覺得應該算是開始重視這個病毒的一個點,隨后各地開始上報疫情,發布以及響應等。

再往前的時間點就數據就比較缺失了,模型精準度已經失去了使用的價值,所以采取了 20 號的這個時間點作為分隔來建造模型。

如果以到 20 號的模型來估算的話,第一次誤差偏離 0.17 的時間是 23 號,誤差為 0.19 。23 號,廣東,浙江啟動了一級響應。確診的病人增多。但個人感覺應該是檢測的方法變強導致的,側面來看,模型的確檢測除了異常值,不過并不能夠說明病毒變強了。

如果以到 24 號的模型來看,預估的 25 號的數據是 1877,實際的數據 1972,誤差率在 0.04 ,未到偏離值。所以根據這個模型推斷,當前疫情還在持續擴散中,但是并沒有進一步惡化,可能國家的高度重視和很多省份都開始參與其中有關系。

依照當前的模型,明天的確診人數的預估值是 2770,加上 0.17 的誤差的話
  • 如果實際的確診人數 > 3337 說明疫情加重
  • 如果實際的確診人數 < 2367 說明疫情正在被控制
  • 如果處于中間,那還是依舊在擴散發展中,但并未惡化。

再次聲明:
以上的觀點和結論都屬于依據當前的確診人數所作的推斷,毫無參考的意義和價值。如果數據剛好對了,不能說明什么,如果數據錯了,證明這個模型真的不行。

那么,如果我們帶入 SARS 最嚴重的的時候,會怎么樣 ?



還是按照誤差 0.17 來算,在 23 號,誤差達到了 0.18 ,也就是 3 天前,按照這個模型的數據推算,新型冠狀的病毒傳染性比 SARS 要強。 但也可能是和春運有關系,畢竟數據的時間不一致。

再再次聲明:
以上的觀點和結論都屬于依據當前的確診人數所作的推斷,毫無參考的意義和價值。如果數據剛好對了,不能說明什么,如果數據錯了,證明這個模型真的不行。

0x05 再多講幾句
寫這個的目的純粹是為了探討和研究,實際上,真的要寫一個這種疫情預測和評估的系統,需要非常多的參考的數值,比如醫護人員的數量,檢測手法準確率,時間,病毒的潛伏期等等,需要非常多的人力物力才可以編寫完成,像本文這種只靠單一維度的輸入去判斷和預估的模型和玩具沒什么區別。

但是在編寫的過程中也發現很多問題,,疫情的相關數據還是多方尋找才找到一部分 。

例如支援的物品的統計,損耗和使用情況等
例如病人的數量對物品的需求等
例如疫情各個時期需要多少的物資統計等
希望在這次的疫情中保留比較詳細的數據 這些都可以作為系統的的輸入,借助這些數據,打造一個強大完整的疫情監控和評估系統,甚至不是疫情,而是重大事件的監控和評估系統,待下次再出現疫情、災情,可以快速的調度全國的資源進行處理和援助。

最后,祝大家春節快樂, 多注意個人衛生, 帶好口罩。



原文鏈接:
https://www.v2ex.com/t/640423
作者:wstart
沙發
戀楓縮影 發表于 2020-1-30 00:07:23 | 只看該作者
希望疫情早點過去

點評

嗯,會的  發表于 2020-1-31 06:44
您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則

關閉

推薦上一條 /4 下一條

QQ|小黑屋|about云開發-學問論壇|社區 ( 京ICP備12023829號 )

GMT+8, 2020-2-26 03:26 , Processed in 1.125000 second(s), 28 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

© 2018 Comsenz Inc.Designed by u179

快速回復 返回頂部 返回列表
蓝月亮四肖中特 大智慧手机炒股 模拟 亿配资 正规的股票融资公司 国内十大期货配资公司 推荐股票配资平台 股票配资推荐出奇卓信宝配资精湛 匠心智策 点点赢配资 基金配资合法性 全球期货配资基地