如果非典時期大數據體系成熟，會給現在的新型冠狀病毒疫情帶來多大程度的幫助？

利益相關：
生物高中水平，化學大一水平的程序員一名。
目前也是AI行業水貨從業者一名。
作為目前被堵在武漢老家出不來的人，我說點實際的。

雖然前幾天對本地zf的xx行為大為震怒，氣得基本說不出話。
現在中央和解放軍來了，事情逐漸得到控制。
雖然還有硬仗要打，但至少開始轉向明朗。
先說一個觀點：
非典時期我們掌握的數據這次確實起了很大作用。
尤其是對RNA序列、氨基酸序列的掌握，保證了我們有大量的庫可以匹配。
如果從零開始攻關科研，進展的速度是不可想像的，時間代價也是不可承受的。
當然不會從零開始：

從確診試劑的研製、優化、量產，

到各種研究論文的火速產出，

再到新聞通稿迅速傳到到百姓，用科學的結論穩定民心，

一切都是合作和積累。
我以上說的每一條，都是幾天內飛速更新。

至少我自己過目了，鑒別了，並且分享了的。
絕不是空口白話。
然後談談這一周以來感受到的大數據和AI對於抗擊疫情做出的貢獻：
（以下表述中CS部分是我的專業領域，生物領域可能會接近小學生水平，望海涵。）

人口遷徙用大數據+可視化可以看的一清二楚，我不信有人在這個計算結果面前還能明目張胆地瞞報。這次省市兩級政府做得如何呢？請靜候任免通知。在那之前我們先一起抗擊肺炎。

傳染病模型有最基本的SIR，還有稍複雜的SEIR，這些作為起點，結合現在的ML、DL、RL方法去訓練模型，預測傳染病擴散趨勢。這比恐慌和指責有用。

本次肺炎病毒是RNA病毒，RNA、DNA測序涉及到大數據處理和模式匹配，找某些特定蛋白的表達位點，對特定序列進行分類和定位，從鹼基序列到氨基酸序列，這可以幫我們找出可能用於抗體研究的片段。對蛋白質的研究顯然不是從零開始，一旦你從鹼基序列里匹配到了，可能後面的抗原、抗體相關研究之前已經做過了，然後破案就會非常快。中間這個匹配過程就是一個序列標註+多分類的任務。改一行代碼修一個大bug，大家能嘗試理解嗎？

當恐慌情緒傳播，一方面高實時性的爬蟲爬取官方消息保證了推送質量，另一方面闢謠平台也在收集各路非官方消息進行antispam分析，避免輿情爆炸。這不也是平時整天說的大數據和演算法嗎？

從這次的論文、專業討論的更新頻率來看，危機關頭的跨學科合作是非常必要，而且卓有成效的。
我自己在家裡都跟醫學院的老同學保持高頻溝通，隨時同步最新進展。
同時，別忘了撐過艱苦卓絕期的武漢本地醫療隊伍和隨後馳援的全國各地醫療人員、志願者、解放軍們。
這些不需要太高深的科技，要的是一顆紅心+清醒的頭腦+足夠的力氣。
而對於那些造成「艱苦卓絕」的人，秋後。
最後，我目前還沒發病，狀況平穩。

希望各位平安度過這段時間，祝好。
希望有在前線的醫療人員、志願者、解放軍，和在後方研究病毒、試劑、疫苗的科研人員來回答這個問題。
在知乎上也看到幾位生物、醫學、藥學博士在實際參與科研，而且忙得團團轉。
只想說你們辛苦了，知識就是力量。
現在還是別打擾他們，他們都在忙著救命。
2020.1.26 01:16，
於武漢漢口家中。

首先，說明大數據的應用很廣泛，不僅僅是在科學研究當中（即在未來的醫療防護產生作用），並且能直接為傳染病預防提供依據。
從目前的防控傳染來說，著名的案例倫敦霍亂地圖，直接定位傳染源為水井。
案例詳見：

經典信息圖-1854年倫敦霍亂爆發?
www.jianshu.com
那這次的新型冠狀病毒，是否大數據也有作用呢？
答案是肯定的。
1.傳染源的確定。
前期患病者均來源華南海鮮市場，且有一部分是密切接觸人群。封殺了華南海鮮市場這個主要傳染源，在一定程度上是有意義的。
（2020年2月10日，財新新聞，更新：該傳染源前期疫情發生有用，也有論文認為可能不是第一傳染源。確診條件可能導致華南海鮮市場傳染源這個結論的錯誤，詳情見文底鏈接：公開數據在疫情中能讓我們知道什麼?）
2.人口流動地圖。
在1月中旬，由於武漢前期潛在的輕度患者或者說疑似患者的流出給全國造成的潛在的隱患。於是，有公司提供了在華南海鮮市場的人口全國流動圖（圖來源微博）：

圖來源微博，具體不詳，如果侵權請私信
這個圖的意義在哪？完美的契合了目前公布的患病分布（廣東、上海、北京屬於重點輸出）。

具體看下圖：

圖來源於丁香園截止1月24日
丁香園疫情網頁圖：
全國新型肺炎疫情實時動態 - 丁香園·丁香醫生?
3g.dxy.cn
上面的華南海鮮市場支付數據圖，為什麼沒有和病患數據完美對上？
我分析的主要原因在於：疫情的發展狀況出現了人傳人。武漢存在大量的潛在疑似患者。因此，當加上武漢人口流出圖時：

圖來源於微博醫療圈那點事
整個數據就可以近似擬合出疫情傳播地圖，在一定程度上可以幫助政府防控風險。劃重點，一定程度。因為在病毒防控過程中，主要定點到人，這種宏觀的圖只能做輔助分析，暫時不能作為直接依據。
3.三大運營商的數據。

微博上早有人說，三大運營商已經加入到預測大軍當中。這個方法在一定程度上可以定位到人。比如，獲取1個月內在本省上網的手機號，比對一個月前沒有出現的（推測哪些手機號是近一個月進入本省），然後逐一排查這些手機號是不是武漢的（例：武漢手機號）。
有人問這個數據怎麼來的，很簡單就是：你手機會使用基站，基站是本省的。
4.疫情發展模型
這個模型據大規模數據統計分析，認為應該為S型曲線（前期）或者冪函數曲線。
比如，丁香園的一個圖：

圖來源於丁香園全國疫情網址截止1月24日
這個圖的紅色曲線很明顯符合S型曲線前期，但是紅框中間是不符合模型擬合的，紫色線是我加的（擬合的不好，湊合看吧），擬合不好的原因可能是：試紙沒有到位無法確診，所以這段時間理論上是存在肺炎傳播的可能。
當然，我們討論這個事情時要排除網路上不確定的言論，比如：試紙不夠用或者病人沒有收進來。如果上面這個圖指的是收進來的重症患者，我覺得也是有一定的參考意義。
最後，如果大數據技術成熟，

1.每個省可以結合運營商數據、第三方支付數據、定位數據、以及戶口地址數據做出潛在的人口傳染地圖。
2.再根據醫院的病患數據、庫存數據合理的調配資源應急。醫院防護設備的生產數據、糧食數據等為封城做好決策支持。
3.最完美的情況是，公布所有病患的體檢數據（去過敏原），這樣醫生和數據分析專家可以推斷傳染源，可以將病毒盡量扼殺再搖籃之中。
但是，目前沒有一個省衛生廳，可以有能力（即協調各方資源）和有必要（這個系統僅在傳染病時有效）去做出這樣一個系統。就像口罩這個物品只有現在有效，平常沒有多少人買一樣......

那對於大數據對於病毒的科學意義呢，我覺得需要一個生物信息學的學者再來討論了。

另外，在此闢謠（這裡解釋一下），關於病患不收治的問題。
1.首先，這次傳染可能存在不少於一種的肺炎傳染存在。比如，我認識的人（高度疑似），即所有表現和這次病毒性肺炎很相近，肺部有陰影、發熱、咳嗽，但是第一次檢測為陰性（等待第二次）。
2.如果不是病毒性肺炎，醫院強行收留可能存在交叉感染。所以，可能有些病患誤認為自己是病毒性肺炎，醫院不管不救，所以在此強調一下。
3.由於這段時間也是流感高發期（天氣變化等），大量的發熱病人需要隔離待觀察，所以有些地區做法是發熱集中一兩個點收治，確診的直接集中隔離。可能造成網上說大量的疑似的新型冠狀型病毒沒有確診，如果確診會上升很快的假象，我認為曲線應該還是和S型曲線相差不大。
4.最後如果確認是瞞報的話：

圖來自微博中國日報
請不用手軟直接舉報謝謝，我是湖北人，謝謝你們的仗義相助。
最後，武漢加油！湖北加油！

關於NEJM的數據補充分析（2020年2月10日更新，財新新聞，更新推論）：
梁瀮恆：NEJM最新論文新型冠狀病毒數據能說明什麼問題？?
zhuanlan.zhihu.com
不會有多大的幫助。技術永遠是工具，正確、及時的決策最重要。
多一個鍾南山院士，就要少傳播很多人、少死很多人。

應該會儘早儘快的把事實公諸於眾。

從某種角度來講，應該現狀不見得更好

因為如果那時候數據體系成熟，大家都知道。防範更好，就不會那麼嚴重。對於這一次的2019-nCoV的到來反而會更突然。

推薦閱讀：