大數據疫情峯值預測靠譜嗎

來源：北京商報

“互聯網+醫療”大數據可以爲防疫提供參考嗎？近日，隨着疫情防控措施持續優化，關於各地疫情峯值的大V模型、小程序預測等也引發了網友的討論。如在微信小程序中，可查看各大城市疫情高峯時間進度條，直接具體到高峯期的開始和結束日。

專家分析認爲這種從統計學角度做流行病的預測和觀察所得出的宏觀趨勢，有一定的參考價值，但精準到某天開始、某天結束的數據準確性有待商榷且價值不大。同時，這兩種模型都將百度這一搜索引擎的搜索數據用作數據源，存在一定缺陷。

預測精準到“天數”

北京商報記者檢索發現，互聯網上的疫情峯值預測來源主要有2個：其一是一位大V建模，其二是微信小程序數據團+。

大V建模方面，經濟學家、某平臺百萬粉絲大V陳沁用公開的百度指數和一套成熟的數學模型做了疫情峯值預測。他預測北京本輪疫情感染已經到達峯值，一直到1月上旬，會不斷趨好。

公開資料顯示，陳沁畢業於復旦大學經濟系，曾任教於復旦大學經濟學院，現任BBD Index首席經濟學家。曾在China Economic Review、《經濟研究》《經濟學季刊》《金融研究》等權威期刊發表過諸多論文。

微信小程序數據團+，則由一家致力於大數據和人工智能領域的科技公司——上海脈策數據科技有限公司提供技術支持，在小程序上選擇想要查詢的城市，便可以顯示所預測的該城市“疫達峯”可視化進度圖表，如小程序顯示北京第一波高峯到達日爲12月16日，第一波高峯結束日爲1月13日。

這兩種疫情峯值測算都有其背後的原理。

根據陳沁公開的信息，他是借鑑了已經比較成熟的數學模型，用百度指數去測算疫情情況，“總體來說就是看超額搜索指數的覆蓋面積，當覆蓋面積達到一定閾值後就代表人口感染達到一定閾值，感染自然達峯、結束”。

微信小程序數據團+的原理類似，使用的是百度搜索指數和巨量算數數據進行計算。

北京商報記者注意到，這兩種預測模式都將百度搜索指數納入了數據源之中，但這種依賴搜索引擎數據的模型科學嗎？

數據源存問題

北京商報記者將各地官方已經公佈的疫情高峯預估時間和微信小程序預測的時間進行了對比。

如江西省政府新聞辦在12月15日召開的江西省新冠肺炎疫情防控工作新聞發佈會指出，據專家分析研判，江西省下一波疫情高峯將在今年12月底、明年1月初到來，2023年春節前後達到峯值。僅可選擇城市的小程序中查詢的結果則顯示，南昌市第一波高峯峯值在12月21日，在2023年1月8日結束高峯期。

對此，一位統計學領域的專業人士周鴻（化名）向北京商報記者分析表示，一方面，從統計學角度做流行病的預測和觀察，所得出的宏觀趨勢有一定的參考價值，但精準到某天開始、某天結束的數據準確性有待商榷且價值不大；另一方面，這兩種模型都將百度這一搜索引擎的搜索數據用作數據源，在數據源上便存在一定問題。

“百度引擎的搜索頻次總體上有一定價值，但跟實際結合後可能存在一些差異。”周鴻解釋道，首先在移動互聯網時代，大衆的搜索渠道衆多，百度搜索只是其中之一，甚至還有很大數量的人羣並不會使用智能手機進行檢索；其次，公共衛生事件所受到的影響因素非常多，比如某個地區突然出臺了防疫相關的政策變動，會導致短期內該地區對相關話題的搜索量大幅上升。綜合來看，將百度引擎作爲數據源之一，並不能完全反映現實情況。

如何才能使模型更科學？周鴻建議，將國家衛健委公佈的每日陽性人數和進行一定規模問卷調查得出的感染情況作爲數據源之一，反而更能準確地反映出某個城市疫情發展趨勢的變化。

迴歸到本次模型預測的價值本身，北京社科院研究員、中國人民大學智能社會治理研究中心研究員王鵬認爲，就模型所測的月份上的峯值，在宏觀角度上可以爲線下防疫提供參考。“一方面各地通過感染情況，提前做好醫療資源、物資儲備、人員調度等，也爲市民日常生活防護進行一定的提醒；另一方面，這種模型對全國各地‘疫情峯值’進度都有一定預測，爲全國一盤棋、疫情發展階段不同的地區合作調配資源等提供了參考。”

“醫療大數據”尚有侷限性

事實上，運用統計學的專業知識進行大數據分析、預測的案例並不少見。國家統計局每個月發佈的宏觀經濟數據如全國CPI（居民消費價格指數）和PPI（工業生產者出廠價格指數）等，便是在對相關主體進行抽樣調查的基礎上進行的。另外，相關機構通過對人口基數和增速進行統計後，對人口規模的預測也屬於統計學的應用。

而此次“疫達峯”所屬的醫療衛生領域，則是統計學大數據適用的一個相對特殊的領域。

周鴻介紹了國外“醫療大數據”的一個典型案例——谷歌流感趨勢（GFT）。谷歌公司發現，每年大約有9000萬美國居民使用互聯網來查詢與自身相關的疾病、藥物或者醫院信息，而關於流行性感冒的搜索量可以及時地反映當時流感的現狀；因此，他們使用互聯網搜索記錄來即時預測美國疾控中心延遲發佈的疑似流感病例佔比。該研究利用2003-2007年這五年的流感數據做模型，其推論在2008年的測試數據中得到很好驗證，之後很長一段時間的流感預測結果也與實際情況非常一致。

但四年以後，《自然雜誌消息》報道，在最近的一次流行感冒爆發中谷歌利用大數據流感趨勢預測失效了，這一次谷歌的大數據預測模型顯示流感爆發非常嚴重，然而疾控中心在慢慢彙總各地統計的流感數據以後，發現谷歌的預測結果遠遠超過了實際情況。

對於這種統計學大數據在醫療領域的適用性，中南大學碩士研究生劉琛發表在《臨牀醫學研究與實踐》期刊上的《從谷歌流感趨勢（GFT）案例分析“醫療大數據”的侷限性》一文中得出結論指出，醫學本質是一門經驗科學，大數據是人類邁向數據時代的工具，大數據分析爲許多醫學難題的解決提供了新途徑，改變了一些疾病診斷方式，另一方面也爲科研教學提供了有力的數據支撐。

“但就現狀而言，大部分大數據分析技術（如nosql）還難以在醫療領域被重用，只有通過大數據方面的技術研究，不斷地改進大數據在臨牀醫學應用中的缺陷，才能更好、更準確地爲患者服務。”劉琛說。

北京商報記者方彬楠陸珊珊

大數據疫情峯值預測靠譜嗎

熱門新聞

週熱門

大數據疫情峯值預測靠譜嗎

中銀國際：上調百度目標價至169.87美元 重申“買入”評級

BATJ一季報出齊 AI深入產業開花結果

百度高管解讀Q1財報：雲行業降價對百度AI雲業務發展影響微乎其微

卓易信息：阿里、摩爾線程是公司客戶，百度、壁仞科技、寒武紀等目前暫未與公司存在合作

看圖：百度一季度營收315億元 百度App月活6.76億

百度第一季度總營收315億元，美股盤前漲超2%

百度(09888)首季淨利潤按年跌9%至54.48億元人民幣

“百度核心”第一季度營收238億元 同比增長4%

百度第一季度營收315億元 經調淨利潤70億元

百度：考慮和特斯拉在Robotaxi上可能的合作機會

百度領跑1-4月大模型項目中標榜，傳統行業成爲大模型落地核心舞臺

新冠變異株KP.2來了，專家：不會引起明顯疫情高峯

新冠變異株KP.2在中國流行情況如何？張文宏最新解讀

國家疾控局稱我國本土已監測到KP.2新冠變異株，此前已在美國蔓延

新冠變異株KP.2多國蔓延，中疾控：我國尚未監測到

熱門新聞

週熱門

中銀國際：上調百度目標價至169.87美元重申“買入”評級

看圖：百度一季度營收315億元百度App月活6.76億

“百度核心”第一季度營收238億元同比增長4%

百度第一季度營收315億元經調淨利潤70億元