云賀
大數據在疾病監(jiān)測領域依然大有可為,但僅靠在線數據進行疾病識別和預測存在一定風險。
2008年,谷歌推出了一款名為“谷歌流感趨勢”(Google Flu Trends)的產品。工程師們假定:一旦人們患上流感,就可能會在搜索引擎上輸入特定的檢索詞條以獲得與流感相關的信息。通過匯總和分析這些檢索詞條,谷歌就能預測流感將在何時何地爆發(fā)。2009年,這款產品在甲型H1N1流感爆發(fā)幾周前成功預測了其在全美范圍的傳播。一時間,有關大數據開啟公共衛(wèi)生變革的觀點接踵而來。然而,2013年英國《自然》雜志刊文稱,在最近一次預測流感爆發(fā)趨勢時,谷歌所預測的流感病例數目幾乎是美國疾病控制與預防中心統計數據的兩倍。這是否意味著大數據在疾病監(jiān)測領域失去了價值?
近日,查塔姆學會全球衛(wèi)生安全中心兩位研究員邁克爾·埃德爾斯坦(Michael Edelstein)和大衛(wèi)·哈珀(David Harper),發(fā)表題為《在線數據助力高效應對國際公共衛(wèi)生突發(fā)事件》的文章,通過探討數字疾病監(jiān)測在追蹤和預測疾病方面的應用,提出了大數據在疾病監(jiān)測領域的發(fā)展機遇和目前面臨的問題。他們認為:大數據在疾病監(jiān)測領域依然大有可為,但僅靠在線數據進行疾病識別和預測是存在風險的。
“數字疾病監(jiān)測”
數字疾病監(jiān)測(digital disease detection,簡稱“DDD”)是指通過收集和分析網絡在線數據,在早期確認和追蹤疾病或公共衛(wèi)生事件的爆發(fā)。具體來說,DDD采用的方法包括:由個人自愿上報疾病癥狀,掃描媒體對于疾病的報道,分析人們發(fā)布在社交媒體上的信息,通過手機數據繪制出人口流動路線圖,總結一段時間以來人們在搜索引擎中鍵入關鍵詞的模式等。
盡管DDD早在1990年代中期就開始投入應用,但直到谷歌流感趨勢推出,這一技術的影響力才有了切實的提升。目前,DDD已被廣泛應用于傳染病暴發(fā)(如禽流感、埃博拉和寨卡病毒)以及一些慢性疾病(如失眠和肥胖問題)的識別和調查過程中。同時,DDD還被應用于為出現疫情的熱點地區(qū)建立模型,以及收集其他公共衛(wèi)生事件的相關信息,如槍支暴力和衛(wèi)生保健質量等。
查塔姆學會的文章認為,隨著DDD這一新興技術開始走向成熟,無論是其識別和預測疾病的準確性,還是對于數據價值的挖掘都有了一些改善。目前,這一技術正在為越來越多的公共衛(wèi)生機構所用。例如,當埃博拉病毒在西非地區(qū)爆發(fā)時,手機數據被用于追蹤人口流動路線,以便能預測出哪些地區(qū)可能會產生新病例;再比如,通過人們發(fā)布在推特上的內容,來識別和聯系那些可能會被食源性疾病爆發(fā)所影響的人員。
谷歌流感趨勢遇挫
雖然DDD的出現引發(fā)了公共衛(wèi)生領域的極大熱情,但在2012-2013年,它對疾病的實際預測能力卻遭到強烈質疑。因為就在這一時期,谷歌流感趨勢被指出其預測的禽流感病例數目是實際數目的兩倍。2015年,谷歌流感趨勢不再對公眾開放。
然而,邁克爾·埃德爾斯坦和大衛(wèi)·哈珀卻認為,谷歌所遭遇的挫折并不能完全否定大數據對疾病監(jiān)測領域的價值。畢竟,谷歌流感趨勢曾不止一次準確地提供了有關流感爆發(fā)的消息。這只能說明:僅僅依靠大數據技術來監(jiān)測公共衛(wèi)生事件是存在風險的。
這種風險在一定程度上來源于大數據應用的核心,即通過捕捉事物間的相關關系——而非因果關系來預測未來?!督鹑跁r報》專欄作家、英國經濟學家提姆·哈福德(Tim Harford)認為,如果不知道相關關系形成背后的原因,也就不知道造成相關關系破裂的原因。
實際上,對于谷歌預測失靈的一種解釋就是:2012年12月,網絡上充斥著有關流感爆發(fā)的恐怖消息,這使得那些健康的網民也會上網搜索有關流感的信息。而谷歌只是簡單地將“鍵入流感關鍵詞”與“患上流感”視為關聯關系,卻沒有深究人們搜索流感信息的真正動機是什么。
在《大數據時代》一書中,維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)和肯尼思·庫克耶(Kenneth Cukier)也曾提出:大數據不可能也不必要實現精確性。因此,要想實現在疾病監(jiān)測領域的真正價值,大數據應該與那些以常規(guī)監(jiān)測為基礎的、傳統的疾病監(jiān)測系統形成互補關系,同時與其他那些可以提供疾病追蹤記錄的統計工具相結合。
難題待解
查塔姆學會的文章認為,大數據在疾病監(jiān)測領域依然大有可為,隨著相關技術的發(fā)展,DDD的應用機會將不斷增加。不過,目前DDD在公共衛(wèi)生監(jiān)測領域的應用中,還亟須解決兩個方面的難題。
一是,DDD怎樣才可以與官方的疾病監(jiān)測體系及應急反應機制相結合?目前,很少有政府衛(wèi)生部門對DDD數據進行常規(guī)應用,而大多數能夠產生這些數據的組織都處于政府的疾病監(jiān)測和反應機制之外,如學術、私營和非營利機構等。這可能會導致這樣一種情況發(fā)生:某一公共衛(wèi)生事件的爆發(fā)雖然被監(jiān)測到了,但是對這一信息做出應急反應的責任機制卻沒有到位。
例如,在2015年11月,一個致力于通過分析網絡內容以監(jiān)測傳染病爆發(fā)的小組注意到:巴西有關皮疹的報道數量呈現出顯著的上升趨勢。然而,由于沒有官方溝通渠道,這個小組沒能將此情況反饋給巴西衛(wèi)生部門或者世界衛(wèi)生組織。幾個星期之后,巴西寨卡病毒爆發(fā)的消息傳遍了全世界。而皮疹正是感染寨卡病毒最常見的癥狀之一。
二是,有關使用網絡數據的道德和法律問題。例如,如何去看待和處理那些屬于私人信息的數據?如何去平衡個人隱私權與公共利益之間的關系?目前上述問題還沒有得到充分解答。而公眾如何看待他們的在線數據被應用于疾病監(jiān)測領域,現在業(yè)內對此的了解和認識也十分匱乏。
兩位研究員在文章中表示:無論是DDD在公共衛(wèi)生領域中的定位,還是與此相關的道德與法律問題,現在都務必要得到解決,只有這樣才能確保DDD的潛力得到充分發(fā)揮。其中,各國政府和公共衛(wèi)生機構的參與,將為可持續(xù)的數字疾病監(jiān)測系統提供重要推動力。如果不這樣做,大數據的應用弱點將會重現,最終將削弱整個疾病監(jiān)測系統對下一次類似埃博拉或寨卡疫情的預測和反應能力。