歐陽湖 王俊麗(通信作者)
貴州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院/環(huán)境污染與疾病監(jiān)控教育部重點(diǎn)實(shí)驗(yàn)室(貴州,貴陽,550025)
任建國 貴州醫(yī)科大學(xué)生物與工程學(xué)院(貴州,貴陽,550025)
大數(shù)據(jù)(big data)是一個(gè)術(shù)語,一個(gè)數(shù)據(jù)集,其特點(diǎn)是數(shù)據(jù)容量大、來源廣、結(jié)構(gòu)復(fù)雜多樣,除了基因組學(xué)和其他組學(xué)領(lǐng)域,大數(shù)據(jù)還包括醫(yī)學(xué)、環(huán)境、金融、地理和社交媒體信息[1],對(duì)這些數(shù)據(jù)進(jìn)行研究可以揭示被隱藏的信息。 如高艷艷[2]將大數(shù)據(jù)應(yīng)用于中小學(xué)生個(gè)性化學(xué)習(xí)診斷模型分析; 龔偉志等[3]利用大數(shù)據(jù)對(duì)恐怖襲擊風(fēng)險(xiǎn)進(jìn)行預(yù)測;陳明[4]基于大數(shù)據(jù)分析影響景區(qū)消費(fèi)行為的因素,以及其他學(xué)者通過電子病歷大數(shù)據(jù)預(yù)測疾病模型等[5]。 數(shù)字流行病學(xué)是隨著信息技術(shù)的出現(xiàn)而出現(xiàn)的電子數(shù)據(jù)[6-8],它借鑒了互聯(lián)網(wǎng)接入的廣泛可用性、移動(dòng)設(shè)備的爆炸式增長和在線共享平臺(tái)等發(fā)展,不斷生成大量包含健康相關(guān)信息的數(shù)據(jù)。 目前與公共衛(wèi)生相關(guān)的信息更多的是由人們通過使用在線服務(wù)直接生成,而不是與衛(wèi)生保健系統(tǒng)打交道[9]。通過利用實(shí)時(shí)數(shù)據(jù),大數(shù)據(jù)有望用于疾病的預(yù)測和監(jiān)測。 目前已有文獻(xiàn)報(bào)道了通過大數(shù)據(jù)預(yù)測和及時(shí)監(jiān)測的例子,如 谷 歌流感 趨勢[10];Song 等[11]利 用大 數(shù)據(jù) 分析中東呼吸綜合征(MERS)信息擴(kuò)散背后的因素和感知到的感染風(fēng)險(xiǎn);Liu 等[12]通過互聯(lián)網(wǎng)監(jiān)測,確定西非埃博拉病毒暴發(fā)可能造成的影響因素與中國公眾關(guān)注之間的相關(guān)性;Xu 等[13]將社交媒體數(shù)據(jù)通過MapReduce 和Spark-Based 分析框架對(duì)早期流感暴發(fā)進(jìn)行監(jiān)測。
由于互聯(lián)網(wǎng)和移動(dòng)技術(shù)所產(chǎn)生的數(shù)據(jù)量是空前的,我國移動(dòng)電話和互聯(lián)網(wǎng)越來越普及,健康應(yīng)用程序也越來越多,而公共衛(wèi)生大數(shù)據(jù)的有效利用與否,決定了公共衛(wèi)生相關(guān)從業(yè)人員在從事各種工作活動(dòng)時(shí),能否充分了解和解決社會(huì)健康問題。 因此,本文對(duì)大數(shù)據(jù)在公共衛(wèi)生中的應(yīng)用進(jìn)行綜述,以期為今后大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域的應(yīng)用提供參考。
傳染性疾病和重大疫情嚴(yán)重危害著社會(huì)公眾的生命安全和社會(huì)秩序,隨著全球化的加強(qiáng),傳染病的迅速傳播和新出現(xiàn)的公共衛(wèi)生事件也在增加。因此,持續(xù)監(jiān)測和早期發(fā)現(xiàn)對(duì)預(yù)防或減輕傳染病的傳播以及為各部門提供充分的時(shí)間準(zhǔn)備和作出反應(yīng)更為重要。Hay 等[14]討論了利用大數(shù)據(jù)進(jìn)行全球傳染病監(jiān)測的機(jī)會(huì),他們開發(fā)了一個(gè)在地圖上提供實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)測的系統(tǒng),并認(rèn)為結(jié)合流行病學(xué)信息的在線社交媒體是促進(jìn)公共衛(wèi)生監(jiān)測的一個(gè)有價(jià)值的新數(shù)據(jù)源;Young 等[15]使用社交媒體數(shù)據(jù)進(jìn)行疾病監(jiān)測,他們收集了553 186 016 條推文,提取了超過9 800 條與HIV 風(fēng)險(xiǎn)相關(guān)的關(guān)鍵詞(如性行為和藥物使用)和地理信息注釋,分析發(fā)現(xiàn)與HIV 相關(guān)的推文和HIV 病例之間存在顯著的正相關(guān) (P<0.01),說明了社交媒體數(shù)據(jù)的重要性以及它對(duì)監(jiān)測全球疾病發(fā)生的潛在影響;Kollef 等[16]將2002 年1月1 日至2003 年12 月31 日期間4 543 名培養(yǎng)陽性肺炎患者在美國59 家醫(yī)院住院并與記錄在美國急癥護(hù)理醫(yī)院數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,結(jié)果表明大約一半的住院肺炎患者有社區(qū)獲得性肺炎,而大于20%的患者有衛(wèi)生保健相關(guān)肺炎,金黃色葡萄球菌是所有肺炎類型的主要病原體,非社區(qū)獲得性肺炎組的發(fā)生率明顯高于社區(qū)獲得性肺炎組;與衛(wèi)生保健相關(guān)肺炎相關(guān)的死亡率(19.8%)和醫(yī)院獲得性肺炎的死亡率(18.8%)無顯著差異(P>0.05),但均顯著高于社區(qū)獲得性肺炎 (10%,P<0.0001),低于呼吸機(jī)相關(guān)肺炎(29.3%,P<0.0001)?;ヂ?lián)網(wǎng)搜索在疫情檢測[17]和移動(dòng)健康應(yīng)用中的作用越來越明顯,包括追蹤手機(jī)短信[18],已經(jīng)成為公共衛(wèi)生組織的基本工具。因此各級(jí)衛(wèi)生部門可以建立衛(wèi)生信息管理平臺(tái),形成衛(wèi)生管理網(wǎng)絡(luò)體系,通過為公眾提供準(zhǔn)確有效的健康服務(wù), 提高他們的健康危險(xiǎn)意識(shí)和衛(wèi)生防范意識(shí)[19],并收集其健康信息形成健康信息數(shù)據(jù)庫,利用大數(shù)據(jù)技術(shù)對(duì)公共衛(wèi)生數(shù)據(jù)進(jìn)行實(shí)時(shí)的監(jiān)測,全面預(yù)測疾病的發(fā)生發(fā)展,這不僅可以大大降低人力、物力、財(cái)力,還可以通過監(jiān)測進(jìn)行預(yù)警和處理,降低傳染病的感染率。
根據(jù)一份報(bào)告[20]:50%的美國人患有一種或多種慢性病,80%的美國醫(yī)療費(fèi)用用于慢性病治療。隨著生活水平的提高, 慢性病的發(fā)病率也在增加,美國每年在慢性病治療上平均花費(fèi)2.7 萬億美元,這一數(shù)額占美國全年國內(nèi)生產(chǎn)總值的18%。 慢性病的醫(yī)療保健問題在許多其他國家也很重要。 在中國,根據(jù)2015 年中國營養(yǎng)與慢性病報(bào)告, 慢性病是死亡的主要原因,有86.6%是由慢性病引起的。 因此,對(duì)慢性病進(jìn)行風(fēng)險(xiǎn)評(píng)估至關(guān)重要。 預(yù)防疾病首先是確定可改變的疾病危險(xiǎn)因素(如飲食、運(yùn)動(dòng)、吸煙、飲酒和環(huán)境污染), 進(jìn)而改善這些危險(xiǎn)因素和提供改善健康的干預(yù)措施。 公共衛(wèi)生是一門專門從事疾病預(yù)防的學(xué)科。 傳統(tǒng)的公共衛(wèi)生數(shù)據(jù)量大、種類多,但因某些因素導(dǎo)致數(shù)據(jù)缺乏,如缺乏與地理相關(guān)的數(shù)據(jù),且由于長時(shí)間的數(shù)據(jù)收集和傳播周期而造成時(shí)間滯后,所以與公共衛(wèi)生有關(guān)的許多方面的研究被認(rèn)為是缺乏的。 如在大型的隊(duì)列研究中,參與者的積極性往往不是很高, 收集數(shù)據(jù)的成本又高,因此很難進(jìn)行長期隨訪[21-22]。 而大數(shù)據(jù)可以在研究和干預(yù)活動(dòng)中發(fā)揮關(guān)鍵作用,提高疾病預(yù)防和人群健康方面的管理。 隨著醫(yī)療數(shù)據(jù)[13]的增長,收集電子健康記錄變得越來越方便。 通過分析大數(shù)據(jù)可以對(duì)一些慢性疾病負(fù)擔(dān)的可改變危險(xiǎn)因素采取行動(dòng),如體育活動(dòng)、飲食、煙草使用和污染暴露,可在人群、亞人群和個(gè)體水平上發(fā)現(xiàn)疾病的危險(xiǎn)因素,并通過提高干預(yù)措施的有效性來幫助人們在更健康的環(huán)境中實(shí)現(xiàn)更健康的行為。 目前,已有將大數(shù)據(jù)用于慢性病的監(jiān)測,如Páez 等[23]通過大數(shù)據(jù)和物聯(lián)網(wǎng)監(jiān)測慢性病患者以便進(jìn)行早期診斷。
全球糧食供應(yīng),從農(nóng)場到餐桌,比以往任何時(shí)候都更加復(fù)雜。 食品供應(yīng)日益豐富,加工程度低和高度加工的食品隨處可見,食品的運(yùn)輸距離越來越遠(yuǎn),可以在世界各地消費(fèi)[24]。 與此同時(shí),消費(fèi)模式(如即食食品市場)和易感人群(如老年人和免疫力低下者) 等因素的增加也增加了食源性疾病傳播的風(fēng)險(xiǎn)。 現(xiàn)代分子生物學(xué)技術(shù)(例如DNA 測序)的使用使疫情追溯到源頭的速度比以往任何時(shí)候都要快。 在過去幾十年里,發(fā)達(dá)國家的食品消費(fèi)者已經(jīng)意識(shí)到食品中存在食源性病原體的可能性,因此在食品供應(yīng)的安全性方面出現(xiàn)了令人擔(dān)憂的問題[25]。
食源性疾病一直是人們關(guān)注的健康問題,在發(fā)展中國家,導(dǎo)致死亡的腹瀉病的病原體和來源(例如水或食物)大多是未知的;在發(fā)達(dá)國家,如美國,據(jù)估計(jì)有940 萬死于食源性腹瀉相關(guān)疾病已被歸因于主要食源性病原體(如沙門氏菌、單核細(xì)胞增多性李斯特氏菌)[26]。 過去,許多食源性疾病的暴發(fā)已經(jīng)突出了食源性疾病的風(fēng)險(xiǎn),這影響了食品行業(yè)的技術(shù)研發(fā)和應(yīng)用[27]。 在監(jiān)管和監(jiān)測方面,PulseNet 全球數(shù)據(jù)庫的使用和分子生物學(xué)在亞型病原體上的應(yīng)用極大地提高了追蹤暴發(fā)源頭的能力[28]。 而大數(shù)據(jù)時(shí)代的來臨也使得其在食源性疾病方面得到了應(yīng)用。 如Park 等[29]對(duì)2011 年1 月1 日至2014 年12 月31 日期間的天氣變化和醫(yī)療大數(shù)據(jù)進(jìn)行分析,給出了天氣因素對(duì)食物中毒發(fā)生的影響,利用R語言進(jìn)行Logistic 回歸和Lasso Logistic 回歸分析,結(jié)果表明細(xì)菌性食物中毒的發(fā)生率受平均溫度、 日照偏差、溫度偏差的影響,影響病毒性食物中毒發(fā)生的天氣因素有:最低水汽壓、日照偏差、溫度偏差;該研究證實(shí)了氣象因素與食物中毒的相關(guān)性。 地理信息系統(tǒng)是大數(shù)據(jù)的其中一部分,它是一種計(jì)算機(jī)系統(tǒng),它是研究人員能夠管理、存儲(chǔ)、提取、組織、操作和可視化的數(shù)據(jù)。在公共衛(wèi)生相關(guān)領(lǐng)域,地理信息系統(tǒng)已經(jīng)被用來識(shí)別空間和非空間數(shù)據(jù)之間的模式和趨勢。 例如GIS 的應(yīng)用可以利用建立在整個(gè)食品安全鏈,反映在生產(chǎn)領(lǐng)域食源性病原體污染的風(fēng)險(xiǎn)[30-31]或監(jiān)測疾病暴發(fā)期間的分布和傳播情況[32]。 綜上所述,將大數(shù)據(jù)用于整個(gè)食品安全鏈,可監(jiān)測食源性疾病發(fā)生的風(fēng)險(xiǎn)及分析其發(fā)生的相關(guān)危險(xiǎn)因素。
衛(wèi)生保健是目前最受關(guān)注的問題之一。 目前生活在城市和城鎮(zhèn)的人雖然能夠獲得較好的衛(wèi)生服務(wù),但是生活在偏遠(yuǎn)地區(qū)的人,還是面臨著醫(yī)療設(shè)施不足和醫(yī)療衛(wèi)生服務(wù)匱乏的問題。 包括研究人員、 政策制定者和從業(yè)人員在內(nèi)的許多專家認(rèn)識(shí)到, 目前公共衛(wèi)生保健服務(wù)的效率低下和不公平。世界衛(wèi)生組織數(shù)據(jù)存儲(chǔ)庫[33]提供的統(tǒng)計(jì)數(shù)據(jù)發(fā)現(xiàn),2011 年印度的人均衛(wèi)生保健政府支出為44 美元,而美國為4047 美元;結(jié)果是美國人預(yù)期壽命增加,具有完善的醫(yī)療保健系統(tǒng),臨床工作人員工作效率高效, 擁有24h 的緊急服務(wù)和世界一流的醫(yī)生,因此,可通過應(yīng)用大數(shù)據(jù)分析來改變和解決現(xiàn)有的衛(wèi)生保健服務(wù)結(jié)構(gòu)中存在的問題。 目前,隨著醫(yī)院和保健中心的增加, 衛(wèi)生保健制度似乎有所改善,隨著大數(shù)據(jù)在醫(yī)療領(lǐng)域的不斷應(yīng)用,數(shù)字醫(yī)療解決方案已經(jīng)改變了醫(yī)療系統(tǒng),使其變得比以前更高效便捷。 目前已有學(xué)者注意到了衛(wèi)生保健系統(tǒng)對(duì)大數(shù)據(jù)的需求[34]。 而物聯(lián)網(wǎng)醫(yī)療網(wǎng)絡(luò)或醫(yī)療保健物聯(lián)網(wǎng)網(wǎng)絡(luò)是醫(yī)療保健物聯(lián)網(wǎng)的重要組成部分之一,它支持接入物聯(lián)網(wǎng)主干, 可促進(jìn)醫(yī)療數(shù)據(jù)的傳輸和接收,并支持使用醫(yī)療保健專用通信,基于物聯(lián)網(wǎng)醫(yī)療網(wǎng)絡(luò)的醫(yī)療保健系統(tǒng)可以應(yīng)用于各種不同的領(lǐng)域,包括兒科和老年患者的護(hù)理、慢性病的監(jiān)測、個(gè)人健康的管理等[35]。 如Dabek 和Caban[36]針對(duì)89 840 名患者的數(shù)據(jù)集分析神經(jīng)網(wǎng)絡(luò)模型的有效性,結(jié)果表明總體準(zhǔn)確率可以達(dá)到82.35%,可以預(yù)測出現(xiàn)心理狀況的可能性,如焦慮、行為障礙、抑郁和創(chuàng)傷后應(yīng)激障礙;Nambisan 等[37]發(fā)現(xiàn),發(fā)布在社交媒體上 的信息可以用來篩查和檢測抑郁。 因此,將大數(shù)據(jù)用于衛(wèi)生保健中不僅可以使得衛(wèi)生保健系統(tǒng)得以更加完善,還能使醫(yī)療資源得到高效的利用,減少醫(yī)療資源的浪費(fèi),節(jié)約醫(yī)療資源。
把大數(shù)據(jù)應(yīng)用于醫(yī)藥衛(wèi)生行業(yè)是十分有必要的。公共衛(wèi)生是居民健康的重要基礎(chǔ)和保障,將采集到的各種數(shù)據(jù)資源連同其他相關(guān)數(shù)據(jù)形成公共衛(wèi)生大數(shù)據(jù),發(fā)揮好這些數(shù)據(jù)的應(yīng)用,不僅可以帶來巨大的經(jīng)濟(jì)價(jià)值和社會(huì)效益,而且在傳染病的預(yù)測、食源性疾病的危險(xiǎn)因素分析、 慢性病的管理和診斷以及公眾的衛(wèi)生保健等方面也可以帶來巨大的效益,如改善人們的認(rèn)知功能、心理健康和生活方式等。