馬天有,胡 曦, 王麗娜,杜建強(qiáng),吳曉明*
(1. 環(huán)境與疾病相關(guān)基因教育部重點(diǎn)實(shí)驗(yàn)室(西安交通大學(xué)),西安710061;2. 生物醫(yī)學(xué)信息工程教育部重點(diǎn)實(shí)驗(yàn)室(西安交通大學(xué)),西安710049)
目前健康相關(guān)的檢測(cè)和測(cè)試手段,產(chǎn)生了大量數(shù)據(jù),這些數(shù)據(jù)包括來(lái)自醫(yī)院的門(mén)診和臨床數(shù)據(jù)、家庭小型便攜式設(shè)備的檢測(cè)監(jiān)護(hù)數(shù)據(jù)、醫(yī)療保險(xiǎn)機(jī)構(gòu)的就醫(yī)數(shù)據(jù),可穿戴設(shè)備產(chǎn)生的個(gè)人健康數(shù)據(jù)、以及來(lái)自公共平臺(tái)的人口、微生物分布、食品保健、產(chǎn)品銷(xiāo)售等信息。這些信息能從不同角度對(duì)公共衛(wèi)生相關(guān)情況進(jìn)行呈現(xiàn)。通過(guò)利用并開(kāi)發(fā)合適的數(shù)據(jù)處理和挖掘方法,能發(fā)現(xiàn)公共衛(wèi)生數(shù)據(jù)中隱含的信息,并形成指導(dǎo)改善公共健康的方案和措施。但是由于信息的多元化和不確定性,此類(lèi)數(shù)據(jù)如何進(jìn)行有效利用,需要政策、技術(shù)、資金、算法、數(shù)據(jù)管理等多方面的支撐。
通訊網(wǎng)絡(luò)不斷深入到日常生活,將成為獲取和傳播公共衛(wèi)生數(shù)據(jù)的重要手段。對(duì)其進(jìn)行合理利用,可將信息采集功能拓展到更廣泛的領(lǐng)域,也有助于提高傳染病、突發(fā)事件監(jiān)測(cè)的準(zhǔn)確性,以便科學(xué)合理地實(shí)現(xiàn)快速響應(yīng),降低疾病和公共衛(wèi)生事件的危害。基因數(shù)據(jù)和健康數(shù)據(jù)涉及生命活動(dòng)機(jī)理,對(duì)其進(jìn)行挖掘和分析,也可以提供更為準(zhǔn)確的風(fēng)險(xiǎn)評(píng)估及個(gè)體化干預(yù)措施,人們可就此改變不良生活習(xí)慣,減少危險(xiǎn)因素[1]。進(jìn)行公共衛(wèi)生數(shù)據(jù)分析將在健康領(lǐng)域發(fā)揮重要作用。本文對(duì)公共衛(wèi)生大數(shù)據(jù)研究的方法、技術(shù)和前景進(jìn)行探討,認(rèn)為需要從政策、人才、硬件等方面形成支持,同時(shí)對(duì)數(shù)據(jù)進(jìn)行收集、管理、分析和挖掘,最終形成個(gè)人和社會(huì)的受益。
用于公共衛(wèi)生研究的數(shù)據(jù)有非常廣泛的來(lái)源,它們互相補(bǔ)充,相互支撐,能體現(xiàn)群體性健康問(wèn)題的各種特征,數(shù)據(jù)的種類(lèi)可以包括以下幾方面:
1)醫(yī)療數(shù)據(jù)。醫(yī)療機(jī)構(gòu)擁有患者個(gè)人的多種信息,其中的臨床數(shù)據(jù)是和個(gè)人健康密切相關(guān)的信息。當(dāng)作為整體進(jìn)行考察時(shí),能夠體現(xiàn)同大規(guī)模公共衛(wèi)生事件相關(guān)的信息。隨著中國(guó)推進(jìn)分級(jí)診療和家庭醫(yī)生簽約服務(wù),家庭醫(yī)生更能夠?qū)颊哌M(jìn)行健康監(jiān)測(cè),形成健康數(shù)據(jù),會(huì)成為公共衛(wèi)生數(shù)據(jù)的重要源頭。
2)家庭護(hù)理和便攜式設(shè)備檢測(cè)數(shù)據(jù)。家用智能健康測(cè)量裝置均可產(chǎn)生和記錄健康相關(guān)數(shù)據(jù)。一些產(chǎn)品已經(jīng)面市,包括智能體重秤、藍(lán)牙血糖儀、電子血壓計(jì)等。智能手環(huán)、計(jì)步器、專(zhuān)門(mén)測(cè)量呼吸的運(yùn)動(dòng)背心等,也可產(chǎn)生大量健康數(shù)據(jù)。如WellDoc公司研發(fā)的基于手機(jī)App和云端大數(shù)據(jù)的糖尿病管理平臺(tái),是獲得美國(guó)食品和藥品管理局批準(zhǔn)的手機(jī)應(yīng)用,用戶(hù)可以通過(guò)手機(jī)實(shí)時(shí)記錄、存儲(chǔ)和利用糖尿病數(shù)據(jù)。通過(guò)進(jìn)行實(shí)時(shí)挖掘分析,可為患者提供個(gè)性化反饋,指導(dǎo)患者進(jìn)行改變生活方式,并為醫(yī)生的診療提供有效依據(jù)[1-2]。這些數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大、種類(lèi)繁多,但準(zhǔn)確性較差,需進(jìn)行有效的校準(zhǔn)和過(guò)濾方可使用。
3)地理信息數(shù)據(jù)。由于公共衛(wèi)生數(shù)據(jù)大都具有空間屬性,進(jìn)行大數(shù)據(jù)分析時(shí)也常結(jié)合地理信息系統(tǒng)(GIS)來(lái)分析研究其空間特征和規(guī)律[3]。通過(guò)結(jié)合地理位置、行政區(qū)域、氣象條件等,數(shù)據(jù)的空間特點(diǎn)可以進(jìn)一步體現(xiàn)。
4)生物醫(yī)學(xué)數(shù)據(jù)庫(kù)和政府基礎(chǔ)平臺(tái)?;ヂ?lián)網(wǎng)的各類(lèi)公共生物數(shù)據(jù)庫(kù)提供了有關(guān)生物分子、微生物分類(lèi)等的詳細(xì)信息[4]。中國(guó)最新建設(shè)的“國(guó)家人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)”(http://www.ncmi.cn/1),也已經(jīng)包含237個(gè)數(shù)據(jù)集,數(shù)據(jù)量達(dá)到49.1 TB,覆蓋包括生物醫(yī)學(xué)、基礎(chǔ)醫(yī)學(xué)、臨床、公共衛(wèi)生、中醫(yī)藥學(xué)、藥學(xué)、人口與生殖健康七大類(lèi),將帶動(dòng)生物醫(yī)學(xué)數(shù)據(jù)資源整合與共享,為實(shí)現(xiàn)健康中國(guó)2030年的戰(zhàn)略目標(biāo)發(fā)揮作用。
5)其他數(shù)據(jù)。氣象、輿情、疫情、農(nóng)作物和食品安全等數(shù)據(jù),均可用于公共衛(wèi)生研究。未來(lái),數(shù)據(jù)的種類(lèi)和數(shù)量將會(huì)繼續(xù)增加。事實(shí)上,所有可用于進(jìn)行公共衛(wèi)生狀況分析的數(shù)據(jù),都應(yīng)該被考慮,并被廣泛收集,從而形成全面的數(shù)據(jù)支撐。但是,這些數(shù)據(jù)存在非常高的異質(zhì)性,數(shù)據(jù)中有價(jià)值信息少,含金量不高,需要采用合適的數(shù)據(jù)管理和分析方法才能夠達(dá)到對(duì)數(shù)據(jù)的有效利用。
當(dāng)數(shù)據(jù)不斷的被收集整理之后,隨之而來(lái)產(chǎn)生了對(duì)大數(shù)據(jù)管理的軟硬件系統(tǒng)和管理模式的需求,而數(shù)據(jù)的復(fù)雜性為有效解決這個(gè)問(wèn)題提出新的挑戰(zhàn)。圖1是進(jìn)行公共衛(wèi)生大數(shù)據(jù)分析研究的典型框架。公共衛(wèi)生大數(shù)據(jù)來(lái)源廣泛,其種類(lèi)和格式也在隨技術(shù)進(jìn)步不斷變化,數(shù)據(jù)規(guī)模均不相同,需要開(kāi)發(fā)相應(yīng)的存取技術(shù)和數(shù)據(jù)管理方式。傳統(tǒng)數(shù)據(jù)庫(kù)MySQL,新型非關(guān)系化數(shù)據(jù)庫(kù)Mongodb,內(nèi)存數(shù)據(jù)庫(kù)TimesTen等,能夠在一定程度上對(duì)數(shù)據(jù)進(jìn)行管理,但當(dāng)數(shù)據(jù)規(guī)模和種類(lèi)更大時(shí),需要分布式數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)。目前的技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)的管理,例如支持淘寶的Oceanbase,能夠管理數(shù)百T的數(shù)據(jù),但需要多臺(tái)服務(wù)器,成本高昂。對(duì)數(shù)據(jù)管理的瓶頸是數(shù)據(jù)的異質(zhì)性,不同類(lèi)型的數(shù)據(jù)需要有針對(duì)性的過(guò)濾、導(dǎo)入、檢索模塊,通過(guò)合適的接口,把數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)的形式,對(duì)軟件開(kāi)發(fā)提出了很高的要求。
生物領(lǐng)域有多種實(shí)驗(yàn)數(shù)據(jù),已經(jīng)有完備的數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行數(shù)據(jù)管理,也提供給公眾進(jìn)行免費(fèi)訪(fǎng)問(wèn)和數(shù)據(jù)檢索,它們能對(duì)公共衛(wèi)生數(shù)據(jù)的管理和應(yīng)用提供借鑒。例如,許多生物數(shù)據(jù)庫(kù)提供數(shù)據(jù)分析功能。利用NCBI的blast(ncbi.nlm.nih.gov/blast/)能夠進(jìn)行序列比對(duì)和檢索,Lynx等數(shù)據(jù)庫(kù)提供富集分析等功能,Reactome提供網(wǎng)絡(luò)可視化功能[5],UCSC Xena(http://xena.ucsc.edu/)也提供針對(duì)多種臨床數(shù)據(jù)結(jié)合基因數(shù)據(jù)的分析方法。廣泛的生物數(shù)據(jù)庫(kù)形成了解讀生命活動(dòng)規(guī)律的知識(shí)庫(kù),對(duì)于公共衛(wèi)生數(shù)據(jù)分析提供的重要支撐。同時(shí),生物數(shù)據(jù)庫(kù)也正在走向廣泛集成和存貯、分析并重的方向,其技術(shù)手段和分析流程也為公共衛(wèi)生數(shù)據(jù)分析提供借鑒。
圖1 公共衛(wèi)生大數(shù)據(jù)研究框架及其應(yīng)用Fig.1 Framework of public health big data research and its application
通過(guò)數(shù)據(jù)挖掘能獲取數(shù)據(jù)中和公共衛(wèi)生相關(guān)的信息,而分析方法的選擇對(duì)于獲取有效結(jié)果非常關(guān)鍵。傳統(tǒng)的統(tǒng)計(jì)學(xué)手段將繼續(xù)發(fā)揮重要作用,而基于機(jī)器學(xué)習(xí)和人工智能的方法,能夠包容多種不同的數(shù)據(jù)形式,并形成對(duì)數(shù)據(jù)的深度分析?;谏窠?jīng)網(wǎng)絡(luò)、HMM模型、動(dòng)態(tài)規(guī)劃、貝葉斯推斷、隨機(jī)森林的分析方法,也普遍應(yīng)用于醫(yī)療、衛(wèi)生數(shù)據(jù)的分析[6-7]。這也對(duì)軟件開(kāi)發(fā)、計(jì)算資源的使用提出了更高的要求。
網(wǎng)絡(luò)是對(duì)復(fù)雜系統(tǒng)建模的基本工具[8]。公共衛(wèi)生中的數(shù)據(jù)可以通過(guò)網(wǎng)絡(luò)進(jìn)行表示,利用網(wǎng)絡(luò)模塊識(shí)別技術(shù),可找出模塊之間的關(guān)聯(lián),并發(fā)現(xiàn)普遍存在于復(fù)雜系統(tǒng)中的高階信息組織和協(xié)調(diào)方式,非常適合對(duì)流行病傳播等公共衛(wèi)生問(wèn)題進(jìn)行描述。
公共衛(wèi)生數(shù)據(jù)往往涉及不同來(lái)源、不同類(lèi)型的數(shù)據(jù),而異構(gòu)圖(heterogeneous graph)、貝葉斯網(wǎng)絡(luò)(Bayesian network)等可以表示不同信息之間的聯(lián)系。通過(guò)圖的挖掘、聚類(lèi)、排序、分割、可視化,可以對(duì)不同類(lèi)型的公共衛(wèi)生數(shù)據(jù)進(jìn)行融合分析,獲取傳統(tǒng)方法難以得到結(jié)果[9]。
研究表明,通過(guò)大數(shù)據(jù)分析,發(fā)現(xiàn)傳統(tǒng)體檢數(shù)據(jù)包含同心血管疾病,死亡率相關(guān)信息,而智能工具可作為評(píng)估總體健康狀況的手段[10];利用谷歌趨勢(shì)搜索(trends.google.com),根據(jù)各地區(qū)感染病例情況建立動(dòng)態(tài)預(yù)測(cè)模型,可以對(duì)zika病毒的傳播進(jìn)行預(yù)測(cè)和防范[11]。
在2014年的Ebola疫情控制中,專(zhuān)家利用流行病學(xué)數(shù)據(jù)建立了相關(guān)模型,預(yù)測(cè)了Ebola疫情的嚴(yán)重后果[12-13]。同時(shí),人工智能、機(jī)器學(xué)習(xí)被證明非常具有潛力。谷歌的深度網(wǎng)平臺(tái)TensorFlow 已在醫(yī)學(xué)影像識(shí)別和疾病判斷方面取得很好的成果,甚至能夠輔助臨床診斷[14],在多個(gè)研究中發(fā)揮作用。通過(guò)設(shè)定場(chǎng)景模式,新的公共衛(wèi)生大數(shù)據(jù)分析方法將借助人工智能平臺(tái)而出現(xiàn)。
公共衛(wèi)生大數(shù)據(jù)分析也需要大量的計(jì)算資源,可從3個(gè)層次進(jìn)行配置。
1)傳統(tǒng)的以云計(jì)算、分布存儲(chǔ)和高性能計(jì)算為主體的計(jì)算平臺(tái)。這種方式通過(guò)增加硬件,以及軟件虛擬化的技術(shù),管理大規(guī)模計(jì)算資源,提供分析和計(jì)算服務(wù)。目前的大數(shù)據(jù)處理平臺(tái)和工具中,MapReduce提供計(jì)算的分解和整合,Hadoop提供可擴(kuò)展的平臺(tái)支持,HDFS技術(shù)提供分布式的大數(shù)據(jù)存儲(chǔ),Hive提供數(shù)據(jù)庫(kù)的分布式管理和檢索。此種平臺(tái)的優(yōu)點(diǎn)是適用性好、技術(shù)成熟、軟件配置靈活。缺點(diǎn)是成本高、能耗高。
2)專(zhuān)門(mén)硬件的使用?;贕PU、FPGA的專(zhuān)門(mén)硬件,在一個(gè)芯片上可以部署上千計(jì)算單元或邏輯電路,能夠大大加速計(jì)算過(guò)程,對(duì)于需要進(jìn)行反復(fù)迭代、包含大量簡(jiǎn)單操作的計(jì)算而言,是最佳的選擇,其優(yōu)點(diǎn)是性能高、成本低、能耗低,缺點(diǎn)是開(kāi)發(fā)難度大、適用范圍窄,適合對(duì)特定問(wèn)題的解決。目前已經(jīng)有專(zhuān)門(mén)芯片,進(jìn)行癲癇的及時(shí)預(yù)測(cè)[15]。在生物信息領(lǐng)域,基于FPGA的技術(shù)在序列比對(duì)方面,也顯示出功耗低、速度快的特點(diǎn)[16]。更多的專(zhuān)門(mén)芯片也將會(huì)有越來(lái)越多的應(yīng)用于醫(yī)療和公共衛(wèi)生方面。
3)超級(jí)計(jì)算及下一代計(jì)算技術(shù)。大規(guī)模的并行計(jì)算能夠成倍的提高計(jì)算速度,實(shí)現(xiàn)海量數(shù)據(jù)存貯,使大規(guī)模的數(shù)據(jù)處理成為可能。中國(guó)開(kāi)發(fā)的天河二號(hào)由16 000個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有2顆Xeon處理器和3個(gè)Xeon Phi處理器。持續(xù)計(jì)算速度每秒3.39億億次雙精度浮點(diǎn)運(yùn)算。2016年6月,使用中國(guó)自主芯片“SW26010”制造的“神威太湖之光”,包含40 960個(gè)處理器,浮點(diǎn)運(yùn)算速度為每秒9.3億億次,取代天河二號(hào)登上超算榜首。這些計(jì)算能力足以同時(shí)處理大量數(shù)據(jù)。在超算平臺(tái),許多難以求解的問(wèn)題都可以得到快速處理,通過(guò)并行的方式,實(shí)現(xiàn)高復(fù)雜度問(wèn)題的求解。
移動(dòng)互聯(lián)網(wǎng)目前已經(jīng)有很大的覆蓋面,骨干互聯(lián)網(wǎng)也已經(jīng)實(shí)現(xiàn)高速的互聯(lián)互通,為多種公共衛(wèi)生大數(shù)據(jù)的收集提供技術(shù)支持。借助物聯(lián)網(wǎng)技術(shù),各種便攜式終端、嵌入式設(shè)備借助低功耗通訊技術(shù),可以實(shí)現(xiàn)地理區(qū)域大跨度、長(zhǎng)時(shí)間的數(shù)據(jù)采集和獲取。
大數(shù)據(jù)分析可從兩個(gè)維度實(shí)現(xiàn)。一是計(jì)算機(jī)的角度,利用計(jì)算能力和人工智能,進(jìn)行數(shù)據(jù)分析處理。另一維度以人作為分析主體,進(jìn)行人機(jī)交互,將人所具備的認(rèn)知能力融入分析過(guò)程中[17]。此時(shí),數(shù)據(jù)的交互可視化尤為重要。基于網(wǎng)絡(luò),可通過(guò)瀏覽器收集用戶(hù)分析需求,利用后臺(tái)服務(wù)器實(shí)現(xiàn)分析結(jié)果,然后通過(guò)可視化界面顯示給用戶(hù),實(shí)現(xiàn)交互處理和分析,大大提高獲取分析結(jié)果的效率。HTML5包含有豐富的網(wǎng)頁(yè)對(duì)象表示方式,獲得了廣泛的支持,為網(wǎng)絡(luò)應(yīng)用的開(kāi)發(fā)提供了很好的支持。PHP(hypertext preprocessor)超文本處理程序,能實(shí)現(xiàn)數(shù)據(jù)庫(kù)處理,響應(yīng)用戶(hù)請(qǐng)求。AJAX(asynchronous JavaScript and XML)能實(shí)現(xiàn)網(wǎng)頁(yè)和服務(wù)器之間的交互操作,并能達(dá)到實(shí)時(shí)響應(yīng)的效果。借助D3.js,vis.js,CartoDB等工具能夠增強(qiáng)數(shù)據(jù)的可視化效果,可以形成的顯示方式包括層次數(shù)據(jù)、空間映射、時(shí)變數(shù)據(jù)、地理信息、空間標(biāo)量等,凸顯分析結(jié)果。R、Python能夠?qū)崿F(xiàn)多種數(shù)據(jù)的統(tǒng)計(jì)分析,是服務(wù)器端分析程序的最佳選擇,這些技術(shù)的綜合運(yùn)行,能形成基于網(wǎng)絡(luò)的可視化。
生物信息領(lǐng)域的可借鑒平臺(tái)是Galaxy,它實(shí)現(xiàn)基于網(wǎng)絡(luò)的數(shù)據(jù)分析過(guò)程人機(jī)交互,大大方便了數(shù)據(jù)分析流程[18]。Biomart數(shù)據(jù)庫(kù)平臺(tái)本身提供數(shù)據(jù)分析服務(wù),同時(shí)能夠連接多個(gè)后臺(tái)數(shù)據(jù)庫(kù),提供隔離的訪(fǎng)問(wèn);Ensemble包含基因組信息也提供了互聯(lián)網(wǎng)服務(wù)器,利用標(biāo)準(zhǔn)SQL語(yǔ)句實(shí)現(xiàn)數(shù)據(jù)訪(fǎng)問(wèn)。對(duì)于公共衛(wèi)生數(shù)據(jù),此類(lèi)數(shù)據(jù)管理方法仍舊可行。通過(guò)開(kāi)發(fā)公共衛(wèi)生數(shù)據(jù)處理模塊和網(wǎng)絡(luò)分析接口,用戶(hù)可以自行選擇分析模塊,組建分析流程,實(shí)現(xiàn)交互式的數(shù)據(jù)分析,將會(huì)極大的推進(jìn)公共衛(wèi)生大數(shù)據(jù)的分析和應(yīng)用。
數(shù)據(jù)之間的聯(lián)系,有些通過(guò)專(zhuān)業(yè)知識(shí)可被推理和演繹,揭示隱含信息,因此,把已知知識(shí)融合到數(shù)據(jù)分析中非常有效,但也具有相當(dāng)大的挑戰(zhàn)。針對(duì)公共衛(wèi)生領(lǐng)域,宏觀(guān)的疾病流行程度、群體健康狀況,針對(duì)個(gè)體的體檢指標(biāo)、精神、心理、慢性病數(shù)據(jù)等,都需要用專(zhuān)業(yè)的術(shù)語(yǔ)和特定的統(tǒng)計(jì)方式進(jìn)行表示。在生物信息領(lǐng)域,許多知識(shí)已經(jīng)整理和校對(duì),形成基礎(chǔ)知識(shí)庫(kù),并利用生物信息的方法進(jìn)行表示和處理。例如KEGG和Reactome都包含代謝網(wǎng)絡(luò)等分子互作信息,利用網(wǎng)絡(luò)的形式表示分子之間聯(lián)系的生物學(xué)知識(shí);Uniprot包含有已知蛋白質(zhì)的修飾、結(jié)構(gòu)域知識(shí),這些基礎(chǔ)為生命科學(xué)研究提供了重要支撐。作為類(lèi)比,公共衛(wèi)生領(lǐng)域有藥品分類(lèi)信息等,ICD10分類(lèi)系統(tǒng)(http://www.icd10data.com/),MeSH醫(yī)學(xué)主題詞系統(tǒng)(https://www.nlm.nih.gov/mesh/),但此類(lèi)知識(shí)庫(kù)還非常少。當(dāng)分析結(jié)果能夠同專(zhuān)業(yè)知識(shí)庫(kù)結(jié)合時(shí),才能達(dá)到對(duì)公共衛(wèi)生信息的最佳應(yīng)用,因此構(gòu)建公共衛(wèi)生知識(shí)庫(kù)將是重要的發(fā)展領(lǐng)域。
2017年5月,勒索病毒W(wǎng)annaCry 利用微軟SMB服務(wù)漏洞(MS17-010)開(kāi)始在全球大范圍傳播,充分說(shuō)明網(wǎng)絡(luò)安全的重要性。云平臺(tái)相對(duì)于個(gè)人計(jì)算機(jī),安全性有非常大的提高,但由于操作系統(tǒng)的漏洞不能被全部檢測(cè)出來(lái),因此未知漏洞的防范,已知漏洞的修補(bǔ),以及安全措施的設(shè)置都是非常關(guān)鍵的。而大數(shù)據(jù)的4V(大數(shù)據(jù)量、高速、多樣性、真實(shí)性)和1C(復(fù)雜性)特征,在公共衛(wèi)生領(lǐng)域同樣存在,新的措施和方法應(yīng)該被開(kāi)發(fā)出來(lái)消除安全威脅與挑戰(zhàn)。
采用Linux平臺(tái)能夠有更好的安全措施,但更重要的是需要對(duì)安全有高度的認(rèn)識(shí)。中國(guó)《網(wǎng)絡(luò)安全法》于2017年6月1日起施行,對(duì)網(wǎng)絡(luò)運(yùn)行安全提出了要求,對(duì)網(wǎng)絡(luò)信息安全提出了規(guī)定,對(duì)違反法規(guī)的各類(lèi)行為提出了懲治措施,這也從法律上實(shí)現(xiàn)了數(shù)據(jù)安全。
與此同時(shí),在進(jìn)行科研數(shù)據(jù)共享之前,需要執(zhí)行個(gè)人信息的去隱私,保證個(gè)人及家庭的數(shù)據(jù)信息安全。其思路是對(duì)每個(gè)數(shù)據(jù)集提供唯一標(biāo)識(shí),并為數(shù)據(jù)提供者創(chuàng)立數(shù)字認(rèn)證。對(duì)于個(gè)人數(shù)據(jù),需要移除姓名地址等關(guān)鍵信息,實(shí)現(xiàn)個(gè)人隱私安全。只有能夠全面保護(hù)個(gè)人隱私,才能更好的實(shí)現(xiàn)數(shù)據(jù)的共享和利用。
公共衛(wèi)生大數(shù)據(jù)分析可以服務(wù)于多個(gè)不同的方向,為公眾衛(wèi)生水平的提升提供技術(shù)指導(dǎo)和數(shù)據(jù)支持??深A(yù)見(jiàn)的應(yīng)用體現(xiàn)在以下方面。
通過(guò)對(duì)大量數(shù)據(jù)的分析,能夠?qū)膊×餍小l(fā)展情況進(jìn)行評(píng)估和預(yù)測(cè)。研究表明,2015年,全球范圍內(nèi)11.5%的死亡原因可歸咎于吸煙,而其中52.2%的死亡發(fā)生在中國(guó)、印度、美國(guó)、俄羅斯等4個(gè)國(guó)家。控?zé)熌墚a(chǎn)生很好的效果,但也需要全球各個(gè)國(guó)家的共同努力[19]。心血管疾病中,高血壓是重要的因素,而體質(zhì)指數(shù)升高、體力活動(dòng)減少都是重要誘因。而飲食結(jié)構(gòu)和生活方式改變、快速城市化和工業(yè)化則可能是導(dǎo)致中國(guó)心血管病劇增的因素[20]。這些結(jié)果為制定相關(guān)的應(yīng)對(duì)措施提供重要支撐。
2013出現(xiàn)的H7N9流感病毒包含的氨基酸突變,具有哺乳動(dòng)物的受體結(jié)合能力。通過(guò)對(duì)病毒傳播的監(jiān)測(cè),以及對(duì)序列進(jìn)行的進(jìn)化分析表明,該病毒可能始于家鴨H7病毒,并同H9N2病毒株發(fā)生重組,進(jìn)而發(fā)生廣泛的傳播[21]。實(shí)際上,病毒傳播之前,會(huì)有一些線(xiàn)索在各個(gè)層次顯示出來(lái),例如在小范圍內(nèi)會(huì)形成病例增加等現(xiàn)象。應(yīng)用大數(shù)據(jù)技術(shù)分析活禽交易網(wǎng)絡(luò)數(shù)據(jù),結(jié)合H7N9毒株的血凝素基因核酸序列構(gòu)建系統(tǒng)進(jìn)化樹(shù),可推斷禽流感疫情在各省及城市間的傳播情況,具有較高的應(yīng)用價(jià)值[22]。通過(guò)進(jìn)行大尺度傳染疾病的實(shí)時(shí)監(jiān)控統(tǒng)計(jì),實(shí)現(xiàn)時(shí)、空、事件類(lèi)別的大數(shù)據(jù)分析好實(shí)時(shí)監(jiān)控,能及時(shí)提出疫情預(yù)報(bào),進(jìn)而可采取補(bǔ)救措施,分析流行原因,切斷傳播途徑。
通過(guò)公共衛(wèi)生大數(shù)據(jù)分析,能夠提前預(yù)知特定疾病發(fā)生、流行的規(guī)律,這樣就能有效識(shí)傳播規(guī)律,進(jìn)行有效防治。寨卡病毒被認(rèn)為是伊蚊傳播,引起新生兒小頭畸形。通過(guò)防止蚊子叮咬、去除蚊蟲(chóng)滋生環(huán)境可以進(jìn)行有效防控。大骨節(jié)病是典型的具有地域特點(diǎn)的慢性病,通過(guò)對(duì)遺傳因素、地理環(huán)境、飲食結(jié)構(gòu)、基因表達(dá)等多層次的研究,識(shí)別疾病誘因,可對(duì)該病的防治提供科學(xué)有益的指導(dǎo)[23-24]。
飲食習(xí)慣、生活環(huán)境會(huì)對(duì)群體的健康有很大影響,通過(guò)大數(shù)據(jù)分析,可識(shí)別影響疾病健康的主要因素。銀屑病患者具有較高的代謝病發(fā)生率,代謝情況改變同該疾病的病因和治療、癥狀密切相關(guān),不良生活習(xí)慣,如吸煙、運(yùn)動(dòng)減少、 肥胖等會(huì)增加伴發(fā)代謝綜合征的概率以及銀屑病的病情,導(dǎo)致惡性循環(huán)。通過(guò)對(duì)代謝譜的檢測(cè),發(fā)現(xiàn)了同疾病相關(guān)的差異血清代謝譜,提示在治療的同時(shí),通過(guò)改善飲食結(jié)構(gòu)、生活習(xí)慣可減緩疾病的癥狀[25]。通過(guò)大數(shù)據(jù)分析,不僅能識(shí)別疾病的相關(guān)因素,還能識(shí)別改善措施的效果。AD(老年性癡呆)會(huì)隨著年齡增長(zhǎng)而風(fēng)險(xiǎn)增加。通過(guò)對(duì)藏族人群AD疾病狀態(tài)的統(tǒng)計(jì)和分析,發(fā)現(xiàn)藏族特有的宗教行為,包括磕長(zhǎng)頭、念經(jīng)、撥念珠等都是AD患病的保護(hù)因素。這些活動(dòng)在增加了精細(xì)運(yùn)動(dòng)和整體運(yùn)動(dòng)的強(qiáng)度,使大腦得到了鍛煉,加強(qiáng)了神經(jīng)元之間的聯(lián)系[26]。每年有56萬(wàn)人因不吃水果而死于心血管病,其中20萬(wàn)人在70歲前死亡。研究人員對(duì)45萬(wàn)中國(guó)健康人進(jìn)行了跟蹤隨訪(fǎng),發(fā)現(xiàn)每天都吃水果的人不但血壓和血糖較低,而且得心血管病的人也較少[27]。這些結(jié)果使本文有信心對(duì)公共衛(wèi)生大數(shù)據(jù)進(jìn)行深入挖掘以識(shí)別有效的健康保護(hù)因素。
個(gè)人的健康狀況影響因素被識(shí)別出來(lái)后,就可以采取措施,實(shí)現(xiàn)更好的健康管理,減少醫(yī)療花費(fèi),提高生活水平。大規(guī)模數(shù)據(jù)監(jiān)測(cè)有助于制定合理的措施來(lái)保護(hù)公共健康。1999年的全國(guó)碘營(yíng)養(yǎng)監(jiān)測(cè)結(jié)果發(fā)現(xiàn),兒童尿碘水平為306 μg/L,處于偏高水平。2000年中國(guó)將生產(chǎn)環(huán)節(jié)的碘含量出廠(chǎng)不低于40 mg/kg下調(diào)為平均35 mg/kg。這樣既能向人群提供足夠的碘,又把副作用的危險(xiǎn)性降至最低水平。缺碘和富碘都會(huì)導(dǎo)致甲狀腺疾病,沿海地區(qū)和內(nèi)地的膳食中碘攝入量也不同,隨著經(jīng)濟(jì)社會(huì)的不斷發(fā)展,讓民眾在知情的前提下進(jìn)行自由選擇,是防治碘缺乏病的有力手段。
代謝是非常關(guān)鍵的生命活動(dòng),許多疾病同攝入食品的成分密切相關(guān),糖尿病人不宜多吃甜食是眾所周知的,但其他代謝成分對(duì)人體的健康并不為人所知。不同食物的成分和存在的化合物對(duì)于慢性病干預(yù)和膳食指導(dǎo)也非常關(guān)鍵;當(dāng)涉及到食品安全問(wèn)題時(shí)候,比如人們攝入被污染或者農(nóng)藥殘留超標(biāo)的食品,將會(huì)導(dǎo)致各種急性和慢性疾病。通過(guò)大數(shù)據(jù)的分析,能夠及時(shí)發(fā)現(xiàn)和個(gè)人健康相關(guān)的影響因素,減少環(huán)境因素對(duì)身體產(chǎn)生的影響,能及時(shí)挖掘到營(yíng)養(yǎng)素與慢性病之間的關(guān)系,及早預(yù)防慢性病。
當(dāng)前公共衛(wèi)生大數(shù)據(jù)的更廣泛應(yīng)用還面臨很多問(wèn)題需要解決,主要體現(xiàn)在以下方面。
1)數(shù)據(jù)收集。數(shù)據(jù)的碎片化形式和數(shù)據(jù)的混雜性特征是數(shù)據(jù)收集的重要困難。例如,在進(jìn)行疾病研究時(shí),生存時(shí)間是評(píng)價(jià)治療效果的重要指標(biāo)。然而病人的復(fù)查信息或身體狀態(tài)信息往往難以被傳遞到相應(yīng)機(jī)構(gòu),導(dǎo)致隨訪(fǎng)數(shù)據(jù)缺失;有些數(shù)據(jù)需進(jìn)行提取或格式轉(zhuǎn)換才能用于公共衛(wèi)生研究,而這時(shí)往往缺失統(tǒng)一標(biāo)準(zhǔn),也難以采用自動(dòng)化的處理方式,導(dǎo)致數(shù)據(jù)獲取效率低下。智能軟件的應(yīng)用會(huì)在數(shù)據(jù)收集方面提供幫助。
2)隱私保護(hù)和數(shù)據(jù)共享。通常需要合并多個(gè)機(jī)構(gòu)的不同數(shù)據(jù)進(jìn)行分析,才能獲得有效結(jié)果,而不同機(jī)構(gòu)的數(shù)據(jù)格式和內(nèi)容往往不一致,個(gè)人信息通常也不能夠被全面獲取,同時(shí)也難以確定隱私保護(hù)的方案。這導(dǎo)致?lián)碛袛?shù)據(jù)的機(jī)構(gòu)難以進(jìn)行數(shù)據(jù)分享以及進(jìn)一步的數(shù)據(jù)分析。更高程度的信息化有助于這一問(wèn)題的解決。
3)分析方案的選擇和實(shí)現(xiàn)。數(shù)據(jù)之間有千絲萬(wàn)縷的聯(lián)系,但只有通過(guò)合適的分析、統(tǒng)計(jì)才能夠揭示這些聯(lián)系。采用SIR模型,能夠描述一個(gè)小區(qū)域內(nèi)某種流行病感染人數(shù)的比例。通過(guò)結(jié)合疾病傳播模型,流行病在更大范圍的發(fā)作情況就能夠得到預(yù)測(cè)[28];利用全球的手術(shù)數(shù)據(jù),也可以預(yù)測(cè)哪些地方對(duì)何種外科手術(shù)有需求,以便制定政策和措施,以滿(mǎn)足外科手術(shù)治療需求[29]。其他學(xué)科中數(shù)據(jù)分析方法的引入和借鑒,是解決不同類(lèi)型公共衛(wèi)生大數(shù)據(jù)分析問(wèn)題的一個(gè)重要途徑。隨著超算和云計(jì)算技術(shù)的應(yīng)用,許多占用資源多,耗機(jī)時(shí)多的方案也能夠不斷被應(yīng)用于公共衛(wèi)生領(lǐng)域。
公共衛(wèi)生是居民健康的重要基礎(chǔ)和保障。采集到的各種數(shù)據(jù)資源,連同其他相關(guān)數(shù)據(jù),形成公共衛(wèi)生大數(shù)據(jù),發(fā)揮好這些數(shù)據(jù)的應(yīng)用,將產(chǎn)生巨大的社會(huì)效益。目前科技的進(jìn)步正在以全所未有的速度進(jìn)展,新技術(shù)和方法的應(yīng)用,會(huì)不斷形成新的成果,覆蓋多種公共衛(wèi)生相關(guān)疾病的預(yù)警、傳播源和傳播途徑的識(shí)別。隨著人工智能,機(jī)器學(xué)習(xí)等技術(shù)的進(jìn)步,加上對(duì)健康方面知識(shí)的積累,以及人們對(duì)健康的重視,在提高人們健康水平方面,公共衛(wèi)生領(lǐng)域大數(shù)據(jù)的應(yīng)用將越來(lái)越廣泛。
在進(jìn)行公共衛(wèi)生大數(shù)據(jù)應(yīng)用時(shí),需開(kāi)發(fā)科學(xué)合理的模型、進(jìn)行挖據(jù),通過(guò)提出假設(shè)發(fā)現(xiàn)新問(wèn)題,并利用數(shù)據(jù)進(jìn)行推理,獲取隱藏在數(shù)據(jù)中的規(guī)律,為最終決策提供支持。但在進(jìn)行此類(lèi)研究時(shí)候,要充分認(rèn)識(shí)到原始數(shù)據(jù)的異構(gòu)性、多樣性,數(shù)據(jù)中干擾因素的存在,以及實(shí)現(xiàn)最終應(yīng)用的復(fù)雜性和挑戰(zhàn)性。
開(kāi)展公共衛(wèi)生大數(shù)據(jù)的解讀分析,需要既懂公共衛(wèi)生又懂?dāng)?shù)據(jù)分析的“雙能”人才。中國(guó)人口眾多、地域廣闊、待解決的問(wèn)題多樣、復(fù)雜,急需進(jìn)行問(wèn)題的提煉和解決,培養(yǎng)人才隊(duì)伍相當(dāng)關(guān)鍵。
可以看到,實(shí)現(xiàn)最終目標(biāo),還需要多方的努力,包括軟硬件,政策環(huán)境等的制定。通過(guò)協(xié)調(diào)解決各個(gè)方面的問(wèn)題,公共衛(wèi)生大數(shù)據(jù)分析能夠發(fā)揮更大作用,提升人群健康水平。
公共衛(wèi)生大數(shù)據(jù)具有廣闊的發(fā)展空間,也是解決特定人群健康問(wèn)題的重要手段之一。采取如下措施,能夠促進(jìn)該方向全面發(fā)展。
1)需要形成能夠包容多種數(shù)據(jù)的信息管理平臺(tái),提供方便的數(shù)據(jù)采集和交互。
2)將高性能計(jì)算發(fā)展成易于廣泛使用的形式,形成計(jì)算資源的方便使用。
3)數(shù)據(jù)分析方法作為核心技術(shù),需要能準(zhǔn)確提取異構(gòu)數(shù)據(jù)中的關(guān)鍵特征。
4)需要培養(yǎng)復(fù)合型人才,形成多學(xué)科知識(shí)的融合。
5)合理、適時(shí)的法律法規(guī)、政策、標(biāo)準(zhǔn)的制定將對(duì)該領(lǐng)域發(fā)展有重要影響。以大數(shù)據(jù)為立足點(diǎn),多方面的協(xié)同將能立體推進(jìn)公共衛(wèi)生的健康發(fā)展。
References)
[1]賀婷, 劉星, 李瑩, 等.大數(shù)據(jù)分析在慢病管理中應(yīng)用研究進(jìn)展[J]. 中國(guó)公共衛(wèi)生, 2016, 32(7): 981-984. DOI:10.11847/zgggws2016-32-07-28.
HE Ting,LIU Xing,LI Ying,et al. Application of medical big data in non-communicable chronic diseases management[J]. Chinese Journal of Public Health, 2016, 32(7): 981-984.DOI:10.11847/zgggws2016-32-07-28.
[2]KLONOFF D C. Precision medicine for managing diabetes[J]. Journal of Diabetes Science and Technology, 2015, 9(1):3-7. DOI:10.1177/1932296814563643.
[3]史倩楠, 馬家奇. 公共衛(wèi)生大數(shù)據(jù)分析方法與應(yīng)用方向[J]. 中國(guó)數(shù)字醫(yī)學(xué), 2016, 11(2): 10-12. DOI:10.3969/j.issn.1673-7571.2016.02.003.
SHI Qiannan, MA Jiaqi. Big data analytics and application in public health[J].China Digital Medicine, 2016, 11(2):10-12. DOI:10.3969/j.issn.1673-7571.2016.02.003.
[4]GALPERIN M Y, FERNNDEZ-SUREZ X M, RIGDEN D J. The 24th annual Nucleic Acids Research database issue: a look back and upcoming changes[J]. Nucleic Acids Research, 2017, 45(D1): D1-D11. DOI:10.1093/nar/gkw1188.
[5]FABREGAT A, SIDIROPOULOS K, VITERI G, et al. Reactome pathway analysis: a high-performance in-memory approach[J]. BMC Bioinformatics, 2017, 18: 142. DOI:10.1186/s12859-017-1559-2.
[6]DUMANCAS G G, ADRIANTO I, BELLO G, et al.Current developments in machine learning techniques in biological data mining[J]. Bioinformatics and Biology Insights, 2017, 11:1177932216687545. DOI: 10.1177/1177932216687545.
[7]MONTAZERI M, MONTAZERI M, MONTAZERI M, et al.Machine learning models in breast cancer survival prediction[J]. Technol Health Care, 2016, 24(1):31-42. DOI:10.3233/THC-151071.
[8]BENSON A R, GLEICH D F, LESKOVEC J. Higher-order organization of complex networks[J]. Science, 2016, 353(6295):163-166. DOI:10.1126/science.aad9029.
[9]GOGOSHIN G, BOERWINKLE E, RODIN A S. New algorithm and software (bnomics) for inferring and visualizing bayesian networks from heterogeneous big biological and genetic data[J]. Journal of Computational Biology, 2017, 24(4):340-356. DOI:10.1089/cmb.2016.0100.
[10]范婷, 婁巖. 2010-2016年大數(shù)據(jù)與健康相關(guān)SCI論文的聚類(lèi)分析[J].中國(guó)數(shù)字醫(yī)學(xué), 2017, 12(1): 3-5. DOI:10.3969/j.issn.1673-7571.2017.1.001.
FAN Ting, LOU Yan. Cluster analysis on topics of big data and health from 2010 to 2016[J].China Digital Medicine, 2017,12(1):3-5.DOI:10.3969/j.issn.1673-7571.2017.1.001.
[11]TENG Yue, BI Dehua, XIE Guigang, et al. Dynamic forecasting of zika epidemics using google trends[J]. PLoS One, 2017, 12(1):e0165085.DOI:10.1371/journal.pone.0165085.
[12]任向楠, 丁鋼強(qiáng), 彭茂祥, 等. 大數(shù)據(jù)與營(yíng)養(yǎng)健康研究[J]. 營(yíng)養(yǎng)學(xué)報(bào), 2017, 39(1):5-9. DOI:10.3969/j.issn.0512-7955.2017.01.002.
REN Xiangnan,DING Gangqiang,PENG Maoxiang,et al. Big data in the field of nutrition and health[J]. Acta Nutrimenta Sinica, 2017, 39(1): 5-9. DOI: 10.3969/j.issn.0512-7955.2017.01.002.
[13]FUNG I C H, TSE Z, FU K W. Converting big data into public health[J]. Science, 2015, 347(6222):620. DOI:10.1126/science.347.6222.620-b.
[14]ZHANG Y C, KAGEN A C. Machine learning interface for medical image analysis[J]. Journal of Digital Imaging, 2017, 30(5): 615-621. DOI:10.1007/s10278-016-9910-0.
[15]PAGE A, OATES S P T, MOHSENIN T. An ultra low power feature extraction and classification system for wearable seizure detection[C]//Proceedings of the 37th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). Milan, Italy: IEEE, 2015: 7111-7114. DOI:10.1109/EMBC.2015.7320031.
[16]FERNANDEZ E B, VILLARREAL J, LONARDI S, et al. FHAST: FPGA-based acceleration of bowtie in hardware[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2015, 12(5): 973-981. DOI:10.1109/TCBB.2015.2405333.
[17]王藝, 任淑霞.醫(yī)療大數(shù)據(jù)可視化研究綜述[J]. 計(jì)算機(jī)科學(xué)與探索, 2017, 11(5): 681-699. DOI: 10.3778/j.issn.1673-9418.1609014.
WANG Yi, REN Shuxia. Survey on visualization of medical big data[J]. Journal of Frontiers of Computer Science and Technology, 2017,11(5): 681-699. DOI: 10.3778/j.issn.1673-9418.1609014.
[18]AFGAN E, BAKER D, Van Den BEEK M, et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update[J]. Nucleic Acids Research, 2016, 44(W1): W3-W10. DOI:10.1093/nar/gkw343.
[19]COLLABORATORS T. Smoking prevalence and attributable disease burden in 195 countries and territories, 1990-2015: a systematic analysis from the Global Burden of Disease Study 2015[J]. Lancet, 2017, 389(10082): 1885-1906. DOI:10.1016/S0140-6736(17)30819-X.
[20]LI Yanping, WANG Dong, LEY S H, et al. Potential impact of time trend of life-style factors on cardiovascular disease burden in China[J]. Journal of the American College of Cardiology, 2016, 68(8):818-833. DOI:10.1016/j.jacc.2016.06.011.
[21]LAM T T, WANG Jia, SHEN Yongyi, et al. The genesis and source of the H7N9 influenza viruses causing human infections in China[J]. Nature, 2013, 502(7470): 241-244. DOI:10.1038/nature12515.
[22]杜鵬程, 于偉文, 陳禹保, 等. 利用系統(tǒng)進(jìn)化樹(shù)對(duì)H7N9大數(shù)據(jù)預(yù)測(cè)傳播模型的評(píng)估[J]. 中國(guó)生物工程雜志, 2014,34(11): 18-23. DOI: 10.13523/j.cb.20141103.
DU Pengcheng, YU Weiwen, CHEN Yubao, et al. Evaluation of the H7N9 transmission model predicted by big data by phylogenetic tree[J]. China Biotechnology, 2014, 34(11):18-23. DOI:10.13523 /j.cb.20141103.
[23]郭雄. 大骨節(jié)病病因與發(fā)病機(jī)制的研究進(jìn)展及其展望[J]. 西安交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版), 2008, 29(5):481-488.
GUO Xiong. Progression and prospect of etiology and pathogenesis of Kashin-Beck disease[J]. Journal of Xi’an Jiaotong University(Medical Sciences), 2008. 29(5):481-488.
[24]WANG Shuang, GUO Xiong, WU Xiaoming, et al. Genome-wide gene expression analysis suggests an important role of suppressed immunity in pathogenesis of Kashin-Beck disease[J]. PLoS One, 2012, 7(1):e28439. DOI:10.1371/journal.pone.0028439.
[25]姜友貴.基于GC-MS尋常型銀屑病患者的代謝組學(xué)分析[D]. 西安:西安交通大學(xué), 2017.
JIANG Yougui. Metabonomics analysis of patients with psoriasis vulgaris based on GC-MS[D]. Xi’an:Xi’an Jiaotong University, 2017.
[26]尚穎. 青海省60歲以上藏族阿爾茨海默病患病率及影響因素研究[D]. 廣州: 南方醫(yī)科大學(xué), 2015.
SHANG Ying. The risk factors of Alzheimer’s disease among Tibetan aged 60 years and older in Qinghai Province[D]. Guangzhou: Southern Medical University, 2015.
[27]DU Huaidong, LI Liming, BENNETT D, et al. Fresh fruit consumption and major cardiovascular disease in China[J]. New England Journal of Medicine, 2016, 374(14): 1332-1343. DOI:10.1056/NEJMoa1501451.
[28]PAEZ CHAVEZ J, GOTZ T, SIEGMUND S, et al. An SIR-Dengue transmission model with seasonal effects and impulsive control[J]. Mathematical Biosciences, 2017, 289: 29-39. DOI:10.1016/j.mbs.2017.04.005.
[29]ROSE J, WEISER T G, HIDER P, et al. Estimated need for surgery worldwide based on prevalence of diseases: a modelling strategy for the WHO Global Health Estimate[J]. Lancet Glob Health, 2015, 3(S2): S13-S20. DOI:10.1016/S2214-109X(15)70087-2.