方陵生/編譯
信息科學(xué)與數(shù)據(jù)合成
方陵生/編譯
●本文作者莫納什大學(xué)教授朱利安·艾略特(Julian H.Elliott)、渥太華大學(xué)教授杰里米·格里姆肖(Jeremy Grimshaw)和他們的同事們堅(jiān)持認(rèn)為,數(shù)據(jù)合成科學(xué)的發(fā)展,必須要與各種類(lèi)型的大量健康信息結(jié)合起來(lái)。
如果你想知道,接觸某些化學(xué)物質(zhì)是否會(huì)增加你患結(jié)腸癌的幾率,你可以很容易地從動(dòng)物實(shí)驗(yàn)中找到支持證據(jù),然而你有可能發(fā)現(xiàn),流行病學(xué)研究告訴我們的卻是一個(gè)完全不同的結(jié)果。
沒(méi)有比涉及個(gè)人健康問(wèn)題時(shí)所需要考慮因素更多的了。我們可以對(duì)人類(lèi)的整個(gè)基因組,以及細(xì)菌、病毒和腫瘤的基因組進(jìn)行測(cè)序,基本上,每一個(gè)來(lái)就診的患者,都可以通過(guò)其電子醫(yī)療記錄跟蹤到他們的病史;來(lái)自可穿戴設(shè)備、智能手機(jī)應(yīng)用程序以及社交網(wǎng)絡(luò)站點(diǎn)等關(guān)于人們的生理、行為、飲食、運(yùn)動(dòng),以及與他人互動(dòng)的各種數(shù)據(jù)信息。由于數(shù)據(jù)開(kāi)放和數(shù)據(jù)共享規(guī)范等的諸多變化,從而獲得更多可以公開(kāi)獲取的數(shù)據(jù)。
然而,通過(guò)篩選信息來(lái)尋找關(guān)于健康問(wèn)題的答案卻變得越來(lái)越困難,甚至對(duì)于一些專(zhuān)家來(lái)說(shuō)也是如此。數(shù)據(jù)通過(guò)不同的渠道獲取,使用各種不同的方法生成,并且存儲(chǔ)在不同的基礎(chǔ)設(shè)施上。這些設(shè)施包括醫(yī)院專(zhuān)用服務(wù)器和全球性的數(shù)據(jù)平臺(tái),如dbGaP、開(kāi)放型基因數(shù)據(jù)庫(kù)和臨床信息數(shù)據(jù)庫(kù)等。
要將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)匯集到綜合性的數(shù)據(jù)庫(kù)中來(lái)作為決策者做決定時(shí)的依據(jù)和證據(jù),研究人員需要在當(dāng)前的數(shù)據(jù)合成方法和工具的基礎(chǔ)上,開(kāi)發(fā)出更高層次的數(shù)據(jù)處理工具。研究人員通常通過(guò)一些相同類(lèi)型的數(shù)據(jù),例如臨床試驗(yàn)的結(jié)果,以獲得他們想要的信息。不同的研究方式和數(shù)據(jù)類(lèi)型,都存有各自不同的優(yōu)缺點(diǎn),而將各種不同的信息綜合起來(lái),往往可以獲得對(duì)問(wèn)題更深刻的理解。
舉個(gè)例子來(lái)說(shuō),治療胃灼熱的鎮(zhèn)吐藥西沙必利(Cisapride)于1993年在美國(guó)獲得批準(zhǔn)生產(chǎn),但臨床試驗(yàn)收集數(shù)據(jù)的過(guò)程卻超過(guò)了整整十年,而這種藥物產(chǎn)生的一種副作用,即導(dǎo)致威脅生命的心臟節(jié)律紊亂,是在結(jié)合對(duì)眾多患者進(jìn)行長(zhǎng)期大規(guī)模研究后得到的臨床數(shù)據(jù)中發(fā)現(xiàn)并最后得到確認(rèn)的。
同樣,從流感監(jiān)測(cè)網(wǎng)上獲得的數(shù)據(jù)(包括從初級(jí)保健診所收集到的數(shù)據(jù)),可能與實(shí)際情況不符。比如,在谷歌上搜索相關(guān)流感癥狀時(shí),可以實(shí)時(shí)收集到這些信息,但是其中的一些數(shù)據(jù)也有可能是不準(zhǔn)確的。幾乎可以肯定的是,最好的數(shù)據(jù)信息是來(lái)自各類(lèi)不同數(shù)據(jù)的結(jié)合。
那么,我們?nèi)绾螌@得的極其多樣化的數(shù)據(jù)信息匯集在一起呢?
正式形成“數(shù)據(jù)合成”,即將多個(gè)來(lái)源的數(shù)據(jù)結(jié)合在一起,以獲得新的理解的方法首次出現(xiàn)于1970年代的社會(huì)科學(xué)領(lǐng)域內(nèi),并應(yīng)用于其多個(gè)分支領(lǐng)域,支持了一些高影響力的決策,如藥物批準(zhǔn)等。通常,“數(shù)據(jù)合成”包括對(duì)所有相關(guān)、可用的數(shù)據(jù)進(jìn)行辨別和排序,并對(duì)每一來(lái)源數(shù)據(jù)的優(yōu)劣進(jìn)行評(píng)估,同時(shí)根據(jù)數(shù)據(jù)的嚴(yán)謹(jǐn)程度和所要解決的問(wèn)題,決定如何對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行處理(有些數(shù)據(jù)可能會(huì)被排除),然后,結(jié)合數(shù)據(jù)庫(kù)中的相關(guān)信息進(jìn)行薈萃分析(譯注:元分析或薈萃分析,其概念為對(duì)以往研究結(jié)果進(jìn)行系統(tǒng)的定量分析)或定性評(píng)估。
例如,一家英國(guó)集團(tuán)公司將來(lái)自臨床試驗(yàn)的數(shù)據(jù)與薈萃分析的群組研究結(jié)合在一起,對(duì)一種孕婦服用的、用于預(yù)防她們體內(nèi)產(chǎn)生對(duì)嬰兒不利抗體的藥物的有效性進(jìn)行評(píng)估。在此例中,群組研究中不同護(hù)理?xiàng)l件所產(chǎn)生的潛在偏差得到了確認(rèn),其對(duì)研究結(jié)果的影響可降至最低。
然而,許多對(duì)大型數(shù)據(jù)集進(jìn)行組合和分析的研究人員,很容易受到一些偽造的基因組數(shù)據(jù)或電子病歷數(shù)據(jù)的影響,未能意識(shí)到數(shù)據(jù)綜合工具及其潛在的效用。事實(shí)上,許多數(shù)據(jù)合成專(zhuān)家對(duì)常用的與醫(yī)療衛(wèi)生相關(guān)的大型數(shù)據(jù)集分析工具并不熟悉。
我們認(rèn)為,數(shù)據(jù)合成的核心元素必須與其他數(shù)據(jù)科學(xué)地結(jié)合起來(lái),以開(kāi)發(fā)出使不同數(shù)據(jù)具有更大意義的新途徑。
科學(xué)家需要明確將不同數(shù)據(jù)結(jié)合在一起的目的、時(shí)機(jī)以及具體方法。例如,科學(xué)家需明確是否要把臨床記錄中的身體鍛煉數(shù)據(jù)、在線(xiàn)問(wèn)卷調(diào)查以及可穿戴設(shè)備的數(shù)據(jù)結(jié)合在一起。以及需明確何時(shí)并如何結(jié)合不同層面的數(shù)據(jù)??茖W(xué)家還需要知曉將各種類(lèi)型數(shù)據(jù)結(jié)合在一起可能產(chǎn)生的風(fēng)險(xiǎn),并考慮將相關(guān)風(fēng)險(xiǎn)納入分析的可能性。對(duì)于干預(yù)措施對(duì)臨床試驗(yàn)和觀察性研究的影響,分析師可使用風(fēng)險(xiǎn)偏差評(píng)估工具以及其他一些類(lèi)似方法,以檢測(cè)到并減少其他類(lèi)型數(shù)據(jù)產(chǎn)生的偏差。這些其他類(lèi)型數(shù)據(jù)是指源自于社交網(wǎng)絡(luò)和移動(dòng)電話(huà)等的數(shù)據(jù)。
另外,還需要在捕捉和呈現(xiàn)潛在信息源偏差的具體途徑上取得共識(shí)。致力于醫(yī)療衛(wèi)生數(shù)據(jù)基礎(chǔ)設(shè)施和標(biāo)準(zhǔn)建設(shè)的公司或組織,需要將這一層面的元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))結(jié)合到他們的系統(tǒng)中。
處理偏差的方法必須納入到新開(kāi)發(fā)的指導(dǎo)醫(yī)療衛(wèi)生保健決策的分析系統(tǒng)內(nèi),包括那些基于自然語(yǔ)言處理過(guò)程和機(jī)器學(xué)習(xí)過(guò)程。透明與獨(dú)立地評(píng)估這些新系統(tǒng)也將是重要的一環(huán)。
就中短期而言,大學(xué)和研究機(jī)構(gòu)的資助項(xiàng)目和部門(mén)重組對(duì)于計(jì)算生物學(xué)家、計(jì)算機(jī)科學(xué)家、臨床與人口健康研究人員以及數(shù)據(jù)合成專(zhuān)家之間的合作非常關(guān)鍵。例如,主要授予機(jī)構(gòu)應(yīng)投資于類(lèi)似于英國(guó)國(guó)家健康研究所的專(zhuān)門(mén)研究項(xiàng)目。另外,有必要針對(duì)性地在貧困地區(qū)和國(guó)家投資開(kāi)發(fā)數(shù)據(jù)的基礎(chǔ)設(shè)施。從長(zhǎng)遠(yuǎn)來(lái)看,適合于對(duì)不同類(lèi)型數(shù)據(jù)進(jìn)行分析、評(píng)價(jià)和整合的新型分析師將應(yīng)運(yùn)而生。
這些變化在醫(yī)療保健實(shí)踐中將意味著什么呢?美國(guó)精準(zhǔn)醫(yī)療計(jì)劃(PMI)的目的之一是對(duì)癌癥的預(yù)防。這意味著對(duì)各種基因產(chǎn)生的影響和行為因素、環(huán)境因素及其相互作用的充分理解。如果將不同領(lǐng)域的數(shù)據(jù)適當(dāng)并迅速地整合起來(lái),這一計(jì)劃的價(jià)值將得到很大的提高。
PMI的另一個(gè)目的是開(kāi)發(fā)新的癌癥療法。而更好的數(shù)據(jù)合成系統(tǒng)將促成更精準(zhǔn)的藥物開(kāi)發(fā)途徑的完善,同時(shí)對(duì)基因組學(xué)、動(dòng)物實(shí)驗(yàn)和人體試驗(yàn)也將有更精準(zhǔn)的了解。此外,一些醫(yī)療衛(wèi)生保健資助機(jī)構(gòu),如英國(guó)的國(guó)民醫(yī)療服務(wù)機(jī)構(gòu)和美國(guó)的醫(yī)療保險(xiǎn)機(jī)構(gòu),也可以在臨床試驗(yàn)、群組研究成果和手機(jī)及其他軟件等途徑獲得的數(shù)據(jù)信息中,更好地了解到相關(guān)藥物的療效和副作用。包括美國(guó)藥物安全主動(dòng)監(jiān)測(cè)計(jì)劃和加拿大藥物作用觀察研究網(wǎng)在內(nèi),都在從不同的醫(yī)療衛(wèi)生保健系統(tǒng)收集和匯集數(shù)據(jù),以監(jiān)控獲得生產(chǎn)許可的藥物可能產(chǎn)生的副作用。
我們不建議采用千篇一律的方法,但是社會(huì)也不需要太多的數(shù)據(jù)分析方法來(lái)支持各種有沖突的推論。隨著數(shù)據(jù)集的日益龐大和豐富多樣,我們必須確保通過(guò)運(yùn)用嚴(yán)格和值得信賴(lài)的方法更好地對(duì)數(shù)據(jù)進(jìn)行分析理解,并行不悖地開(kāi)發(fā)利用這些數(shù)據(jù)。
[資料來(lái)源:Nature][責(zé)任編輯:遙醒]