周光迪,杜亞濤,吳宇航,王偉業(yè)
近年來,流行病學(xué)和轉(zhuǎn)化醫(yī)學(xué)研究中不同項目之間的資源整合越來越廣泛。資源的整合可運用于流行病學(xué)隊列項目,也可運用于醫(yī)院的臨床信息[1-2]。這樣的資源整合不用大規(guī)模地增加投入,就能滿足統(tǒng)計分析所需的大樣本量,極大地節(jié)約了研究經(jīng)費和精力的投入[3]。
盡管數(shù)據(jù)資源整合的意義重大,但是不同醫(yī)院/研究組所收集的同病種臨床數(shù)據(jù),存在多方面的數(shù)據(jù)異質(zhì)性,信息不統(tǒng)一導(dǎo)致數(shù)據(jù)不能直接整合[4-5]。異質(zhì)性主要存在于三個方面:
第一,變量種類的不同。對相同的病種,不同醫(yī)院/研究組對同病種所收集變量的種類不完全相同。無論是從病史詢問還是檢驗項目,每家醫(yī)院、每位醫(yī)生、每個研究組都有自己的看法和習(xí)慣,同一醫(yī)生對不同病人所問診/檢查的變量也不完全一致[6]。第二,變量定義的不同。不同醫(yī)院/研究組對同變量的定義不完全相同。在目前的研究情況下,普遍存在著變量定義的不明確[7]。因此明確變量的定義是數(shù)據(jù)整合的必要前提之一。第三,變量的采集/檢測/表達方式等的不同。包括變量的提問方式不同、變量的檢驗方式不同[8]等方面。例如詢問“你是否有被動吸煙”和“你的家人和同事是否抽煙”,所針對的變量是相同的,但所得到的答案存在異質(zhì)性。而檢驗方法、數(shù)據(jù)單位、取樣方式等很多因素都會影響檢驗的結(jié)果,以血糖值為例,病人是否禁食、指尖取血還是靜脈取血、數(shù)據(jù)單位是 mg/dl 還是 mmol/L,都會對結(jié)果產(chǎn)生影響。
為了實現(xiàn)數(shù)據(jù)共享,我們首先要采取合適的模式方法來交流和統(tǒng)一數(shù)據(jù)。不同項目的數(shù)據(jù)信息整合有三種方式:數(shù)據(jù)池、最小數(shù)據(jù)集、聯(lián)盟式[9-10]。數(shù)據(jù)池指將不同來源的同變量數(shù)據(jù)直接合并在一起,共同統(tǒng)計分析、整合共享的方式。最小數(shù)據(jù)集是為特定目的收集的、最少的、被用戶和相關(guān)人認(rèn)可的一組選擇性的核心數(shù)據(jù)[11]。聯(lián)盟式指原始數(shù)據(jù)不離開本地,在經(jīng)過物理上分布式的運算中心統(tǒng)計分析后,再將統(tǒng)計結(jié)果進行共享[12-13]。我們根據(jù)本項目先收集數(shù)據(jù)、再進行數(shù)據(jù)整合的回溯性基本特征,再加上法律法規(guī)的限制,選擇了聯(lián)盟式的數(shù)據(jù)整合方式,這也是絕大部分回溯性數(shù)據(jù)整合項目適用的數(shù)據(jù)整合方式。
2014 - 2017年,我們團隊與加拿大 Maelstrom 團隊合作,成功執(zhí)行了國家科技部立項的“多中心臨床信息共享的中加合作研發(fā)”項目及上海市國際科技合作基金項目“建 設(shè)隊列研究數(shù)據(jù)信息共享機制促進國內(nèi)國際合作”。我們以聯(lián)盟式的方式實現(xiàn)了中方的上海兒童優(yōu)生隊列(Shanghai Birth Cohort,SBC),加方的 3D 出生隊列(Design,Develop,Discover,3D)和 MIREC 出生隊列(Maternal-Infant Research on Environmental Chemicals,MIREC)的數(shù)據(jù)共享。2017年項目順利結(jié)題并獲得評審專家組的一致好評,為跨國的回顧性數(shù)據(jù)統(tǒng)一(指數(shù)據(jù)在采集后才開始進行數(shù)據(jù)統(tǒng)一和整合)和數(shù)據(jù)整合共享建立了成功的模式和方法[14]。在項目執(zhí)行過程中,我們利用加拿大 Maelstrom 團隊的資源和經(jīng)驗優(yōu)勢,引進了他們所開發(fā)的 OBiBa 軟件套組來搭建多中心信息共享平臺的基礎(chǔ)設(shè)施的架構(gòu)。
目前國內(nèi)對不同項目之間資源整合的工作還處在起步階段,經(jīng)驗不多、研究資料也較為匱乏,成功實現(xiàn)不同項目之間數(shù)據(jù)共享的模式和方法并不多,因此我們將應(yīng)用 Opal 和 Mica 構(gòu)建數(shù)據(jù)統(tǒng)一與交流平臺、探索信息共享模式的工作流程和經(jīng)驗闡述如下,希望能對以后的跨國多中心信息整合項目提供參考。
在統(tǒng)一數(shù)據(jù)之前,我們需要規(guī)范化地編寫數(shù)據(jù)詞典,選擇合適的平臺供多方交流溝通數(shù)據(jù)元素的信息,便于相互了解各參與方數(shù)據(jù)元素的差異性,再統(tǒng)一數(shù)據(jù)元素。
由于不同的研究有不同的數(shù)據(jù)變量,且不同來源的數(shù)據(jù)變量在各方面都可能存在異質(zhì)性,所以應(yīng)將不同來源的變量按統(tǒng)一的形式表達展示,才能進行協(xié)調(diào)。因此在進行多項目數(shù)據(jù)整合之前,先要為每個研究編寫數(shù)據(jù)詞典[6,15]。編寫數(shù)據(jù)詞典指研究者規(guī)范地抓取和列舉變量的元數(shù)據(jù)信息和具體的描述信息,將個體的信息來源(例如某個數(shù)據(jù)庫)用通用規(guī)則映射到數(shù)據(jù)模式上,數(shù)據(jù)詞典中應(yīng)包含來源、單位、數(shù)據(jù)類型等元數(shù)據(jù)信息,也包含標(biāo)簽和描述等特征性信息,能夠簡練而精確地定義變量。采用數(shù)據(jù)詞典這種規(guī)范化的模式,研究者就能夠描述和對比來自于不同項目、在描述方式等各方面存在異質(zhì)性的變量,為后期工作打下基礎(chǔ)。
數(shù)據(jù)詞典編寫完成后,需要利用平臺展示各研究的變量,以便于不同研究之間的相互了解和交流、促進信息的統(tǒng)一和整合。
目前國際上已有一些軟件幫助生物信息的收集和管理,例如 REDCap、OpenClinical[16]等,但專門幫助研究者統(tǒng)一數(shù)據(jù)、整合資源的工具性平臺和軟件還十分匱乏。為此,Maelstrom 團隊策劃并開發(fā)了 OBiBa 軟件組合[9],其中包含 Opal、Mica 等工具軟件,能有效地幫助研究者們整合共享不同研究的數(shù)據(jù)資源信息。
Opal 相當(dāng)于信息共享的核心數(shù)據(jù)倉庫,并能提供導(dǎo)入、轉(zhuǎn)化和描述數(shù)據(jù)的所有必須工具。在數(shù)據(jù)導(dǎo)入和導(dǎo)出的時候,項目驗證者也可以管理。Opal 能夠定義各研究項目待統(tǒng)一的目標(biāo)變量,開發(fā)和執(zhí)行用于派生通用格式數(shù)據(jù)的算法,并記錄數(shù)據(jù)統(tǒng)一的決定。Opal 還包含了 JavaScript 函數(shù)庫,以促進算法的開發(fā)和創(chuàng)建協(xié)調(diào)變量。本項目主要使用 Opal 來展示變量,以便于不同項目之間相互交流,了解共同的研究方向和能夠統(tǒng)一共享的變量。
參與數(shù)據(jù)共享的研究課題不僅需要相互了解對方的變量,也要相互了解對方的研究結(jié)構(gòu),這就需要運用到 Mica。Mica 是一個強大的軟件應(yīng)用程序,用于大型流行病學(xué)研 究或多研究聯(lián)盟創(chuàng)建數(shù)據(jù) Web 門戶。Mica 是基于由 RESTful 應(yīng)用程序服務(wù)器和客戶端組成的多層體系結(jié)構(gòu),研究者可以在 Mica 上編輯和展示個體研究和數(shù)據(jù)集的附屬信息,并管理與 OBiBa 軟件系統(tǒng)的其他應(yīng)用程序的安全連接。Mica 幫助研究提供數(shù)據(jù)可見性和網(wǎng)絡(luò)展示,以及對聯(lián)盟、研究、帶注釋和可搜索的數(shù)據(jù)字典以及數(shù)據(jù)訪問請求管理的結(jié)構(gòu)化描述。在 Mica 上用戶可以快速識別研究的概要文件列表。
不同項目的同一變量往往存在異質(zhì)性,不能直接共享。對于不同來源的同一變量,我們對其進行同質(zhì)化水平劃分,分為“完全相容”、“部分相容”、“完全不相容”三個級別[14]。完全相容的變量可以直接共享;部分相容的變量需要進行統(tǒng)一轉(zhuǎn)化后才能共享;完全不相容的變量不能共享。我們會根據(jù)每個變量的具體情況為其撰寫腳本,以統(tǒng)一 變量。
變量統(tǒng)一后,由于法規(guī)的限制,MIREC 的原始數(shù)據(jù)不能直接與中方共享,因此我們只能對數(shù)據(jù)結(jié)果進行分布式統(tǒng)計分析,然后共享分布式統(tǒng)計分析的結(jié)果。我們將 Mica 連接到參與項目的各個研究組的 Opal 數(shù)據(jù)庫,就能通過 Mica 安全地查詢遠程 Opal 所在的服務(wù)器上的研究數(shù)據(jù),得到統(tǒng)計學(xué)結(jié)果,從而實現(xiàn)分布式的統(tǒng)計分析和聯(lián)盟式的數(shù)據(jù)共享[9]。
圖1 Opal、Mica 為基礎(chǔ)設(shè)施的聯(lián)盟式數(shù)據(jù)庫架構(gòu)
在這樣的框架下(圖1),個人級別的數(shù)據(jù)可以安全地存儲在個體研究的 Opal 中,但能被 Mica 驅(qū)動的 Web 門戶遠程查詢。描述性統(tǒng)計結(jié)果在多個地理分散的研究數(shù)據(jù)庫 中實時生成,研究者能夠通過檢索獲得。同時,由于所有的原始數(shù)據(jù)都隱藏在原始機構(gòu)的防火墻后面,只向外發(fā)送描述性統(tǒng)計結(jié)果,這就確保了研究參與者的隱私和機密性。在更復(fù)雜或更易暴露患者隱私的情況下,Opal 與 DataShield 結(jié)合,更好地保護捐獻者的數(shù)據(jù)與隱私[17]。在 DataShield 的架構(gòu)下,分析的申請從中心電腦發(fā)送至分布式 Opal 服務(wù)器,在分布式 Opal 服務(wù)器上完成計算過程后,非暴露性的統(tǒng)計結(jié)果反饋到 DataShield,再由 DataShield 發(fā)送至申請者的電腦。
近年來,隨著國內(nèi)多中心信息整合與共享項目的陸續(xù)開展,研究者們越來越需要整合數(shù)據(jù)資源的幫助。但相比國外,國內(nèi)在這方面的研究投入和工作經(jīng)驗都存在不足,數(shù)據(jù)資源整合的基礎(chǔ)架構(gòu)設(shè)施運用資料更是少有。在“中加項目”中,我們利用項目合作方加拿大 Maelstrom 團隊的技術(shù)優(yōu)勢,引進他們開發(fā)的 OBiBa 軟件套組中的 Opal/Mica 軟件搭建了基礎(chǔ)設(shè)施架構(gòu),實現(xiàn)了跨國的多中心分布式數(shù)據(jù)資源整合和共享。希望我們的工作經(jīng)驗?zāi)転槠渌芯空咛峁┯袃r值的參考。
在國際上,數(shù)據(jù)資源的整合運用比較多見,往往在隊列項目開始之前就先考慮到數(shù)據(jù)的整合,會據(jù)此去設(shè)計收集數(shù)據(jù),所以能夠采用數(shù)據(jù)池、最小數(shù)據(jù)集或聯(lián)盟式的方法來共享數(shù)據(jù);但大部分國內(nèi)的隊列研究在開始時沒有考慮到之后會和其他項目進行數(shù)據(jù)資源的整合,或是因為種種原因在數(shù)據(jù)采集后才開始多中心數(shù)據(jù)資源的整合,這種回溯性的數(shù)據(jù)共享情況下,數(shù)據(jù)的異質(zhì)性往往非常嚴(yán)重。各個項目采集的數(shù)據(jù)元素種類、數(shù)據(jù)元素的定義、采集測定方式、數(shù)據(jù)單位等多個方面都存在異質(zhì)性。我們的“中加項目”也是這樣的情況,因此我們在本項目中建立的“聯(lián)盟式”的共享模式適用性廣泛。數(shù)據(jù)池方式共享數(shù)據(jù)的優(yōu)點很明顯,數(shù)據(jù)直接合并,統(tǒng)計結(jié)果更加準(zhǔn)確;缺點也很明顯,很多時候數(shù)據(jù)池方法并不可行,尤其是在回顧性的數(shù)據(jù)統(tǒng)一工作中[18]。首先因為回顧性的數(shù)據(jù)統(tǒng)一中,數(shù)據(jù)的異質(zhì)性非常強,很可能導(dǎo)致數(shù)據(jù)無法直接合并;其次法律法規(guī)可能會限制參與方不能直接將原始數(shù)據(jù)交出去共享。而最小數(shù)據(jù)集的方法僅適合于前瞻性的數(shù)據(jù)統(tǒng)一(指數(shù)據(jù)在開始收集之前就做好了數(shù)據(jù)統(tǒng)一的項目計劃和準(zhǔn)備工作)。在數(shù)據(jù)開始收集之前就要先明 確變量的種類、各變量的定義及采集表達方式。所以如果信息已經(jīng)收集、異質(zhì)性已經(jīng)存在,再開始考慮數(shù)據(jù)統(tǒng)一,就無法照搬最小數(shù)據(jù)集的方法來實現(xiàn)數(shù)據(jù)的統(tǒng)一和整合了。另外,由于最小數(shù)據(jù)集限制在最少、最核心的數(shù)據(jù)變量的范圍內(nèi),一些重要的變量也可能被遺漏,人們也希望在最小數(shù)據(jù)集的變量集合的基礎(chǔ)上,能有一些增補的變量。而我們所采用的聯(lián)盟式既能規(guī)避法律法規(guī)的影響,也能解決數(shù)據(jù)異質(zhì)性強的矛盾,非常適合于國內(nèi)的現(xiàn)狀。
資源的整合共享不僅可以運用在隊列上,也可以運用在臨床上。近年來基于 XML 技術(shù)的結(jié)構(gòu)化電子病歷的發(fā)展迅猛,大量的臨床觀察性數(shù)據(jù)記錄在醫(yī)院信息系統(tǒng)中,不僅在醫(yī)療診治中發(fā)揮巨大的作用,也是高價值的臨床研究資 源[19-20]。但是醫(yī)生和研究者在研究疾病時,往往由單獨的課題組去收集疾病的樣本和信息,時常會有同醫(yī)院同科室的不同課題組分離地收集同種疾病的信息,相互之間少有交流共享[21-22]。因此,整合不同來源的同病種臨床信息也非常急迫和重要,這能有力地推動轉(zhuǎn)化醫(yī)學(xué)的發(fā)展,對新醫(yī)療手段的開發(fā)有著極大幫助[15]。
在后續(xù)工作中,我們將把本項目中積累的經(jīng)驗推廣到臨床病種的多中心信息整合項目中去,為多來源的同種疾病信息整合建立模式和方法,運用 Opal/Mica 等工具性軟件,提升搭建多中心數(shù)據(jù)共享平臺的效率及其運用范圍。