車賀賓 徐洪麗
(中國(guó)人民解放軍總醫(yī)院醫(yī)學(xué)大數(shù)據(jù)研究中心 北京100853)
醫(yī)療衛(wèi)生行業(yè)數(shù)據(jù)來(lái)源豐富且類型多樣[1]。醫(yī)療信息平臺(tái)等數(shù)據(jù)端匯聚龐大數(shù)據(jù)資源,充分挖掘醫(yī)學(xué)數(shù)據(jù)價(jià)值有利于輔助臨床診斷、拓展科研思路、提高科研效率、強(qiáng)化醫(yī)院數(shù)據(jù)治理能力[2]。醫(yī)學(xué)大數(shù)據(jù)挖掘利用以醫(yī)學(xué)問題為先導(dǎo),醫(yī)療行業(yè)業(yè)務(wù)場(chǎng)景較多[3],所面臨問題不同,對(duì)醫(yī)學(xué)數(shù)據(jù)資源的加工處理需求也不同,導(dǎo)致臨床研究方案設(shè)計(jì)的個(gè)性化需求較強(qiáng)。醫(yī)學(xué)工程師應(yīng)理解臨床研究需要解決的問題,具備定位問題、發(fā)現(xiàn)問題、拆解問題和解決問題的能力[4]。具體來(lái)說(shuō)需要長(zhǎng)時(shí)間反復(fù)和臨床研究者溝通以便充分理解研究過程,在此基礎(chǔ)上分析和篩選,進(jìn)行適當(dāng)抽象和簡(jiǎn)化,將臨床問題轉(zhuǎn)化為數(shù)學(xué)問題,進(jìn)而定義規(guī)則處理臨床數(shù)據(jù)[5]。
首先明確研究目的,確立結(jié)局指標(biāo)和研究因素,提出PICO(P:研究對(duì)象,I:干預(yù)或暴露因素,C:對(duì)照組,O:結(jié)局指標(biāo))問題[6]。臨床數(shù)據(jù)處理主要包括確定患者入選標(biāo)準(zhǔn)(如性別、年齡、診斷等)、剔除標(biāo)準(zhǔn)(如既往史不符、關(guān)鍵指標(biāo)缺失等)、臨床研究因變量(如體征、檢驗(yàn)、檢查、用藥等)和結(jié)局變量(如生存狀態(tài)、預(yù)后評(píng)分等)。
臨床數(shù)據(jù)處理需要嚴(yán)格規(guī)范,才能保證完整性和準(zhǔn)確性。第一,醫(yī)學(xué)大數(shù)據(jù)應(yīng)用實(shí)踐需經(jīng)臨床研究者、數(shù)據(jù)工程師、統(tǒng)計(jì)分析師協(xié)同合作完成,共同制定、逐步完善并嚴(yán)格貫徹臨床研究方案。數(shù)據(jù)工程師和統(tǒng)計(jì)分析師的介入使得方案更加明晰,臨床研究者更方便掌握研究進(jìn)展和調(diào)整人力、財(cái)力和資源配置;第二,流程規(guī)范能及時(shí)發(fā)現(xiàn)錯(cuò)誤,數(shù)據(jù)工程師可以及時(shí)解決疑問數(shù)據(jù);第三,流程所涉及程序腳本可復(fù)用,大幅降低研究難度[7]。總之規(guī)范流程可以顯著提高臨床研究執(zhí)行效率,是獲得具有科學(xué)性和標(biāo)準(zhǔn)性研究結(jié)論的前提。
具體包括患者納入與排除標(biāo)準(zhǔn)、分組條件、就診次選擇以及對(duì)應(yīng)具體診療數(shù)據(jù)篩選,包括非結(jié)構(gòu)化數(shù)據(jù)(病歷文本)、半結(jié)構(gòu)化數(shù)據(jù)(檢查報(bào)告、病理報(bào)告等)和結(jié)構(gòu)化數(shù)據(jù)(病案首頁(yè)、檢驗(yàn)結(jié)果等)。臨床數(shù)據(jù)一般由數(shù)據(jù)工程師利用結(jié)構(gòu)化查詢語(yǔ)言(Structured Query Language,SQL)腳本定義規(guī)則批量處理,其中非結(jié)構(gòu)化和半結(jié)構(gòu)數(shù)據(jù)需要自然語(yǔ)言處理技術(shù)配合人工整理提取具體數(shù)據(jù)項(xiàng)[8],整理后的數(shù)據(jù)由統(tǒng)計(jì)分析師合并、清洗、統(tǒng)計(jì)分析并校正混雜因素等[9],最終實(shí)現(xiàn)臨床數(shù)據(jù)價(jià)值轉(zhuǎn)化。大多數(shù)臨床研究方案制定是一個(gè)長(zhǎng)期過程,經(jīng)常會(huì)因后期數(shù)據(jù)分析結(jié)果不理想被重新修正[10-12]。
臨床問題的提出是醫(yī)學(xué)大數(shù)據(jù)分析應(yīng)用的核心,一個(gè)好的可回答的問題是保障臨床研究質(zhì)量的關(guān)鍵,有助于制定證據(jù)收集策略,提高解決臨床問題的針對(duì)性[13]。要找準(zhǔn)臨床問題應(yīng)具備對(duì)患者的責(zé)任心、豐富的基礎(chǔ)和臨床醫(yī)學(xué)知識(shí)、扎實(shí)的臨床基本技能、一定的人文科學(xué)及社會(huì)心理知識(shí)、綜合分析和判斷能力。統(tǒng)計(jì)分析師和數(shù)據(jù)工程師從方法學(xué)和工程學(xué)角度,基于大數(shù)據(jù)思想和統(tǒng)計(jì)方法,結(jié)合醫(yī)院數(shù)據(jù)實(shí)際情況審核臨床問題,為臨床研究者提出建議。
一般來(lái)說(shuō),慢病相關(guān)研究涉及患者數(shù)量多、治療周期長(zhǎng),一家醫(yī)院包含患者臨床數(shù)據(jù)的完整程度不高,許多重要指標(biāo)需要隨訪跟蹤,完成困難[14]。例如課題“惡性腫瘤患者服用化療藥導(dǎo)致高血壓預(yù)測(cè)分析”中,影響研究結(jié)果因素較多。首先,惡性腫瘤患者離院后,很難掌握其是否遵醫(yī)囑服藥、是否存在中間停服或者換藥等情況;其次,患者化療周期長(zhǎng)、醫(yī)院人流量大,持續(xù)在本院復(fù)查患者占比較低,缺少疾病發(fā)展過程中的臨床數(shù)據(jù);最后,部分患者高血壓患病時(shí)間點(diǎn)難以判斷,難以確定高血壓與服用化療藥之間的關(guān)系。危急癥患者治療周期短,見效快,患者臨床數(shù)據(jù)完整度高,完成相對(duì)容易。如課題“住院急性胰腺炎患者經(jīng)口進(jìn)食不耐受風(fēng)險(xiǎn)因素分析”中,住院急性胰腺炎患者相對(duì)較少、治療周期短、臨床數(shù)據(jù)完整度高,并且經(jīng)治療后進(jìn)食是否耐受在醫(yī)生醫(yī)囑或病程記錄中有所體現(xiàn)。
臨床問題涉及指標(biāo)應(yīng)當(dāng)盡量來(lái)源于客觀數(shù)據(jù),避免人為主觀干預(yù)造成數(shù)據(jù)分析偏差[15-16]。以不良結(jié)局為例討論如何客觀化處理患者分組條件。許多臨床研究方案中結(jié)局變量為死亡,但篩選結(jié)果往往不符合臨床實(shí)踐認(rèn)識(shí),而且本院數(shù)據(jù)無(wú)法滿足臨床研究對(duì)數(shù)據(jù)量的需求[17]。原因在于一方面先進(jìn)的醫(yī)療技術(shù)延長(zhǎng)了危重癥患者生命;另一方面瀕死患者存在轉(zhuǎn)院或者自行出院返家的情況。建議采用臨床不良事件發(fā)生代替死亡事件,并將醫(yī)囑處置作為參考條件,即醫(yī)囑中包含死亡、尸體、電除顫、心外按壓或鹽酸腎上腺素注射液3次以上的患者為不良結(jié)局組。
不同醫(yī)院業(yè)務(wù)系統(tǒng)和流程存在差別,導(dǎo)致診療信息數(shù)據(jù)結(jié)構(gòu)和存儲(chǔ)內(nèi)容不同[18]。數(shù)據(jù)工程師需深入醫(yī)院業(yè)務(wù)流程充分了解數(shù)據(jù)源頭、臨床數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),才能根據(jù)臨床科研需求有的放矢。
如肌鈣蛋白,有的醫(yī)院傾向查全血肌鈣蛋白,有的傾向查肌鈣蛋白T,有的傾向查肌鈣蛋白I。同一臨床檢驗(yàn)項(xiàng)目可能對(duì)應(yīng)不同名稱,包括簡(jiǎn)稱、別名等。如谷草轉(zhuǎn)氨酶(英文縮寫為AST或GOT),又稱天門冬氨酸氨基轉(zhuǎn)氨酶、門冬氨酸氨基轉(zhuǎn)氨酶、天冬氨酸氨基轉(zhuǎn)移酶。同一臨床檢驗(yàn)項(xiàng)目可能對(duì)應(yīng)不同結(jié)果單位。如血?dú)饧◆Y(jié)果值的單位可能為umol/L或mg/dl。
臨床研究方案涉及數(shù)據(jù)項(xiàng)可能有多個(gè)數(shù)據(jù)源,存儲(chǔ)在不同數(shù)據(jù)表中。以“惡性腫瘤患者服用化療藥導(dǎo)致高血壓預(yù)測(cè)分析”為例,判斷高血壓可以通過體征中血壓記錄,至少不同日3次測(cè)量的血壓大于140/90mmHg,也可以通過醫(yī)囑中用藥記錄,至少包含一定劑量降壓藥,也可直接以醫(yī)生下達(dá)的診斷為依據(jù)。這需要根據(jù)實(shí)際數(shù)據(jù)情況選擇不同方案。
臨床研究方案首先要確定患者人群,然后確定其具體診療信息。診療信息可能需要入組患者歷次門診、住院次信息或者其滿足一定條件的門診、住院次信息,根據(jù)方案實(shí)際需求而定。確定患者就診次后,一次住院可能會(huì)有多次檢驗(yàn)、檢查,具體選擇可能是在院期間第一次或最后一次,也有可能是服用某藥或接受某項(xiàng)手術(shù)前后最近的一次[19]。
以“惡性腫瘤患者服用化療藥導(dǎo)致高血壓預(yù)測(cè)分析”研究為例,要求首先確定結(jié)局事件標(biāo)準(zhǔn),然后提取患者結(jié)局事件前最近一次指標(biāo)結(jié)果。惡性腫瘤患者通常一年有多次住院診療記錄,不同住院次檢驗(yàn)項(xiàng)目不同。提取患者結(jié)局事件前最近一次指標(biāo),可能會(huì)導(dǎo)致同一患者結(jié)局事件前最近一次血常規(guī)檢驗(yàn)與最近一次腫瘤標(biāo)志物檢驗(yàn)時(shí)間間隔過大,影響分析結(jié)果。為避免此類情況發(fā)生,采用時(shí)間間隔范圍限定。如預(yù)測(cè)180天內(nèi)結(jié)局變量發(fā)生,檢驗(yàn)指標(biāo)90天內(nèi)有效期。腳本提取結(jié)局變量發(fā)生前180天內(nèi)患者所有在院相關(guān)檢驗(yàn)指標(biāo),然后以90天作為窗口在180天范圍內(nèi)滑動(dòng),選定囊括最多不同類別檢驗(yàn)項(xiàng)的窗口作為目標(biāo)值。服用化療藥導(dǎo)致高血壓,需要一定服藥期限和劑量,需同時(shí)統(tǒng)計(jì)惡性腫瘤患者住院醫(yī)囑用藥和門診取藥記錄。具體做法為:確定研究的化療藥在數(shù)據(jù)庫(kù)中具體藥品名;患者一年或兩年住院化療次數(shù)和門診化療取藥次數(shù)大于閾值;患者用藥劑量大于閾值。
醫(yī)學(xué)大數(shù)據(jù)預(yù)測(cè)評(píng)估實(shí)踐研究需要多學(xué)科人員協(xié)同合作,在臨床數(shù)據(jù)處理過程中根據(jù)過程結(jié)果修正臨床研究方案,重新調(diào)整數(shù)據(jù)提取和分析策略。方案更迭容易導(dǎo)致多方參與人員協(xié)作失衡,因此臨床數(shù)據(jù)處理有效開展離不開過程文檔的支持。臨床科研工作者負(fù)責(zé)課題臨床背景、研究意義和數(shù)據(jù)內(nèi)容詳情撰寫,詳情中包括具體數(shù)據(jù)項(xiàng)的重要程度、具體名稱、數(shù)據(jù)來(lái)源、取值范圍、臨床意義和提取備注(包括就診次和檢驗(yàn)結(jié)果、檢查報(bào)告選擇標(biāo)準(zhǔn))等。工程師應(yīng)負(fù)責(zé)數(shù)據(jù)抽取腳本、數(shù)據(jù)分析過程和結(jié)果輸出等資料撰寫。文檔留痕使臨床數(shù)據(jù)處理流程有據(jù)可依,不僅方便后期審核查驗(yàn),而且有助于參與人員協(xié)同合作,及時(shí)發(fā)現(xiàn)漏洞并完善研究方案,提高工作效率[20]。
本文在醫(yī)學(xué)大數(shù)據(jù)研究中心日常臨床數(shù)據(jù)服務(wù)工作實(shí)踐基礎(chǔ)上提出臨床數(shù)據(jù)處理流程規(guī)范,緊扣醫(yī)院信息系統(tǒng)常見數(shù)據(jù)處理工作,對(duì)其他類型數(shù)據(jù)涉及較少,如基因、微生物等。另外限于實(shí)際工作內(nèi)容范圍,流程規(guī)范未提及自然語(yǔ)言處理工程師和算法工程師,較少涉及病歷文本結(jié)構(gòu)化操作流程和數(shù)據(jù)建模分析流程??傊R床數(shù)據(jù)處理流程規(guī)范與臨床研究成果關(guān)系密切,值得高度重視,本研究提出的流程規(guī)范還有欠缺,仍需進(jìn)一步完善。