武珊珊,孔媛媛
首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院,國(guó)家消化系統(tǒng)疾病臨床醫(yī)學(xué)研究中心,臨床流行病學(xué)與循證醫(yī)學(xué)中心,北京 100050
我國(guó)慢性乙型肝炎患病率高,并發(fā)癥重。在我國(guó)肝硬化和肝癌患者中,由乙型肝炎引起的比例分別為60%和80%[1]。最新全國(guó)體檢數(shù)據(jù)顯示我國(guó)農(nóng)村21~49歲男性人群HBsAg陽性率為6%[2]。據(jù)此推算,全國(guó)約有2500萬人為慢性乙型肝炎患者;按照每年1.6%~4%的發(fā)病率計(jì)算,每年約有40萬~100萬患者可發(fā)展為代償性肝硬化。抗病毒治療可以降低乙型肝炎相關(guān)并發(fā)癥的發(fā)生率和病死率,但即使經(jīng)過有效的抗病毒治療仍有部分患者會(huì)出現(xiàn)疾病進(jìn)展,包括門靜脈高壓相關(guān)并發(fā)癥和肝癌,并導(dǎo)致死亡[3-5]。因此,實(shí)現(xiàn)臨床終點(diǎn)事件的精準(zhǔn)預(yù)測(cè)并加強(qiáng)干預(yù)是降低病死率的關(guān)鍵措施。
目前國(guó)內(nèi)外已有較多預(yù)測(cè)慢性乙型肝炎患者臨床終點(diǎn)事件的風(fēng)險(xiǎn)預(yù)測(cè)模型,但被臨床廣泛應(yīng)用的模型較為少見。很多預(yù)測(cè)模型在開發(fā)過程中存在一定的方法學(xué)缺陷,導(dǎo)致模型的精確性和外推性不高,多數(shù)預(yù)測(cè)模型長(zhǎng)期處于“多數(shù)被建立,少數(shù)被驗(yàn)證,極少被應(yīng)用”的情況[6-7]。為此,本文基于對(duì)目前已發(fā)表的慢乙型肝炎臨床終點(diǎn)事件預(yù)測(cè)模型的總結(jié),從方法學(xué)角度闡述預(yù)測(cè)模型構(gòu)建的要點(diǎn),以期為精準(zhǔn)預(yù)測(cè)慢性乙型肝炎患者臨床終點(diǎn)事件的模型研究提供參考。
臨床預(yù)測(cè)模型又稱臨床預(yù)測(cè)規(guī)則,是指利用醫(yī)學(xué)征兆、癥狀或其他臨床發(fā)現(xiàn)預(yù)測(cè)特定疾病或結(jié)局發(fā)生的概率,包括診斷模型和預(yù)后模型。預(yù)測(cè)模型類研究一般可以分為兩類:診斷類預(yù)測(cè)模型和預(yù)后類預(yù)測(cè)模型[8-9]。診斷類預(yù)測(cè)模型是估計(jì)現(xiàn)在時(shí)間點(diǎn)某一個(gè)體發(fā)生特定疾病的風(fēng)險(xiǎn)或者概率,通常建立在橫斷面研究的基礎(chǔ)上;預(yù)后類預(yù)測(cè)模型則是利用個(gè)體現(xiàn)在時(shí)刻的特征指標(biāo)(如實(shí)驗(yàn)室檢查指標(biāo)、癥狀或體征等)去預(yù)測(cè)未來發(fā)生特定事件的風(fēng)險(xiǎn)或概率,通常建立在隊(duì)列研究的基礎(chǔ)上,尤其是前瞻性隊(duì)列提供的結(jié)論更為可靠。兩類預(yù)測(cè)模型的研究框架詳見圖1。
按照研究目的預(yù)測(cè)模型類研究又可分為模型開發(fā)研究、模型驗(yàn)證研究和開發(fā)驗(yàn)證同時(shí)進(jìn)行的研究[8],其中模型驗(yàn)證又可分為內(nèi)部驗(yàn)證和外部驗(yàn)證,取決于與模型開發(fā)使用的數(shù)據(jù)集是否相同。若使用相同的數(shù)據(jù)集去驗(yàn)證模型,則為內(nèi)部驗(yàn)證;若使用與模型開發(fā)不同的數(shù)據(jù)集去驗(yàn)證模型,則稱為外部驗(yàn)證。外部驗(yàn)證一般優(yōu)于內(nèi)部驗(yàn)證。
慢性乙型肝炎臨床終點(diǎn)事件預(yù)測(cè)模型屬于預(yù)后類預(yù)測(cè)模型。目前國(guó)內(nèi)外關(guān)于慢性乙型肝炎患者的預(yù)后模型主要以肝細(xì)胞癌(HCC)為結(jié)局,少數(shù)以復(fù)合終點(diǎn)即肝臟相關(guān)事件(liver related events, LRE)及肝纖維化逆轉(zhuǎn)為結(jié)局[10-23]。本文共納入了14個(gè)慢性乙型肝炎患者臨床終點(diǎn)事件預(yù)測(cè)模型的文獻(xiàn),各預(yù)測(cè)模型構(gòu)建的基本特征詳見表1。所有預(yù)測(cè)模型的建立均采用隊(duì)列研究,其中13個(gè)(92%)模型基于亞洲人群構(gòu)建,只有PAGE-B[16]模型是基于多個(gè)歐洲國(guó)家的高加索人種所構(gòu)建。各模型的構(gòu)建人群樣本量范圍為212~23 851,中位數(shù)為1035,結(jié)局事件發(fā)生中位數(shù)為56,其中CAMD模型構(gòu)建人群樣本量超過2萬,結(jié)局事件發(fā)生數(shù)目最多(596例HCC)。
各模型構(gòu)建人群的關(guān)鍵特征,如是否接受抗病毒治療與肝硬化狀態(tài)差異性較大。在研究對(duì)象是否接受抗病毒治療方面:GAG-HCC[10]、NGM-HCC[11]及REACH-B[13]模型是基于未進(jìn)行抗病毒治療的慢性乙型肝炎患者,mREACH-B[15]、PAGE-B[16]、mPAGE-B[18]、CAMD[19]、AASL-HCC[20]、REAL-B[21]等模型是基于抗病毒治療的慢性乙型肝炎患者,CU-HCC[12]、LSM-HCC[14]及RWS-HCC[17]模型則同時(shí)包含了接受抗病毒治療和未抗病毒治療的慢性乙型肝炎患者,抗病毒治療患者的比例為15%~36%。在研究對(duì)象肝硬化比例方面:REACH-B[13]模型是唯一針對(duì)非肝硬化患者構(gòu)建的預(yù)測(cè)模型,Wu等[22]基于代償期肝硬化的慢性乙型肝炎患者構(gòu)建了LRE的2年風(fēng)險(xiǎn)預(yù)測(cè)模型,其余模型的構(gòu)建人群則同時(shí)包含了肝硬化和非肝硬化的慢性乙型肝炎患者,肝硬化患者的比例為15%~47%。因而在模型應(yīng)用時(shí)需要充分考慮到目標(biāo)人群的基本關(guān)鍵特征,選擇外推性較好、預(yù)測(cè)結(jié)果較準(zhǔn)的模型進(jìn)行臨床應(yīng)用。
關(guān)于各模型中慢性乙型肝炎患者臨床終點(diǎn)事件的風(fēng)險(xiǎn)預(yù)測(cè)因素,大致可以分為3類。(1)傳統(tǒng)流行病學(xué)危險(xiǎn)因素:包括年齡、性別、HCC家族史、飲酒、糖尿病合并癥、肝硬化;(2)臨床檢測(cè)指標(biāo):包括ALT、Alb、PLT、TBil、AFP、LSM、HBeAg、HBV DNA等指標(biāo);(3)遺傳易感性檢測(cè)指標(biāo):包括核心啟動(dòng)子突變等指標(biāo)。本研究納入模型所采用預(yù)測(cè)因素的類別情況,1個(gè)(7%)模型僅納入傳統(tǒng)流行病學(xué)危險(xiǎn)因素,2個(gè)(14%)模型僅納入臨床檢測(cè)指標(biāo),10個(gè)(71%)模型在傳統(tǒng)流行病學(xué)危險(xiǎn)因素基礎(chǔ)上增加了PLT、HBV DNA或Alb等臨床檢測(cè)指標(biāo),1個(gè)(7%)模型綜合了傳統(tǒng)流行病學(xué)危險(xiǎn)因素、臨床檢測(cè)指標(biāo)及遺傳易感性指標(biāo)。在預(yù)測(cè)因素測(cè)量時(shí)間點(diǎn)的選擇上,大部分(86%)模型均選擇了納入基線或抗病毒治療開始時(shí)的各臨床檢測(cè)指標(biāo),僅有2個(gè)(14%)模型考慮了某些臨床檢測(cè)的動(dòng)態(tài)變化。
在模型構(gòu)建的方法學(xué)層面,大部分(12/14,86%)模型采用了Cox比例風(fēng)險(xiǎn)回歸來構(gòu)建預(yù)測(cè)模型,少數(shù)(2/14, 14%)采用了logistic 回歸的方法,未見其他統(tǒng)計(jì)學(xué)方法的使用。所有模型都采用AUC或C-index指標(biāo)進(jìn)行了模型區(qū)分度的評(píng)價(jià),但近半數(shù)(6/14,43%)模型未進(jìn)行校準(zhǔn)度的評(píng)價(jià)和報(bào)告。14個(gè)模型中,5個(gè)模型只在內(nèi)部樣本中進(jìn)行了交叉驗(yàn)證,模型預(yù)測(cè)效果的外推性尚未進(jìn)行評(píng)價(jià),從而限制了模型在臨床的應(yīng)用和推廣。此外,12個(gè)基于Cox比例風(fēng)險(xiǎn)回歸構(gòu)建的預(yù)測(cè)模型中,50%的模型(如CU-HCC[12]、GAG-HCC[10]、LSM-HCC[14]等)未報(bào)道各預(yù)測(cè)因素的系數(shù)及基礎(chǔ)無病生存率,2個(gè)基于logistic回歸構(gòu)建的預(yù)測(cè)模型也未報(bào)告截距項(xiàng)和/或各預(yù)測(cè)因素的系數(shù),從而使這些模型的臨床應(yīng)用受到了一定的限制,也無法基于其他外部隊(duì)列對(duì)這些模型的校準(zhǔn)度進(jìn)行外部驗(yàn)證。由此可見規(guī)范預(yù)測(cè)模型的產(chǎn)生過程及報(bào)告方法,不僅有助于提升預(yù)測(cè)模型本身的質(zhì)量,也能為后續(xù)預(yù)測(cè)模型的臨床應(yīng)用及廣泛驗(yàn)證提供可能。
預(yù)測(cè)模型構(gòu)建基本可以分為5個(gè)步驟,依次是確定研究問題、選擇研究設(shè)計(jì)、模型開發(fā)和評(píng)估、模型內(nèi)部驗(yàn)證和外部驗(yàn)證以及模型結(jié)果的展示和報(bào)告。
3.1 確定研究問題 確定預(yù)測(cè)模型的研究問題要從臨床實(shí)踐出發(fā),從而確保構(gòu)建出的模型能夠真正為臨床科學(xué)決策提供幫助。
3.2 選擇研究設(shè)計(jì) 需要明確預(yù)測(cè)因素與結(jié)局事件的采集時(shí)間點(diǎn)是否相同,即需明確是診斷類預(yù)測(cè)模型還是預(yù)后類預(yù)測(cè)模型,這關(guān)系到采用的研究設(shè)計(jì)類型即橫斷面研究還是隊(duì)列研究。
3.3 模型開發(fā)和評(píng)估 該部分是構(gòu)建預(yù)測(cè)模型的關(guān)鍵,所涉及內(nèi)容主要為統(tǒng)計(jì)分析,包括統(tǒng)計(jì)模型的選擇、預(yù)測(cè)變量的轉(zhuǎn)換和篩選、模型區(qū)分度與校準(zhǔn)度的評(píng)估三部分內(nèi)容。目前構(gòu)建預(yù)測(cè)模型所采用的統(tǒng)計(jì)方法以logistic回歸和Cox比例風(fēng)險(xiǎn)回歸為主,前者未考慮到結(jié)局事件發(fā)生的時(shí)間,無法利用失訪研究對(duì)象的數(shù)據(jù)進(jìn)行分析,統(tǒng)計(jì)效能較Cox比例風(fēng)險(xiǎn)回歸低;但當(dāng)研究對(duì)象的隨訪時(shí)間較為統(tǒng)一,隊(duì)列中失訪率較低時(shí)二者的結(jié)果很接近。因此目前l(fā)ogistic回歸多用在診斷類預(yù)測(cè)模型,Cox比例風(fēng)險(xiǎn)回歸多用在預(yù)后類預(yù)測(cè)模型研究中。當(dāng)然考慮到縱向資料的多次隨訪、各預(yù)測(cè)指標(biāo)的動(dòng)態(tài)變化、競(jìng)爭(zhēng)風(fēng)險(xiǎn)的發(fā)生等方面,其他更為復(fù)雜的統(tǒng)計(jì)模型的應(yīng)用也越來越廣泛,如聯(lián)合模型、時(shí)依協(xié)變量Cox比例風(fēng)險(xiǎn)模型、競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型等。
表1 慢性乙型肝炎/肝硬化患者臨床終點(diǎn)事件預(yù)測(cè)模型構(gòu)建及驗(yàn)證情況
預(yù)測(cè)變量的篩選是預(yù)測(cè)模型準(zhǔn)確性的關(guān)鍵,貫穿于整個(gè)預(yù)測(cè)模型的建立過程。理論上來講預(yù)測(cè)變量越多模型的準(zhǔn)確性往往越高,但通常也意味著模型更為復(fù)雜,應(yīng)用性更差,且容易導(dǎo)致模型過度擬合。因此考慮到臨床應(yīng)用的便捷性,通常會(huì)選擇盡量少的且具備科學(xué)性、可操作性、實(shí)用性和成本效果比的預(yù)測(cè)指標(biāo)。變量篩選的統(tǒng)計(jì)方法有很多種,如基于P值的方法、基于信息準(zhǔn)則的方法、最優(yōu)子集法、機(jī)器學(xué)習(xí)、LASSO等懲罰類變量篩選方法等,具體可根據(jù)相應(yīng)研究問題來選擇合適的變量篩選方法,但一定要注意不能只依賴于統(tǒng)計(jì)層面的篩選,基于既往研究、臨床經(jīng)驗(yàn)、生物學(xué)合理性等認(rèn)為可能有影響的變量也應(yīng)考慮納入。
模型的評(píng)估包括診斷/預(yù)測(cè)效能評(píng)價(jià),如區(qū)分度、校準(zhǔn)度以及靈敏度和特異度、陽性/陰性預(yù)測(cè)值、陽性/陰性似然比等;模型統(tǒng)計(jì)學(xué)評(píng)價(jià),如模型的決定系數(shù)R2、反映模型的擬合優(yōu)度指標(biāo)AIC/BIC等[24];衛(wèi)生經(jīng)濟(jì)學(xué)評(píng)價(jià),如分類改善指標(biāo)(NRI)、綜合判別改善指數(shù)(IDI)、成本-效果分析等[25]。有學(xué)者提出模型性能評(píng)價(jià)的“ABCD原則”[8],即模型截距(Alpha Calibration-in-the-large);校準(zhǔn)曲線斜率(Beta Calibration slope); C統(tǒng)計(jì)量(C-statistics);決策曲線分析(Decision-curve analysis)。
3.4 模型內(nèi)部驗(yàn)證和外部驗(yàn)證 模型驗(yàn)證是預(yù)測(cè)模型構(gòu)建不可或缺的步驟,即對(duì)模型的區(qū)分度和校準(zhǔn)度等進(jìn)行考察的過程。一個(gè)良好的預(yù)測(cè)模型必定經(jīng)過了嚴(yán)格的內(nèi)部驗(yàn)證及外部驗(yàn)證。內(nèi)部驗(yàn)證是基于模型開發(fā)數(shù)據(jù)集進(jìn)行的驗(yàn)證,通常作為模型開發(fā)的一部分,其目的是檢驗(yàn)?zāi)P烷_發(fā)過程的可重復(fù)性。需要注意的是,內(nèi)部驗(yàn)證是針對(duì)整個(gè)建模過程中的所有步驟,包括模型選擇、變量轉(zhuǎn)換和篩選等,而不是僅針對(duì)最終模型進(jìn)行驗(yàn)證。內(nèi)部驗(yàn)證的常見方法包括隨機(jī)拆分驗(yàn)證、交叉驗(yàn)證、重抽樣驗(yàn)證及“內(nèi)部-外部”交叉驗(yàn)證等。外部驗(yàn)證則是基于與模型開發(fā)不同的數(shù)據(jù)集進(jìn)行的驗(yàn)證,更關(guān)注模型的外推性。根據(jù)外部驗(yàn)證數(shù)據(jù)來源的不同,外部驗(yàn)證可以分為時(shí)段驗(yàn)證、空間驗(yàn)證、時(shí)空驗(yàn)證和領(lǐng)域驗(yàn)證等幾類。
3.5 模型結(jié)果的展示和報(bào)告 預(yù)測(cè)模型本質(zhì)上是預(yù)測(cè)變量的各種數(shù)學(xué)公式的組合,為方便臨床應(yīng)用,通常會(huì)將不同的預(yù)測(cè)變量賦予不同的分值,采用評(píng)分表或打分卡的形式對(duì)應(yīng)相應(yīng)的風(fēng)險(xiǎn)。類似的,諸如列線圖或EXCEL工具、網(wǎng)頁(yè)工具或者手機(jī)App等電子方式也可進(jìn)行展示和應(yīng)用。在預(yù)測(cè)模型的報(bào)告方面,《個(gè)體預(yù)后與診斷的多因素預(yù)測(cè)模型報(bào)告規(guī)范》(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis, TRIPOD清單)從標(biāo)題和摘要、介紹、方法、結(jié)果、討論以及其他七個(gè)方面,提出了22個(gè)條目,并一一進(jìn)行了充分的說明和舉例,以規(guī)范報(bào)告內(nèi)容,提高研究質(zhì)量[26]。研究者在開展相關(guān)研究及撰寫研究報(bào)告時(shí)應(yīng)注意參考。
當(dāng)今醫(yī)學(xué)從經(jīng)驗(yàn)醫(yī)學(xué)發(fā)展到循證醫(yī)學(xué),數(shù)據(jù)和證據(jù)的價(jià)值得到前所未有的重視。隨著精準(zhǔn)醫(yī)學(xué)和大數(shù)據(jù)時(shí)代的到來,如何實(shí)現(xiàn)對(duì)乙型肝炎臨床終點(diǎn)事件,尤其是抗病毒治療后終點(diǎn)事件的精準(zhǔn)預(yù)測(cè)成為亟待解決的科學(xué)問題。后續(xù)臨床終點(diǎn)事件預(yù)測(cè)模型的構(gòu)建應(yīng)充分考慮到抗病毒治療后各種臨床生化指標(biāo)的變化,諸如ALT、Alb、PLT、TBil、AFP、LSM、HBeAg、HBV DNA等指標(biāo)在抗病毒治療后的變化情況,從而可對(duì)抗病毒治療后人群肝癌或失代償?shù)冉K點(diǎn)事件的發(fā)生進(jìn)行精準(zhǔn)預(yù)測(cè)。
近年來,隨著肝穿病理量化評(píng)價(jià)技術(shù)如qFibrosis、機(jī)器學(xué)習(xí)等人工智能技術(shù)在臨床研究中的應(yīng)用以及新的病理評(píng)價(jià)標(biāo)準(zhǔn)如“北京標(biāo)準(zhǔn)”[27]的提出,對(duì)肝纖維化逆轉(zhuǎn)的預(yù)測(cè)也將逐漸受到重視。同時(shí),D’Amico等[28]學(xué)者提出的針對(duì)代償期肝硬化患者臨床終點(diǎn)事件細(xì)分為有序的1~6級(jí)分類標(biāo)準(zhǔn)也為實(shí)現(xiàn)肝硬化患者臨床終點(diǎn)事件的精準(zhǔn)預(yù)測(cè)提供了依據(jù)。
此外,應(yīng)該規(guī)范預(yù)測(cè)模型構(gòu)建的方法學(xué)過程,包括統(tǒng)計(jì)分析模型的選擇、預(yù)測(cè)變量的篩選及模型區(qū)分度與校準(zhǔn)度的評(píng)估,盡量減少模型構(gòu)建過程中的偏倚風(fēng)險(xiǎn),并規(guī)范預(yù)測(cè)模型類研究的報(bào)告,這對(duì)于提高模型的預(yù)測(cè)性能和臨床應(yīng)用也至關(guān)重要。目前已有學(xué)者制定了預(yù)測(cè)模型的偏倚風(fēng)險(xiǎn)評(píng)價(jià)工具PROBAST (Prediction model Risk Of Bias ASsessment Tool)[29]和報(bào)告規(guī)范清單TRIPOD[26]。隨著預(yù)測(cè)模型構(gòu)建的方法學(xué)規(guī)范化,臨床終點(diǎn)評(píng)價(jià)標(biāo)準(zhǔn)的精細(xì)化,以及人工智能技術(shù)在臨床研究的深入應(yīng)用,相信一定會(huì)有助于加速實(shí)現(xiàn)慢性乙型肝炎臨床終點(diǎn)事件精準(zhǔn)預(yù)測(cè)的目標(biāo)。