岳 波,李丹杰,唐大海,劉曼嬌,賀嘉蕾,蔣夢潔,韋曉強
(上海長海醫(yī)院虹口院區(qū)檢驗科,上海 200081)
1983年,Harris和Yasaka提出參考變化值(reference change value,RCV)的概念[1],嘗試創(chuàng)立一種用于評估單個病例連續(xù)檢測結(jié)果之間差異有效性的客觀的工具,由此拉開個性化解讀檢驗結(jié)果的序幕。當患者當前檢測結(jié)果(X2)與上一次檢測結(jié)果(X1)之間的相對變化值[ΔR,ΔR=(X2-X1)/X1]超出RCV時,則認為變化有效,提示患者健康狀態(tài)發(fā)生變化,否則認為變化無效,變化源于固有變異[CVT,CV為變異系數(shù)(coefficient of variation)][2]。RCV有助于臨床更客觀地評估患者健康狀態(tài)的變化,減少因臨床醫(yī)生認知局限和主觀意識偏差對病情判斷的干擾。RCV在我國一直被譯為“參考變化值”,然而相關(guān)文獻[1-7](包括Harris本人)均認為RCV的定義是“在患者健康狀態(tài)未發(fā)生明顯改變時,由相對變化值ΔR的所有可能值組成的集合的中間95%部分構(gòu)成的區(qū)間”,或稱相對變化值ΔR的95%參考區(qū)間(confidence interval,CI),因此我們認為,將RCV翻譯為“相對變化值參考區(qū)間”更易于理解和推廣。
理論上認為,患者當前健康狀態(tài)的指標有一個相對平衡點(穩(wěn)定值),平衡點發(fā)生改變,則提示健康狀態(tài)發(fā)生改變,如能檢測平衡點,則可較好地評估健康狀態(tài)變化。然而,由于個體內(nèi)生物學變異(CVI)的存在,患者指標時刻都在變化,每次對平衡點的檢測實際只是對圍繞平衡點變化的各種可能值組成的總體的隨機抽樣。另外,標本的檢測結(jié)果還受分析變異(CVA)影響,因此最終測定的關(guān)于平衡點的結(jié)果等效于對由圍繞平衡點變化的各種表觀測量值組成的總體的一次隨機抽樣(圖1),該總體的變異由CVI和CVA疊加而成,且無法消除,被稱為固有變異(CVT)。當CVT較大時,即使平衡點未發(fā)生明顯改變,每次的測量值之間也可能存在較大差異,因此臨床醫(yī)生在監(jiān)測治療效果及疾病轉(zhuǎn)歸時,迫切需要一種方法來判斷“當前檢測結(jié)果(X2)與上一次檢測結(jié)果(X1)之間的差異是否能說明病情發(fā)生了變化,差異是否僅源于CVT”。
圖1 CVT導致測量值之間可能存在較大差異
換一種方式分析這個問題:將患者當前健康狀態(tài)所有可能的檢測結(jié)果放在一起,組合成總體(T),變異為CVT,每次從T中隨機連續(xù)抽出2個數(shù)據(jù)Xi1、Xi2,設(shè)ΔRi=(Xi2-Xi1)/Xi1,將全部的ΔRi放在一起,組合成ΔR分布,上述問題即轉(zhuǎn)變?yōu)椤耙阎狢VT,求ΔR分布的95%CI,即RCV”。雖然Harris和Yasaka曾給出計算公式[1]:為一種對稱性區(qū)間,但我們認為該算法欠妥。我們的研究結(jié)果顯示,ΔR呈正偏態(tài)分布,而非正態(tài)分布,其他學者也有相關(guān)研究結(jié)果支持正偏態(tài)分布[8-12]的結(jié)論,因此RCV應具有非對稱性,RCV算法需要改進。為此,基于蒙特卡洛法,我們采用Excel 2007軟件進行了大數(shù)據(jù)建模,對ΔR的分布特點及其與CVT的關(guān)系進行了系列分析,為了便于研究,我們引入了本研究團隊近年來推廣的波動性(λ,λ=X2/X1)及波動性參考區(qū)間(CIλ)等指標[13-14]。
基于蒙特卡洛法建立的統(tǒng)計學模型,包括用Excel 2007軟件建立的大數(shù)據(jù)正態(tài)分布模型、λ分布模型、ΔR分布模型。
先通過蒙特卡洛法得到符合條件的隨機變量,建立模型,再用統(tǒng)計學方法分析模型中各種特征變量及不同變量相互之間的關(guān)系。
(1)假設(shè)同一健康個體多次檢測結(jié)果的數(shù)值相互獨立,沒有相關(guān)性和趨勢性,且呈正態(tài)分布。定義相鄰2次檢測結(jié)果的前1次結(jié)果為X1,后1次為X2,計算公式為:λ=X2/X1,ΔR=(X2-X1)/X1,CIλ、RCV分別為λ和ΔR的95%CI。
(2)此次建模主要使用了3個函數(shù):①“NORMDIST(0,μ,σ,1)”函數(shù)可返回0在正態(tài)分布中的累積概率,為使產(chǎn)生的隨機變量呈非負值,并盡可能保留正態(tài)性及完整性,我們在0的右側(cè)非??拷?的位置進行了截斷,截斷下限對應的累計概率設(shè)置為“NORMDIST(0,μ,σ,1)*1.000 000 1”,上限與之對稱,為“1-NORMDIST(0,μ,σ,1)*1.000 000 1”;②“RAND()*(b-a)+a”函數(shù)可返回a和b之間的隨機數(shù),在本模型中用于從正態(tài)分布中進行隨機抽樣,a和b分別等于①中的下限和上限對應的累積概率;③“NORMINV(P,μ,σ)”函數(shù)可返回給定累積概率在正態(tài)分布中對應的區(qū)間點,令P等于②中計算出的概率,即可從正態(tài)分布N(μ,σ2)中進行1次隨機抽樣。合并后的復合函數(shù)為“NORMINV(RAND()*(1-NORMDIST(0,μ,σ,1)*1.000 000 1*2)+NORMDIST(0,μ,σ,1)*1.000 000 1,μ,σ)”。該復合函數(shù)通過穩(wěn)健處理法[8,15]將正態(tài)分布N(μ,σ2)在0和2μ附近對稱性地截斷,然后從中隨機抽樣,確保模擬變量的隨機性、非負性、正態(tài)性。首先使用復合函數(shù)在A、B 2列生成100萬對非負數(shù)據(jù),模擬健康個體多次檢測結(jié)果,A列模擬相鄰2次檢測結(jié)果的前1次結(jié)果(X1),B列模擬后1次結(jié)果(X2);C列模擬λ,值為X2/X1,共100萬個;D列模擬ΔR,值為(X2-X1)/X1,共100萬個。
(3)不斷改變μ、σ、CV的取值,分析λ和ΔR的變化規(guī)律,同時繪制頻數(shù)分布折線圖進行比較,必要時使用SPSS軟件輔助正態(tài)性檢驗。
(4)將μ固定為1 0 0,σ通過公式“100*CV”自動計算,先將CV設(shè)置為0.1%,利用非參數(shù)法統(tǒng)計C列、D列的95%CI(即CIλ和RCV)并記錄。然后將CV設(shè)置為0.2%,再統(tǒng)計相應CIλ、RCV,并記錄。CV每次以0.1%遞增,重復上述步驟直至CV為30.0%,得到共300組數(shù)據(jù),匯總結(jié)果并繪制與CV對應的關(guān)系表。
(5)對300組CIλ、RCV與CV的對應關(guān)系進行回歸分析,得出RCV的回歸方程及新算法。
(6)使用新算法重新計算既往文獻[16-17]報道的RCV應用實例數(shù)據(jù),并與傳統(tǒng)算法進行比較。
(1)根據(jù)λ和ΔR的定義可知:λ=X2/X1,ΔR=(X2-X1)/X1,因此ΔR=(X2-X1)/X1=X2/X1-1=λ-1,即ΔR=λ-1(公式1)。
(2)將正態(tài)分布模型進行u變換,設(shè)ui=(Xi-μ)/σ,則ui呈標準正態(tài)分布,即ui~N(0,1)。由ui=(Xi-μ)/σ可得Xi=uiσ+μ,所以λi=Xi2/Xi1=(ui2σ+μ)/(ui1σ+μ)=(ui2+μ/σ)/(ui1+μ/σ)=(ui2+1/CV)/(ui1+1/CV),即λi=(ui2+1/CV)/(ui1+1/CV)(公式2)。
(3)設(shè)λi=Xi2/Xi1,因為Xi1和Xi2的抽樣是隨機且相互獨立的,所以在1次配對抽樣中,抽取組合(前1次結(jié)果為Xi1,后1次為Xi2)的概率與抽取組合(前1次結(jié)果為Xi2,后1次為Xi1)的概率相等,即在λ分布中,λi和1/λi出現(xiàn)的概率相等。對λ進行自然對數(shù)轉(zhuǎn)換,則ln(λi)與ln(1/λi)在lnλ分布中出現(xiàn)的概率相等。由于ln(1/λi)=-ln(λi),所以ln(λi)和-ln(λi)出現(xiàn)的概率相等,即lnλ呈對稱分布(推論1)。
采用Excel 2007和SPSS 24.0軟件對λ、ΔR的分布進行統(tǒng)計學分析。采用2種方法進行正態(tài)性分析。(1)Z分數(shù)法。Z分數(shù)是以標準差為單位對原始數(shù)據(jù)與均值之間距離度量的指標,通過變換公式,可將分析對象轉(zhuǎn)換為Z分數(shù),當原始數(shù)據(jù)呈正態(tài)分布時,則Z分數(shù)呈標準正態(tài)分布。(2)K-S檢驗法。將分析對象的Z分數(shù)頻數(shù)分布折線圖與標準正態(tài)分布進行比較,兩者擬合度越高,分析對象呈正態(tài)分布的可能性越大,對于擬合度較高者采用第2種方法做進一步檢驗。根據(jù)EP28-A3c指南要求[16],非正態(tài)分布數(shù)據(jù)使用非參數(shù)法(P2.5,P97.5)確定95%CI。
由公式1可推出:λ和ΔR可互相轉(zhuǎn)換,兩者分布形狀相同,將λ分布向左平移“1”即可得到ΔR分布,將CIλ的上限、下限同時減“1”即可得到RCV。頻數(shù)分布圖顯示:λ、ΔR分布形狀相同,且呈正偏態(tài)分布(圖2),隨著CV的增大,λ、ΔR分布的偏態(tài)越來越明顯和扁平。λ的Z分數(shù)分布圖顯示:λ對應的Z分數(shù)分布峰值均在標準正態(tài)分布左側(cè),且尾部向右側(cè)延申,即呈正偏態(tài)分布,且CV越大,偏態(tài)越明顯(圖3);當CV相同時,即使μ、σ相差很大,λ對應的Z分數(shù)分布圖也基本能重合(圖4),即λ的分布僅由CV決定,通過公式2也可證明此觀點。
圖2 不同CV時λ分布和ΔR分布比較
圖3 不同CV時λ的Z分數(shù)分布
圖4 相同CV、不同μ、σ、λ時Z分數(shù)分布
Z分數(shù)分布圖顯示,λ取對數(shù)后呈中心對稱分布,且CV越小,lnλ的Z分數(shù)分布與標準正態(tài)分布擬合度越高,當CV≤9.5%時,分布圖接近重合(圖5),lnλ近似呈正態(tài)分布。
圖5 CV為9.5%時λ、lnλ時Z分數(shù)分布
由推論1可知,λ取自然對數(shù)后呈以0為中心的對稱分布,因此計算CIλ時將λ取對數(shù)后,取中間95%部分作為95%CI更科學。理論上lnλ分布的P2.5(lnλ)與P97.5(lnλ)以0為中心對稱分布,但由于抽樣誤差的存在,實際統(tǒng)計分析出來的P2.5(lnλ)與P97.5(lnλ)很難對稱,導致理論上呈對稱性的CI,在采用非參數(shù)法進行統(tǒng)計時失去對稱性。為保留CI的對稱性,并降低抽樣誤差,我們使用校正因子(FC)對P2.5和P97.5進行校正:令FC=(|P2.5(lnλ)|+|P97.5(lnλ)|)/2,或者FC=(|ln(P2.5(λ))|+|ln(P97.5(λ))|)/2(公式3),則CIλ=(e-FC,eFC)(公式4),RCV=(e-FC-1,eFC-1)(公式5)。
由公式2可知λ的分布特征僅由標本總體的CV決定,因此CV的取值決定了CIλ、RCV,通過公式3、公式4、公式5可將CV、FC、CIλ、RCV相互之間建立一一對應關(guān)系。以0.1%作為間隔,我們模擬研究了CV為0.1%~30.0%時共300組對應關(guān)系,各組對應關(guān)系均先由模型生成100萬對數(shù)據(jù)(數(shù)據(jù)容量越大,F(xiàn)C越穩(wěn)定,當數(shù)據(jù)達到20萬對時,已能維持FC精確到10-4時相對穩(wěn)定,再繼續(xù)增大數(shù)據(jù)容量意義不大。另外,受Excel 2007最大行數(shù)限制,模型數(shù)據(jù)容量設(shè)為100萬對),然后再統(tǒng)計分析得出FC、CIλ、RCV與CV的對應關(guān)系。部分結(jié)果見表1。
表1 CIλ、RCV、FC與CV的對應關(guān)系
利用Excel 2007軟件對300組CV和FC的對應關(guān)系進行回歸分析,結(jié)果顯示,四次多項式擬合效果最佳,相關(guān)系數(shù)接近1.00?;貧w方程為:FC=15.14CV4-0.548CV3+0.620CV2+2.742CV(公式6);CV=0.032FC4-0.096FC3+0.006FC2+0.36FC(公式7)。
既往文獻報道[16-17]中的RCV實例經(jīng)本算法修正后,RCV區(qū)間均向右偏移,這種現(xiàn)象在CVT較大時更為顯著。見表2、圖6。
表2 2種算法RCV結(jié)果比較 %
圖6 2種算法得出的RCV的比較
λ和ΔR均涉及到2個正態(tài)變量之間的比值,分布較為復雜,目前尚無相關(guān)文獻可以給出相關(guān)概率分布公式。本研究使用蒙特卡洛法模擬建立了由患者各種可能的表觀測量值組成的、變異為CVT的總體分布模型和相關(guān)的λ、ΔR分布模型,再用統(tǒng)計學方法分析模型中各特征變量之間的關(guān)系,最后通過回歸分析法得出RCV回歸方程及新算法。
綜合本研究結(jié)果可得出以下結(jié)論:(1)λ分布呈正偏態(tài)分布,取自然對數(shù)后呈中心對稱分布,當CV≤9.5%時,λ近似呈對數(shù)正態(tài)分布;ΔR的分布與λ相同,位置相對于λ向左平移“1”,λ與ΔR可由公式1互相轉(zhuǎn)換;(2)由正態(tài)分布總體衍生的λ分布均可由公式2轉(zhuǎn)換為標準形式,即λi=(ui2+1/CV)/(ui1+1/CV),由于ui2、ui1均呈標準正態(tài)分布,因此λ分布僅由CV決定,若CV相同,則λ分布相同;(3)由推論1可知,λ取自然對數(shù)后呈對稱分布,在使用非參數(shù)法統(tǒng)計分析CIλ和RCV時,引入校正因子FC可有效降低抽樣誤差,通過本研究的公式3、公式4、公式5分析CI更可靠;(4)公式6、公式7可以將CIλ、RCV經(jīng)FC與CV相互轉(zhuǎn)換;(5)回歸分析結(jié)果顯示CV越大,CIλ、RCV的范圍越寬。
當通過RCV判斷患者某指標檢測結(jié)果從XA到XB的健康狀態(tài)是否發(fā)生改變時,或檢測結(jié)果從XB到XA的健康狀態(tài)是否發(fā)生改變時,依據(jù)傳統(tǒng)算法導出的對稱性RCV可能會得出2個相互矛盾的結(jié)論,如假設(shè)某指標的CVT為12.8%,依據(jù)傳統(tǒng)算法則RCV為(-35.5%,35.5%),假設(shè)140和100是患者的2次隨機測量值,如果患者檢測結(jié)果從140降到100,則ΔR=(X2-X1)/X1=(100-140)/140=-28.6%,未超出RCV,提示變化無效;如果患者結(jié)果從100升到140,則ΔR=(X2-X1)/X1=(140-100)/100=40%,超出RCV,變化有效,提示患者健康狀態(tài)發(fā)生改變;同樣的2個測試結(jié)果,只因出現(xiàn)順序不同卻得到2個互相矛盾的結(jié)論,因此傳統(tǒng)算法得出的RCV欠妥。本研究的新算法則不會出現(xiàn)這種相互矛盾的結(jié)論。因為判斷ΔR是否超出新算法導出的RCV區(qū)間,等同于判斷λ是否超出CIλ,即等同于判斷l(xiāng)nλ的絕對值是否超出F,而從XA到XB與從XB到XA2個方向變化得出的lnλ互為相反數(shù),絕對值始終相等,所以依據(jù)新算法導出的RCV在從2個方向判斷患者健康狀態(tài)是否發(fā)生改變時,可以始終保持一致。依據(jù)新算法,此例中的RCV為(-30.5%,43.9%),F(xiàn)C為0.364 0,判斷從2個方向得出的ΔR是否超出RCV等同于判斷l(xiāng)n(100/140)及l(fā)n(140/100)的絕對值是否超出FC,很顯然,|ln(100/140)|=|ln(140/100)|=0.336 5未超出0.364 0;而-28.6%與40.0%也均未超出(-30.5%,43.9%),即無論結(jié)果從140變化到100,還是從100變化到140,都提示變化無效,變化可能源于固有變異(CVT),患者健康狀態(tài)未發(fā)生明顯改變。由于計算RCV的原理不同,與傳統(tǒng)算法相比,新算法得出的RCV改變較顯著(表2和圖6),有助于RCV的臨床推廣應用。
1983年,Harris和Yasaka就提出通過ΔR是否超出RCV來評估結(jié)果變化是否有統(tǒng)計學意義[1],但直至目前,RCV的概念和應用卻極少被用于臨床實驗室,我們認為有以下原因:(1)研究RCV的大部分學者認為ΔR呈正態(tài)分布,RCV是對稱的,然而本研究結(jié)果顯示ΔR呈非對稱的正偏態(tài)分布,因此RCV計算公式的適用性存疑;(2)RCV計算公式中的CVT需要根據(jù)個體內(nèi)生物學變異(CVI)來計算,而現(xiàn)有文獻報道的各種CVI通常來自少數(shù)人的、小樣本量的數(shù)據(jù)統(tǒng)計分析,重復性差,不具代表性,同一指標的CVI在不同文獻[19]報道中往往差異很大,給RCV計算帶來困擾。上述2點是RCV在臨床應用中的最大阻力。近幾年,我們提出通過λ是否超出CIλ來評估結(jié)果變化是否有統(tǒng)計學意義,在臨床應用上取得了一定進展[13-14]。與ΔR相比,λ為非負數(shù),可進行對數(shù)轉(zhuǎn)換,有利于分布特征的分析。在公認的、統(tǒng)一的、標準的CVI檢測方法出現(xiàn)之前,通過本研究的公式3、公式4、公式5進行非參數(shù)法統(tǒng)計CIλ、RCV,結(jié)果更可靠,更適合進行臨床推廣應用。
有研究結(jié)果顯示,由于生物學變異及分析變異的影響,僅依靠傳統(tǒng)CI解讀實驗室檢測結(jié)果存在較大局限性[13-14,20]。CIλ、RCV以及CVI的研究是精準解讀實驗室檢測結(jié)果,提高實驗室信息在臨床決策過程中的影響力的關(guān)鍵一環(huán)。遺憾的是,關(guān)于這些指標的研究目前仍沒有標準化的統(tǒng)一方案,亟需更多力量、更多學科相互合作,去研究和推動。
本研究是蒙特卡洛法在檢驗醫(yī)學中的一次運用,隨著科技的進步及跨專業(yè)醫(yī)學人才的不斷涌現(xiàn),希望會有越來越多的交叉學科的知識融入醫(yī)學,助推醫(yī)學進步。