孫果梅
上海市醫(yī)療器械化妝品審評核查中心,上海市,200020
臨床評價資料是體外診斷試劑注冊申報資料的重要部分,是判斷產(chǎn)品是否滿足使用要求、確定適用范圍的重要依據(jù)。體外診斷試劑的臨床評價主要有以下幾種途徑:一是列入免于進行臨床試驗的體外診斷試劑目錄的產(chǎn)品,可通過與境內(nèi)已上市同類產(chǎn)品進行比較研究試驗證明等效性,或通過與參考方法進行比較研究試驗考察符合性/一致性[1];二是開展臨床試驗考察產(chǎn)品的臨床性能是否滿足使用要求或預期用途,確認產(chǎn)品的風險/受益比是否可接受,并確定產(chǎn)品的適用人群及適應癥[2-3]。通過以上途徑獲得的臨床數(shù)據(jù),經(jīng)過適當?shù)慕y(tǒng)計學處理才能獲得支持臨床評價結論的證據(jù)。參考《免于進行臨床試驗的體外診斷試劑臨床評價資料基本要求(試行)》中“數(shù)據(jù)收集和處理”和《體外診斷試劑臨床試驗指導原則(征求意見稿)》中“臨床試驗的統(tǒng)計學分析”部分的內(nèi)容,對體外診斷試劑定性產(chǎn)品、半定量產(chǎn)品和定量產(chǎn)品的臨床評價中常用統(tǒng)計學方法進行概述。
(1)定性產(chǎn)品的臨床評價檢測結果通常以2×2表格的形式呈現(xiàn),并計算靈敏度(陽性符合率)、特異度(陰性符合率)、準確度(總符合率)、約登指數(shù)、似然比、預測值等指標及其95%可信區(qū)間。
靈敏度和特異度是反映檢測試劑診斷準確性的兩個最基本的統(tǒng)計指標,同時提高檢測試劑兩個指標值較為困難,在實際應用中,當漏診(假陰性)帶來的危害性高時,要求檢測試劑有較高的靈敏度;當誤診(假陽性)帶來的危害性高時,要求檢測試劑有較高的特異度。約登指數(shù)=(靈敏度+特異度)-1,適用于檢測結果假陽性和假陰性具有同等意義危害性的情況。
似然比包括陽性似然比和陰性似然比,陽性似然比=靈敏度/(1-特異度),其值越大診斷價值越高;陰性似然比=(1-靈敏度)/特異度,其值越小診斷價值越高。似然比綜合了靈敏度和特異度的信息,并且可用于結果為有序資料和定量資料的檢測試劑臨床評價,提供更多的診斷信息。預測值包括陽性預測值和陰性預測值,陽性預測值是指考核試劑結果為陽性者之中對比試劑結果陽性的概率,陰性預測值是指考核試劑結果為陰性者之中對比試劑結果陰性的概率[4]。
(2)半定量產(chǎn)品的臨床評價檢測結果通常以R×C表格的形式呈現(xiàn),數(shù)據(jù)類型多為單項有序資料(等級資料),可計算各等級的符合率、似然比、預測值等指標,也可計算Kendall秩相關系數(shù)或使用ROC曲線下面積分析方法。
(3)通過假設檢驗對兩種檢測系統(tǒng)開展一致性評價,可采用Kappa一致性檢驗。Kappa一致性檢驗的原理是評估兩個檢測系統(tǒng)結果一致性是否由于偶然因素導致,即觀察一致率與機遇一致率是否有顯著性差異。Kappa一致性檢驗的結果表現(xiàn)為Kappa統(tǒng)計量,反映了兩個檢測系統(tǒng)結果一致性的高低程度。Kappa>0.75表明一致性程度好;Kappa<0.4表明一致性程度較差[5]。Kappa檢驗分為簡單Kappa檢驗和加權Kappa檢驗,前者適用于定性產(chǎn)品的臨床評價,后者適用于半定量產(chǎn)品的臨床評價。加權Kappa檢驗可分為線性加權法和平方加權法。線性加權法每兩個等級之間的差異相等,權重是等級距離的倍數(shù);平方加權法的權重是線性加權法權重的平方,放大了等級距離大的判定不一致程度。加權方法的選擇應考慮研究設計和不同等級之間差異的具體意義。
(4)定性產(chǎn)品臨床評價的實例:以大便隱血檢測試劑盒(膠體金法)為例,應用考核試劑和對比試劑分別檢測120例臨床樣本,結果分析如表1所示。
表1 大便隱血檢測結果Tab.1 Test results of fecal occult blood (FOB)
根據(jù)表1 數(shù)據(jù),可計算:靈敏度=43/(43+7)×100%=8 6.0 0%;特異度=6 5/(5+65)×100%=92.86%;準確度=(43+65)/(43+5+7+65)×100%=90.00%;Kappa一致性檢驗結果:Kappa值=0.793,P<0.001,考核試劑與對比試劑檢測結果一致性程度好。
主要評價指標一般涉及相關系數(shù)、回歸方程、ROC曲線下面積等。主要分析步驟包括:
以考核試劑測定值作Y軸、對應的對比試劑測定值作X軸繪制散點圖,目測線性趨勢、測定值覆蓋線性范圍的情況以及離群值情況等。
根據(jù)美國臨床和實驗室標準協(xié)會(NCCLS)文件EP9-A2《用患者標本進行方法比對及偏倚評估;批準指南-第二版》中離群值的判定方法,計算兩種方法測定結果的絕對差值(|Yi-Xi|)及其平均值,以及相對差值(|Yi-Xi|/Xi)及其平均值,并計算檢測限及相對檢測限。絕對差值大于檢測限,且相對差值大于相對檢測限的樣本,則判斷為離群值。如果出現(xiàn)一個以上的離群值,但并未超出醫(yī)學上有臨床意義的界限,可保留離群值開展分析;如果離群值的個數(shù)不超過2.5%,可刪除離群值后進行分析;若超出2.5%,則應開展原因分析,必要時增加樣本量以滿足試驗要求。
相關分析:評價兩種檢測系統(tǒng)結果的相關程度。常用的有Pearson相關系數(shù)和Spearman秩相關系數(shù),前者要求兩種檢測系統(tǒng)結果應為正態(tài)分布,后者對數(shù)據(jù)分布無要求。相關系數(shù)r越接近1,說明兩種檢測系統(tǒng)結果相關性越強。相關分析也用來判斷樣本取值是否有足夠的分布范圍,根據(jù)EP9-A2文件,如果r≥0.975(或r2≥0.95),可認為樣本取值范圍合適。
Bland-Altman法:計算一致性限度,應在臨床認可的界值之內(nèi)。通常選用差值法,兩種檢測系統(tǒng)的差值d服從正態(tài)分布,95%一致性限度為d±1.96Sd,以兩種檢測系統(tǒng)結果均值為橫軸,差值為縱軸繪制Bland-Altman差異分析圖觀察d值是否落在一致性限度范圍內(nèi)。該方法清晰直觀且需結合臨床意義進行綜合判定,優(yōu)勢明顯;但對數(shù)據(jù)分布和測量誤差有一定要求,兩種檢測系統(tǒng)結果差值應為正態(tài)分布、方差齊同、平均趨勢在測量范圍內(nèi)保持不變[4]。
回歸分析:應根據(jù)數(shù)據(jù)分布特點等因素選擇使用的回歸方法,如Deming回歸、Passing-Bablok回歸和最小二乘(LS)回歸估計等。最小二乘回歸估計和Deming回歸對數(shù)據(jù)的分布、等方差性等有較為嚴格的要求,最小二乘回歸要求自變量X為固定變量,因變量Y為隨機變量,回歸僅考慮Y的殘差最小;Deming回歸要求自變量X和因變量Y均為隨機變量,回歸須同時考慮X的殘差最小和Y的殘差最小,更適用于體外診斷試劑兩檢測系統(tǒng)的一致性評價[6]。Passing-Bablok回歸對數(shù)據(jù)分布和測量誤差無特殊要求,計算方法是針對散點圖中的任意兩點計算斜率,取所有斜率的中位數(shù)作為回歸方程的斜率[7]。研究表明當分析不確定性隨測量濃度的增加而增加時,Passing-Bablok回歸的結果比Deming回歸更準確[8]。為評估考核試劑和對比試劑的等效性,回歸分析的截距應接近0,斜率應接近1,兩種檢測系統(tǒng)結果一致性較好。
ROC分析:受試者工作特征曲線(ROC)是以假陽性率(1-特異度)為橫軸、以真陽性率(靈敏度)為縱軸、依照連續(xù)變化的診斷閾值繪制的曲線,ROC曲線下面積(AUC)反映考核檢測試劑的診斷價值,或同時比較兩種試劑的診斷價值。ROC曲線一般位于機會對角線的上方,AUC的取值范圍為0.5~1。根據(jù)AUC的取值可大致將考核試劑的診斷價值分為較低(0.5<A≤0.7)、中等(0.7<A≤0.8)、較高(0.8<A≤0.9)和很高(A>0.9)[4],但仍應進一步以推薦的陽性判斷值進行靈敏度、特異度等指標(及其95%可信區(qū)間)的評價。比較兩種試劑的診斷價值不能僅考慮AUC的大小,特別是在兩條ROC曲線出現(xiàn)相交的情況時,應充分考慮適用人群的特征、檢測結果(特別是假陽性和假陰性)的臨床意義等。
醫(yī)學決定水平處預期偏倚的95%置信區(qū)間與允許誤差的限值相比較,以判定兩檢測系統(tǒng)是否等效,考核試劑的預期偏倚是否可接受。每個實驗室應建立自己的限值標準,限值的選擇一般為較公認的允許誤差要求,如CLIA’88中指標要求的1/2、臨床檢驗中心室間質量評價標準的1/2等,或參考相關文獻和專家共識的標準。根據(jù)EP9-A2文件,允許誤差落在置信區(qū)間內(nèi),說明預期偏倚小于允許誤差,兩個系統(tǒng)得出的結果相當,偏倚可以被接受;允許誤差小于預期偏倚95%置信區(qū)間的下限,說明有>97.5%的概率預期偏倚大于允許誤差,兩個系統(tǒng)得出的結果不相當,偏倚不能被接受;允許誤差大于置信區(qū)間的上限,說明有>97.5%的概率預期偏倚小于允許誤差,兩個系統(tǒng)得出的結果相當,偏倚可以被接受。
以降鈣素原檢測試劑盒(化學發(fā)光法)為例,應用考核試劑和對比試劑分別檢測120例臨床樣本,結果分析如下。
散點圖與離群值分析:圖1為降鈣素原檢測結果散點圖,目測結果呈線性分布,分布范圍覆蓋了考核試劑的線性范圍,取值包括正常值和異常值。離群值分析中,絕對差值大于檢測限的樣本為13例,相對差值大于相對檢測限的樣本為2例,無樣本的絕對差值和相對差值均超限,因此本研究無離群值。
圖1 降鈣素原檢測結果散點圖Fig.1 Scatter plot of procalcitonin test results
主要評價指標分析:相關系數(shù)r=0.993>0.975,P<0.001,95%置信區(qū)間為(0.990,0.995),考核試劑和對比試劑的檢測結果相關度高,可認為樣本取值范圍合適。回歸分析選擇Deming回歸,結果如圖2所示。回歸方程為y=0.006+1.012x,斜率的95%置信區(qū)間為(0.962,1.061),截距的95%置信區(qū)間為(-0.223,0.234),考核試劑和對比試劑的檢測結果一致性較好。Bland-Altman一致性分析結果,如圖3所示??己嗽噭┖蛯Ρ仍噭┑臋z測結果一致性較好,但有10%(12/120)的點落在95%一致性界限之外,需做進一步分析。
圖2 降鈣素原檢測結果回歸分析圖Fig.2 Regression analysis chart of procalcitonin test results
圖3 Bland-Altman一致性分析結果Fig.3 Bland-Altman consistency analysis results
醫(yī)學決定水平預期偏倚:降鈣素原的醫(yī)學決定水平Xc為0.5 ng/mL,2019年臨床檢驗中心室間質量評價標準的可接受范圍為靶值±30%,因此允許誤差設定為靶值的15%,醫(yī)學決定水平處的允許誤差為0.075 ng/mL??己嗽噭┰卺t(yī)學決定水平附近共95例樣本,預期偏倚估計值為0.041,95%置信區(qū)間為(-0.006,0.088),允許誤差落在置信區(qū)間內(nèi),偏倚可以被接受。
體外診斷試劑的臨床評價資料是考察產(chǎn)品臨床性能、評估產(chǎn)品預期用途的重要依據(jù)。在嚴格設計研究方案、完整收集臨床數(shù)據(jù)的前提下,選擇適當?shù)呐R床評價指標和統(tǒng)計方法開展數(shù)據(jù)分析才能獲得支持臨床評價結論的證據(jù)。對體外診斷試劑定性產(chǎn)品、半定量產(chǎn)品和定量產(chǎn)品的臨床評價中常用統(tǒng)計學方法進行概述,相關統(tǒng)計方法在體外診斷試劑產(chǎn)品的分析性能評估、陽性判斷值或參考區(qū)間確定時也有應用。主要介紹了常用統(tǒng)計方法的使用條件、臨床意義、基本原理和評價標準等,供體外診斷試劑審評人員在審核注冊申報資料時參考。