診斷性試驗(yàn)準(zhǔn)確性的評(píng)估

2018-10-18 01:30FangyuLIHuaHE

上海精神醫(yī)學(xué) 2018年3期

Fangyu LI, Hua HE*

1．背景

根據(jù)全球疾病負(fù)擔(dān)研究的估計(jì)，精神性疾病的全球發(fā)病率很高，僅次于心血管疾病[1]。在精神性疾病中，抑郁癥目前是導(dǎo)致全球殘疾負(fù)擔(dān)的主要原因。在中國(guó)，抑郁癥是殘疾調(diào)整生命年（DALYs）的四個(gè)主要原因之一[2]。2012年中國(guó)所有成年人的抑郁癥總患病率為37.68%，重度抑郁癥患病率為4.08%，2013年至2015年，中國(guó)的疾病負(fù)擔(dān)估計(jì)增加了10%[3-4]。對(duì)于抑郁癥的診斷，DSMIV的結(jié)構(gòu)化臨床訪談（SCID）被普遍認(rèn)為是臨床實(shí)踐和研究的金標(biāo)準(zhǔn)，并將繼續(xù)被廣泛使用[5-8]。然而，SCID的使用受到一系列諸如成本和精神科醫(yī)生嚴(yán)重短缺等因素的限制。因?yàn)镾CID不能用作自動(dòng)提供精神病診斷的絕對(duì)可靠的清單，它必須由訓(xùn)練有素的精神科醫(yī)生[9]執(zhí)行，最終導(dǎo)致高費(fèi)用和部分患者難以承受的精神衛(wèi)生保健。中國(guó)精神科醫(yī)生的短缺也限制了患者獲得精神衛(wèi)生專職人員治療的機(jī)會(huì)。此外，對(duì)一些患者（例如老年患者）進(jìn)行檢查可能很困難且耗時(shí)。由于SCID的限制，一些易于操作的篩查工具，如漢密爾頓抑郁量表（HAM-D）、貝克抑郁量表（BDI），甚至更簡(jiǎn)單的篩查工具，如患者健康問卷（PHQ-2，PHQ-9），被設(shè)計(jì)并用于對(duì)患者進(jìn)行抑郁癥診斷[10]。例如，最常用的工具HAM-D量表是一種提供抑郁癥指征的多項(xiàng)問卷，它也是一份評(píng)估抑郁癥康復(fù)的指南[11]。同樣，貝克抑郁量表（BDI）的21個(gè)問題的多選式自我報(bào)告條目也被廣泛用于衡量抑郁癥的嚴(yán)重程度。然而，在篩選工具可以應(yīng)用于患者之前，評(píng)估這些篩查工具相對(duì)于金標(biāo)準(zhǔn)SCID的準(zhǔn)確性至關(guān)重要[12]。如果篩查工具可以正確地將患病受試者分類為患病，將非患病的受試者分類為未患病，則可以提倡將該篩查工具用于醫(yī)療實(shí)踐。否則，其實(shí)際使用應(yīng)謹(jǐn)慎。在本文中，我們將討論如何評(píng)估診斷性試驗(yàn)的準(zhǔn)確性。

2．診斷性試驗(yàn)的準(zhǔn)確性

當(dāng)診斷性試驗(yàn)結(jié)果為二分類變量時(shí)，例如是和否，陽性與陰性，靈敏度和特異度被廣泛用于評(píng)估診斷性試驗(yàn)的準(zhǔn)確性。靈敏度是患病受試者中檢驗(yàn)為陽性的概率，即檢驗(yàn)正確地將患病受試者分類為患病的概率，而特異度是非患病受試者中檢驗(yàn)呈陰性的概率，即檢驗(yàn)可以正確地將未患病的受試者歸類為無病的可能性[13]。例如，靈敏度90%的檢驗(yàn)?zāi)苷_地將90%的患病受試者分類為患者，但將10%的患病受試者錯(cuò)誤分類為非患病受試者。類似地，特異度90%的檢驗(yàn)可以正確地將90%的非患病受試者分類為非患病，但將10%的非患病受試者錯(cuò)誤地分類為患者。靈敏度和特異度范圍從0到1，其中1表示該檢驗(yàn)可以正確地將所有患病受試者分類為患者并且所有未患病的受試者分類為非患病者。為了評(píng)估檢驗(yàn)的準(zhǔn)確性，必須綜合考慮靈敏度和特異度。顯然，良好的診斷性試驗(yàn)需要高靈敏度和高特異度。具有100%靈敏度和特異度的檢驗(yàn)可以正確地對(duì)所有患病和非患病受試者進(jìn)行分類，因此是完美的檢驗(yàn)。

然而，在實(shí)踐中，指標(biāo)為連續(xù)性變量的診斷性試驗(yàn)是非常常見的。在這種情況下，使用受試者工作特征曲線（ROC）評(píng)估該檢驗(yàn)區(qū)分疾病的準(zhǔn)確性。通過對(duì)連續(xù)性檢驗(yàn)分?jǐn)?shù)進(jìn)行二分，可以在每個(gè)截點(diǎn)處計(jì)算靈敏度和特異度。通過連接連續(xù)性檢驗(yàn)的所有可能截點(diǎn)處所有（1-特異度，靈敏度）對(duì)來構(gòu)建ROC曲線。ROC曲線是一種在一系列截點(diǎn)上以圖形方式顯示真陽性與假陽性的方式[14]，并提供該檢驗(yàn)如何準(zhǔn)確區(qū)分疾病狀態(tài)的圖片信息。不同的截點(diǎn)會(huì)得到不同的靈敏度和特異度。對(duì)于給定的檢驗(yàn)，在靈敏度和特異度之間存在折衷。例如，如果較高的檢驗(yàn)分?jǐn)?shù)表明患病的可能性較大，則較低的臨界值將產(chǎn)生較高的靈敏度但特異度較低，在這種情況下，該檢驗(yàn)可以正確地將大多數(shù)患病受試者分類為患者，但也有很高的幾率將非患病者歸類為患者，對(duì)于高臨界值，反之亦然。ROC曲線為我們提供了檢驗(yàn)如何區(qū)分患病和非患病的全貌，其中靠近左上角的部分能夠更好地區(qū)分。對(duì)角線表示沒有區(qū)分能力。

ROC曲線是描述檢驗(yàn)在每個(gè)截點(diǎn)區(qū)分患病狀態(tài)能力的極好的方法，但在實(shí)踐中，使用單個(gè)指標(biāo)來總結(jié)該檢驗(yàn)的整體性能也是非常重要的。ROC曲線下面積（AUC）是評(píng)估整體能力的指標(biāo)。 AUC測(cè)量該檢驗(yàn)正確分類患有和不患有疾病的能力。ROC曲線越接近左上角，曲線下面積越大，而值為1時(shí)表示完美區(qū)分。

接下來，我們將通過一項(xiàng)實(shí)際研究使用R來說明如何估計(jì)一項(xiàng)試驗(yàn)的準(zhǔn)確性。

3．舉例說明：老年服務(wù)客戶抑郁癥篩查

3.1 研究樣本

簽訂知情同意書后，377名講英語并接受初步家庭評(píng)估的老年受試者參與了試驗(yàn)。

3.2 測(cè)量指標(biāo)

SCID：SCID[15]作為確定當(dāng)前重度抑郁發(fā)作（MDE）存在與否的金標(biāo)準(zhǔn)。在該研究中，SCID被用于研究樣本中的所有受試者。

PHQ-9/PHQ-2：患者健康問卷（PHQ-9）是患者健康問卷的九項(xiàng)抑郁量表，給予初級(jí)保健機(jī)構(gòu)中的患者以篩查抑郁癥的存在和嚴(yán)重程度。每個(gè)問題的項(xiàng)目得分范圍從0到3，PHQ-9的總得分范圍從0到27。PHQ-2僅包括PHQ-9的前兩項(xiàng)，因此具有總得分范圍為0到6。盡管PHQ-9和PHQ-2總分可以被認(rèn)為是連續(xù)性的，但通常使用10和3兩個(gè)截點(diǎn)來分別對(duì)PHQ-9和PHQ-2診斷抑郁癥。對(duì)于PHQ-9，分?jǐn)?shù)低于10的受試者將被診斷為抑郁癥陰性，其他被診斷為陽性。同樣，對(duì)于PHQ-2，只有分?jǐn)?shù)低于3的人才會(huì)被視為非抑郁癥。我們將通過將它們分別視為二分類和連續(xù)性檢驗(yàn)來評(píng)估PHQ-9/PHQ-2在判斷SCID抑郁和非抑郁方面的準(zhǔn)確程度。

3.3 二分類檢驗(yàn)的靈敏度和特異度計(jì)算：

我們首先分析二分類PHQ-9的準(zhǔn)確性，其截點(diǎn)為總分10分。在這種情況下，PHQ-9 < 10的受試者具有陰性檢驗(yàn)結(jié)果，而PHQ-9 ≥ 10的受試者具有陽性檢驗(yàn)結(jié)果。因此，PHQ-9陽性/陰性和SCID抑郁/非抑郁可以使用下面的R代碼的2 x 2表進(jìn)行匯總。

temp <- roc

temp$PHQ_9_SCORE <- ifelse(temp$PHQ_9_SCORE> 9,1,0)

crosstab<-table(temp$PHQ_9_SCORE, temp$SCID)

數(shù)據(jù)總結(jié)在下表3中：

表3．金標(biāo)準(zhǔn)

靈敏度和特異度計(jì)算如下

靈敏度=陽性檢驗(yàn)結(jié)果數(shù)量/患病受試者數(shù)量

= 82/100

= 0.82

特異度=陰性檢驗(yàn)結(jié)果數(shù)量/非患病受試者數(shù)量

= 242/277

= 0.87

當(dāng)使用10為截點(diǎn)時(shí)，該檢驗(yàn)對(duì)于PHQ-9> = 10受試者定義為陽性，對(duì)于PHQ-9 <10的受試者定義為陰性，并且靈敏度估計(jì)為82%，即82%真正患有抑郁癥的受試者可以成功歸類為抑郁癥，特異度估計(jì)為87%，即87%的非抑郁癥患者被正確歸類為非抑郁。

當(dāng)PHQ-2使用3為截點(diǎn)時(shí)，即PHQ-2 < 3定義為陰性，PHQ-2 ≥ 3定義為陽性，結(jié)果總結(jié)在表4中：

表4．金標(biāo)準(zhǔn)

靈敏度和特異度估計(jì)為

靈敏度=陽性檢驗(yàn)結(jié)果數(shù)量/患病受試者數(shù)量

= 82/100

= 0.82

特異度=陰性檢驗(yàn)結(jié)果數(shù)量/非患病受試者數(shù)量

= 216/277

= 0.78

當(dāng)檢驗(yàn)陽性/陰性的截點(diǎn)定義為3時(shí)，80%的抑郁受試者可被正確分類為抑郁癥，78%的非抑郁癥受試者被正確分類為非抑郁癥。

不同的截點(diǎn)，其靈敏度和特異度將不同。例如，如果使用4為截點(diǎn)，PHQ-2的靈敏度和特異度分別為57%和90%。對(duì)于PHQ-9，截點(diǎn)為11時(shí)的靈敏度和特異度為0.74和0.91。表1列出了PHQ-9和PHQ-2的一系列截點(diǎn)下的靈敏度和特異度。

從表1中可以明顯看出，靈敏度和特異度之間存在權(quán)衡。較低的截點(diǎn)可以得到較高的靈敏度和較低的特異度，這意味著更多抑郁癥的受試者可被正確分類為抑郁，但也有更多非抑郁的受試者被錯(cuò)誤分類為抑郁癥。由于靈敏度和特異度之間的權(quán)衡，通常在臨床實(shí)踐中使用最佳截點(diǎn)。通常靈敏度和特異度的總和最大化的截點(diǎn)被確定為最佳截點(diǎn)。對(duì)于PHQ-2，最佳截點(diǎn)為3.0，因?yàn)橄鄳?yīng)的靈敏度（80%）和特異度（78%）達(dá)到最大值。PHQ-9的最佳截點(diǎn)為10，因?yàn)殪`敏度為82%，特異度為87%，其總和達(dá)到最大值。

表1．不同截點(diǎn)下的靈敏度和特異度

3.4 受試者工作特征曲線(ROC)的構(gòu)建

在連續(xù)性診斷性試驗(yàn)的每個(gè)截點(diǎn)，靈敏度和特異度顯示患病受試者和非患病受試者分類的準(zhǔn)確程度。由于不同的截點(diǎn)產(chǎn)生不同的靈敏度和特異度，因此使用ROC曲線描述該檢驗(yàn)區(qū)分患病和非患病的能力。而ROC曲線是連續(xù)性檢驗(yàn)的每個(gè)可能的截點(diǎn)的靈敏度與（1-特異度）的關(guān)系圖。對(duì)于每個(gè)截點(diǎn)，可以根據(jù)檢驗(yàn)分?jǐn)?shù)是大于還是小于閾值來定義陽性和陰性檢驗(yàn)結(jié)果，然后可以基于二分類陽性/陰性檢驗(yàn)結(jié)果和真實(shí)疾病狀態(tài)的2X2表來估計(jì)特異度和靈敏度。通過連接所有截點(diǎn)處靈敏度（y軸）與（1-特異度）（x軸）來構(gòu)建ROC曲線。PHQ_9和PHQ_2的ROC曲線如圖1所示，下面分別提供了構(gòu)建PHQ_2和PHQ_9的ROC曲線的R代碼：

圖1．PHQ-2和PHQ-9的ROC曲線

3.5 ROC曲線下的面積（AUC）的測(cè)量及其解釋

盡管ROC曲線可以描述檢驗(yàn)在每個(gè)截點(diǎn)區(qū)分患病與非患病的能力，但它無法提供一個(gè)總體指標(biāo)來總結(jié)該檢驗(yàn)的整體性能。ROC曲線下面積（AUC）是連續(xù)性檢驗(yàn)診斷辨別能力的總體指標(biāo)，它能衡量受試者被正確分類為患病和非患病的能力。AUC范圍為0.5到1。AUC值為0.5對(duì)應(yīng)于ROC曲線的對(duì)角線，表示不提供用于分類的信息，而值為1表示該檢驗(yàn)可以正確地將所有患病的受試者分類為患者，并且所有未患病的受試者分類為未患病，這是一個(gè)完美檢驗(yàn)。表2總結(jié)了診斷性試驗(yàn)準(zhǔn)確性分類的粗略指南。AUC在0.90和1.00之間的檢驗(yàn)具有極好的辨別能力，AUC從0.80到0.90，0.70到0.80，0.60到0.70和0.50到0.60分別表示區(qū)分能力良好、一般、較差和極差。下面提供了用于獲得PHQ-2和PHQ-9的AUC的R代碼。我們還可以通過檢驗(yàn)兩個(gè)試驗(yàn)之間的AUC是否存在顯著性差異來檢驗(yàn)兩個(gè)診斷性試驗(yàn)是否具有相同的辨別能力。

roc.test(roc1,roc2,paired=TRUE)

DeLong’s test for two correlated ROC curves

data: roc1 and roc2

Z = 2.6064, p-value = 0.00915

alternative hypothesis: true difference in AUC is not equal to 0

sample estimates:

AUC of roc1 AUC of roc2

0.9062635 0.8690794

在這種情況下，PHQ-9的AUC為0.9063，PHQ-2的AUC為0.8691。PHQ-9在將受試者分類為抑郁和非抑郁時(shí)達(dá)到了極好的準(zhǔn)確度，而PHQ-2的準(zhǔn)確度相對(duì)較低，但仍然相當(dāng)不錯(cuò)。檢驗(yàn)PHQ-9和PHQ-2之間AUC差異的p值為0.00915，這表明PHQ-9和PHQ-2區(qū)分抑郁癥與非抑郁癥受試者的能力不同，并且PHQ-9診斷抑郁和非抑郁的受試者更準(zhǔn)確。

表2．根據(jù)AUC對(duì)診斷性檢驗(yàn)準(zhǔn)確性分類指南

4．討論

DSM-IV（SCID）的結(jié)構(gòu)化臨床訪談一直被認(rèn)為是臨床上診斷抑郁癥的金標(biāo)準(zhǔn)。然而，由于許多原因，SCID的實(shí)施不適用，需要替代性的診斷性試驗(yàn)/篩選工具。在將診斷性試驗(yàn)/篩查工具應(yīng)用于目標(biāo)人群之前，評(píng)估診斷性試驗(yàn)/篩查工具的準(zhǔn)確性至關(guān)重要。

在實(shí)踐中，除靈敏度和特異度外，還廣泛使用陽性預(yù)測(cè)值（PPV）和陰性預(yù)測(cè)值（NPV）。PPV是檢驗(yàn)結(jié)果陽性的受試者也患病的可能性，NPV是檢驗(yàn)結(jié)果為陰性的受試者也是非患者的概率。給定該疾病的患病率，PPV和NPV可以通過靈敏度和特異度來確定，反之亦然。

在臨床實(shí)踐中，金標(biāo)準(zhǔn)檢驗(yàn)可能是侵入性的、價(jià)格昂貴并且風(fēng)險(xiǎn)較高（例如血管造影、活體組織檢查和手術(shù)），患者和醫(yī)生可能不愿意接受這樣的金標(biāo)準(zhǔn)檢驗(yàn)。如果不對(duì)每個(gè)人進(jìn)行金標(biāo)準(zhǔn)檢驗(yàn)，則靈敏度和特異度的估計(jì)可能會(huì)有偏差，因?yàn)閮H使用有金標(biāo)準(zhǔn)檢驗(yàn)的受試者來估計(jì)靈敏度和特異度。這種偏倚稱為證實(shí)偏倚。目前已設(shè)計(jì)出一些方法來校正這種證實(shí)偏倚[19,20]。

資金來源

本研究沒有獲得任何外部資助。

利益沖突

作者報(bào)告沒有與本文相關(guān)的利益沖突。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡