孟祥峰,李佳戈,郝燁,王浩
中國食品藥品檢定研究院 光機(jī)電室,北京 100050
目前國內(nèi)外已有多種類型及用途的人工智能(Artificial Intelligence,AI)醫(yī)療器械上市[1],且種類及數(shù)量呈逐年上升的趨勢。2018年4月11日,美國FDA批準(zhǔn)了IDx公司IDx-DR糖尿病視網(wǎng)膜?。ㄒ韵潞喎Q糖網(wǎng))篩查軟件,這是美國FDA批準(zhǔn)的第一款采用新一代AI技術(shù)的糖網(wǎng)篩查軟件產(chǎn)品,該產(chǎn)品嚴(yán)格限定了眼科相機(jī)硬件為拓普康NW400,并綁定硬件控制措施,可在一定程度上防止由于泛化能力不足導(dǎo)致的非預(yù)期風(fēng)險(xiǎn)[2]。目前已有相關(guān)機(jī)構(gòu)展開了AI醫(yī)療器械評價(jià)方法的研究[3-9],并且國內(nèi)也已開始起草相關(guān)標(biāo)準(zhǔn),但還未正式發(fā)布[10-11]。
肺部CT影像AI產(chǎn)品的預(yù)期用途可能關(guān)聯(lián)結(jié)節(jié)大小,如在國家藥品監(jiān)督管理局網(wǎng)站公布的肺結(jié)節(jié)CT影像輔助診斷軟件,其可對≥4 mm的肺結(jié)節(jié)進(jìn)行自動(dòng)識別分析[12]。本文通過探究肺結(jié)節(jié)大小對于肺部CT影像AI產(chǎn)品性能的影響,分析產(chǎn)品對于病灶大小的泛化能力。目前不同的肺結(jié)節(jié)診療準(zhǔn)則對結(jié)節(jié)的大小有不同的定義,如有研究者[13-14]將直徑<5 mm的結(jié)節(jié)定義為微小結(jié)節(jié),直徑5~10 mm的結(jié)節(jié)定義為小結(jié)節(jié),直徑10~30 mm的結(jié)節(jié)定義為大結(jié)節(jié)。而如何定義結(jié)節(jié)的直徑,目前臨床中也尚未統(tǒng)一,如有研究者建議對于不同大小或類型的結(jié)節(jié),可采用最大層面的最長徑、平均徑或長徑加短徑的方式表示,但不同的表示方式結(jié)節(jié)的截取數(shù)量存在差異,進(jìn)而影響評價(jià)結(jié)果[15-16]。
不同對象對于不同大小范圍結(jié)節(jié)的輔助檢測指標(biāo)的期望可能存在差異,如醫(yī)院、體檢機(jī)構(gòu)可能對于不同大小結(jié)節(jié)檢測敏感度的要求不同,如醫(yī)生可能更關(guān)心某些特定大小結(jié)節(jié)的檢測能力。在AI產(chǎn)品的驗(yàn)證與確認(rèn)環(huán)節(jié),評審人員除評估AI算法在測試集上的總體性能表現(xiàn)外,開始關(guān)注不同結(jié)節(jié)大小是否對性能指標(biāo)造成影響,因此需要對關(guān)聯(lián)不同大小結(jié)節(jié)的截取方式及截取后的評估方法進(jìn)行研究。目前,不同廠家在對于不同大小結(jié)節(jié)的檢出性能方法存在差異,基于此,本文旨在分析同一產(chǎn)品在不同樣本上的性能差異,比較不同大小病灶的測試結(jié)果,以期為相關(guān)領(lǐng)域的研究提供一定的理論依據(jù)。
本文所采用數(shù)據(jù)集參照《胸部CT肺結(jié)節(jié)數(shù)據(jù)集構(gòu)建及質(zhì)量控制專家共識》[17]進(jìn)行構(gòu)建,數(shù)據(jù)標(biāo)注流程參照《胸部CT肺結(jié)節(jié)數(shù)據(jù)標(biāo)注與質(zhì)量控制專家共識(2018)》[18],數(shù)據(jù)來源于國內(nèi)22個(gè)醫(yī)院,數(shù)據(jù)獲取的CT機(jī)型共15個(gè),對數(shù)據(jù)合規(guī)性、唯一性、重建層厚等信息進(jìn)行了清洗和預(yù)處理。本文選取包含0~30 mm結(jié)節(jié)的588例CT數(shù)據(jù)進(jìn)行了算法結(jié)果分析。數(shù)據(jù)集包括肺內(nèi)實(shí)性、肺內(nèi)部分實(shí)性、肺內(nèi)純磨玻璃、肺內(nèi)鈣化、胸膜實(shí)性、胸膜鈣化6類結(jié)節(jié)。參考標(biāo)準(zhǔn)對于長徑≥4 mm的肺內(nèi)結(jié)節(jié)(實(shí)性、部分實(shí)性、純磨玻璃、鈣化)在各層描繪邊界,以此定義結(jié)節(jié)區(qū)域;長徑<4 mm的肺內(nèi)結(jié)節(jié),以4 mm的正方形定義結(jié)節(jié)區(qū)域;對于胸膜實(shí)性/鈣化結(jié)節(jié),以緊包裹方框定義結(jié)節(jié)區(qū)域。被檢產(chǎn)品是基于深度學(xué)習(xí)的肺結(jié)節(jié)輔助檢測軟件,可輸出結(jié)節(jié)分類、結(jié)節(jié)大小、分割邊緣等輔助診斷信息。
數(shù)據(jù)集的參考標(biāo)準(zhǔn)由人工標(biāo)注產(chǎn)生,包括結(jié)節(jié)中心點(diǎn)位置、緊包裹方框端點(diǎn)坐標(biāo)、結(jié)節(jié)類型,對于長徑≥4 mm的結(jié)節(jié)還包括具體的邊界、結(jié)節(jié)長短徑端點(diǎn)及數(shù)值,而被檢產(chǎn)品算法輸出的預(yù)測結(jié)果也包含上述信息。在判定參考標(biāo)準(zhǔn)與AI預(yù)測結(jié)果的匹配關(guān)系時(shí),如何截取所關(guān)注結(jié)節(jié)的大小范圍,是開展測試的關(guān)鍵。根據(jù)常見的測試需求,在評價(jià)召回率和精確度指標(biāo)時(shí)可按照以下3種方法評價(jià)所關(guān)注大小范圍結(jié)節(jié)的表現(xiàn):① 方法1:全體產(chǎn)品輸出結(jié)果與某大小范圍內(nèi)的參考標(biāo)準(zhǔn)進(jìn)行匹配,計(jì)算檢出指標(biāo);② 方法2:某大小范圍內(nèi)的產(chǎn)品輸出結(jié)果與該大小范圍內(nèi)的參考標(biāo)準(zhǔn)進(jìn)行匹配,計(jì)算檢出指標(biāo);③ 方法3:使用方法1計(jì)算召回率,某大小范圍內(nèi)的產(chǎn)品輸出結(jié)果與全體參考標(biāo)準(zhǔn)進(jìn)行匹配,計(jì)算精確度。
在計(jì)算匹配關(guān)系時(shí),判定結(jié)果分為3種:如果算法輸出的區(qū)域中心落入?yún)⒖紭?biāo)準(zhǔn)區(qū)域范圍內(nèi),記為真陽性結(jié)果(True Positive,TP);算法輸出的區(qū)域中心未落入?yún)⒖紭?biāo)準(zhǔn)區(qū)域范圍內(nèi),記為假陽性結(jié)果(False Positive,F(xiàn)P);參考標(biāo)準(zhǔn)中的結(jié)節(jié)未與算法輸出的任何結(jié)節(jié)建立匹配,則該參考標(biāo)準(zhǔn)記為假陰性結(jié)果(False Negative,F(xiàn)N)[19]。在評價(jià)檢出性能指標(biāo)時(shí)[20],召回率計(jì)算方式如公式(1)所示,精確度計(jì)算方式如公式(2)所示,在評價(jià)分割性能指標(biāo)時(shí),Dice系數(shù)的計(jì)算方式如公式(3)所示。
式中,A表示參考標(biāo)準(zhǔn)的分割區(qū)域;B表示算法的分割區(qū)域;C表示A和B的重合區(qū)域。
本文選擇參考標(biāo)準(zhǔn)中全部結(jié)節(jié)、0~4 mm、4~6 mm、6~8 mm、8~10 mm、10 mm以上結(jié)節(jié),根據(jù)1.2中的3種評價(jià)方式,分別截取算法預(yù)測結(jié)節(jié),并按照以上公式依據(jù)方法1、方法2建立匹配關(guān)系并計(jì)算召回率;依據(jù)方法1、方法2、方法3建立匹配關(guān)系計(jì)算精確度;同時(shí),使用全體參考標(biāo)準(zhǔn)與算法的全體輸出結(jié)果建立匹配關(guān)系,計(jì)算召回率、精確度,以及全部TP的Dice系數(shù)。
對于召回率,以所有參考標(biāo)準(zhǔn)與所有算法預(yù)測結(jié)果計(jì)算的檢出召回率為基準(zhǔn)值,對于大小范圍在0~4 mm、4~6 mm、6~8 mm、8~10 mm及10 mm以上的結(jié)節(jié),分別使用方法1與方法2計(jì)算檢出召回率,并計(jì)算與基準(zhǔn)值的相對誤差(正偏差越大,召回率越高,且超過基準(zhǔn)值;負(fù)偏差越大,召回率越低,且低于基準(zhǔn)值);以結(jié)節(jié)大小范圍為橫坐標(biāo)、以基準(zhǔn)值的相對偏差為縱坐標(biāo)繪制曲線進(jìn)行對比分析。對于精確度,對大小范圍在0~4 mm的結(jié)節(jié),分別使用方法1、方法2、方法3計(jì)算檢出精確度,以不同方法及其對應(yīng)精確度相對值繪制柱狀圖進(jìn)行對比分析。對于Dice系數(shù),對于大小范圍在4~6 mm、6~8 mm、8~10 mm 及10 mm以上的結(jié)節(jié),采用方法1計(jì)算檢出Dice系數(shù),以不同大小范圍及其對應(yīng)Dice系數(shù)相對值繪制柱狀圖進(jìn)行對比分析。
不同大小結(jié)節(jié)召回率結(jié)果如圖1所示。由圖1可以看出,使用方法1計(jì)算的召回率結(jié)果明顯高于方法2,且方法1的召回率隨結(jié)節(jié)大小的增大不斷增加,其數(shù)值超過基準(zhǔn)值;方法2的召回率僅在6~8 mm大小范圍超過基準(zhǔn)值,在其他大小范圍出現(xiàn)了不同幅度的降低。
圖1 不同大小結(jié)節(jié)召回率結(jié)果與基準(zhǔn)值的相對偏差
對于大小范圍在0~4 mm的結(jié)節(jié),方法1、方法2、方法3的檢出精確度的相對值如圖2所示。由圖2可知,方法1、方法2、方法3的精確度呈遞增的趨勢,方法3的精確度值最高。
圖2 不同方法下精確度相對比例
不同結(jié)節(jié)范圍大小的Dice系數(shù)相對值的結(jié)果如圖3所示。從圖3可以看出,Dice系數(shù)隨結(jié)節(jié)范圍大小的增大不斷增加。
圖3 不同結(jié)節(jié)范圍大小的Dice系數(shù)相對比例
本研究結(jié)果表明,產(chǎn)品隨結(jié)節(jié)大小的增大,召回率隨之增大,即在不考慮大小正確的情況下,參考標(biāo)準(zhǔn)中小的結(jié)節(jié)發(fā)現(xiàn)難度大于大的結(jié)節(jié),且如果關(guān)聯(lián)結(jié)節(jié)大小的正確性,其正確與否會(huì)影響檢出的結(jié)果。產(chǎn)品在檢出問題上如不關(guān)聯(lián)結(jié)節(jié)大小,雖可以提高召回的概率,但這也引入了更多的假陽樣本,降低了精確度。因此無論采用何種方法,產(chǎn)品評價(jià)的過程并不是某一個(gè)指標(biāo)高或低就代表產(chǎn)品性能的優(yōu)劣,有些相互制約的指標(biāo)有必要同時(shí)給出,如檢出的召回率和精確度,對產(chǎn)品綜合進(jìn)行評價(jià)。
同一產(chǎn)品對于不同結(jié)節(jié)大小的分割性能也存在差異,該產(chǎn)品隨結(jié)節(jié)大小的增大,Dice系數(shù)隨之增大,表明大結(jié)節(jié)更容易被準(zhǔn)確分割。值得注意的是,交并比在結(jié)節(jié)匹配過程中有可能被研發(fā)人員作為判斷依據(jù)或閾值,從而對匹配結(jié)果造成影響。產(chǎn)品對于不同大小結(jié)節(jié)的檢出具有不同的表現(xiàn),在真實(shí)世界中如果數(shù)據(jù)集結(jié)節(jié)的大小構(gòu)成存在變化,應(yīng)關(guān)注由此帶來的性能波動(dòng),這也提示算法應(yīng)關(guān)注提高對不同大小病灶的泛化能力。
目前國際上一些公開的數(shù)據(jù)集,如LIDC[21],僅給出結(jié)節(jié)的位置信息,并未對結(jié)節(jié)的大小進(jìn)行標(biāo)注,其評價(jià)統(tǒng)計(jì)也是無差別地對所有大小范圍結(jié)節(jié)進(jìn)行分析[22]。然而在實(shí)際應(yīng)用過程中,不同的應(yīng)用場景如體檢、門診等,其真實(shí)數(shù)據(jù)的結(jié)節(jié)大小構(gòu)成與分布存在明顯差異。且目前通過國家藥品監(jiān)督管理局檢索已獲批的產(chǎn)品,其適用范圍也對結(jié)節(jié)大小進(jìn)行了明確限定。但目前如何按結(jié)節(jié)大小對產(chǎn)品進(jìn)行評價(jià)還沒有相關(guān)研究報(bào)告。本文給出了3種方法評價(jià)所關(guān)注大小范圍結(jié)節(jié)的表現(xiàn),初步探討了方法的可行性,同時(shí)通過對比分析,也揭示了大小差異導(dǎo)致的評價(jià)指標(biāo)的波動(dòng),證明了區(qū)分大小測量的必要性。除結(jié)節(jié)范圍大小外,在實(shí)際應(yīng)用場景,隨著季節(jié)或流行病的發(fā)生,輔助檢測產(chǎn)品在現(xiàn)實(shí)中遇到病例的結(jié)節(jié)類型、結(jié)節(jié)類型或大小的分布、混合其他疾病等情況,均可能成為影響產(chǎn)品性能的因素,但本文并未對這些因素逐一考量,這也是下一步的工作重點(diǎn)。
同一產(chǎn)品依據(jù)不同的評價(jià)方法得到的結(jié)果有明顯的差異,測試人員需重視該問題。同時(shí)本文分析了不同結(jié)節(jié)大小下AI產(chǎn)品的性能表現(xiàn),結(jié)果表明基于結(jié)節(jié)大小范圍的算法性能存在差異,但泛化性能評價(jià)有待進(jìn)一步細(xì)化,這也說明AI產(chǎn)品在使用范圍、應(yīng)用場景的宣稱上應(yīng)慎重,給出明確的界限,避免由于泛化能力導(dǎo)致的非預(yù)期風(fēng)險(xiǎn)。