彭 賽,盧叢蘭,孫中洋,2
(1.東部戰(zhàn)區(qū)空軍醫(yī)院骨科,江蘇 南京 210002;2.安徽醫(yī)科大學(xué)第五臨床學(xué)院,安徽 合肥 230032)
骨質(zhì)疏松癥是一種全身性骨骼疾病,其特征是骨量低、骨組織微結(jié)構(gòu)退化,從而造成骨脆性和骨折易感性增加[1]。根據(jù)世界衛(wèi)生組織推薦的標(biāo)準(zhǔn),骨質(zhì)疏松癥的診斷標(biāo)準(zhǔn)是基于髖部或脊柱的雙能X射線吸收測(cè)量(Dual energy X-ray absorptiometry,DXA)評(píng)估的骨密度(Bone mineral density,BMD)[1-2]。根據(jù)此標(biāo)準(zhǔn),如果DXA檢測(cè)出的BMD等于或小于健康年輕人平均正常BMD的-2.5標(biāo)準(zhǔn)偏差(T值≤-2.5)就可以診斷骨質(zhì)疏松癥[1-2]。然而,這種方法的主要局限性在于大多數(shù)發(fā)生骨質(zhì)疏松性骨折患者的T值在-2.5~-1.0(骨量減少)或高于-1.0(正常BMD),此問(wèn)題限制了BMD作為骨質(zhì)疏松癥診斷“金標(biāo)準(zhǔn)”的敏感性[3]。全球范圍內(nèi),骨質(zhì)疏松癥每年導(dǎo)致約900萬(wàn)處骨折,也就是說(shuō)每3 s就導(dǎo)致一次骨折發(fā)生[4]。常見的骨折部位為脊柱、腕部和髖部,而骨質(zhì)疏松癥及其造成的骨折治療效果欠佳,其中髖部骨折可能造成患者失去活動(dòng)及獨(dú)立生活能力甚至死亡,給社會(huì)和家庭帶來(lái)沉重負(fù)擔(dān)[4]。因而骨質(zhì)疏松癥的診斷和治療一直都是研究熱點(diǎn)。
近年來(lái),人工智能(Artificial intelligence,AI)技術(shù)在醫(yī)療領(lǐng)域迅猛發(fā)展,醫(yī)學(xué)領(lǐng)域中的AI應(yīng)用可分為虛擬和物理兩種,前者包括成像解決方案和治療決策支持,后者包括智能假體和機(jī)器人輔助手術(shù)等[5]。在骨質(zhì)疏松癥的管理方面,AI的虛擬應(yīng)用發(fā)揮著主要作用,其解決方案已廣泛應(yīng)用于骨質(zhì)疏松癥的診斷和治療中,顯示出巨大的潛力和臨床價(jià)值,在骨質(zhì)疏松癥的研究中得到越來(lái)越多的關(guān)注[6]。本文對(duì)AI在骨質(zhì)疏松癥診斷和治療中的最新應(yīng)用進(jìn)行綜述,并探討AI在骨質(zhì)疏松癥研究應(yīng)用的制約因素和未來(lái)發(fā)展方向。
AI是將計(jì)算能力與大數(shù)據(jù)相結(jié)合的智能系統(tǒng),以此解決現(xiàn)實(shí)問(wèn)題,其在醫(yī)學(xué)領(lǐng)域的應(yīng)用主要有兩種方法,即基于啟發(fā)式知識(shí)和基于機(jī)器學(xué)習(xí)(ML)[7]?;趩l(fā)式知識(shí)的方法主要用于構(gòu)建醫(yī)學(xué)專家系統(tǒng),依賴于存儲(chǔ)在知識(shí)庫(kù)中的專家知識(shí)和推理引擎中的推理技術(shù),像專家一樣對(duì)病情進(jìn)行分析,主要包含規(guī)則推理、框架推理和基于臨床指南模型的推理等[7]。而ML是AI的核心分支,通過(guò)研究如何模擬人類的學(xué)習(xí)能力,使用各種算法從數(shù)據(jù)庫(kù)中學(xué)習(xí)和訓(xùn)練,發(fā)現(xiàn)數(shù)據(jù)規(guī)律,建立聯(lián)系[8]。應(yīng)用在醫(yī)學(xué)領(lǐng)域的ML方法包括Logistic回歸、決策樹、隨機(jī)森林,人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、集成學(xué)習(xí)以及最新的深度學(xué)習(xí)(DL)[9]。DL作為ML的廣義子集,其架構(gòu)與人腦相似,通過(guò)多層神經(jīng)網(wǎng)絡(luò)互鏈實(shí)現(xiàn)對(duì)數(shù)據(jù)的深度挖掘,提高圖像及語(yǔ)音識(shí)別、視覺對(duì)象認(rèn)知和語(yǔ)言處理[9]。作為DL的代表算法,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在臨床中應(yīng)用最為廣泛[10]。
目前骨質(zhì)疏松癥的診斷主要依賴基于DXA評(píng)估的BMD,但DXA設(shè)備的普及率很低,最近的一項(xiàng)調(diào)查顯示多數(shù)歐洲國(guó)家每百萬(wàn)人的DXA設(shè)備數(shù)量不足10臺(tái),在世界范圍內(nèi)大多數(shù)國(guó)家的可用DXA設(shè)備也嚴(yán)重不足[11]。因此,尋找像X線等更為簡(jiǎn)單有效的替代方法就顯得尤為必要。
在骨科臨床工作中,全景X線早已被廣泛用于獲取腰椎、髖部和橈骨遠(yuǎn)端等多部位的骨骼定量和定性信息。如果能開發(fā)AI系統(tǒng)利用新型算法從X線中初篩骨質(zhì)疏松癥患者,將大大提高骨質(zhì)疏松癥的檢出率。在一項(xiàng)初步研究[12]中,研究人員利用一組不同的CNN基于X線片來(lái)診斷骨質(zhì)疏松癥,此研究中的受試者工作特征曲線下與坐標(biāo)軸圍成的面積(AUC)在0.98~0.99。而在另一項(xiàng)研究[13]中,4種不同的CNN模型,加上遷移學(xué)習(xí)和模型微調(diào)可顯著提高診斷效能,AUC可達(dá)0.86。然而,雖然這兩項(xiàng)研究結(jié)果讓人振奮,但研究團(tuán)隊(duì)由于沒有提供所用AI技術(shù)參數(shù)和模型構(gòu)建方法等核心信息,研究臨床相關(guān)性也受到了嚴(yán)重影響。另一項(xiàng)基于手和腕部X線的AI骨質(zhì)疏松診斷軟件也已開發(fā)出來(lái),利用第3掌骨干的皮質(zhì)放射測(cè)量和橈骨遠(yuǎn)端的骨松質(zhì)紋理分析對(duì)AI進(jìn)行訓(xùn)練和驗(yàn)證,最后與基于DXA評(píng)估的BMD做回歸,研究表明該軟件的骨質(zhì)疏松癥診斷準(zhǔn)確率可達(dá)89%[14]。但該項(xiàng)研究選擇的訓(xùn)練和驗(yàn)證數(shù)據(jù)來(lái)自于掌骨和橈骨遠(yuǎn)端,并非腰椎和髖關(guān)節(jié)等負(fù)重骨骼,故該研究的診斷效能有一定局限性。
除X線外,其他影像學(xué)方法,如計(jì)算機(jī)斷層掃描(CT)、定量CT和核磁共振(MRI)等也和AI相融合,開發(fā)敏感性、特異性和準(zhǔn)確性更高的骨質(zhì)疏松癥診斷工具。在一項(xiàng)肺癌CT篩查的研究[15]中,研究者開發(fā)了利用CT值評(píng)估BMD的新AI算法,通過(guò)學(xué)習(xí)訓(xùn)練該算法得到了很好的診斷效能,其診斷骨質(zhì)減少的AUC為0.83,診斷骨質(zhì)疏松的AUC是0.97。此外,該研究還發(fā)現(xiàn),CT值每增加10 HU,骨質(zhì)減少的風(fēng)險(xiǎn)就會(huì)降低32%~44%,骨質(zhì)疏松的風(fēng)險(xiǎn)就會(huì)下降61%~80%。可見,常規(guī)胸部CT結(jié)合AI在骨質(zhì)減少和骨質(zhì)疏松癥的診斷中具有重要價(jià)值。然而,該項(xiàng)研究的局限性在于,基于DXA的BMD測(cè)量是檢測(cè)腰1至腰4椎體,而該研究是基于CT對(duì)胸椎的掃描結(jié)果??紤]到上述研究的局限性,在另一項(xiàng)研究[16]中,研究者使用腰椎DXA作為參考標(biāo)準(zhǔn),開發(fā)了一個(gè)基于腹部CT掃描結(jié)果的CNN模型,并以此預(yù)測(cè)腰椎BMD。該算法診斷效能良好,其內(nèi)部驗(yàn)證數(shù)據(jù)集和外部數(shù)據(jù)集的AUC分別為0.965和0.970。在一項(xiàng)基于DXA檢測(cè)腰椎BMD作為參考標(biāo)準(zhǔn)的研究[17]中,也驗(yàn)證了類似的結(jié)果。但在研究[18]中,由于研究者未將基于DXA檢測(cè)腰椎BMD作為參考標(biāo)準(zhǔn),使得基于腰椎CT值的AI算法的診斷效能大大下降。另外,已有報(bào)道[19],通過(guò)MRI評(píng)估的骨髓脂肪分?jǐn)?shù)可診斷骨質(zhì)疏松癥,然而AI在該方法中的應(yīng)用受到手動(dòng)分割圖像的限制。目前有一項(xiàng)涉及200例健康志愿者的研究[20]開發(fā)了一個(gè)基于CNN進(jìn)行圖像全自動(dòng)分割的放射組學(xué)算法,在骨質(zhì)疏松癥診斷上效能較好。
在一項(xiàng)關(guān)于開發(fā)診斷骨質(zhì)疏松癥的基于圖像分析AI算法的系統(tǒng)性綜述和薈萃分析[21]共納入了7項(xiàng)研究,包括3000多例患者,分析采用隨機(jī)效應(yīng)模型,數(shù)據(jù)合并后的診斷敏感性為0.96,特異性為0.95。然而,在該項(xiàng)薈萃分析中,患者選擇中存在較高的偏倚風(fēng)險(xiǎn)和高度異質(zhì)性,加上7項(xiàng)研究中僅有3項(xiàng)將基于DXA檢測(cè)腰椎BMD作為參考標(biāo)準(zhǔn),故應(yīng)謹(jǐn)慎解讀該分析結(jié)果。
在過(guò)去的30年里,研究人員對(duì)何時(shí)治療以及使用何種藥物治療骨質(zhì)疏松癥一直爭(zhēng)論不休。但目前全世界都一致認(rèn)為,出現(xiàn)低創(chuàng)傷骨折的患者應(yīng)該接受抗骨質(zhì)疏松治療,該結(jié)論基于強(qiáng)有力的研究證據(jù),即第一次骨折是后續(xù)骨折的有力預(yù)測(cè)因素,在第一次骨折后的12~24個(gè)月內(nèi)發(fā)生再次骨折的概率最高[22-24]。與抑制骨吸收藥物相比,特立帕肽或羅莫索珠單抗這類促骨合成藥物具有更顯著的抗骨折療效,所以該類藥物成為治療骨質(zhì)疏松性骨折的一線用藥[25]。然而,對(duì)于沒有發(fā)生骨折的患者何時(shí)進(jìn)行治療,目前還沒有達(dá)成共識(shí)。雖然目前有不同的工具可用于評(píng)估患者的骨折風(fēng)險(xiǎn),但對(duì)風(fēng)險(xiǎn)評(píng)估的認(rèn)定可因各自的指南或共識(shí)而異[26-28]。
基于上述情況,研究人員通過(guò)不同醫(yī)療系統(tǒng)的電子病歷大數(shù)據(jù)開發(fā)AI算法指導(dǎo)骨質(zhì)疏松癥治療。研發(fā)人員根據(jù)15000多例骨質(zhì)疏松癥患者10年隨訪的電子醫(yī)療記錄開發(fā)了一款A(yù)I算法,用于預(yù)測(cè)和指導(dǎo)臨床用藥[29]。該項(xiàng)研究不僅納入了5200個(gè)國(guó)際疾病分類代碼,還考慮了約30000個(gè)BMD結(jié)果和3500多種不同的藥物。但值得注意的是,僅有7個(gè)不同的實(shí)驗(yàn)室結(jié)果以總堿性磷酸酶作為唯一的骨轉(zhuǎn)換參數(shù),而未涉及維生素D等其他任何骨吸收或骨溶解相關(guān)的指標(biāo)。以BMD增加作為治療有效的標(biāo)準(zhǔn),在該項(xiàng)研究開發(fā)的不同ML算法中,靈敏性最高為0.70,準(zhǔn)確性為0.69。除了相關(guān)的臨床信息外,該AI算法還提供了一份潛在有效的藥物列表,其中包括對(duì)最有可能增加BMD的藥物預(yù)測(cè)信息。
骨質(zhì)疏松癥研究領(lǐng)域缺乏標(biāo)準(zhǔn)的公共數(shù)據(jù)集,而不同研究者應(yīng)用的數(shù)據(jù)多數(shù)為自己團(tuán)隊(duì)收集,由于數(shù)據(jù)存在地域、性別、人種等多種混雜因素,以此構(gòu)建的訓(xùn)練模型的特異性、準(zhǔn)確性等方面受到挑戰(zhàn),這也使得不同團(tuán)隊(duì)開發(fā)的AI算法不能直接進(jìn)行效能比較。不僅如此,各項(xiàng)研究中所使用的數(shù)據(jù)集規(guī)模較小,在現(xiàn)有研究中絕大多數(shù)納入的樣本在100例以下,以這樣的數(shù)據(jù)集進(jìn)行算法訓(xùn)練無(wú)法充分接近疾病的真實(shí)狀況。另外,在數(shù)據(jù)集分析時(shí)所有研究均來(lái)自某一個(gè)時(shí)間點(diǎn),缺乏時(shí)間維度的數(shù)據(jù),難以做到對(duì)骨質(zhì)疏松患者治療效果的準(zhǔn)確預(yù)測(cè)。最后,AI算法模型也存在局限性,多數(shù)骨質(zhì)疏松研究采用的為單一算法,而臨床問(wèn)題復(fù)雜多樣,樣本干擾因素眾多,單一算法并不能滿足需求。針對(duì)上述局限性,未來(lái)AI在骨質(zhì)疏松癥診療中的發(fā)展應(yīng)著重于建立標(biāo)準(zhǔn)的公共數(shù)據(jù)集,充分收集骨質(zhì)疏松癥相關(guān)臨床參數(shù);AI研究中可進(jìn)行DL等最新算法在該領(lǐng)域的應(yīng)用,并將多種算法進(jìn)行深層次結(jié)合,進(jìn)行多模態(tài)的數(shù)據(jù)分析。
近年來(lái),研究人員開發(fā)了大量的AI算法輔助骨質(zhì)疏松癥的診斷和治療決策。在某些情況下,AI解決方案表現(xiàn)出診療優(yōu)越性。但在某些情況下,使用不充分的參考標(biāo)準(zhǔn)或選擇在臨床實(shí)踐中幾乎沒有價(jià)值的變量是AI開發(fā)研究存在的局限。此外,目前開發(fā)的AI算法的可靠性是否優(yōu)于傳統(tǒng)的統(tǒng)計(jì)方法,尚不能一概而論。因此,AI在骨質(zhì)疏松癥診療領(lǐng)域的進(jìn)步仍需要大量高質(zhì)量的臨床研究。