劉宗才,吳錦華,王榮品,劉昌杰,曾憲春
(貴州省人民醫(yī)院放射科,貴州 貴陽 550002)
圖2 拍攝的左手X線骨齡片
目前國內(nèi)外廣泛使用的骨齡評測方法主要有GP圖譜法、TW3法、CHN法和中華05法[1]。圖譜法簡單、直觀、易于掌握,但主觀性強,可靠性不如計分法[2-4]。在TW2基礎上,修訂后的TW3法獲得國際廣泛采用,但TW3法基于歐美兒童及青少年,不完全適用于我國[4]。CHN法是在TW2法的基礎上修改的適用于中國人的方法,但該方法取消了7塊骨,影響骨齡評測準確性。為適應中國兒童及青少年生長發(fā)育趨勢,張紹巖等[1]參照TW3法,分別制定了TW3-C RUS、TW3-C Carpal骨齡標準;基于法醫(yī)學和運動醫(yī)學的需要,又在TW3-C RUS基礎上增加了骨成熟度指征,稱為RUS-CHN法;以上方法總稱為《中國人手腕部骨齡標準——中華05》(以下簡稱“中華05法”),在2006年成為目前中國唯一的骨齡行業(yè)標準。
中華05法的樣本為東部沿海的5個城市,其對西南地區(qū)適用性有待驗證?;谌斯ぶ悄?artificial intelligence, AI)技術,骨齡評測已有多種自動化解決方案[5-7]。2012年后,深度學習技術開始應用于骨齡評測[8-10]。但由于骨齡標準固有的主觀性和種族差異[11],客觀評價深度學習骨齡評測系統(tǒng)的臨床效能,仍有待研究[12]。本研究探討適用于深度學習骨齡評測系統(tǒng)的臨床試驗方案,并對比深度學習模型(模型組)和2名住院醫(yī)師(對照組)對貴州省兒童及青少年的骨齡評測準確性。
1.1 一般資料 回顧性收集2016年2月—2019年6月于我院就診的148例兒童及青少年患者左手腕部骨齡X線影像,年齡2~17歲,其中男67例,平均(10.7±4.1)歲;女81例,平均(10.0±4.7)歲。生活年齡分布直方圖見圖1。納入標準:父母及受檢者均生長于貴州本地且發(fā)育正常(骨齡與生活年齡差距≤1歲)。排除標準:①手腕骨存在遮擋物;②分辨率差,影響骨骼特征觀察;③有骨折、畸形或骨發(fā)育異常等影響骨齡判斷的X線片。本研究獲本院倫理委員會批準。
圖1 樣本生活年齡分布直方圖
1.2 儀器與方法
1.2.1 骨齡片拍攝 采用Carestream Health DRX-1型號機器,按下列要求拍攝左手X線片(圖2):①左手掌面緊貼暗盒,拇指與食指約呈30°,其余4指自然分開,中指與前臂中軸在一條直線上;②除手部完全顯示外,橈、尺骨遠端應顯示3~4 cm;③DR機球管中心正對第三掌骨頭,管片距70~90 cm。骨齡片以DICOM格式存儲。
1.2.2 深度學習骨齡評測系統(tǒng) 采用深睿醫(yī)療Dr.Wise骨齡和生長發(fā)育預測軟件0531beta版,硬件平臺GPU采用英偉達Titan Xp,所得數(shù)據(jù)設為模型組(圖3)。
圖3 深睿醫(yī)療Dr.Wise骨齡和生長發(fā)育預測軟件測量界面
1.3 骨齡評測參考標準制定 從北京、河北、大連、無錫、廈門招募12名有5年以上評分法骨齡評測經(jīng)驗的放射科和兒科醫(yī)師。對所有醫(yī)師,無論有無中華05 RUS-CHN法使用經(jīng)驗,均依據(jù)中華05法再次進行系統(tǒng)的骨齡評測培訓。培訓后,選用20例2~17歲規(guī)范骨齡片,對所有醫(yī)師進行水平測試。選擇水平最佳的3名醫(yī)師(2名主任醫(yī)師,1名副主任醫(yī)師)對148例骨齡片進行雙盲標注,并取三者均值,即為本研究金標準。
1.4 對照組 2名(醫(yī)師A、醫(yī)師B)住院醫(yī)師中,醫(yī)師A近一年骨齡片讀片量不低于1 000張(采用中華05 RUS-CHN法),醫(yī)師B近一年骨齡閱片量不低于 2 000張(采用中華05 RUS-CHN法)。閱片環(huán)境采用Dr.Wise遠程標注平臺(http://label.deepwise.com),可根據(jù)需要縮放圖像、調(diào)節(jié)窗寬和窗位。
1.5 統(tǒng)計學分析 采用基于Python2.7(Python Software Foundation, Beaverton, Ore)的scipy、statsmodels庫以及R軟件。模型組和對照組醫(yī)師評測骨齡的準確性采用平均絕對誤差(mean absolute difference, MAE;骨齡評測誤差的絕對值的算術平均值)衡量。采用組內(nèi)相關系數(shù)(intraclass correlation coefficients, ICC)分析模型組和對照組與金標準評價骨齡的一致性,ICC>0.75為一致性良好。繪制Bland-Altman圖,計算模型組和金標準骨齡差異(骨齡偏差)的95%一致性界限。采用配對樣本t檢驗比較模型組和對照組醫(yī)師A、醫(yī)師B間平均誤差(所有樣本骨齡評測誤差的算術平均值)、MAE,以P<0.05為差異有統(tǒng)計學意義。采用箱式圖分析≥2~5歲、≥6~8歲、≥9~11歲、≥12~14歲、≥15~17歲5個年齡段骨齡評測誤差的變化趨勢。
2.1 模型組、對照組與金標準準確率對比 參照金標準,模型組MAE為0.295歲[95%CI(0.238,0.352)],對照組醫(yī)師A MAE為0.438歲[95%CI(0.369,0.508)],醫(yī)師B MAE為0.360歲[95%CI(0.295,0.425)]。模型組、對照組MAE≤0.5歲分別占84.46%(125/148)、67.57%(100/148;醫(yī)師A)和74.32%(110/148;醫(yī)師B)。模型組、對照組MAE≤1.0歲分別占93.92%(139/148)、89.19%(132/148;醫(yī)師A)和89.86%(133/148;醫(yī)師B),見表1。
表1 參照金標準,模型組和對照組不同性別MAE
對照組醫(yī)師A、醫(yī)師B與金標準分別存在+0.363歲和+0.269歲的平均誤差。模型組與對照組MAE的差異,見表2。模型組的MAE顯著優(yōu)于醫(yī)師A(t=-3.071,P=0.002),但與醫(yī)師B的MAE差異無統(tǒng)計學意義(t=-1.563,P=0.120)。
表2 模型組和對照組骨齡評測的平均誤差和MAE
2.2 一致性檢驗 以金標準為參照,模型組評估骨齡的一致性良好[ICC=0.994,95%CI(0.992,0.996)],對照組醫(yī)師A[ICC=0.989,95%CI(0.959,0.995)]和醫(yī)師B[ICC=0.991,95%CI(0.979,0.996)]評估骨齡的一致性良好。模型組和金標準評測骨齡偏差的95%一致性界限為(-0.896,+0.892),見圖2。
2.3 不同年齡段之間骨齡值的比較 不同年齡段的箱式圖見圖3。≤2~5歲、≤6~8歲、≤9~11歲、≤12~14歲年齡段模型骨齡預測誤差均值(虛線)小于≤15~17歲。
骨齡是評價兒童及青少年生長發(fā)育狀況、預測身高、診斷疾病與監(jiān)測治療等的重要指標和依據(jù),具有重要的臨床意義。長期以來,廣泛使用的圖譜法雖然簡單快捷,但評價者間差異大、評價者內(nèi)可重復性差[2];而準確率相對較高的評分法又因其操作繁瑣耗時,難以高效應用于臨床[3]。骨齡評測的自動化、智能化是一項迫切的臨床需要。
實驗性骨齡評測系統(tǒng)常采用半自動方式,即先手動勾選13個骨骺區(qū)域,然后系統(tǒng)基于特征提取和機器學習分類器獲得骨齡。2009年Thodberg等[5]基于主動表觀模型等技術,在84例TW3數(shù)據(jù)集上取得了0.80年的掌指骨骨齡預測均方根誤差[95%CI(0.68,0.93)]。近年來隨著深度學習技術的發(fā)展[13],出現(xiàn)更精確、快速的骨齡評測方法,如卷積神經(jīng)網(wǎng)絡預測GP圖譜法骨齡[8]。但算法的進展也對骨齡評測系統(tǒng)的臨床驗證提出了更高的要求。
驗證模型準確性的關鍵是確定真實骨齡的參考標準。既往研究[3-4]表明,采用不同骨齡評測方法評價同樣骨齡片,結(jié)果存在系統(tǒng)性偏差。因此,骨齡評測準確性的臨床驗證,首先需選定一種骨齡評測標準。本研究采用中華05 RUS-CHN法,設定了統(tǒng)一的標準。但骨齡評價的主觀因素影響仍較大:①橈尺骨骨骺、掌指骨骨骺的生長發(fā)育均是連續(xù)的變化過程,臨床采用TW3法或中華05 RUS-CHN法評價骨骺發(fā)育等級,是將連續(xù)的骨骺發(fā)育形態(tài)量化到一系列離散的典型指征,如骨骺發(fā)育狀態(tài)介于兩個發(fā)育等級之間時,閱片者只能依據(jù)主觀認知選擇最接近的等級;②受拍攝角度差異、個體發(fā)育差異等因素影響,并非所有骨骺形態(tài)都能與骨骺分級標準圖對應;此時對骨骺等級的判定依賴于閱片者對手部骨骼三維解剖結(jié)構(gòu)及常見變異情況的經(jīng)驗積累;③骨齡評測是重復性工作,長時間的連續(xù)閱片,即使有經(jīng)驗的醫(yī)師可能也會出現(xiàn)偶然失誤。骨齡評價方法可靠性研究[2]表明,隨讀片經(jīng)驗的不斷豐富,骨齡評價的可靠性也在增加,且技術培訓、統(tǒng)一評價標準也對評價者間的讀片可靠性有重要影響[14]。
為盡量減少主觀性影響,本研究在制定骨齡相對金標準時,對已具備經(jīng)驗的醫(yī)師仍按統(tǒng)一標準進行系統(tǒng)培訓和測試選拔,并取3名醫(yī)師的均值作為標準。另外,為規(guī)避單中心閱片的局限,提升制定骨齡金標準的可靠性,本研究采用多中心報名的方式確定制定參考標準的3名閱片者。
本研究結(jié)果顯示,模型組MAE小于對照組,模型組絕對誤差≤0.5歲和絕對誤差≤1.0歲的占比均高于對照組,提示模型的準確率均優(yōu)于對照組2名醫(yī)師;模型的平均誤差和對照組2名醫(yī)師的平均誤差差異均有統(tǒng)計學意義,對照組2名醫(yī)師均有高估骨齡的傾向,而模型組與金標準之間的平均誤差非常小(1.930×10-3歲),表明深度學習模型不受主觀偏好影響的優(yōu)勢;模型組和對照組醫(yī)師A的MAE差異有統(tǒng)計學意義(P=0.002);模型組和對照組醫(yī)師B的MAE差異無統(tǒng)計學意義(P=0.120),提示深度學習模型的骨齡評測準確率達到或超過了對照組2名醫(yī)師。為進一步考察模型組骨齡評測值和金標準骨齡之間的一致性,本研究根據(jù)ICC數(shù)值判斷結(jié)果表明,模型骨齡評測值與金標準骨齡的一致性優(yōu)于對照組醫(yī)師A。
影響骨齡評測準確性結(jié)果的另一因素是樣本年齡分布,本研究在已有貴州兒童及青少年數(shù)據(jù)中,盡可能保證2~17歲年齡段的樣本均衡分布。因本研究3歲以下入組骨齡片較少,僅納入5例,多為左手外傷拍攝X光片,排除骨折的患兒;其余每歲樣本量均控制在8~10例。本研究通過繪制Bland-Altman圖,發(fā)現(xiàn)骨齡偏差的95%一致性界限為(-0.896,+0.892),優(yōu)于Larson等[15]采用GP圖譜法人工智能系統(tǒng)測評骨齡的一致性結(jié)果。此外,本研究還發(fā)現(xiàn)15~17歲年齡段模型骨齡預測誤差明顯大于其他年齡段,推測原因:使用中華05 RUS-CHN法,16歲以上骨齡片評測,主要取決于橈尺骨的融合程度(1/4融合、1/2融合、3/4融合),此處差異細微,不同標注者主觀差異大,易導致模型訓練效果欠佳。
本研究的局限性:①驗證用樣本量較小,未對各年齡段骨齡評測情況進行統(tǒng)計學分析;②納入研究的樣本雖同來源于貴州地區(qū),但未考慮民族等因素的影響,將在其后的研究中進一步完善。
綜上所述,將基于深度學習的骨齡評測系統(tǒng)用于貴州兒童及青少年臨床骨齡閱片,可取得接近甚至優(yōu)于對照組醫(yī)師的準確性和一致性,具有廣闊的臨床應用前景。