楊琦帆,孫雪陽,王彥斌,田志嶺,董賀文,萬雷,鄒冬華,于笑天,張廣政,劉寧國
1.鄭州大學(xué)基礎(chǔ)醫(yī)學(xué)院法醫(yī)學(xué)系,河南 鄭州 450000;2.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺,上海 200063;3.中國合格評定國家認(rèn)可中心,北京100062
致傷方式推斷是法醫(yī)學(xué)鑒定的難點(diǎn)之一,準(zhǔn)確的致傷方式判斷可以為案件偵查提供線索,還可以為司法審判提供證據(jù)[1]。頭部致傷方式通常分為直接暴力和間接暴力,直接暴力導(dǎo)致的顱腦損傷有多種,其中,直線運(yùn)動(dòng)引起的加速性損傷和減速性損傷最常見。由于加、減速性腦損傷涉及頭部打擊傷或摔跌傷兩種形式,故對其準(zhǔn)確鑒別在法醫(yī)學(xué)實(shí)踐中具有重要意義[2]。傳統(tǒng)的加、減速性腦損傷推斷主要通過觀察損傷的形態(tài)學(xué)特征。然而,鑒定實(shí)踐中往往由于某些條件的限制致使尸體解剖無法進(jìn)行,例如某些排除他殺后的死亡案件或死因明確的交通事故案件,其家屬通常會(huì)拒絕進(jìn)行尸體解剖,還有一些民族因宗教信仰等不能進(jìn)行死后解剖,在無法準(zhǔn)確獲得顱腦損傷形態(tài)的情況下,往往導(dǎo)致案件偵查及司法審判難以進(jìn)行[3]。針對這一問題,法醫(yī)學(xué)工作者自20 世紀(jì)90 年代便開始嘗試將現(xiàn)代醫(yī)學(xué)影像技術(shù)應(yīng)用于尸體檢驗(yàn),并由此出現(xiàn)了虛擬解剖技術(shù)[4-6]。近年來,虛擬解剖的開展使得加速性顱腦損傷與減速性顱腦損傷的鑒別更為方便、直觀。然而,鑒于鑒定人員大多并非擅長影像學(xué)專業(yè),實(shí)際讀片時(shí)難免存在主觀性和經(jīng)驗(yàn)性,導(dǎo)致判斷結(jié)果存在差異,而虛擬解剖中的大量影像學(xué)數(shù)據(jù)無形中也加重了鑒定人員的工作負(fù)擔(dān)。如果能夠建立一種快速、準(zhǔn)確的加、減速性顱腦損傷分類方法,則可迅速解決法醫(yī)工作者面臨的實(shí)際難題。
目前,深度學(xué)習(xí)技術(shù)快速發(fā)展,其在圖像分析領(lǐng)域取得的巨大成功為解決上述問題提供了一種可能途徑。深度學(xué)習(xí)的概念最早由HINTON 等[7]于2006 年提出,其核心是特征提取,即通過設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型從大量數(shù)據(jù)中提取客觀特征并利用提取到的特征對未知數(shù)據(jù)進(jìn)行預(yù)測和分類。CNN 模型可以自動(dòng)學(xué)習(xí)這些標(biāo)注過類別的訓(xùn)練數(shù)據(jù),并總結(jié)出可以表征所標(biāo)注數(shù)據(jù)特征的函數(shù),之后根據(jù)這個(gè)函數(shù)測試新的未標(biāo)注過的數(shù)據(jù)可以得到一個(gè)可靠的預(yù)測結(jié)果[8]。經(jīng)過十幾年的發(fā)展,CNN 的算法不斷優(yōu)化、結(jié)構(gòu)不斷加深,在圖像分類中的準(zhǔn)確率得到顯著提升。目前,已有多種CNN 模型被提出并廣泛用于醫(yī)學(xué)圖像分析領(lǐng)域,如皮膚癌的分類[9]、糖尿病視網(wǎng)膜眼底病變的檢測[10-11]以及骨齡評估[12-16]等。
Inception_v3 模型是近幾年圖像分類研究中比較常用且表現(xiàn)良好的一種經(jīng)典CNN 模型,因此,本研究擬選用Inception_v3 模型對顱腦損傷的CT 圖像進(jìn)行加、減速性損傷的自動(dòng)化鑒別研究,探討CNN 模型用于輔助頭部致傷方式推斷的可行性。
收集190例司法鑒定科學(xué)研究院法醫(yī)臨床學(xué)研究室2007—2018 年關(guān)于顱腦損傷被鑒定人的顱腦影像學(xué)資料,包括109 例加速性腦損傷和81 例減速性腦損傷,由影像學(xué)專家完成影像學(xué)診斷。同時(shí)選取130 例正常顱腦的影像學(xué)資料作為對照。本研究已獲得被鑒定人或其家屬的同意,并經(jīng)過司法鑒定科學(xué)研究院倫理委員會(huì)批準(zhǔn)。
納入標(biāo)準(zhǔn):(1)篩選典型的加速性腦損傷案例和減速性腦損傷案例,其中加速性損傷包括徒手傷和工具傷,減速性損傷包括高墜、平地摔跌和交通事故;(2)造成顱腦直接損傷;(3)頭顱為單一受力部位;(4)傷后24 h 內(nèi)進(jìn)行頭顱CT 掃描。
排除標(biāo)準(zhǔn):(1)頭顱受傷位置無法明確;(2)除顱腦外,身體其他部位為首次受力部位;(3)穿透性腦損傷。
采取隨機(jī)抽樣的方式從上述320 例顱腦影像學(xué)資料中抽取70%作為訓(xùn)練驗(yàn)證集,用于模型訓(xùn)練和參數(shù)優(yōu)化,其余30%作為測試集,用于評估模型分類性能。
本研究中訓(xùn)練驗(yàn)證集、測試集的基本信息見表1,訓(xùn)練驗(yàn)證集、測試集被鑒定人在性別、年齡、損傷類型方面差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。
表1 訓(xùn)練驗(yàn)證集、測試集樣本分布情況Tab.1 Distribution of training validation dataset and testing dataset(例)
為了更好地訓(xùn)練模型,需要對原始顱腦CT 圖像統(tǒng)一進(jìn)行預(yù)處理:
(1)顱腦CT圖像為Inception_v3模型的樣本來源,使用Python 3.9 軟件(美國Google 公司)對圖像進(jìn)行預(yù)處理。人工截取影像數(shù)據(jù)集中所有陽性所見斷層的圖像,并裁剪掉圖像上的無關(guān)內(nèi)容,如片號、姓名、拍攝日期等。
(2)將圖像調(diào)整為同一大小,均為512 像素×512 像素。
(3)圖像增強(qiáng)。為了擴(kuò)大樣本量,本研究通過隨機(jī)旋轉(zhuǎn)(范圍-30°~+30°)、隨機(jī)翻轉(zhuǎn)(增加了概率是0.5的隨機(jī)翻轉(zhuǎn))及隨機(jī)亮度、對比度、色度及飽和度等方式對圖像進(jìn)行增強(qiáng)。
(4)合成RGB 圖像。本研究選取CT 序列中連續(xù)的三幀分別作為R、G、B 通道合成一張彩色圖片。如果三幀中至少存在一張加速性損傷就標(biāo)記為加速性損傷,至少存在一張為減速性損傷就標(biāo)記為減速性損傷,其余標(biāo)記為正常。
最終,共合成1 239 張RGB 圖像,其中:1 122 張為訓(xùn)練驗(yàn)證樣本,用于Inception_v3 模型訓(xùn)練和參數(shù)優(yōu)化,包括470 張加速性腦損傷圖像、390 張減速性腦損傷圖像及262 張正常顱腦圖像;117 張為測試樣本,對已訓(xùn)練好的Inception_v3 模型的分類性能進(jìn)行檢測,包括30 張加速性腦損傷圖像、18 張減速性腦損傷圖像及69 張正常顱腦圖像。
1.3.1 模型構(gòu)建
本研究構(gòu)建了Inception_v3 模型框架用于鑒別加速性腦損傷與減速性腦損傷,Inception_v3模型的整體結(jié)構(gòu)如圖1所示。Inception_v3模型主要由包含不同數(shù)量卷積層和池化層的Inception 模塊和Reduction 模塊構(gòu)成。其中Inception 模塊增加了模型架構(gòu)的寬度,有利于從輸入圖像中提取不同層次的特征,而Reduction模塊則有效降低了計(jì)算量,使模型便于訓(xùn)練。圖的下方展示了模型各個(gè)模塊的詳細(xì)結(jié)構(gòu)。兩個(gè)模塊的排列順序不同,模塊中的卷積層主要用于提取圖像信息,而池化層主要用于提取圖像最明顯的特征,并將所獲得的特征數(shù)據(jù)和參數(shù)進(jìn)行壓縮從而減少模型過擬合。
圖1 Inception_v3 模型整體結(jié)構(gòu)圖Fig.1 The integral structure diagram of Inception_v3 model
1.3.2 參數(shù)設(shè)置及算法優(yōu)化
本研究使用遷移學(xué)習(xí),即模型在訓(xùn)練前已經(jīng)在ImageNet 上進(jìn)行了訓(xùn)練,并將訓(xùn)練好的權(quán)重作為初始權(quán)重,然后再在本研究收集的數(shù)據(jù)集中進(jìn)行訓(xùn)練。Inception_v3模型在1 122個(gè)訓(xùn)練驗(yàn)證樣本中進(jìn)行學(xué)習(xí)訓(xùn)練,最大訓(xùn)練周期設(shè)為1 000,學(xué)習(xí)率設(shè)為0.000 1,最小批量尺寸設(shè)為16,共計(jì)迭代100 輪,使用Adam 優(yōu)化算法以降低交叉熵?fù)p失函數(shù);激活函數(shù)設(shè)置為線性整流函數(shù)(rectified linear unit,ReLU),最后使用Softmax分類函數(shù)進(jìn)行圖像分類,以樣本圖像作為輸入,以圖像的損傷類別作為模型訓(xùn)練的目標(biāo)結(jié)果。每一輪訓(xùn)練過程(訓(xùn)練集)結(jié)束后進(jìn)行結(jié)果驗(yàn)證(驗(yàn)證集),并保存表現(xiàn)最好的模型參數(shù)。在模型分類準(zhǔn)確率沒有進(jìn)一步提高時(shí)停止訓(xùn)練,保留該模型用于測試集117 個(gè)測試樣本的檢測,評估模型的分類性能。
本研究基于i9-11900K+RTX 2080Ti 硬件平臺的Windows 10.0 操作系統(tǒng)。算法開發(fā)過程借助PyCharm軟件(捷克JetBrains 公司),使用Anaconda 進(jìn)行開發(fā)環(huán)境管理。語言環(huán)境基于Keras-GPU 以及Python 3.9軟件。
本研究選取準(zhǔn)確率(accuracy rate)、精確率(precision rate)、召回率(recall rate)、F1 值及受試者操作特征(receiver operating characteristic,ROC)曲線下面積(area under the curve,AUC)值對Inception_v3 模型的分類表現(xiàn)進(jìn)行評價(jià)。準(zhǔn)確率表示模型預(yù)測正確的樣本在所有測試集樣本中所占的比例;精確率表示真正的正樣本在預(yù)測為正的樣本中所占的比例;召回率表示預(yù)測為正的樣本在測試集所有正樣本中所占的比例;F1 值是一個(gè)綜合評價(jià)指標(biāo),綜合了精確率和召回率的結(jié)果,模型F1 值越高表示其性能越好。計(jì)算公式如下:
模型在測試集中的真陽性率、假陽性率、真陰性率及假陰性率通過繪制混淆矩陣獲取?;煜仃囎鳛槿斯ぶ悄艿囊环N可視化工具,將CNN 模型預(yù)測情況與實(shí)際情況的所有結(jié)果進(jìn)行組合,從而形成真陽、假陽、真陰及假陰4 種情形,并用于計(jì)算模型三分類的準(zhǔn)確率、精確率、召回率及F1 值。
以FP 為橫軸、TP 為縱軸繪制的曲線圖即為ROC曲線,AUC 是繪制ROC 曲線時(shí)另一種評估模型分類準(zhǔn)確率的指標(biāo),取值范圍為0~1,取值越接近1,說明模型分類性能越好。
此外,梯度加權(quán)類激活映射(gradient-weighted class activation mapping,Grad-CAM)是一種為CNN模型輸出結(jié)果生成“可視化解釋”的技術(shù),從而使CNN模型分析圖像的過程更透明以及使預(yù)測結(jié)果更容易解釋。因此,為了更好地理解模型是如何根據(jù)輸入圖像做出最終的分類決策,本研究將模型生成的Grad-CAM 圖像與原始顱腦CT 圖像進(jìn)行對比,可視化探討模型在識別并提取圖像特征進(jìn)行預(yù)測時(shí)聚焦的像素區(qū)域是否與顱腦CT 圖像中的出血區(qū)域相符合。
模型在訓(xùn)練過程(訓(xùn)練集)和驗(yàn)證過程(驗(yàn)證集)中的損失函數(shù)與準(zhǔn)確率變化情況如圖2 所示。
圖2 模型損失函數(shù)與準(zhǔn)確率變化示意圖Fig.2 Schematic diagram of model loss function and accuracy rate change
由圖2 可知:模型在分類準(zhǔn)確率沒有得到進(jìn)一步提高時(shí)已得到了充分的訓(xùn)練;約于第18 次Epoch(黑色虛線處)后逐漸平穩(wěn),分類準(zhǔn)確率在訓(xùn)練過程中最高可達(dá)到99.00%,在驗(yàn)證過程中最高可達(dá)到87.21%。
2.2.1 分類檢測及識別效果評價(jià)
首先,將訓(xùn)練和參數(shù)優(yōu)化后的Inception_v3模型在117 個(gè)樣本的測試集中進(jìn)行分類檢測。然后,將模型分類預(yù)測的結(jié)果與真實(shí)情況進(jìn)行對比分析。最后,再通過計(jì)算模型在測試集中的準(zhǔn)確率、精確率、召回率及F1 值等參數(shù),分別評價(jià)模型在加速性腦損傷、減速性腦損傷和正常顱腦圖像三分類中的識別效果。
識別預(yù)測結(jié)果表明:(1)在加速性損傷的30 張圖像中,被識別為加速性損傷(結(jié)果正確)的有27 張,被誤識別為正常顱腦(識別錯(cuò)誤)的有3 張,沒有被誤識別為減速性損傷的情況;(2)在減速性損傷的18 張圖像中,被識別為減速性損傷(結(jié)果正確)的有13 張,被誤識別為正常顱腦(識別錯(cuò)誤)的有5 張,沒有被誤識別為加速性損傷的情況;(3)在正常顱腦的69 張圖像中,被識別為正常顱腦(結(jié)果正確)的有62 張,被誤識別為加速性損傷(識別錯(cuò)誤)的有5 張,被誤識別為減速性損傷(識別錯(cuò)誤)的有2 張。計(jì)算出模型在測試集中的三分類準(zhǔn)確率為87.18%。上述識別結(jié)果以混淆矩陣的形式表示,詳見圖3。
圖3 模型在117 個(gè)測試樣本中的混淆矩陣Fig.3 The confusion matrices of the model using 117 testing samples
基于混淆矩陣,進(jìn)一步計(jì)算評估參數(shù),分別評價(jià)模型在3 種圖像(加速性損傷、減速性損傷及正常顱腦)中的識別效果,結(jié)果見表2。由于F1 值是一個(gè)較為綜合的評價(jià)指標(biāo),故一般以F1 值判斷模型的性能。由表2 可知,該模型識別加速性損傷(87.10%)和正常顱腦(89.21%)的性能優(yōu)于減速性損傷(78.79%)。
表2 Inception_v3 模型在測試集中的分類結(jié)果Tab.2 The classification results of Inception_v3 in the testing dataset(%)
2.2.2 模型分類性能的ROC 曲線評估
圖4 為模型在測試過程中的ROC 曲線,綠色曲線代表加速性損傷,橙色曲線代表減速性損傷,藍(lán)色曲線代表正常顱腦。曲線越靠近左上角,AUC 值越大,模型識別性能越好。由圖4 可明顯看出,3 種圖像的AUC 值均達(dá)到了0.90 以上。
圖4 模型在測試集中的ROC 曲線圖Fig.4 The ROC curves of the model in the testing dataset
圖5 為原始顱腦CT 圖像及模型正確分類時(shí)生成的Grad-CAM 圖,其中圖5A、5B 為原始圖像,圖5C、5D 分別為圖5A、5B 對應(yīng)的Grad-CAM 圖像。Grad-CAM 圖中,紅色區(qū)域表示計(jì)算機(jī)高概率區(qū),是為模型判定圖像類別貢獻(xiàn)較多的區(qū)域;藍(lán)色區(qū)域則表示計(jì)算機(jī)低概率區(qū),是為模型判定圖像類別貢獻(xiàn)較少的區(qū)域。顯而易見,模型高概率區(qū)的分布與顱腦CT 圖像中出血區(qū)域的分布基本一致,由此可推測模型判定圖像類別是根據(jù)出血區(qū)域分布進(jìn)行的,這與人類根據(jù)顱腦CT 圖像中的損傷分布特點(diǎn)鑒別加、減速性腦損傷的思路基本一致,可見模型能夠較好地模擬人類閱片過程。
圖5 原始顱腦CT 圖像及其對應(yīng)的Grad-CAM 圖像Fig.5 Original CT image and the corresponding Grad-CAM image
圖像識別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,始于20 世紀(jì)40 年代[17]。圖像識別領(lǐng)域的研究發(fā)展至今出現(xiàn)過多種識別方法,其中CNN 是目前完成圖像識別任務(wù)的最佳方法之一[18]。CNN 不需要人工提取特征點(diǎn),可以通過建立多層次的網(wǎng)絡(luò)聯(lián)系,自動(dòng)從海量數(shù)據(jù)中學(xué)習(xí)知識,預(yù)測效率及準(zhǔn)確性更高,多次在ImageNet 大規(guī)模視覺識別挑戰(zhàn)大賽中取得優(yōu)異的成績[19-21]。目前,國內(nèi)外已發(fā)表文獻(xiàn)中關(guān)于CNN 分割顱內(nèi)出血及預(yù)測顱內(nèi)出血亞類型的研究較多[22-27]。
本研究以Inception_v3 模型為例探討了CNN 模型在通過顱腦CT 圖像分類加、減速性腦損傷中的應(yīng)用價(jià)值。結(jié)果顯示,模型在訓(xùn)練驗(yàn)證集、測試集中對3 種圖像(加速性腦損傷、減速性腦損傷及正常顱腦)的分類準(zhǔn)確率高達(dá)99.00%、87.18%。鑒于本項(xiàng)分類研究的操作流程及設(shè)計(jì)思路與其他應(yīng)用CNN 模型對病變顱腦和正常顱腦或損傷顱腦和正常顱腦進(jìn)行分類的研究[28-30]沒有太大差別,故將本研究結(jié)果與其他分類研究結(jié)果進(jìn)行對比。AOE 等[28]開發(fā)了一種基于靜息狀態(tài)腦磁圖(magnetoencephalography,MGE)信號對患有神經(jīng)疾病的大腦和正常大腦進(jìn)行分類的深度學(xué)習(xí)算法,實(shí)驗(yàn)結(jié)果顯示,該算法的分類準(zhǔn)確率為(70.7±10.6)%,表明這種深度學(xué)習(xí)算法有望發(fā)展為一個(gè)用于提高神經(jīng)系統(tǒng)疾病診斷的分類器。SARRAF等[29]運(yùn)用CNN 分類患有阿爾茨海默?。ˋlzheimer’s disease,AD)的大腦和正常大腦,結(jié)果顯示,該模型分類準(zhǔn)確率高達(dá)96.85%。GARLAND 等[30]利用CNN 區(qū)分致命損傷大腦和正常大腦,結(jié)果顯示,該模型的分類準(zhǔn)確率為70%~92.5%,表明CNN 有望在未來成為一種計(jì)算機(jī)輔助診斷方法或篩查工具。將本研究結(jié)果與上述研究結(jié)果進(jìn)行對比,發(fā)現(xiàn)本研究結(jié)果總體上是有意義且比較理想的,證實(shí)了基于CNN 模型通過顱腦CT 圖像輔助鑒別加、減速性損傷是可行的,便于法醫(yī)鑒定人在此基礎(chǔ)上進(jìn)一步分析致傷方式,從而有利于降低鑒定人閱片工作量并提高工作效率。
如表2 所示,本研究中Inception_v3 模型識別正常顱腦的F1 值最高,這與鑒定實(shí)踐中法醫(yī)工作者識別正常顱腦組織較容易基本一致。此外,Inception_v3模型在識別加速性損傷時(shí)的F1 值較高,考慮可能與訓(xùn)練驗(yàn)證集中加速性損傷圖像數(shù)量較多有關(guān)。然而,本研究中Inception_v3 模型識別減速性損傷的F1 值較低,考慮可能與以下原因有關(guān):(1)不同部位造成的減速性損傷形態(tài)可能并不相同,如枕部受力時(shí)減速性損傷可能更典型;(2)一些減速性損傷可能并不具有典型的對沖傷特征,從而使判斷存在難度;(3)顱骨復(fù)雜的解剖生理結(jié)構(gòu)導(dǎo)致部分對沖傷并沒有出現(xiàn)在著力點(diǎn)正對側(cè)。由圖5 可知,從該模型輸出判斷為減速性腦損傷的Grad-CAM 圖像中可以清晰看出,圖中的“興趣區(qū)”與原始CT 圖像中的出血區(qū)域基本吻合,故推測該模型在對輸入圖像進(jìn)行分類時(shí)很有可能是依據(jù)所提取到的出血區(qū)域分布特征,這與人類根據(jù)顱腦CT 圖像中的損傷分布特點(diǎn)鑒別加、減速性腦損傷基本一致,可見模型能夠很好地模擬人類閱片過程。
此外,筆者認(rèn)為本研究的特色在于:(1)合成RGB圖像。由于現(xiàn)代醫(yī)學(xué)影像學(xué)圖像的儲存方式主要是DICOM 格式,故法醫(yī)鑒定人閱片通常是基于一幀幀連續(xù)變化的顱腦CT 圖像而并非一張張獨(dú)立的斷層圖像。因此,本研究通過將CT 序列中連續(xù)的三幀合成一張RGB 圖像,一方面便于模型模仿人眼判斷受傷類型,另一方面有利于最大程度地還原損傷從而提高識別效率。(2)與相關(guān)研究多利用深度學(xué)習(xí)算法進(jìn)行二分類不同,本研究還選取了正常顱腦的影像學(xué)資料作為對照進(jìn)行基于深度學(xué)習(xí)算法的三分類研究。
綜上,本研究僅作為一項(xiàng)CNN 模型輔助鑒別顱腦損傷模式的可行性研究,并非代替法醫(yī)學(xué)專家分析并解讀顱腦CT 圖像。CNN 模型通過提取并分析顱腦CT 圖像特征,在輔助加、減速性腦損傷鑒別中具備一定的應(yīng)用潛力,可以作為虛擬解剖中顱腦損傷鑒定的一種輔助分析方法或篩查工具。但本研究也存在一些局限性:(1)樣本量較?。唬?)簡化了顱腦損傷的復(fù)雜性,如未區(qū)分具體顱腦損傷的部位、類型,未采用相應(yīng)方法區(qū)分疾病性腦損傷及外傷性腦損傷;(3)模型算法有待優(yōu)化。因此,在未來的工作中需要進(jìn)一步擴(kuò)大樣本量,并細(xì)化損傷部位(如額部、頂部、枕部、顳部)、損傷類型(如顱骨骨折、硬腦膜外出血、硬腦膜下出血、蛛網(wǎng)膜下腔出血、腦挫傷等),嘗試采取相應(yīng)方法鑒別疾病性腦損傷及外傷性腦損傷,并進(jìn)一步優(yōu)化CNN 模型。
本研究基于CNN 模型在圖像識別中的顯著優(yōu)勢,將CNN 模型用于加、減速性腦損傷的鑒別研究取得了較為理想的實(shí)驗(yàn)結(jié)果,證實(shí)了CNN 在鑒別加、減速性腦損傷中的可行性。盡管本研究中CNN 模型對加、減速性腦損傷及正常顱腦分類準(zhǔn)確率有待提高,但總體上仍是一次有意義的嘗試。