余行,蔣家良,何奕松,姜曉璇,傅玉川
四川大學(xué)華西醫(yī)院 放療科,成都市,610041
高精度腫瘤放射治療的目標(biāo)是精確控制計(jì)劃靶區(qū)體積,盡可能保護(hù)健康組織并降低輻射誘發(fā)繼發(fā)性惡性腫瘤的風(fēng)險(xiǎn)[1-3]。因此,靶區(qū)(例如腫瘤區(qū)域)和緊要器官(Organs at Risk,OAR)的精確勾畫成為放射治療計(jì)劃過(guò)程中的首要關(guān)鍵步驟。這類勾畫過(guò)程的本質(zhì)是對(duì)醫(yī)學(xué)影像的區(qū)域分割。傳統(tǒng)的手動(dòng)分割存在耗時(shí)、勾畫者間偏差等問(wèn)題,因此開(kāi)發(fā)準(zhǔn)確的自動(dòng)分割方法對(duì)于輔助預(yù)處理放射治療計(jì)劃至關(guān)重要[4]。
近年來(lái),多種自動(dòng)分割方法已出現(xiàn)在不同程度的臨床應(yīng)用和研究中。如基于圖譜/模板的器官自動(dòng)勾畫方法[5-6]和基于深度學(xué)習(xí)模型的自動(dòng)勾畫算法[7-8]。而基于深度學(xué)習(xí)的自動(dòng)勾畫算法以其魯棒性和靈活性顯示出巨大的潛力[9-10]。但是,由于存在大量和多樣的解剖結(jié)構(gòu),在具體實(shí)踐中,每個(gè)自動(dòng)分割算法都是針對(duì)特定區(qū)域或模態(tài)設(shè)計(jì)的,其對(duì)應(yīng)的自動(dòng)分割模型在一個(gè)區(qū)域中能準(zhǔn)確分割圖像,而在另一個(gè)區(qū)域中則可能并不適用。反映在區(qū)域的自動(dòng)勾畫中,即針對(duì)不同部位的靶區(qū)和器官,需要用不同的勾畫算法模型(頭頸部、胸部、腹部、盆腔等),這意味著在自動(dòng)勾畫危及器官前,必須先針對(duì)不同的身體部位選擇相應(yīng)的分割模型。因此,在調(diào)用圖像分割算法之前預(yù)先判斷當(dāng)前處理圖像所處的身體部位,就可以自動(dòng)選擇算法模型,實(shí)現(xiàn)圖像的全自動(dòng)分割。
CT圖像中身體部位的自動(dòng)識(shí)別方法主要可以分為以下3種:基于DICOM(Digital Imaging and Communications in Medicine,DICOM)文件頭信息的自動(dòng)識(shí)別、基于CT圖像灰度值特征的自動(dòng)識(shí)別和基于機(jī)器學(xué)習(xí)的身體部位自動(dòng)識(shí)別。前兩種方法由于缺乏彈性而受到比較大的局限。田野等[11]采用機(jī)器學(xué)習(xí)的算法,選取心臟、腎臟和股骨頭作為胸部、腹部及盆腔的代表器官來(lái)判斷CT圖像所屬身體部位。該方法對(duì)原始二維Haar-AdaBoost方法進(jìn)行了改進(jìn)[12],根據(jù)器官的實(shí)際物理大小使用固定圖像分辨率,有效地選擇關(guān)鍵Haar特征,對(duì)圖像進(jìn)行學(xué)習(xí)后通過(guò)高斯擬合的方法對(duì)目標(biāo)器官進(jìn)行識(shí)別,從而判斷其所屬身體部位,實(shí)驗(yàn)結(jié)果表明該方法可以實(shí)現(xiàn)胸部、腹部和盆腔的有效識(shí)別。但是對(duì)于某些CT圖像而言,若該圖像不包括代表器官,則無(wú)法對(duì)該CT圖像進(jìn)行判斷。
ROTH等[13]利用DICOM標(biāo)簽中的‘StudyDescription’and‘BodyPartExamined’將身體劃分為頸部、肺部、肝部、盆腔及大腿,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)分類進(jìn)行訓(xùn)練,從而得到一個(gè)可以輔助診斷的分類器。但通過(guò)DICOM標(biāo)簽對(duì)圖像進(jìn)行分類可能出現(xiàn)分類錯(cuò)誤的情況。
本文在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上建立了深度學(xué)習(xí)模型[14],將含有椎體的身體部位按照椎體劃分為4類(頸椎-頸部,胸椎-胸部,腰椎-腹部,骶骨及尾骨-盆腔),通過(guò)多平面重建(Multiplanar Reconstruction,MPR)結(jié)合矢狀位及冠狀位對(duì)連續(xù)CT圖像進(jìn)行分類,探討了利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)CT圖像進(jìn)行定位的可行性。同時(shí),為了避免因訓(xùn)練樣本過(guò)少帶來(lái)的過(guò)擬合問(wèn)題,采用遷移學(xué)習(xí)及數(shù)據(jù)擴(kuò)增方法提高了模型的泛化能力。
本文所采用的神經(jīng)網(wǎng)絡(luò)為AlexNet網(wǎng)絡(luò)[15],它是計(jì)算機(jī)視覺(jué)中首個(gè)被廣泛關(guān)注的卷積神經(jīng)網(wǎng)絡(luò),包括5個(gè)卷積層和3個(gè)全連接層,在第1,2,5卷積層后都跟隨著池化層。
1.1.1 卷積層
卷積層是卷積神經(jīng)網(wǎng)絡(luò)中的基本結(jié)構(gòu)。卷積是一種局部操作,通過(guò)一定大小的卷積核(通常5×5或3×3)作用于局部圖像區(qū)域獲得圖像的局部信息。初始低層往往提取低階特征,如邊、角、曲線等。隨著卷積層數(shù)的增加,卷積核提取的特征越來(lái)越復(fù)雜,卷積層一般形式如式(1)所示:
1.1.2 池化層
池化層實(shí)質(zhì)為一種“降采樣”操作,操作時(shí)基于局部相關(guān)性原理進(jìn)行亞采樣,從而在減少數(shù)據(jù)量的同時(shí)保留有用信息,通常有平均值池化和最大池化。同卷積層操作不同,池化層不包含需要學(xué)習(xí)的參數(shù)。池化有以下三種功能:①特征不變性;②特征降維;③在一定程度防止過(guò)擬合,一般表現(xiàn)形式如式(2)所示:
其中,β是下采樣層的權(quán)重系數(shù),bl是下采樣層的偏置項(xiàng)。符號(hào)down(.)表示下采樣函數(shù),它通過(guò)對(duì)輸入特征圖xjl-1通過(guò)滑動(dòng)窗口方法劃分為多個(gè)不重疊的圖塊,然后對(duì)每個(gè)圖塊內(nèi)的像素進(jìn)行處理。本文中使用最大池化進(jìn)行采樣處理。
1.1.3 全連接層
全連接層一般位于網(wǎng)絡(luò)尾端,對(duì)卷積層與池化層得到的二維向量特征轉(zhuǎn)化為一維向量進(jìn)行分類,其一般表現(xiàn)形式如式(3)所示:
其中,wl是全連接層的權(quán)重系數(shù),bl為全連接層的偏置項(xiàng)。
1.1.4 反向傳播算法
卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練使用的是反向傳播算法,通過(guò)反向傳播算法不斷優(yōu)化各個(gè)連接層損失函數(shù)的權(quán)值與偏置,從而使得真實(shí)值輸出與計(jì)算值輸出間的誤差達(dá)到最小。對(duì)于不同的任務(wù)有不同的損失函數(shù)。本研究中所采用的損失函數(shù)為softmax交叉熵函數(shù),通過(guò)隨機(jī)梯度下降,權(quán)重系數(shù)以及偏置項(xiàng)的更新式如式(4)、(5)所示[16]:
其中,η為學(xué)習(xí)率,m為小批量樣本(minibatch)的樣本數(shù)目。
1.1.5 激活函數(shù)及其他本文中使用的卷積神經(jīng)網(wǎng)絡(luò)將ReLu作為激活函數(shù),能夠?qū)⒕€性變換的輸出進(jìn)行非線性變換。由于ReLu激活函數(shù)本身非常接近線性,還保留了易于優(yōu)化的屬性,故在隨機(jī)梯度下降階段的收斂速度較快,數(shù)學(xué)表示如式(6)所示:
同時(shí),AlexNet通過(guò)使用隨機(jī)失活(Dropout)隨機(jī)忽略一部分神經(jīng)元,以防止模型過(guò)擬合。
卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練需要大量的訓(xùn)練樣本,因此本文采用遷移學(xué)習(xí)來(lái)解決訓(xùn)練樣本不足的問(wèn)題[17]。遷移學(xué)習(xí)是一種機(jī)器學(xué)習(xí)的方法,指的是一個(gè)模型被重新用在另一個(gè)任務(wù)中作為預(yù)訓(xùn)練模型以提高其泛化能力。遷移學(xué)習(xí)可以通過(guò)已有的知識(shí)來(lái)解決小樣本數(shù)據(jù)的學(xué)習(xí)問(wèn)題,從而提升卷積神經(jīng)網(wǎng)絡(luò)在小樣本數(shù)據(jù)集上的分類準(zhǔn)確率。與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,遷移學(xué)習(xí)不再要求必須有足夠多的、可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)好的分類模型,同時(shí)也不再要求用于學(xué)習(xí)的訓(xùn)練樣本與新的測(cè)試樣本滿足獨(dú)立同分布[18-19]。
本研究中的遷移學(xué)習(xí)示意圖(見(jiàn)圖1),首先利用ImageNet數(shù)據(jù)集對(duì)AlexNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練作為預(yù)訓(xùn)練模型,在遷移學(xué)習(xí)階段,對(duì)于卷積層C1~C5及FC6,將預(yù)訓(xùn)練模型的權(quán)重參數(shù)遷移至訓(xùn)練模型,同時(shí)隨機(jī)初始化FC7、FC8,最后微調(diào)優(yōu)化并在訓(xùn)練集上對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練從而進(jìn)行參數(shù)更新。遷移學(xué)習(xí)層數(shù)不同,初始學(xué)習(xí)率也有所不同。如若學(xué)習(xí)速率過(guò)小,會(huì)導(dǎo)致收斂速度過(guò)低,會(huì)使訓(xùn)練的時(shí)間增加;如若學(xué)習(xí)速率太大,會(huì)阻礙模型收斂,且容易產(chǎn)生震蕩。因此初始學(xué)習(xí)率的設(shè)置也會(huì)影響到模型的最終效果。本研究中設(shè)定的初始學(xué)習(xí)率為0.005。
圖1 利用預(yù)訓(xùn)練模型對(duì)AlexNet模型調(diào)優(yōu)示意圖Fig.1 Illustration of AlexNet model fine-tuning based on pre-trained model
選取45例患者的CT掃描圖像(其中頸部序列15例,胸部序列15例,腹部及盆腔序列15例),共3 153張CT圖像,均使用Siemens syngo CT掃描機(jī)采集,掃描層厚為3.0 mm,圖像重建分辨率512×512。將CT圖像通過(guò)RaiAnt軟件進(jìn)行三維MPR重建,由兩位醫(yī)生結(jié)合重建矢狀位與冠狀位對(duì)橫斷面CT圖像進(jìn)行分類。方法為結(jié)合矢狀位與冠狀位找到C1的上界與C7的下界,二者之間的所有橫斷面CT圖像定義為頸部;C7下界(T1上界)到T12下界定義為胸部;T12下界(L1上界)到L5下界定義為腹部;L5下界(S1上界)到尾骨下界定義為盆腔。具體見(jiàn)圖2,將含有椎體的身體部分劃分為4類,頸部共595張(圖1A-1B),胸部共1 105張,腹部共875張,盆腔共580張。
將分類后數(shù)據(jù)的3/5用于訓(xùn)練,1/5用于驗(yàn)證,余下1/5用于測(cè)試。圖像均由DICOM格式轉(zhuǎn)換為png格式進(jìn)行訓(xùn)練及測(cè)試。
在使用深度學(xué)習(xí)進(jìn)行圖像分類時(shí),通常訓(xùn)練的數(shù)據(jù)越多,模型的擬合性能越好。盡管在有些情況下圖像的質(zhì)量不夠好,但是只要模型能從中提取并學(xué)習(xí)到有用的信息,那么模型的性能就越好。因此數(shù)據(jù)擴(kuò)增方法常被用來(lái)提高模型的性能以及防止過(guò)擬合[20-21]。
圖2 以頸部為例,利用多平面重建進(jìn)行分類示意圖Fig.2 The classification sketch map based on multi-plane reconstruction
本文中采用了旋轉(zhuǎn)、放大、隨機(jī)增加對(duì)比度及亮度、翻轉(zhuǎn)及隨機(jī)扭曲等操作對(duì)原始圖像進(jìn)行數(shù)據(jù)擴(kuò)增,每一類擴(kuò)增6 000張,在一定程度上還解決了數(shù)據(jù)集不平衡問(wèn)題。對(duì)樣本數(shù)目比較少的類別采用擴(kuò)增技術(shù),向數(shù)目多的類別樣本補(bǔ)齊。
具體的擴(kuò)增參數(shù)如下:旋轉(zhuǎn)概率為0.7,向左向右旋轉(zhuǎn)角度最大角度均為10o;放大概率為0.4,最大倍數(shù)為1.1,最小倍數(shù)為1.3;隨機(jī)增加對(duì)比度及亮度的概率為0.6,最小倍數(shù)為0.8,最大倍數(shù)為1.3;翻轉(zhuǎn)概率為0.4;隨機(jī)扭曲概率為0.2,網(wǎng)格寬度和高度均為4,梯度為8。數(shù)據(jù)擴(kuò)增示意圖,如圖3所示。
圖3 數(shù)據(jù)擴(kuò)增示意圖Fig.3 Data augmentation diagram.
圖4為模型訓(xùn)練示意圖,圖像格式的轉(zhuǎn)換、隨機(jī)分類、圖像擴(kuò)增、訓(xùn)練及測(cè)試均使用python語(yǔ)言完成,卷積神經(jīng)網(wǎng)絡(luò)框架為Google的Tensorflow[22]。
圖4 模型訓(xùn)練流程圖Fig.4 The workflow of model training
訓(xùn)練時(shí),初始學(xué)習(xí)率為0.005,訓(xùn)練的批尺寸(batch size)為400,隨機(jī)失活率(dropout rate)為0.8,訓(xùn)練次數(shù)(epochs)為30,硬件系統(tǒng)為英偉達(dá)GTX 1080TI GPU工作站。
本文使用準(zhǔn)確率(accuracy)作為分類評(píng)價(jià)標(biāo)準(zhǔn),其定義為分類正確的樣本數(shù)占樣本總數(shù)的比例。值越高,說(shuō)明分類效果越好。
表1給出了訓(xùn)練數(shù)據(jù)擴(kuò)增前及擴(kuò)增后的樣本數(shù)及相應(yīng)的分類準(zhǔn)確率,可以看到數(shù)據(jù)擴(kuò)增后的準(zhǔn)確率由94.95%提高到了97.72%。表2利用混淆矩陣表示了測(cè)試時(shí)的結(jié)果。表3給出了兩種情況下訓(xùn)練及測(cè)試時(shí)間的差別,擴(kuò)增后數(shù)據(jù)訓(xùn)練及測(cè)試時(shí)間都有所增加。
表1 訓(xùn)練數(shù)據(jù)擴(kuò)增前#1及擴(kuò)增后#2的分類準(zhǔn)確率Tab.1 Classification accuracy on the original test images before1 and after2 data augmentation
表2 訓(xùn)練數(shù)據(jù)擴(kuò)增前#1及擴(kuò)增后#2的混淆矩陣Tab.2 Confusion matrixon the original test images before1 and after2 data augmentation
表3 擴(kuò)增前#1及擴(kuò)增后#2訓(xùn)練時(shí)間及測(cè)試時(shí)間的比較Tab.3 Comparison of the training time and testing time before1 and after2 data augmentation
目前,應(yīng)用于臨床和研究的醫(yī)學(xué)圖像自動(dòng)分割工具,無(wú)論是基于圖譜/模板還是基于深度學(xué)習(xí)模型,都包含了一個(gè)預(yù)先的假設(shè),即要進(jìn)行分割的圖像所屬身體部位是已知的,針對(duì)特定解剖結(jié)構(gòu)或區(qū)域設(shè)計(jì)的自動(dòng)分割算法模型會(huì)被自動(dòng)調(diào)用。而在具體實(shí)踐中,這一假設(shè)是由前期人工選擇完成的。
一個(gè)通用的圖像分割工具應(yīng)該是這樣的:把任一醫(yī)學(xué)圖像輸入到系統(tǒng)中,系統(tǒng)自動(dòng)判斷該圖像所屬身體部位,然后自動(dòng)調(diào)用針對(duì)該部位的自動(dòng)分割算法模型,經(jīng)過(guò)計(jì)算后自動(dòng)得到高精度的區(qū)域勾畫結(jié)果,實(shí)現(xiàn)圖像的“一鍵式”自動(dòng)分割功能。
盡管DICOM 頭文件信息有CT掃描部位的信息,但是由于不同醫(yī)院的建模差異或者掃描方式差異,通過(guò)DICOM頭文件信息對(duì)CT圖像所屬身體部位進(jìn)行識(shí)別是不可靠的。另外,通過(guò)檢測(cè)圖像中是否有某一器官來(lái)判斷其所屬身體部位也存在一定的局限性,因?yàn)槿梭w的內(nèi)在解剖結(jié)構(gòu)是非恒定的,它受到諸如性別、身高和體重等影響。
本文基于ROTH等[13]的研究方法,利用卷積神經(jīng)網(wǎng)絡(luò)和椎體分類對(duì)CT圖像進(jìn)行判斷,從而實(shí)現(xiàn)了CT圖像所屬身體部位的自動(dòng)分類,其中基于椎體的劃分避免了樣本重疊或漏缺的現(xiàn)象。另外,通過(guò)將遷移學(xué)習(xí)應(yīng)用于模型訓(xùn)練和數(shù)據(jù)擴(kuò)增解決了小樣本量的問(wèn)題。我們記錄了擴(kuò)增前及擴(kuò)增后訓(xùn)練時(shí)間及測(cè)試時(shí)間,發(fā)現(xiàn)隨著樣本量的擴(kuò)增,訓(xùn)練時(shí)間及測(cè)試時(shí)間會(huì)相應(yīng)的增加,這意味著訓(xùn)練樣本不是越多越好,因?yàn)樗鼤?huì)以時(shí)間為代價(jià)。
AlexNet為卷積神經(jīng)網(wǎng)絡(luò)中一個(gè)較為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò),在本文的分類中,由于類別較少(4類),因此取得了很好的結(jié)果。在處理更細(xì)、更復(fù)雜的分類工作時(shí),可通過(guò)增加卷積層或是改進(jìn)特征提取策略來(lái)獲得理想的結(jié)果[23-24],因此在建立相應(yīng)的模型方面還有很大的拓展空間。
利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)任一CT圖像按照椎體范圍進(jìn)行精確分類和定位是可行的,而數(shù)據(jù)擴(kuò)增技術(shù)在提高分類準(zhǔn)確率的同時(shí)也要增加訓(xùn)練及測(cè)試時(shí)間。