王 黎,陸慧娟,葉敏超,嚴(yán) 珂
(中國計量學(xué)院 信息工程學(xué)院,浙江 杭州 310018)
根據(jù)2015年的中國癌癥報告[1],中國癌癥已成為主要的公共健康問題和首要死亡原因.如果癌癥患者在出現(xiàn)早期病變時得到及時的診斷和治療,將會大大提高生存率,因此,癌癥的早期篩查和準(zhǔn)確診斷極其重要.醫(yī)學(xué)影像作為一種廣泛的癌癥診斷方式,能夠為病情診斷提供大量有用的信息.然而,對于日益增加的圖像數(shù)據(jù)也為人工閱片帶來極大的挑戰(zhàn),不同醫(yī)生主觀意識上的偏差,往往會造成效率低下甚至是誤判的情況出現(xiàn).因此,對于醫(yī)學(xué)影像的信息提取和處理分析,成為近年來的一個重要研究領(lǐng)域.
本文將Faster-RCNN(Regions with CNN features)的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于癌癥影像的檢測,第一階段針對于醫(yī)學(xué)影像的特點,通過垂直翻轉(zhuǎn)擴(kuò)增數(shù)據(jù)集樣本數(shù)量,并添加了一層拉普拉斯卷積層對圖像進(jìn)行卷積銳化,增強(qiáng)圖像的邊緣對比度,突出具有癌變風(fēng)險的結(jié)節(jié)輪廓,第二階段針對于結(jié)節(jié)的目標(biāo)特點,在Faster-RCNN訓(xùn)練時,對模型中的錨框(anchor)大小做了修改,并且修改了超參數(shù)進(jìn)行訓(xùn)練,使癌癥的早期檢測更加高效和準(zhǔn)確.
隨著機(jī)器學(xué)習(xí)在生物信息學(xué)的廣泛應(yīng)用,將機(jī)器學(xué)習(xí)方法用于醫(yī)學(xué)影像的癌癥診斷中是科研人員一直致力研究的方向,Mungle T[2]等人使用馬爾科夫隨機(jī)場模型對圖像進(jìn)行分割后,通過人工神經(jīng)網(wǎng)絡(luò)對分割后的圖像進(jìn)行評分分級.Nguyen T H[3]將定量相位成像掃描儀得到的醫(yī)學(xué)影像訓(xùn)練出隨機(jī)森林分類模型,用于輔助醫(yī)生診斷乳腺癌,提高了醫(yī)生的診斷效率.Garapati S S[4]使用多種機(jī)器學(xué)習(xí)算法用于膀胱癌的CT數(shù)據(jù),分析了形態(tài)特征和紋理特征的模型準(zhǔn)確性,將多個模型組合,得到用于膀胱癌CT的預(yù)測模型.
深度學(xué)習(xí)是以人工神經(jīng)網(wǎng)絡(luò)為理論基礎(chǔ)的機(jī)器學(xué)習(xí)分支方向,自Hinton G[5]在2006年提出了逐層貪婪算法以來,深度學(xué)習(xí)掀起了人工智能革命的熱潮,其中Bengio Y,Lecun Y[6]于1995年提出的卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)對處理圖像數(shù)據(jù)取得了顯著的效果,被廣泛應(yīng)用于計算機(jī)視覺方向.基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)基礎(chǔ),發(fā)展出很多應(yīng)用于圖像分類、目標(biāo)檢測、圖像分割的網(wǎng)絡(luò)結(jié)構(gòu).2014年Girshick R[7]將深度學(xué)習(xí)應(yīng)用于目標(biāo)檢測中,提出了R-CNN模型結(jié)構(gòu),將Region proposals與CNN結(jié)合,使用SVM對卷積特征進(jìn)行分類后,對每類目標(biāo)使用線性脊回歸器進(jìn)行回歸框的精修.該模型使PASCAL VOC數(shù)據(jù)集的檢測率從35.1%提升到53.7%,是深度學(xué)習(xí)應(yīng)用于目標(biāo)檢測的開山之作.2015年Girshick R[8]將空間金字塔池化[9](Spatial Pyramid Pooling SPP)方法加入到R-CNN中,提出Fast-RCNN模型,大幅度提高了訓(xùn)練時間;同年,Girshick R和He K[10]提出了Faster-RCNN,增加了Region Proposal Networks(RPN)網(wǎng)絡(luò),使用網(wǎng)絡(luò)生成候選區(qū)域,實現(xiàn)端到端訓(xùn)練.
深度卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)非常龐大,需要大量的標(biāo)注數(shù)據(jù)才能夠滿足訓(xùn)練要求,但是對于醫(yī)學(xué)影像這類數(shù)據(jù)來說,有標(biāo)注的數(shù)據(jù)是非常有限的,如何充分利用有限的數(shù)據(jù)訓(xùn)練模型,就需要進(jìn)行數(shù)據(jù)增強(qiáng).常用的數(shù)據(jù)增強(qiáng)方法有裁剪、翻轉(zhuǎn)、顏色亮度變化等方法[11].本文使用垂直翻轉(zhuǎn)的方法,對現(xiàn)有的數(shù)據(jù)集進(jìn)行樣本擴(kuò)增.
圖像銳化的目的在于提高邊緣像素的灰度值差異性.在圖像銳化中使用差分運算,可以反映每個圖像像素的灰度值.差分運算能夠確定邊緣像素并增強(qiáng)其像素值.本文將卷積銳化作為一層網(wǎng)絡(luò)結(jié)構(gòu),加入到檢測模型中,使用拉普拉斯算子作為卷積核.
拉普拉斯算子是一種常見的二階導(dǎo)數(shù)算子,可以增強(qiáng)圖像中灰度值的不連續(xù)性,減少灰度區(qū)域的逐漸變化.因此,在連續(xù)二維的情況下,原始圖像f(x,y)的梯度如式(1)[12]
(1)
式(1)中,原始圖像梯度是一個向量,它的方向是函數(shù)f(x,y)的最大變化率的方向.
函數(shù)f(x,y)的最大變化率
(2)
由式(1)、(2)可以得到
(3)
(4)
根據(jù)式(3)、(4)和拉普拉斯算子結(jié)合得到
▽2f(x,y)=f(x+1,y)+f(x-1,y)+
f(x,y+1)+f(x,y-1)-
4f(x,y).
(5)
式(5)為四鄰接拉普拉斯算子,其值與相鄰四個像素的灰度差異有關(guān),可以通過模板卷積操作實現(xiàn)拉普拉斯算子的計算,實現(xiàn)模板如圖1.
0-10-14-10-10
圖1拉普拉斯算子
Figure 1Laplace operator
將四鄰接拉普拉斯算子作為卷積核構(gòu)建一層拉普拉斯卷積層處理輸入原始圖像,在保留圖像原始信息的情況下,增強(qiáng)灰度突變邊緣的對比度,應(yīng)用于醫(yī)學(xué)影像中,可以突出結(jié)節(jié)的輪廓,使模糊的圖像變得清晰,更容易檢測.
Faster-RCNN在Fast-RCNN的基礎(chǔ)上增加了一個區(qū)域建議網(wǎng)絡(luò)(Region Proposal Networks,RPN),能夠通過網(wǎng)絡(luò)生成候選區(qū)域,相比于傳統(tǒng)的區(qū)域搜索算法Selective Search、EdgeBoxes等方法,有明顯的速度提升[10].
如圖2所示,在傳統(tǒng)的Faster-RCNN模型添加一層拉普拉斯卷積層,其中拉普拉斯卷積層參數(shù)固定,不參與反向傳播訓(xùn)練,因為當(dāng)拉普拉斯卷積層參數(shù)改變時,會對輸入圖像造成不確定的銳化效果,造成檢測效果的波動.
圖2 結(jié)節(jié)檢測模型結(jié)構(gòu)Figure 2 Structure of nodule detection model
RPN網(wǎng)絡(luò)與Fast-RCNN共享卷積層得到了輸入特征圖,通過滑動窗口對輸入的特征圖滑動卷積,每個滑動窗口將特征圖映射到一個較低維向量(ZF網(wǎng)絡(luò)為256-d,VGG16網(wǎng)絡(luò)為512-d),該向量輸入到區(qū)域分類層和區(qū)域回歸層得到輸出結(jié)果后進(jìn)入ROI池化層.
訓(xùn)練RPN時,首先需要生成錨框,Faster-RCNN以每個像素為中心點生成三種不同比例面積為1282、2562和5122像素的錨框,對于產(chǎn)生的錨框(anchor),使用IoU(Intersection over-Union)來選擇正負(fù)樣本集進(jìn)行網(wǎng)絡(luò)訓(xùn)練,選擇規(guī)則為表1.
在訓(xùn)練中,使用梯度下降算法進(jìn)行反向傳播訓(xùn)練,其損失函數(shù)定義為[8]:
(6)
(7)
在得到預(yù)測框的坐標(biāo)參數(shù)后,需要對坐標(biāo)參數(shù)回歸調(diào)整,使預(yù)測框更接近目標(biāo)框的真實坐標(biāo)
(8)
其中:x,y,w和h表示預(yù)測框的中心坐標(biāo)、寬度和高度,xa,ya,wa和ha表示生成錨框的中心坐標(biāo)、寬度和高度,x*,y*,w*和h*表示目標(biāo)框的中心坐標(biāo)、寬度和高度.
本文實驗數(shù)據(jù)集采用LIDC-IDRI(The Lung Image Database Consortium)[13],該數(shù)據(jù)集由肺癌醫(yī)學(xué)影像和對應(yīng)的診斷結(jié)果病變標(biāo)注XML文件組成,是由美國國家癌癥研究所(National Cancer Institute)發(fā)起收集的,目的是為了研究高危人群早期癌癥檢測.
由LIDC-IDRI數(shù)據(jù)集預(yù)處理得到帶有肺癌結(jié)節(jié)的CT影像數(shù)據(jù)集共有5850張圖片,3150張用做訓(xùn)練集,2700張用做測試集,測試集與訓(xùn)練集相互獨立,見表2.
表2 數(shù)據(jù)集樣本數(shù)量
其中,訓(xùn)練集A是原始數(shù)據(jù)集,訓(xùn)練集B是做了數(shù)據(jù)擴(kuò)增的數(shù)據(jù)集,采用垂直翻轉(zhuǎn)的方法對原始數(shù)據(jù)集進(jìn)行擴(kuò)增,使訓(xùn)練圖片達(dá)到了6300張.
本文采用Windows10環(huán)境下的Caffe框架進(jìn)行模型訓(xùn)練,在Nvidia GTX 1070 GPU下加速訓(xùn)練,使用VGG16模型在ImageNet下的預(yù)訓(xùn)練模型參數(shù)作為初始化訓(xùn)練參數(shù).
圖3為數(shù)據(jù)集隨機(jī)抽取的圖像樣本,圖4為拉普拉斯卷積層的輸出特征圖,可以看到圖4(a)、(b)、(d)都有明顯的邊緣增強(qiáng)效果,而(c)圖因為原始樣本灰度對比度較清晰,銳化效果稍差,該層的輸出特征圖作為Faster-RCNN的輸入數(shù)據(jù).
圖3 原始圖片F(xiàn)igure 3 Original picture
圖4 拉普拉斯卷積層輸出特征圖Figure 4 Feature map of the Laplace convolution layer
因為醫(yī)學(xué)影像中的癌變區(qū)域通常僅有十幾個像素甚至幾個像素的大小,所以本文調(diào)整了Faster-RCNN模型中的初始錨框大小,將原始的1282、2562和5122像素大小的錨框調(diào)整為162、322和642像素大小,對比效果如圖5.
圖5 訓(xùn)練loss值對比Figure 5 Comparison of training loss values
圖5(a)是原始錨框訓(xùn)練時的loss值收斂圖,(b)是修改錨框后的loss值收斂圖,取前40 k次迭代loss值下降情況來看,修改錨框后,收斂速度明顯加快,這樣可以提高訓(xùn)練速度,也有利于模型學(xué)習(xí)數(shù)據(jù)中的細(xì)節(jié)信息.模型訓(xùn)練結(jié)果如表3所示.
表3 實驗結(jié)果
在醫(yī)學(xué)影像數(shù)據(jù)中,僅有癌變區(qū)域和背景區(qū)域,所以使用平均正確率(Average Precision, AP)[14]作為評價指標(biāo),由表3可以看出,經(jīng)過數(shù)據(jù)擴(kuò)增的訓(xùn)練集B在添加了拉普拉斯卷積層的Faster-RCNN模型上得到AP=52.6%的測試精度,能夠達(dá)到輔助診斷的效果,同時,相較原始訓(xùn)練集A在Faster-RCNN上得到的測試精度,總體可以提高約11.1%的AP值.部分測試圖像效果如圖6.
圖6 結(jié)節(jié)檢測實例Figure 6 Nodule detection example
將檢測閾值p設(shè)置為0.8,可以看到訓(xùn)練得到的模型可以檢測出圖6前四張圖的癌變區(qū)域,且檢測概率較高,實現(xiàn)了輔助診斷的效果.對于圖6(e)的癌變區(qū)域漏檢,因為圖中的癌變區(qū)域過小,模型得到的概率過低,無法檢測,這也是Faster-RCNN應(yīng)用于癌癥檢測中存在的問題.
深度學(xué)習(xí)應(yīng)用于計算機(jī)輔助診斷是一個新興的研究領(lǐng)域,本文將Faster-RCNN應(yīng)用于醫(yī)學(xué)癌癥影像的檢測,在LIDC-IDRI數(shù)據(jù)集上實現(xiàn)癌癥檢測的目的,并通過添加拉普拉斯卷積層等方式提升了檢測效果.但是對于小目標(biāo)結(jié)節(jié)的檢測效果不理想,存在漏檢和檢測率低的情況,這將是下一步的研究方向.