徐雍欽,楊晶東,姜 泉,韓 曼,宋夢歌
(1上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院 自主機(jī)器人實(shí)驗(yàn)室,上海 200093;2中國中醫(yī)科學(xué)院廣安門醫(yī)院 風(fēng)濕病科,北京 100053)
近年來,深度學(xué)習(xí)方法已被廣泛運(yùn)用到醫(yī)學(xué)圖像分類領(lǐng)域。張曉彤等將ResNet50應(yīng)用到更年期泌尿生殖系統(tǒng)綜合癥的分類,高效地實(shí)現(xiàn)病灶識別;增思濤等則將ResNet應(yīng)用到肺灌注圖像分類,并有效地檢測了肺栓塞病變;劉張等人將EfficientNet用于消化道常見病變,平均值達(dá)0.94;趙曉平等,將DenseNet網(wǎng)絡(luò)應(yīng)用于乳腺癌病理的八分類研究,在亞型八分類表現(xiàn)上準(zhǔn)確率達(dá)95.5%,且在數(shù)據(jù)不均衡的條件下取得了較好的分類效果。
近年來,許多學(xué)者已將深度學(xué)習(xí)應(yīng)用于舌象分類。湯一平等在舌象分類中引入多任務(wù)結(jié)構(gòu),使用多個二分類網(wǎng)絡(luò)來消除多標(biāo)簽的歧義性;孫萌等基于Inception-ResNet-V1網(wǎng)絡(luò)改進(jìn)了損失函數(shù),對提取特征形成了有效的映射空間,并取得了較好的分類效果;李淵彤等采用VGG16網(wǎng)絡(luò)對舌象進(jìn)行多分類,并使用遷移學(xué)習(xí)降低網(wǎng)絡(luò)訓(xùn)練成本;宋超等采用多分支網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行舌象分類,并且在每個分支網(wǎng)絡(luò)中采用不同策略的遷移學(xué)習(xí)參數(shù),提高網(wǎng)絡(luò)分類性能;翟鵬博等將注意力機(jī)制引入舌象分類,降低樣本噪聲,并針對每種特征建立單獨(dú)分支網(wǎng)絡(luò),構(gòu)建一種簡單網(wǎng)絡(luò)結(jié)構(gòu);邱童將淺層特征和深層語義特征融合后,采用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行舌象分類,但傳統(tǒng)機(jī)器學(xué)習(xí)分類器無法充分學(xué)習(xí)融合特征,無法充分利用特征間的差異性提高分類精度。
本文針對臨床中醫(yī)證候六分類舌象樣本,構(gòu)建一種自適應(yīng)注意力機(jī)制的遷移學(xué)習(xí)舌象分類網(wǎng)絡(luò),提取舌象深層特征,并融合舌象邊緣特征、紋理特征,實(shí)現(xiàn)多特征融合舌象分類。
注意力機(jī)制被廣泛應(yīng)用于深度學(xué)習(xí)網(wǎng)絡(luò),提高網(wǎng)絡(luò)特征提取能力,Hu等將通道注意力機(jī)制SE引入計(jì)算機(jī)視覺領(lǐng)域,提出SE(Squeeze-and-Excitation)網(wǎng)絡(luò),該結(jié)構(gòu)基于通道維度構(gòu)建特征相關(guān)性;Woo等提出CBAM(Convolutional Block Attention Module)注意力機(jī)制,在通道注意力機(jī)制基礎(chǔ)上引入了空間注意力機(jī)制,通過通道和空間兩個維度提取特征,保證了圖像通道域和空間域上的信息關(guān)聯(lián);Li等參考Inception結(jié)構(gòu)提出SK(Selective Kernel)網(wǎng)絡(luò),通過多分支并行結(jié)構(gòu),學(xué)習(xí)圖像不同尺度下的多層次特征;Yang等受腦科學(xué)中神經(jīng)元放電模式啟發(fā),提出SimAM(Simple,Parameter-Free Attention Module)注意力機(jī)制,能夠通過一種輕量無參方法直接得出三維權(quán)重。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)為了提升分類精度,會選擇對網(wǎng)絡(luò)深度或?qū)挾冗M(jìn)行一定比例的縮放,即通過增加網(wǎng)絡(luò)深度、特征層數(shù)來獲得更好效果。而遷移學(xué)習(xí)EfficientNet網(wǎng)絡(luò)通過對網(wǎng)絡(luò)深度、寬度以及輸入圖像分辨率的統(tǒng)一縮放,在等量資源下取得更好的分類性能。EfficientNetV2則在EfficientNet的基礎(chǔ)上引入Fused-MBConv結(jié)構(gòu),逐步增加特征圖尺寸,以提高模型分類性能。
本文在EfficientNetV2的基礎(chǔ)上引入SimAm注意力機(jī)制,提出一種自適應(yīng)遷移學(xué)習(xí)網(wǎng)絡(luò)FusionNet,采用SimAm-MBConv結(jié)構(gòu)替換原網(wǎng)絡(luò)中的MBConv結(jié)構(gòu),改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。SimAm-MBConv注意力機(jī)制是一種SE+SimAm串聯(lián)結(jié)構(gòu),原始注意力機(jī)制SE可以提取圖像通道域上的特征,但難以提取空間域特征,即圖像通道內(nèi)平面位置上的特征,而SimAM注意力機(jī)制的輕量無參特性,雖能提取舌象三維特征,但空間域特征關(guān)聯(lián)性不足。因此,本文串聯(lián)SE和SimAM兩種注意力機(jī)制,在不額外引入?yún)?shù)的情況下將混合注意力機(jī)制應(yīng)用到本文網(wǎng)絡(luò),使得FusionNet具有更好的分類效果和更高的精度。
圖1 MBConv模塊與改進(jìn)后的SimAM-MBConv模塊Fig.1 MBConv module and improved SimAM-MBConv module
本文采用FusionNet網(wǎng)絡(luò)提取舌象多維度深層語義特征,并利用遷移學(xué)習(xí)預(yù)訓(xùn)練網(wǎng)絡(luò),加快網(wǎng)絡(luò)收斂速度,增強(qiáng)網(wǎng)絡(luò)分類精度,自適應(yīng)的遷移學(xué)習(xí)FusionNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 自適應(yīng)的遷移學(xué)習(xí)FusionNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Adaptive transfer learning network structure of FusionNet
中醫(yī)證候舌象樣本具有多樣性和淺層特征差異性,傳統(tǒng)網(wǎng)絡(luò)難以感知多維度深層特征,且訓(xùn)練過程中的淺層噪聲難以剔除,本文分別采用Laplacian算子、LBP算子提取舌象邊緣特征、紋理特征,并與FusionNet網(wǎng)絡(luò)提取深層特征融合,實(shí)現(xiàn)基于多特征融合的舌象自主分類?;诙嗵卣魅诤系纳嘞蠓诸惥W(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 基于多特征融合的舌象分類網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Tongue image classification network structure based on multi-feature fusion
本文根據(jù)全連接層輸出權(quán)重,采用Softmax函數(shù)進(jìn)行分類,交叉熵?fù)p失函數(shù)如式(1):
其中,為樣本數(shù);為圖像數(shù)據(jù)類的個數(shù);y為圖像分類結(jié)果的符號函數(shù),正確分類取1,否則取0;p為對應(yīng)圖像被預(yù)測為類的概率。
她對著那雙鞋潸然淚下,原來簡東亮給她的是一份正版的愛情,是她太貪心了?;夜媚镆仓挥幸浑p水晶鞋,而她卻想要更多,更多。
本文采用Adam優(yōu)化器,總訓(xùn)練為100(),前50學(xué)習(xí)率為13(),后50學(xué)習(xí)率為0.000 1,batch-size為16()。在每個中,為訓(xùn)練樣本數(shù),為驗(yàn)證樣本數(shù),當(dāng)前正確率大于時則更新,并保存當(dāng)前網(wǎng)絡(luò)權(quán)重。訓(xùn)練和驗(yàn)證算法流程見表1。
表1 模型訓(xùn)練和驗(yàn)證流程Tab.1 Model training and validation process
本文采用的數(shù)據(jù)集來自于北京廣安門醫(yī)院中醫(yī)證候臨床舌象樣本,該數(shù)據(jù)集共分為6個類別:正常、裂紋、厚苔、點(diǎn)刺、齒痕、剝落苔,每個類別30張,共180張。由于樣本數(shù)量較少,本文對該數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng)處理。預(yù)處理原始圖像像素為224×224,其對應(yīng)的紋理特征和邊緣特征圖像像素為1×448,并將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,其比例為4:1。數(shù)據(jù)增強(qiáng)過程如圖4所示。
圖4 數(shù)據(jù)增強(qiáng)Fig.4 Data augmentation
將舌象旋轉(zhuǎn)30°,進(jìn)行0值填充處理,使得數(shù)據(jù)集每類樣本數(shù)量均擴(kuò)展12倍,即每類360張圖像樣本;將原始圖像樣本水平和垂直翻轉(zhuǎn),每類得到60張樣本,共得到每類420張舌象樣本,6類共2 520張。本文將256×256原始圖像通過雙線性插值變換為224×224。
本文使用正確率;精確率;靈敏度;1,值(ROC曲線與坐標(biāo)軸圍成的面積)對模型進(jìn)行評估,其公式如式(2)~(4)。
本文FusionNet網(wǎng)絡(luò)由若干Fused_MB_Conv和SimAM_MBConv組成,見表2,網(wǎng)絡(luò)輸入為三通道224×224尺寸圖像,分別重復(fù)2、3、3次的Fused_MB_Conv結(jié)構(gòu),輸出格式為64×28×28,其中通道加深發(fā)生在每次重復(fù)前一個未經(jīng)DropPath失活的Fused_MB_Conv結(jié)構(gòu)。同理,SimAM_MB_Conv結(jié)構(gòu)重復(fù)5、8、14次,最終輸出格式為256×7×7,分別再經(jīng)過1×1卷積,BN層,SiLU激活函數(shù),下采樣層后與舌象邊緣特征和紋理特征進(jìn)行通道維度拼接,再經(jīng)過全連接層和SiLU激活后,通過最后全連接層輸出分類結(jié)果。
表2 FusionNet模型超參數(shù)Tab.2 Hyperparameters of FusionNet model
為分析各種注意力機(jī)制對于舌象分類精度影響,本文對EfficientNetv2網(wǎng)絡(luò)原有注意力機(jī)制模塊進(jìn)行改進(jìn),分別采用SE、CBAM、SK、SimAM 4種典型注意力機(jī)制組合形式,共設(shè)計(jì)了7種注意力機(jī)制進(jìn)行消融實(shí)驗(yàn),并比較測試集上的曲線和曲線,如圖5所示??梢钥闯鰺o論對于曲線,還是曲線,SE+SimAM和CBAM具有最好的分類性能,SimAM和SE+CBAM次之,SE、SE+SK、SK的分類效果較差。說明混合注意力機(jī)制分類性能優(yōu)于單一注意力機(jī)制,這是由于舌象樣本深層特征具有多樣性和空域特性,單一注意力機(jī)制難以提取舌象多維度空域特征,降低了模型分類精度。
圖5 各種注意力機(jī)制的ROC、PR曲線Fig.5 ROC and PR curve of various model based on different attention mechanism
本文在網(wǎng)絡(luò)淺層加入SimAM模塊,并對不同注意力機(jī)制組合進(jìn)行比較,如圖6所示??梢钥闯觯琒imAM+SE+SK、SimAM+SE+SimAM的組合取得了較好的分類結(jié)果,分類性能均優(yōu)于沒有在淺層添加SimAM的網(wǎng)絡(luò)結(jié)構(gòu)。這是由于SimAM作為一種輕量無參的注意力機(jī)制可以提取舌象淺層多維度的特征,且不會增加運(yùn)算負(fù)擔(dān),在淺層添加注意力機(jī)制可以更好地消除淺層噪聲,減小其在后續(xù)卷積中的比重,從而優(yōu)化分類結(jié)果。
圖6 在網(wǎng)絡(luò)淺層加入SimAM,不同注意力機(jī)制的比較Fig.6 Comparison of different attention mechanisms after adding SimAM in shallow layers
本文在網(wǎng)絡(luò)淺層加入SimAM模塊,并對不同注意力機(jī)制組合進(jìn)行比較,如圖6所示。可以看出,SimAM+SE+SK、SimAM+SE+SimAM的組合取得了較好的分類結(jié)果,優(yōu)于沒有在淺層添加SimAM的網(wǎng)絡(luò)結(jié)構(gòu)。這是由于SimAM作為一種輕量無參的注意力機(jī)制可以提取舌象淺層多維度的特征,且不會增加運(yùn)算負(fù)擔(dān),在淺層添加注意力機(jī)制可以更好地消除淺層噪聲,減小其在后續(xù)卷積中的比重,從而優(yōu)化分類結(jié)果。
本文設(shè)計(jì)了多種組合形式,以測試多特征融合對分類性能影響。本文首先以LBP算子提取的紋理特征結(jié)合FusionNet網(wǎng)絡(luò)提取的深層特征進(jìn)行融合,并添加各種注意力機(jī)制進(jìn)行消融實(shí)驗(yàn)。同樣對比各模型測試集ROC曲線、PR曲線,分析舌象分類模型性能。如圖7所示??梢钥闯?,SE+LBP和SimAM+SE+LBP的組合具有最好的分類性能。
圖7 雙特征融合下不同注意力機(jī)制的比較Fig.7 Comparison of different attention mechanisms with two-feature fusion
這是由于注意力機(jī)制SimAM模塊可以提取舌象深層空域特征,消除部分淺層噪聲,與LBP算子提取的淺層紋理特征進(jìn)行融合,獲得了較好分類精度。而SimAM+SE+CBAM+LBP、SimAM+SE+SK+LBP、SE+CBAM+LBP的組合分類性能較差,這是由于過多注意力機(jī)制組合影響了舌象深層特征提取,導(dǎo)致分類精度下降。分析可知,淺層舌象紋理特征有利于提高網(wǎng)絡(luò)分類精度。
此外,本文在雙特征基礎(chǔ)上融合Laplacian算子提取的邊緣特征,采用三特征融合模式實(shí)現(xiàn)舌象分類。各模型測試集曲線、曲線分類精度對比曲線如圖8所示。 可以看出,SE+SimAM+LBP+LAPLACIAN的組合獲得了最好的分類性能。這是由于諸如剝裂苔、齒痕類數(shù)據(jù)的邊緣特征較為明顯,因此,多特征融合提升了網(wǎng)絡(luò)分類性能;而SE+SimAM+CBAM+LBP+LAPLACIAN等組合由于過多的注意力機(jī)制影響了深層特征提取,導(dǎo)致網(wǎng)絡(luò)整體分類性能降低。
圖8 三特征融合下不同注意力機(jī)制的比較Fig.8 Comparison of different attention mechanisms with three-feature fusion
綜上所述,本文選取SE+SimAM的注意力機(jī)制,并結(jié)合LBP算子提取紋理特征和拉普拉斯算子提取的邊緣特征,實(shí)現(xiàn)舌象自主分類。
2.4.1 交叉驗(yàn)證
將本文方法與現(xiàn)有模型對比,進(jìn)一步分析本文網(wǎng)絡(luò)的分類性能。采用Inception_v4、ConvNeXt_t、ConvNeXt_s和RegNetY_200MF作為對照模型,并進(jìn)行5-2折交叉驗(yàn)證,每折506張舌象樣本共6類均勻分布,對比、、、1和值,ROC曲線和PR曲線以及混淆矩陣評估模型分類性能,不同模型在測試集下分類性能,見表3。與Inception_v4網(wǎng)絡(luò)相比,本文方法準(zhǔn)確率增加0.018 52,精度增加0.017 15,靈敏度增加0.018 52,1增加0.018 76,在減少0.000 69。
表3 不同模型的分類性能對比Tab.3 Comparison of classification performance of different models
5折交叉驗(yàn)證實(shí)驗(yàn)下5種模型的ROC曲線和PR曲線,以及本文模型分類結(jié)果的混淆矩陣如圖9所示。與5種典型模型相比,本文模型具有最好的分類精度和泛化性能。
圖9 5折交叉驗(yàn)證下不同模型的混淆矩陣、ROC曲線和PR曲線Fig.9 Confusion matrix,ROC curve and PR curve under 5-fold cross validation
2.4.2 性能分析
為進(jìn)一步驗(yàn)證本文模型分類性能,首先選取了與本文模型主干網(wǎng)同系列的其他網(wǎng)絡(luò)進(jìn)行對比,共選取了EfficientNet系列b0~b7共8種模型,EfficientNet v2系列medium和large兩種模型,并對比測試集分類模型ROC曲線和PR曲線,實(shí)驗(yàn)結(jié)果如圖10所示。
圖10 EfficientNet不同結(jié)構(gòu)網(wǎng)絡(luò)比較Fig.10 Comparison of different Efficient Net
可以看出,本文模型具有最好的分類精度。這是因?yàn)镋fficientNet系列網(wǎng)絡(luò)結(jié)構(gòu)簡單,單SE通道注意力機(jī)制難以提取舌象深層特征。而EfficientNet v2系列兩種網(wǎng)絡(luò)結(jié)構(gòu)EfficientNet v2 medium和EfficientNet v2 large網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,無法提取舌象淺層特征,降低模型泛化性能。本文采用混合注意力機(jī)制提取舌象多維度的特征,并融合淺層紋理和邊緣特征進(jìn)行綜合分類決策,具有更高分類精度和泛化性。
5折交叉驗(yàn)證各模型評估參數(shù)箱線圖如圖11所示,本文方法具有最好分類精度。本文還統(tǒng)計(jì)了模型分類精度、計(jì)算復(fù)雜度和卷積層和全連接層參數(shù)量,見表4??梢钥闯霰疚哪P碗m然具有較高計(jì)算復(fù)雜度和參數(shù)量,但具有最高的分類精度和泛化性能。與Inception_v4、ConvNeXt_t、ConvNeXt_s、RegNetY_200MF相比,本文方法的增加0.015、0.162、0.182、0.013,靈敏度增加0.017、0.172、0.190、0.013,1增加0.019、0.169、0.192、0.013。
表4 5折交叉驗(yàn)證不同模型的分類結(jié)果和計(jì)算復(fù)雜度Tab.4 Classification result and computational complexity of different models under 5-fold cross-validation
圖11 各模型分類性能對比Fig.11 Comparison of classification performance on different models
為可視化各模型對舌象特征提取能力,本文引入了grad-CAM方法可視化了網(wǎng)絡(luò)關(guān)注的特征區(qū)域。各種模型特征關(guān)注度熱力圖如圖12所示,圖12(a)分別為剝裂苔、點(diǎn)刺、裂紋舌象原圖,圖(b)~圖(f)分別為本文方法、Inception_v4、ConvNeXt_t、ConvNeXt_s、RegNetY_200MF在grad-CAM下的特征熱力圖。對于剝裂苔類舌象,本文模型提取特征均處在舌象邊緣明顯剝裂的位置;對于點(diǎn)刺類舌象,本文方法提取特征集中于舌象中下部點(diǎn)刺區(qū)域;對于裂紋類舌象,本文方法所提取的特征范圍能精確覆蓋裂紋部分??梢姡疚哪P吞卣魈崛「_,更適合于中醫(yī)證候舌象樣本分類。
圖12 不同模型對舌象樣本的特征關(guān)注度Fig.12 The feature attention of different models to tongue samples
本文提出了一種基于多特征融合和改進(jìn)注意力機(jī)制的中醫(yī)證候舌象遷移學(xué)習(xí)分類網(wǎng)絡(luò)。與當(dāng)前主流分類網(wǎng)絡(luò)相比,具有更好的分類精度和泛化性能。由于本文舌象樣本屬于宏觀類醫(yī)學(xué)樣本,舌象淺層特征(紋理、邊緣特征)對舌象分類具有較大影響,為此,本文采用自適應(yīng)注意力機(jī)制的遷移學(xué)習(xí)網(wǎng)絡(luò)提取舌象深層特征;采用LBP算子、Laplacian算子分別提取紋理特征、邊緣特征;最后,將深層特征與淺層特征融合,確定舌象的最終分類。實(shí)驗(yàn)結(jié)果證明,本文模型可以有效提取中醫(yī)證候舌象多維度深層、淺層特征,有利于加速網(wǎng)絡(luò)收斂。今后將針對更多舌象樣本進(jìn)行研究,改進(jìn)模型結(jié)構(gòu)和泛化性能。