基于DYOLO神經(jīng)網(wǎng)絡(luò)的超聲圖像腎臟檢測

2021-07-26 11:56:36趙麗霞鄭曙光趙希梅

計算機工程 2021年7期

劉奇，趙麗霞，鄭曙光，趙希梅，3

（1.青島大學(xué)計算機科學(xué)技術(shù)學(xué)院，山東青島266071；2.青島大學(xué)附屬醫(yī)院腹部超聲科，山東青島266003；3.山東省數(shù)字醫(yī)學(xué)與計算機輔助手術(shù)重點實驗室，山東青島266071）

0 概述

目前，慢性腎臟疾?。–hronic Kidney Disease，CKD）已經(jīng)成為全球性的公共衛(wèi)生問題，其特征是永久性腎臟損害，患病率和死亡率高［1］。近十年來，我國CKD 總患病率為10.8%且逐年增高，給我國經(jīng)濟和社會帶來了沉重的負(fù)擔(dān)。早期發(fā)現(xiàn)和早期干預(yù)可顯著降低慢性腎病患者的并發(fā)癥，提高生存率。長期以來，腎臟穿刺活檢是CKD 評估和診斷的金標(biāo)準(zhǔn)［2］，但是隨著其臨床應(yīng)用的深入，這種有創(chuàng)性檢查的缺陷愈發(fā)突出，主要表現(xiàn)為容易使患者引起出血等并發(fā)癥［2］，診斷結(jié)果受醫(yī)生的主觀因素影響，并且需要經(jīng)驗豐富的醫(yī)生操作，否則會造成無謂的創(chuàng)傷。

自20世紀(jì)90年代以來，計算機輔助診斷（Computer Aided Diagnosis，CAD）在國內(nèi)外醫(yī)學(xué)影像學(xué)領(lǐng)域獲得較快發(fā)展并逐漸應(yīng)用于臨床［3］，在輔助提高影像科醫(yī)生的診斷準(zhǔn)確率方面獲得廣泛認(rèn)同［4］。目前，醫(yī)生進(jìn)行慢性腎病超聲診斷主要采用手動測量和裸眼視覺診斷方式，通過超聲手動測量獲取腎臟長度、腎實質(zhì)厚度和腎實質(zhì)回聲強度等定量指標(biāo)以實現(xiàn)診斷［5］，然而以上指標(biāo)測量分析過程繁瑣，每例耗時約20 min～30 min，而且某些病癥的細(xì)微特征在短時間內(nèi)肉眼不易察覺。計算機輔助診斷在超聲圖像特征識別方面具有醫(yī)師肉眼識別無法比擬的優(yōu)勢。隨著深度學(xué)習(xí)理論的發(fā)展，基于深度學(xué)習(xí)技術(shù)的超聲圖像CKD 腎功能預(yù)測模型相繼出現(xiàn)。KUO 等［6］應(yīng)用ResNet 殘差網(wǎng)絡(luò)模型對1 297 個病例進(jìn)行分類，但樣本圖像需要從原始圖像中手動獲取感興趣區(qū)域（Region of Interest，ROI），具有一定的局限性。JACKSON 等［7-9］利用深度學(xué)習(xí)技術(shù)對腎臟進(jìn)行分割，獲取腎臟相關(guān)形態(tài)參數(shù)。ZHENG 等［10］將遷移學(xué)習(xí)技術(shù)引入腎臟檢測數(shù)據(jù)集研究中。

本文提出一種DYOLO神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型，通過將YOLOv3 和可變形卷積網(wǎng)絡(luò)集成在一個端到端學(xué)習(xí)框架中，實現(xiàn)對超聲圖像中腎臟的自動檢測，利用對腎臟超聲圖像進(jìn)行檢測后得到的檢測框來獲取腎臟長度、腎實質(zhì)厚度和腎實質(zhì)回聲強度等超聲參數(shù)，以輔助醫(yī)生進(jìn)行慢性腎臟疾病的診斷。

1 相關(guān)理論

1.1 可變形卷積原理

可變形卷積網(wǎng)絡(luò)（Deformable Convolutional Network，DCN）［11］由微軟亞洲研究院計算機視覺組的研究員于2017年提出，其在卷積神經(jīng)網(wǎng)絡(luò)中引入學(xué)習(xí)空間幾何形變的能力，使得可變形卷積網(wǎng)絡(luò)能夠更好地解決具有空間形變的圖像識別任務(wù)?？勺冃尉矸e將偏移量添加到標(biāo)準(zhǔn)卷積的常規(guī)網(wǎng)格采樣位置，這樣可以使采樣網(wǎng)格自由變形。這些偏移量是通過附加的卷積層從前面的特征圖中學(xué)習(xí)得到的，變形以密集、局部和自適應(yīng)的輸入特征為條件。因此，其感受野能夠根據(jù)目標(biāo)大小，適應(yīng)各種不規(guī)則形變，提取更精準(zhǔn)的物體特征［12］。

圖1 給出了卷積核尺寸均為3×3 的4 種采樣網(wǎng)格結(jié)構(gòu)。圖1（a）表示標(biāo)準(zhǔn)卷積的常規(guī)采樣網(wǎng)格，該卷積受限于固定形狀，采樣能力有限。圖1（b）在可變形卷積中增加偏移量的變形采樣位置，可產(chǎn)生不規(guī)則的采樣位置。圖1（c）和圖1（d）可視為圖1（b）的特殊情況［13］，表明可變形卷積能根據(jù)比例、旋轉(zhuǎn)和尺度進(jìn)行變換，其感受野依據(jù)目標(biāo)的大小和形狀自適應(yīng)調(diào)節(jié)，適應(yīng)各種不規(guī)則形變，提取更精準(zhǔn)的物體特征。

圖1 4 種采樣網(wǎng)格結(jié)構(gòu)Fig.1 Four sampling grid structures

對于網(wǎng)格尺寸為1×1、卷積核大小為3×3 的內(nèi)核，常規(guī)網(wǎng)格G可形式化為：

將輸出特征圖y的每個位置m0形式化為：

其中：x表示輸入特征圖；w表示采樣值的權(quán)重；mi表示G中的位置。

在可變形卷積中，常規(guī)網(wǎng)格G通過增強偏移量Δmi得到：

由于偏移量Δmi通常不是整數(shù)，因此應(yīng)用雙線性插值法確定偏移后的采樣點值，并通過附加的卷積層學(xué)習(xí)偏移量Δmi。

圖2 為可變形卷積結(jié)構(gòu)，首先將輸入的像素區(qū)域（input patch）通過一個小卷積層的輸出（offset field）獲得可變形卷積所需的偏移量（offsets）進(jìn)而輸出特征圖（output feature map），然后將其作用在卷積核上達(dá)到可變形卷積效果。在得到偏移量的所有像素后，將得到的新圖片作為輸入數(shù)據(jù)傳遞到下一層。

圖2 可變形卷積結(jié)構(gòu)Fig.2 Structure of deformable convolution

綜上所述，可變形卷積比標(biāo)準(zhǔn)卷積形式更靈活及廣泛，對于具有空間幾何形變的視覺任務(wù)有更好的學(xué)習(xí)能力。與此同時，可變形卷積可能會產(chǎn)生一些計算開銷，以更局部和自適應(yīng)的方式進(jìn)行卷積計算，而通過增加偏移量學(xué)習(xí)幾何形變的思想還便于擴展到其他計算單元，由此可顯著提升目標(biāo)檢測性能。

1.2 YOLOv3 神經(jīng)網(wǎng)絡(luò)

隨著卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的廣泛應(yīng)用，研究人員對卷積神經(jīng)網(wǎng)絡(luò)模型檢測精度和速度的要求越來越高。REDMON 等［14-16］提出的YOLO系列神經(jīng)網(wǎng)絡(luò)將目標(biāo)檢測問題轉(zhuǎn)化為回歸問題，直接由圖像像素優(yōu)化得到物體邊界位置和分類，相比Fast R-CNN［17］、Faster R-CNN［18］雙階段檢測策略檢測速度更快。YOLOv3［14］是YOLO 系列神經(jīng)網(wǎng)絡(luò)中速度和精度最均衡的目標(biāo)檢測網(wǎng)絡(luò)，在業(yè)界得到廣泛認(rèn)可和應(yīng)用。

圖3 給出了YOLOv3 網(wǎng)絡(luò)模型結(jié)構(gòu)，YOLOv3 具有以下特性：

圖3 YOLOv3 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.3 Structure of YOLOv3 network model

1）YOLOv3 的特征提取網(wǎng)絡(luò)Darknet-53 借鑒了Resnet［19］的思想，引入殘差模型（ResBlock），相比YOLO9000［15］使用的Darknet-19，網(wǎng)絡(luò)更深且降低了梯度消失的風(fēng)險，并且采用步長為2 的卷積層代替池化層，避免了信息丟失問題。

2）YOLOv3 采用多尺度融合方式進(jìn)行預(yù)測，類似于特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PN）［20］，利用非線性插值方法上采樣（UpSampling）兩次，獲得3 個不同尺寸（13 像素×13 像素、26 像素×26 像素、52 像素×52 像素）的特征圖。由于深層且語義特征豐富的特征圖負(fù)責(zé)預(yù)測大目標(biāo)，淺層且?guī)缀翁卣髫S富的特征圖負(fù)責(zé)預(yù)測小目標(biāo)，使得YOLOv3對于不同尺度的目標(biāo)均具有較好的檢測效果。

3）YOLOv3 使用獨立的邏輯分類器對目標(biāo)進(jìn)行分類識別，每個框利用多標(biāo)簽分類來預(yù)測邊界框可能包含的類。在訓(xùn)練過程中使用二元交叉熵?fù)p失進(jìn)行類別預(yù)測。

綜上所述，YOLOv3 算法不僅對于實物目標(biāo)具有較好的預(yù)測效果，而且對于醫(yī)學(xué)圖像等目標(biāo)同樣具有較好的兼容性，可以取得較高的檢測速度和檢測準(zhǔn)確率，并且簡單易實現(xiàn)，實時性和魯棒性更強。

2 基于DYOLO 的超聲圖像腎臟檢測

2.1 Dec_Darknet-53 特征提取網(wǎng)絡(luò)

Darknet-53 是YOLOv3 的特征提取網(wǎng)絡(luò)，在Imagenet 中達(dá)到92.7%的Top-5 測試準(zhǔn)確率，領(lǐng)先于Darknet-19、Resnet-101 和Resnet-152。Darknet-53 網(wǎng)絡(luò)包含53 個接收域為3×3 的卷積層，相比Darknet-19 特征提取網(wǎng)絡(luò)增加了殘差模塊，同時使用連續(xù)的3×3 和1×1 卷積層并且加入了shortcut 連接，保證了在主干網(wǎng)絡(luò)加深的同時不出現(xiàn)梯度消失現(xiàn)象，且網(wǎng)絡(luò)訓(xùn)練效果更優(yōu)。

可變形卷積（ConvOffset）可以為模型提供一個靈活的接收域，有利于檢測超聲圖像中形態(tài)不規(guī)則的腎臟。本文將Darknet-53 殘差塊中所有3×3 卷積升級為可變形卷積，形成更強大的Dec_Darknet-53，作為DYOLO 的特征提取網(wǎng)絡(luò)。Dec_Darknet-53 的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示，其中，×n表示該模塊重復(fù)n次，最后一列中的32、64、128、256、512、1 024 為通道數(shù)。Dec_Darknet-53 強大而靈活的特征提取能力，為DYOLO 檢測網(wǎng)絡(luò)提供了豐富的語義信息和幾何信息，從而確保DYOLO 的檢測高效性和準(zhǔn)確性。

圖4 Dec_Darknet-53 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.4 Structure of Dec_Darknet-53 network model

2.2 DYOLO 網(wǎng)絡(luò)模型

鑒于YOLOv3 在自然圖像檢測方面的出色表現(xiàn)，本文以YOLOv3 為基礎(chǔ)，充分考慮腎臟超聲圖像紋理信息的多樣性，對Darknet-53 添加可變形卷積，以進(jìn)行更有針對性且更有效的特征提取，改進(jìn)后的Dec_Darknet-53 更加適合超聲圖像的訓(xùn)練，同時本文將調(diào)整模型輸入大小，以適應(yīng)不同尺寸目標(biāo)的檢測。

因此，融合YOLOv3 和可變形卷積的優(yōu)勢，本文提出一種新的網(wǎng)絡(luò)模型DYOLO。該模型結(jié)構(gòu)如圖5所示，主要由Dec_Darknet-53 網(wǎng)絡(luò)提取特征，經(jīng)多尺度特征融合得到3 種不同尺寸的特征圖，進(jìn)而實現(xiàn)識別和檢測任務(wù)。

圖5 DYOLO 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Structure of DYOLO network model

圖片在輸入DYOLO 網(wǎng)絡(luò)后，首先經(jīng)過多尺度調(diào)整至尺寸為416 像素×416 像素（或者為32 倍數(shù)的其他尺寸）、通道數(shù)為3 的網(wǎng)絡(luò)模型輸入，然后進(jìn)入DYOLO 的主干網(wǎng)絡(luò)（backbone）Dec_Darknet-53 進(jìn)行特征提?。航?jīng)過一層卷積操作后進(jìn)入多個ResBlock 層，其中卷積層為Conv+BN（批量歸一化）+LeakyReLu（激活函數(shù)），ResBlock 層中的resn包含n個殘差單元（res unit），每個殘差單元由ConvOffset（3×3）+BN+ReLu 組成，每層ConvOffset（3×3）網(wǎng)絡(luò)之前添加Conv（1×1）以減少特征圖數(shù)量并提升網(wǎng)絡(luò)計算效率和表達(dá)能力，形成Conv（1×1）+BN+ReLu+ConvOffset（3×3）+BN+ReLu 的結(jié)構(gòu)。整個網(wǎng)絡(luò)的ResBlock 部分采用串聯(lián)方式，其輸出直接作為后續(xù)網(wǎng)絡(luò)的輸入。

后續(xù)網(wǎng)絡(luò)為檢測網(wǎng)絡(luò)，主要任務(wù)是識別分類和預(yù)測目標(biāo)檢測框。DYOLO 應(yīng)用多尺度融合方式形成金字塔網(wǎng)絡(luò)，提供3 種尺寸不一的邊界框。本文從backbone 的后面多個圖層中得到特征圖并進(jìn)行2 次上采樣，再從網(wǎng)絡(luò)更早的圖層中獲得特征圖，將高低2 種分辨率的特征圖相融合，從而找到早期特征映射中的上采樣特征和細(xì)粒度特征，并獲得更有意義的語義信息。之后，通過添加多個卷積層來處理該組合特征映射，最終的卷積層會預(yù)測出一個三維張量編碼：邊界box 坐標(biāo)，目標(biāo)置信分?jǐn)?shù)，各類物體的分類概率。

本文以尺寸為1 024 像素×768 像素、通道數(shù)為3的腎臟超聲圖像樣本作為模型輸入，通過多尺度調(diào)整生成尺寸為416 像素×416 像素、通道數(shù)為3 的模型輸入進(jìn)行特征提取、目標(biāo)檢測和分類識別，最終得到檢測結(jié)果。

DYOLO 在訓(xùn)練過程中使用錨框回歸方式進(jìn)行目標(biāo)框預(yù)測，利用二元交叉熵?fù)p失進(jìn)行類別預(yù)測，采用Adam 優(yōu)化器優(yōu)化網(wǎng)絡(luò)模型，最終通過邏輯分類器對訓(xùn)練樣本的各類分類概率進(jìn)行預(yù)測。二元交叉熵函數(shù)H（p，q）表示真實值與預(yù)測值之間的差異，假設(shè)xi為訓(xùn)練樣本x的第i個樣本，y∈{1,2,…,Y}表示訓(xùn)練樣本的各類分類概率，本文設(shè)定y為2，則交叉熵函數(shù)表示為：

其中：p（xi）是預(yù)測的概率值；q（xi）是真實的概率值。

3 實驗與結(jié)果分析

3.1 實驗環(huán)境

實驗開發(fā)環(huán)境為Windows10 64 位操作系統(tǒng)、內(nèi)存32.00 GB，Intel?XeonTMW-2133 處理器，顯卡為NVIDIA GeForce GTX 1080Ti，顯存為11 GB。在Anaconda3 中的Spyder3.4 平臺下使用深度學(xué)習(xí)框架Pytorch1.2.0 GPU 版本進(jìn)行實驗。實驗結(jié)果的可視化處理由tensorboard、pillow 和matplotlib 庫實現(xiàn)。

3.2 腎臟檢測數(shù)據(jù)集

實驗使用LabelImg 開源標(biāo)簽工具，根據(jù)Pascal VOC 公共數(shù)據(jù)集自制腎臟檢測數(shù)據(jù)集KidneyDetec。數(shù)據(jù)集圖像來源于青島大學(xué)附屬醫(yī)院，個人隱私信息均已從圖像中剔除，共包含2 911 張超聲圖像和2 911 個標(biāo)簽文件。圖像標(biāo)注由一名臨床超聲醫(yī)師手動完成，每張圖像可標(biāo)注為kidney_outside 和kidney_pelvis 2 類。KidneyDetec 數(shù)據(jù)集圖像收集自728 名受試者，所有受試者均有雙側(cè)腎臟圖像，保證了樣本的代表性和有效性。所有圖像尺寸為1 024像素×768 像素、位深度為24 的腎臟長軸切面，超聲儀器采用飛利浦超聲掃描儀與腹部突陣探頭。腎臟檢測數(shù)據(jù)集中超聲圖像示例如圖6所示。

圖6 腎臟檢測數(shù)據(jù)集超聲圖像示例Fig.6 Examples of ultrasound images in Kidney Detection dataset

3.3 結(jié)果分析

實驗在KidneyDetec 腎臟檢測數(shù)據(jù)集上進(jìn)行，為證明本文提出的DYOLO 網(wǎng)絡(luò)模型的有效性，選取目標(biāo)檢測領(lǐng)域主流的雙階段檢測模型（Fast R-CNN、Faster R-CNN）和單階段檢測模型（SSD300［21］、YOLOv3）作為對比模型。

實驗參數(shù)設(shè)置如下：epoch 訓(xùn)練輪次為100，每次迭代輸入樣本的batch size 為8，梯度優(yōu)化使用Adam優(yōu)化器，初始學(xué)習(xí)率為0.001，衰減系數(shù)為0.000 5，動量為0.9，IoU 閾值設(shè)置為0.5。實驗數(shù)據(jù)集分為訓(xùn)練集和測試集，訓(xùn)練集和測試集分別隨機分配2 474 張和474 張圖像。各主流目標(biāo)檢測模型對比結(jié)果如表1所示，其中各目標(biāo)類別的平均精度均值（mean Average Precision，mAP）是目標(biāo)檢測任務(wù)中常用的評價指標(biāo)?？梢钥闯?，在相同數(shù)據(jù)集上本文提出的DYOLO 檢測模型的平均精度均值達(dá)到90.5%，高于Fast R-CNN 和Faster R-CNN 雙階段目標(biāo)檢測模型以及SSD 和YOLOv3 單階段目標(biāo)檢測模型，能有效輔助醫(yī)師進(jìn)行CKD 診斷。與此同時，本文還對比了網(wǎng)絡(luò)模型輸入尺寸為416 像素×416 像素和608 像素×608 像素時的mAP，結(jié)果表明本文網(wǎng)絡(luò)模型對于大尺寸圖像（1 024 像素×768 像素）具有更好的檢測效果。

表1 平均精度均值對比Table 1 Comparison of mAP

如表2所示，本文對YOLOv3 和DYOLO 網(wǎng)絡(luò)模型的檢測速度進(jìn)行對比?？梢钥闯?，添加了可變形卷積后的DYOLO 網(wǎng)絡(luò)模型檢測速度稍有降低，但是該檢測速度依然可滿足實時檢測的應(yīng)用需求，保障臨床輔助診斷的高效性和實用性。

表2 目標(biāo)檢測速度對比Table 2 Comparison of object detection speed

圖7 為原始YOLOv3 網(wǎng)絡(luò)模型與本文提出的DYOLO 網(wǎng)絡(luò)模型的檢測效果對比圖，其中腎臟超聲圖像選取自KidneyDetec 腎臟檢測數(shù)據(jù)集的測試集。圖7（a）表示使用YOLOv3 算法的腎臟右側(cè)超聲圖像檢測效果圖，圖7（b）表示使用DYOLO 算法的腎臟右側(cè)超聲圖像檢測效果圖，圖7（c）表示使用YOLOv3 算法的腎臟左側(cè)超聲圖像檢測效果圖，圖7（d）表示使用DYOLO 算法的腎臟左側(cè)超聲圖像檢測效果圖?？梢钥闯?，使用YOLOv3 網(wǎng)絡(luò)模型的檢測結(jié)果存在檢測框與目標(biāo)貼合不精確的情況，而利用DYOLO 網(wǎng)絡(luò)模型檢測的邊界框更加貼合腎臟輪廓，邊緣信息更加精細(xì)，從而證明DYOLO 網(wǎng)絡(luò)模型可以更全面完整高效地學(xué)習(xí)到不同形狀的目標(biāo)的特征信息，顯著提升了檢測效果。通過綜合以上網(wǎng)絡(luò)模型的檢測效果和檢測速度可知，本文提出的DYOLO 網(wǎng)絡(luò)模型既能取得較高的平均精度均值，又具有較好的實時性和魯棒性，適用于臨床輔助診斷［22］。

圖7 目標(biāo)檢測效果對比Fig.7 Comparison of object detection effect

4 結(jié)束語

腎臟超聲檢查在腎臟疾病的診治中具有重要作用，然而臨床上超聲檢查受多種因素影響，容易導(dǎo)致超聲圖像質(zhì)量欠佳，使得超聲圖像中的腎臟檢測仍具有一定的挑戰(zhàn)性。本文提出一種基于DYOLO 網(wǎng)絡(luò)模型的超聲圖像腎臟檢測方法，通過將YOLOv3和可變形卷積網(wǎng)絡(luò)集成在一個端到端學(xué)習(xí)框架中，實現(xiàn)臨床超聲圖像中腎臟的檢測。實驗結(jié)果表明，該方法在DYOLO 網(wǎng)絡(luò)模型輸入尺寸為608 像素×608 像素的情況下取得了90.5%的平均精度均值，并且相比對比方法具有更高的檢測速度和檢測精度，保證了CKD 計算機輔助診斷的可靠性及臨床應(yīng)用的實用性。后續(xù)將拓展DYOLO 網(wǎng)絡(luò)模型在醫(yī)學(xué)領(lǐng)域的應(yīng)用范圍，并利用多任務(wù)深度學(xué)習(xí)技術(shù)進(jìn)一步提升計算機輔助診斷的應(yīng)用效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡