林 嵐,張 格,吳水才
(北京工業(yè)大學生命科學與生物工程學院,北京 100124)
早期發(fā)現(xiàn)甲狀腺結節(jié)并判別出其良惡性對臨床治療及手術選擇均具有重要意義。高分辨力甲狀腺超聲具有實時、經濟、無創(chuàng)、無風險等特點,因此被廣泛應用于甲狀腺結節(jié)性病變的檢測和定性診斷。甲狀腺超聲可以檢測結節(jié)是否存在以及結節(jié)的大小、位置、質地、形狀和邊緣等情況,同時評估頸部區(qū)域有無淋巴結及淋巴結大小、形狀和結構特點。結節(jié)在甲狀腺中常以單發(fā)或多發(fā)的形式顯現(xiàn),但影像學特征一般無法直接量化,臨床上高度依賴醫(yī)生的主觀經驗?;跈C器學習的計算機輔助診斷系統(tǒng)通過解析甲狀腺超聲影像的信息,可獲得結節(jié)大小、形態(tài)、縱橫徑、鈣化、聲暈、邊緣結構等結節(jié)特征,并基于這些特征建立適當?shù)妮o助診斷模型。該系統(tǒng)不僅能提供精確的輔助性診斷手段,減輕臨床醫(yī)師的負擔,還可以降低患者誤診率[7-8]。學者們基于多種不同人為設計的特征,運用K最近鄰法[9]、支持向量機[10-11]、人工神經網絡[12]、模糊分類器[13]等方法對甲狀腺結節(jié)進行了良惡性分類。盡管這些研究取得了令人鼓舞的成果,但它們一般需要人工設計特征,然后通過一系列復雜的預處理方法從圖像中提取特征,后續(xù)還需要進行特性選擇來獲得最重要的特征,并進行特征融合以整合不同的特征送到分類器,存在整體工作量大且效率較低等問題。
醫(yī)療機構每天都會采集大量包含重要診斷信息的甲狀腺超聲圖像,圖像數(shù)據(jù)積累的程度已遠遠超過傳統(tǒng)機器學習方法處理的速度。深度學習作為人工神經網絡的一個重大突破,開始進入研究者們的視野。深度學習構建包含多個隱藏層的神經網絡模型,基于海量醫(yī)學數(shù)據(jù)進行訓練,能自動、直接地從原始數(shù)據(jù)中獲取更抽象、更有用的特征[14-15],從而提升分類或預測的準確率。與傳統(tǒng)的機器學習方法相比,利用深度學習來學習特征,更能夠獲得數(shù)據(jù)中包含的豐富內在信息。因此,深度學習方法在醫(yī)學圖像分析領域具有舉足輕重的地位[16-20]。以下綜述深度學習在甲狀腺超聲圖像結節(jié)良惡性分類中的應用研究,并進一步討論研究中存在的問題,指出深度學習在該領域研究中的未來潛在發(fā)展方向。
機器學習方法一般從原始數(shù)據(jù)中手工提取特征,然后可利用這些手工設計特征構建分類和預測模型。深度學習方法是對樣本數(shù)據(jù)的層次特征或表示進行計算,形成較高層次的抽象特征。深度學習方法和傳統(tǒng)的機器學習方法的主要區(qū)別是特征學習,深度學習可直接從原始數(shù)據(jù)中學習有用的表示和特征。利用深度學習方法構建的模型具有多層非線性處理單元的神經網絡,每個連續(xù)層都使用前一層的輸出作為輸入,利用這些層,網絡可以從大量的數(shù)據(jù)中提取復雜的層次特征?;谏疃葘W習體系結構和技術,目前在超聲圖像分析領域所使用的深度網絡基本模型主要有深度置信網絡(deep belief network,DBN)和卷積神經網絡(convolutional neural networks,CNN)模型,其中基于CNN的結節(jié)分類模型最為成功。
DBN由多個受限玻爾茲曼機組成,通過采用逐層訓練的方式解決深層次神經網絡的優(yōu)化問題[21]。受限玻爾茲曼機包含一個可視層和一個隱藏層,層與層之間全連接,但層內的單元間無連接。陳德華等[22]從30萬條甲狀腺超聲診斷數(shù)據(jù)中抽取了3 000條指標非稀疏的數(shù)據(jù)和3 000條指標稀疏的數(shù)據(jù),通過一個包含2個隱含層的DBN網絡對結節(jié)良惡性進行鑒別。結果顯示,與傳統(tǒng)的邏輯回歸和神經網絡算法相比,該方法具有更優(yōu)的性能,特別是在不存在數(shù)據(jù)缺失的非稀疏數(shù)據(jù)集上,準確率可以達到94%。
CNN是一個包含卷積層、池化層、激活層和全連接層的多層神經網絡。卷積層是CNN的核心,用于特征提取。卷積運算可根據(jù)所使用的不同卷積核來產生不同的特征映射。池化層通過對鄰域的最大值或平均值下采樣操作來控制特征映射空間的尺寸。激活層則在整個網絡中加入了更多的非線性元素。全連接層將來源于一個或多個卷積層和池化層所獲得的特征進行整合并獲取特征中的高層含義,隨后進行分類。傳統(tǒng)CNN如AlexNet和VGGNet[23]偏重于高效的層的堆砌,而 GoogLeNet[24]、ResNet[25]和DenseNet[26]等通過優(yōu)化網絡結構來獲得性能提升。AlexNet[27]在2012年的ImageNet挑戰(zhàn)賽中一舉碾壓傳統(tǒng)的機器學習方法獲得冠軍,開啟了CNN應用的高潮。隨著CNN網絡的不斷發(fā)展,其被直接應用到甲狀腺結節(jié)的自動分類中。
1.2.1 基于單CNN架構的甲狀腺結節(jié)良惡性分類
1.2.1.1 傳統(tǒng)單CNN
王洪杰等[28]從超聲數(shù)據(jù)庫中選取了6 321張甲狀腺圖像,并將數(shù)據(jù)劃分為訓練集和測試集。其中,測試集共包含3 121張超聲圖像(甲狀腺結節(jié)2 900張,其他良性病變及正常圖像221張)。隨后,他們構建一個包含3個卷積層、3個全連接層的CNN,將網絡在ImageNet圖像數(shù)據(jù)集預訓練后,通過遷移學習進行甲狀腺結節(jié)的良惡性識別。結果顯示該方法檢測甲狀腺結節(jié)的敏感度為99.68%、特異度為84.13%,顯著優(yōu)于高年資的超聲醫(yī)師。
通過開展葉酸代謝關鍵酶基因MTHFR和MTRR基因多態(tài)性的地區(qū)特征研究,了解本地區(qū)人群的遺傳特征,針對育齡女性葉酸代謝障礙遺傳檢測結果評估風險,及早在環(huán)境影響因素評價、生化指標監(jiān)測、營養(yǎng)素補充等方面進行干預,制定個性化的葉酸補服方案,為降低本地區(qū)人群出生缺陷及公共衛(wèi)生政策提供遺傳學數(shù)據(jù)支持。
1.2.1.2 結構優(yōu)化的單CNN
遲劍寧等[29]采用包含428張甲狀腺超聲圖像的開源數(shù)據(jù)庫(357張惡性結節(jié)圖像,71張良性結節(jié)圖像),將圖像分為訓練集(306張)、驗證集(61張)和測試集(61張),并對數(shù)據(jù)進行了9倍數(shù)據(jù)擴展。通過對 MNIST(Mixed National Institute of Standards and Technology)數(shù)據(jù)集上預訓練的GoogLeNet網絡進行遷移學習來學習超聲圖像的深度特征,并將深度特征與低層次紋理特征融合為聯(lián)合特征,最后采用代價敏感隨機森林分類器進行分類。該方法診斷的準確率為99.15%,敏感度為99.73%,特異度為95.85%。
Song等[30]對 1 358例(670例良性、688例惡性)甲狀腺結節(jié)超聲圖像進行了良惡性分類。模型采用Inception-V3網絡架構,利用ImageNet數(shù)據(jù)庫進行預訓練,通過遷移學習進行結節(jié)良惡性分類。對于55例的內部結節(jié)測試集(34例良性、21例惡性),模型敏感度為95.2%,特異度為66.8%。對于100例的外部結節(jié)測試集(50例良性、50例惡性),模型敏感度為94%,特異度為56%。Guan等[31]同樣基于Inception-V3網絡進行了甲狀腺超聲圖像中的結節(jié)良惡性分類。結節(jié)數(shù)據(jù)共2 836例,其中惡性1 484例、良性1352例。訓練組包含1 275個惡性結節(jié)和1 162個良性結節(jié),其余的數(shù)據(jù)被用于測試集。結節(jié)根據(jù)尺寸被分為3組(<0.5 cm、0.5~1 cm和>1cm)。模型對3組結節(jié)的診斷存在一定差異,3種結節(jié)的敏感度和特異度分別為94.4%、93.9%,100%、81.4%和88.8%、87.7%。當輸入CNN模型的結節(jié)圖像包含較多周邊組織時,模型診斷準確率較高。
1.2.2 基于多CNN架構的甲狀腺結節(jié)良惡性分類
相對于單個的CNN,多CNN的融合為結節(jié)診斷帶來了新的曙光。
1.2.2.1 結節(jié)多特征融合分類網絡
Liu等[32]對來源于中國醫(yī)學科學院腫瘤醫(yī)院的2個甲狀腺超聲影像庫進行了研究。第一個影像庫包括4 279例患者數(shù)據(jù),共有甲狀腺結節(jié)7 690個,其中惡性5 139個、良性2 551個。第二個影像庫包括376例患者的450張甲狀腺結節(jié)圖像,其中惡性結節(jié)322個、良性結節(jié)128個。研究中所有數(shù)據(jù)均采用通用電氣醫(yī)療的超聲掃描儀采集。首先設計一個基于ResNet-50的多尺度金字塔網絡,與醫(yī)生關注的關鍵聲像圖特征結合來自動定位結節(jié)位置。隨后采用三分支的ZFNet[33]從多視圖中提取結節(jié)分類特征。其中,第一個分支的輸入為原始結節(jié)圖像,第二個分支的輸入為包含結節(jié)周邊組織的圖像,第三個分支的輸入為結節(jié)邊緣增強圖像,模型框架如圖1所示。結果顯示模型診斷較超聲科醫(yī)生的診斷效果更好,準確率為97.1%,敏感度為98.2%,特異度為95.1%。
圖1 多尺度金字塔網絡和三分支網絡的分類模型框架[32]
1.2.2.2 語義與圖像特征融合分類網絡
Park等[34]以采集于三星超聲掃描儀的1 215例甲狀腺結節(jié)數(shù)據(jù)和源于其他2家醫(yī)療機構的3 704例甲狀腺結節(jié)數(shù)據(jù)(飛利浦、日立和三星掃描儀)作為訓練集,額外的265例患者數(shù)據(jù)作為測試集來構建結節(jié)分類系統(tǒng)。整個系統(tǒng)被分為結節(jié)分割、特征提取和良惡性分類3個部分。第一部分采用全卷積的語義網絡來進行結節(jié)分割。在第二部分,具有不同邊緣寬度的結節(jié)圖像被輸入到AlexNet網絡。此時網絡不僅要分析結節(jié)區(qū)域的特征,還要分析其周邊區(qū)域的特征。該網絡提取了7種超聲特征:組成成分(囊性或部分囊性或實性)、回聲(高/等回聲或低回聲)、方向(平行或非平行)、邊緣(不清楚、微分葉/穗狀或清晰)、外觀(海綿狀、非海綿狀)、形狀(卵圓形、圓形或不規(guī)則)、鈣化(大鈣化、微鈣化、無鈣化)。第三部分采用GoogLeNet對結節(jié)圖像特征和第二步提取的超聲特征進行融合,獲得結節(jié)的良惡性分類。模型診斷的準確率為86.4%,敏感度為94.2%,特異度為76.9%。
1.2.2.3 低級、高級特征融合分類網絡
Ma等[35]采用來源于2家醫(yī)院的15 000張甲狀腺超聲圖像進行結節(jié)良惡性分析。研究圖像采集于飛利浦、通用電氣醫(yī)療、東芝、西門子、邁瑞和日立等不同超聲設備,總共包含8 148個結節(jié)(其中4 022個為惡性)。該研究中設計2個CNN,一個3層的CNN用于提取低級圖像特征,而另一個5層的CNN被用于提取復雜的高級特征(如圖2所示)。2個CNN分別學習甲狀腺結節(jié)在不同特征水平的表現(xiàn),它們包含的6個全卷積層所提取的特征被融合在一起進行結節(jié)良惡性分類。模型首先在ImageNet數(shù)據(jù)集上進行預訓練,隨后通過遷移學習遷移到結節(jié)良惡性分類的任務上。對應于每張超聲圖像,256張不同位置的超聲子圖會被提取用于圖像訓練。多子圖訓練和多網絡融合這2種改進方法均對分類性能有一定改善。十折交叉檢驗結果顯示,模型診斷的準確率為83.02%,敏感度為82.41%,特異度為84.96%。
圖2 淺層與深層特征融合的CNN分類模型框架[35]
1.2.2.4 多網絡融合分類模型
Li等[36]采用來源于中國幾家醫(yī)院的大規(guī)模甲狀腺超聲影像數(shù)據(jù)集進行了良惡性分類研究。訓練數(shù)據(jù)來源于天津市腫瘤醫(yī)院,包含來自于42 952例患者的312 399張圖像(惡性甲狀腺結節(jié)17 627個,131 731張圖片;良性甲狀腺結節(jié)25 325個,180 668張圖片)。驗證數(shù)據(jù)分別來源于天津市腫瘤醫(yī)院(1 118例患者的8 606張圖像)、吉林省吉林中西醫(yī)結合醫(yī)院(154例患者的741張圖像)和威海市立醫(yī)院(1 420例患者的11 039張圖像)。研究圖像采集于飛利浦、通用電氣醫(yī)療、東芝等不同超聲設備。網絡模型采用了50層的ResNet和19層的Darknet[37]2個網絡。2個網絡分別在訓練集上進行訓練,隨后進行融合。結果顯示,集成模型在3個不同醫(yī)院的驗證集上都取得了非常不錯的結果(天津市腫瘤醫(yī)院準確率為88.9%,敏感度為92.2%,特異度為85.6%;吉林省吉林中西醫(yī)結合醫(yī)院準確率為85.7%,敏感度為84.3%,特異度為86.9%;威海市立醫(yī)院準確率為86.3%,敏感度為84.9%,特異度為87.1%),模型診斷性能顯著優(yōu)于6名高年資的超聲醫(yī)師診斷。
深度學習方法在甲狀腺超聲圖像結節(jié)良惡性分類的應用中已經取得了顯著進展,但研究中也存在圖像數(shù)據(jù)量小、預處理過程不規(guī)范和圖像采集中的差異性等問題。
深度學習的性能改進在很大程度上依賴于大量的訓練樣本數(shù)據(jù)集。然而,與其他領域的大型公開數(shù)據(jù)集相比,甲狀腺超聲圖像的數(shù)據(jù)集比較有限。這成為深度學習方法在甲狀腺超聲圖像應用分析中的一個瓶頸。解決小樣本數(shù)據(jù)集最常用的方法之一是進行跨數(shù)據(jù)集的遷移學習,利用基于自然圖像預訓練的經典網絡作為特征提取器,通過權重微調來實現(xiàn)超聲分析中的各種任務。當前,基于深度學習的甲狀腺結節(jié)分類基本都是采用這種策略。大量遷移學習任務可以通過采用更優(yōu)結構的基礎網絡來實現(xiàn)性能的提升。但是超聲圖像和自然圖像相比,在特征上存在著巨大的差異,超聲圖像質量低,且存在大量噪聲和偽影,基礎網絡的選擇和優(yōu)化可能需要更多從圖像去噪角度進行考慮。
CNN輸入的圖像大小是固定的,不同的圖像預處理步驟可能會給模型性能帶來不同的影響。如果研究中對不同大小的結節(jié)在尺寸上做歸一化處理,在一定程度上會影響結節(jié)的整體特征表達,如扭曲結節(jié)的形狀、邊緣,改變回聲和鈣化。如果不對圖像做歸一化處理,不同尺寸結節(jié)所包含的周邊組織會存在很大差異。相關學者的研究也顯示結節(jié)的周邊組織大小會對結節(jié)的分類有顯著影響[33]。因此,如何對結節(jié)圖像進行預處理是需要進一步研究的方向。
相對于其他影像模態(tài),超聲影像面臨著獨特的挑戰(zhàn)。來源于不同醫(yī)療機構和采集于不同設備制造商的超聲圖像間存在著不小的差異。同時,超聲影像對掃描醫(yī)師的操作經驗高度依賴,醫(yī)師掃描圖像時的狀態(tài)以及不同醫(yī)師操作都會給掃描圖像帶來不小的差異,這些差異會直接影響到診斷結果。來源于同一個醫(yī)師、相同掃描儀的數(shù)據(jù),模型的良惡性分類準確率一般可以達到95%以上[32],而來源于多個醫(yī)師、多種掃描儀的數(shù)據(jù),模型的良惡性分類準確率一般在85%左右[34-36]。為了應對這個挑戰(zhàn),未來的發(fā)展需要從個體化和通用化2個角度同時考慮。個體化模型在一定程度上可以很好地學習某個醫(yī)師的診斷結果,但對每個醫(yī)師都必須單獨訓練。一旦掃描醫(yī)師或設備出現(xiàn)替換,則必須重新標注數(shù)據(jù)和訓練模型。個體化模型的準確度高,但工作量很大。通用化模型需要采用更復雜的多網絡集成架構,在學習結節(jié)通用特征的同時,也學習掃描操作、設備等帶來的差異性。該類模型對數(shù)據(jù)量需求大,對模型設計要求高,雖然一次訓練就可以廣泛、重復使用,但精度上的提升還需要不斷探索更智能化的超聲圖像分析方法。
超聲技術的廣泛應用為甲狀腺癌的診斷提供了幫助,甲狀腺癌的診斷需要從甲狀腺超聲中準確識別出結節(jié)的良惡性。然而,甲狀腺結節(jié)具有異質性的外觀且邊界模糊,這給結節(jié)良惡性的準確識別和醫(yī)生對結節(jié)的一致性解釋帶來困難。深度學習算法不再受人工選擇特征的限制,通過深度學習模型自動學習影像特征表達,可以較好地克服異質性的問題。同時,人工智能系統(tǒng)基于圖形處理單元進行大規(guī)模的并行計算,可以很好地解決大數(shù)據(jù)的處理問題。但是利用深度學習算法對甲狀腺超聲圖像中的結節(jié)進行良惡性分類也存在著一些不足,未來的發(fā)展趨勢主要是多網絡融合,如基于不同視角的多網絡超聲特征融合、深度特征與傳統(tǒng)特征的多網絡融合以及三維超聲的采集和三維深度網絡的應用等。相信隨著深度學習方法在甲狀腺超聲圖像結節(jié)良惡性分類等任務中的不斷完善,其在臨床的應用會越來越成熟。