国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于加權深度特征的醫(yī)學圖像并行檢索仿真

2021-12-10 08:32:14毛亞青胡俊峰
計算機仿真 2021年11期
關鍵詞:哈希特征提取分布式

毛亞青,王 亮,胡俊峰

(徐州醫(yī)科大學醫(yī)學信息學院,江蘇 徐州 221000)

1 引言

醫(yī)學圖像在當今醫(yī)療診斷中發(fā)揮著顯著的作用,對這些醫(yī)學圖像數(shù)據(jù)的檢索更是醫(yī)學圖像應用的前提和基礎。然而,隨著醫(yī)學影像存儲與傳輸系統(tǒng)、醫(yī)學數(shù)字成像和通信等標準的不斷發(fā)展和完善,醫(yī)學圖像數(shù)據(jù)呈現(xiàn)爆炸式的增長。目前,醫(yī)學影像數(shù)據(jù)約占醫(yī)院內部數(shù)據(jù)總數(shù)的70%[1],這些規(guī)模龐大的醫(yī)學圖像資源帶來了諸如存儲體量大、檢索效率低的問題,傳統(tǒng)的串行遍歷檢索模式已經出現(xiàn)瓶頸,也增大了檢索系統(tǒng)的負擔。如何有效地檢索醫(yī)學圖像,快速準確地搜索出滿足要求的圖像是亟待解決的重要問題。

分布式平臺Hadoop的出現(xiàn)為大規(guī)模醫(yī)學圖像數(shù)據(jù)的檢索提供了新的方向[2-5],通過分布式文件存儲系統(tǒng)HDFS和分布式數(shù)據(jù)庫HBase分別存儲海量圖像和手動選取的圖像特征,然后通過基于MapReduce的分布式編程對輸入的檢索圖像執(zhí)行分布式并行相似性匹配和圖像檢索。這種檢索方式提高了圖像檢索的速度和效率,但MapReduce并行模型在磁盤中進行運算,與基于內存的分布式計算引擎Spark相比,Spark每個作業(yè)中間輸出的結果可以存儲在內存中,無需讀寫HDFS。因此,Spark可以更好地適應醫(yī)學圖像檢索過程中的迭代匹配的過程[6],從而提高檢索速度。

在醫(yī)學特征提取方面,基于內容的醫(yī)學圖像檢索最初主要通過對特定場景根據(jù)主觀判斷手動提取特征,如:紋理特征、邊緣特征、GIST特征等單個或多個特征的融合,很容易導致圖像特征提取不完整,從而降低檢索的精度。卷積神經網絡(Convolutional Neural Networks,CNN)的出現(xiàn)提供了一種隱式自動學習的圖像特征提取方案?;贑NN的深度特征不僅能夠保留更多圖像細節(jié)信息[7],在圖像特征表示方面也表現(xiàn)出優(yōu)于傳統(tǒng)特征的效果[8]。在近年來基于CNN的醫(yī)學圖像檢索研究[9-11]中,通過對網絡結構的優(yōu)化,很多學者有效提高了基于深度特征醫(yī)學圖像檢索的精度。文獻[9]使用由多個卷積層和全連接層組成的卷積神經網絡,文獻[10]采用經典LeNet模型進行圖像特征提取。與后續(xù)的新模型相比,他們特征提取使用的網絡模型層數(shù)太少,無法保留更深層的圖像特征。文獻[11]使用層數(shù)更深且可移植性更強的VGG網絡模型,并在此基礎上增加了Dense Blok,改善了特征提取不能表達圖像語義的問題。VGG模型簡化了卷積神經網絡的結構,但訓練的特征數(shù)量非常大,且隨著網絡層數(shù)的增多也加入了較多與圖像信息無關的噪聲特征。受Xu等人[12]的啟發(fā),本文通過基于部分語義的加權聚合方法進行醫(yī)學圖像特征提取,利用無監(jiān)督策略選擇部分卷積層濾波器生成權值,通過聚合對應各語義內容的加權區(qū)域表示獲取最終的特征表示,抑制了背景噪聲并突出有效判別部分,從而提取更加有效的深度特征信息。

為了提高醫(yī)學圖像檢索的準確性,提取的圖像特征需要保留更多的圖像信息。因此其特征往往包含更高的維度,如基于VGG-16的CNN模型[12]提取的深度特征有4096維,龐大的特征維度也降低了特征存儲和檢索的效率。為此,眾多學者[9-11,13]采用哈希編碼的方式對高維特征向量進行編碼壓縮,從而節(jié)省存儲空間、提升計算效率。然而,這些研究普遍是在單機的環(huán)境下,對于分布式存儲的場景仍需要先把所有數(shù)據(jù)集中在單個節(jié)點進行編碼模型訓練,帶來了更高的數(shù)據(jù)計算與存儲壓力。因此,本文適應醫(yī)學圖像分布式存儲環(huán)境進行分布式哈希編碼模型訓練,從而優(yōu)化哈希模型訓練與計算存儲的過程。

綜上所述,為了提高大規(guī)模醫(yī)學圖像檢索的精度和效率,提出了一種基于加權深度特征的醫(yī)學圖像并行檢索方法。通過構建基于部分語義加權聚合方法的卷積神經網絡模型進行醫(yī)學圖像深度特征提取,利用分布式乘積量化哈希函數(shù)建立醫(yī)學圖像壓縮編碼模型,結合Spark并行計算模型對圖像特征進行分布式并行檢索。通過仿真驗證其性能,對比現(xiàn)有模型具有更高的檢索精度和檢索效率。

2 相關工作

2.1 Spark

Spark[6]是一個通用的大數(shù)據(jù)分布式計算框架,它實現(xiàn)了MapReduce編程范式,最初由加州大學伯克利分校AMP實驗室開發(fā)完成。Spark繼承了MapReduce編程簡單的優(yōu)點,并增加了對分布式內存計算的支持。相比之下,MapReduce將計算過程中的中間數(shù)據(jù)存儲在磁盤上,而Spark則使用彈性分布式數(shù)據(jù)集RDD通過內存來存儲中間數(shù)據(jù)[6],從而提高計算效率。此外,Spark可以非常方便地與Hadoop等開源產品進行融合,如資源管理和調度器YARN、Apache Mesos等。并且可以處理所有Hadoop支持的數(shù)據(jù),如HDFS、HBase和Cassandra等。對于已經部署Hadoop集群的用戶不需要做任何數(shù)據(jù)遷移就可以使用Spark的強大處理能力。圖1所示為Spark的運行模式。

圖1 Spark運行模式

2.2 卷積神經網絡

20世紀 90年代,LeCun等人[14,15]設計了多層人工神經網LeNet-5模型,實現(xiàn)手寫體數(shù)字識別,奠定了CNN發(fā)展的基礎。之后,Krizhevsky等人[16]提出AlexNet模型,加深了網絡層次并解決了Sigmoid的梯度消失問題,減輕了模型的過擬合,在圖像識別任務上取得了重大突破。在這之后,研究學者又提出了其它的改善方法,如VGGNet[17]將網絡的深度擴展到19層,并在卷積設計上,使用了更小的卷機核,不僅減少了參數(shù),也達到了更好的效果。何愷明等人[18]提出的殘差網絡ResNet模型,進一步加深了神經網絡的層次,同時解決了網絡模型訓練過程的退化問題,降低了深層網絡的優(yōu)化難度。然而在模型通用性方面,在不進行微調的情況下,相關研究[19]發(fā)現(xiàn)Resnet在圖像檢索和視覺目標跟蹤任務中沒有學習到良好的通用功能,而GoogleLeNet和VGGNet模型為轉移學習提供了更好的性能。

2.3 基于乘積量化哈希的特征索引

傳統(tǒng)樹結構索引方法存儲空間占用過大,且隨著維度的增長空間代價成倍變大,因此需要通過對原始數(shù)據(jù)進行哈希編碼壓縮以節(jié)省空間。目前對哈希編碼的研究主要包括數(shù)據(jù)無關哈希和數(shù)據(jù)驅動哈希:數(shù)據(jù)無關哈希方法以局部敏感哈希(Locality Sensitive Hashing,LSH)[20]為代表,在不考慮數(shù)據(jù)分布的情況下將原始空間中的數(shù)據(jù)投影到超平面獲取相應編碼。數(shù)據(jù)驅動哈希方法主要通過判別數(shù)據(jù)結構及分布信息來自動學習哈希函數(shù),代表方法有譜哈希(Spectral Hashing,SH)[21]、迭代量化(Iterative Quantization,ITQ)[22]、乘積量化(Product Quantization,PQ)[23]、笛卡爾K均值(Cartesian K-Means)[24]及組合量化(Composite Quantization)[25]等。與其它編碼方法相比,乘積量化模型能夠有效解決聚類中心數(shù)量膨脹問題,進而提升大規(guī)模圖像檢索過程中的數(shù)據(jù)存儲效率。

3 基于加權深度特征的醫(yī)學圖像并行檢索

3.1 總體概述

本文提出的基于加權深度特征的醫(yī)學圖像并行檢索方法主要包括3部分:1)基于加權深度特征的醫(yī)學圖像特征提?。?)基于分布式哈希的醫(yī)學圖像特征量化;3)醫(yī)學圖像并行檢索??傮w流程如圖2所示。

圖2 基于加權深度特征的醫(yī)學圖像并行檢索

3.2 醫(yī)學圖像深度特征提取

在醫(yī)學圖像深度特征提取部分,本文首先通過VGG16網絡模型提取深度卷積特征,然后基于部分語義的加權聚合方法進行特征加權篩選獲取最終特征向量。特征篩選過程利用無監(jiān)督策略選擇部分卷積層濾波器生成概率權值方案,通過聚合對應各語義內容的加權區(qū)域表示獲取最終的特征表示。具體流程如圖3所示。

圖3 醫(yī)學圖像深度特征提取過程

對于輸入查詢的圖像I,首先傳遞到預訓練的深度網絡VGG-16模型提取深度卷積層特征f(由C個通道特征圖組成,每個特征圖高度為H、寬度為W)。該圖像通過N個篩選出來的部分檢測器加權聚合表示,即為N*C維的矢量表示。

部分判別檢測器的選擇基于醫(yī)學圖像特征數(shù)據(jù)集進行訓練,選擇具有更大差異的特征圖通道,因此通過計算每個通道特征的方差進行篩選,C維向量gi(i=1,2,…,D)的C通道方差V={v1,v2,…,vc,…,vC}:

(1)

對C通道的方差{v1,v2,…,vC}進行排序,選擇方差最大的前N個判別式卷積層濾波器作為部分檢測器。然后,通過無監(jiān)督策略生成概率權值方案,每個概率權值方案都對應于隱含的固定語義內容。通過選擇的概率權值方案加權PWA表示的構造開始于具有高度H和寬度W的圖像I的C×W×H維深度卷積特征f的加權和集:

(2)

系數(shù)wn是歸一化權重,其取決于由部分檢測器n生成的所選概率權值方案的位置(x,y)中的激活值vn(x,y):

(3)

其中α和β分別是功率歸一化和功率縮放參數(shù)。

從加權和池化過程獲得N個選擇的C維區(qū)域表示ψn(I),進而通過連接選定的區(qū)域表示得到全局N×C維表示向量ψ(I)=[ψ1,ψ2,…,ψN],其中根據(jù)特征集的C通道的方差值選擇N部分探測器,既提高了性能又提高了計算效率。

最后,通過后處理對全局表示ψ(I)執(zhí)行l(wèi)2-歸一化、主成分分析(Principal Component Analysis,PCA)壓縮和白化,并獲得最終的M維表示ψPWA(I)

(4)

其中V是大小為M×N的PCA矩陣,M是保留維度的數(shù)量,σ1,σ2,…,σM是相關的奇異值。

3.3 基于分布式哈希的醫(yī)學圖像特征編碼

醫(yī)學圖像特征編碼模型是對卷積神經網絡輸出的醫(yī)學圖像特征進行哈希乘積量化編碼,通過分布式編碼存儲實現(xiàn)任意圖像查詢的快速檢索。首先,對訓練數(shù)據(jù)集進行哈希編碼學習以獲得特征編碼模型;進而將訓練好的編碼模型應用在原始醫(yī)學圖像數(shù)據(jù)集中,實現(xiàn)其壓縮編碼表示和編碼數(shù)據(jù)分布式存儲;最后,在醫(yī)學圖像檢索過程中,對查詢的圖像向量在編碼數(shù)據(jù)集上找出近鄰候選編碼集合,從而輸出查詢結果。

(5)

最后,編碼模型C以多個子空間中編碼模型的笛卡爾積的形式表示,C=C1×C2×…×Cm。整個算法的空間復雜度與向量維度p、子空間數(shù)量m和子空間聚類中心數(shù)量k有關,存儲編碼模型所需要的空間為O(mkp)。

圖4顯示了分布式編碼模型的訓練過程。Spark平臺中的分布式計算過程將分布式數(shù)據(jù)存儲RDD分為多個分區(qū)在集群中的不同節(jié)點上運行。因此為了實現(xiàn)分布式哈希檢索,需要將哈希編碼模型分布式地存儲在RDD中。對于一個p維的輸入數(shù)據(jù)集X,數(shù)據(jù)分布式地存儲在m個計算節(jié)點上,因此將其劃分成m個子集X=[X1,…,Xm],每個子集包含n個聚類中心,共需要m×n個分布式矩陣進行存儲。編碼矩陣用B=[B1,B2,…,BS]來表示,根據(jù)數(shù)據(jù)分布式這一特點,分布式乘積量化的目標函數(shù)為

圖4 分布式編碼模型訓練過程

(6)

訓練后的編碼模型可以對分布式存儲的醫(yī)學圖像深度特征數(shù)據(jù)集進行壓縮編碼表示。首先將分布在m個存儲節(jié)點上的特征向量集劃分成m份,再利用分布式編碼模型對每份向量子集進行編碼壓縮K-Means預測,從而獲得每份特征向量的聚類中心,再利用其聚類中心對每個向量子集進行編碼表示。

3.4 醫(yī)學圖像并行檢索

在醫(yī)學圖像檢索的應用過程中,對于輸入查詢的醫(yī)學圖像,本文首先利用CNN模型進行深度特征提取,然后對哈希編碼后的特征向量采用非對稱距離度量[23]進行距離計算,最終輸出k個距離最近的相似醫(yī)學圖像。利用非對稱距離度量的優(yōu)勢在于能夠避免直接計算查詢醫(yī)學圖像深度特征向量與數(shù)據(jù)庫中每個向量的歐式距離,從而減少查詢時間,提高檢索效率。

圖5是醫(yī)學圖像并行檢索過程的示意圖。通過事先計算深度特征哈希數(shù)據(jù)庫中每個聚類中心與其子向量的距離建立檢索查找表;對于需要查詢的醫(yī)學圖像深度特征向量q,計算其與數(shù)據(jù)庫中聚類中心xi′的距離,即為該向量與其它圖像向量之間的非對稱距離;通過比較q與聚類中心的距離找出最近的聚類c,設距離為l;最后,遍歷查找表將c聚類中每個向量與聚類中心的距離與l相加,即獲得q與該聚類中所有向量的距離,篩選距離排序獲得最近似的特征向量并返回對應的醫(yī)學圖像。

圖5 醫(yī)學圖像并行檢索過程

4 實驗結果分析

4.1 實驗環(huán)境與數(shù)據(jù)集

為了實現(xiàn)醫(yī)學圖像特征提取模型的高效訓練和并行檢索模型的分布式執(zhí)行,本文將模型訓練和并行檢索兩部分實驗分在不同的環(huán)境中執(zhí)行。其中,模型過程為基于CNN的加權深度特征提取模型的訓練,環(huán)境選用GPU型號為Tesla K80、12GB內存的Google云服務器,并采用Python 3.6和Tensorflow 1.7的深度學習框架。并行檢索包括基于分布式編碼模型的訓練和基于Spark的并行檢索,環(huán)境選用1個主節(jié)點和3個計算幾點,各節(jié)點配置情況如表1所示。

表1 分布式節(jié)點配置情況

實驗數(shù)據(jù)集選用由美國國立衛(wèi)生研究院臨床中心(NIHCC)的團隊開發(fā)的醫(yī)學圖像數(shù)據(jù)集DeepLesion(https:∥nihcc.app.box.com/v/DeepLesion),是來自4427個患者的多類別、病灶級別標注臨床醫(yī)療CT圖像開放數(shù)據(jù)集。該數(shù)據(jù)庫中目前已有32,735張CT圖像及病變信息,去除重復記錄后共有已標記的病變圖像9624個,包括:肺(2370)、腹部(2119)、縱隔(1640)、肝臟(1257)、骨盆(843)、軟組織(660)、腎(488)和骨(247)共8種損傷類型。

本文實現(xiàn)的醫(yī)學圖像檢索方法在DeepLesion數(shù)據(jù)集上進行醫(yī)學圖像特征提取和分布式并行檢索。根據(jù)給定醫(yī)學圖像實現(xiàn)數(shù)據(jù)集中相同病灶、相似損傷的其它醫(yī)學圖像的檢索,從而有效地輔助醫(yī)療診斷過程。

4.2 實驗指標

平均準確率均值mAP(the mean Average Precision)是圖像檢索中最常用的評價指標,實驗將其用于評價所提出圖像檢索方法的效果。檢索結果的mAP值越大,相似圖像在檢索結果中排名越高,檢索效果越好。mAP的計算基于查全率r和查準率p兩個參數(shù),定義為

(7)

具體含義指的是當查詢第i張圖像返回共j個檢索結果時,rij表示檢索到的正確結果占圖像庫中正確結果總數(shù)的百分比,pij表示檢索到的正確結果占檢索出的全部結果的百分比。通過查全率和查準率計算圖像i的平均查準率(Average Precision,AP)為

(8)

其中,Δrij為在返回增加一張圖像時查全率的變化值,n為數(shù)據(jù)集中的圖像總數(shù)。因此,查詢m張圖像的平均查準率均值mAP為

(9)

4.3 實驗分析

為驗證本文提出醫(yī)學圖像檢索方法的精度和效率,實驗共分為三部分:圖像特征提取方法的性能分析、分布式乘積量化哈希編碼效果分析、分布式檢索效率分析。

4.3.1 圖像特征提取方法的檢索性能分析

首先驗證本文圖像特征提取方法的性能,實驗在單機環(huán)境下將本文所采用的加權聚合深度特征提取圖像檢索方法與最新的圖像檢索方法進行對比,包括:基于手工SIFT特征的圖像檢索算法RVD-W[26]、基于AlexNet模型深度特征的圖像檢索算法CNN-SL[27]、基于GoogleLeNet模型深度特征的圖像檢索算法CCS[28]和基于VGG模型深度特征的圖像檢索算法CroW[29](https:∥github.corn/yahoocrow)進行檢索的mAP對比。

表2所示為采用不同特征提取模型的檢索方法效果對比,相比基于SIFT特征提取和其它CNN深度特征,本文特征提取所采用的算法在醫(yī)學圖像集中獲得了最好的檢索效果。

表2 不同圖像特征提取方法檢索效果對比

4.3.2 分布式乘積量化哈希編碼效果分析

為了驗證本文分布式乘積量化哈希編碼的性能,將所提出的算法與局部敏感哈希編碼LSH[20]、有譜哈希SH[21]、迭代量化ITQ[22]三種經典哈希編碼算法在不同醫(yī)學圖像編碼長度時的檢索性能進行對比。

在編碼過程中,編碼長度由子空間數(shù)量m和各空間聚類中心個數(shù)k決定,編碼長度l=m*log2k(bit),實驗采用編碼位數(shù)分別為:8、16、32、64、128的長度進行實驗,4種哈希編碼算法的性能情況如圖6所示。隨著選取編碼長度的增大,所有編碼模型的檢索性能均有提高,是因為編碼長度越大所保留的特征長度越大、表達圖像信息的能力越強,因此編碼檢索效果越好。而相比之下,本文分布式乘積量化的哈希編碼模型平均檢索均值更高,檢索性能更好。

圖6 哈希編碼算法檢索性能對比

在Spark分布式訓練調優(yōu)方面,實驗選取不同數(shù)量的Executor(節(jié)點的執(zhí)行進程數(shù))、針對不同哈希編碼長度進行哈希編碼模型分布式訓練,對比其編碼模型的訓練時間,如圖7所示??偟膩碚f,編碼長度越長,所需訓練的時間越長。且隨著Executor個數(shù)的增多,訓練消耗時間趨勢呈先下降后平緩,這是因為受限于Spark集群的計算節(jié)點總處理器核心數(shù),所以最終時間消耗趨于穩(wěn)定。

圖7 編碼模型訓練時間對比

4.3.3 分布式檢索效率分析

在檢索效率方面,實驗在分布式環(huán)境中對本文方法檢索效果、分布式檢索效率即在不同節(jié)點數(shù)、不同檢索圖像數(shù)據(jù)量情況下的檢索時間進行分析。

圖8顯示了具有在不同節(jié)點數(shù)的Spark集群中醫(yī)學圖像檢索時間的比較。所提出算法消耗的時間隨著節(jié)點數(shù)量的增多而減少,同時也表現(xiàn)出整體系統(tǒng)的可擴展性。時間下降的趨勢逐漸趨于平緩,是因為雖然節(jié)點增多,但集群不可避免地需要消耗用來維持節(jié)點間網絡通信、調度計算等的時間??偟膩碚f,算法運行效率隨著節(jié)點的增加而更高,且數(shù)據(jù)量越大采用分布式計算的優(yōu)勢越明顯。

圖8 分布式檢索效率對比

4.3.4 醫(yī)學圖像檢索結果

如圖9是根據(jù)需要檢索的縱隔損傷圖像(損傷類型為3),使用本文算法的檢索出DeepLesion損傷數(shù)據(jù)集中前8張匹配的相似損傷圖像。同時,圖中也檢索出相似的肺部損傷圖像(損傷類型為5),從而提供數(shù)據(jù)集中的相關信息以輔助臨床診斷。

圖9 醫(yī)學圖像檢索結果

5 結束語

為了提高大規(guī)模醫(yī)學圖像檢索的準確性和效率,本文深入研究和實現(xiàn)在Spark平臺下基于加權深度特征和分布式哈希的醫(yī)學圖像并行檢索方法。通過基于部分語義加權聚合的卷積神經網絡對醫(yī)學圖像進行深度特征提取,保證了醫(yī)學圖像特征對原有圖像的關鍵信息保留;通過乘積量化的哈希編碼模型實現(xiàn)對醫(yī)學圖像特征的壓縮存儲,提高了存儲效率;通過基于Spark的分布式檢索提高了檢索的計算效率。最后,通過在醫(yī)學圖像數(shù)據(jù)集上的實驗對比在醫(yī)學圖像特征提取、哈希編碼性能、檢索效率方面系統(tǒng)均有良好表現(xiàn)。在未來的工作中,將拓展進行更大規(guī)模醫(yī)學圖像數(shù)據(jù)集的并行檢索,從擴大數(shù)據(jù)規(guī)模和醫(yī)學圖像檢索類別等角度提高系統(tǒng)的可拓展性。

猜你喜歡
哈希特征提取分布式
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
Bagging RCSP腦電特征提取算法
基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
基于DDS的分布式三維協(xié)同仿真研究
雷達與對抗(2015年3期)2015-12-09 02:38:50
基于維度分解的哈希多維快速流分類算法
計算機工程(2015年8期)2015-07-03 12:20:04
基于MED和循環(huán)域解調的多故障特征提取
西門子 分布式I/O Simatic ET 200AL
基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
計算機工程(2014年6期)2014-02-28 01:25:40
凯里市| 乐昌市| 高碑店市| 嘉定区| 宣化县| 布拖县| 平和县| 同德县| 罗源县| 南宁市| 达孜县| 彭水| 宁强县| 彭阳县| 肃宁县| 旬阳县| 沐川县| 罗定市| 台前县| 寻乌县| 连云港市| 罗田县| 铜陵市| 临安市| 峨山| 大冶市| 金门县| 崇州市| 辽阳市| 镇沅| 勃利县| 昆明市| 乌兰浩特市| 类乌齐县| 桐柏县| 察雅县| 尚义县| 松原市| 怀安县| 古蔺县| 宣恩县|