張國(guó)標(biāo) 李信 陸偉
摘 要:[目的/意義]通過混合圖像檢測(cè)對(duì)生物醫(yī)學(xué)學(xué)術(shù)文獻(xiàn)里的圖像進(jìn)行分類,為進(jìn)一步的生物醫(yī)學(xué)圖像研究提供支撐。[方法/過程]利用深度卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型VGG16網(wǎng)絡(luò)構(gòu)建了混合圖像檢測(cè)模型,并對(duì)VGG16網(wǎng)絡(luò)的第1個(gè)卷積層的卷積核做了修改,對(duì)比了3種不同大小的卷積核的檢測(cè)效果。[結(jié)果/結(jié)論]通過對(duì)ImageCLEF2016混合圖像檢測(cè)測(cè)試數(shù)據(jù)集的檢測(cè),使用5×5卷積核的VGG16模型的檢測(cè)正確率達(dá)到97.08%,準(zhǔn)確率、召回率和F1值指標(biāo)均優(yōu)于對(duì)比網(wǎng)絡(luò)模型的檢測(cè)結(jié)果。通過對(duì)首層提取的特征圖進(jìn)行可視化發(fā)現(xiàn),在VGG16網(wǎng)絡(luò)中5×5的卷積核相比3×3的卷積核可以提取更多的邊緣特征,更適合混合圖像檢測(cè)任務(wù)。
關(guān)鍵詞:混合圖像檢測(cè);生物醫(yī)學(xué)圖像;深度卷積神經(jīng)網(wǎng)絡(luò);VGG16;ImageCLEF2016
DOI:10.3969/j.issn.1008-0821.2020.07.008
〔中圖分類號(hào)〕G251 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2020)07-0074-08
Biomedical Compound Figure Detection Based on
Deep Convolutional Neural Network
Zhang Guobiao1,2 Li Xin1,2 Lu Wei1,2
(1.School of Information Management,Wuhan University,Wuhan 430072,China;
2.Institute for Information Retrieval and Knowledge Mining,Wuhan University,Wuhan 430072,China)
Abstract:[Purpose/Significance]Compound figure detection is used to classify the images in the biomedical academic literature to provide support for further biomedical image research.[Methods/Process]A classical deep convolutional neural network model of VGG16 was used for compound figure detection in the biomedical article domain.We used the large-size convolution kernel instead of the small-size convolution kernel in the first layer of VGG16 network.[Results/Conclusion]The proposed model obtained a best test accuracy of 97.08% outperforming traditional hand-crafted and other deep learning representations on the ImageCLEF2016 compound image detection dataset.By visualizing the feature map extracted from the first layer,it is found that 5×5 kernel in the first layer of VGG16 network can extract more edge features than 3×3 kernel,which was more suitable for compound figure detection tasks.
Key words:compound figure detection;biomedical images;deep convolutional neural network;VGG16;ImageCLEF2016
生物醫(yī)學(xué)圖像在生物醫(yī)學(xué)文獻(xiàn)中具有重要的地位,往往被視作“解釋現(xiàn)象的圖例”“證明觀點(diǎn)的證據(jù)”,是臨床醫(yī)生和醫(yī)學(xué)研究人員重點(diǎn)關(guān)注的信息資源[1]。隨著基于內(nèi)容的圖像檢索和自動(dòng)標(biāo)注技術(shù)的發(fā)展,為醫(yī)學(xué)圖像的查找利用提供了便利的條件,同時(shí)研究發(fā)現(xiàn)通過對(duì)檢索結(jié)果的自動(dòng)分類和過濾可以有效提升圖像檢索和標(biāo)注的準(zhǔn)確率[2]。然而,在生物醫(yī)學(xué)文獻(xiàn)中存在著大量的混合圖像(包含2個(gè)或2個(gè)以上子圖的圖像,如圖1所示),混合圖像包含多個(gè)子圖,而且子圖內(nèi)容差異較大,現(xiàn)有算法無法準(zhǔn)確提取其內(nèi)容特征,這對(duì)基于內(nèi)容的圖像檢索和自動(dòng)標(biāo)注等基于圖像內(nèi)容的研究造成了巨大的阻礙[3]。這就需要我們?cè)趯⑸镝t(yī)學(xué)圖像存入圖像數(shù)據(jù)庫時(shí)對(duì)混合圖像進(jìn)行檢測(cè),并做進(jìn)一步的分割,以便后續(xù)的研究利用。
深度卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)代人工智能領(lǐng)域的基礎(chǔ),不僅在機(jī)器視覺領(lǐng)域得到了廣泛應(yīng)用,而且在文本分類、語音識(shí)別等領(lǐng)域中也得到越來越多的青睞。同時(shí),不斷被加深與優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)使得深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、圖像識(shí)別、語義分割、目標(biāo)定位等任務(wù)的處理性能得到不斷提升。本文依據(jù)Image Cross-Language Evaluation Forum(ImageCLEF)會(huì)議提出的混合圖像檢測(cè)任務(wù)來對(duì)生物醫(yī)學(xué)文獻(xiàn)中的混合圖像進(jìn)行檢測(cè),利用深度卷積神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)混合圖像與單圖圖像的自動(dòng)分類,為進(jìn)一步的學(xué)術(shù)視覺資源理解研究提供支撐。
1 相關(guān)工作概述
生物醫(yī)學(xué)混合圖像檢測(cè)研究是一個(gè)關(guān)于生物醫(yī)學(xué)圖像空間排版組合模式識(shí)別及分類的問題,其研究受到機(jī)器視覺、深度學(xué)習(xí)等研究領(lǐng)域的深刻影響。針對(duì)這一檢測(cè)任務(wù),可將之前的研究歸為兩類:基于傳統(tǒng)特征工程的檢測(cè)和基于深度神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法。醫(yī)學(xué)圖像組合分析最初主要采用邊緣檢測(cè)、形態(tài)學(xué)濾波以及構(gòu)建形狀模型和模板匹配等方法[4]。這類分析方法通常針對(duì)特定任務(wù)而設(shè)計(jì),被稱為手工定制式設(shè)計(jì)方法。如Taschwer M等[5]分別計(jì)算了圖像的像素密度均值、像素密度方差和一維霍夫曼變換3種特征,利用這3種特征來訓(xùn)練支持向量機(jī)分類器,實(shí)現(xiàn)了76.9%的正確率。Wang X[6]使用連通域分析和峰值區(qū)域檢測(cè)兩種方法來提取圖像特征,將決策樹作為分類器,實(shí)現(xiàn)了82.82%的正確率。Pelka O等[7]用SIFT關(guān)鍵點(diǎn)和邊界輪廓線來表征圖像內(nèi)容特征,同時(shí)結(jié)合圖像標(biāo)題文本信息,使用隨機(jī)森林分類器,實(shí)現(xiàn)了85.4%的正確率。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,及其在圖像分類和內(nèi)容識(shí)別方面均取得的突破性研究,將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于混合圖像檢測(cè)已引起了廣大研究者的興趣。隨著深度學(xué)習(xí)在圖像分類任務(wù)的準(zhǔn)確率不斷提升,在2016年ImageCLEF混合圖像檢測(cè)任務(wù)比賽中,研究人員紛紛使用深度學(xué)習(xí)方法來檢測(cè)混合圖像,使得檢測(cè)正確率提升到了90%以上。Yu Y等[8]使用LSTM和GRU網(wǎng)絡(luò)構(gòu)建的模型,檢測(cè)正確率達(dá)到了96.24%。Sheng L L等[9]使用在ImageNet數(shù)據(jù)集上訓(xùn)練好的AlexNet、VGG16和VGG19模型,并用混合圖像檢測(cè)訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)來提取圖像特征,然后分別使用Softmax和支持向量機(jī)來對(duì)圖像進(jìn)行分類,其中VGG16模型正確率達(dá)到了96.61%,VGG19模型正確率達(dá)到了96.76%,通過對(duì)3個(gè)網(wǎng)絡(luò)的分類結(jié)果進(jìn)行融合得到了96.93%的正確率。
深度學(xué)習(xí)以數(shù)據(jù)驅(qū)動(dòng)方式分析任務(wù),能自動(dòng)地從特定問題的大規(guī)模數(shù)據(jù)集中學(xué)習(xí)相關(guān)模型特征和數(shù)據(jù)特性。與針對(duì)特定問題而顯式地手工設(shè)計(jì)模型不同,深度學(xué)習(xí)方法可直接從數(shù)據(jù)樣本中隱式地自動(dòng)學(xué)習(xí)醫(yī)學(xué)圖像特征,其學(xué)習(xí)過程本質(zhì)上是一個(gè)優(yōu)化問題的求解過程。通過學(xué)習(xí),模型從訓(xùn)練數(shù)據(jù)中選擇正確的特征,使分類器在測(cè)試新數(shù)據(jù)時(shí)做出正確決策。因此,深度學(xué)習(xí)在醫(yī)學(xué)圖像分析中起著至關(guān)重要的作用,已經(jīng)成為最有前途的研究領(lǐng)域。
2 生物醫(yī)學(xué)混合圖像內(nèi)容組合分析
多子圖混合圖像在科學(xué)出版中非常常見,使用混合圖像不僅能說明復(fù)雜的現(xiàn)象,而且可以提供對(duì)比說明[10]。在Pubmed Central數(shù)據(jù)庫中有40%~60%的論文插圖是混合圖像[11]。生物醫(yī)學(xué)混合圖像往往由統(tǒng)計(jì)圖表、實(shí)驗(yàn)照片、模型圖、影像圖和顯微圖等組成,根據(jù)混合圖像各子圖是否屬于同一類型圖,可將混合圖像組合方式分為多模態(tài)組合和單一模態(tài)組合。
2.1 多模態(tài)組合
多模態(tài)組合是指混合圖像中的子圖屬于不同的圖類型,如圖2所示。多模態(tài)組合的混合圖像各子圖之間有明顯的分割線或空白區(qū)域,并且各子圖紋理信息差異較大,傳統(tǒng)手工特征分類模型可以較為簡(jiǎn)單地識(shí)別出這一特性。針對(duì)這一類型的混合圖像可以通過紋理信息來判斷圖像是否是混合圖像。
2.2 單一模態(tài)組合
單一模態(tài)組合是指混合圖像中的子圖屬于相同的圖類型,如圖3所示。在生物醫(yī)學(xué)文獻(xiàn)中,這種組合模式經(jīng)常用來對(duì)比說明文獻(xiàn)研究對(duì)象不同區(qū)域的差異或同一區(qū)域的發(fā)展變化信息。單一模態(tài)組合圖像其各子圖之間內(nèi)容相似,顏色、紋理、形狀等特征無法對(duì)其進(jìn)行有效檢測(cè),只能利用邊緣信息來辨識(shí)各子圖的空間關(guān)系。
3 生物醫(yī)學(xué)混合圖像檢測(cè)模型
3.1 深度卷積神經(jīng)網(wǎng)絡(luò)
為更好提取圖像空間結(jié)構(gòu)信息,1989年Lecum Y等[12]提出了一種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)。CNN可接受2D或3D圖像塊作為輸入,適于捕獲視覺的局部信息。CNN通常由多個(gè)交替出現(xiàn)的卷積層和池化(Pooling)層,以及末端的全連接層構(gòu)成多層次人工神經(jīng)網(wǎng)絡(luò),其基本結(jié)構(gòu)如圖4所示。其中,卷積層具有固定的輸入大小,感受局部區(qū)域上下文信息,具有權(quán)值共享和下采樣的特點(diǎn),同時(shí)具有一定程度的位移、尺度和形變不變性,大大減少了模型的自由度。池化層針對(duì)卷積特征圖進(jìn)行特征降維,通常與卷積層級(jí)聯(lián)出現(xiàn)。全連接層對(duì)池化特征圖進(jìn)行矢量變換,將輸入的多維矩陣?yán)鞛橐痪S的特征向量。輸出層是一個(gè)分類器,計(jì)算圖像的類別概率,將圖像歸類為概率最大的類別。
ILSVRC[13]比賽(Image Net Large Scale Visual Recognition Competition,ILSVRC)極大促進(jìn)了CNN的發(fā)展,不斷有新發(fā)明的CNN模型刷新ImageNet成績(jī)。從2012的AlexNet[14],到2013年的ZFNet[15],2014年的VGGNet[16]、GoogLeNet[17],再到2015年的ResNet[18],網(wǎng)絡(luò)層數(shù)不斷增加,模型能力也不斷增強(qiáng)。AlexNet第一次展現(xiàn)了深度學(xué)習(xí)的強(qiáng)大能力,ZFNet是可視化理解卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果,VGGNet表明網(wǎng)絡(luò)深度能顯著提高深度學(xué)習(xí)的效果,GoogLeNet第一次打破了卷積層池化層堆疊的模式,ResNet首次成功訓(xùn)練了深度達(dá)到152層的神經(jīng)網(wǎng)絡(luò)。Sheng L L等[9]使用VGGNet在混合圖像檢測(cè)任務(wù)上取得了最優(yōu)的成績(jī),本文同樣選用16層的VGGNet模型來檢測(cè)混合圖像。
3.2 基于VGG16的混合圖像檢測(cè)模型結(jié)構(gòu)
VGG16網(wǎng)絡(luò)是由牛津大學(xué)計(jì)算機(jī)視覺小組提出的深度卷積神經(jīng)網(wǎng)絡(luò)模型,其中包含13層卷積層(Convolutional Layer)和3層全連接層(Full Connected Layer),所有卷積層均使用了3×3的卷積核,并把卷積層進(jìn)行組合作為卷積序列處理。每層卷積層進(jìn)行卷積后都采用修正線性單元(ReLU)作為激活函數(shù),每一塊卷積計(jì)算結(jié)束后,進(jìn)行最大值池化,聚合特征信息[19]?;赩GG16的混合圖像檢測(cè)模型結(jié)構(gòu)如圖5所示,其輸入為224×224×3的彩色圖像,輸出為每個(gè)類別的概率。
由于首層卷積層與輸入圖像最近,后續(xù)操作都依賴于其輸出,其參數(shù)也最為敏感?,F(xiàn)有的圖像分類研究?jī)A向于使用更小的卷積核來表征圖像特征,實(shí)現(xiàn)更多次的非線性變換,提升網(wǎng)絡(luò)的特征學(xué)習(xí)能力。這一做法是因?yàn)樵谧匀粓D像中含有較為豐富的紋理信息,運(yùn)用小尺寸卷積核可以提取到更多的細(xì)節(jié)變化,可以更好地表征眼睛、頭發(fā)等紋理特征。但是混合圖像檢測(cè)更注重圖像的空間位置信息,而且在生物醫(yī)學(xué)混合圖像中存在大量的統(tǒng)計(jì)類圖表,圖表內(nèi)只包含少量線條和文字,大部分區(qū)域?yàn)榭瞻妆尘?。?dāng)使用小尺寸卷積核時(shí),會(huì)導(dǎo)致大部分提取到的特征為空,使得傳遞給第2層卷積層的信息較少,信息丟失過快,不能很好地獲得混合圖像的關(guān)鍵特征信息。而使用較大尺寸的卷積核可以為后續(xù)操作傳遞更多的信息,因此我們對(duì)VGG16網(wǎng)絡(luò)的首層卷積層進(jìn)行了修改,使用了更大尺寸的卷積核。
此外,為了提升模型的魯棒性,本文在全連接層添加了Dropout[20]。同時(shí)由于ImageCLEF2016數(shù)據(jù)集相比ImageNet數(shù)據(jù)集圖像數(shù)量小了很多,我們采用了更小的Dropout值進(jìn)行補(bǔ)償,將Dropout值設(shè)為0.5。設(shè)置更小的Dropout值可以讓更多的節(jié)點(diǎn)權(quán)值暫時(shí)不工作。這一機(jī)制降低了神經(jīng)元之間的相互適應(yīng),一個(gè)神經(jīng)元不能依賴另一個(gè)神經(jīng)元。由于選取了神經(jīng)元的一個(gè)隨機(jī)子集,這樣模型會(huì)強(qiáng)制學(xué)習(xí)更好的魯棒的特征。
4 實(shí)驗(yàn)及結(jié)果分析
4.1 數(shù)據(jù)處理
數(shù)據(jù)集采用ImageCLEF2016醫(yī)學(xué)任務(wù)提供的標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集中包含混合圖像和單圖圖像兩類數(shù)據(jù)(如表1所示),其中訓(xùn)練集包含12 350張混合圖像和8 650張單圖圖像,測(cè)試集包含3 456張測(cè)試圖像。為了更好地防止網(wǎng)絡(luò)的過擬合,對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行了增強(qiáng)處理(如圖6所示),分別對(duì)每張訓(xùn)練圖像進(jìn)行了內(nèi)容縮放、垂直反轉(zhuǎn)、水平反轉(zhuǎn)和移動(dòng)處理,將訓(xùn)練數(shù)據(jù)集擴(kuò)大到原始訓(xùn)練數(shù)據(jù)集的15倍。
4.2 實(shí)驗(yàn)過程
實(shí)驗(yàn)環(huán)境可以概括為Ubuntu16.04+Python3.6,訓(xùn)練過程使用了顯卡加速。在實(shí)驗(yàn)過程中,使用谷歌開源的深度學(xué)習(xí)框架Tensorflow1.8構(gòu)建VGG16網(wǎng)絡(luò)并對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。最小批次設(shè)為64,學(xué)習(xí)速率方法采用了指數(shù)衰減法(初始值為0.001每訓(xùn)練500步衰減5%),迭代次數(shù)設(shè)為60 000次。
4.3 結(jié)果分析
ImageCLEF2016醫(yī)學(xué)任務(wù)將測(cè)試正確率被用來作為評(píng)價(jià)模型好壞的唯一指標(biāo),然而正確率并非評(píng)價(jià)分類性能的最佳指標(biāo),本文增加了準(zhǔn)確率、召回率和F1值指標(biāo),其計(jì)算公式如下:
正確率(Accuracy)=正確分類的圖像數(shù)測(cè)試集圖像數(shù)×100%(1)
準(zhǔn)確率(Precision)=正確預(yù)測(cè)的混合圖像數(shù)所有預(yù)測(cè)為混合圖像數(shù)(2)
召回率(Recall)=正確預(yù)測(cè)的混合圖像數(shù)測(cè)試集中混合圖像數(shù)(3)
F1=2×Precision×RecallPrecision+Recall(4)
同時(shí),選取Sheng L L等[9]提出的方法作為對(duì)比模型,該模型是目前已知正確率最高的模型。模型檢測(cè)結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果顯示,5×5的卷積核取得了最好的結(jié)果,其正確率為97.08%,為目前已知的最高值。準(zhǔn)確率為0.964,召回率為0.9797,F(xiàn)1值為0.9718,各項(xiàng)指標(biāo)均超過了其他模型,說明的卷積核更適合生物醫(yī)學(xué)混合圖像檢測(cè)。
4.4 首層卷積特征可視化
深度學(xué)習(xí)的黑箱機(jī)制使我們很難對(duì)分類過程中發(fā)生的事情進(jìn)行推斷。在模型訓(xùn)練完成后,可以通過對(duì)輸入到該模型的圖像所生成的特征進(jìn)行可視化分析,來理解深度卷積神經(jīng)網(wǎng)絡(luò)的具體操作,以及反向解釋每一層的特征激活函數(shù)[21]。本文以圖7(a)作為輸入圖像,通過顯示首層卷積操作后的特征圖以觀察3×3的卷積核與5×5的卷積核對(duì)輸入圖像進(jìn)行卷積操作的差異,并解釋5×5卷積核檢測(cè)結(jié)果為何優(yōu)于3×3的卷積核檢測(cè)結(jié)果。
從圖7(b、c)中可以看出,訓(xùn)練好的模型正在尋找各種各樣的模式。從第一層卷積層的特征圖中,能明顯地看到統(tǒng)計(jì)表的輪廓特征。通過對(duì)比圖7(b)和圖7(c),可以發(fā)現(xiàn)圖7(c)包含更多黑色的特征圖,說明5×5卷積核提取了更多的邊緣特征,白色背景部位的激活度基本很少。本文通過可視化發(fā)現(xiàn)5×5的卷積核相比3×3的卷積核提取到的特征忽視了背景,而是把關(guān)鍵的邊緣特征給提取出來了,更加聚焦于分類的核心特征。
4.5 錯(cuò)誤分類案例分析
檢查模型的輸入和輸出可以幫助我們理解模型分類過程,特別是被錯(cuò)誤分類的圖像,可以用來檢查模型并解釋什么樣的圖像容易使模型出錯(cuò)。本文提出的模型預(yù)測(cè)的分類結(jié)果中有101張圖片分類錯(cuò)誤(錯(cuò)分案例見圖8),其中有65張是將混合圖像錯(cuò)分為單一圖像,36張為將單一圖像錯(cuò)分為混合圖像。65張錯(cuò)分的混合圖像中有54張為單一組合混合圖像,占比為83.08%,單一組合混合圖像各子圖紋理特征相似,容易被誤判。其中錯(cuò)分為混合圖像的單一圖像多為統(tǒng)計(jì)類圖表、流程圖和網(wǎng)頁或軟件截圖,這些圖中內(nèi)容之間有明顯的邊界或空白區(qū)域。統(tǒng)計(jì)類圖表類型多變,圖表旁邊往往伴有被框起來的圖表內(nèi)容說明信息,這一組合方式容易被誤判為混合圖像。流程圖內(nèi)部各模塊之間有明顯的邊界,各模塊使用連線連接,在卷積運(yùn)算過程中連線信息并不容易被捕捉到,這就造成了模塊之間的孤立,從而被錯(cuò)判為混合圖像。網(wǎng)頁或軟件截圖往往是對(duì)多個(gè)頁面的截圖或一個(gè)頁面內(nèi)有不同的區(qū)域內(nèi)容,這一特性造成了模型誤判。
5 總 結(jié)
科技文獻(xiàn)中包含了大量的未被開發(fā)利用的圖像數(shù)據(jù)資源,這些圖像不僅數(shù)量龐大,還有文本描述信息,使其可以被自動(dòng)地語義索引。學(xué)術(shù)圖像利用的一個(gè)巨大的阻礙就在于混合圖像的存在,多個(gè)子圖被整合在一幅圖片中,只被賦予了一個(gè)標(biāo)題。針對(duì)學(xué)術(shù)圖像的研究工作而言,對(duì)混合圖像進(jìn)行檢測(cè)并做進(jìn)一步分割是一個(gè)必要的預(yù)處理工作。
針對(duì)混合圖像檢測(cè)問題,我們使用深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了一種檢測(cè)模型,可以自動(dòng)區(qū)分單一圖像和混合圖像。分別對(duì)比了3×3、5×5和7×7 3種大小的卷積核,結(jié)果顯示5×5的卷積核的檢測(cè)效果要優(yōu)于其他卷積核,正確率達(dá)到97.08%。通過對(duì)首層提取的特征圖進(jìn)行可視化發(fā)現(xiàn),5×5的卷積核相比3×3的卷積核可以提取更多的邊緣特征。在分類結(jié)果中,單一組合混合圖像、統(tǒng)計(jì)類圖像、流程圖和網(wǎng)頁或軟件截圖容易被錯(cuò)分。雖然該模型是針對(duì)醫(yī)學(xué)圖像開發(fā)的,但是可以通過微調(diào)訓(xùn)練遷移到其他科技圖像檢測(cè)任務(wù)中。在以后的研究中,我們將繼續(xù)針對(duì)混合圖像進(jìn)行研究,對(duì)其進(jìn)行分割,并為各子圖生成標(biāo)題,為混合圖像的檢索利用提供支撐。
參考文獻(xiàn)
[1]Han X H,Y W Chen.Biomedical Imaging Modality Classification Using Combined Visual Features and Textual Terms[J].International Journal of Biomedical Imaging,2011,2011(2011):1-7.
[2]Kalpathy-Cramer J,W Hersh,S Bedrick,et al.Query Analysis to Improve Medical Image Retrieval[C]//Society for Imaging Informatics in Medicine,2008:23-29.
[3]Akgül C B,D L Rubin,S Napel,et al.Content-Based Image Retrieval in Radiology:Current Status and Future Directions[J].Journal of Digital Imaging,2011,24(2):208-222.
[4]丁恒,陸偉,林霞,等.醫(yī)學(xué)圖像模態(tài)特征表達(dá)及其比較研究[J].情報(bào)學(xué)報(bào),2016,35(12):1296-1304.
[5]Taschwer M,O Marques.Automatic Separation of Compound Figures in Scientific Articles[J].Multimedia Tools & Applications,2018,77(1):1-30.
[6]X Wang,X J,H Shatkay,C Kambhamettu.CIS UDEL Working Notes on Image-CLEF 2015:Compound Figure Detection Task[C]//Image-CLEF(Ranking 2nd in the Challenge),2015:298-304.
[7]Pelka O,C M Friedrich.FHDO Biomedical Computer Science Group at Medical Classification Task of ImageCLEF 2015[C]//Working Notes of CLEF 2015-Conference and Labs of the Evaluation Forum,2015:1208-1214.
[8]Yu Y,H Lin,J Meng,et al.Assembling Deep Neural Networks for Medical Compound Figure Detection[J].Information,2017,8(2):48-56.
[9]Sheng L L,M R Zare.Biomedical Compound Figure Detection Using Deep Learning and Fusion Techniques[J].Iet Image Processing,2018,12(6):1031-1037.
[10]Apostolova E,D You,Z Xue,et al.Image Retrieval from Scientific Publications:Text and Image Content Processing to Separate Multipanel Figures[J].Journal of the American Society for Information Science & Technology,2014,64(5):893-908.
[11]Herrera A G I S D,R Schaer,S Bromuri,et al.Overview of the Medical Tasks in ImageCLEF 2016[C]//Clef Working Notes,2016:1096-1104.
[12]Lecun Y,B Boser,J S Denker,et al.Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Computation,1989,1(4):541-551.
[13]Deng J,W Dong,R Socher,et al.ImageNet:A Large-scale Hierarchical Image Database[C]//Computer Vision and Pattern Recognition,2009:1007-1014.
[14]Krizhevsky A,I Sutskever,G E Hinton.ImageNet Classification with Deep Convolutional Neural Networks[C]//International Conference on Neural Information Processing Systems,2012:1345-1352.
[15]Zeiler M D,R Fergus.Visualizing and Understanding Convolutional Networks[C]//European Conference on Computer Vison,2014:818-833.
[16]Simonyan K,A Zisserman.Very Deep Convolutional Networks for Large-Scale Image Recognition[C]//Asian Conference on Pattern Recognition,2014:818-833.
[17]Szegedy C,W Liu,Y Jia,et al.Going Deeper with Convolutions[C]//Conference on Computer Vision and Pattern Recognition,2014:1-9.
[18]He K,X Zhang,S Ren,et al.Deep Residual Learning for Image Recognition[J].Conference on Computer Vision and Pattern Recognition,2016:770-778.
[19]翁雨辰,田野,路敦民.深度區(qū)域網(wǎng)絡(luò)方法的細(xì)粒度圖像分類[J].中國(guó)圖象圖形學(xué)報(bào),2017,22(11):1521-1531.
[20]Hinton G E,N Srivastava,A Krizhevsky,et al.Improving Neural Networks By Preventing Co-adaptation of Feature Detectors[J].Computer Science,2012,3(4):212-223.
[21]Olah C,Mordvintsev A,Schubert L.Feature Visualization[EB/OL].https://distill.pub/2017/feature-visualization/,2017-11-07.
(責(zé)任編輯:郭沫含)