雷雨晴,楊 楠,冉 勇,閆 宇
(1.大連民族大學(xué) a.計(jì)算機(jī)科學(xué)與工程學(xué)院;b.大連市漢字計(jì)算機(jī)字庫設(shè)計(jì)技術(shù)創(chuàng)新中心, 遼寧 大連 116650;2.德江儺堂戲博物館,貴州 銅仁 565200)
視覺顯著性檢測是通過模擬人類視覺來提取圖像顯著區(qū)域的算法,在圖像重定位、圖像自動裁剪、圖像壓縮和目標(biāo)識別領(lǐng)域具有重要的應(yīng)用。1998年Itti等從視覺心理學(xué)對人類自下而上的視覺選擇性注意過程進(jìn)行研究并提出了顯著性檢測模型[1]。顯著性目標(biāo)檢測方法可分為傳統(tǒng)顯著性檢測方法和基于深度學(xué)習(xí)的顯著性檢測方法。傳統(tǒng)顯著性檢測方法研究中,Liu等提出將顯著性檢測定義為二元分割問題[2], Zhang L等利用背景和前景區(qū)分,進(jìn)而構(gòu)建圖層排序的顯著性檢測方法[3], Hou X等通過觀察圖片背景的特征分布和屬性,通過剔除圖像背景信息得到顯著區(qū)域[4]。深度學(xué)習(xí)的顯著性方法研究中又分為傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法和完全卷積神經(jīng)網(wǎng)絡(luò)方法。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法中,Wang L等提出了一種結(jié)合局部估計(jì)和全局搜索的顯著性檢測算法[5],Li G等將嵌套窗口中提取的多尺度CNN特征與具有多個(gè)完全連接層的深度神經(jīng)網(wǎng)絡(luò)結(jié)合將圖像分為三個(gè)區(qū)域再對他們進(jìn)行特征提取而后進(jìn)行整和[6]。完全卷積神經(jīng)網(wǎng)絡(luò)中,Wu R等提出以VGG16作為基礎(chǔ)網(wǎng)絡(luò)附加互學(xué)習(xí)模塊、邊緣模塊和解碼模塊的模型[7],Wang W等通過完整的迭代前饋和反饋策略擴(kuò)展深度顯著性目標(biāo)檢測(Salient Object Detection,SOD)模型,使其足夠通用和靈活,涵蓋大多數(shù)其他基于全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)的顯著性模型[8], Liu J J等人基于U形結(jié)構(gòu)的模型[9]。
顯著性檢測在文物圖像縮略圖生成時(shí)具有重要作用。在文物系統(tǒng)展示中需要對大量的文物圖像進(jìn)行剪切顯著性區(qū)域,這些需要大量人工進(jìn)行。本文通過分析文物圖像的背景屬性和規(guī)律,提出了一種基于注意力機(jī)制的文物圖像顯著性檢測方法。
自2014年以來,深度學(xué)習(xí)在顯著性檢測方向以其優(yōu)異的性能,證明了其在顯著性檢測方向的可行性。然而,深層網(wǎng)絡(luò)在面對如書畫類文物圖像這樣圖像特征多樣化的情況下,現(xiàn)有的深度學(xué)習(xí)方法很難區(qū)分對象邊界和周圍相似區(qū)域域的像素,因此深層網(wǎng)絡(luò)可能會輸出高度模糊且邊界不準(zhǔn)確的顯著圖。2017年pinghu等提出了一個(gè)深層次的“層次集”(Deep Level Sets)網(wǎng)絡(luò)來生成緊湊而統(tǒng)一的顯著性圖,即DLS[10]。DLS模型主要包括基于CNN的VGG16網(wǎng)絡(luò)、超像素過濾(GSF)層和重量函數(shù)(HF)三個(gè)部分。首先原始圖像通過基于CNN的VGG16網(wǎng)絡(luò),并輸出全分辨率的粗略顯著圖像,于此同時(shí)對原始圖像使用gSLICr進(jìn)行超像素分割,統(tǒng)一輸入到超像素過濾層,最后使用重量函數(shù)將GSF層的輸出轉(zhuǎn)換為最終顯著圖。但作用于文物圖像時(shí)會存在不足。
(1)當(dāng)文物圖像較為復(fù)雜,前景背景差異較小的情況下,基于CNN的VGG16網(wǎng)絡(luò)處理得到的粗略顯著圖會過于模糊,即使經(jīng)過與超像素結(jié)果優(yōu)化,得到的效果依舊不好。
(2)文物圖像中會存在如圖1a這類圖像,圖像邊緣會有邊框?qū)⑵洳糠滞怀?,但對于網(wǎng)絡(luò)模型來說只能得出如圖1b的結(jié)果。
a)邊緣突出類圖像 b)預(yù)測結(jié)果 圖1 邊緣突出類圖像及其預(yù)測結(jié)果
針對上文提到的問題,在DLS的基礎(chǔ)上對其進(jìn)行修改。
(1)基于CNN的VGG16網(wǎng)絡(luò)部分。首先使用膨脹的卷積層替換了最后三個(gè)Max-pooling層,并最后一個(gè)完全連接的層更改為卷積層和Sigmoid層,以便網(wǎng)絡(luò)獲取RGB圖像224×224。作為輸入并產(chǎn)生56×56。最后,添加沒有學(xué)習(xí)參數(shù)的上采樣層,以將圖像縮放到全分辨率。
由于后續(xù)算法中使用了水平集的方法,因此將卷積神經(jīng)網(wǎng)絡(luò)輸出的顯著性值線性的轉(zhuǎn)移至[-0.5,0.5]并將其視為水平集。
(2)超像素過濾(GSF)層部分。在CNN網(wǎng)絡(luò)運(yùn)算的過程中,利用gSLICr將圖像分割為400×500個(gè)超像素,而后將其與CNN網(wǎng)絡(luò)產(chǎn)生后轉(zhuǎn)換為的水平集一同輸入GSF超像素過濾層。
(3)重量函數(shù)(HF)部分。由于如果使用簡單的Heaviside函數(shù)作用于零水平集,會陷入局部最小值。為解決這種問題,采用了文獻(xiàn)中提出的近似重載函數(shù)(AHF),該函數(shù)作用于所有的水平曲線并趨向于尋找一個(gè)全局最小化器,最終即可得到最終顯著圖。
其次設(shè)定閾值,在最終圖像輸出后對其進(jìn)行判斷,如大于閾值則在處理后重新輸入網(wǎng)絡(luò)。修改后網(wǎng)絡(luò)模型如圖2。
圖2 基于注意力機(jī)制的DLS模型
其中網(wǎng)絡(luò)部分是對稱的編解碼器架構(gòu),編碼器組件基于ResNet-50來提取多級特征,編碼器結(jié)構(gòu)與解碼器結(jié)構(gòu)一一對應(yīng)。A模型為注意力機(jī)制模塊[11],D模塊為自制的判別模塊,C模塊為圖像像素改變模塊。
注意力機(jī)制是通過算法模擬生物觀察這一行為,將內(nèi)部經(jīng)驗(yàn)和外部感覺融合,增加部分區(qū)域觀察仔細(xì)度的一個(gè)機(jī)制。而自注意力機(jī)制是在注意力機(jī)制的基礎(chǔ)上做出改進(jìn),可有效的減少對外部信息的依賴,與注意力機(jī)制相比,自注意力機(jī)制更擅長捕捉特征或數(shù)據(jù)的內(nèi)部相關(guān)性。
在未引入自注意力機(jī)制之前,大多數(shù)用于圖像處理的模型都是用卷積操作堆疊起來的。但這存在一個(gè)明顯的問題,卷積運(yùn)算僅僅關(guān)注整個(gè)圖像的局部區(qū)域,因此通過使用卷積層來建模圖像中的依存關(guān)系是無效的或效果不明顯的。而這導(dǎo)致了一個(gè)后果,對于多類別的數(shù)據(jù)集,哪怕是最新的生成模型,都難以捕捉某些類別中經(jīng)常出現(xiàn)的幾何或結(jié)構(gòu)模式。為了解決這些問題,通常在網(wǎng)絡(luò)中引入自注意力機(jī)制來緩解這一難題。
在卷積神經(jīng)網(wǎng)絡(luò)中,每張圖片初始會由RGB三通道表示出來,之后經(jīng)過不同的卷積核之后,每一個(gè)通道又會生成新的信號,比如圖片特征的每個(gè)通道使用64核卷積,就會產(chǎn)生64個(gè)新通道的矩陣(H,W, 64),其中H,W分別表示圖片特征的高度和寬度每個(gè)通道的特征其實(shí)就表示該圖片在不同卷積核上的分量,類似于時(shí)頻變換,而這里面用卷積核的卷積類似于信號做了傅里葉變換,從而能夠?qū)⑦@個(gè)特征一個(gè)通道的信息給分解成64個(gè)卷積核上的信號分量。
既然每個(gè)信號都可以被分解成核函數(shù)上的分量,產(chǎn)生的新的64個(gè)通道對于關(guān)鍵信息的貢獻(xiàn)肯定有多有少,如果我們給每個(gè)通道上的信號都增加一個(gè)權(quán)重,來代表該通道與關(guān)鍵信息的相關(guān)度的話,這個(gè)權(quán)重越大,則表示相關(guān)度越高,也就是我們越需要去注意的通道了。
模塊的具體結(jié)構(gòu)如圖3。原始圖像通過編譯器,產(chǎn)生了新的特征信號U。U有C個(gè)通道,我們希望通過注意力模塊來學(xué)習(xí)出每個(gè)通道的權(quán)重,從而產(chǎn)生通道域的注意力。該注意力機(jī)制主要分成三個(gè)部分:擠壓(squeeze),激勵(lì)(excitation),以及注意(attention)。
圖3 模塊具體結(jié)構(gòu)圖
當(dāng)文物圖片有邊框突出的情況,進(jìn)行顯著性檢測會將其突出部分視作顯著區(qū)域,因此對于網(wǎng)絡(luò)輸出的顯著圖S,置顯著圖S中顯著點(diǎn)個(gè)數(shù)為nums,總像素個(gè)數(shù)numall,這樣網(wǎng)絡(luò)輸出顯著圖的顯著率rr為
(1)
根據(jù)數(shù)據(jù)集標(biāo)注人員對數(shù)據(jù)集圖像的判斷,最終決定設(shè)置閾值T="80%" ,如果顯著率rr大于閾值T,則會將顯著圖S輸入圖像像素改變模塊。
該模塊主要接收判別模塊傳入的顯著率過大的顯著圖,在接收后會按照圖像寬高比例,去除圖像邊緣區(qū)域,直到得到的矩陣均為如圖1b圖中白色的區(qū)域。而后記錄裁切位置,將裁切后的圖像重新輸入至模型,直至生成的顯著圖的顯著率小于閾值,按照裁切的位置重新生成新的顯著圖像,過程與結(jié)果如圖4。
a)裁剪后圖像 b)最終結(jié)果圖4 邊緣突出類圖像及其預(yù)測結(jié)果
采用人手工標(biāo)注的方法制作逐像素標(biāo)注圖像,對于陶瓷、雕塑和青銅器具等物品展示類的文物圖,顯著目標(biāo)區(qū)域通常為一個(gè)很明顯的區(qū)域,對于這部分的文物圖的標(biāo)注通常是沒有爭議的,可以由一個(gè)人完成。而對于復(fù)雜的書畫類文物圖像,顯著目標(biāo)通常并不明顯,因此該類文物標(biāo)注由三個(gè)人分別完成,標(biāo)注后采取少數(shù)服從多數(shù)的原則,最終決定圖像的標(biāo)注區(qū)域。這兩類的文物圖的標(biāo)注結(jié)果如圖5。
a)物品展示類圖像 b)書畫類圖像圖5 物品展示類和書畫類圖像
與其他顯著性檢測論文相同,本文主要使用定性分析和定量分析的以下三種數(shù)值比較方法,對所提到的文物顯著區(qū)域檢測算法進(jìn)行評估:準(zhǔn)確率(Precision)和召回率(Recall)構(gòu)成的PR曲線、真正率(True Positive Rate)和假正率(False Positive Rate)構(gòu)成的ROC曲線以及F值柱狀圖。
本文從定性和定量兩方面對比傳統(tǒng)顯著性檢測算法與深度學(xué)習(xí)模型,包含的傳統(tǒng)方法有LC算法[12]和SBM算法[13],DLS模型[10]和SCRN模型[14]。
(1)定性分析。對上述對比模型和本模型分別在上述文物數(shù)據(jù)集上進(jìn)行訓(xùn)練,并選取各類型圖像,在多種模型檢測方法內(nèi)得到的對比結(jié)果如圖6。
從圖6中前四幅圖的對比結(jié)果可以看出深度學(xué)習(xí)的算法要優(yōu)于傳統(tǒng)算法,但是在最后一幅圖這樣有存在明顯邊框的圖像中基于深度學(xué)習(xí)的算法會將邊框突出部分認(rèn)為顯著區(qū)域,而不會像傳統(tǒng)方法那樣依次計(jì)算每個(gè)像素點(diǎn)的顯著值。從以上對比可以看出,在手工標(biāo)注的圖像顯著區(qū)域數(shù)據(jù)集中,相較于其他方法,本文提出的方法能夠更好的檢測出圖像顯著區(qū)域。
(2)定量分析。為上述方法在手工標(biāo)注的文物圖像顯著性數(shù)據(jù)集的準(zhǔn)確率和召回率構(gòu)成的P-R曲線如圖7。P-R曲線就是精確率precision vs召回率recall曲線,以recall作為橫坐標(biāo)軸,precision作為縱坐標(biāo)軸。可以合理的評估檢測算法在輸入圖像上的運(yùn)行效果,是計(jì)算機(jī)視覺領(lǐng)域中最常用的評估方法。準(zhǔn)確率是指顯著性算法正確檢測出來的顯著性像素的總數(shù)與檢測到的像素總數(shù)的比率;召回率是指正確檢測出來的顯著性像素個(gè)數(shù)占標(biāo)準(zhǔn)集中顯著性像素總數(shù)的比率。
圖6 文物圖像數(shù)據(jù)對比結(jié)果
圖7 P-R曲線
真正值率和假正值率構(gòu)成的ROC曲線如圖8。ROC曲線的全稱是ReceiverOperating Chara-cteristic Curve,中文名字叫“受試者工作特征曲線”,和PR曲線皆為類別不平衡問題中常用的評估方法,二者既有相同也有不同點(diǎn)。ROC曲線常用于二分類問題中的模型比較,主要表現(xiàn)為一種真正例率 (TPR) 和假正例率 (FPR) 的權(quán)衡。其中,真正類率(True Postive Rate)代表分類器預(yù)測的正類中實(shí)際正實(shí)例占所有正實(shí)例的比例,負(fù)正類率(False Postive Rate)代表分類器預(yù)測的正類中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例。
F值柱狀圖如圖9。對于一個(gè)性能優(yōu)越的檢測算法來說,應(yīng)該同時(shí)具備良好的準(zhǔn)確率和召回率。但在實(shí)際情況中,通常是準(zhǔn)確率的提高就意味著召回率的下降,反之亦然。綜合了P和R的結(jié)果,而當(dāng)F較高時(shí)則能說明試驗(yàn)方法比較有效,見表1。
圖8 ROC曲線
圖9 F值柱狀圖
表1 對比結(jié)果
本文詳細(xì)的介紹了基于視覺顯著性的文物顯著區(qū)域提取方法。根據(jù)DLS顯著性檢測模型在文物數(shù)據(jù)集中存在的問題,對DLS模型部分功能進(jìn)行修改,使其在上文中的文物數(shù)據(jù)集進(jìn)行訓(xùn)練并與現(xiàn)有比較經(jīng)典的視覺顯著性檢測算法結(jié)果進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明:本文提出的檢測方法對于圖像顯著性區(qū)域的檢測非常有效。
大連民族大學(xué)學(xué)報(bào)2023年1期