一種基于注意力機(jī)制的文物圖像顯著性檢測方法

2023-03-15 03:50:46雷雨晴

大連民族大學(xué)學(xué)報(bào) 2023年1期

雷雨晴，楊楠，冉勇，閆宇

(1.大連民族大學(xué) a.計(jì)算機(jī)科學(xué)與工程學(xué)院；b.大連市漢字計(jì)算機(jī)字庫設(shè)計(jì)技術(shù)創(chuàng)新中心，遼寧大連 116650；2.德江儺堂戲博物館，貴州銅仁 565200)

視覺顯著性檢測是通過模擬人類視覺來提取圖像顯著區(qū)域的算法，在圖像重定位、圖像自動裁剪、圖像壓縮和目標(biāo)識別領(lǐng)域具有重要的應(yīng)用。1998年Itti等從視覺心理學(xué)對人類自下而上的視覺選擇性注意過程進(jìn)行研究并提出了顯著性檢測模型[1]。顯著性目標(biāo)檢測方法可分為傳統(tǒng)顯著性檢測方法和基于深度學(xué)習(xí)的顯著性檢測方法。傳統(tǒng)顯著性檢測方法研究中，Liu等提出將顯著性檢測定義為二元分割問題[2]， Zhang L等利用背景和前景區(qū)分，進(jìn)而構(gòu)建圖層排序的顯著性檢測方法[3]， Hou X等通過觀察圖片背景的特征分布和屬性，通過剔除圖像背景信息得到顯著區(qū)域[4]。深度學(xué)習(xí)的顯著性方法研究中又分為傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法和完全卷積神經(jīng)網(wǎng)絡(luò)方法。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法中，Wang L等提出了一種結(jié)合局部估計(jì)和全局搜索的顯著性檢測算法[5]，Li G等將嵌套窗口中提取的多尺度CNN特征與具有多個(gè)完全連接層的深度神經(jīng)網(wǎng)絡(luò)結(jié)合將圖像分為三個(gè)區(qū)域再對他們進(jìn)行特征提取而后進(jìn)行整和[6]。完全卷積神經(jīng)網(wǎng)絡(luò)中，Wu R等提出以VGG16作為基礎(chǔ)網(wǎng)絡(luò)附加互學(xué)習(xí)模塊、邊緣模塊和解碼模塊的模型[7]，Wang W等通過完整的迭代前饋和反饋策略擴(kuò)展深度顯著性目標(biāo)檢測(Salient Object Detection,SOD)模型，使其足夠通用和靈活，涵蓋大多數(shù)其他基于全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)的顯著性模型[8]， Liu J J等人基于U形結(jié)構(gòu)的模型[9]。

顯著性檢測在文物圖像縮略圖生成時(shí)具有重要作用。在文物系統(tǒng)展示中需要對大量的文物圖像進(jìn)行剪切顯著性區(qū)域，這些需要大量人工進(jìn)行。本文通過分析文物圖像的背景屬性和規(guī)律，提出了一種基于注意力機(jī)制的文物圖像顯著性檢測方法。

自2014年以來，深度學(xué)習(xí)在顯著性檢測方向以其優(yōu)異的性能，證明了其在顯著性檢測方向的可行性。然而，深層網(wǎng)絡(luò)在面對如書畫類文物圖像這樣圖像特征多樣化的情況下，現(xiàn)有的深度學(xué)習(xí)方法很難區(qū)分對象邊界和周圍相似區(qū)域域的像素，因此深層網(wǎng)絡(luò)可能會輸出高度模糊且邊界不準(zhǔn)確的顯著圖。2017年pinghu等提出了一個(gè)深層次的“層次集”(Deep Level Sets)網(wǎng)絡(luò)來生成緊湊而統(tǒng)一的顯著性圖，即DLS[10]。DLS模型主要包括基于CNN的VGG16網(wǎng)絡(luò)、超像素過濾(GSF)層和重量函數(shù)(HF)三個(gè)部分。首先原始圖像通過基于CNN的VGG16網(wǎng)絡(luò)，并輸出全分辨率的粗略顯著圖像，于此同時(shí)對原始圖像使用gSLICr進(jìn)行超像素分割，統(tǒng)一輸入到超像素過濾層，最后使用重量函數(shù)將GSF層的輸出轉(zhuǎn)換為最終顯著圖。但作用于文物圖像時(shí)會存在不足。

(1)當(dāng)文物圖像較為復(fù)雜，前景背景差異較小的情況下，基于CNN的VGG16網(wǎng)絡(luò)處理得到的粗略顯著圖會過于模糊，即使經(jīng)過與超像素結(jié)果優(yōu)化，得到的效果依舊不好。

(2)文物圖像中會存在如圖1a這類圖像，圖像邊緣會有邊框?qū)⑵洳糠滞怀?，但對于網(wǎng)絡(luò)模型來說只能得出如圖1b的結(jié)果。

a)邊緣突出類圖像 b)預(yù)測結(jié)果圖1 邊緣突出類圖像及其預(yù)測結(jié)果

2 本文方法

2.1 DLS模型

針對上文提到的問題，在DLS的基礎(chǔ)上對其進(jìn)行修改。

(1)基于CNN的VGG16網(wǎng)絡(luò)部分。首先使用膨脹的卷積層替換了最后三個(gè)Max-pooling層，并最后一個(gè)完全連接的層更改為卷積層和Sigmoid層，以便網(wǎng)絡(luò)獲取RGB圖像224×224。作為輸入并產(chǎn)生56×56。最后，添加沒有學(xué)習(xí)參數(shù)的上采樣層，以將圖像縮放到全分辨率。

由于后續(xù)算法中使用了水平集的方法，因此將卷積神經(jīng)網(wǎng)絡(luò)輸出的顯著性值線性的轉(zhuǎn)移至[-0.5,0.5]并將其視為水平集。

(2)超像素過濾(GSF)層部分。在CNN網(wǎng)絡(luò)運(yùn)算的過程中，利用gSLICr將圖像分割為400×500個(gè)超像素，而后將其與CNN網(wǎng)絡(luò)產(chǎn)生后轉(zhuǎn)換為的水平集一同輸入GSF超像素過濾層。

(3)重量函數(shù)(HF)部分。由于如果使用簡單的Heaviside函數(shù)作用于零水平集，會陷入局部最小值。為解決這種問題，采用了文獻(xiàn)中提出的近似重載函數(shù)(AHF)，該函數(shù)作用于所有的水平曲線并趨向于尋找一個(gè)全局最小化器，最終即可得到最終顯著圖。

其次設(shè)定閾值，在最終圖像輸出后對其進(jìn)行判斷，如大于閾值則在處理后重新輸入網(wǎng)絡(luò)。修改后網(wǎng)絡(luò)模型如圖2。

圖2 基于注意力機(jī)制的DLS模型

其中網(wǎng)絡(luò)部分是對稱的編解碼器架構(gòu)，編碼器組件基于ResNet-50來提取多級特征，編碼器結(jié)構(gòu)與解碼器結(jié)構(gòu)一一對應(yīng)。A模型為注意力機(jī)制模塊[11]，D模塊為自制的判別模塊，C模塊為圖像像素改變模塊。

2.2 注意力機(jī)制模塊

注意力機(jī)制是通過算法模擬生物觀察這一行為，將內(nèi)部經(jīng)驗(yàn)和外部感覺融合，增加部分區(qū)域觀察仔細(xì)度的一個(gè)機(jī)制。而自注意力機(jī)制是在注意力機(jī)制的基礎(chǔ)上做出改進(jìn)，可有效的減少對外部信息的依賴，與注意力機(jī)制相比，自注意力機(jī)制更擅長捕捉特征或數(shù)據(jù)的內(nèi)部相關(guān)性。

在未引入自注意力機(jī)制之前，大多數(shù)用于圖像處理的模型都是用卷積操作堆疊起來的。但這存在一個(gè)明顯的問題，卷積運(yùn)算僅僅關(guān)注整個(gè)圖像的局部區(qū)域，因此通過使用卷積層來建模圖像中的依存關(guān)系是無效的或效果不明顯的。而這導(dǎo)致了一個(gè)后果，對于多類別的數(shù)據(jù)集，哪怕是最新的生成模型，都難以捕捉某些類別中經(jīng)常出現(xiàn)的幾何或結(jié)構(gòu)模式。為了解決這些問題，通常在網(wǎng)絡(luò)中引入自注意力機(jī)制來緩解這一難題。

在卷積神經(jīng)網(wǎng)絡(luò)中，每張圖片初始會由RGB三通道表示出來，之后經(jīng)過不同的卷積核之后，每一個(gè)通道又會生成新的信號，比如圖片特征的每個(gè)通道使用64核卷積，就會產(chǎn)生64個(gè)新通道的矩陣(H,W, 64)，其中H，W分別表示圖片特征的高度和寬度每個(gè)通道的特征其實(shí)就表示該圖片在不同卷積核上的分量，類似于時(shí)頻變換，而這里面用卷積核的卷積類似于信號做了傅里葉變換，從而能夠?qū)⑦@個(gè)特征一個(gè)通道的信息給分解成64個(gè)卷積核上的信號分量。

既然每個(gè)信號都可以被分解成核函數(shù)上的分量，產(chǎn)生的新的64個(gè)通道對于關(guān)鍵信息的貢獻(xiàn)肯定有多有少，如果我們給每個(gè)通道上的信號都增加一個(gè)權(quán)重，來代表該通道與關(guān)鍵信息的相關(guān)度的話，這個(gè)權(quán)重越大，則表示相關(guān)度越高，也就是我們越需要去注意的通道了。

模塊的具體結(jié)構(gòu)如圖3。原始圖像通過編譯器，產(chǎn)生了新的特征信號U。U有C個(gè)通道，我們希望通過注意力模塊來學(xué)習(xí)出每個(gè)通道的權(quán)重，從而產(chǎn)生通道域的注意力。該注意力機(jī)制主要分成三個(gè)部分：擠壓(squeeze)，激勵(lì)(excitation)，以及注意(attention)。

圖3 模塊具體結(jié)構(gòu)圖

2.3 判別模塊

當(dāng)文物圖片有邊框突出的情況，進(jìn)行顯著性檢測會將其突出部分視作顯著區(qū)域，因此對于網(wǎng)絡(luò)輸出的顯著圖S，置顯著圖S中顯著點(diǎn)個(gè)數(shù)為nums，總像素個(gè)數(shù)numall，這樣網(wǎng)絡(luò)輸出顯著圖的顯著率rr為

(1)

根據(jù)數(shù)據(jù)集標(biāo)注人員對數(shù)據(jù)集圖像的判斷，最終決定設(shè)置閾值T="80%" ，如果顯著率rr大于閾值T，則會將顯著圖S輸入圖像像素改變模塊。

2.4 圖像像素改變模塊

該模塊主要接收判別模塊傳入的顯著率過大的顯著圖，在接收后會按照圖像寬高比例，去除圖像邊緣區(qū)域，直到得到的矩陣均為如圖1b圖中白色的區(qū)域。而后記錄裁切位置，將裁切后的圖像重新輸入至模型，直至生成的顯著圖的顯著率小于閾值，按照裁切的位置重新生成新的顯著圖像，過程與結(jié)果如圖4。

a)裁剪后圖像 b)最終結(jié)果圖4 邊緣突出類圖像及其預(yù)測結(jié)果

3 實(shí)驗(yàn)結(jié)果與分析

采用人手工標(biāo)注的方法制作逐像素標(biāo)注圖像，對于陶瓷、雕塑和青銅器具等物品展示類的文物圖，顯著目標(biāo)區(qū)域通常為一個(gè)很明顯的區(qū)域，對于這部分的文物圖的標(biāo)注通常是沒有爭議的，可以由一個(gè)人完成。而對于復(fù)雜的書畫類文物圖像，顯著目標(biāo)通常并不明顯，因此該類文物標(biāo)注由三個(gè)人分別完成，標(biāo)注后采取少數(shù)服從多數(shù)的原則，最終決定圖像的標(biāo)注區(qū)域。這兩類的文物圖的標(biāo)注結(jié)果如圖5。

a)物品展示類圖像 b)書畫類圖像圖5 物品展示類和書畫類圖像

3.1 評估方法

與其他顯著性檢測論文相同，本文主要使用定性分析和定量分析的以下三種數(shù)值比較方法，對所提到的文物顯著區(qū)域檢測算法進(jìn)行評估：準(zhǔn)確率(Precision)和召回率(Recall)構(gòu)成的PR曲線、真正率(True Positive Rate)和假正率(False Positive Rate)構(gòu)成的ROC曲線以及F值柱狀圖。

3.2 性能評估

本文從定性和定量兩方面對比傳統(tǒng)顯著性檢測算法與深度學(xué)習(xí)模型，包含的傳統(tǒng)方法有LC算法[12]和SBM算法[13]，DLS模型[10]和SCRN模型[14]。

(1)定性分析。對上述對比模型和本模型分別在上述文物數(shù)據(jù)集上進(jìn)行訓(xùn)練，并選取各類型圖像，在多種模型檢測方法內(nèi)得到的對比結(jié)果如圖6。

從圖6中前四幅圖的對比結(jié)果可以看出深度學(xué)習(xí)的算法要優(yōu)于傳統(tǒng)算法，但是在最后一幅圖這樣有存在明顯邊框的圖像中基于深度學(xué)習(xí)的算法會將邊框突出部分認(rèn)為顯著區(qū)域，而不會像傳統(tǒng)方法那樣依次計(jì)算每個(gè)像素點(diǎn)的顯著值。從以上對比可以看出，在手工標(biāo)注的圖像顯著區(qū)域數(shù)據(jù)集中，相較于其他方法，本文提出的方法能夠更好的檢測出圖像顯著區(qū)域。

(2)定量分析。為上述方法在手工標(biāo)注的文物圖像顯著性數(shù)據(jù)集的準(zhǔn)確率和召回率構(gòu)成的P-R曲線如圖7。P-R曲線就是精確率precision vs召回率recall曲線，以recall作為橫坐標(biāo)軸，precision作為縱坐標(biāo)軸。可以合理的評估檢測算法在輸入圖像上的運(yùn)行效果，是計(jì)算機(jī)視覺領(lǐng)域中最常用的評估方法。準(zhǔn)確率是指顯著性算法正確檢測出來的顯著性像素的總數(shù)與檢測到的像素總數(shù)的比率；召回率是指正確檢測出來的顯著性像素個(gè)數(shù)占標(biāo)準(zhǔn)集中顯著性像素總數(shù)的比率。

圖6 文物圖像數(shù)據(jù)對比結(jié)果

圖7 P-R曲線

真正值率和假正值率構(gòu)成的ROC曲線如圖8。ROC曲線的全稱是ReceiverOperating Chara-cteristic Curve，中文名字叫“受試者工作特征曲線”，和PR曲線皆為類別不平衡問題中常用的評估方法，二者既有相同也有不同點(diǎn)。ROC曲線常用于二分類問題中的模型比較，主要表現(xiàn)為一種真正例率 (TPR) 和假正例率 (FPR) 的權(quán)衡。其中，真正類率(True Postive Rate)代表分類器預(yù)測的正類中實(shí)際正實(shí)例占所有正實(shí)例的比例，負(fù)正類率(False Postive Rate)代表分類器預(yù)測的正類中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例。

F值柱狀圖如圖9。對于一個(gè)性能優(yōu)越的檢測算法來說，應(yīng)該同時(shí)具備良好的準(zhǔn)確率和召回率。但在實(shí)際情況中，通常是準(zhǔn)確率的提高就意味著召回率的下降，反之亦然。綜合了P和R的結(jié)果，而當(dāng)F較高時(shí)則能說明試驗(yàn)方法比較有效,見表1。

圖8 ROC曲線

圖9 F值柱狀圖

表1 對比結(jié)果

4 總結(jié)

本文詳細(xì)的介紹了基于視覺顯著性的文物顯著區(qū)域提取方法。根據(jù)DLS顯著性檢測模型在文物數(shù)據(jù)集中存在的問題，對DLS模型部分功能進(jìn)行修改，使其在上文中的文物數(shù)據(jù)集進(jìn)行訓(xùn)練并與現(xiàn)有比較經(jīng)典的視覺顯著性檢測算法結(jié)果進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明：本文提出的檢測方法對于圖像顯著性區(qū)域的檢測非常有效。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡