內(nèi)容自適應(yīng)超像素分割網(wǎng)絡(luò)?

2024-01-23 13:38黃睿徐斌

計算機與數(shù)字工程 2023年10期

黃睿徐斌

（中國石油大學(xué)（華東）計算機科學(xué)與技術(shù)學(xué)院青島 266580）

1 引言

超像素分割是一種將圖像分割成在顏色和其他低級特征上具有可比性的圖像部分的技術(shù)。與像素相比，超像素可以更有效地表示圖像信息。這種簡潔的形式可以大大提高視覺相關(guān)算法的計算效率［1～3］。超像素分割通常用于執(zhí)行圖像處理之前的預(yù)處理步驟。在密集分割領(lǐng)域結(jié)合超像素可以在檢測對象邊界的同時減少處理時間和內(nèi)存消耗。在與圖相關(guān)的領(lǐng)域中緊湊和規(guī)則的超像素可以產(chǎn)生更好的結(jié)果。因此，超像素性能的三個關(guān)鍵標(biāo)準(zhǔn)：1）粘附邊界的能力，也稱準(zhǔn)確度；2）規(guī)則與緊湊性；3）計算速度。

由于采樣設(shè)備的采樣精度不斷提高，高分辨率圖像變得越來越普遍，對高精度圖像的計算機視覺應(yīng)用的需求也在增加。超像素作為一種有效地最小化圖像基元數(shù)量以供未來處理的方法，已廣泛應(yīng)用于計算機視覺的各個領(lǐng)域，例如語義分割［4］、目標(biāo)檢測［5］、顯著目標(biāo)檢測［1，6～7］和光流估計［8～10］。

超像素分割通常是先將圖像劃分為網(wǎng)格單元，然后估計每個像素和其附近網(wǎng)格單元的隸屬度，然后對它們進(jìn)行分組。傳統(tǒng)的超像素生成方法通常采用手工特征、基于聚類或基于圖的算法來估計像素與其相鄰像素之間的相關(guān)性［11～15］，但這些方法存在需要手工設(shè)計特征的缺點，并且難以集成到其他可訓(xùn)練的深度框架中。受深度神經(jīng)網(wǎng)絡(luò)在許多計算機問題上的成功啟發(fā)，研究人員最近嘗試將深度學(xué)習(xí)方法應(yīng)用于超像素分割。U-net 架構(gòu)被AINet［16］，SCN［17］和SSN［18］等流行解決方案用于預(yù)測像素與周圍九個單元之間的相關(guān)概率，以了解每個像素與周圍網(wǎng)格單元之間的相關(guān)性從而分配像素。因為可以更好地提取特征，這些基于深度網(wǎng)絡(luò)的方法具有良好的性能。

超像素的特征包括顏色、梯度、紋理、空間、平滑度和尺寸，其中顏色、梯度和紋理特征常用于實現(xiàn)準(zhǔn)確性，而空間、平滑度和尺寸特征常用于管理緊湊性。當(dāng)超像素的邊界趨向于粘附物體的輪廓時，超像素的形狀往往是不規(guī)則的，這導(dǎo)致超像素的精度和緊湊性之間存在一些相互干擾。但是，當(dāng)緊湊性約束太強時，超像素粘附輪廓的能力就會受到損害。在這種情況下追求更高的邊界粘附性會導(dǎo)致圖像中顏色一致、紋理豐富的部分出現(xiàn)不規(guī)則的超像素，例如天空、草原、地面，但這種粘附性毫無意義。追求更高緊湊性時，由于過于緊湊，導(dǎo)致某些信息丟失，或者單個超像素區(qū)域包含多個具有不同語義的像素，影響后續(xù)任務(wù)。這種情況的根本原因在于在這些超像素方法中，基于顏色、梯度和紋理信息的準(zhǔn)確性與基于空間、平滑度和尺寸的緊湊性之間的增強相互平衡。此外，由于生成超像素的約束條件作用于所有像素，因此在準(zhǔn)確性和緊湊性之間總是存在實質(zhì)性的權(quán)衡。

本文提出了一個內(nèi)容自適應(yīng)超像素分割網(wǎng)絡(luò)來處理這個權(quán)衡問題。通過邊緣檢測技術(shù)將圖像劃分為邊界和非邊界區(qū)域，對圖像像素動態(tài)應(yīng)用不同的邊界粘附和緊密度權(quán)重，在邊界區(qū)域中形成具有高邊界粘附性的超像素，而在非邊界區(qū)域中產(chǎn)生具有高緊湊性的超像素。

在BSDS500［19］和NYUv2［20］數(shù)據(jù)集上進(jìn)行定量和定性實驗，結(jié)果表明該方法優(yōu)于當(dāng)前的超像素分割方法。

2 相關(guān)工作

2.1 超像素分割

Ren 和Malik［21］在2003 年提出了超像素分割，從那時起它越來越受歡迎?；趫D的方法和基于聚類的方法是傳統(tǒng)超像素算法的兩種類型。為了構(gòu)建圖結(jié)構(gòu)，基于圖的算法將臨近像素之間的連接強度視為圖的邊。在這種情況下，超像素分割可以被認(rèn)為是一個圖分割問題，如FH［22］和ERS［14］算法。另一方面，基于聚類的算法使用傳統(tǒng)的聚類技術(shù)，如K 均值聚類，計算錨像素與其臨近像素之間的連接性，常見的算法有SLIC［11］、LSC［13］、Manifold-SLIC［15］和SNIC［12］。近年來，深度學(xué)習(xí)技術(shù)的出現(xiàn)鼓勵研究人員嘗試使用深度網(wǎng)絡(luò)來了解每個像素在其周圍網(wǎng)格單元中的隸屬度。Jampani等［18］使用傳統(tǒng)的SLIC 方法創(chuàng)建了第一個可微分的深度網(wǎng)絡(luò)。Yang 等［17］使用FCN 框架進(jìn)一步簡化了超像素生成框架，實現(xiàn)了超像素端到端的創(chuàng)建。Wang等［16］在此基礎(chǔ)上進(jìn)一步提出了一個AI 模塊來提高超像素的精度。

作為弱標(biāo)簽或先驗知識的一種形式，預(yù)先計算的超像素分割有助于眾多下游任務(wù)的實現(xiàn)。通過將超像素集成到深度學(xué)習(xí)管道中作為指導(dǎo)，可以更好地保留一些重要的圖像屬性［23-27］，例如邊界信息。Kwaj等［2］使用超像素分割執(zhí)行區(qū)域池化，提高了池化特征的語義緊湊性。Chen 等［28］使用超像素作為偽標(biāo)簽，通過在圖像中定位額外的語義邊界來改進(jìn)圖片分割。除了幫助圖像分割或特征池化之外，超像素還提供了一種靈活的圖像數(shù)據(jù)編碼方式。He 等［1］使用超像素將二維視覺模式轉(zhuǎn)換為一維序列表示，從而允許深度網(wǎng)絡(luò)研究圖像的遠(yuǎn)程上下文以進(jìn)行顯著性檢測。Liu等［29］創(chuàng)建的框架學(xué)習(xí)不同超像素的相似性，然后基于學(xué)習(xí)到的超像素相似性合并元素以構(gòu)建不同的紋理分割區(qū)域。

2.2 內(nèi)容自適應(yīng)超像素

為了克服超像素精度和緊湊性之間的沖突，Ye 等［30］使用了一種兩階段分水嶺方法。首先在第一階段生成具有高邊界粘附性的超像素。此時超像素精度高，但緊湊性低。之后使用梯度、顏色和紋理過濾器來尋找內(nèi)容無意義的區(qū)域，即遠(yuǎn)離圖像邊界的有著相似內(nèi)容的區(qū)域，僅根據(jù)空間屬性重新標(biāo)記這些區(qū)域的邊界像素。在第二階段中根據(jù)新標(biāo)記在內(nèi)容無意義的區(qū)域重新創(chuàng)建緊湊度高的超像素。最終，內(nèi)容有意義區(qū)域中的超像素邊界始終與目標(biāo)的輪廓相關(guān)聯(lián)，而內(nèi)容無意義區(qū)域中的超像素邊界變得緊湊且規(guī)則。盡管內(nèi)容自適應(yīng)超像素解決了準(zhǔn)確性和緊湊性之間的相互約束問題，但兩階段分水嶺技術(shù)仍然需要手工設(shè)計特征，并且難以融入深度網(wǎng)絡(luò)。

2.3 邊緣檢測

邊緣檢測的目的是從自然圖像中提取目標(biāo)的邊界和邊緣，同時保留圖像的主要內(nèi)容并忽略意外特征，這對于圖像分割和目標(biāo)檢測等高級視覺任務(wù)至關(guān)重要。He 等［31］提出了BDCN 網(wǎng)絡(luò)，它是一種用于邊緣檢測的雙向級聯(lián)網(wǎng)絡(luò)。大體思路是假設(shè)真值等于每個尺度的特征圖之和，從真值中減去其他特征圖可以近似作為當(dāng)前特征圖的監(jiān)督信息。研究結(jié)果表明，對不同特征圖的不同尺寸監(jiān)督可以顯著提高邊緣質(zhì)量。

3 方法

在本節(jié)中，將介紹提出的內(nèi)容自適應(yīng)超像素分割網(wǎng)絡(luò)。在3.1 節(jié)，解釋了在規(guī)則網(wǎng)格上直接預(yù)測超像素的方法，在3.2 節(jié)討論了網(wǎng)絡(luò)設(shè)計和基本損失函數(shù)，最后在3.3節(jié)，介紹了內(nèi)容自適應(yīng)模塊。

3.1 在規(guī)則網(wǎng)格中學(xué)習(xí)超像素

為了分割H×W大小的圖像I，一種流行的超像素分割技術(shù)是采用大小為h×w的規(guī)則網(wǎng)格，并將每個網(wǎng)格單元視為初始超像素，或稱為超像素的種子。通過找到一個映射G將每個像素p=(u,v)分配給超像素S=(i,j)。從數(shù)學(xué)的角度，可以將這個映射寫為：如果第(u,v)個像素屬于第(i,j)個超像素，Gs(p)=Gi,j(u,v)=1，否則為0。

實際上，由于像素在分配超像素時只考慮周邊的超像素，將每個像素與每個超像素進(jìn)行比較沒有意義且計算成本很高。因此，將特定像素p的搜索限制在相鄰網(wǎng)格單元的集合Np中，其中|Np|=9。如圖1 所示，對于紅色框中的每個像素p，只考慮綠色框中的9個網(wǎng)格單元進(jìn)行分配。

圖1 對于紅框中的每個像素p，只考慮綠框中的9個網(wǎng)格單元進(jìn)行分配

本文中將使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這種映射。不使用映射G，而是使用軟關(guān)聯(lián)Q??H×W×|Np|來創(chuàng)建可微的目標(biāo)函數(shù)。qs(p)表示一個像素p被分配給它周圍的每個超像素s?Np的概率，其中。最終每個像素被分配給概率最高的網(wǎng)格單元，得到超像素s*=arg maxsqs(p)。

3.2 網(wǎng)絡(luò)設(shè)計和基礎(chǔ)損失函數(shù)

如圖2 所示，本文采用帶有跳層連接的編碼器-解碼器結(jié)構(gòu)來預(yù)測超像素關(guān)聯(lián)映射Q，并使用內(nèi)容自適應(yīng)模塊生成緊湊性因子以引導(dǎo)損失函數(shù)進(jìn)行反向傳播，最后生成內(nèi)容自適應(yīng)像素-超像素關(guān)聯(lián)映射。

圖2 內(nèi)容自適應(yīng)超像素網(wǎng)絡(luò)框架

對輸入圖像I進(jìn)行卷積以獲得像素嵌入E??H×W×D，然后將其提供給編碼器模塊以生成被稱為超像素嵌入的特征圖C??h×w×D′，超像素嵌入對網(wǎng)格單元的特征進(jìn)行了精確編碼，其中h=H/S，w=W/S，S是超像素采樣間隔。像素p的像素嵌入為ep??D。使用兩個3×3 卷積運算對超像素嵌入C進(jìn)行擴(kuò)展，生成植入過程所需的特征圖，然后將超像素嵌入提供給解碼器模塊以重新組裝成像素嵌入E′。AI 模塊接收超像素嵌入C′和重構(gòu)像素嵌入E′，并將超像素嵌入植入到像素嵌入中。具體來說，對于像素p從左到右，從上到下選擇其9 個相鄰超像素嵌入，使用3×3 卷積自適應(yīng)展開，并在像素周圍直接植入適當(dāng)?shù)某袼厍度?，其中w和b是卷積的權(quán)重和偏差。使用式（1）和式（2），遍歷E中的所有像素嵌入以創(chuàng)建新的像素嵌入。最后，使用softmax生成像素-超像素關(guān)聯(lián)映射Q。

f(p)表示希望超像素保留的像素屬性，例如顏色、紋理和其他特征，而l(p)=[x,y] 表示像素p的圖像坐標(biāo)。給定關(guān)聯(lián)映射Q的任何超像素的中心cs=(us,ls)可以如下所示計算，其中us是屬性向量，ls是位置向量。

對于任何像素p，其重構(gòu)的屬性和坐標(biāo)為

重構(gòu)損失如下：

其中，CE是交叉熵距離度量，S是超像素采用間隔，m是平衡這兩項的權(quán)重。

圍繞像素嵌入圖E的邊界對一系列指定大小（如5×5）的補丁B??K×K×D進(jìn)行采樣，幫助網(wǎng)絡(luò)適當(dāng)?shù)胤峙溥吔缰車南袼亍榱撕喕蝿?wù)，補丁B僅覆蓋來自兩個語義區(qū)域的像素，即B={f1,…,fm,g1,…,gn}，其中f,g??D，m+n=K2。然后使用分類方法將來自同一類別的特征更緊密地結(jié)合在一起，同時保持有著不同標(biāo)簽的嵌入分開?；诜诸惖膿p失通過將特征均勻地分為兩組來提高對不同語義特征的識別：

其中μf1是f1的平均表示，函數(shù)sim(?,?)是兩個向量的相似性度量：

考慮到所有采樣的補丁Bs，邊界感知損失為

3.3 內(nèi)容自適應(yīng)模塊

盡管可以通過修改權(quán)重m的值來改變網(wǎng)絡(luò)生成的超像素的準(zhǔn)確性和緊湊性之間的比率，但這種調(diào)整會對全局產(chǎn)生影響。過高的權(quán)重會使生成的超像素難以匹配圖像的邊界，導(dǎo)致每個超像素中具有多個不同的語義信息。另一方面，權(quán)重過小會在遠(yuǎn)離邊界的區(qū)域產(chǎn)生非常不均勻和不緊湊的超像素，即使它們具有相似的特性，也會降低超像素的便利性和結(jié)構(gòu)。通過一個緊湊性因子來動態(tài)改變損失函數(shù)中的緊密度權(quán)重，以使網(wǎng)絡(luò)能夠根據(jù)圖片內(nèi)容自適應(yīng)地權(quán)衡準(zhǔn)確度和緊密度的權(quán)重。

預(yù)期生成的超像素將表現(xiàn)出良好的邊界粘附性，即在圖像邊界附近具有很高的精度，而由于遠(yuǎn)離邊界的內(nèi)部區(qū)域的圖像特征相似，因此生成規(guī)則且緊湊的超像素以保留圖像的空間信息。基于這個概念將圖像分為兩組：邊界區(qū)域和非邊界區(qū)域，并為每個區(qū)域分配不同的緊湊性因子。為了提取圖片的區(qū)域劃分，應(yīng)用邊緣檢測技術(shù)來處理輸入圖像，得到圖像的邊緣特征圖M??H×W。由于需要使用特征圖作為動態(tài)權(quán)重來指導(dǎo)準(zhǔn)確性和緊湊性，對生成的邊緣特征圖進(jìn)行標(biāo)準(zhǔn)化操作。此外，為了保證邊界區(qū)域依舊考慮一定的緊湊性，非邊界區(qū)域依舊考慮一定的精度，對動態(tài)權(quán)重的上下限進(jìn)行了一定的限制。最后計算出權(quán)重因子，其中表示每個像素p的權(quán)重（在本文中

在本文中使用邊緣檢測網(wǎng)絡(luò)BDCN 來獲取邊緣特征圖M。

結(jié)合內(nèi)容自適應(yīng)模塊的重建損失函數(shù)為

網(wǎng)絡(luò)的總體損失函數(shù)為

4 實驗及結(jié)果分析

4.1 數(shù)據(jù)集

為了測試方法的有效性，本文在兩個公共基線BSDS500［19］和NYUv2［20］上進(jìn)行了試驗。BSDS00 數(shù)據(jù)集共有500張圖像，圖像的尺寸為321×481像素或481×321 像素。因為其具有由各種不同專家標(biāo)記的多個語義標(biāo)簽，可以在這些圖像上進(jìn)行語義分割和邊緣檢測。為了進(jìn)行公平的比較，本文遵循過去的研究方法［16～18，32］并將每個標(biāo)注視為不同的樣本。NYUv2數(shù)據(jù)集是一個室內(nèi)場景理解數(shù)據(jù)集，包含1449 張帶有對象實例標(biāo)簽的圖像。Stutz 等［33］刪除了邊界周圍未標(biāo)記的區(qū)域，并對大小為608×448像素的400 張測試照片的子集進(jìn)行了超像素評估，以評估超像素方法。在BSDS500 數(shù)據(jù)集上，根據(jù)Yang［17］和Wang［16］的建議運行典型的訓(xùn)練和測試工作流程。在BSDS500 上訓(xùn)練的模型直接應(yīng)用于NYUv2 數(shù)據(jù)集，并在400 個測試數(shù)據(jù)上展示結(jié)果以評估模型的泛化能力。

4.2 實驗細(xì)節(jié)

隨機裁剪的208×208 像素大小的圖像用作訓(xùn)練階段的輸入，網(wǎng)絡(luò)使用Adam 優(yōu)化器［34］進(jìn)行4k 次迭代，批量大小為16。最初學(xué)習(xí)率設(shè)置為8e-5，經(jīng)過2k 次迭代后變?yōu)樵瓉淼囊话搿Ｓ捎诓蓸娱g隔設(shè)置為16，編碼器組件執(zhí)行四次卷積和池化過程以產(chǎn)生13×13×256 大小的超像素嵌入。解碼器組件使用四個卷積和反卷積過程生成形狀為208×208×16 大小的像素嵌入。超像素嵌入經(jīng)過兩次卷積壓縮，然后作為13×13×16 大小的特征圖發(fā)送到AI 模塊。像素嵌入受到補丁大小為5 的邊界感知損失的影響。然后將兩個卷積層結(jié)合起來預(yù)測關(guān)聯(lián)圖Q，其形狀為208×208×9。Wang的方法［16］要求首先使用第一項LCA訓(xùn)練網(wǎng)絡(luò)進(jìn)行3k 次迭代，然后使用邊界感知損失LB對其進(jìn)行1k次迭代微調(diào)。對于位置重建損失，m設(shè)置為0.003/16，對于內(nèi)容自適應(yīng)特征，設(shè)置為[0.3,0.8]。本文使用Yang［17］相同的方法在測試階段產(chǎn)生不同數(shù)量的超像素。

與各種超像素方法進(jìn)行性能比較，包括SLIC［11］、ETPS［35］、ERS［14］、SEEDS［36］等經(jīng)典方法，以及SCN［17］和AINet［16］等深度學(xué)習(xí)方法。使用OpenCV 實現(xiàn)SLIC 和SEEDS。對于其他技術(shù)，則使用其作者推薦的設(shè)置和官方的實現(xiàn)方法。

4.3 評價指標(biāo)

為了分析超像素的性能，本文采用了四個突出的指標(biāo)：可達(dá)到的分割精度（ASA）、邊界召回（BR）、邊界精度（BP）和緊湊性（CO）。ASA 分?jǐn)?shù)是指超像素標(biāo)簽分割性能的上限，而BR和BP分?jǐn)?shù)與超像素模型識別語義邊界的能力有關(guān)。通過將每個超像素的面積與具有相同周長的圓的面積進(jìn)行比較，可以確定超像素的緊密度（CO）。超像素分割性能越好，這些指標(biāo)的值就越高。在Stutz［33］等的文章中，對這些指標(biāo)進(jìn)行了更詳細(xì)的描述和分析。

4.4 結(jié)果分析

在BSDS500 和NYUv2 測試集上的定量比較結(jié)果如圖3～8所示。通過使用深度卷積網(wǎng)絡(luò)，CANet、SCN和AINet方法可以勝過標(biāo)準(zhǔn)的超像素算法。當(dāng)超像素數(shù)量最少時，本文提出的CANet具有更高的ASA分?jǐn)?shù)和略低的CO分?jǐn)?shù)。隨著超像素數(shù)量的增加，ASA分?jǐn)?shù)略微下降，但CO分?jǐn)?shù)卻得到了顯著改善。因為當(dāng)超像素太少時，使邊緣粘附更重要。當(dāng)超像素數(shù)量較多時，每個超像素的像素較少，兩個超像素被邊界分隔的可能性較小，緊湊性更為重要。因此，這種變化符合預(yù)期。在BSDS500數(shù)據(jù)集上，CANet 可以顯著優(yōu)于標(biāo)準(zhǔn)方法，如圖3～5 所示。在BR-BP得分上，CANet也可以超過深度網(wǎng)絡(luò)方法SCN 和AINet。適應(yīng)NYUv2 測試集時的性能見圖6～8。

圖3 數(shù)據(jù)集BSDS500上的ASA分?jǐn)?shù)比較

圖4 數(shù)據(jù)集BSDS500上的BR-BP分?jǐn)?shù)比較

圖5 數(shù)據(jù)集BSDS500上的CO分?jǐn)?shù)比較

圖6 數(shù)據(jù)集NYUv2上的ASA分?jǐn)?shù)比較

圖7 數(shù)據(jù)集NYUv2上的BR-BP分?jǐn)?shù)比較

圖8 數(shù)據(jù)集NYUv2上的CO分?jǐn)?shù)比較

可以看到CANet 也有更好的泛化能力。三種最新方法在數(shù)據(jù)集BSDS500 和NYUv2 上的定性結(jié)果如圖9和圖10所示。相較而言，顯示的結(jié)果確保了非邊界區(qū)域的良好邊界粘附性和更高的緊湊性。該方法的優(yōu)越性在視覺上得到了證明。

圖9 數(shù)據(jù)集BSDS500上的超像素分割結(jié)果

圖10 數(shù)據(jù)集NYUv2上的超像素分割結(jié)果

4.5 推理速度

除了性能之外，推理速度也是一個需要考慮的重要因素。使用BSDS500 數(shù)據(jù)集研究了三種基于深度學(xué)習(xí)的方法的推理效率。本文只計算網(wǎng)絡(luò)推理和后處理過程的時間，以確保比較的公平。所有方法都在同一個工作站上運行，該工作站有一個NVidia GTX TITAN X GPU和一個Intel E5 CPU。三種基于深度學(xué)習(xí)的方法CANet、AINet 和SCN 的時間成本如圖11 所示。由于SCN 方法具有簡單的架構(gòu)，因此它是解決推理問題的最有效方法。由于在AINet 中添加了更多的層和進(jìn)程，推理速度比SCN略慢。CANet介于二者之間。

圖11 三種基于深度學(xué)習(xí)的方法的平均時間成本

5 結(jié)語

本文提出了一個內(nèi)容自適應(yīng)超像素分割網(wǎng)絡(luò)，可用于生成粘附邊界的超像素，并且在遠(yuǎn)離邊界的區(qū)域中保持緊湊性，從而降低精度-緊湊性之間的權(quán)衡。在兩個廣泛使用的基準(zhǔn)上的實驗表明，該方法具有出色的性能和效率，以及高度的泛化性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡