董俊杰,劉華平,謝珺,續(xù)欣瑩,孫富春
(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600;2.清華大學(xué) 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100084;3.太原理工大學(xué) 電氣與動(dòng)力工程學(xué)院,山西 太原 030024)
近年來,圖像分類[1-2]、目標(biāo)檢測[3-6]、語義分割[7-8]、實(shí)例分割[9-10]等視覺識別任務(wù)取得了巨大的進(jìn)展。計(jì)算機(jī)視覺系統(tǒng)的性能在精度上越來越接近于甚至超過人類水平。盡管如此,人類的視覺系統(tǒng)具有感知物體完整物理結(jié)構(gòu)的能力,即使物體在部分遮擋甚至重度遮擋的情況下也能準(zhǔn)確預(yù)測物體的形狀,這種能力被稱為非模式感知[11](即amodal perception),使得人類對物體的不可見的、被遮擋的部分進(jìn)行推理,針對遮擋有一定的魯棒性,從而僅在部分可見的情況下感知物體完整形狀和語義概念。
在非模式實(shí)例分割[11]的任務(wù)中,amodal masks定義為物體visible masks 和occlusion masks 的并集。預(yù)測amodal mask 和visible mask 可以加深對場景的理解;例如,非模式感知可以使自動(dòng)駕駛汽車能夠在視覺范圍內(nèi)推斷出車輛和行人的整體形狀,即使其中的一部分是看不見的,這能夠顯著降低碰撞的風(fēng)險(xiǎn);還有機(jī)器人在拾取或放置對象時(shí),需要知道對象是否被一個(gè)或多個(gè)其他對象所遮擋,通過對被遮擋部分的感知計(jì)算遮擋區(qū)域,然后指導(dǎo)機(jī)器人朝哪個(gè)方向移動(dòng)或者將某些對象移除,幫助機(jī)器人獲取感興趣對象的完整結(jié)構(gòu)和語義。
預(yù)測物體的不可見部分是非常具有挑戰(zhàn)性的。一個(gè)計(jì)算機(jī)視覺系統(tǒng)如果要感知物體被遮擋、不可見部分的形狀和語義概念,首先需要識別和定位這個(gè)物體,這涉及到了目標(biāo)檢測的技術(shù);第二,需要從可見部分提供的線索去推斷出物體被遮擋部分的最可能外觀特征,并且為物體遮擋部分的像素進(jìn)行標(biāo)記,這涉及到語義分割的技術(shù),與此同時(shí)在此過程中往往會遭受來自附近其他對象實(shí)例信息的誤導(dǎo);第三,實(shí)際上物體往往被多個(gè)不同的實(shí)例遮擋,這將導(dǎo)致被遮擋的對象會處于不同的深度順序中,如何探索對象之間的相對深度順序關(guān)系也給非模式感知帶來很大的困難。
為了有效地完成非模式實(shí)例分割的任務(wù),需要區(qū)分一些容易混淆的類別,并考慮不同外觀的對象。我們可以粗略地將所有對象分為兩類:“Things”和“Stuff”,其中“Things”是感興趣的對象且具有相對規(guī)范的形狀,例如行人、汽車等,“Stuff”可以具有相對任意的范圍,例如樹木、墻壁等。因此,在像素級識別中,有必要提高特征表示的識別能力,充分融合上下文信息,捕獲全局特征。
研究人員基于深度神經(jīng)網(wǎng)絡(luò)對目標(biāo)分割提出了一系列方法,提升了分割算法的精度和靈活性。Jonathan 等[7]提出全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),將CNN 網(wǎng)絡(luò)中的全連接層轉(zhuǎn)化為卷積層,采用反卷積的方法進(jìn)行上采樣,并引入跳躍連接來改善上采樣效果,實(shí)現(xiàn)對圖像中的每個(gè)像素預(yù)測和分類的任務(wù),但是FCN沒有考慮像素之間的關(guān)系,導(dǎo)致分割精度不夠;He 等[9]提出了一種高效的實(shí)例分割框架—Mask-RCNN,該算法通過特征金字塔(feature pyramid network,F(xiàn)PN)和ROI Align 層,極大地提升了算法的精度,但仍然沒有考慮到卷積特征的通道和空間的上下文依賴關(guān)系;Zhang 等[12]提出SLN 模型,該方法完成了非模式實(shí)例分割的任務(wù),引入一種新的表示方法即語義感知距離映射,根據(jù)物體的可見性將物體的不同區(qū)域放置在不同的層次上,進(jìn)而對物體被遮擋部分預(yù)測,盡管實(shí)現(xiàn)了對不可見部分的感知,但是忽略了空間相關(guān)性,使算法缺乏全局上下文語義信息,很容易導(dǎo)致預(yù)測的欠擬合。
在識別物體的時(shí)候,人類的視覺感知通過反饋連接和注意力機(jī)制傳遞高級語義信息,選擇性地增強(qiáng)和抑制神經(jīng)元的激活[13]。然而非模式實(shí)例分割任務(wù)的特點(diǎn)是僅僅從對象的可見部分提供的線索來合理預(yù)測該對象的被遮擋部分,并且被遮擋部分的空間形狀具有不確定性。通過反饋過程和注意力機(jī)制的學(xué)習(xí)建立豐富的全局上下文關(guān)系是非常有幫助的,從而根據(jù)已有的提示推斷出對象最可能的外觀特征。針對以上問題,受人類視覺系統(tǒng)的啟發(fā),為了提高非模式實(shí)例分割中特征表示的鑒別能力和充分聚合上下文信息,本文精心設(shè)計(jì)了一個(gè)反饋?zhàn)⒁饬C(jī)制的特征金字塔結(jié)構(gòu),以及在實(shí)例分割分支引入Context Attention Module。
兩階段實(shí)例分割通常將此任務(wù)描述為“先檢測后分割”。它們通常先檢測到邊界框,然后在每個(gè)邊界框的區(qū)域中執(zhí)行像素分割。FCIS[14]的主要思想是利用全卷積層預(yù)測一組位置敏感的輸出通道,這些通道能夠同時(shí)預(yù)測對象的類別、邊界框和掩碼;Mask R-CNN[9]建立在Faster-RCNN 基礎(chǔ)上,只需添加一個(gè)額外的Mask 分支,并使用ROI Align 層代替ROI 池化操作,以提高精確度;在Mask R-CNN 之后,PANet[15]引入了自底向上的路徑擴(kuò)充、自適應(yīng)特征池化和全連接融合,以提高實(shí)例分割的性能;單階段實(shí)例分割的研究受到了單階段目標(biāo)檢測器的啟發(fā),如YOLACT[10]將圖像分割分成兩個(gè)子任務(wù):原型掩碼(prototype masks) 的生成和預(yù)測每個(gè)實(shí)例掩碼的掩碼系數(shù)(mask coefficients);然后,通過原型掩碼和掩碼系數(shù)的線性組合來生成實(shí)例掩碼;TensorMask[16]研究了在密集滑動(dòng)窗口上的實(shí)例分割,使用結(jié)構(gòu)化的4D 張量來表示空間域上的掩碼;PolarMask[17]提出使用極坐標(biāo)表示對掩碼進(jìn)行編碼,并將逐像素掩碼預(yù)測轉(zhuǎn)換為距離回歸。但這些方法都僅僅預(yù)測對象可見部分的掩碼,而沒有對被遮擋、不可見部分進(jìn)行預(yù)測。
圖像非模式實(shí)例分割的研究才剛剛起步。Zhu 等[11]基于COCO 原始數(shù)據(jù)集為非模式實(shí)例分割提供了一個(gè)新的開創(chuàng)性數(shù)據(jù)集COCO-amodal,并提出了AmodalMask 模型,該模型對于提議的對象候選具有較高的召回率,實(shí)現(xiàn)對物體不可見部分的推理;Zhang 等[12]提出的SLN 模型,引入語義感知距離映射,根據(jù)物體的可見性程度將物體的不同區(qū)域放置在不同的層次上來對物體不可見部分進(jìn)行預(yù)測;Li 等[18]提出的amodal 實(shí)例分割方法,主要通過迭代地將對象的邊界框擴(kuò)大到具有高熱力圖值的方向,并且重新計(jì)算熱力圖來實(shí)現(xiàn)對物體被遮擋部分的預(yù)測;Follmann 等[19]提出ARCNN 模型,該模型基于Mask RCNN,通過擴(kuò)展其預(yù)測分支,分為amodal mask 預(yù)測分支和visible mask 預(yù)測分支,實(shí)現(xiàn)非模式實(shí)例分割;Ehsani 等[20]試圖通過生成對抗網(wǎng)絡(luò)(GAN)來生成物體的不可見部分。
注意力機(jī)制可以建立長期依賴關(guān)系,提高特征表達(dá)能力,并且成為了許多具有挑戰(zhàn)性任務(wù)的有效方法,包括圖像分類、語義和實(shí)例分割等。目前視覺識別領(lǐng)域主要包括3 種注意力機(jī)制的方式:通道注意力機(jī)制、空間注意力機(jī)制和混合注意力機(jī)制。Hu 等[21]提出了SENet 模型,該模型通過在卷積網(wǎng)絡(luò)的不同通道間探索各個(gè)通道的重要程度,從而顯式地建模通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道的特征響應(yīng);Wang 等[22]提出的空間注意力機(jī)制利用特征圖中所有位置的加權(quán)和計(jì)算出一個(gè)特征的響應(yīng),建立起像素之間的上下文依賴關(guān)系;Sanghyun 等[23]提出的混合注意力機(jī)制通過融合通道和空間兩種注意力機(jī)制,充分挖掘全局語義信息,極大地提升了圖像識別的性能。
實(shí)例分割試圖為輸入圖像中的每個(gè)像素獲取類和實(shí)例標(biāo)簽,然而組成每個(gè)實(shí)例的不同像素點(diǎn)之間具有緊密聯(lián)系,同時(shí)有必要區(qū)分相同類別的不同實(shí)例對象,由于注意力機(jī)制可以獲取全局信息,建立上下文長期依賴關(guān)系,因此一些研究引入注意力機(jī)制來提高實(shí)例分割的性能。Cao 等[24]提出了GCNet,引入Context Modeling 和Transform 模塊從而建立一個(gè)輕量級的注意力機(jī)制模型,進(jìn)行全局上下文建模和捕獲通道間的相互依賴,并采用逐像素加法進(jìn)行特征融合,極大提高了實(shí)例分割的效率;FGNet[25]是將一般實(shí)例分割和Few-shot 學(xué)習(xí)范式結(jié)合起來,在Mask-RCNN的各個(gè)關(guān)鍵組件中引入了不同的指導(dǎo)機(jī)制,包括注意力指導(dǎo)RPN,關(guān)系指導(dǎo)檢測器和注意力指導(dǎo)FCN 用于指導(dǎo)基本實(shí)例分割的預(yù)測,能夠更好地適應(yīng)類間泛化;Liu 等[26]提出的Cell r-cnn v3 模型屬于生物醫(yī)學(xué)圖像領(lǐng)域的實(shí)例分割,包含殘差注意力特征融合機(jī)制、掩碼質(zhì)量預(yù)測分支,前者促進(jìn)實(shí)例分支中語義上下文信息的學(xué)習(xí),后者使每個(gè)目標(biāo)的置信度得分與掩碼預(yù)測的質(zhì)量對齊,提高了實(shí)例分割的性能。
以上方法,模仿人類視覺系統(tǒng)引入注意力機(jī)制,通過對全局上下文信息的建模,捕獲遠(yuǎn)程長期依賴關(guān)系,使得實(shí)例分割性能顯著提升;然而對于非模式的實(shí)例分割任務(wù)而言,對被遮擋、不可見區(qū)域的像素點(diǎn)進(jìn)行語義預(yù)測則具有更大的挑戰(zhàn),并且由于需要對物體被遮擋部分進(jìn)行補(bǔ)全,這將導(dǎo)致同一個(gè)像素點(diǎn)可能會分配多個(gè)標(biāo)簽,對提取的特征表達(dá)能力和空間細(xì)節(jié)具有更高的要求。因此,本文工作將注意力機(jī)制引入非模式實(shí)例分割的任務(wù)中,引入反饋連接進(jìn)行再學(xué)習(xí),建立豐富的上下文融合關(guān)系,有選擇地聚合全局信息,顯著提高了預(yù)測的精度,極大地解決了分割欠擬合問題。
鑒別特征表示是圖像理解的關(guān)鍵,它可以通過捕獲遠(yuǎn)程上下文信息來獲得。然而,許多研究表明,由傳統(tǒng)FCN(全卷積網(wǎng)絡(luò))生成的局部特征可能導(dǎo)致“Things”和“Stuff”的錯(cuò)誤分類;與此同時(shí),基于特征金字塔(feature pyramid network,F(xiàn)PN)的分層檢測方法雖然取得了很好的效果,但是FPN 仍然主要對局部特征進(jìn)行建模,并沒有充分考慮全局上下文依賴關(guān)系。
在利用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行特征提取的過程中,高層次特征的每個(gè)通道圖都可以看作是一個(gè)特定于類的響應(yīng),不同的語義響應(yīng)相互關(guān)聯(lián);通過挖掘通道圖之間的相互依賴關(guān)系,強(qiáng)調(diào)特征圖之間的相關(guān)性,提高特定語義的特征表示;與此同時(shí),人腦是具有層級結(jié)構(gòu)的,不僅執(zhí)行從下層到上層的前饋過程,而且執(zhí)行從上層到下層的反饋過程。因此,本文引入反饋過程和注意力機(jī)制來學(xué)習(xí)語義信息,首先構(gòu)建一個(gè)通道注意模塊[27],它可以捕獲通道維度遠(yuǎn)程上下文依賴關(guān)系,然后將通道注意模塊嵌入到FPN 中;第一輪獲取的特征經(jīng)過通道注意模塊建立全局依賴關(guān)系后引入反饋過程進(jìn)行再學(xué)習(xí)提取第二輪的特征,構(gòu)成一個(gè)循環(huán)特征金字塔結(jié)構(gòu),并將兩次提取的特征進(jìn)行自適應(yīng)加權(quán),整體的結(jié)構(gòu)如圖1 所示。
圖1 反饋?zhàn)⒁饬C(jī)制的FPN 結(jié)構(gòu)Fig.1 FPN with feedback attention mechanism
本文基于ResNet101 引入反饋連接的FPN。首先如圖1(a)所示為特征金字塔結(jié)構(gòu)(FPN),左側(cè)為ResNet101 主干網(wǎng)絡(luò),右側(cè)為金字塔網(wǎng)絡(luò),主干網(wǎng)絡(luò)提取圖像特征,然后經(jīng)過自頂向下和橫向連接將每一階段的特征圖進(jìn)行融合。例如,P3層經(jīng)過B3層和P4層融合得到,P4層是B4層經(jīng)過1×1卷積和上采樣得到,具有高級語義信息,而B3層是位于主干網(wǎng)絡(luò)的較淺層,具有底層的細(xì)節(jié)信息。
為了更充分合理地模擬人腦捕獲高級語義信息,本文在原來FPN 結(jié)構(gòu)的基礎(chǔ)上,添加了反饋連接和通道注意模塊,構(gòu)成反饋?zhàn)⒁饬C(jī)制FPN 結(jié)構(gòu),簡記為FCAM-FPN,如圖1(b) 所示。將第一輪FPN 提取的特征,經(jīng)過通道注意模塊建立遠(yuǎn)程依賴關(guān)系后得到的輸出特征,采用反饋連接輸入到主干網(wǎng)絡(luò)得到第二輪FPN 提取的特征,引入了注意力機(jī)制和反饋過程的二次學(xué)習(xí),這樣將捕獲富含注意力的前后兩次特征。
通道注意模塊(channel attention module,CAM)的結(jié)構(gòu)如圖2 所示。我們直接從原始特征圖X∈RC×H×W計(jì)算通道注意圖D∈RC×C,通道注意圖D相當(dāng)于一個(gè)相關(guān)矩陣,它代表了C個(gè)通道之間的相關(guān)性程度。
圖2 通道注意模塊Fig.2 Channel attention module
具體來說,首先將原始特征圖X變換為X∈RC×N,這里N=H×W,然后在X和XT之間執(zhí)行矩陣乘法,最后應(yīng)用Softmax 函數(shù)來獲得通道注意圖D∈RC×C:
式中:dji表示第i個(gè)通道和第j個(gè)通道之間的相關(guān)程度。與此同時(shí),對通道注意圖DT與原始特征圖X變換后的X∈RC×N執(zhí)行矩陣乘法并重新變換為RC×H×W,將此結(jié)果與原始特征圖X執(zhí)行逐元素求和運(yùn)算,以獲得最終輸出特征E∈RC×H×W:
式(1)表明,每個(gè)通道的最終特征與所有通道建立了緊密的相互依賴關(guān)系,通過跳躍連接使得輸出特征表示為所有通道特征和原始特征的和,建立了通道特征圖之間的上下文依賴關(guān)系模型。
接下來將從通道注意模塊(CAM)得到的輸出特征,采用反饋連接,重新輸入到ResNet101 主干網(wǎng)絡(luò)中,進(jìn)行第二次特征提取。假設(shè)Bi表示自底向上主干網(wǎng)絡(luò)的第i級,F(xiàn)i表示自頂而下FPN 操作的第i級,Ri表示經(jīng)過通道注意模塊(CAM)后的輸出特征,那么具有反饋過程的輸出特征fi定義為
式中:x0表示輸入圖像;xi表示主干網(wǎng)絡(luò)經(jīng)過多個(gè)階段生成的輸出特征,fi表示經(jīng)過自頂而下FPN 的輸出特征,i=1,2,···,S,S是主干殘差網(wǎng)絡(luò)的階段數(shù),令fS+1=0。這樣就使得FPN 形成一個(gè)循環(huán)網(wǎng)絡(luò);可將其展開成具有序列的網(wǎng)絡(luò)結(jié)構(gòu),那么此時(shí)輸出特征fi表示為
其中 α 被初始化為0,并逐漸學(xué)習(xí)分配更多的權(quán)重。式(2)表明輸出特征為經(jīng)過通道注意模塊前后兩次FPN 提取到特征的自適應(yīng)加權(quán)和;這樣既可以保留前一次FPN 的信息,又可以充分利用反饋?zhàn)⒁饬C(jī)制再學(xué)習(xí)到的特征表達(dá),建立起通道間的上下文關(guān)系,提取更豐富的語義信息。
為了主動(dòng)捕獲像素之間的語義依賴關(guān)系,引入了基于自注意機(jī)制的上下文注意模塊[28](context attention module,CxAM)。對于非模式實(shí)例分割任務(wù)而言,物體之間的位置關(guān)系復(fù)雜,并且被遮擋部分的外觀具有不確定性?;谶@些特征,CxAM 編碼了一個(gè)像素級別的遠(yuǎn)程上下文依賴關(guān)系,能夠自適應(yīng)地關(guān)注更相關(guān)的區(qū)域。因此,CxAM 的輸出特征將具有全局的語義信息,并包含周圍對象中的上下文關(guān)系。
CxAM 的結(jié)構(gòu)如圖3 所示,本文將CxAM 模塊僅用于Mask head,在語義分割時(shí)用來捕獲像素之間的語義和位置依賴關(guān)系。圖3 中,在給定的特征圖F∈RC×H×W的情況下,分別使用 1×1 卷積層Wm和Wn,按式(3)計(jì)算得到轉(zhuǎn)換后的特征圖為
圖3 上下文注意模塊Fig.3 Context attention module
式中:pji表示第i個(gè)像素與第j個(gè)像素之間的相關(guān)程度。與此同時(shí),另外一條路徑將原始特征圖F∈RC×H×W經(jīng)過一個(gè) 1×1×1 卷積層后得到一個(gè)大小為 1×H×W的特征融合圖,將此特征融合圖變換為C∈RHW×1,將C再經(jīng)過一個(gè)Softmax 函數(shù)得到大小為HW×1 的相關(guān)性矩陣,然后復(fù)制自身大小變?yōu)镼∈RK×K,將Q和P執(zhí)行逐元素求和得到A。
將原始特征圖F∈RC×H×W使用另外一個(gè)1×1卷積層Wb變換為這里B∈RC×K,將B和A執(zhí)行矩陣相乘操作并將其結(jié)果變換為 RC×H×W,原始特征圖F∈RC×H×W經(jīng)過跳躍連接與此結(jié)果執(zhí)行逐元素求和,得到最后的輸出特征圖F′。
經(jīng)過CxAM 模塊后,每個(gè)位置產(chǎn)生的特征F′是跨越所有位置的特征和原始特征的加權(quán)和。因此,它可以有選擇地聚合全局信息,建立上下文依賴關(guān)系,相似的語義特征相互促進(jìn),從而提高了語義一致性。
為了驗(yàn)證本文提出的算法,本節(jié)對改進(jìn)的SLN[12]算法進(jìn)行實(shí)驗(yàn)。采用COCO-amodal 數(shù)據(jù)集對該模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)運(yùn)行環(huán)境為深度學(xué)習(xí)框架Pytorch 0.4.0,操作系統(tǒng)為Ubantu 16.04,Python 3.6,GPU 顯卡型號為NVIDIA GeForce RTX 2 060。
本文采用文獻(xiàn)[11] 中發(fā)布的COCO-amodal 數(shù)據(jù)集。COCO-amodal 數(shù)據(jù)集是由5 072 幅圖像組成的非模式實(shí)例分割數(shù)據(jù)集,其中2 500、1 250和1 322 幅圖像分別用于訓(xùn)練、驗(yàn)證和測試。COCOamodal 數(shù)據(jù)集的注釋包括每個(gè)對象的可見/不可見區(qū)域以及每張圖像中所有對象的相對深度順序,作者沒有將注釋限制為通常的COCO 類,可以為對象指定任意名稱;此外,作者還提供了背景區(qū)域的注釋,這些區(qū)域有時(shí)擴(kuò)展到整個(gè)圖像域,標(biāo)記為“Stuff”。因此COCO-amodal 數(shù)據(jù)集中的所有對象可以分為兩類:“Things”和“Stuff”,其中“Things”是具有規(guī)范形狀的對象,“Stuff”具有一致的視覺外觀,但可以具有任意范圍。
實(shí)驗(yàn)首先利用在COCO2014 數(shù)據(jù)集上預(yù)訓(xùn)練的Mask RCNN 模型來初始化網(wǎng)絡(luò)參數(shù),算法的主干網(wǎng)絡(luò)是ResNet101。在訓(xùn)練區(qū)域提議網(wǎng)絡(luò)(RPN)時(shí),本文對RPN 的網(wǎng)絡(luò)參數(shù)進(jìn)行了適當(dāng)?shù)恼{(diào)整,設(shè)置非最大抑制的閾值為0.6,以便生成更多的區(qū)域提議。模型使用的損失函數(shù)和其他超參數(shù)均按照文獻(xiàn)[12]中描述的策略進(jìn)行設(shè)置和初始化。具體的訓(xùn)練過程中,借鑒離散下降學(xué)習(xí)率設(shè)置方法,以初始學(xué)習(xí)率lr=0.001 訓(xùn)練網(wǎng)絡(luò)的head 部分,訓(xùn)練12 個(gè)epochs,然后將學(xué)習(xí)率降低為lr=0.000 1 來微調(diào)整個(gè)網(wǎng)絡(luò),訓(xùn)練8 個(gè)epochs,總計(jì)訓(xùn)練20 個(gè)epochs。所有目標(biāo)均采用隨機(jī)梯度下降法(SGD)進(jìn)行優(yōu)化,并設(shè)置weight_decay=0.0001,momentum=0.9。
為了驗(yàn)證本文所提出的基于反饋?zhàn)⒁饬C(jī)制和上下文注意模塊算法在非模式實(shí)例分割任務(wù)中的有效性,采用平均精確率(average precision,AP)和平均召回率(average recall,AR)作為對該算法性能的評價(jià)指標(biāo)。平均精確率是指在圖像分割時(shí),將IoU 閾值在0.5~0.95 進(jìn)行十等分,計(jì)算這10 個(gè)不同IoU 閾值下交并比的平均值;同樣地,平均召回率指的是在0.5~0.95 內(nèi)10 個(gè)不同IoU 閾值下召回率的平均值。本文分別計(jì)算每幅圖像在All regions、Things only 和Stuff only 情況下AP 和AR 值來評估算法性能,其中AR10和AR100分別表示每張圖片中每個(gè)類別分類置信度最高的前10 和前100 個(gè)預(yù)測框的平均召回率。
由于本文研究的是非模式實(shí)例分割的任務(wù),重點(diǎn)關(guān)注的是物體在被遮擋情況下對不可見部分的預(yù)測,所以有必要關(guān)注物體在不同遮擋強(qiáng)度下預(yù)測的準(zhǔn)確性。因此,本文還統(tǒng)計(jì)了每幅圖像中“Things”和“Stuff”在部分遮擋(partial occlusion)或重度遮擋(heavy occlusion)狀態(tài)下的AR 值,將其表示為ARP和ARH。
在COCO-amodal 數(shù)據(jù)集上,將本文所提出的方法與AmodalMask[11]、ARCNN[19]、ARCNN ++[19]、SLN[12]在平均精確率和平均召回率進(jìn)行對比,其中ARCNN ++表示ARCNN with visible mask,實(shí)驗(yàn)結(jié)果如表1 所示。從表1 可知,在COCO-amodal 數(shù)據(jù)集上比較結(jié)果,本文所提出的方法,在AP 和AR 兩個(gè)方面都有顯著的提升,在All regions 情況下的AP 從8.4%提高到14.3%,AR10從16.6% 提高到20.8%,AR100從36.5% 提高到40.3%,分別具有5.9%、4.2%和3.8%的收益。實(shí)驗(yàn)數(shù)據(jù)表明,本文的方法通過反饋?zhàn)⒁饬C(jī)制再學(xué)習(xí)和上下文注意模塊,有效建立遠(yuǎn)程上下文依賴關(guān)系,捕獲豐富的全局語義信息,增強(qiáng)了非模式實(shí)例分割的性能。
表1 COCO-amodal 測試集上的分割結(jié)果對比Table 1 Comparison of segmentation results on COCO-amodal test set
觀察表1 在All regions 下ARP和ARH的結(jié)果可知,當(dāng)物體處于部分遮擋或重度遮擋狀態(tài)下,本文提出的方法對于像素的平均召回率仍然具有很大的提高,ARP從40.1%提高到44.3%,ARH從22.5%提高到25.5%,分別具有4.2%和3%的收益,這表明,通過反饋?zhàn)⒁饬C(jī)制的再學(xué)習(xí)和上下文注意模塊,使網(wǎng)絡(luò)能夠?qū)W習(xí)到全局的語義依賴關(guān)系,充分挖掘像素的空間相關(guān)性,在非模式實(shí)例分割的任務(wù)中,該方法能夠有效幫助檢測器僅僅從物體可見部分提供的線索去準(zhǔn)確推斷出物體被遮擋部分的最可能外觀特征,定性的可視化結(jié)果見圖4。
圖4 在COCO-amodal 數(shù)據(jù)集上非模式實(shí)例分割的定性結(jié)果Fig.4 Qualitative results of amodal instance segmentation on coco-amodal dataset
與此同時(shí),在“Things only”和“Stuff only”的情況下,本文算法無論是在AP 還是AR,即使在部分遮擋或重度遮擋的狀態(tài)下,都表現(xiàn)出一致的優(yōu)勢:在“Things only”時(shí)AP 從9.6% 提高到16.3%,具有6.7% 的絕對收益,69.8% 的相對收益;同樣地,在“Stuff only”時(shí)AP 從0.8%提高到1.4%,具有0.6%的絕對收益,75%的相對收益。
為了進(jìn)一步證明本文提出方法的有效性,本文對COCO-amodal 測試集的一些圖片進(jìn)行定性分析,非模式實(shí)例分割的定性實(shí)驗(yàn)結(jié)果如圖4 所示,觀察第1 行的對比圖可以看出,圖中的“冰箱”存在部分遮擋,SLN 算法在預(yù)測被遮擋、不可見部分時(shí)存在一定的欠擬合問題,本文提出的方法通過建立豐富的上下文依賴關(guān)系,獲取全局語義信息,實(shí)現(xiàn)了更準(zhǔn)確的預(yù)測;從第3 行對比圖可知,在復(fù)雜的場景情況下,SLN 算法對小目標(biāo)分割存在一定程度的漏分割現(xiàn)象,如圖中有的“人”沒有檢測出來,并且這些樣本屬于小目標(biāo),本文的方法由于捕獲了像素級的全局語義信息,加強(qiáng)了上下文信息的融合,對于小目標(biāo)對象的漏分割、分割不準(zhǔn)確的情況有了顯著改善,不僅檢測到圖像中的小目標(biāo),同時(shí)對小目標(biāo)對象的遮擋部分也能合理預(yù)測,使得分割質(zhì)量得到大幅提升。
為了對比不同的算法在數(shù)據(jù)集上的性能差異,本文采用Friedman 檢驗(yàn)來分析本文提出的算法是否具有顯著性。本文在COCO-amodal 數(shù)據(jù)集上對該方法進(jìn)行了充分的實(shí)驗(yàn),表1 從All regions、Things only 和Stuff only 3 個(gè)維度分析了不同算法之間的性能差異。本文把表1 轉(zhuǎn)換成按AP 從高到低排序的排序表,最后獲得不同方法在COCO-amodal 數(shù)據(jù)集不同維度上的排序情況,結(jié)果如表2 所示。
表2 不同算法在COCO-amodal 測試集不同維度的AP 排序表Table 2 AP ranking tables of different algorithms in different dimensions on COCO-amodal test set
在獲得不同算法的AP 排序表之后,采用Frie-dman 檢驗(yàn)來判斷這些算法是否性能都相同,同時(shí)做出假設(shè)“所有的算法性能相同”。變量τF服從自由度為 (k?1)和(k?1)(N?1) 的F分布,計(jì)算方法為
通過式(4)計(jì)算得到的變量值τF與臨界值Fα=0.05進(jìn)行比較,假設(shè)“所有的算法性能相同”被拒絕,說明了不同算法之間的性能顯著不同,其中Fα=0.05=3.837 9,k=5,N=3。為了進(jìn)一步區(qū)分各算法,采用Nemenyi 檢驗(yàn)作為“后續(xù)檢驗(yàn)”。Nemenyi 檢驗(yàn)臨界值域 CD 的計(jì)算公式為
由式(5)計(jì)算出臨界值域 CD 后,畫出Friedman檢驗(yàn)結(jié)果圖,如圖5 所示。其中,中心圓點(diǎn)表示每個(gè)算法的平均序值,以圓點(diǎn)為中心的橫線段表示臨界值域的大小。Friedman 檢驗(yàn)結(jié)果表示,如果兩種方法的橫線段有較多重疊,則表明兩種算法的差異性較小,否則,說明兩種算法具有顯著的差異性。
圖5 Friedman 檢驗(yàn)結(jié)果Fig.5 Graph of Friedman test result
觀察圖5 可知,直線AmodalMask 與ARCNN++重疊的部分比例最高,說明了算法AmodalMask 和ARCNN++沒有顯著差別;直線OURS與直線SLN 有較多重疊部分,直線OURS 與直線AmodalMask、直線ARCNN++具有較少的重疊部分,直線OURS 與直線ARCNN 基本無重疊部分。也就是說本文所提出的算法仍然優(yōu)于其他4 種算法,顯著優(yōu)于算法ARCNN,這也驗(yàn)證了表1的實(shí)驗(yàn)結(jié)果。
本文提出一個(gè)反饋?zhàn)⒁饬C(jī)制的特征金字塔結(jié)構(gòu)和上下文注意模塊的方法并將其應(yīng)用到非模式實(shí)例分割任務(wù)中。該方法在特征金字塔結(jié)構(gòu)基礎(chǔ)上引入反饋連接進(jìn)行再學(xué)習(xí),有效建立起通道之間的遠(yuǎn)程上下文依賴關(guān)系,并結(jié)合像素上下文注意力模塊學(xué)習(xí)特征的空間相關(guān)性,捕獲精細(xì)的空間細(xì)節(jié),充分利用全局信息。在SLN 網(wǎng)絡(luò)的基礎(chǔ)上,加入本文提出的方法構(gòu)成新的網(wǎng)絡(luò)結(jié)構(gòu),通過在COCO-amodal 數(shù)據(jù)集上訓(xùn)練和測試,實(shí)驗(yàn)結(jié)果表明,本文方法能對物體被遮擋、不可見部分的最可能外觀做出合理預(yù)測,并改善了其他方法中存在的漏分割、分割不準(zhǔn)確的情況,但離實(shí)時(shí)處理仍有較大差距,后續(xù)將對此進(jìn)行優(yōu)化。