国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于弱監(jiān)督學(xué)習(xí)的圖像語義分割方法綜述

2020-03-13 08:11:21曾孟蘭楊芯萍董學(xué)蓮羅倩
科技創(chuàng)新與應(yīng)用 2020年8期
關(guān)鍵詞:語義分割評價指標(biāo)

曾孟蘭 楊芯萍 董學(xué)蓮 羅倩

摘? 要:為了解決全監(jiān)督語義分割網(wǎng)絡(luò)訓(xùn)練成本高的問題,研究者們提出了基于弱監(jiān)督學(xué)習(xí)下的語義分割方法。文章對弱監(jiān)督學(xué)習(xí)的語義分割方法進(jìn)行綜述,并介紹了語義分割領(lǐng)域常用的數(shù)據(jù)集和評價指標(biāo),最后提出了弱監(jiān)督語義分割的發(fā)展方向。

關(guān)鍵詞:弱監(jiān)督學(xué)習(xí);語義分割;數(shù)據(jù)集;評價指標(biāo)

中圖分類號:TP391? ? ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號:2095-2945(2020)08-0007-04

Abstract: In order to solve the problem of high training cost of fully supervised semantic segmentation network, researchers proposed a semantic segmentation method based on weakly supervised learning. This paper summarizes the semantic segmentation methods of weakly supervised learning, introduces the data sets and evaluation indexes commonly used in the field of semantic segmentation, and finally puts forward the development direction of weakly supervised semantic segmentation.

Keywords: weakly supervised learning; semantic segmentation; dataset; evaluation index

引言

圖像的語義分割技術(shù)就是利用神經(jīng)網(wǎng)絡(luò)模型對圖像中的每一個像素點進(jìn)行分類,進(jìn)而得到對應(yīng)目標(biāo)的語義標(biāo)簽信息和位置信息。該技術(shù)可以使得智能機(jī)器人等對周圍環(huán)境有更全面的理解,在無人駕駛、無人機(jī)和機(jī)器人導(dǎo)航工作領(lǐng)域扮演著重要角色。

早期的語義分割方法主要是基于全監(jiān)督學(xué)習(xí)的圖像語義分割,該方法首先需要專業(yè)人員對訓(xùn)練的數(shù)據(jù)集樣本進(jìn)行精準(zhǔn)的像素級標(biāo)注,然后利用標(biāo)注好的數(shù)據(jù)對語義分割神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后將訓(xùn)練好的分割網(wǎng)絡(luò)用于圖像的分割。因為有精準(zhǔn)的訓(xùn)練數(shù)據(jù),所以基于全監(jiān)督學(xué)習(xí)方法的圖像語義分割能夠得到較為準(zhǔn)確的分割結(jié)果。但是,基于全監(jiān)督學(xué)習(xí)方法的圖像語義分割結(jié)果過度依賴于精準(zhǔn)的數(shù)據(jù)集標(biāo)注,而標(biāo)注相對精準(zhǔn)的數(shù)據(jù)集是一項需要消耗大量人力以及時間的任務(wù),這無疑增加了科研工作的成本。一些研究者為了降低神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成本,提出了基于弱監(jiān)督學(xué)習(xí)的語義分割方法,實現(xiàn)通過使用一些低成本的訓(xùn)練數(shù)據(jù),使神經(jīng)網(wǎng)絡(luò)達(dá)到相對精準(zhǔn)的分割效果。

弱監(jiān)督語義分割主要通過一些簡單形式的標(biāo)簽信息進(jìn)行圖像學(xué)習(xí),以此來降低神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成本。但是因為弱監(jiān)督語義分割學(xué)習(xí)僅僅依靠一些簡單的圖像標(biāo)簽進(jìn)行學(xué)習(xí),語義信息不強(qiáng),所以分割精度并不高。如何提高弱監(jiān)督語義分割的精度,成為了深度學(xué)習(xí)的研究熱點。

1 基于弱監(jiān)督學(xué)習(xí)的語義分割方法

為了解決全監(jiān)督學(xué)習(xí)分割網(wǎng)絡(luò)的高成本問題,研究者們提出了基于弱監(jiān)督學(xué)習(xí)的語義分割方法,使用弱標(biāo)簽圖像數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,減輕網(wǎng)絡(luò)模型對精確數(shù)據(jù)的依賴,降低數(shù)據(jù)的標(biāo)注成本。根據(jù)使用標(biāo)簽類型的不同,我們可以將弱監(jiān)督學(xué)習(xí)的圖像語義分割方法分為以下幾類:基于邊界框的語義分割法、基于圖像級標(biāo)簽的語義分割法、基于點標(biāo)簽的語義分割法和基于涂鴉式標(biāo)簽的語義分割法。

1.1 基于邊界框的方法

邊界框標(biāo)注方法是使用一個矩形框選取圖像中的目標(biāo)區(qū)域作為標(biāo)簽信息。于標(biāo)注方面來說,邊界框標(biāo)注的操作是弱標(biāo)注方法中最為復(fù)雜的一種。但是,邊界框標(biāo)簽包含更多的圖像信息,得到的分割效果也更令人滿意。Dai[1]等人提出了基于邊界框標(biāo)注數(shù)據(jù)的BoxSup算法,該方法首先使用MCG[2]獲得初始的圖像目標(biāo)候選區(qū)域,然后不斷迭代對象目標(biāo)的候選區(qū)并調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù),提升分割網(wǎng)絡(luò)的性能。Papandreou[3]提出使用期望最大化法,將邊界框標(biāo)簽與像素級標(biāo)簽結(jié)合的方式對分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練,達(dá)到與全監(jiān)督方法接近的分割效果。Khoreva等人[4]提出把弱監(jiān)督問題看作是輸入標(biāo)簽的噪聲問題,試圖使用遞歸訓(xùn)練去除噪聲,加入GrabCut算法提升語義分割效果?;谶吔缈驑?biāo)簽數(shù)據(jù)訓(xùn)練的弱監(jiān)督網(wǎng)絡(luò)無需大量精準(zhǔn)的數(shù)據(jù),而它的分割效果卻能達(dá)到全監(jiān)督網(wǎng)絡(luò)的分割水平。

1.2 基于圖像級標(biāo)簽的方法

圖像級標(biāo)簽是弱監(jiān)督學(xué)習(xí)中最簡單的一種標(biāo)注形式,它只提供了圖像中存在的類別,并沒有明確給出對象的位置和形狀等信息,所以使用圖像級標(biāo)簽訓(xùn)練的分割網(wǎng)絡(luò)在語義分割中,得到的分割結(jié)果并不理想。但是因為圖像級標(biāo)簽數(shù)據(jù)比較容易獲得,所以眾多專業(yè)人士均致力于圖像級標(biāo)簽的語義分割方法的研究。Pathak[5]等人在訓(xùn)練過程中使用圖像級標(biāo)簽數(shù)據(jù),并利用多示例學(xué)習(xí)MIL解決語義分割的問題。隨后Pathak[6]等又提出約束型神經(jīng)網(wǎng)絡(luò)模型CCNN,在損失函數(shù)中為對象尺寸、背景、前景等設(shè)置約束項,用最優(yōu)化解決分割問題。Pinheiro[7]等人通過多示例學(xué)習(xí)構(gòu)建圖像級標(biāo)簽和像素級標(biāo)簽之間的關(guān)聯(lián),且添加一些平滑先驗獲得較好的分割結(jié)果。Wei[8]等人提出了從簡單到復(fù)雜的框架STC,首先檢測圖像的顯著性,然后增強(qiáng)分割網(wǎng)絡(luò),最后強(qiáng)化型分割網(wǎng)絡(luò)和預(yù)測標(biāo)簽得到最終分割網(wǎng)絡(luò)。隨后,Wei[9]提出了對抗性擦除的方法,該方法通過不斷擦除神經(jīng)網(wǎng)絡(luò)識別的顯著區(qū)域,然后組合擦除的信息生成偽標(biāo)注,提升分割精度。但是提出的方法都需要對網(wǎng)絡(luò)進(jìn)行多次訓(xùn)練,操作復(fù)雜且訓(xùn)練時間長。Kolesnikov[10]提出了SEC框架,使用CAM[11]對目標(biāo)種子進(jìn)行定位,然后對稀疏的種子像素進(jìn)行擴(kuò)展并約束,最后使用條件隨機(jī)場CRF優(yōu)化后得到了較好的分割結(jié)果。Huang[12]針對于SEC框架的靜態(tài)監(jiān)督問題做出了改進(jìn),使用迭代擴(kuò)展的方式提高了目標(biāo)分割的完整性和準(zhǔn)確性。Zhang[13]等人利用解耦空間神經(jīng)網(wǎng)絡(luò)生成高質(zhì)量的圖像偽標(biāo)簽,并達(dá)到較好的分割效果。Li[14]等人提出了使用網(wǎng)絡(luò)產(chǎn)生的關(guān)注區(qū)域來引導(dǎo)學(xué)習(xí),最終產(chǎn)生較為準(zhǔn)確的結(jié)果。Lee[15]等人提出了FickleNet框架,使用簡單的dropout方法發(fā)現(xiàn)圖像的位置關(guān)系,并擴(kuò)大激活區(qū)域。熊昌鎮(zhèn)[16]等人利用不同特征訓(xùn)練2個帶尺度的分割模型,并結(jié)合遷移學(xué)習(xí)的分割模型改善分割結(jié)果。

1.3 基于點標(biāo)簽的方法

弱監(jiān)督中的點標(biāo)簽是在對象目標(biāo)上標(biāo)注一點作為標(biāo)簽信息,但是點所包含的信息量是非常少的,僅憑一點作為監(jiān)督信息是不足以使網(wǎng)絡(luò)推斷出整個對象的區(qū)域范圍,因此分割結(jié)果也不令人滿意。與圖像級標(biāo)簽相比,點標(biāo)簽可以明確圖像中對象的位置信息,所以分割效果有所提升。Bearman[17]等人使用點標(biāo)記圖像中的對象目標(biāo),然后將該描點信息結(jié)合損失函數(shù),并加入對象目標(biāo)的先驗信息用以推斷對象范圍,使得網(wǎng)絡(luò)模型能更好地預(yù)測物體區(qū)域。

1.4 基于涂鴉式標(biāo)簽的方法

涂鴉式標(biāo)簽是在目標(biāo)對象位置以涂鴉線條方式作標(biāo)記,得到對象的位置和范圍信息。涂鴉式標(biāo)簽作為點標(biāo)簽的一種改進(jìn)方式,可以進(jìn)一步獲取對象的范圍信息,獲得更好的分割結(jié)果。Lin[18]等人利用圖模型優(yōu)化的方式訓(xùn)練分割網(wǎng)絡(luò),將標(biāo)注信息與其外觀信息、語義信息等傳遞到圖像未標(biāo)注的像素。該方法實現(xiàn)了自動完成圖像的標(biāo)注工作,并獲得模型參數(shù),最終訓(xùn)練得到的網(wǎng)絡(luò)性能媲美于邊界框標(biāo)簽訓(xùn)練的分割網(wǎng)絡(luò)。

2 弱監(jiān)督學(xué)習(xí)方法評估

2.1 語義分割評估數(shù)據(jù)集

在語義分割研究中,常常需要大量的圖像數(shù)據(jù)集對分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試,本小節(jié)將介紹在分割任務(wù)中,具有代表性的公共數(shù)據(jù)集PASCAL VOC2012、ImageNet、MS COCO、Cityscapes。

PASCAL VOC是一個計算機(jī)視覺挑戰(zhàn)賽,它為計算機(jī)視覺提供測試圖像數(shù)據(jù)集。在計算機(jī)視覺中,最常用的數(shù)據(jù)集是PASCAL VOC 2012,它總共有21類,其中包含了背景、動物、交通工具、人類以及一些常見的室內(nèi)物品等。圖片標(biāo)注質(zhì)量高且沒有統(tǒng)一圖像。其中Train/val數(shù)據(jù)包含了11530張圖像,其中包括27450 ROI目標(biāo)標(biāo)注和6929個分割物體。

ImageNet數(shù)據(jù)集共有14197122張圖像,分為21841個類別,每一類大約1000張圖片。許多圖像分類、目標(biāo)檢測、語義分割等任務(wù)都是基于該數(shù)據(jù)集。

MS COCO 有91種常見類別,數(shù)據(jù)集有328000張訓(xùn)練圖,其中包含了2500000個標(biāo)注物體。2014年發(fā)布了82783張訓(xùn)練圖像,40504張驗證圖像,40775張測試圖像。2015年的數(shù)據(jù)包括165482張訓(xùn)練圖像,81208張驗證圖像以及81434張測試圖像。

Cityscapes數(shù)據(jù)集有5000張高質(zhì)量的像素級圖像和20000張弱標(biāo)注圖像,涵蓋了50個城市中不同環(huán)境、不同時間的街道場景。

2.2 評價標(biāo)準(zhǔn)

在語義分割任務(wù)中,常用像素精度、平均像素精度、平均交并比來評估分割性能。具體公式如下所示,公式中的k+1表示包括背景在內(nèi)的k+1類。Pij均表示像素原屬于類i卻被網(wǎng)絡(luò)模型預(yù)測為類j的像素量。而Pji表示像素原屬于類j卻被預(yù)測為類i的像素量。Pii則表示網(wǎng)絡(luò)模型預(yù)測的像素類別與真實類別一致的數(shù)量。

以上幾種評價標(biāo)準(zhǔn)中,因為MIOU簡單且具有較好的代表性,所以大多數(shù)語義分割分割方法均以此判別分割的性能。

3 結(jié)果分析

在本節(jié)內(nèi)容中,將對上文提及的弱監(jiān)督學(xué)習(xí)的語義分割網(wǎng)絡(luò)在數(shù)據(jù)集上的表現(xiàn)進(jìn)行分析。本文以PASCAL VOC 2012 數(shù)據(jù)集為測試數(shù)據(jù),并以MIOU作為語義分割方法的評價指標(biāo)。

表1對弱監(jiān)督學(xué)習(xí)下的語義分割方法進(jìn)行了歸類,比較了各種方法在PASCAL VOC 的驗證集和測試集上的分割結(jié)果。從表中可以看出,雖然圖像級標(biāo)簽比較容易獲得,但是它包含的有用信息過少,不足以獲得準(zhǔn)確的分割結(jié)果。而邊界框標(biāo)簽的形式雖然比較復(fù)雜,但是能夠提供目標(biāo)位置以及范圍的監(jiān)督信息,所以在弱監(jiān)督學(xué)習(xí)方式中,具有較好的分割結(jié)果。

4 結(jié)束語

本文對基于弱監(jiān)督學(xué)習(xí)的圖像語義分割方法進(jìn)行了綜述,總結(jié)了不同方法在相同數(shù)據(jù)集上的分割效果。然后介紹了在語義分割領(lǐng)域常用的數(shù)據(jù)集和評價標(biāo)準(zhǔn)等。雖然現(xiàn)在弱監(jiān)督的網(wǎng)絡(luò)模型的分割結(jié)果依舊弱于全監(jiān)督分割網(wǎng)絡(luò)的結(jié)果,但是弱監(jiān)督分割網(wǎng)絡(luò)大大減少了數(shù)據(jù)集的標(biāo)注要求,降低了研究成本,是未來語義分割的發(fā)展趨勢。

基于現(xiàn)有的成果,提出今后可能的發(fā)展方向:

(1)構(gòu)建稀疏的弱監(jiān)督信息與像素之間的聯(lián)系,使得網(wǎng)絡(luò)能預(yù)測對象目標(biāo)的精確位置和完整的范圍,提升弱監(jiān)督的分割精度。

(2)弱監(jiān)督學(xué)習(xí)方式也可以考慮與其他學(xué)習(xí)方式的結(jié)合,解決弱監(jiān)督學(xué)習(xí)中監(jiān)督信息少而導(dǎo)致分割精度不高的問題。

參考文獻(xiàn):

[1]Dai, J, He K, Sun J. Boxsup: exploiting bounding boxes to supervise convolutional networks for semantic segmentation[A].Proceedings of the IEEE International Conference on Computer Vision[C].2015:1635-1643.

[2]Arbeláez P, Pont-Tuset J, Barron J, et al. Multiscale combinatorial grouping[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2014:328-335.

[3]Papandreou, G, Chen L C, Murphy K, et al. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation[A]. Proceedings of the IEEE International Conference on Computer Vision[C].2015:1742-1750.

[4]Khoreva A, Benenson R, Hosang J,et al. Simple does it: weakly supervised instance and semantic segmentation[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2017:876-885.

[5]Pathak D, Shelhamer E, Long J,et al. Fully convolutional multi-class multiple instance learning[A]. Proceeding of IEEE International Conference on Learning Representations[C].2015:1-4.

[6]Pathak D, Krahenbuhl P, Darrell T. Constrained convolutional neural networks for weakly supervised segmentation[A]. Proceedings of the IEEE International Conference on Computer Vision[C].2015:1796-1804.

[7]Pinheiro P O, Collobert R. From image-level to pixel-level labeling with convolutional networks[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2015:1713-1721.

[8]Wei Y, Liang X, Chen Y, et al. Stc: a simple to complex framework for weakly-supervised semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(11):2314-2320.

[9]Wei Y, Feng J, Liang X, et al. Object region mining with adversarial erasing: a simple classification to semantic segmentation approach[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2017: 1568-1576.

[10]Kolesnikov A, Lampert C H. Seed, expand and constrain: three principles for weaklysupervised image segmentation[A]. European Conference on Computer Vision[C].2016: 695-711.

[11]Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2016: 2921-2929.

[12]Huang Z, Wang X, Wang J, et al. Weakly-supervised semantic segmentation network with deep seeded region growing[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2018: 7014-7023.

[13]Zhang T, Lin G, Cai J, et al. Decoupled spatial neural attention for weakly supervised semantic segmentation[J]. IEEE Transactions on Multimedia, 2019,21(11):2930-2941.

[14]Li K, Wu Z, Peng K C, et al. Tell me where to look: guided attention inference network[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2018: 9215-9223.

[15]Lee J, Kim E, Lee S, et al. FickleNet: Weakly and Semi-supervised Semantic Image Segmentation Using Stochastic Inference[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2019:5267-5276.

[16]熊昌鎮(zhèn),智慧.多模型集成的弱監(jiān)督語義分割算法[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2019,31(05):800-807.

[17]Bearman A, Russakovsky O, Ferrari V, et al. What's the point: semantic segmentation with point supervision[A]. European Conference on Computer Vision[C].2016: 549-565.

[18]Lin D, Dai J, Jia J, et al. Scribblesup: scribble-supervised convolutional networks for semantic segmentation[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2016:3159-3167.

猜你喜歡
語義分割評價指標(biāo)
結(jié)合語義邊界信息的道路環(huán)境語義分割方法
一種改進(jìn)迭代條件模型的遙感影像語義分割方法
基于積神經(jīng)網(wǎng)絡(luò)的圖像著色方法研究
基于全卷積網(wǎng)絡(luò)FCN的圖像處理
基于語義分割的車道線檢測算法研究
基于語義分割的增強(qiáng)現(xiàn)實圖像配準(zhǔn)技術(shù)
旅游產(chǎn)業(yè)與文化產(chǎn)業(yè)融合理論與實證分析
中國藥品安全綜合評價指標(biāo)體系研究
中國市場(2016年40期)2016-11-28 04:01:18
第三方物流企業(yè)績效評價研究綜述
商(2016年33期)2016-11-24 23:50:25
基于UML的高校思想政治教育工作評價系統(tǒng)的分析與研究
武宣县| 吴旗县| 玉溪市| 桂平市| 平湖市| 万山特区| 蚌埠市| 观塘区| 沁阳市| 剑阁县| 边坝县| 滦南县| 镇赉县| 嫩江县| 从化市| 广东省| 谢通门县| 梨树县| 德化县| 江门市| 临泉县| 浦东新区| 女性| 上栗县| 佛教| 沅陵县| 霍山县| 仲巴县| 桐乡市| 白玉县| 固镇县| 剑川县| 辽阳市| 福鼎市| 延津县| 信阳市| 海口市| 叙永县| 光山县| 东光县| 仲巴县|