基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割技術(shù)的發(fā)展及應(yīng)用綜述

2019-09-16 13:04郭亞男

數(shù)碼世界 2019年7期

郭亞男

摘要：近年來(lái)，隨著信息技術(shù)的不斷發(fā)展，圖像越來(lái)越成為信息傳播的重要載體，對(duì)圖像的的分析處理技術(shù)更是飛速發(fā)展，影像設(shè)備的不斷更新使圖像不管是數(shù)量還是質(zhì)量都呈現(xiàn)上漲趨勢(shì)，這就需要我們快速且準(zhǔn)確的提取圖像中的有用信息，語(yǔ)義分割技術(shù)應(yīng)運(yùn)而生。本文主要論述了深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的理論模型及其衍生模型，介紹了不同模型在實(shí)際中的應(yīng)用及發(fā)展情況，并對(duì)未來(lái)圖像的語(yǔ)義分割領(lǐng)域發(fā)展進(jìn)行展望。

關(guān)鍵詞：深度學(xué)習(xí) 全卷積神經(jīng)網(wǎng)絡(luò)模型圖像語(yǔ)義分割及應(yīng)用

引言

在近幾年深度學(xué)習(xí)的快速發(fā)展，使其在圖像的語(yǔ)義分割方面發(fā)展迅速，從而加快了語(yǔ)義分割在不同領(lǐng)域的實(shí)際應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的代表算法之一，自卷積神經(jīng)網(wǎng)絡(luò)問(wèn)世以來(lái)，網(wǎng)絡(luò)深度越來(lái)越深，架構(gòu)越來(lái)越復(fù)雜，解決反向傳播時(shí)梯度消失的方法也越來(lái)越巧妙，在圖像的語(yǔ)義分割領(lǐng)域發(fā)揮著不可代替的作用。本文主要論述了深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的理論模型及其衍生模型、簡(jiǎn)要說(shuō)明數(shù)據(jù)在不同卷積神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練過(guò)程、介紹了不同模型在實(shí)際中的應(yīng)用情況，并對(duì)未來(lái)圖像的語(yǔ)義分割領(lǐng)域發(fā)展進(jìn)行展望。

1 全卷積神經(jīng)網(wǎng)絡(luò)模型

1.1 模型架構(gòu)

全卷積神經(jīng)網(wǎng)絡(luò)自2015年提出以來(lái)，基本的架構(gòu)都是一致的：輸入、卷積、池化、輸出。在卷積層，利用不同尺寸的卷積核，以一定的步長(zhǎng)進(jìn)行卷積，由淺到深提取出特征，經(jīng)過(guò)多層的池化，從而提取出不同深度的特征，完成最終的分割。

1.2 全卷積神經(jīng)網(wǎng)絡(luò)模型的發(fā)展過(guò)程

經(jīng)過(guò)卷積池化后，圖像的分辨率降低，從而影響分割結(jié)果的準(zhǔn)確性。在最近的幾年中，為了提高分割精度，恢復(fù)分割圖像的分辨率，許多學(xué)者基于全卷積神經(jīng)網(wǎng)絡(luò)提出不同的改善模型。

1.2.1 FCN模型

在2015年，UC Berkeley的Jonathan Long等人提出了全卷積神經(jīng)網(wǎng)絡(luò)（FCN）[1]，它與傳統(tǒng)的全卷積神經(jīng)網(wǎng)絡(luò)相比，優(yōu)點(diǎn)首先在于加入了上采樣的過(guò)程，其次引入了跳級(jí)結(jié)構(gòu)，對(duì)圖像分割有精化作用。

原圖像經(jīng)過(guò)五次池化后，圖像尺寸變?yōu)樵瓐D像的1/32，將conv7后輸出的圖像32倍上采樣，得到原圖像相同尺寸的特征圖，F(xiàn)CN32的分割結(jié)果非常粗糙，作者為了改善結(jié)果，將此conv7后的圖像2倍上采樣與pool4后剪切的特征圖做融合，將融合后的圖像進(jìn)行16倍上采樣，得到FCN-16的分割結(jié)果，為了使結(jié)果更精細(xì)，將conv7后輸出的圖像4倍上采樣，將pool4后輸出的圖像2倍上采樣，得到原圖像的1/8的圖像，將此圖像與經(jīng)pool3后剪切的特征圖做融合;這樣最終的特征圖FCN-8既包含了深層的高級(jí)別語(yǔ)義信息也包含了淺層的空間信息，提高分割結(jié)果的魯棒性和精確性。

1.2.2 U-net模型

在2015年，Philipp Fischer等人在Kaggle挑戰(zhàn)賽中第一次使用了U-net網(wǎng)絡(luò)，U-net同樣只有卷積層和池化層，沒(méi)有全連接層，在卷積池化之后也有上采樣過(guò)程。與FCN網(wǎng)絡(luò)不同的是，U-net的卷積過(guò)程與反卷積過(guò)程采用了相同數(shù)量層次的卷積操作，且使用skip connection結(jié)構(gòu)將卷積池化層與反卷積層相連，使得下采樣提取到的特征可以直接傳遞到反卷積層，這使得U-net網(wǎng)絡(luò)的像素定位比起FCN網(wǎng)絡(luò)更加準(zhǔn)確，分割精度更高。

1.2.3其他模型

最近兩年，許多學(xué)者在FCN網(wǎng)絡(luò)和U-net網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改善，并實(shí)驗(yàn)后得到了更好的分割效果。在2018年，中國(guó)科學(xué)技術(shù)大學(xué)的張一恒等人提出了用于語(yǔ)義分割的全卷積自適應(yīng)網(wǎng)絡(luò)，它將外觀自適應(yīng)網(wǎng)絡(luò)（AAN）和表達(dá)自適應(yīng)網(wǎng)絡(luò)（RAN）相結(jié)合，AAN模塊用來(lái)在像素空間里學(xué)習(xí)從一個(gè)域向另一個(gè)域的轉(zhuǎn)換，得到源域和目標(biāo)域相結(jié)合的自適應(yīng)圖像，RAN模塊以對(duì)抗性學(xué)習(xí)方式進(jìn)行優(yōu)化，最后用ASPP模塊并行提取不同尺度上的特征，最后得到分割結(jié)果。另外，今年提出的基于隨機(jī)推理的弱半監(jiān)督語(yǔ)義圖像分割、快速語(yǔ)義分割網(wǎng)絡(luò)在語(yǔ)義分割方面也有著不俗的表現(xiàn)。

2不同模型的實(shí)際應(yīng)用

2.1全卷積神經(jīng)網(wǎng)絡(luò)在地理信息系統(tǒng)的應(yīng)用

衛(wèi)星遙感技術(shù)的發(fā)展，使其逐漸深入到國(guó)民經(jīng)濟(jì)、社會(huì)生活與國(guó)家安全的各個(gè)方面，計(jì)算機(jī)輸入衛(wèi)星遙感影像，通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)識(shí)別道路，河流，莊稼，建筑物等，并且對(duì)圖像中每個(gè)像素進(jìn)行標(biāo)注。憑借分割結(jié)果完成一系列分析工作極大的提高了工作人員的工作效率，且比傳統(tǒng)分割算法的準(zhǔn)確度高。在2017年ISPRS競(jìng)賽中，ResNet的FCN模型被用來(lái)實(shí)現(xiàn)對(duì)航空?qǐng)D像進(jìn)行分割并取得了不錯(cuò)的成績(jī)。

o.o全卷積神經(jīng)網(wǎng)絡(luò)在智能交通領(lǐng)域的應(yīng)用

在智能交通領(lǐng)域，語(yǔ)義分割最突出的應(yīng)用是在無(wú)人駕駛技術(shù)當(dāng)中，它是無(wú)人駕駛眾多算法中的核心算法，車載攝像頭將街道的實(shí)時(shí)視頻分楨傳遞給神經(jīng)網(wǎng)絡(luò)，后臺(tái)計(jì)算機(jī)可以自動(dòng)將圖像分割歸類，以避讓行人和車輛等障礙。

LinkNet網(wǎng)絡(luò)在街道圖像中良好的分割能力可以輔助無(wú)人駕駛技術(shù)，通過(guò)語(yǔ)義分割，開車過(guò)程中能夠自動(dòng)且準(zhǔn)確的識(shí)別視線范圍能的目標(biāo)，從而做出停車或繞過(guò)目標(biāo)的動(dòng)作，在智能交通領(lǐng)域發(fā)揮作用。

2.j全卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)療影像分析領(lǐng)域的應(yīng)用

U-net網(wǎng)絡(luò)適于醫(yī)學(xué)圖像的分割。Wang等人提出一種傷口圖像分析系統(tǒng)，先用U-net網(wǎng)絡(luò)對(duì)傷口圖像進(jìn)行分割，再用SVM分類器對(duì)分割出的傷口圖像進(jìn)行分類，判斷傷口是否感染，最后用GP回歸算法對(duì)傷口愈合時(shí)間進(jìn)行預(yù)測(cè)。Brosch等人使用U-net網(wǎng)絡(luò)對(duì)腦部MRI中的腦白質(zhì)病灶進(jìn)行分割，并在U-net網(wǎng)絡(luò)的第一層卷積和最后一層反卷積之間加入跳躍連接結(jié)構(gòu)，使得該網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練數(shù)據(jù)較少的情況下仍得到了很好的分割結(jié)果。此外，語(yǔ)義分割還應(yīng)用在腫瘤圖像分割等。

2.4全卷積神經(jīng)網(wǎng)絡(luò)在智能機(jī)器人領(lǐng)域的應(yīng)用

全卷積神經(jīng)網(wǎng)絡(luò)在智能機(jī)器人領(lǐng)域的主要應(yīng)用是穿戴式機(jī)器人，如谷歌智能眼鏡，用眼鏡上的攝像機(jī)對(duì)視線中的物體拍照傳輸給計(jì)算機(jī)，計(jì)算機(jī)通過(guò)全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割，從而完成對(duì)不同目標(biāo)的自動(dòng)識(shí)別，再將結(jié)果以不同形式輸出，若輸出形式是語(yǔ)音，就會(huì)對(duì)盲人買東西、逛街等提供實(shí)質(zhì)性幫助。

3結(jié)束與展望

全卷積神經(jīng)網(wǎng)絡(luò)憑借自身強(qiáng)大的特征提取能力和準(zhǔn)確的分割預(yù)測(cè)功能，在各個(gè)領(lǐng)域中得到越來(lái)越廣泛的應(yīng)用。但不同的神經(jīng)網(wǎng)絡(luò)適用的領(lǐng)域不同，如Deeplab網(wǎng)絡(luò)、Linknet網(wǎng)絡(luò)適用于街道交通圖像的分割，但U-net及其衍生網(wǎng)絡(luò)雖然也能實(shí)現(xiàn)多分類，但分割效果并不盡人意，它們更適用于醫(yī)療圖像的分割，因此設(shè)計(jì)一個(gè)通用的深度學(xué)習(xí)網(wǎng)絡(luò)使它能適應(yīng)所有類型的數(shù)據(jù)集訓(xùn)練，依舊是研究者們今后的研究重點(diǎn)。

參考文獻(xiàn)

[1]Jonathan Long， Evan Shelhamer. and Trevor Darrell. Fullyconvolutional networks for semantic segmentation. In Proceedingsof the IEEE conference on conLputer visionand patternrecognition， pages 3431 3440. 2015.

[2]Ronneberger O， Fischer P， Brox T. UNet： ConvolutionalNetworks for Bionledical Image Segnlentation[M]// Medical IiuageConLputing and ConlputerAssisted InterventionMICCAI 2015.Springer International Publishing，2015： 234241.

[3]Zongwei Zhou. Md Mahfuzur Rahman Siddiquee， NinLaTajbakhsh， and Jianming Liang.U-net++： A Nested UNetArchitecture for Medical Image Segnlentation. arXiv preprintarXiv：1807.10165.2018.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割技術(shù)的發(fā)展及應(yīng)用綜述