魏珺潔
摘要:近幾年,隨著人工智能深度學(xué)習(xí)的不斷發(fā)展,計算機(jī)視覺領(lǐng)域也逐漸發(fā)展擴(kuò)大,先后出現(xiàn)了圖像檢索、圖像自動標(biāo)注等新的研究方向。最初為支持圖像檢索而逐漸興起的圖像自動標(biāo)注技術(shù),可以在一定程度上跨越“語義鴻溝”,讓計算機(jī)自動給圖像加上能夠反映圖像內(nèi)容的語義描述,從而減少人工標(biāo)注成本。深度學(xué)習(xí)作為人工智能領(lǐng)域的新技術(shù),其復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠在學(xué)習(xí)到圖像特征后快速輸出結(jié)果,如果將深度學(xué)習(xí)應(yīng)用于圖像自動標(biāo)注,將大大節(jié)約人工標(biāo)注時間,降低人工標(biāo)注成本。文章為探究深度學(xué)習(xí)在圖像自動標(biāo)注上的可行性,將以作者的生活照為樣本數(shù)據(jù),使用深度卷積神經(jīng)網(wǎng)絡(luò)與深度循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理,最后輸出圖像的文字描述。
關(guān)鍵詞: 深度學(xué)習(xí); 深度卷積神經(jīng)網(wǎng)絡(luò); 深度循環(huán)神經(jīng)網(wǎng)絡(luò); 圖像自動標(biāo)注
【Abstract】 In recent years, with the continuous development of artificial intelligence deep learning, the field of computer vision has gradually developed and expanded, and new research directions such as image retrieval and automatic image annotation have emerged. The automatic image annotation technology, which was originally developed to support image retrieval, can cross the “semantic gap” to a certain extent, allowing the computer to automatically add a textual description of the image content to the image, thereby reducing the cost of manual labeling. As a new technology in the field of artificial intelligence, the complex neural network structure of deep learning can quickly output results after learning image features. If applied to automatic image annotation, deep learning will greatly save manual labeling time and reduce manual labeling cost. In order to explore the feasibility of deep learning in automatic image annotation, the article will take the author's photos of life as sample data, use deep convolutional neural network and deep recurrent neural network for image processing, and output the text description of the image.
【Key words】 ?deep learning; deep convolutional neural network; deep recurrent neural network; automatic image annotation
0 引 言
深度學(xué)習(xí)是一種試圖使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理行對數(shù)據(jù)進(jìn)行高層抽象的算法,深度神經(jīng)網(wǎng)絡(luò)能夠通過多層網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),從大量的數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而實現(xiàn)預(yù)測、識別等結(jié)果[1]。在計算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)不僅能夠?qū)崿F(xiàn)圖像分割[2]、圖像分類[3]及圖像識別[4],還可以用于圖像檢索[5]、圖像超分辨率重建[6]、目標(biāo)檢測[7]等方面。
圖像自動標(biāo)注就是讓計算機(jī)自動地給輸入圖像生成能夠反映圖像內(nèi)容的語義描述。在此過程中,是利用已經(jīng)標(biāo)注的圖像作為訓(xùn)練數(shù)據(jù),將訓(xùn)練數(shù)據(jù)輸入模型中,使模型在圖像的高層語義信息和低層特征之間建立一種映射關(guān)系,從而使用此模型對未知語義的圖像進(jìn)行自動標(biāo)注[8]。文章使用的是Vinyals等人[9]提出的Encoder-Decoder模型,該模型中的Encoder為編碼器,是一個深度卷積神經(jīng)網(wǎng)絡(luò)(Deep CNN),常用于圖像識別,目標(biāo)檢測等領(lǐng)域;Decoder為解碼器,是一個深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Deep RNN),常用于語言模型或機(jī)器翻譯等領(lǐng)域。文章將圖像數(shù)據(jù)輸入深度學(xué)習(xí)Encoder-Decoder模型后,由編碼器負(fù)責(zé)提取圖像特征,解碼器負(fù)責(zé)獲取并輸出圖像的文字描述,從而實現(xiàn)圖像自動標(biāo)注。
將深度學(xué)習(xí)應(yīng)用于圖像自動標(biāo)注技術(shù),可以有效節(jié)約人工標(biāo)注的成本,減少標(biāo)注時間,提高圖像標(biāo)注效率。對此可展開研究論述如下。
1 深度學(xué)習(xí)基礎(chǔ)
1.1 深度卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種前饋人工神經(jīng)網(wǎng)絡(luò),由輸入層、卷積層、池化層、全連接層、輸出層組成,主要用于圖像識別。相比于淺層卷積神經(jīng)網(wǎng)絡(luò),深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜,一般會有幾十個神經(jīng)層,每一層又會有數(shù)百個神經(jīng)元。深度卷積神經(jīng)網(wǎng)絡(luò)通過將輸入圖像嵌入到固定長度的向量中生成輸入圖像的豐富表示,具有超強(qiáng)的圖像處理能力。
文章使用的深度卷積神經(jīng)網(wǎng)絡(luò)模型為GooLe Net網(wǎng)絡(luò)中的Inception v3模型,GoogLe Net中的Inception v1模型[10]通過采用全局平均池化層取代全連接層,極大地降低了參數(shù)量,是非常實用的模型。隨后的Inception v2模型[11]中,引入了Batch Normalization方法,加快了訓(xùn)練的收斂速度。在Inception v3模型[12]中,通過將二維卷積層拆分成2個一維卷積層,不僅降低了參數(shù)數(shù)量,同時減輕了過擬合現(xiàn)象。
深度卷積神經(jīng)網(wǎng)絡(luò)在Encoder-Decoder模型中充當(dāng)“編碼器”,先對其進(jìn)行訓(xùn)練以完成圖像分類任務(wù),然后將其作為下一個隱藏層(即用作生成語句的解碼器)的輸入,見圖1,Vinyals等人[9]將此結(jié)構(gòu)稱為NIC模型。
2.2 實驗過程
(1)配置實驗環(huán)境:本次實驗工具為Anaconda3,Spyder(Tensorflow),實驗環(huán)境為Windows10,Python3.6,Tensorflow1.12.0。
(2)導(dǎo)入模型:本次實驗?zāi)P褪鞘褂谩?015 MSCOCO Image Captioning Challenge”的數(shù)據(jù)集訓(xùn)練出來的深度學(xué)習(xí)模型,即上文提到的Encoder-Decoder模型。該模型分為Encoder編碼器和Decoder解碼器兩部分,編碼器負(fù)責(zé)圖像特征提取的工作,輸入的圖像在Inception v3網(wǎng)絡(luò)中能夠被轉(zhuǎn)化為一個固定長度的向量。通過NIC模型,在編碼器中得到的固定長度的向量將作為解碼器的輸入,最終通過訓(xùn)練好的LSTM網(wǎng)絡(luò)生成對向量的文字描述。
編碼器是Inception v3模型,共有47層,比以往的CNN網(wǎng)絡(luò)計算速度更快,對非線性更魯棒。解碼器是LSTM模型,通過輸入大量已經(jīng)標(biāo)注的圖像對其進(jìn)行訓(xùn)練形成字典,訓(xùn)練集中的單詞每個至少出現(xiàn)5次,從而使其具有捕獲語義的能力。
(3)導(dǎo)入數(shù)據(jù)集:從該模型的訓(xùn)練集中抽取的圖像數(shù)據(jù)進(jìn)行實驗,效果較為客觀,所以文中收集了一些生活照作為輸入進(jìn)行訓(xùn)練。
(4)運(yùn)行:在Tensorflow中使用Encoder-Decoder模型對輸入圖像進(jìn)行編碼與解碼處理,最終輸出輸入圖像的文字描述。
2.3 實驗結(jié)果
實驗結(jié)果見表1。表1的第一列為輸入圖像,第二列為輸出的文字描述。具體來說,第一列從上至下可描述為:第一張圖像為一個男人站在石墻旁邊;第二張圖像為一個女人懷里抱著一只泰迪熊;第三張圖像為一個拿著傘的女人站在商店前面;第四張圖像為一個年輕的姑娘坐在板凳上。
對于實驗輸出,即仔細(xì)觀察每張圖像的文字描述,分析后可知深度學(xué)習(xí)模型生成的文字描述能夠表達(dá)出圖像的典型特征,但是由于該模型的字典容量有限,也未能準(zhǔn)確識別出一些特殊的物體。例如:第三張圖像女生手中的棉花糖由于與傘的形狀相似,該模型識別結(jié)果為傘,女生身后的裝飾心愿墻識別為商店。
從實驗結(jié)果不難發(fā)現(xiàn),Encoder-Decoder這一深度學(xué)習(xí)模型,確實能夠?qū)崿F(xiàn)圖像自動標(biāo)注。
本次實驗?zāi)軌蜃C明深度學(xué)習(xí)在圖像自動標(biāo)注上的可行性,只是圖像標(biāo)注的精確程度還有待提高。
3 結(jié)束語
圖像自動標(biāo)注技術(shù)是提高圖像檢索效率的重要突破,同時也是人們快速獲取圖像信息的技術(shù)手段,而使用先進(jìn)的深度學(xué)習(xí)技術(shù)來對圖像進(jìn)行高效自動標(biāo)注就能夠推動圖像檢索領(lǐng)域的發(fā)展。文章實驗使用深度卷積神經(jīng)網(wǎng)絡(luò)與深度循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的Encoder-Decoder模型,證明了深度學(xué)習(xí)實現(xiàn)圖像自動標(biāo)注的可行性,因此,深度學(xué)習(xí)能夠?qū)崿F(xiàn)圖像的自動標(biāo)注。
然而,深度學(xué)習(xí)在圖像自動標(biāo)注上的應(yīng)用研究時間尚短,個別圖像特征的標(biāo)注并不精確,模型的字典也未臻至全面。因此,在今后的研究中,則立足于深入研究如何提高深度學(xué)習(xí)在圖像自動標(biāo)注中的精確度問題。
參考文獻(xiàn)
[1] ?程冰. 基于卷積神經(jīng)網(wǎng)絡(luò)的自動標(biāo)注技術(shù)的研究[J]. 電子世界,2019(16):124.
[2]張明月. 基于深度學(xué)習(xí)的圖像分割研究[D]. 長春:吉林大學(xué),2017.
[3]程國建,郭文惠,范鵬召. 基于卷積神經(jīng)網(wǎng)絡(luò)的巖石圖像分類[J]. 西安石油大學(xué)學(xué)報(自然科學(xué)版),2017,32(4):116.
[4]程國建,周冠武,王瀟瀟. 概率神經(jīng)網(wǎng)絡(luò)方法在巖性識別中的應(yīng)用[J]. 微計算機(jī)信息,2007,23(16):288.
[5]岳清清. 深度學(xué)習(xí)在巖石薄片圖像檢索中的應(yīng)用研究[D]. 西安:西安石油大學(xué),2019.
[6]LEDIG C, THEIS L, HUSZAR F , et al. Photo-realistic single image super-resolution using a generative adversarial network[J]. arXiv preprint arXiv:1609.04802v1,2016.
[7]程欣. 基于深度學(xué)習(xí)的圖像目標(biāo)定位識別研究[D]. 成都:電子科技大學(xué),2016.
[8]鮑泓,徐光美,馮松鶴,等. 自動圖像標(biāo)注技術(shù)研究進(jìn)展[J]. 計算機(jī)科學(xué),2011,38(7):35.
[9]VINYALS O , TOSHEV A , BENGIO S , et al. Show and tell: Lessons learned from the 2015 MSCOCO image captioning challenge[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 39(4):652.
[10]SZEGEDY C , LIU W , JIA Y , et al. Going deeper with convolutions[J]. arXiv preprint arXiv:1409.4842,2014.
[11]IOFFE S , SZEGEDY C . Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. OALib Journal, 2015,3:448.
[12]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, Nevada, USA:IEEE,2016: 2818.
[13]楊麗,吳雨茜,王俊麗,等. 循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計算機(jī)應(yīng)用,2018,38(S2):1.