華遠(yuǎn)盛
(武漢大學(xué) 測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢430000)
影像分類在遙感應(yīng)用中是一項(xiàng)非常重要的任務(wù)。該任務(wù)的目的是通過對(duì)目標(biāo)影像紋理,空間,光譜等特征進(jìn)行分析并判斷目標(biāo)影像的語(yǔ)義標(biāo)簽。通常情況下人們所討論的影像分類是指單標(biāo)簽影像分類,即一張遙感影像僅會(huì)被賦予一個(gè)語(yǔ)義標(biāo)簽,例如場(chǎng)景類型。然而值得注意的是,在現(xiàn)實(shí)世界中,一張影像通常會(huì)和多個(gè)標(biāo)簽,例如圖像中包含的所有物體類別,有聯(lián)系。這種情況在復(fù)雜的影像中由為明顯。因此,多標(biāo)簽的遙感影像分類現(xiàn)在正逐漸成為備受關(guān)注的話題。相比較于單一標(biāo)簽分類,多標(biāo)簽影像分類可以更好地幫助人們理解圖像中包含的語(yǔ)義信息。除此之外,相比較于語(yǔ)義分割和目標(biāo)檢測(cè)這兩個(gè)任務(wù),多標(biāo)簽影像分類的優(yōu)勢(shì)在于數(shù)據(jù)庫(kù)獲取更為容易。前者往往需要標(biāo)注任務(wù)繁重的像素級(jí)標(biāo)簽和邊框級(jí)標(biāo)簽,而后者僅需要圖像級(jí)的標(biāo)簽。顯而易見,訓(xùn)練一個(gè)用于多標(biāo)簽影像分類的模型所需要的數(shù)據(jù)的獲取難度要遠(yuǎn)低于另外兩個(gè)視覺任務(wù)。因此,多標(biāo)簽遙感影像分類正受到越來(lái)越多研究者的關(guān)注。
盡管遙感影像分類具有非常重要的意義,傳統(tǒng)的視覺算法通常難以獲得令人滿意的結(jié)果。這是因?yàn)樗麄兌家蕾囉谌藶樵O(shè)計(jì)的特征提取方法,故而較難獲取到有益于圖像識(shí)別的高級(jí)語(yǔ)義信息。然而近年來(lái),隨著計(jì)算機(jī)性能的提高與影像數(shù)據(jù)越來(lái)越容易的獲取,深度學(xué)習(xí)這一技術(shù)得到了極大的發(fā)展并且正在被廣泛地應(yīng)用在各種視覺識(shí)別任務(wù)中。通過調(diào)研近年來(lái)的諸多工作,我們發(fā)現(xiàn)深度學(xué)習(xí)在諸如分類,分割,目標(biāo)檢測(cè)等任務(wù)中都取得了令人矚目的成績(jī)。相較于依賴人為設(shè)計(jì)特征提取的傳統(tǒng)算法,深度學(xué)習(xí)有著強(qiáng)大的自主學(xué)習(xí)能力,并能夠通過在訓(xùn)練集上的反復(fù)訓(xùn)練學(xué)會(huì)提取影像中的語(yǔ)義信息。在現(xiàn)有的許多工作,深度學(xué)習(xí)算法的效果都被證明遠(yuǎn)優(yōu)于傳統(tǒng)算法的效果。
伴隨著這樣的趨勢(shì),深度學(xué)習(xí)也正在被越來(lái)越多地應(yīng)用于多標(biāo)簽遙感影像分類任務(wù)。因此,本文旨在綜述現(xiàn)有的基于深度學(xué)習(xí)的多標(biāo)簽遙感影像分類算法。此外,作為訓(xùn)多標(biāo)簽分類算法不可或缺的數(shù)據(jù)庫(kù)也將在本文中被介紹。
近年來(lái)伴隨著深度學(xué)習(xí)算法的興起,越來(lái)越多的研究者將該算法應(yīng)用于多標(biāo)簽遙感影像分類的任務(wù)中并且取得了一定的成果。Zeggada 等人[1]提出了首先將深度學(xué)習(xí)算法應(yīng)用于多標(biāo)簽的無(wú)人機(jī)影像分類。在這篇工作中,他們使用了一個(gè)標(biāo)準(zhǔn)的GoogLeNet 作為分類器的主干,并將原網(wǎng)絡(luò)中最后一個(gè)全連接層后跟隨的Softmax 激活函數(shù)替換成了Sigmoid 激活函數(shù)用以進(jìn)行多標(biāo)簽分類。這是因?yàn)镾oftmax 激活函數(shù)通常被用在單標(biāo)簽分類任務(wù)中,且僅適用于輸出為one-hot 編碼的情況。與之相反,Sigmoid 激活函數(shù)可以適用于輸出為multi-hot 的情況,因此可以被用作多標(biāo)簽分類的任務(wù)。在這篇工作中,作者沒有直接設(shè)定閾值,例如0.5,對(duì)Sigmoid 激活后的輸出進(jìn)行二值化得到預(yù)測(cè)的多標(biāo)簽,而是采用了RBFNN(Radialbasisfunction neural network)通過學(xué)習(xí)得到合適的閾值。此外,Koda 等人[2]以及Zeggada[3]等人相繼使用了一個(gè)標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)加一個(gè)SVM(supportvectormachine)或者CRF(conditionalrandomfield)組合的方式進(jìn)行多標(biāo)簽分類。然而盡管這些工作均取得了一定的成功,但是標(biāo)簽之間的內(nèi)在關(guān)系并沒有被充分利用。這是因?yàn)樵谶@些分類器中,每個(gè)標(biāo)簽被獨(dú)立預(yù)測(cè)。
為了能夠充分利用標(biāo)簽之間的聯(lián)系,Hua 等人在[5]中討論并嘗試?yán)靡粋€(gè)雙向的LSTM(Longshort-termmemory)網(wǎng)絡(luò)來(lái)預(yù)測(cè)多標(biāo)簽。在這篇工作中,Hua 等人發(fā)現(xiàn)標(biāo)簽之間存在著明顯的共現(xiàn)現(xiàn)象,例如車和路面或者船和水體經(jīng)常同時(shí)出現(xiàn)在影像中。這個(gè)發(fā)現(xiàn)非常符合人們的日常認(rèn)知,例如車通常在路面上行駛或者???,而船大概率在河流或者海洋上航行?;谶@樣的發(fā)現(xiàn),Hua 等人利用了雙向的LSTM來(lái)進(jìn)行多標(biāo)簽分類。LSTM由于其強(qiáng)大的構(gòu)建前后語(yǔ)義關(guān)系的能力而被廣泛地應(yīng)用在自然語(yǔ)言處理的任務(wù)中。在多標(biāo)簽分類任務(wù)中,雙向LSTM的每個(gè)時(shí)間節(jié)點(diǎn)都會(huì)預(yù)測(cè)當(dāng)前標(biāo)簽的存在與否,并將該預(yù)測(cè)結(jié)果輸入到下一個(gè)時(shí)間節(jié)點(diǎn)的預(yù)測(cè)環(huán)節(jié)中。通過這樣的結(jié)構(gòu),每個(gè)時(shí)間節(jié)點(diǎn)的預(yù)測(cè)結(jié)果都會(huì)受到或者給予前后節(jié)點(diǎn)預(yù)測(cè)的影響。此外,Hua 等人[6]還嘗試著利用關(guān)系網(wǎng)絡(luò)進(jìn)行標(biāo)簽關(guān)系的建模并利用其進(jìn)行標(biāo)簽的預(yù)測(cè)。
在該章節(jié)中,本文將注重介紹三個(gè)遙感領(lǐng)域中常用的多標(biāo)簽數(shù)據(jù)庫(kù):UC-Merced 多標(biāo)簽數(shù)據(jù)庫(kù),DFC15 多標(biāo)簽數(shù)據(jù)庫(kù),以及AID 多標(biāo)簽數(shù)據(jù)庫(kù)。
UC-Merced 多標(biāo)簽數(shù)據(jù)庫(kù)是由Chaudhuri 等人[4]在2018 年發(fā)布的一個(gè)第一個(gè)應(yīng)用于遙感影像多標(biāo)簽分類的數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中共有2100 張來(lái)自UC-Merced 單標(biāo)簽場(chǎng)景數(shù)據(jù)庫(kù)且分辨率為0.3 米的256x256 遙感影像。其中每張影像均被賦予了圖像中所包含的不同物體的類別標(biāo)簽。例如場(chǎng)景中若含有車輛和建筑,則該圖對(duì)應(yīng)的標(biāo)簽為“車輛,建筑”。據(jù)統(tǒng)計(jì),該數(shù)據(jù)庫(kù)中標(biāo)簽類別共計(jì)17 類,且分別是飛機(jī),沙子,路面,建筑,車輛,灌木叢,運(yùn)動(dòng)場(chǎng),樹,碼頭,存儲(chǔ)罐,水體,草地,房車,船,裸地,海,以及田地。
AID 多標(biāo)簽數(shù)據(jù)庫(kù)是一個(gè)由3000 張高分辨率影像構(gòu)成的數(shù)據(jù)庫(kù)。該數(shù)據(jù)是Hua 等人[5]在AID 單標(biāo)簽場(chǎng)景數(shù)據(jù)庫(kù)的基礎(chǔ)上進(jìn)行重新標(biāo)注得到的。AID 單標(biāo)簽場(chǎng)景數(shù)據(jù)庫(kù)中包含有10000 張裁剪自谷歌地球衛(wèi)星數(shù)據(jù)的600x600 的影像,且分辨率浮動(dòng)在0.5 米到8 米之間。這些影像覆蓋了中國(guó),美國(guó),英國(guó),法國(guó),意大利,日本以及德國(guó)。由此可見,該數(shù)據(jù)庫(kù)的樣本十分豐富且具有多樣性。因此,Hua 等人在此數(shù)據(jù)庫(kù)的基礎(chǔ)上對(duì)其中3000 張影像進(jìn)行重新標(biāo)注并最終生產(chǎn)了包含3000 個(gè)圖像樣本且共計(jì)17 個(gè)類的多標(biāo)簽數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中的17 個(gè)類與UC-Merced 多標(biāo)簽數(shù)據(jù)庫(kù)中的類別定義一致。
通過對(duì)現(xiàn)有工作的介紹,我們可以發(fā)現(xiàn)深度學(xué)習(xí)算法在多標(biāo)簽遙感影像分類這一應(yīng)用中已取得了一定的進(jìn)展。相較于傳統(tǒng)算法,深度學(xué)習(xí)模型能夠自動(dòng)提取到具有豐富語(yǔ)義信息的特征從而做出更為準(zhǔn)確的標(biāo)簽預(yù)測(cè)。在后續(xù)的發(fā)展中,如何更加有效的利用標(biāo)簽間的關(guān)聯(lián)性來(lái)進(jìn)行多標(biāo)簽的分類將是具有價(jià)值的研究。