詹總謙 黃蘭蘭 張曉萌 劉 異
1武漢大學(xué)測繪學(xué)院,湖北 武漢,430079
基于機器學(xué)習(xí)方法的遙感圖像災(zāi)害目標(biāo)檢測是災(zāi)害分析中的研究熱點之一。這類方法的初期模型有支持向量機(support vector machine,SVM)[1]、模式識別技術(shù)和監(jiān)督分類方法[2]、聯(lián)合視覺詞袋(bag of visual words,Bo VW)與概率隱含語義分析(probabi?listic latent semantic analysis,PLSA)的滑坡場景分類方法[3]等。這些方法通常先進(jìn)行預(yù)處理并構(gòu)建災(zāi)害目標(biāo)樣本庫,然后設(shè)計目標(biāo)特征提取方法,最后選取分類器模型進(jìn)行訓(xùn)練和測試。由于無法充分利用樣本信息,并且所選特征描述符的穩(wěn)健性不高,該類方法還不足以創(chuàng)建用于災(zāi)害損傷檢測的強泛化模型。
深度學(xué)習(xí)[4,5]已在許多應(yīng)用中取得了突破性進(jìn)展,其中,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural net?work,CNN)在目標(biāo)識別領(lǐng)域表現(xiàn)優(yōu)異[6?8]。與基于像素和面向?qū)ο蟮募夹g(shù)[9,10]相比,深度學(xué)習(xí)方法提供了對災(zāi)害目標(biāo)特征相對高級的解釋,且減少了特征提取前的諸多繁瑣的預(yù)處理步驟,部署訓(xùn)練好的模型便可實現(xiàn)目標(biāo)的快速檢測。文獻(xiàn)[11]中利用Google Earth影像制作滑坡樣本數(shù)據(jù)集,并搭建了一個包含3個卷積層和兩個全連接層的CNN,經(jīng)訓(xùn)練后用于遙感圖像滑坡區(qū)域的自動提取。相比于傳統(tǒng)方法,基于深度網(wǎng)絡(luò)的方法使影像信息得到了充分利用,提取的精度和召回率有明顯改進(jìn)。文獻(xiàn)[12]利用無人機影像制作火災(zāi)樣本數(shù)據(jù)集,采用深度學(xué)習(xí)方法進(jìn)行訓(xùn)練和測試,判斷遙感影像中是否存在火災(zāi),測試精度達(dá)85%。文獻(xiàn)[13]提出一種被命名為wavDAE的基于深度學(xué)習(xí)的光學(xué)遙感圖像滑坡識別方法,先利用Google Earth影像制作樣本,并搭建一個具有多個隱藏層的深度自動編碼器網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),再輸入softmax分類器用于分類預(yù)測,效率和準(zhǔn)確性優(yōu)于SVM和人工神經(jīng)網(wǎng)絡(luò)(artificial neural net?work,ANN)等先進(jìn)分類器。文獻(xiàn)[14]對災(zāi)情建筑物的受損情況進(jìn)行了檢測,使用獨立的CNN特征或結(jié)合3D點云特征來構(gòu)建分類框架,并基于遷移學(xué)習(xí)策略訓(xùn)練模型,實驗平均精度達(dá)到85%。
雖然上述研究取得了一定效果,但是深度模型的表征能力高度依賴訓(xùn)練數(shù)據(jù)的多樣性。然而,目前還沒有完整公開的倒塌房屋、滑坡和泥石流等多種災(zāi)害目標(biāo)數(shù)據(jù)集(disaster event dataset,DED)。上述基于深度學(xué)習(xí)的災(zāi)害目標(biāo)檢測方法均需要自己制作數(shù)據(jù)集,即在不同的實驗設(shè)置下對不同數(shù)據(jù)集進(jìn)行評估,難以比較各種深度學(xué)習(xí)方法的優(yōu)劣。另一方面,現(xiàn)有方法主要使用的數(shù)據(jù)為Google Earth影像,該類影像經(jīng)過處理后,光譜特征和空間分辨率等發(fā)生變化,從而導(dǎo)致影像與實際應(yīng)急場景中包含的信息有差別,實用性不足。當(dāng)前,無人機低空遙感已成為增強應(yīng)急測繪現(xiàn)場勘測能力的重要手段,在災(zāi)情快速分析方面發(fā)揮了重要作用。相比于衛(wèi)星影像,無人機影像的獲取更為快速、便捷,分辨率更高。因此,制作實用多樣化的無人機影像DED具有重要的應(yīng)用價值。
針對上述問題,本文重點介紹了一種無人機影像地質(zhì)DED的制作方法。該數(shù)據(jù)集包含坍塌房屋、滑坡和泥石流3種典型地質(zhì)災(zāi)害目標(biāo),共有16 535個標(biāo)注對象。本文使用Faster R?CNN[15]模型和k?means聚類優(yōu)化方法對其有效性進(jìn)行了實驗評估。
現(xiàn)今,機器學(xué)習(xí)、深度學(xué)習(xí)方法仍依賴于大量的標(biāo)注數(shù)據(jù)。已經(jīng)有很多公開數(shù)據(jù)集可用于算法的開發(fā)、訓(xùn)練、驗證以及模型性能的比較。其中,大多數(shù)數(shù)據(jù)集與場景目標(biāo)識別有關(guān),通常被應(yīng)用于人臉識別、行人檢測、車輛檢測、日常物體識別等。這些數(shù)據(jù)集中的圖像基本都在與目標(biāo)較近的拍攝距離(幾米或幾十米)獲取,與拍攝距離動輒幾百米甚至幾千米的遙感影像有很大區(qū)別。遙感領(lǐng)域也已經(jīng)有不少公開或非公開的數(shù)據(jù)集,非公開的有IKO?NOS衛(wèi)星圖像數(shù)據(jù)集[16]、SPOT圖像數(shù)據(jù)集[17]等。一些常用公開場景數(shù)據(jù)集和遙感數(shù)據(jù)集的信息如表1所示。
由表1可知,如ImageNet和COCO等挑戰(zhàn)賽常用的數(shù)據(jù)集的規(guī)模都很大。然而,它們在實際中不適用于目標(biāo)的自動識別。這些數(shù)據(jù)集關(guān)注的是物體的多樣性和類別的數(shù)量,其感興趣目標(biāo)大多占據(jù)圖像主體。遙感數(shù)據(jù)集則更關(guān)注地物目標(biāo)的大小,圖像通常來自不同的傳感器,且包含噪聲,多光譜影像資源豐富。在實際應(yīng)用中,自動檢測更多情況下是檢測小目標(biāo)?,F(xiàn)有的遙感數(shù)據(jù)集大多規(guī)模較小、尺寸單一,數(shù)據(jù)過于理想化,導(dǎo)致數(shù)據(jù)集之間的泛化程度較低。且它們或只用于分類,或只針對船只、飛機等普通場景目標(biāo),并未涉及坍塌房屋和滑坡等災(zāi)害目標(biāo),無法被直接應(yīng)用于災(zāi)害目標(biāo)的自動監(jiān)測。
表1 常用場景數(shù)據(jù)集和遙感數(shù)據(jù)集的信息Tab.1 Information of Commonly Used Scene Datasets and Remote Sensing Datasets
針對坍塌房屋、滑坡和泥石流這3類常見地質(zhì)災(zāi)害的數(shù)據(jù)集要符合地質(zhì)災(zāi)情現(xiàn)場精準(zhǔn)速報系統(tǒng)的模型訓(xùn)練要求;不同災(zāi)害目標(biāo)的數(shù)量及類型足夠多樣化,背景應(yīng)盡可能復(fù)雜多變(平原、山區(qū)、高原、荒地等不同地貌),目標(biāo)要大小不一;且數(shù)據(jù)集標(biāo)簽的規(guī)模要相對較大。
無人機低空探測獲取的圖像中,感興趣目標(biāo)一般都很小;相機分辨率不高或無人機抖動等會產(chǎn)生圖像模糊,導(dǎo)致目標(biāo)難以分辨;不同地區(qū)發(fā)生的地質(zhì)災(zāi)害,加上太陽光照和四季變化,使得影像有著復(fù)雜多變的背景;可用的災(zāi)害數(shù)據(jù)資源相對缺乏。這些因素導(dǎo)致數(shù)據(jù)集制作和災(zāi)害目標(biāo)檢測面臨諸多挑戰(zhàn)。災(zāi)害目標(biāo)數(shù)據(jù)集在應(yīng)急救災(zāi)系統(tǒng)中的關(guān)鍵應(yīng)用決定了其信息結(jié)構(gòu)和實用價值與其他目標(biāo)檢測數(shù)據(jù)集顯著不同。本文充分考慮了上述難點和挑戰(zhàn)后,制作了首個版本的地質(zhì)DED,為后續(xù)該類數(shù)據(jù)集的制作提供范例。該數(shù)據(jù)集目前還屬于內(nèi)部數(shù)據(jù)集。
1)數(shù)據(jù)來源。本文從國內(nèi)不同的地質(zhì)災(zāi)害地區(qū)收集了大量無人機影像,約1萬張,包括汶川、舟曲、玉樹等地區(qū)。這些無人機影像拍攝的相對高度在300~500 m之間,地面分辨率在10~15 cm之間。按照數(shù)據(jù)集的圖片質(zhì)量、重疊度等要求挑選出最具代表性的災(zāi)區(qū)影像。這些影像來自地形各異、氣候不同的地區(qū),有著不同季節(jié)和光照的成像條件,增加了類別內(nèi)部的差異性。表2展示了DED的原始影像信息。
表2 DED的原始影像信息Tab.2 Original Image Information of DED
2)格式選擇。模式分析、統(tǒng)計建模、計算學(xué)習(xí)視覺物體分類(pattern analysis,statistical modelling and computational learning visual object classes,PASCAL VOC)[24]挑戰(zhàn)賽是視覺對象識別和檢測的一個基準(zhǔn)測試,提供了檢驗算法和學(xué)習(xí)性能的標(biāo)準(zhǔn)圖像注釋數(shù)據(jù)集和標(biāo)準(zhǔn)的評估系統(tǒng)?,F(xiàn)今的許多深度學(xué)習(xí)模型均在VOC數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,可參考性強。因此,本文制作DED時參照了PASCAL VOC數(shù)據(jù)集的格式。
3)標(biāo)簽制作。該過程主要為標(biāo)記圖像中所有對象的類別和位置,每個標(biāo)簽對應(yīng)包含該目標(biāo)的最小矩形框,位置信息存儲為矩形框的4個角坐標(biāo)。最小矩形框代表了目標(biāo)對象的真實位置,是模型訓(xùn)練及學(xué)習(xí)階段的參考以及評估算法性能的比較參考,因此這些標(biāo)簽應(yīng)盡可能準(zhǔn)確。手動標(biāo)記圖像中的目標(biāo)是一個繁瑣而緩慢的過程,目前已經(jīng)有一些工具可以幫助完成這項任務(wù)。本文使用的是label Img工具,它提供了一個圖形用戶界面,用戶可以通過菜單工具勾畫和調(diào)整邊界框,隨時改動或完善標(biāo)簽,是一種便捷的標(biāo)注工具。
考慮到無人機影像的重疊度太大,或者存在部分影像無法使用的情況,且由于很多深度模型已經(jīng)具備基本的數(shù)據(jù)增強功能,因此,本文從中挑選出了最具代表性的影像1 062張,最終標(biāo)注了16 535個標(biāo)簽。新數(shù)據(jù)集包含坍塌房屋、滑坡體、泥石流3個目標(biāo)類別。每種災(zāi)害目標(biāo)類別的標(biāo)簽數(shù)目差別很大,且以小目標(biāo)居多。各類別的一些標(biāo)注樣本如圖1所示。
圖1 3種典型地質(zhì)災(zāi)害目標(biāo)的樣本示例Fig.1 Sample Images of the Three Typical Geological Disaster Events
1)影像尺寸大。與日常場景的目標(biāo)數(shù)據(jù)集相比,無人機影像尺寸較大。常規(guī)數(shù)據(jù)集(如PASCAL VOC)中的大多數(shù)圖像尺寸不超過1 000×1 000,而DED中的圖像尺寸在2 800~5 700之間,這些大尺寸圖片作為網(wǎng)絡(luò)的輸入給深度模型的訓(xùn)練及優(yōu)化帶來了一定困難。
2)標(biāo)注方式的差異。本文對災(zāi)害影像的標(biāo)注方式不同于普通場景圖片,不能同等定義最小矩形框。日常場景圖片中的目標(biāo)大多為有規(guī)則形狀的單個目標(biāo),如一只小狗或一張桌子;災(zāi)害目標(biāo)則是成片而無特定形狀的,有些目標(biāo)區(qū)域散亂不連續(xù),不可明確區(qū)分哪塊區(qū)域?qū)儆谝粋€災(zāi)害目標(biāo)。再者,本文任務(wù)是檢測出災(zāi)害目標(biāo)的大致位置,不需要對坍塌房屋進(jìn)行計數(shù),因此,對于成片的坍塌房屋或滑坡,有時會采用幾個目標(biāo)框進(jìn)行標(biāo)注。類別實例的大小范圍很廣,小到幾個像素,大到600像素以上,實例標(biāo)簽的縱橫比差別也很大。
3)影像和目標(biāo)的特殊性。無人機影像分辨率高、細(xì)節(jié)多、數(shù)據(jù)大,對硬件設(shè)備的需求更高;信息量大,特征提取更為困難。3種目標(biāo)都呈片狀或散落狀,輪廓毫無規(guī)則可言。
本文采用Faster R?CNN[15]方法進(jìn)行實驗。Faster R?CNN是一個典型的基于深度學(xué)習(xí)的目標(biāo)檢測模型。自出現(xiàn)以來,F(xiàn)aster R?CNN的影響力越來越大,后續(xù)很多目標(biāo)檢測與分割模型都受其啟發(fā),包 括single shot multibox detector(SSD)[25]、基 于 區(qū)域的全卷積網(wǎng)絡(luò)(region?based fully convolutional network,R?FCN)[26]等。Faster R?CNN已經(jīng)不是最簡單、最快速的目標(biāo)檢測方法,但其出現(xiàn)頻率和使用表現(xiàn)仍位列前茅。目前,F(xiàn)aster R?CNN仍是很多目標(biāo)檢測模型的主要思想。
Faster R?CNN的構(gòu)建分為兩個階段:①區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN),與之前的R?CNN及Fast R?CNN[27]模型相比,RPN可謂Faster R?CNN模型的主要創(chuàng)新點。它用RPN快速神經(jīng)網(wǎng)絡(luò)代替了之前慢速的選擇搜索算法,利用CNN實現(xiàn)候選區(qū)域生成這一關(guān)鍵步驟,加速了整個模型的訓(xùn)練進(jìn)程。輸入圖像先由一個基礎(chǔ)CNN作為特征提取器處理,并將某些選定的中間卷積層得到的特征圖輸入RPN進(jìn)行候選區(qū)域提取,整個RPN則是用完全卷積的方式高效實現(xiàn)。②將階段①得到的候選區(qū)域輸入到一個本質(zhì)上是Fast R?CNN的檢測器,其與前面的RPN共享特征以構(gòu)成統(tǒng)一網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),再添加池化層和一些全連接層,連接softmax分類器和邊界框回歸器。分類器對邊框內(nèi)容進(jìn)行分類,或者舍棄它并將其標(biāo)記為背景;邊框回歸器負(fù)責(zé)調(diào)整邊框坐標(biāo),使之更好地包含目標(biāo)。獲取具備類別標(biāo)注的目標(biāo)檢測框后,還要進(jìn)行非極大值抑制后處理,以實現(xiàn)邊框調(diào)整和簡化。其中,基礎(chǔ)CNN的選擇和區(qū)域框的設(shè)定對檢測結(jié)果都有很大影響。
VGG16[28]和殘差網(wǎng)絡(luò)(residual network,ResNet)[29]是常見的兩種基礎(chǔ)CNN。VGG16采用連續(xù)的幾個3×3的卷積核代替較大卷積核,這樣多層的非線性層就可以增加網(wǎng)絡(luò)深度,以學(xué)習(xí)更復(fù)雜的模型,并且參數(shù)更少。VGG16使用了一種“多次重復(fù)使用同一大小的卷積核來提取更復(fù)雜和更具表達(dá)性特征”的塊結(jié)構(gòu),這種結(jié)構(gòu)在VGG之后被廣泛使用?,F(xiàn)有研究表明,網(wǎng)絡(luò)深度有著至關(guān)重要的影響,在確保沒有過擬合的前提下,一般網(wǎng)絡(luò)越深,可獲得的準(zhǔn)確度越高,但更深的網(wǎng)絡(luò)卻存在梯度消失、爆炸或退化的問題。ResNet的出現(xiàn)很好地減輕了深度網(wǎng)絡(luò)的退化問題,從而能夠訓(xùn)練更深的網(wǎng)絡(luò)。ResNet設(shè)計了一種殘差模塊,該模塊在輸入和輸出之間建立直接的連接,這種新增的層只需要在原來的輸入層基礎(chǔ)上學(xué)習(xí)新的特征,即學(xué)習(xí)殘差。因此,殘差結(jié)構(gòu)既不增加計算復(fù)雜度,又不增加模型的參數(shù)量。目前的50、101、152層的ResNet已被廣泛使用,不僅沒有出現(xiàn)退化問題,還顯著降低了錯誤率,同時保證了較低的計算復(fù)雜度。
Faster R?CNN中的RPN在最后特征圖層每個元素的對應(yīng)位置會生成9個不同大小和尺寸的區(qū)域框,稱為Anchor。這些Anchor的尺寸和比例都是預(yù)先設(shè)定好的,沒有根據(jù)數(shù)據(jù)集中的目標(biāo)大小設(shè)置,導(dǎo)致其難以適用于各種類型的目標(biāo)檢測數(shù)據(jù)集,并且訓(xùn)練和檢測的速度也會受到影響。針對此問題,已有不少研究將k?means聚類算法用于優(yōu)化Anchor的尺寸和大小的設(shè)置,使之更符合特定類型的數(shù)據(jù)集。k?means目前在目標(biāo)檢測領(lǐng)域的應(yīng)用主要是YOLOv2及其改進(jìn)版本。比如,YOLOv2用的是k?means聚類[30],而YOLOv3用的是k?means++聚類[31]。應(yīng)用于目標(biāo)檢測時,k?means算法并不使用標(biāo)準(zhǔn)的歐氏距離,而是使用交并比(intersection over union,Io U)度量,以避免大區(qū)域框比小區(qū)域框產(chǎn)生的錯誤多。在Faster R?CNN模型中,可以使用k?means對訓(xùn)練集進(jìn)行聚類分析,得到目標(biāo)框的k個聚類中心,使用這k種聚類中心的尺寸代替Anchor原本設(shè)定的9個框的尺寸,也可以根據(jù)聚類結(jié)果和復(fù)雜度更改Anchor的數(shù)量。
為了檢驗所提出的DED在災(zāi)害目標(biāo)上的檢測功能并評估其應(yīng)用效果,本文使用Ubuntu16.04環(huán)境下的Tensorflow框架,在單個GTX 1070顯卡上重新訓(xùn)練和評估Faster R?CNN模型[32]。采取遷移學(xué)習(xí)中的模型遷移方式,使用VGG16、Res Net?50、ResNet?101 3種基礎(chǔ)網(wǎng)絡(luò)來微調(diào)訓(xùn)練Faster R?CNN模型,檢驗不同深度的網(wǎng)絡(luò)對于DED的適用性;基于k?means算法對訓(xùn)練集進(jìn)行聚類分析,根據(jù)聚類結(jié)果修改Faster R?CNN中固定設(shè)置的Anchors尺寸。本文采用平均精度(average precision,AP)、平均精度均值(mean AP,mAP)指標(biāo)和直接觀察模型對新影像的預(yù)測結(jié)果進(jìn)行評價。
模型經(jīng)訓(xùn)練集訓(xùn)練后,用測試集檢驗?zāi)P偷木取y試結(jié)果的mAP值統(tǒng)計結(jié)果見表3。表4為3種目標(biāo)檢測數(shù)據(jù)集在相同模型下的mAP值比較。
表3 基于DED訓(xùn)練不同深度網(wǎng)絡(luò)的測試結(jié)果Tab.3 Test Results of Different Deep Networks Trained by DED
表4 不同數(shù)據(jù)集在相同模型下的mAPTab.4 mAP Values of Different Datasets Obtained by the Same Model
數(shù)據(jù)是決定模型學(xué)習(xí)結(jié)果上限的最核心要素。一般而言,在訓(xùn)練數(shù)據(jù)足夠多的情況下,網(wǎng)絡(luò)越深效果越好。根據(jù)本文實驗結(jié)果,DED的規(guī)模量級還不足以訓(xùn)練好ResNet,出現(xiàn)了過擬合現(xiàn)象,其mAP值比使用淺層網(wǎng)絡(luò)的VGG16低。由于3種災(zāi)害目標(biāo)的標(biāo)簽樣本數(shù)量不同,它們在不同深度的網(wǎng)絡(luò)中的訓(xùn)練效果也不一樣:隨著網(wǎng)絡(luò)層數(shù)的增加,滑坡體的檢測精度越來越高,而泥石流的檢測精度越來越低。在DED中,含有泥石流樣本的影像是最少的。
從表4可以看出,DED訓(xùn)練模型后得到的mAP值與VOC數(shù)據(jù)集相差較遠(yuǎn),而與COCO數(shù)據(jù)集相比則略有優(yōu)勢。這3種數(shù)據(jù)集的目標(biāo)內(nèi)容和應(yīng)用場景不同,三者的圖片及標(biāo)簽舉例見圖2。COCO數(shù)據(jù)集包含91類目標(biāo),小目標(biāo)較多,且包含復(fù)雜的日常場景,因此其mAP值最低。DED的目標(biāo)形狀特殊,很多時候需要分成多個矩形框進(jìn)行標(biāo)注,這與VOC及COCO的日常場景目標(biāo)可以逐個標(biāo)注的方式不同,而精度評價指標(biāo)則使用相同的IoU和mAP計算方式,本文認(rèn)為這是導(dǎo)致DED的mAP值低的主要原因。再者,多個矩形框標(biāo)注零散且片狀分布的目標(biāo),模型會因為非極大值抑制而過濾其中幾個預(yù)測框,導(dǎo)致出現(xiàn)一些漏檢,最終的檢測率降低。模型原始設(shè)置的Anchor尺寸也不適合DED,因此,本文用k?means對訓(xùn)練數(shù)據(jù)集進(jìn)行聚類,基于聚類結(jié)果更改了Anchor尺寸設(shè)置,使之更符合DED標(biāo)注框的大小范圍,mAP提高了2.84%。
圖2 示例圖片和標(biāo)簽Fig.2 Sample Images and Annotations
模型經(jīng)DED訓(xùn)練后,使用新的影像進(jìn)行預(yù)測,預(yù)測結(jié)果包括目標(biāo)定位框、目標(biāo)分類標(biāo)簽以及每對標(biāo)簽和邊框所對應(yīng)的概率(即得分)。部分預(yù)測結(jié)果見圖3。圖片中的大部分目標(biāo)都可被檢測出來,且得分較高,能達(dá)到定位檢測出絕大部分災(zāi)害目標(biāo)的效果。其中,使用k?means聚類結(jié)果優(yōu)化Anchor尺寸設(shè)置的Faster R?CNN+VGG16模型的預(yù)測效果更佳,漏檢率更低、目標(biāo)框的平均得分最高??梢?,本文制作的DED是可用、有效的,而且相較于其他災(zāi)害目標(biāo)檢測方法,基于深度模型的方法檢測目標(biāo)快速高效,可在后續(xù)研究中應(yīng)用于低空無人機在線檢測災(zāi)害目標(biāo)系統(tǒng)。
圖3 兩種訓(xùn)練模型的預(yù)測結(jié)果示例Fig.3 Examples of Prediction Results Obtained by Two Training Models
綜上,基于深度網(wǎng)絡(luò)進(jìn)行災(zāi)害目標(biāo)檢測是可行的,本文制作的DED也可成功用于訓(xùn)練深度模型。在檢測速度方面,基礎(chǔ)網(wǎng)絡(luò)的深度差別以及每張影像包含的目標(biāo)個數(shù)不同,導(dǎo)致耗時有差異,但總體相差不大,每張影像的檢測耗時平均值在0.4 s左右。本文未對檢測速度展開分析,主要討論了檢測精度。
經(jīng)DED訓(xùn)練的模型,其測試精度mAP值較低,原因在標(biāo)簽制作的介紹中已有分析,災(zāi)害目標(biāo)呈片狀或散亂分布,制作標(biāo)簽時難以確定目標(biāo)邊界。多個矩形框標(biāo)注一片區(qū)域的方式導(dǎo)致無法用普通場景的目標(biāo)檢測評價指標(biāo)來衡量本文模型質(zhì)量。圖4為預(yù)測結(jié)果圖和人工標(biāo)注圖,按照預(yù)測框與真實標(biāo)簽的IoU值來計算精度,結(jié)果確實會很低。而目視判讀發(fā)現(xiàn),預(yù)測結(jié)果已經(jīng)基本滿足定位受災(zāi)區(qū)域這一應(yīng)用需求。對于這些成片且零散分布的災(zāi)害目標(biāo),存在少量漏檢是正常的,也難以通過數(shù)個目標(biāo)框就將大片的目標(biāo)定位完整。本文預(yù)測了50張新圖片,將預(yù)測結(jié)果與目視判讀進(jìn)行比較,發(fā)現(xiàn)絕大多數(shù)目標(biāo)均能被檢測出來,實現(xiàn)正確分類和大致定位,沒有出現(xiàn)成片目標(biāo)的漏檢,尺寸較大目標(biāo)的檢測效果魯棒性較好。
圖4 預(yù)測結(jié)果與人工標(biāo)注結(jié)果的比較Fig.4 Comparison of Prediction Results with Manual Annotation
模型預(yù)測時,少數(shù)情況下也出現(xiàn)了錯檢,如圖5所示。錯檢發(fā)生在背景與目標(biāo)極為相近的情況下,這在實際應(yīng)用中也會遇到。尤其是在地形復(fù)雜以及影像模糊時,人眼難以區(qū)分目標(biāo)與背景,進(jìn)行標(biāo)注也極為困難。災(zāi)害目標(biāo)的特殊性導(dǎo)致了其檢測結(jié)果的多樣性和分析問題的困難性。
圖5 被誤檢測有滑坡的圖片F(xiàn)ig.5 Pictures That Were Erroneously Detected to Have Landslides
深度模型的訓(xùn)練是一個非常復(fù)雜的過程,包括各類參數(shù)的設(shè)置和初始化策略,受到硬件條件的限制以及數(shù)據(jù)集的顯著影響。針對不同的應(yīng)用場景,需要制作特定的數(shù)據(jù)集,并結(jié)合實際應(yīng)用來分析和評價數(shù)據(jù)集的質(zhì)量和模型的適用程度。使用數(shù)據(jù)集訓(xùn)練深度模型后,要達(dá)到的實際效果是能快速檢測災(zāi)害目標(biāo)的類別并定位出其大致位置。DED在精度上低于日常場景數(shù)據(jù)集,但其實際效果是明顯的。由預(yù)測結(jié)果可知,利用DED微調(diào)出來的模型已經(jīng)能將絕大多數(shù)災(zāi)害目標(biāo)檢測出來,分類正確且得到大致定位,雖有小部分漏檢,但錯檢率極低,說明基于DED訓(xùn)練Faster R?CNN模型是有實際效果的。
本文收集了大量無人機影像,根據(jù)性質(zhì)、組成、用途三大要義制作了首個版本DED,包含坍塌房屋、滑坡體和泥石流三大常見地質(zhì)災(zāi)害目標(biāo),并基于Faster R?CNN模型對其進(jìn)行驗證。實驗結(jié)果表明,通過DED訓(xùn)練的模型能成功預(yù)測出災(zāi)害目標(biāo),目標(biāo)分類及定位效果較好。對比實驗結(jié)果表明,DED對不同深度的網(wǎng)絡(luò)模型的訓(xùn)練效果有差異,使用k?means聚類結(jié)果優(yōu)化模型Anchor的尺寸設(shè)置后,檢測精度明顯提高。受限于無人機影像和災(zāi)害目標(biāo)的特殊性,實驗結(jié)果精度不夠高。后續(xù)研究會繼續(xù)增加目標(biāo)影像數(shù)據(jù),同時細(xì)化探究災(zāi)害目標(biāo)與日常目標(biāo)的區(qū)別,改善標(biāo)簽制作過程。再針對這一類無人機災(zāi)害目標(biāo)數(shù)據(jù)集對網(wǎng)絡(luò)模型進(jìn)行改進(jìn),使其對災(zāi)害目標(biāo)的檢測準(zhǔn)確度更高、速度更快,以期能真正應(yīng)用于應(yīng)急救災(zāi)系統(tǒng)。