金璞
(武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430072)
在媒體新聞中,無(wú)人機(jī)經(jīng)常與一些負(fù)面新聞聯(lián)系到一起,例如:由未認(rèn)證無(wú)人機(jī)飛行行為造成的航班延遲、無(wú)人機(jī)攻擊行為等。然而,最近在遙感和計(jì)算機(jī)視覺領(lǐng)域的進(jìn)展表明,無(wú)人機(jī)已經(jīng)被廣泛地應(yīng)用到了很多實(shí)際任務(wù)中。例如,地震之后,無(wú)人機(jī)可以被應(yīng)用到災(zāi)害評(píng)估、投送救災(zāi)物資、定位受害者等救災(zāi)任務(wù)中;除此之外,就災(zāi)后重建而言,城市規(guī)劃者也可以利用無(wú)人機(jī)更好地掌握受災(zāi)城市的環(huán)境,并實(shí)現(xiàn)最優(yōu)的城市復(fù)建方案。在精確農(nóng)業(yè)領(lǐng)域,農(nóng)業(yè)工作者可以利用無(wú)人機(jī)精確噴灑農(nóng)藥,并收集農(nóng)田數(shù)據(jù)以評(píng)估作物長(zhǎng)勢(shì),病蟲害情況,和預(yù)估產(chǎn)量。通過與地理空間信息的結(jié)合,無(wú)人機(jī)也可以用來監(jiān)控和跟蹤野生動(dòng)物以達(dá)到動(dòng)物保護(hù)的目的。
不同于衛(wèi)星,無(wú)人機(jī)能夠以較低的成本提供實(shí)時(shí)的、高精度的視頻數(shù)據(jù)。實(shí)時(shí)視頻流使得遠(yuǎn)程快速?zèng)Q策成為可能。進(jìn)一步,無(wú)人機(jī)明顯地降低了對(duì)天氣情況的依賴,如云層,進(jìn)而提供更大的靈活性去解決各式各樣的問題。
越多的無(wú)人機(jī)能產(chǎn)生越多的視頻數(shù)據(jù)。據(jù)統(tǒng)計(jì),在2019 年,就有超過兩百萬(wàn)的無(wú)人機(jī)在各地注冊(cè)。每天小型的無(wú)人飛行器就能輕松產(chǎn)生超過150 太字節(jié)的數(shù)據(jù)。無(wú)人機(jī)大數(shù)據(jù)的新紀(jì)元到來了。人力去檢視如此海量的航空視頻數(shù)據(jù)并理解其內(nèi)容顯然是不現(xiàn)實(shí)的。因此,自動(dòng)解譯航空視頻數(shù)據(jù)的算法研究非常重要。
對(duì)于航空影像理解任務(wù)而言,從視頻中學(xué)習(xí)關(guān)鍵特征和表達(dá)是至關(guān)重要的任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)展現(xiàn)了卓越的從圖片中學(xué)習(xí)有效視覺特征的能力。例如,ResNet[1]已經(jīng)在ImageNet 數(shù)據(jù)集上,實(shí)現(xiàn)了令人印象深刻的識(shí)別性能。這個(gè)表現(xiàn)甚至好于目前有記錄的人類表現(xiàn)。相對(duì)于一張只能提供空間信息的遙感影像,航空視頻更可以提供時(shí)間信息。這種信息對(duì)于描述一個(gè)復(fù)雜的動(dòng)態(tài)事件十分重要。因此,從圖像識(shí)別到視頻分類的跨越,相關(guān)研究者依然需要做大量的努力以提取具有表達(dá)力的視頻時(shí)空特征。
航拍事件識(shí)別是一項(xiàng)較新的任務(wù),其目的在于識(shí)別航拍視頻中發(fā)生的事件。該任務(wù)最重要的步驟是視頻時(shí)空特征提取,目前現(xiàn)有的方法可以分為兩類。一方面,多個(gè)方法旨在學(xué)習(xí)一個(gè)全局的時(shí)空特征表達(dá)。這個(gè)特征能夠從整體上表達(dá)一個(gè)視頻。一個(gè)最直接的實(shí)現(xiàn)方法是利用二維卷積分別從每個(gè)視頻幀提取空間特征,然后在疊起的特征圖上進(jìn)行池化操作以獲取時(shí)間特征[2]。然而,這種方法的一個(gè)問題是忽視了視頻幀之間的時(shí)間互動(dòng)關(guān)系。為了解決這個(gè)問題,Donahue[3]利用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network),例如LSTM,在時(shí)間維度整合特征以捕獲時(shí)間依賴性,基于LSTM 的方法如圖1 所示。然而,這種方法的有效性很大地卻決于長(zhǎng)期記憶特征學(xué)習(xí)的效果。進(jìn)一步,三維CNNs 是用于視頻表征學(xué)習(xí)的相對(duì)自然的模型,其能夠通過空間和時(shí)間維度上執(zhí)行三維卷積來學(xué)習(xí)全局的時(shí)空特征。有些三維卷積架構(gòu)已經(jīng)被深入地研究并展示了令人印象深刻地性能。例如,Tran[4]提出了一個(gè)三維CNN 模型,其利用一個(gè)3×3×3的卷積核在大型的視頻數(shù)據(jù)集上去學(xué)習(xí)視頻特征。除此之外,隨后提出的膨脹三維卷積和分解三維卷積也進(jìn)一步提高了三維卷積神經(jīng)網(wǎng)絡(luò)的性能。
圖1 基于LSTM 的視頻特征提取算法流程
然而,上述利用二維或者三維卷積的方法受限于較小的時(shí)間感受野,無(wú)法充分地捕獲多樣的時(shí)間依賴性。因此,第二大類方法旨在顯示地建立時(shí)間關(guān)系模型并展示了十分有潛力的性能。例如:Lin[5]旨在隨機(jī)選擇不同數(shù)量的幀以了解其因果關(guān)系,然后通過累積不同尺度的幀關(guān)系來產(chǎn)生多尺度的時(shí)間關(guān)系。
我們研究了目前存在的視頻分類模型,一類為提取一個(gè)整體時(shí)空特征的方法,代表模型有C3D[4],P3D[6],I3D[7]等。另一類為學(xué)習(xí)時(shí)間關(guān)系特征的方法,代表模型有TRN[8]等。基于對(duì)現(xiàn)有動(dòng)作的調(diào)查和研究,我們提出了一個(gè)新的深度神經(jīng)網(wǎng)絡(luò)。該融合網(wǎng)絡(luò)不僅提取整體特征,而且學(xué)習(xí)視頻內(nèi)容的時(shí)間關(guān)系,并將學(xué)習(xí)的特征用于航空視頻分類。
該網(wǎng)絡(luò)利用了一個(gè)雙通路架構(gòu),如圖2 所示。其一是一個(gè)整體特征通路,其為了學(xué)習(xí)一個(gè)普適性的特征。該特征包含視頻幀的外表屬性和短期的時(shí)間變化信息。該通路將視頻視為一個(gè)整體并利用膨脹3D 卷積(inflated 3D convolution)操作,學(xué)習(xí)視頻整體特征。其二是一個(gè)時(shí)間關(guān)系通路,其專注于捕獲任意視頻幀時(shí)間的多尺度時(shí)間關(guān)系,該關(guān)系提供長(zhǎng)期的時(shí)間依賴特征。該通路通過不同的采樣率采樣幀層面的特征向量,并利用一系列的多層感知器(multilayerperceptrons)學(xué)習(xí)視頻幀之間的多尺度時(shí)間關(guān)系。然后,我們提出了一個(gè)新的融合模塊,該模塊是為了融合來自兩個(gè)通路學(xué)習(xí)的特征,并建立一個(gè)更加具有判別能力的表征,以提高分類精度。該模塊按照特征進(jìn)行仿射變換,線性地調(diào)制整體特征和時(shí)間關(guān)系特征。
圖2 融合網(wǎng)絡(luò)處理流程
融合模塊將兩條路徑的輸出結(jié)合起來,以建立更具區(qū)分性的表示形式。更具體地說,它使用按特征進(jìn)行線性組合和級(jí)聯(lián)運(yùn)算來對(duì)整體特征和時(shí)間關(guān)系之間的高級(jí)交互進(jìn)行建模。將兩個(gè)特征饋入模塊以產(chǎn)生融合的特征,最終將其放入完全連接的層中以進(jìn)行視頻分類。利用兩個(gè)具有Dropout 操作的簡(jiǎn)單MLP來實(shí)現(xiàn)在兩個(gè)仿射變換,以產(chǎn)生兩個(gè)1024 維向量最終的融合特征是2048 維向量。
我們提出的融合網(wǎng)絡(luò)在一個(gè)航空視頻分類數(shù)據(jù)集上被評(píng)估。驗(yàn)證數(shù)據(jù)集為ERA 數(shù)據(jù)集[9]。本節(jié)介紹了實(shí)驗(yàn)數(shù)據(jù)集ERA數(shù)據(jù)集,多個(gè)實(shí)驗(yàn)評(píng)價(jià)指標(biāo),以及實(shí)驗(yàn)結(jié)果與分析。
首先,我們使用ERA 數(shù)據(jù)集,它是一個(gè)事件識(shí)別數(shù)據(jù)集,由從YouTube 收集的2864 個(gè)航拍事件視頻組成。在該數(shù)據(jù)集中定義了25 個(gè)事件。
我們將每個(gè)類別的精度,總體精度和混淆矩陣用作評(píng)估指標(biāo),以比較不同模型的性能。具體而言,使用以下等式計(jì)算每類精度:
通過將正確分類的測(cè)試樣品的數(shù)量除以所有測(cè)試樣品的數(shù)量,可以計(jì)算出總體精度。
我們?cè)贓RA 數(shù)據(jù)集上比較了我們的網(wǎng)絡(luò)和其他競(jìng)爭(zhēng)對(duì)手,并在表1 中報(bào)告了數(shù)值結(jié)果。如我們所見,我們的模型具有出色的性能,并提供了66.8%的OA,比第二好的模型高2.5%。
表1 視頻分類結(jié)果
在本文中,我們提出了一種新穎的方法,該融合方法采用雙路徑網(wǎng)絡(luò)從航拍視頻中學(xué)習(xí)特征表達(dá)。具體而言,該網(wǎng)絡(luò)利用膨脹的3D 卷積來捕獲整體表示路徑上的整體特征。同時(shí),時(shí)間關(guān)系模塊學(xué)習(xí)多個(gè)幀之間的時(shí)間依賴性。我們將模型與最新方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)實(shí)現(xiàn)了最優(yōu)的表現(xiàn)。時(shí)間關(guān)系路徑的引入可以增強(qiáng)捕獲代表性時(shí)間關(guān)系的能力。