王中杰 張鴻
摘 要:針對傳統(tǒng)的機器學(xué)習(xí)算法對大數(shù)據(jù)量的航運監(jiān)控視頻識別分類的效果不佳,以及現(xiàn)有的三維(3D)卷積的識別準確率較低的問題,基于3D卷積神經(jīng)網(wǎng)絡(luò)模型,結(jié)合較為流行的視覺幾何組(VGG)網(wǎng)絡(luò)結(jié)構(gòu)以及GoogleNet的Inception網(wǎng)絡(luò)結(jié)構(gòu),提出了一種基于VGG-16的3D卷積網(wǎng)絡(luò)并引入Inception模塊的VIC3D模型對航運貨物實時監(jiān)控視頻進行智能識別。首先,將從攝像頭獲取到的視頻數(shù)據(jù)處理成圖片;然后,將等間隔取幀的視頻幀序列按照類別進行分類并構(gòu)建訓(xùn)練集與測試集;最后,在保證運行環(huán)境相同并且訓(xùn)練方式相同的前提下,將結(jié)合后的VIC3D模型與原模型分別進行訓(xùn)練,根據(jù)測試集的測試結(jié)果對各種模型進行比較。實驗結(jié)果表明,VIC3D模型的識別準確率在原模型的基礎(chǔ)上有所提升,相較于組約束循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(GCRNN)模型的識別準確率提高了11.1個百分點,且每次識別所需時間減少了1.349s;相較于C3D的兩種模型的識別準確率分別提高了14.6個百分點和4.2個百分點。VIC3D模型能有效地應(yīng)用到航運視頻監(jiān)控項目中。
關(guān)鍵詞:智能航運監(jiān)控;視頻識別;深度學(xué)習(xí);三維卷積;神經(jīng)網(wǎng)絡(luò)
中圖分類號: TP391.4 文獻標志碼:A
Shipping monitoring event recognition based on three-dimensional
convolutional neural network
WANG Zhongjie1,2*, ZHANG Hong1,2
(1. College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan Hubei 430065, China;
2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System
(Wuhan University of Science and Technology), Wuhan Hubei 430065, China)
Abstract: Aiming at the poor effect of traditional machine learning algorithms on large data volume shipping monitoring video recognition classification and the low recognition accuracy of previous three-Dimensional (3D) convolution, based on 3D convolutional neural network model, combined with the popular Visual Geometry Group (VGG) network structure and GoogleNets Inception network structure, a new VGG-Inception 3D Convolutional neural network (VIC3D) model based on VGG-16 3D convolutional network and introduced Inception module was proposed to realize the intelligent recognition of the real-time monitoring video of shipping goods. Firstly, the video data acquired from the camera were processed into images. Then, the video frame sequences by equal interval frame fetching were classified according to the categories, and the training set and the testing set were constructed. Under the premise of the same operating environment and the same training mode, the VIC3D model after combination and the original model were trained separately. Finally, the various models were compared based on the test results of the testing set. The experimental results show that, compared with the original model, the recognition accuracy of VIC3D model is improved, which is increased by 11.1 percentage points compared to the Group-constrained Convolutional Recurrent Neural Network (GCRNN) model, and the time required for every recognition is reduced by 1.349s; the recognition accuracy of VIC3D model is increased by 14.6 percentage points and 4.2 percentage points respectively compared to the two models of C3D. The VIC3D model can be effectively applied to the shipping video surveillance projects.
Key words: intelligent shipping monitoring; video recognition; deep learning; three-Dimensional (3D) convolution; neural network
0 引言
近幾年人工智能[1]迅速發(fā)展,越來越多地應(yīng)用到計算機以外的行業(yè),許多傳統(tǒng)行業(yè)開始不斷地智能化。特別是關(guān)于視頻監(jiān)控這一領(lǐng)域,很多傳統(tǒng)行業(yè)以及各大安全部門都設(shè)有相應(yīng)的監(jiān)控系統(tǒng),一般是安排相關(guān)人員管理監(jiān)控室進行人工監(jiān)控,并對異常情況發(fā)出警報。但由于人類會產(chǎn)生疲勞感并且在監(jiān)視大量的攝像頭時難免產(chǎn)生遺漏,因此有必要考慮引入人工智能實現(xiàn)自動化,也就是智能監(jiān)控系統(tǒng)[2-4]。
航運監(jiān)控是針對江海中運輸貨物的船舶進行監(jiān)控,通過在船上安裝攝像頭來監(jiān)視船只,以防止船家偷取貨物,以及對船舶的異常狀態(tài)進行預(yù)警。而監(jiān)控時產(chǎn)生的視頻數(shù)據(jù)是智能航運監(jiān)控的數(shù)據(jù)集來源,這就需要使用視頻識別的方法來訓(xùn)練模型。
目前智能航運監(jiān)控跟城市交通監(jiān)控系統(tǒng)[5]一樣,對攝像頭要求比較高,需要得到較高分辨率的視頻,并且拍攝角度的不同也會產(chǎn)生較大影響。還有江海上不良天氣的影響,如雨雪天氣、大霧以及光照不一等對識別率的影響也較大。這些因素使得獲取的視頻或者圖像數(shù)據(jù)質(zhì)量較差,而傳統(tǒng)方法對這類數(shù)據(jù)的訓(xùn)練效果不佳,并且傳統(tǒng)方法在訓(xùn)練數(shù)據(jù)量較大的模型時效果也不好。
近幾年隨著大量學(xué)者對深度學(xué)習(xí)[6-8]的不斷研究,越來越多的研究領(lǐng)域開始使用深度學(xué)習(xí),深度學(xué)習(xí)方法在計算機視覺領(lǐng)域不斷取得突破,并且取得了相對較好的效果,特別是訓(xùn)練數(shù)據(jù)量較為龐大的模型時,其優(yōu)勢較為明顯。然而,以往的深度學(xué)習(xí)使用的卷積神經(jīng)網(wǎng)絡(luò)并不能用于處理視頻數(shù)據(jù)。因此,針對視頻識別領(lǐng)域,學(xué)者們以深度學(xué)習(xí)為基礎(chǔ)提出了一些新的網(wǎng)絡(luò)結(jié)構(gòu),如:以文獻[9]為代表的雙流(two-stream)網(wǎng)絡(luò),以文獻[10]為代表的三維卷積神經(jīng)網(wǎng)絡(luò)(three-Demensional Convolutional Neural Network, 3DCNN),以及以文獻[11]為代表的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)等。
本文基于3D卷積神經(jīng)網(wǎng)絡(luò)模型,對航運貨物實時監(jiān)控視頻進行智能識別,并對船的異常情況進行預(yù)警,提出了基于視覺幾何組-16(Visual Geometry Group-16, VGG-16)網(wǎng)絡(luò)并與Inception結(jié)構(gòu)[12]融合的VIC3D(VGG-Inception 3D CNN)模型,對識別模型的準確率進行優(yōu)化。本文使用智能航運監(jiān)控項目中獲取的數(shù)據(jù)集,并將其分為裝卸貨等8個類別進行訓(xùn)練,將不同方法訓(xùn)練獲得的模型進行檢測并比較分析。實驗結(jié)果表明,本文模型在識別精度方面優(yōu)于基礎(chǔ)模型: 在稍微降低識別速度的前提下將識別準確率提高到了93.8%;相較于單純使用VGG-11結(jié)構(gòu)的模型,本文模型的準確率提高了4.2個百分點,識別速度則平均僅慢了0.198s。
1 相關(guān)工作
近幾年深度學(xué)習(xí)的相關(guān)研究逐漸成熟后,國內(nèi)外眾多研究者針對視頻識別提出了許多新方法或者基于現(xiàn)有研究的改進方法,基于這些方法,視頻識別領(lǐng)域的研究得到了迅速的發(fā)展。可以將其大致分為兩類:傳統(tǒng)方法和深度學(xué)習(xí)方法。
1.1 傳統(tǒng)方法
傳統(tǒng)方法也就是深度學(xué)習(xí)引入之前的方法,通常從檢測時空興趣點(Space-Time Interest Points, STIP)[13]開始,然后用局部表示來描述這些點,基本步驟為關(guān)鍵點的選取、特征提取、特征編碼、訓(xùn)練分類器。比較經(jīng)典的有:密集軌跡(Dense Trajectories, DT)算法[14],利用光流場獲取視頻序列中的一些軌跡,沿著軌跡提取光流直方圖(Histograms of Optical Flow, HOF)、定向梯度直方圖(Histograms of Oriented Gradients, HOG)、運動邊界直方圖(Motion Boundary Histogram, MBH)和軌跡(trajectory)四種特征,最后利用Fisher矢量(Fisher Vector, FV)方法對特征進行編碼,再基于編碼結(jié)果訓(xùn)練支持向量機 (Support Vector Machine, SVM)分類器;改進的密集軌跡(Improved Dense Trajectories, IDT)算法[15],在DT算法的基礎(chǔ)上利用前后幀視頻間的光流和快速魯棒特征(Speeded Up Robust Features, SURF)關(guān)鍵點進行匹配,從而消除/減弱相機運動帶來的影響。相對來說,傳統(tǒng)方法計算速度快,結(jié)構(gòu)也相對簡單,但是數(shù)據(jù)量過大時識別準確率較低。
1.2 深度學(xué)習(xí)方法
隨著深度學(xué)習(xí)方法的提出,卷積神經(jīng)網(wǎng)絡(luò)逐漸廣泛應(yīng)用于計算機視覺領(lǐng)域,無論是圖像分類、目標檢測還是視頻識別方面,都有大量學(xué)者采用深度學(xué)習(xí)的方法來進行研究。
文獻[16]使用固定大小的窗口來堆疊由卷積神經(jīng)網(wǎng)絡(luò)提取的每一幀特征圖,然后用時空卷積來學(xué)習(xí)視頻特征。文獻[17] 提出了一個多任務(wù)端到端聯(lián)合分類回歸遞歸神經(jīng)網(wǎng)絡(luò),以更好地探索動作類型和時間定位信息,并通過采用聯(lián)合分類和回歸優(yōu)化目標,自動定位動作的起點和終點。文獻[18]提出了時序保留卷積 (Temporal Preservation Convolutional, TPC)網(wǎng)絡(luò),采用時序卷積操作能夠在不進行時序池化操作的情況下獲得同樣大小的感受野而不縮短時序長度,但在卷積解卷積卷積(Convolutional-Deconvolutional -Convolutional, CDC)濾波器之前時間上的下采樣存在一定時序信息的丟失。
文獻[19]在文獻[11]的基礎(chǔ)上將循環(huán)卷積神經(jīng)網(wǎng)絡(luò)加以改進,提出了一種新的端到端深度神經(jīng)網(wǎng)絡(luò)模型——組約束卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Group-constrained Convolutional Recurrent Neural Network, GCRNN)用于時間序列分類(Time-Series Classification, TSC)。首先,采用并列的數(shù)個卷積神經(jīng)網(wǎng)絡(luò)對連續(xù)的幾個視頻幀提取特征并訓(xùn)練,再將前面提取的特征輸入到后續(xù)的門控循環(huán)單元(Gated Recurrent Unit, GRU)神經(jīng)元構(gòu)成的循環(huán)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)時序特征,最后進行全連接并使用softmax層訓(xùn)練。
可以看出,上述GCRNN模型訓(xùn)練過程較為繁雜,并且計算量較大,進行識別時所花的時間也相對較長。文獻[10]中的3D卷積神經(jīng)網(wǎng)絡(luò)則解決了該問題,該網(wǎng)絡(luò)將傳統(tǒng)的二維卷積擴展到了三維,相比前面的方法,能更好地學(xué)習(xí)到視頻幀的時序特征。因為二維卷積在進行第一次卷積之后就將時序信息完全折疊了,而三維卷積則在卷積之后保留了時序信息。文獻[10]中采用的卷積網(wǎng)絡(luò)是VGG-11網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)較為簡單并且訓(xùn)練速度非??欤捎谟?xùn)練的節(jié)點信息較少所以準確度相較于現(xiàn)在研究較為一般。因此基于上述考慮,本文將目前在識別準確率方面明顯優(yōu)于VGG-11網(wǎng)絡(luò)的VGG-16網(wǎng)絡(luò)作為三維卷積網(wǎng)絡(luò)的骨干,并為了學(xué)習(xí)到更多的特征在此基礎(chǔ)上加入部分Inception網(wǎng)絡(luò)結(jié)構(gòu),并取得了更高的識別精度。
2 VIC3D模型
由于船舶的狀態(tài)變化不明顯,采用短時間內(nèi)的連續(xù)幀的方法很難提取到有效的時序信息,對裝卸貨的識別準確率影響較大。因此本文采用每5min取一幀的方法,將相鄰幀之間船舶的變化幅度擴大使裝卸貨的過程中貨物量的變化更加明顯,以6幀時序幀序列作為輸入,以三維卷積作為基礎(chǔ)框架,使用VGG-16網(wǎng)絡(luò)并結(jié)合Inception網(wǎng)絡(luò)的VIC3D模型來訓(xùn)練數(shù)據(jù)集,最后用模型對航運監(jiān)控中船舶一段時間內(nèi)的狀態(tài)進行預(yù)警。
2.1 基于航運監(jiān)控視頻的三維卷積方法
三維卷積神經(jīng)網(wǎng)絡(luò)既學(xué)習(xí)圖片的空間特征,也學(xué)習(xí)了視頻相鄰幀之間的時序信息,這得益于它采用的特殊卷積核。本文航運監(jiān)控圖像三維卷積的方法如圖1所示。
從圖1中可以看出,三維卷積不僅提取了單幀圖片的空間特征,也提取了不同幀之間的時序特征,通過采用三維卷積核來提取相鄰幀中同一區(qū)域的特征,因此獲得的特征圖也是三維的,而圖中同種線型的線條代表提取特征時共享了權(quán)重。相較于使用傳統(tǒng)的二維卷積,該方法解決了以往卷積方式無法提取時序特征的問題;然而該方法在卷積過程中,每次卷積都會對時間維度進行壓縮,因此只能采用淺層的神經(jīng)網(wǎng)絡(luò),但最后的卷積過程仍使用二維卷積,導(dǎo)致時序信息提取失敗。
2014年牛津大學(xué)計算機視覺組合和Google DeepMind公司研究員提出了VGGNet系列的結(jié)構(gòu)之后,文獻[10]在文獻[20]的研究基礎(chǔ)上,引入了VGG-11網(wǎng)絡(luò),將其擴展到三維并經(jīng)過改進后能保持使用三維卷積進行特征提取,避免了因引入二維卷積而丟失時序信息。因此本文將后者作為基礎(chǔ)結(jié)構(gòu)并加以改進。
2.2 基于三維卷積網(wǎng)絡(luò)的Inception結(jié)構(gòu)
最初,谷歌網(wǎng)絡(luò)(GoogLeNet)對網(wǎng)絡(luò)中的傳統(tǒng)卷積層進行了修改,提出了Inception結(jié)構(gòu),主要特點在于不僅增加了神經(jīng)網(wǎng)絡(luò)的深度,還增加了寬度,以此來提高神經(jīng)網(wǎng)絡(luò)的性能,從最開始的Inception v1不斷改進延伸到Inception v4,均在當(dāng)時取得了不錯的效果。
本文采用了Inception v4中的第三個模塊(Inception-C),并對其中的各項參數(shù)作出調(diào)整來適用于本文的三維卷積神經(jīng)網(wǎng)絡(luò)模型。該模塊可以更方便地與本文的模型結(jié)合,并且不會讓模型過于復(fù)雜而導(dǎo)致計算資源不足的問題。由于網(wǎng)絡(luò)層次過深的話容易出現(xiàn)梯度彌散而導(dǎo)致模型性能下降,并且會導(dǎo)致實際應(yīng)用中的識別所需時間大幅增加,因此本文放棄了其他模塊的加入。本文改進后的Inception-C結(jié)構(gòu)如圖2所示。
從圖2中可以看出,該結(jié)構(gòu)除了深度上的卷積層外,并列了多個卷積層以提取更多的特征,從而提高了模型的學(xué)習(xí)效果。
2.3 基于VGG與Incption網(wǎng)絡(luò)的三維卷積網(wǎng)絡(luò)模型
本文在上述三維卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,選用效果更優(yōu)的VGG-16網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),加入了Inception-C模塊,并將最后一層卷積后的特征矩陣作為本文Inception-C結(jié)構(gòu)的輸入,在進行了級聯(lián)操作后經(jīng)過3個全連接層,最后一層是softmax層。本文VIC3D模型結(jié)構(gòu)如圖3所示。
本文的輸入部分為等間隔取幀的連續(xù)6張圖片,針對這種輸入方式將VGG結(jié)構(gòu)的前3層中池化層的步長設(shè)置為了1×2×2,避免了過早地將時間維度壓縮而導(dǎo)致時序特征提取不夠充分的問題。
該VGG結(jié)構(gòu)的5層卷積層后的池化操作均采用了最大池化的方式,前2層卷積層均連續(xù)進行2次卷積,后3層則均連續(xù)進行3次卷積,共計13次卷積操作。
在第5層卷積層池化之后為Inception結(jié)構(gòu),由圖2可以看出,該部分將前面卷積之后的特征圖分別并列進行了4種卷積操作,最左側(cè)的平均池化操作中的步長為1×1×1,采用了Valid填充方式,因此不會使輸入的特征圖大小發(fā)生改變。由于本文輸入數(shù)據(jù)的時間維度為第一個維度,因此圖2中的1×3×3卷積核僅是對空間部分特征的提取,而3×1×1卷積核則是單獨對時間部分特征的提取,這種方式能夠提取更加豐富的特征。該結(jié)構(gòu)的最后部分是將5個特征圖并聯(lián)起來作為后續(xù)輸入。
本文三維卷積結(jié)構(gòu)的最后部分首先采用了一層平均池化層將時間維度進行最后的壓縮,然后進行全連接,這里將全連接層的大小改為2048以減少計算量。
此外,本文對基于VGG的三維卷積網(wǎng)絡(luò)加入了滑動平均來更新變量,滑動平均可以看作是變量的過去一段時間取值的均值,相較對變量直接賦值而言,滑動平均得到的值在圖像上更加平緩光滑,抖動性更小,不會因為某次的異常取值而使得滑動平均值波動很大。變量的更新可以表示為:
其中:變量v在t時刻更新之后記為v(t);變量v在t時刻更新之前的取值為θ(t);衰減率α決定了變量的更新速度,取值越大變量越趨于穩(wěn)定,一般選取接近1的值。
本文損失函數(shù)選用的多分類任務(wù)中常用的交叉熵(Cross-Entropy)損失函數(shù),其定義如下:
其中:n表示樣本數(shù);m為類別數(shù);y為實際類別的one-hot向量;f∧(x)為預(yù)測的類別概率。用式(2)來計算softmax回歸處理之后預(yù)測概率分布與真實概率分布之間的距離。
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)集描述
本文采用的數(shù)據(jù)集為航運智能監(jiān)控項目中積累的數(shù)據(jù)集,船上攝像頭的監(jiān)控視頻傳到服務(wù)器后處理成了連續(xù)的視頻幀,本文將從圖片服務(wù)器上獲取的數(shù)據(jù)按照相應(yīng)類別分好后形成了初步的數(shù)據(jù)集,并舍棄了黑夜部分的數(shù)據(jù),僅保留了白天部分用作訓(xùn)練。
經(jīng)過長時間的篩選,去除了數(shù)據(jù)集中圖像質(zhì)量不佳、圖片顯示不完整以及一些嚴重受到天氣影響的數(shù)據(jù),然后將剩下的數(shù)據(jù)集每一類的數(shù)量進行了平衡,避免因不同類別之間數(shù)據(jù)量差異過大而導(dǎo)致模型訓(xùn)練不佳的問題;對那些數(shù)據(jù)量過大的類別,采取對同一條船同一天的數(shù)據(jù)適量選取的方法,既可以適當(dāng)削減該類別占數(shù)據(jù)集的比重,又可以豐富該類別數(shù)據(jù)的多樣性。
經(jīng)過上述篩選,截至目前為止,本文的數(shù)據(jù)集總共包含153000張圖片,相當(dāng)于25500個視頻片段,共計8個類別,其中裝貨以及卸貨部分數(shù)據(jù)量最少,兩者分別為9990張和10800張。因此,在進行數(shù)據(jù)預(yù)處理時按照適量選取的方式將每一類數(shù)據(jù)量控制在12000張圖片,也就是2000段視頻片段,并按照9∶1的比例建立訓(xùn)練集與測試集。
3.2 模型訓(xùn)練
1)GCRNN模型訓(xùn)練。
該部分采用的是GCRNN模型[17]對本文的數(shù)據(jù)集進行訓(xùn)練,輸入的圖片大小為256×256,首先用6個卷積網(wǎng)絡(luò)對每張圖片進行特征提取,然后將提取的特征合并后輸入循環(huán)神經(jīng)網(wǎng)絡(luò)(采用的GRU神經(jīng)元)學(xué)習(xí)時序特征,設(shè)置如下:丟失率為0.9,學(xué)習(xí)率為0.001,batch_size為32,訓(xùn)練總次數(shù)為7000。
本文在上述基礎(chǔ)上將前面提取特征的卷積網(wǎng)絡(luò)替換為了50層的殘差網(wǎng)絡(luò)(Resnet50),該網(wǎng)絡(luò)能更充分地提取圖像特征。對于該部分網(wǎng)絡(luò)提取的特征,經(jīng)過實驗比較之后,最終選擇了第二模塊的最后一層特征圖作為后續(xù)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,因為層數(shù)過淺的特征提取得信息不夠完善,而層數(shù)過深的則損失了過多的船體結(jié)構(gòu)信息,導(dǎo)致后續(xù)循環(huán)神經(jīng)網(wǎng)絡(luò)部分提取的時序信息不足,從而影響模型的效果。其他參數(shù)的設(shè)置與上述一致。
2)以VGG與Inception結(jié)構(gòu)為基礎(chǔ)的三維卷積模型訓(xùn)練。
首先將分好的數(shù)據(jù)集進行后續(xù)處理,按照每連續(xù)6張圖來建立一個子文件夾,這樣一個子文件夾就相當(dāng)于一段輸入視頻,由于VGG網(wǎng)絡(luò)的標準輸入為224×224,所以將連續(xù)的6張圖片縮放為224×224的大小作為VGG網(wǎng)絡(luò)的輸入,也就是輸入數(shù)據(jù)的大小為6×224×224×3。
首先,采用基于VGG-11網(wǎng)絡(luò)結(jié)構(gòu)的三維卷積模型進行訓(xùn)練,設(shè)置:丟失率為0.8,batch_size為8,學(xué)習(xí)率為0.0001,滑動平均衰減率為0.9999,訓(xùn)練總次數(shù)為3000次。然后,在VGG-11網(wǎng)絡(luò)的最后一層卷積層之后加入Inception-C模塊,將訓(xùn)練次數(shù)設(shè)置為4000,其他參數(shù)不變。接著,將VGG-11網(wǎng)絡(luò)替換為VGG-16網(wǎng)絡(luò),訓(xùn)練次數(shù)設(shè)置為4000。最后,將Inception-C模塊加入到VGG-16網(wǎng)絡(luò)中,其他參數(shù)不變。
3.3 結(jié)果分析
所有方法均以視頻監(jiān)控項目中收集的數(shù)據(jù)集來進行實驗。將數(shù)據(jù)集按照9∶1的比例來建立訓(xùn)練集和測試集,分別采用每一種方法進行訓(xùn)練,然后用測試集測試,最后統(tǒng)計了各類別的識別準確率以及平均的準確率,并且以平均準確率作為不同方法之間比較的指標,同時為了考慮方法的實用性,比較了每種模型的處理速度,結(jié)果如表1所示。
從表1可以看出,最初采用的方法GCRNN識別精度一般,而本文在此基礎(chǔ)上改進的GCRNN(Resnet)相較于GCRNN將平均識別準確率從0.827提高到了0.843,準確率提高了1.6個百分點,但處理每一段視頻幀的耗時變長了0.4s左右。該速度雖然在客戶接受的范圍內(nèi),但隨著業(yè)務(wù)量的增加,這種速度難以繼續(xù)滿足要求。沒有采用VGG結(jié)構(gòu)的三維卷積網(wǎng)絡(luò)(3DCNN)識別率較低,處理速度則是幾種方法中最快的,因為其網(wǎng)絡(luò)層數(shù)很少,需要訓(xùn)練的參數(shù)也較少。而從表1中可以看出,VGG-11為基礎(chǔ)的的3DCNN(VGG-11),與GCRNN(Resnet)相比,其平均準確率從0.843提高到了0.896,準確率提高了5.3個百分點,并且大幅減少了每段視頻幀處理所需的時間。
同時從表1中可以看出,本文將VGG-11網(wǎng)絡(luò)替換為VGG-16網(wǎng)絡(luò)之后,3DCNN(VGG-16)相較3DCNN(VGG-11)平均準確率提高了1.7個百分點,處理速度稍微下降,表明了VGG-16網(wǎng)絡(luò)相較于VGG-11能更有效地學(xué)習(xí)視頻特征。而與之相對的,采用VGG-11與Inception結(jié)構(gòu)相結(jié)合的方法VIC3D(VGG-11)比單純替換為VGG-16的方法3DCNN(VGG-16)平均準確率提高了0.4個百分點,相較VGG-11的方法3DCNN(VGG-11)則提高了2.1個百分點。相較之前用到的三種三維卷積方法3DCNN(VGG-11)、VIC3D(VGG-11)、3DCNN(VGG-16),本文選用的最終方法VIC3D(VGG-16)的平均準確率分別提高了4.2個百分點、2.1個百分點和2.5個百分點,處理每段視頻幀的速度也只是稍微下降,并且該處理速度在實際應(yīng)用中完全滿足需求。
通過對比不同方法的檢測結(jié)果可以發(fā)現(xiàn):GCRNN中的循環(huán)神經(jīng)網(wǎng)絡(luò)部分雖然可以學(xué)習(xí)時序特征,但應(yīng)用到視頻識別方面的效果還是不太理想,并且模型過于復(fù)雜而導(dǎo)致了訓(xùn)練所需時長較長,收斂速度與處理速度也比較慢;沒有使用VGG網(wǎng)絡(luò)的三維卷積網(wǎng)絡(luò)3DCNN與使用的3DCNN(VGG-11)相比,準確率差別達到了10.2個百分點,主要是因為3DCNN在卷積時折疊了時序特征,導(dǎo)致最后的特征圖中時序信息大部分丟失,從而影響了識別效果。對于基于VGG結(jié)構(gòu)的三維卷積網(wǎng)絡(luò),加入了Inception模塊的方法在稍微犧牲處理速度的前提下準確率均要優(yōu)于沒有加入該模塊的方法,并且本文提出的VIC3D方法在這些方法中取得了最高的識別準確率。
表1中各個類別為客戶要求而選擇的類別劃分,從表1中可以看出,本文提出的VIC3D方法在各類別的識別準確率相較其他方法要更高;但各類別之間識別率差別較大,裝卸貨、空倉以及雨布吹飛的準確率相對較低,其中雨布吹飛容易錯分為正常行駛,空倉容易錯分為未蓋布,裝卸貨則容易錯分為停泊等,主要原因是有些類別之間的界限不是很明確,以及江海上惡劣天氣的影響。航運智能監(jiān)控類別示意圖如圖4所示,其中:(1)~(3)為正常行駛,(4)~(6)為雨布吹飛,(7)~(9)為攝像頭遮擋,(10)~(12)為未蓋布行駛,(13)~(15)為停泊,(16)~(18)為空倉,(19)~(21)為裝貨,(22)~(24)為卸貨。
由于在實際應(yīng)用中客戶會對某一類別比較關(guān)注,這時僅采用準確率作為衡量指標不能滿足客戶需求,如出于對貨物安全的考慮,客戶對雨布吹飛這個類別更為關(guān)注,因此對于該類別,本文比較了不同方法的查全率、查準率以及F1度量。不同方法對于雨布吹飛這個類別的上述三種指標值的結(jié)果如表2所示。
從表2中可以看出,本文提出的方法VIC3D(VGG-16)取得了最高的查準率和F1度量,并且查全率也相對較高,表明了本文所提模型有相對最優(yōu)的性能。
4 結(jié)語
針對傳統(tǒng)的機器學(xué)習(xí)算法對大數(shù)據(jù)量的航運監(jiān)控視頻識別分類效果不佳,以及以往的三維卷積識別準確率較低的問題,本文提出了一種基于VGG-16的三維卷積網(wǎng)絡(luò)并引入Inception模塊的VIC3D模型對航運貨物實時監(jiān)控視頻進行智能識別。實驗中,使用智能航運監(jiān)控項目中獲取的數(shù)據(jù)集,并將其分為裝卸貨等8個類別進行訓(xùn)練,將不同方法訓(xùn)練獲得的模型進行檢測并比較分析。在航運智能監(jiān)控項目數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的VIC3D模型能有效提高監(jiān)控視頻識別的準確率,并且在處理每段視頻幀的速度上也足以滿足客戶需求。
本文方法是在多個現(xiàn)有方法的基礎(chǔ)上,針對該數(shù)據(jù)集以及現(xiàn)有研究上的不足,最后將不同網(wǎng)絡(luò)結(jié)構(gòu)進行結(jié)合,以較高的準確率對航運監(jiān)控視頻作出類別預(yù)測,并在識別速度上滿足了需求。但本文方法最終的準確率對于應(yīng)用到項目上來說還不是很高,個別類別準確率仍有待于進一步提升,因此還需要進一步的研究以達到更高的準確率。
參考文獻 (References)
[1]HASSABIS D, KUMARAN D, SUMMERFIELD C, et al. Neuroscience-inspired artificial intelligence [J]. Neuron, 2017, 95(2): 245-258.
[2]鄧昀,李朝慶,程小輝.基于物聯(lián)網(wǎng)的智能家居遠程無線監(jiān)控系統(tǒng)設(shè)計[J].計算機應(yīng)用,2017,37(1):159-165.(DENG J, LI C Q, CHENG X H. Design of remote wireless monitoring system for smart home based on Internet of things [J]. Journal of Computer Applications, 2017, 37(1): 159-165.)
[3]梁光勝,曾華榮.基于ARM的智能視頻監(jiān)控人臉檢測系統(tǒng)的設(shè)計[J].計算機應(yīng)用,2017,37(S2):301-305.(LIANG G S, ZENG H R. Design of intelligent video surveillance face detection system based on ARM [J]. Journal of Computer Applications, 2017, 37(S2): 301-305.)
[4]GUAN Z, MIAO Q, SI W, et al. Research on highway intelligent monitoring and warning system based on wireless sensor network [J]. Applied Mechanics and Materials, 2018, 876: 173-176.
[5]LIU Z, JIANG S, ZHOU P, et al. A participatory urban traffic monitoring system: the power of bus riders [J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(10): 2851-2864.
[6]劉全,翟建偉,章宗長,等.深度強化學(xué)習(xí)綜述[J].計算機學(xué)報,2018,41(1):1-27.(LIU Q, ZHAI J W, ZHANG Z Z, et al. A summary of deep reinforcement learning [J]. Chinese Journal of Computers, 2018, 41(1): 1-27.)
[7]REN R, HUNG T, TAN K C. A generic deep-learning-based approach for automated surface inspection [J]. IEEE Transactions on Cybernetics, 2018, 48(3): 929-940.
[8]SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.
[9]LAN Z, ZHU Y, HAUPTMANN A G, et al. Deep local video feature for action recognition [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2017: 1219-1225.