戈琛, 閆雨寒, 劉曉文 , 丁恩杰
(1.中國礦業(yè)大學 物聯(lián)網(wǎng)(感知礦山)研究中心, 江蘇 徐州 221008;2.中國礦業(yè)大學 信息與控制工程學院, 江蘇 徐州 221116;3.中國礦業(yè)大學 電氣與動力工程學院, 江蘇 徐州 221116;4.中國礦業(yè)大學 江蘇省煤礦電氣與自動化工程實驗室, 江蘇 徐州 221116)
煤礦井下人員行為檢測是感知礦山建設關注的重點。評判礦山人員行為是否安全需要充分考慮時間、地點、行為、環(huán)境等多方面因素[1]。而現(xiàn)有的人員行為檢測方法無法綜合多方面因素評判礦山人員行為是否安全,如:基于電磁波的行為檢測方法通過處理人員動作引起的收發(fā)端電磁波信號路徑變化來識別人員行為,僅能識別人員特定動作,無法識別行為的交互對象;基于可穿戴設備的行為檢測方法通過分析便攜式人體穿戴設備捕獲的運動數(shù)據(jù)進行行為識別,注重人的行為,忽略了行為與設備、環(huán)境間的交互;基于計算機視覺的行為檢測方法通過從視頻片段中提取人體運動信息進行行為識別,存在對環(huán)境狀態(tài)估計不足的缺點。
視覺語義技術能在很大程度上解決上述問題。視覺語義通過分析輸入圖像或視頻內(nèi)容,自動生成1個或若干語句的文本語言,對視覺場景中的內(nèi)容(地點、人物、行為、行為交互對象等)進行描述。該技術利用計算機模仿人眼“視覺功能”和大腦的“語言功能”,以自然語言形式自動描述視覺場景內(nèi)容,有效連接了視覺信息和語言信息, 能夠更加全面地評判礦山人員行為是否安全[2]。
本文提出一種礦山人員行為視覺語義方法。該方法采用具有自學習比例參數(shù)、并行雙重注意力機制的InceptionV4網(wǎng)絡提取視頻靜態(tài)特征,采用預訓練的I3D網(wǎng)絡提取視頻動態(tài)特征,對動靜態(tài)特征拼接后得到視頻特征;針對視頻內(nèi)容與生成語義描述語句不一致問題,采用語義檢測網(wǎng)絡(Semantic Compositional Network,SCN)顯式地將視覺語義特征、視頻特征、嵌入特征共同作為解碼器的輸入,通過特征重構(gòu)從解碼器隱藏層狀態(tài)中重構(gòu)視頻特征。實驗結(jié)果表明,該方法具有良好的語義一致性,生成的語義描述語句能夠準確反映視頻內(nèi)容。
礦山人員行為視覺語義方法包括特征提取、語義檢測、特征重構(gòu)、解碼部分,如圖1所示。在特征提取部分,采用在ImageNet ILSVRC2012數(shù)據(jù)集上預訓練的InceptionV4網(wǎng)絡提取視頻圖像靜態(tài)特征,采用在Kinetics-400數(shù)據(jù)集上預訓練的I3D網(wǎng)絡提取動態(tài)特征,之后將動靜態(tài)特征沿通道維度進行拼接融合。在InceptionV4網(wǎng)絡引入雙重注意力機制,以提升網(wǎng)絡對視頻特征的建模能力。語義檢測通過語義標注建立視頻特征與描述語句之間的關聯(lián)性。特征重構(gòu)通過提取解碼器隱藏層狀態(tài)重構(gòu)視頻特征,提高了視覺語義生成的準確性。
圖1 礦山人員行為視覺語義方法Fig.1 Visual semantic method of mine personnel behavior
由于礦井視頻圖像中主體、光線、參照物等因素會動態(tài)變化,從相同區(qū)域提取出的特征可能存在一定差異,導致特征表示不一致問題,影響礦山人員行為識別準確性。針對該問題,提出一種具有自學習比例參數(shù)的并行雙重注意力機制:引入空間位置注意力模型,建立了不同空間位置特征之間的相關性,以聚合全局上下文信息;構(gòu)建通道注意力模型,優(yōu)化了多通道特征之間的相互依賴關系;通過自學習比例參數(shù)使特征提取網(wǎng)絡在訓練過程中學習到最優(yōu)的注意力權(quán)重分配比例,以達到改善特征提取網(wǎng)絡特征表示的目的。
獲取特征的全局上下文表示對于視覺語義至關重要[3]。為了在局部特征空間建立豐富的特征上下文關系,引入具有自學習比例參數(shù)的空間位置注意力模型,將上下文信息聚合到局部特征中,以增強視頻特征表示能力??臻g位置注意力模型如圖2所示。
圖2 空間位置注意力模型Fig.2 Spatial location attention model
對于輸入的原始圖像A∈RC×H×W(C為圖像通道數(shù),H,W分別為圖像高度、寬度),通過卷積操作生成3個相同的特征圖B1,B2,B3。對特征圖B1進行重塑和轉(zhuǎn)置操作后,與經(jīng)重塑的特征圖B2進行矩陣相乘操作,再經(jīng)softmax函數(shù)得到空間位置注意力特征權(quán)重,并與經(jīng)重塑的特征圖B3進行矩陣相乘操作,所得結(jié)果與原始特征圖進行逐元素求和運算,得到空間位置注意力特征圖E=[e1e2…eN](N為圖像像素點總數(shù))。
(1)
式中:ej為輸出特征圖E中第j個像素點特征;α為空間位置注意力自學習比例參數(shù),初始值為0,并通過學習逐漸更新;sij為B1中第i個像素點與B2中第j個像素點的相似性;Bmi,Bmj為特征圖Bm中第i,j個像素點特征,m=1,2,3。
由式(1)可知,空間位置注意力模型通過圖像空間位置的相似性來衡量特征之間的相關性,二者呈正相關關系。利用重塑和轉(zhuǎn)置建立原始圖像不同位置像素點之間的相關性,得到空間位置注意力特征權(quán)重后,將其加權(quán)到原始特征圖中,得到空間位置注意力特征圖,因此空間位置注意力模型能夠在捕獲不同位置像素點之間相關性的同時,實現(xiàn)全局上下文信息聚合,并使處于不同位置的相似語義特征建立聯(lián)系,增強了共同的特征表示能力,達到改善特征緊湊性和語義一致性的目的。
通常一組通道特征圖可看作是對一組不同圖像的響應,而不同的通道特征圖之間具有一定的相互依賴關系[4]。本文充分利用該關系,構(gòu)建了通道注意力模型,通過特征通道權(quán)重對原始特征圖進行加權(quán)操作,從而改善特定語義的特征表示。通道注意力模型如圖3所示。其采用擠壓函數(shù)與激勵函數(shù)生成注意力權(quán)重,進而實現(xiàn)特征重校準,構(gòu)建通道特征之間的相關性,并通過學習特征的全局信息獲取更高質(zhì)量的特征表示。
圖3 通道注意力模型Fig.3 Chanel attention model
對于輸入的原始圖像A,利用全局平均池化對其進行降維和壓縮操作,得到一組通道特征權(quán)重描述符Z。Z中第k(k=1,2,…,C)個特征權(quán)重為
(2)
式中:Fsq()為擠壓函數(shù);uik為降維后特征圖中第i個像素點的第k個特征。
將通道特征權(quán)重描述符Z通過門控單元輸入激勵函數(shù),得到激勵后的特征S。
S=Fex(Z,D)=σ(g(Z,D))
(3)
式中:Fex()為激勵函數(shù);D為待訓練參數(shù);σ()為ReLU激活函數(shù);g()為門控單元。
(4)
通過擠壓、激勵、重校準操作,將原始圖像轉(zhuǎn)換為通道注意力特征圖,清晰顯示了不同通道之間的權(quán)重分布關系和相互依賴性,增強了特征可分辨性。
在提取視頻靜態(tài)特征時,將空間位置注意力模型和通道注意力模型以并行方式構(gòu)建雙重注意力模型,通過自學習比例參數(shù)自適應調(diào)整注意力加權(quán)系數(shù),再利用該模型提取視頻圖像特征。雙重注意力模型如圖4所示。
圖4 雙重注意力模型Fig.4 Dual-attention model
對于每段輸入視頻,以5幀的固定間隔提取視頻幀,將其調(diào)整為299×299標準像素大小,作為特征提取網(wǎng)絡的輸入,平均每段視頻提取32幀圖像,對幀數(shù)不足的進行補零。將視頻幀圖像輸入預訓練的InceptionV4網(wǎng)絡,每幀通道維度為1 536。通過在InceptionV4網(wǎng)絡中引入雙重注意力模型,優(yōu)化網(wǎng)絡對視頻特征的提取能力。采用torch.cat()函數(shù)將InceptionV4網(wǎng)絡提取的靜態(tài)特征和I3D網(wǎng)絡提取的動態(tài)特征進行拼接,得到視頻特征。
采用注意力機制執(zhí)行視覺語義任務時,若直接采用解碼器生成視頻語義,會出現(xiàn)視頻內(nèi)容與描述語句不一致的情況,主要原因是視頻特征與實際視頻語義存在偏差[5-6]。針對該問題,設計了語義檢測模塊,通過為輸入視頻添加高級語義標簽生成嵌入特征,將視頻特征、語義特征、嵌入特征共同作為解碼器輸入,進一步改善了視覺語義準確性。
rx=σ(f(vx))
(5)
式中f()為基于多層感知機的非線性映射函數(shù)。
本文采用LSTM(Long Short-Term Memory,長短期記憶)網(wǎng)絡實現(xiàn)語義檢測。LSTM通過門控單元來遺忘和更新單元狀態(tài),忽略了輸入序列中的語義信息[7]。針對該問題,采用SCN對LSTM每個權(quán)重矩陣進行擴展,以增加語義標簽權(quán)重。
(6)
(7)
(8)
式中:Vb,Yb,Gb為待訓練參數(shù),b∈{c,d,l,o},c,d,l,o分別為LSTM細胞狀態(tài)、輸入門、遺忘門和輸出門;⊙表示逐元素乘法。
由于視頻幀具有多樣性和高維度特性,采用的LSTM解碼器無法直接重構(gòu)出輸入視頻。因此,設計了特征重構(gòu)模塊,通過獲取LSTM隱藏層狀態(tài)來重建視頻特征,增強視頻特征與描述語句之間的關聯(lián)關系,提高視覺語義生成的準確性。
特征重構(gòu)原理如圖5所示。通過對LSTM隱藏層狀態(tài)進行注意力加權(quán)生成上下文信息,再通過LSTM逐幀生成重構(gòu)幀特征。
圖5 特征重構(gòu)原理Fig.5 Characteristic reconfiguration principle
第t幀視頻的上下文信息為
(9)
(10)
(11)
為了優(yōu)化特征重構(gòu)模塊,將損失函數(shù)定義為
(12)
式中:PI為第I個隱藏層輸出語義和視頻特征的概率;λ為比例系數(shù)。
采用重構(gòu)特征損失函數(shù)優(yōu)化整體模型,并通過比例系數(shù)λ平衡原始視頻特征和重構(gòu)特征的關系,在原始特征的基礎上增加更多的特征信息。本文設置λ=0.1。
實驗環(huán)境為Ubuntu18.0.4系統(tǒng),采用GTX1080Ti 11G型GPU加速運算,基于Python語言編寫代碼,程序運行環(huán)境為Pytorch深度學習框架。
采用MSVD[8]和MSR-VTT[9]公共數(shù)據(jù)集作為實驗數(shù)據(jù)來源。針對MSVD數(shù)據(jù)集,設置初始學習率為2×10-5和4×10-5;針對MSR-VTT數(shù)據(jù)集,設置初始學習率為4×10-5。訓練時采用AMSGrad優(yōu)化算法,并采用5輪訓練后沒有改善情況下,初始學習率衰減為初始值0.5倍的衰減策略。對于2種數(shù)據(jù)集,均采用提前終止策略在訓練25個周期時終止,測試時采用集束寬度為5的集束搜索算法生成描述語句。采用Microsoft COCO公開評估服務器的BELU,METEOR,ROUGE-L,CIDEr指標評估各視覺語義方法性能。
不同視覺語義方法在2種數(shù)據(jù)集上的實驗結(jié)果見表1、表2??煽闯霰疚姆椒ǖ?個指標均較優(yōu)異,說明其在生成視覺語義時能夠獲取視頻中的高級語義特征,并通過特征重構(gòu)為解碼器提供更多的特征信息,使得生成的描述語句更準確地反映視頻的真實含義。
除針對不同方法進行定量分析外,在自制礦山視頻數(shù)據(jù)集上進行實驗。礦山視頻與開源公共數(shù)據(jù)集不同,需要更加規(guī)范化的統(tǒng)一描述。對于公共數(shù)據(jù)集,一段視頻樣本有多樣性描述,可豐富樣本量,多角度地訓練網(wǎng)絡模型,提高模型的泛化能力。而對于礦山視頻數(shù)據(jù)集,需要單一的規(guī)范化描述。本文對生成的語義采取固定格式:人(動作主體)+行為(動作)+目標(動作交互對象)+地點(環(huán)境位置)。采用本文方法對圖6中的視頻幀生成描述語句,并與文獻[19]中MA方法生成的語句進行比較。圖6(a)中視頻幀顯示一名礦工正在巷道內(nèi)摘安全帽,正確視覺語義為“a miner is taking off the safety helmet at the mine passage”,主語對象為“a miner”,關鍵動詞“take off”表明礦工動作,賓語“the safety helmet”表明礦工動作的交互對象是安全帽。MA方法生成描述語句為“a man is playing helmet”。其中主語為“a man”,說明MA方法在特征提取時未能準確捕獲關鍵人物特征;由于缺少語義指導,在生成“take off”這一關鍵動作時出現(xiàn)偏差。本文方法生成描述語句為“a miner is taking off helmet at the mine passage”,準確獲取了視頻中“摘安全帽”這一關鍵動作語義,生成了更準確的描述語句。圖6(b)中視頻顯示一名礦工正在巷道內(nèi)吃食物,正確視覺語義為“a miner is eating food at the mine passage”。MA方法生成描述語句為“a man is eating”。本文方法生成描述語句為“a miner is eating food at the mine passage”,準確獲取了視頻中的關鍵語義。
表1 不同視覺語義方法在MSVD數(shù)據(jù)集上的實驗結(jié)果對比Table 1 Comparison among experiment results of different visual semantic methods by use of MSVD data set %
表2 不同視覺語義方法在MSR-VTT數(shù)據(jù)集上的實驗結(jié)果對比Table 2 Comparison among experiment results of different visual semantic methods by use of MSR-VTT data set %
(a) 摘安全帽行為
(b) 吃食物行為
(1) 礦山人員行為視覺語義方法通過對輸入視頻進行特征提取、語義檢測、解碼等,生成描述人員行為的語句。該方法針對視頻靜態(tài)特征引入雙重注意力機制,通過構(gòu)建空間位置注意力模型和通道注意力模型,提高對視頻特征的表征能力;針對輸入視頻與描述語句關聯(lián)性不強的問題,引入語義檢測和特征重構(gòu),提高了視頻語義生成的準確性。
(2) 采用公共數(shù)據(jù)集MSVD,MSR-VTT及自制礦山視頻數(shù)據(jù)集,對本文方法進行了實驗,并與多種視覺語義方法進行對比,結(jié)果表明本文方法具有較好的語義一致性,能準確獲取視頻中關鍵語義,更好地反映視頻真實含義。