董 濤,楊寶華
(遼東學(xué)院信息工程學(xué)院,遼寧 丹東 118000)
由視覺傳感器獲取的圖像均可以稱為視覺傳感圖像。視覺傳感器是指通過對攝像機拍攝到的圖像進行圖像處理,來計算對象物的特征量(面積、重心、長度、位置等),并輸出數(shù)據(jù)和判斷結(jié)果的傳感器。由于外界信號傳輸環(huán)境的影響,視覺傳感圖像受外部因素干擾,其中信道噪聲對成像的干擾尤為嚴(yán)重,導(dǎo)致目標(biāo)被弱化,無法準(zhǔn)確識別。在深度學(xué)習(xí)被提出之前,目標(biāo)識別主要是根據(jù)先驗知識構(gòu)建各類數(shù)學(xué)模型實現(xiàn),常用的背景減除法、幀差法,是利用檢測得到目標(biāo)的某種數(shù)據(jù)特征構(gòu)造數(shù)學(xué)模型,輸入信息并對模型進行求解,獲得識別結(jié)果。深度學(xué)習(xí)提出后,其成為傳感圖像、視覺領(lǐng)域中的主要解決方法之一,該方法可以增強細節(jié)信息,且算法的魯棒性和實用性較強,是目前傳感領(lǐng)域的研究熱點及重點。相關(guān)學(xué)者也不斷地提出一些較好的方法:
李亞娟[1]首先使用全局稀疏表示,總結(jié)出樣本和訓(xùn)練類別間的相對表征能力,通過局部稀疏表示反映出針對測試樣本各類別的絕對描述能力,隨后采用D-S 證據(jù)理論將兩種稀疏表示的決策矢量進行融合,獲得識別結(jié)果。但是由于算法過于復(fù)雜,計算量較大,導(dǎo)致算法運行速度較慢;劉相云等[2]首先以RFB Net 模型為基礎(chǔ),構(gòu)建特征金字塔網(wǎng)絡(luò),將特征信息和語義信息融合輸入網(wǎng)絡(luò),進一步提高輸出結(jié)果準(zhǔn)確率。但是該方法在較為復(fù)雜的圖像背景下識別精度會受到影響。Paul 等[3]提出了一種新的自適應(yīng)限幅雙直方圖均衡方法來增強紅外圖像。使用對數(shù)冪過程改變輸入直方圖,對改變的直方圖執(zhí)行剪切操作后,重新分布剪切部分,以限制過度增強。通過直方圖分離點方法細分修改后的直方圖,實現(xiàn)紅外圖像子直方圖獨立均衡。但是該方法受溫度影響較高,紅外圖像增強效果有待進一步優(yōu)化。趙若晴等[4]在金文圖像預(yù)處理的基礎(chǔ)上,提取其結(jié)構(gòu)特征和局部紋理特征。并將提取結(jié)果融合后作為樣本,通過支持向量機識別金文圖像。Li 等[5]針對衛(wèi)星目標(biāo)數(shù)據(jù)的流模式,采用流變分貝葉斯算法來初始化模型參數(shù)。使用計算機輔助設(shè)計模型生成的衛(wèi)星目標(biāo)的數(shù)據(jù)進行測試,測試結(jié)果表明,該方法可以精準(zhǔn)識別衛(wèi)星目標(biāo),避免了存儲和重復(fù)計算導(dǎo)致的巨大存儲負擔(dān)問題。
深度學(xué)習(xí)技術(shù)不斷成熟后革新了識別模式,學(xué)習(xí)特征更為豐富、特征表達能力更強,深度學(xué)習(xí)通過模擬人類視覺系統(tǒng)對接收到各類信息的處理過程,實現(xiàn)智能化分類,主要通過研究分析底層特征信息形成較為抽象的高層表示,獲得數(shù)據(jù)的分布特征。深度學(xué)習(xí)主要強調(diào)了兩個方面,分別為:明確模型的結(jié)構(gòu)層數(shù)和突出特征學(xué)習(xí)過程。本文結(jié)合深度學(xué)習(xí)技術(shù),以識別目標(biāo)的多種特征為基礎(chǔ),提出了一種視覺傳感圖像目標(biāo)增強識別方法。由于顏色特征不受形變、旋轉(zhuǎn)方向以及運動速度等外界因素影響,因此本文首先采用顏色特征方法完成特征提取,隨后根據(jù)識別目標(biāo)的背景區(qū)域與目標(biāo)本身區(qū)域紋理特征差異性,增強圖像背景和目標(biāo)間對比度,實現(xiàn)視覺傳感圖像增強的目標(biāo),并且為了提高計算速度,在增強的過程中將視覺傳感圖像的灰度級進行了降級運算。最后構(gòu)建多特征參數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型,并在連接層后接入Softmax 回歸函數(shù),完成分類識別。實驗分析結(jié)果驗證了所提方法的視覺傳感圖像增強和識別性能優(yōu)勢,所提方法能夠準(zhǔn)確地識別出不同場景下的火災(zāi)和車輛行駛情況,識別效率更高,具有一定的實際應(yīng)用價值。
由于識別目標(biāo)的背景區(qū)域與目標(biāo)本身區(qū)域紋理特征有很大不同,因此可以通過圖像的紋理特征,增強圖像背景和目標(biāo)之間的對比度,實現(xiàn)圖像增強的目的。
本文采用顏色特征法提取包含目標(biāo)的傳感圖像的特征。顏色特征是視覺傳感圖像的特征之一,而顏色是眾多目標(biāo)中,人眼可以直接感受到的特征,與其他種類特征相比,顏色特征不受形變、運動速度、旋轉(zhuǎn)方向等因素影響,是一種更具魯棒性的特征表達。以顏色特征法提取的視覺傳感圖像目標(biāo)特征為基礎(chǔ),減少目標(biāo)增強識別時目標(biāo)自身和周邊顏色的影響。
本文采用色彩直方圖完成圖像目標(biāo)提取,能夠通過圖像中的顏色量化分布,由于視覺傳感圖像中目標(biāo)的不同,其顏色特征也不同,因此給出某一色彩占圖像中所有顏色的比例,如式(1)所示:
式中:K為圖像像素中的某個顏色特征,nk為該特征所對應(yīng)的像素數(shù)量,N表示圖像所有像素點的數(shù)量。
根據(jù)灰度共生矩陣可獲取視覺傳感圖像目標(biāo)的紋理特征,結(jié)合1.1 部分提取的目標(biāo)顏色特征,可實現(xiàn)視覺傳感圖像目標(biāo)增強。
給定一個位移矢量d=(dx,dy),且元素P(i,j)表示灰度級為i和j的兩個像素對之間的相對頻率。通過加窗法在給定大小的窗口中計算圖像像素的全部像素灰度值共生矩陣與紋理特征。定義M×N窗口、角度θ(θ=0°,45°,90°,135°,180°)、距離d以及灰度共生矩陣元素Pij如式(2)所示:
式中:I(k,l)、I(m,n)表示相鄰的兩個像素。若圖像的灰度級為256 級,其灰度共生矩陣則為256×256,計算量較大。因此在實際操作過程中將其降級為64 或32 來提升運算效率,且距離、角度和窗口大小也可以根據(jù)圖像的紋理復(fù)雜程度決定。correlation 方法能夠保證分析結(jié)果的客觀性,因此,采用correlation 方法獲取紋理特征,如式(3)所示:
式中:μx、μy為灰度均值,可通過式(4)進行計算:
σx、σy為灰度標(biāo)準(zhǔn)方差,可通過式(5)進行計算:
隨后將圖像灰度從256 級降到64 級,識別目標(biāo)越小,則選擇的窗口和距離也越小。針對目標(biāo)圖像中的所有像素I(x,y),計算其窗口大小M×N鄰域的灰度共生矩陣,再通過式(3)計算出該區(qū)域的紋理特征correlation(x,y),最后將窗口內(nèi)的每個像素點的correlation(x,y)設(shè)置于256 級灰度上,獲得增強后圖像。
根據(jù)1.2 部分獲取了增強后的傳感圖像,考慮到圖像中被識別目標(biāo)包含多類型特征,為了優(yōu)化目標(biāo)識別結(jié)果,利用多數(shù)據(jù)集學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)方法估計目標(biāo)區(qū)域,實現(xiàn)傳感圖像目標(biāo)增強識別。
本文以卷積神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)完成目標(biāo)識別,模型的上層由卷積層和池化層組成,下層則為連接層,在連接層后接入Softmax 回歸函數(shù),使得模型具有分類功能。本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型中,卷積層和池化層分別有4 個、連接層有1 個,如圖1 所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖1 所示的4 個卷積層負責(zé)完成圖像中各類特征的識別工作,池化層負責(zé)使各特征在尺度空間中[6]仍能保持一定的層次性,連接層負責(zé)完成特征的分類,而后接入的Softmax 回歸函數(shù)則主要起到輸出連接層分類結(jié)果的作用。但是由于類內(nèi)變化過大導(dǎo)致的聚類中的各特征變得分散,集群也可能出現(xiàn)重疊,因此采用指數(shù)Laplace 損失函數(shù)[7]降低類內(nèi)特征的變化幅度,調(diào)整不同類中心的特征間距離。
設(shè)Lc為損失函數(shù),對其進行定義,如式(6)所示:
式中:xa、ya為第a個對象從全連接層中獲得的視覺傳感圖像目標(biāo)的輸入和輸出特征量,cya表示ya特征量的中心,k表示聚類過程中的對象總量,該數(shù)值由視覺傳感圖像目標(biāo)數(shù)量和卷積核數(shù)量決定。在數(shù)據(jù)逆向傳播時,根據(jù)式(7)計算xa的偏導(dǎo)數(shù)中心:
在迭代過程中更新聚類中心為式(8):
將式(8) 中的δ(ya,a) 定義為δ(ya,a)=,為充分利用多數(shù)據(jù)集特征信息(包括目標(biāo)的顏色、輪廓、特殊動作等),設(shè)某一樣本與其余聚類中心的距離為LMT,如式(9)所示:
式中:λ為邊界參數(shù),為降低計算量采用隨機梯度下降法[8]更新參數(shù),并通過多數(shù)據(jù)集的LMT值計算出模型的損失函數(shù),完成模型的構(gòu)建,如式(10)所示:
學(xué)習(xí)模型構(gòu)建后,將多數(shù)據(jù)集學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合識別圖像目標(biāo),在模型的不同區(qū)域中共享同一個問題的信息,使得模型中每一個卷積層和池化層中均擁有同一個任務(wù)數(shù)據(jù),首先構(gòu)建深度學(xué)習(xí)迭代式,如式(11)所示:
式中:Gij(x,y)表示以(xij,yij)為研究目標(biāo)的深度學(xué)習(xí)灰度像素值。對目標(biāo)區(qū)域作自適應(yīng)分塊標(biāo)記處理,獲得識別圖像,如式(12)所示:
式中:Oij(x,y)表示提取出的特征點集,則可得目標(biāo)邊緣輪廓點的信息,如式(13)所示:
式中:t=0,1,…,k,通過模板匹配法[9]分割目標(biāo)區(qū)域,獲得角點掃描結(jié)果,如式(14)所示:
通過角點檢測[10-11]獲得目標(biāo)區(qū)域的空間分布矩陣,如式(15)所示:
式中:Lxx(x,σ)表示梯度方向的目標(biāo)輪廓,Lxy、Lyy表示匹配輪廓與二值化匹配參數(shù),隨后確定子相關(guān)系數(shù),如式(16)所示:
通過深度學(xué)習(xí)模型[12]將目標(biāo)與整個圖像的像素進行分離[13],提取在子相關(guān)系數(shù)(k|k)附近的目標(biāo)像素點,如式(17)所示:
則目標(biāo)區(qū)域的估計結(jié)果,如式(18)所示:
至此實現(xiàn)視覺傳感圖像中的目標(biāo)增強識別。根據(jù)上述內(nèi)容,可將此次基于多數(shù)據(jù)集深度學(xué)習(xí)的視覺傳感圖像目標(biāo)增強識別流程總結(jié)為圖2。
圖2 視覺傳感圖像目標(biāo)增強識別流程
為保證實驗的真實性及準(zhǔn)確性,本文測試過程主要在MATLAB 平臺上完成,數(shù)據(jù)編譯軟件為MATLAB2019 款商業(yè)數(shù)學(xué)軟件,用于原始圖像處理及視覺信息計算等工作。同時,在實驗中設(shè)置構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型輸入為城市道路視覺傳感圖像,圖像1 為異常火情、圖像2 為異常駕駛行為。其中異常駕駛行為的駕駛?cè)藛T顏色、動作、輪廓等特征為:右手舉著手機,身穿白色上衣,戴著墨鏡。
以UAS 數(shù)據(jù)集(數(shù)據(jù)集來源于https://github.com/yuxiaoz/SGSN)中的256×256 城市道路視覺傳感圖像為仿真對象,進行具體火情測試。圖3所示為日間原始城市道路發(fā)生異?;鹎榈囊曈X傳感圖像。
圖3 原始圖像
以圖3 為基礎(chǔ),從視覺傳感圖像增強效果、目標(biāo)識別效果、識別效率三個方面進行分析。
為驗證視覺傳感圖像增強的有效性,分別采用本文方法、文獻[2]的RFB Net 遙感影像目標(biāo)識別方法和文獻[3]的自適應(yīng)限幅雙直方圖均衡方法對圖3 所示的原始視覺傳感圖像做增強處理,結(jié)果如圖4 所示。
圖4 不同方法增強效果圖
圖4 中,黑色邊緣線為日間城市道路發(fā)生異?;鹎榈母采w范圍。從圖4 中可以看出,以RFB Net遙感影像目標(biāo)識別方法和自適應(yīng)限幅雙直方圖均衡方法處理,進行視覺傳感圖像增強后,圖像邊緣出現(xiàn)不同程度的缺失,而本文方法處理后的視覺傳感圖像成像效果最好,且邊緣保留較為完整,有效解決了由于高斯噪聲等外界因素導(dǎo)致的視覺傳感圖像模糊的問題。
為了進一步測試本文方法對于視覺傳感圖像的增強效果,采用平均梯度信息作為評價指標(biāo)進行客觀測試。平均梯度信息指視覺傳感圖像的邊界兩側(cè)附近灰度有明顯差異,即灰度變化率大,該變化率越大,視覺傳感圖像增強效果越好。以圖3 為例,獲取三種方法在不同圖像大小下,隨著噪聲的逐漸增加的增強效果,如表1 所示。
表1 平均梯度信息測試結(jié)果
對表1 進行分析后得出:隨著圖像中噪聲的逐漸增加,本文方法對于圖3 視覺傳感圖像的增強效果較好,并且增強后視覺傳感圖像的平均梯度信息高于0.93,受噪聲影響較小,增強效果好。
由于卷積核的數(shù)量會直接影響識別性能,因此首先需要確定卷積神經(jīng)網(wǎng)絡(luò)模型中,各卷積層中卷積核數(shù)量。一般情況下在使用深度學(xué)習(xí)對視覺傳感圖像目標(biāo)進行識別的過程中,后一層卷積層中包含的卷積核數(shù)量往往為前一層的2 倍,即若第一層中包含s個卷積核,則第n(n≥2)層的卷積層中就包含2k-1×s個卷積核。根據(jù)該策略本文分別使用不同數(shù)量的卷積核進行識別,根據(jù)第一層卷積核數(shù)量,獲取剩余4 層的卷積核數(shù)量。由此得到識別率與第一層卷積核數(shù)量間關(guān)系,如圖5 所示。
圖5 第一層卷積核數(shù)量與識別率之間關(guān)系
根據(jù)圖5 可以看出,第一層卷積核的數(shù)量會嚴(yán)重影響識別效果,在第一層卷積核數(shù)量為0 個-5 個時,隨著數(shù)量的增多,識別率直線上升,但是當(dāng)?shù)谝粚泳矸e核超過5 個時,識別率升高速率變得較為緩慢,甚至幾乎沒有變化,這就表明過多的卷積核對提升識別性能幫助較小且還會使計算量增大,影響識別效率,因此本文選擇第一層卷積核數(shù)量為5 個,隨后依次計算其余層卷積核數(shù)量即可。
為進一步驗證所提方法的有效性,將確定卷積核數(shù)量的深度學(xué)習(xí)模型應(yīng)用于行車駕駛?cè)藛T異常行為檢測實例中。選取UAS 數(shù)據(jù)集中包含駕駛?cè)藛T異常行為(撥打電話)的某臺車輛為識別目標(biāo),該駕駛?cè)藛T右手舉著手機,身穿白色上衣,戴著墨鏡,將以上數(shù)據(jù)作為識別特征,分別采用三種方法對目標(biāo)圖像進行識別,識別結(jié)果如圖6 所示。
圖6 不同場景識別結(jié)果圖
從圖6 中可以看出,本文方法可以準(zhǔn)確識別出白色轎車中撥打電話的駕駛?cè)藛T,人臉較清晰。相較于RFB Net 遙感影像目標(biāo)識別方法和自適應(yīng)限幅雙直方圖均衡方法的目標(biāo)增強效果更好,因此,本文方法能夠準(zhǔn)確地完成行車駕駛?cè)藛T異常行為檢測,即可識別視覺傳感圖像中的目標(biāo),使用卷積神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)增強效果較好,實用價值較高。
以視覺傳感圖像清晰度為指標(biāo),分析視覺傳感圖像質(zhì)量。清晰度指視覺傳感圖像各細部影紋及其邊界的清晰程度,清晰程度越高,表明視覺傳感圖像質(zhì)量越好。檢測三種方法對視覺傳感圖像增強后的圖像目標(biāo)質(zhì)量,統(tǒng)計結(jié)果如表2 所示。
表2 不同方法優(yōu)化后圖像清晰度對比
由表2 對比結(jié)果可以看出,采用本文方法優(yōu)化后的視覺傳感圖像清晰度均高于6.1;采用RFB Net遙感影像目標(biāo)識別方法和自適應(yīng)限幅雙直方圖均衡方法優(yōu)化后的視覺傳感圖像清晰度均低于6.1。對比結(jié)果可以看出,本文方法優(yōu)化后視覺傳感圖像具有較高的清晰度,優(yōu)化后視覺傳感圖像目標(biāo)質(zhì)量較高,驗證本文方法具有較高的優(yōu)化效果,提高了目標(biāo)識別效果。
為進一步證明所提方法的識別效率是否符合實際應(yīng)用需求,分別測試三種方法對40 張行車道路圖像的識別完成時間,測試結(jié)果如圖7 所示。
圖7 不同方法識別耗時對比
根據(jù)圖7 可知,在識別對象數(shù)量相同的條件下,RFB Net 遙感影像目標(biāo)識別方法的耗時最長,最大耗時為14.7 s,自適應(yīng)限幅雙直方圖均衡方法次之,最大耗時為10.1 s。相比之下,本文方法的用時最短,最大耗時為6.2 s,這是由于在視覺傳感圖像增強的過程中對灰度級進行了降級,且選擇了合適的卷積核數(shù)量降低了算法的計算速度。另一方面,從圖7 中還可得出,隨著識別對象數(shù)量的增加,所提方法所用時間呈線性增長,且增長速度較慢,這就表明本文方法受待識別目標(biāo)數(shù)量的影響較小,在計算量較大情況下,所提方法仍能保持較理想的穩(wěn)定性。
深度學(xué)習(xí)能夠?qū)Π鄶?shù)據(jù)特征的目標(biāo)進行識別,因此本文結(jié)合深度學(xué)習(xí)技術(shù)提出了一種基于多數(shù)據(jù)集深度學(xué)習(xí)的視覺傳感圖像目標(biāo)增強識別。在仿真分析中將不同方法應(yīng)用在道路圖像增強和目標(biāo)識別實例中。測試結(jié)果表明,所提方法能夠有效增強火情圖像邊緣、根據(jù)駕駛?cè)藛T的多種特征給出準(zhǔn)確異常駕駛行為識別結(jié)果,且識別速度較快。在下一步研究過程中還可以深入識別目標(biāo)的其他特征信息,使得識別所得結(jié)果更為具體,進一步減少相關(guān)人員的工作量。