麻方達 劉澤平 陳世海 李曉帆 姚明杰 符朝興
摘要:針對圖像拼接質(zhì)量評價算法多數(shù)存在沒有分析拼接前后圖像的綜合圖像像素信息和結構信息的問題,本文提出了一種基于VGG19深度卷積神經(jīng)網(wǎng)絡的圖像拼接質(zhì)量評價方法。采用VGG19網(wǎng)絡,提取拼接圖像和原圖像的卷積特征,分別計算2個圖像特征圖的Gram矩陣,并以2個Gram矩陣的差異作為評價圖像拼接質(zhì)量的指標。同時,為了驗證圖像拼接質(zhì)量評價算法的可行性,選取同一場景下的5幅圖像進行實驗測試。測試結果表明,Ls函數(shù)值越小,圖像的拼接效果越好;而隨著Ls函數(shù)值的增大,圖像的拼接效果逐漸變差。說明該算法的評價結果符合人眼的主觀評價,能夠有效評價圖像的拼接質(zhì)量,可以作為評價同一場景下圖像拼接效果的有效指標。該研究有效解決了雙目視覺下自動導向車(automated guided vehicle,AGV)在2個攝像頭圖像拼接處的質(zhì)量評價問題,具有一定的創(chuàng)新性。
關鍵詞:VGG19; Gram矩陣; 質(zhì)量評價; 拼接圖像
中圖分類號:TP391.41; TP183 文獻標識碼:A
文章編號:1006-9798(2023)02-0031-06; DOI:10.13306/j.1006-9798.2023.02.005
作者簡介:麻方達(1998-),男,碩士研究生,主要研究方向為物聯(lián)網(wǎng)與人工智能。
通信作者:符朝興(1967-),男,博士,副教授,主要研究方向為人工智能和機械振動。Email:cx_f@163.com
對于拼接后的圖像質(zhì)量評價方法主要有主觀評價方法和客觀評價方法2種[1],主觀評價方法是接收圖像信息的人按照自己的經(jīng)驗對圖像質(zhì)量做出判斷,評價結果很大程度上取決于每個人的主觀反應。在過去的很長時間內(nèi),其主流方法是主觀的圖像質(zhì)量評價方法,而質(zhì)量客觀評價方法主要應用于細分的部分領域[2],在各領域中通用的客觀評價方法較少。主觀和客觀質(zhì)量評價方法大多針對單幅圖像,而不適用于對圖像拼接質(zhì)量的評價。2007年,張煥龍[3]嘗試將積分合成方法引入到圖像拼接效果的評價方法中,根據(jù)評估值獲得更加優(yōu)秀的圖像拼接算法;張震等人[4]通過提取多尺寸塊離散預選變換二維數(shù)組的統(tǒng)計特征量和圖像質(zhì)量評價量,建立圖像拼接檢測模型;劉李娟等人[5]針對敦煌壁畫,綜合分析亮度、清晰度、信息量和保真度等各種參數(shù),提出了一種可以自定義設置的圖像評價模型,以適應不同的場合;常嘉義等人[6]對4個車載攝像頭拼接而成的全景圖統(tǒng)計俯視圖像素在原始圖像中的對應分布,進而對原始圖像素的均值方差等信息進行評估,提出一種對拼接圖像的質(zhì)量評價方法;王浩等人[7]針對醫(yī)療器械中的圖像拼接,提出用一個閾值來判斷圖像拼接結果的質(zhì)量評價方法,同時與保存的拼接前的圖片進行對比,初步利用統(tǒng)計分類方法得出了拼接圖像的質(zhì)量結果;齊美玲[8]通過人為調(diào)整拼接圖像的色差和亮度等信息,建立拼接圖像庫,并提出一種基于顏色校正的拼接圖像質(zhì)量評價方法,對數(shù)據(jù)庫中的拼接圖像成功進行圖像質(zhì)量的預測;針對無人機航拍的圖像拼接,王歡等人[9]提出了一種新的質(zhì)量評價系統(tǒng),即導入結構相似性指數(shù)和圖像接縫兩側色差,共同評估圖像接縫。鑒于目前的圖像拼接評價算法大多只關注圖像的某些信息,很少關注到圖像的多因素,與人的視覺感受不符。因此,本文結合圖像風格遷移算法[10],提出了基于VGG19深度卷積神經(jīng)網(wǎng)絡的圖像拼接質(zhì)量評價算法。以接縫處的AGV圖像為研究目標,用VGG19網(wǎng)絡提取AGV拼接圖像和AGV原圖像的特征,分別計算2個圖像特征圖的Gram矩陣,并計算2個Gram矩陣的差異,差異越小,說明拼接效果越好。該研究具有一定的創(chuàng)新性和實用性。
1 基本原理
幾種常見的VGGNet結構模型[11]如圖1所示。本文所選用的模型是位于E列的VGG19網(wǎng)絡模型,其包含5個卷積模塊、5個池化層、3個全連接層和1個softmax分類器。其中,5個卷積模塊中共包含16個卷積層,VGG19網(wǎng)絡模型的卷積核大小均為3×3,且步長為1。
卷積神經(jīng)網(wǎng)絡的核心操作是卷積運算[12],卷積操作如圖2所示。圖2中,1個3×3的卷積核在原圖上滑動,將覆蓋到的值與卷積核上的權重對應位置相乘后相加,得到的值填到特征圖對應位置,即提取原圖特征反映到特征圖上。每一個卷積核提取1種特征,生成1個特征圖,那么64個卷積核的64個特征圖堆疊,則會得到1個三維特征圖。不同卷積層的卷積核用于提取不同的特征信息,淺層卷積核主要提取顏色、邊緣和斑塊等像素特征;中層卷積核主要提取條紋和形狀等紋理特征;高層卷積核提取文字等較為抽象的語義特征[13]。
為了對比圖像拼接質(zhì)量,本文選取VGG19網(wǎng)絡模型中第1~第5卷積層提取的特征為主要對比特征,每一層卷積操作完成后,都會得到一個由二維特征圖堆疊而成的三維特征圖,三維特征圖如圖3所示。
特征圖的每個顏色代表一個卷積核卷積得到的二維特征圖。本文以第5層為例進行分析,256個卷積核完成卷積操作后,得到1個56×56×256的特征圖。圖中,nW=56,nH=56,nC=256,單獨分析綠色的二維特征圖,它可以用一個56×56的矩陣F1表示為
同樣,定義黃色特征圖的矩陣為F2,依次類推,每一個特征圖對應一個矩陣,最后一個特征圖對應矩陣F256。接著將每一個矩陣都拉平為一個行向量,即將矩陣F1變換為
則卷積層的三維特征圖相應會變換,三維特征圖變換如圖4所示。
式中,KT為矩陣K的轉(zhuǎn)置矩陣。顯然矩陣G為256×56的對稱矩陣,它表示第5卷積層256個特征圖所代表的256個特征兩兩之間的共現(xiàn)相關性,可用該共現(xiàn)相關性表示一幅圖像的“風格”,進而以2幅圖像風格的差異度,判斷圖像拼接效果的優(yōu)劣。以函數(shù)Ls作為比較2幅圖像風格差異程度的指標,即
式中,Gl為原圖像在l卷積層的Gram矩陣;Al為拼接圖像在l卷積層的Gram矩陣;Nl為2個圖像第l層特征圖的通道數(shù);Ml為2個圖第l層特征圖的長與寬之積;wl為圖像l層的權重。
2 拼接圖像獲取
本文所使用的拼接圖片由2個攝像頭采集,攝像頭為??低旸S-IPC-T12-I,攝像機參數(shù)如表1所示。
攝像機的安裝布局示意圖如圖5所示,安裝高度為3.1 m,2臺攝像機拍攝的重疊區(qū)域長度為2.5 m。圖像拼接流程主要分為圖像預處理、圖像配準和圖像融合[14]。圖像預處理包括對圖像降采樣和去畸變處理;圖像配準是對待拼接的2張圖像中存在的公共部分進行校準對齊,使其可以重合的過程。目前,應用較多的配準方式主要有3種,即圖像特征、變換域及灰度像素信息[15]。本文采用基于圖像特征的圖像配準方式,選用加速穩(wěn)健特征(speeded up robust features,SURF)算法[16]提取圖像特征點,并采用近似最近鄰的快速庫(fast library for approximate nearest neighbors,F(xiàn)LANN)算法[17]進行特征點匹配,對于匹配結果中的誤匹配對,運用隨機抽樣一致(random sample consensus,RANSAC)算法[18]進行剔除,與其他2種方式相比,若待拼接的2張圖像間存在著旋轉(zhuǎn)角度的變換,或者光照不一致的差異時,這種方式仍然能夠保持較高魯棒性[19];圖像融合是對由于拼接縫導致視覺上不自然不平滑的圖像進行融合處理,消除拼接縫,使圖像看起來自然平滑。本文圖片采用的融合方法為動態(tài)加權融合法[20],是指在經(jīng)過圖像配準后,將2幅待融合圖像重疊部分像素值的加權平均值作為融合后圖像的像素值,所謂動態(tài)是指權值隨當前像素點距邊界距離的變化而變化。AGV在非重疊區(qū)域的圖像拼接結果如圖6所示,AGV在重疊區(qū)域的圖像拼接結果如圖7所示。
3 實驗驗證
本文選取同一場景下的5幅圖像,對提出的拼接質(zhì)量評價算法進行實驗測試,仿真環(huán)境和硬件參數(shù)如表2所示。
將每一個卷積層的風格權重wl均設置為0.2,得到不同圖像間的Ls函數(shù)值,不同圖像間的Ls函數(shù)值如表3所示。表3中的值可以看作一個對稱矩陣,矩陣中的值分別以圖像a~圖像e為原始圖像,分別與每個圖像對比的Ls函數(shù)值。由于同一幅圖像間沒有風格損失,所以對角線的值為0。
由表3中第1行可知,這是原圖像與拼接圖像的對比,Ls函數(shù)值越小,代表2幅圖像特征的共現(xiàn)相關性越強,說明圖像的拼接效果越好,AGV拼接效果如圖8所示。由圖8可以看出,5幅圖像間的Ls函數(shù)值越來越大,說明5幅圖像間的拼接效果逐漸變差,這完全符合人們的視覺感受。綜上所述,本文提出的圖像拼接評價算法,可以作為評價同一場景下圖像拼接效果的有效指標。
4 結束語
本文提出了一種圖像拼接的質(zhì)量評價算法,基于VGG19網(wǎng)絡模型的前五層卷積層提取原圖像和拼接圖像的特征,每一層的特征經(jīng)計算可得到代表圖像風格的Gram矩陣,利用Gram矩陣分別計算拼接圖像和原圖像的每一層特征,再取每一層特征的平均值,以此平均值衡量拼接圖像和原圖像的差異。經(jīng)過驗證,此算法得出的結果與主觀評價一致,為雙攝像頭采集拼接后的圖像提出了一種切實可用的評價方法,可在多個領域中作為一種通用的評價圖像拼接質(zhì)量的有效指標。但矩陣屬于直線型的映射變換,在應用范圍上具有一定的局限性,并不適應出現(xiàn)曲線變換的拼接圖像類型,因此,如何擴大拼接圖像質(zhì)量評價的應用范圍,更全面的滿足拼接圖像的質(zhì)量評價需求將是下一步的研究方向。
參考文獻:
[1] 樊躍進. AGV在我國煙草行業(yè)的適用性與選型原則[J]. 煙草科技,1999(4):18-20.
[2] 萬國挺. 圖像拼接技術與質(zhì)量評價方法研究[D]. 西安:西安電子科技大學,2013.
[3] 張煥龍. 圖像無縫拼接技術的研究[D]. 鄭州:河南大學,2007.
[4] 張震,任遠,平西建. 圖像質(zhì)量參數(shù)分析及其在圖像拼接檢測中的應用[J]. 計算機工程與設計,2009,30(12):3005-3008.
[5] 劉李娟,盧選民,陶旺林,等. 敦煌壁畫數(shù)字圖像拼接評價模型研究[J]. 現(xiàn)代電子技術,2011,34(16):49-51.
[6] 常嘉義,秦瑞,李慶. 全景鳥瞰拼接圖像的質(zhì)量評價方法[J]. 計算機科學,2014,41(6):278-281.
[7] 王浩,任海萍. 醫(yī)療器械中的圖像拼接質(zhì)量評價方法[J]. 中國醫(yī)療設備,2017,32(8):20-23,32.
[8] 齊美玲. 面向全景和立體應用的圖像質(zhì)量評價方法研究[D]. 寧波:寧波大學,2020.
[9] 王歡,周穎玥,王欣宇. 一種基于質(zhì)量評價的無人機航拍圖像拼接方法[J/OL]. 計算機應用研究:1-5[2022-04-20].
[10] 周長家. 基于深度混合生成模型的圖像風格遷移研究[D]. 大連:大連理工大學,2020.
[11] 王子翔. 基于VGG19的迪慶藏族裝飾圖案特征提取系統(tǒng)設計與應用[D]. 昆明:昆明理工大學,2021.
[12] 吳宏偉. 基于深度學習的車牌檢測識別系統(tǒng)研究[D]. 大連:大連理工大學,2021.
[13] 張沁怡. 基于深度卷積網(wǎng)絡的人車檢測及跟蹤算法研究[D]. 北京:北京郵電大學,2019.
[14] 郭泓邑. 移動前景下視頻實時拼接技術研究[D]. 重慶:重慶理工大學,2020.
[15] 白小玲. 基于改進的KAZE算法的特征提取與匹配[D]. 哈爾濱:哈爾濱理工大學,2017.
[16] SAMY B,AYOUB A,Youssef Rehab. A fingerprint-based verification framework using harris and surf feature detection algorithms[J]. Applied Sciences,2022,12(4):27-30,45.
[17] MISHRA A,DEHURI S. Real-time online fingerprint image classification using adaptive hybrid techniques[J]. International Journal of Electrical and Computer Engineering,2019,9(5):139-150.
[18] GOH J N,PHANG S K,CHEW W J. Real-time and automatic map stitching through aerial images from UAV[J]. Journal of Physics:Conference Series,2021,2120(1):68-71.
[19] 張麗霞. 多源圖像像素級快速融合方法研究[D]. 北京:北京科技大學,2020.
[20] 高宇. 視網(wǎng)膜圖像拼接關鍵技術研究[D]. 長春:長春工業(yè)大學,2020.
Abstract:In view of the problem that most of the current image stitching quality evaluation algorithms do not analyze the comprehensive image pixel information and structure information of the image before and after stitching,this paper proposes an image stitching quality evaluation method based on VGG19 deep convolution neural network. VGG19 network is used to extract the convolution features of the stitched image and the original image,and then calculate the Gram matrix of the two image feature images respectively. The difference between the two gram matrices is used as an index to evaluate the quality of image mosaic. Experiments show that the evaluation results of this algorithm accord with the subjective evaluation of human eyes and can effectively evaluate the quality of image mosaic.
Key words:VGG19; Gram matrix; quality evaluation; merge images