孫彥景, 王興興, 云 霄, 張曉光, 周 玉
(中國礦業(yè)大學信息與控制工程學院,江蘇徐州 221116)
隨著智慧城市建設的深入和數(shù)字化改造的推進,視頻監(jiān)控涉及的領域越來越廣泛[1]。在對大型空間進行監(jiān)控或攝像頭與目標物體距離過近時,僅采用單一攝像頭難以獲取寬視野的圖像,一般解決方法是采用多個攝像頭分別監(jiān)控獨立顯示,這種方法獲取的視頻不直觀,視角之間聯(lián)系不大,難以滿足醫(yī)學圖像處理和虛擬現(xiàn)實等應用場景對高分辨率寬視野圖像的要求。利用圖像拼接技術將多攝像頭拍攝的多張具有重疊區(qū)域的圖像轉(zhuǎn)化為一張具有寬視野的圖像。另外,圖像拼接技術在汽車導航、軍事領域等方面都有著廣泛的應用,其相關的研究層出不窮。目前圖像處理實驗類型單一且主要介紹傳統(tǒng)方法,致使學生掌握的方法與現(xiàn)實脫節(jié),理論與實踐能力不符。有必要在實驗環(huán)節(jié)加入圖像拼接相關內(nèi)容,將教學內(nèi)容與實際場景相結合,增強學生對課程的整體理解,提高學生的工程實踐能力。
不同攝像頭獲取的圖像視角具有隨機性,造成圖像之間存在不同程度的視差,圖像拼接方法應具有處理視差圖像的能力。傳統(tǒng)圖像拼接方法基于手工特征實現(xiàn)。此類方法的拼接效果嚴重依賴特征點的質(zhì)量與數(shù)量,在圖像視差較大以及人工設計的特征提取算法質(zhì)量不佳時難以獲得質(zhì)量良好的拼接圖像。近幾年基于深度學習方法在圖像處理領域取得了較好的效果[2-4]。相比于傳統(tǒng)方法,深度學習模型自動學習數(shù)據(jù)的特征,其多層次結構可從原始數(shù)據(jù)學習抽象和復雜的特征,在處理圖像、音頻和文本方面表現(xiàn)出色。無監(jiān)督學習是深度學習的分支,近幾年在單應性估計[5]、目標檢測[6]、語義分割[7]等任務中嶄露頭角。無監(jiān)督學習不需要對數(shù)據(jù)進行標記,可節(jié)省大量的人力、物力,并且相對于監(jiān)督學習有限的標簽,能學習到更豐富和更通用的特征。圖像拼接方法逐漸從傳統(tǒng)方法向無監(jiān)督深度學習方法過渡?,F(xiàn)有的教學也應與時俱進,在教學實踐中加入新興技術,引導學生從傳統(tǒng)方法向主流技術過渡。
目前圖像拼接相關研究主要是針對雙攝像頭拍攝的圖像[8-9],雙攝像頭拍攝范圍有限,難以完全包含感興趣的區(qū)域。相較于雙攝像頭,多攝像頭不受攝像頭數(shù)量限制,包含的區(qū)域更廣,且實際場景中一般為多攝像頭。因此,有必要進行多攝像頭圖像拼接相關的研究。本文基于景深-彩色圖像融合及無監(jiān)督深度學習,設計了一種多圖深度拼接網(wǎng)絡(Deep Multi Image Stitching Network,DMISNet)。將景深圖像與彩色圖像融合后增加了圖像的結構形狀信息,有效解決了大視差圖像拼接中偽影、模糊等問題。在校園場景和工業(yè)場景下對多視角圖像進行拼接,驗證了算法的魯棒性。該案例可用于圖像拼接相關的研究和教學,并具有一定的擴展性,學生可在本方法的基礎上做出改進。
單應性變換是將一個平面內(nèi)的點映射到另一個平面內(nèi)的二維投射變換[10]。如圖1(a)所示,紅點為兩幅圖像中的對應點,圖中顯示了4 種不同顏色的對應點。利用單應性矩陣能將一幅圖像中的點映射到另一幅圖像的對應點。
圖1 單應性變換前后圖像
單應性矩陣
該矩陣有9 個未知數(shù),只有8 個自由度。一般在求解時令h22=1,則只需4 組不共線的點對便可求得單應性矩陣。
以圖1(a)中的紅色對應點為例,對應點之間的單應性變換
式(2)適用于圖像中所有對應的點集,換言之,可將單應性矩陣應用于整張圖像。將單應性矩陣作用于圖1(a)左圖使之與右圖對齊,結果如圖1(b)。實際應用中可將圖像分為多個網(wǎng)格,分別對每個網(wǎng)格求取單應性矩陣,獲得精細對齊的圖像[11]。
無監(jiān)督圖像拼接網(wǎng)絡總體結構如圖2 示,包括無監(jiān)督單應性變換和無監(jiān)督圖像重建兩個級聯(lián)模塊。通過單一單應性變換粗略對齊輸入圖像,與現(xiàn)有的拼接方法不同,本文將景深圖與彩色圖像融合作為輸入,提取圖像的多模態(tài)特征,以獲得更好的拼接效果。圖像重建分為低分辨率分支和高分辨率分支。對圖像進行下采樣,通過通道注意力模塊獲得各通道權重后再進行結構拼接。在高分辨率變形分支中,因隨著分辨率的提高感受野相對變小,本文采用擴張卷積代替普通卷積,增大圖像的感受野。
圖2 無監(jiān)督圖像拼接網(wǎng)絡結構
同一物體在不同視角拍攝的影像中可能會出現(xiàn)較大范圍的變形,導致后續(xù)影像拼接效果不理想或無法拼接。為解決這些問題,設計了一種基于景深-彩色圖像融合的單應變換網(wǎng)絡。將景深圖與彩色圖像融合后作為輸入,獲得具有圖像結構形狀的特征。圖3 所示為單應性變換總體結構,將參考圖像、目標圖像以及對應的景深圖作為輸入,針對參考圖像的重疊區(qū)域,對目標圖像變形處理,使參考圖像和目標圖像的重疊區(qū)域處于同一視角。
圖3 無監(jiān)督單應性變換網(wǎng)絡結構
多模態(tài)融合策略有直接融合,張量融合網(wǎng)絡(Tensor Fusion Network,TFN)[12]等。如圖4(a)所示,直接融合是直接在特征維度將不同模態(tài)的特征進行拼接后送入后續(xù)的推理模塊。TFN融合策略不僅考慮了各模態(tài)之間的特征融合,且有效地利用了各特定模態(tài)的特征。首先對每個模態(tài)進行維度擴充,然后對不同模態(tài)求笛卡爾積。如圖4(b)所示。維度擴充后,既計算了兩個模態(tài)間的特征相關性,又保留了特定模態(tài)的信息。為得到最好的效果,對兩種融合策略分別進行測試,采用文獻[13]中提出的重疊區(qū)域的峰值信噪比(Peak Signal-to-noise Ratio,PSNR)和結構相似性指數(shù)(Structure Similarity,SSIM)評估模型在UDIS 數(shù)據(jù)集的配準性能,對比結果見表1、2,根據(jù)實驗結果選擇TFN融合作為融合方式。
表1 不同融合方式PSNR對比
表2 不同融合方式SSIM對比
圖4 不同融合方式對比
用一個共享權值的特征提取網(wǎng)絡對融合后的圖像提取特征,特征提取網(wǎng)絡包含4 個模塊,每個模塊包含2 個卷積層和1 個池化層,獲得圖像的多層次特征。特征提取之后,通過全局相關層計算圖像之間的相似度
用一個由3 個卷積層和2 個全連接層組成的回歸網(wǎng)絡來處理相關性,并預測與單應性一一對應的偏移量f。直接線性變換(Direct Linear Transform,DLT)可通過一組匹配特征點獲得單應性變換。本文采用DLT將不同視角的圖像轉(zhuǎn)換為同一視角。經(jīng)過前置網(wǎng)絡后得到兩幅圖像的特征匹配,將兩個點集分別標記為X和X′,利用單應變換擬合它們之間的關系:
式中:[xy1]T為特征點在X′中的坐標;[uv1]T為特征點在X中的坐標;H為目標圖像到參考圖像的單應性變換。
空間轉(zhuǎn)換層(Spatial Transformer Layer,STL)[14]利用單應性模型保證梯度反向傳播的條件下進行空間轉(zhuǎn)換。在框架中STL代替了圖像融合模塊,將單應性變換轉(zhuǎn)換為結構拼接結果。
由于圖像中存在不同的平面,僅采用單一單應性對齊可能會出現(xiàn)重影、模糊等現(xiàn)象。為突破單應性的限制,采用圖像重建網(wǎng)絡來對圖像進行細對齊,網(wǎng)絡結構如圖5 所示。
圖5 無監(jiān)督圖像重建網(wǎng)絡結構
感受野隨著分辨率的增加相對變小,只在高分辨率重建圖像會導致拼接效果不佳。為保證網(wǎng)絡能完全感知差異區(qū)域,特別是在高分辨率和大視差的情況下,本文設計了一個低分辨率分支先學習圖像拼接的變形規(guī)律。如圖5 上半部分所示,將扭曲的圖像下采樣到低分辨率(256 ×256)。通過通道注意力的經(jīng)典模型壓縮和激勵網(wǎng)絡(Squeeze-and-Excitation Networks,SENet)[15]得到各通道權重。SENet 分為壓縮和激勵兩個部分,輸入特征經(jīng)壓縮操作,將跨空間維度H×W的特征映射進行聚合,生成通道描述符。將全局空間信息壓縮到上述通道描述符中,輸入層便可利用這些通道描述符。每個通道通過一個基于通道依賴的自選門機制來學習特定樣本的激活,使用全局信息有選擇地增強有效特征,抑制無效特征。將獲得通道權重的特征輸入卷積層和反卷積層分支學習圖像的變形規(guī)律,生成結構化拼接結果。
經(jīng)低分辨率分支后得到初步拼接結果,此時圖像仍然存在亮度不一致和模糊問題。為解決這一問題,本文設計了優(yōu)化網(wǎng)絡來提高圖像的分辨率。將上一步的拼接結果上采樣后與高分辨率圖像相結合作為該分支的輸入,如圖5 下半部分所示。該分支全部由卷積層組成,可以處理任意分辨率的圖像。具體來說,它由兩個卷積層和8 個殘差塊組成。為防止低級信息隨網(wǎng)絡層數(shù)的加深逐漸丟失,在第1 層的特征中加入倒數(shù)第2 層的特征。隨著網(wǎng)絡層數(shù)的增加,感受野相對減小。擴張卷積也被稱為空洞卷積,如圖6 所示,擴張卷積在標準卷積核中加入間隔,在不犧牲特征圖尺寸的情況下使卷積核的尺寸變大。卷積核尺寸變大,感受野也就自然變大。所以殘差塊的第1 個卷積使用擴張卷積,之后是激活層、卷積層、相加層和激活層。將低分辨率的輸出與第1 階段的輸出合并作為高分辨率的輸入,輸出高分辨率的拼接圖像。
圖6 普通卷積與擴張卷積感受野對比
實驗分為訓練和測試兩個部分,整體流程如圖7 所示,首先對訓練集訓練得到模型參數(shù),其次進行測試得到輸出圖像。
圖7 實驗流程
本文使用2 種數(shù)據(jù)集進行實驗,第1 種是針對雙攝像頭圖像的UDIS[13]真實數(shù)據(jù)集,含有多種場景的圖像對。第2 種是包含多攝像頭圖像的真實數(shù)據(jù)集(自己拍攝的),主要包含校園場景和礦下場景。采用文獻[16]中預訓練模型獲得對應的深度圖像。為提高學生對實驗的興趣,訓練和測試的數(shù)據(jù)集可由學生自己拍攝。構建數(shù)據(jù)集首先要確保數(shù)據(jù)集中的圖像之間包含重疊區(qū)域,其次要獲得與彩色圖像對應的景深圖。拼接框架基于Tensorflow 實現(xiàn),訓練和測試均在單個NVIDIA RTX2080 ti上運行。
由于數(shù)據(jù)集缺乏真值,本文采用重疊區(qū)域的PSNR和SSIM 評估算法的性能。將DMISNet 與傳統(tǒng)拼接方法SIFT +RANSAC、有監(jiān)督拼接方法DHN和無監(jiān)督拼接方法UDISNet[13]在UDIS 數(shù)據(jù)集進行比較。DHN采用公開預訓練模型測試,UDISNet 和DMISNet訓練批次大小均設為4,采用Adam 優(yōu)化器,初始學習率設為10-4,訓練100 個epoch(見表3、4)。為驗證DMISNet在拼接效果上的優(yōu)越性,將它與SIFT +RANSAC和UDISNet在不同場景下的拼接結果圖進行對比,如圖8 所示。為使結果更容易對比觀察,將拼接效果不同的區(qū)域用紅框框出。
表3 UDIS數(shù)據(jù)集上重疊部分PSNR對比
表4 UDIS數(shù)據(jù)集上重疊部分SSIM對比
圖8 不同方法的拼接效果對比
通過分析表3、4 與圖8 可知,DMISNet 相對于傳統(tǒng)方法SIFT +RANSAC 和現(xiàn)有的無監(jiān)督深度學習方法UDISNet具有一定的優(yōu)越性。與參考網(wǎng)絡UDISNet相比,DMISNet在視差大的場景下拼接效果更好,這也驗證了景深圖與RGB圖像融合優(yōu)化了單應性估計,改善了拼接效果。
為驗證模型的泛化性和多攝像頭圖像拼接的效果,直接用預訓練模型拼接自制數(shù)據(jù)集中的圖像,該數(shù)據(jù)集中的場景與訓練集中的場景均不一致。圖9 顯示了拼接的效果。可見,在具有視差的場景下DMISNet具有多攝像頭圖像拼接的能力,直接使用預訓練模型進行拼接能取得不錯的拼接效果,拼接效果表明,本方法具有一定的泛化性。
圖9 多攝像頭圖像拼接結果
本文設計了一種基于景深-彩色圖像融合的無監(jiān)督深度學習圖像拼接方法,將景深圖與彩色圖像融合后作為輸入,通過無監(jiān)督單應性變換和無監(jiān)督圖像重建獲得寬視野圖像。在低紋理、低光照、大視差場景下獲得了較好的拼接效果,有效避免了重影及割裂現(xiàn)象,在多攝像頭圖像拼接中也取得了不錯的效果。本案例具有一定的延伸性,學生可基于本方法做出改進,有利于培養(yǎng)學生的實踐能力,切實增強學生對新技術的理解。