夏 丹,周 睿
華中師范大學(xué) 教育信息技術(shù)學(xué)院,武漢430079
普通相機受限于焦距與傳感器,采集的圖像有時無法滿足人們對于高分辨率與寬視角的圖像的需求,為了利用普通相機獲得此類特定需求的圖像,圖像拼接技術(shù)應(yīng)運而生。圖像拼接技術(shù)是指通過對輸入的、具有重疊部分的圖像序列進行圖像預(yù)處理、圖像配準、圖像融合等操作,將其拼接成一幅具有高分辨率、寬視角圖像的技術(shù)。目前該技術(shù)廣泛地應(yīng)用在無人駕駛[1]、虛擬現(xiàn)實[2]、遙感圖像處理[3]、醫(yī)學(xué)成像[4]、視頻編輯[5]等領(lǐng)域。
圖像拼接算法通??煞譃閳D像配準與圖像融合兩個步驟。其中,圖像配準是核心,也是解決視差問題的關(guān)鍵。圖像配準的難點在于如何構(gòu)建一個更加精準、合適的模型,以減少配準誤差且不破壞圖像內(nèi)容的結(jié)構(gòu)。根據(jù)相機的運動狀況,圖像配準算法主要可分為單視點配準算法和多視點配準算法兩種。圖像視差產(chǎn)生于多視點情況下,具有視差的圖像的配準是長期以來圖像配準技術(shù)中的一個挑戰(zhàn),也是當前的研究熱點。近年來,針對視差圖像配準的研究工作多數(shù)采用基于特征的空域變換方法。根據(jù)生成變形模型的方式不同,可主要將其分為基于多平面對齊的圖像配準、基于網(wǎng)格變形的圖像配準以及縫合線驅(qū)動的圖像配準三類。本文對三類方法近年的一些相關(guān)工作進行了分析并討論了其優(yōu)缺點。
視差是指從具有一定間隔的兩個點上觀察同一目標時產(chǎn)生的方向上的差異。在拍攝時,如果相機的位置發(fā)生移動,則獲取的圖像間會存在視差。圖1為一個簡單視差案例。分別從視點1 與視點2 處觀察圖像,在視點1處的成像結(jié)果中,被觀測物體位于背景中的灰色正方形處,而在視點2 的成像結(jié)果中,被觀測物體落于綠色圓圈處。對比兩成像圖可以發(fā)現(xiàn),被觀測物體在兩視點的成像結(jié)果中的位置發(fā)生了改變,即產(chǎn)生了視差。在實際的拍攝場景中,往往難以保持相機的位置不發(fā)生改變而只圍繞垂直于光軸的方向做旋轉(zhuǎn)運動。因此,通常獲得的多數(shù)照片之間具有視差。
圖1 簡單視差模型圖
視差圖像配準的關(guān)鍵與難點是找出一個可以較好地描述兩幅圖像之間轉(zhuǎn)換關(guān)系的數(shù)據(jù)模型。對于視差較小的情況,如圖2(a)所示,相機做簡單的平移運動,此時圖像重疊區(qū)域中的對應(yīng)點只存在單一方向的視差。這類情況可以利用特征匹配點輕松求解出對應(yīng)變換關(guān)系模型。實際場景中,相機的運動往往較為復(fù)雜可能包含平移、旋轉(zhuǎn)、鏡頭縮放等,如圖2(b)所示。重疊區(qū)域的物體在真實的場景中可能處于多個平面(具有較大深度差異),較大的深度差異加上復(fù)雜的相機運動使得很難通過特征獲得一個復(fù)雜的轉(zhuǎn)換關(guān)系模型,來實現(xiàn)對大部分的場景物體進行精確變換描述。同時,輸入圖像的重疊區(qū)域時常會出現(xiàn)紋理較少、特征不足的情況,這使得對大視差圖像進行精確配準更為困難。此外,由于采用空域變換的方式進行圖像配準,當視差較大時,為保證重疊區(qū)域的精確對齊,往往會導(dǎo)致非重疊區(qū)域圖像結(jié)構(gòu)遭到破壞。因此,如何保證對齊精度的同時保護圖像結(jié)構(gòu)也成為視差圖像配準中的一個難點。
圖2 相機運動方式圖
Lowe 與Brown[6]于2007 年提出了一套完整的自動圖像拼接算法流程,基本確定了單視點配準算法的一般步驟,同時也為多視點圖像配準算法的研究提供了較大的啟示。當前基于多視點模型配準的主流配準算法可主要分為基于多平面對齊的圖像配準、基于網(wǎng)格變形的圖像配準以及縫合線驅(qū)動的圖像配準三類。
當場景中的景物近似處于同一平面時,可利用單個全局單應(yīng)矩陣來表達圖像之間的關(guān)系。然而實際場景往往較為復(fù)雜,景物之間由于深度信息相差較大難以將其歸屬于同一平面,單個全局單應(yīng)矩陣無法準確表達圖像之間的幾何變換關(guān)系。解決該問題的一種方法是將圖像分割為多個平面,利用多個單應(yīng)性矩陣來分別表達圖像中不同平面景物的關(guān)系。
Gao等人[7]首先提出利用雙單應(yīng)性矩陣分別對齊不同平面來進行視差圖像配準的思想。針對景點這類可以明顯區(qū)分前景和背景的場景,可將圖像從物理層面簡單分割為近地面與遠背景面兩個平面,分別使用兩個單應(yīng)性矩陣將其對齊,然后根據(jù)兩個單應(yīng)性矩陣求出一個通用表達式對所有像素點進行投影。該方法利用K-means算法[8]根據(jù)特征點的位置將其聚類成Gg和Gd兩組實現(xiàn)對圖像分割。相較于使用單個單應(yīng)矩陣對齊圖像,該方法可以一定程度提升對齊精度,但對于具有多個平面的復(fù)雜場景,該方法將處于不同的平面錯誤地分為一個結(jié)構(gòu),將導(dǎo)致配準出錯。此外,該方法使用Kmeans 算法進行聚類耗時較長,導(dǎo)致整體配準效率較低。Yan等人[9]將此方法推廣至上方為建筑下方為地面的圖像場景中,提出一種利用圖像中的直線特征分割圖像的方法以實現(xiàn)配準效率的優(yōu)化。該方法充分利用建筑場景中直線特征較多這一特點,使用霍夫變換(Hough Transform)[10]對圖像中的直線結(jié)構(gòu)進行提取,然后選取所有直線中,位置處于最下端的直線作為平面分割線。通過將復(fù)雜的點聚類求解轉(zhuǎn)化為直線搜索,在保證一定分割精度的同時較好地提高了配準效率,然而該方法的適用場景較為有限。
上述的雙平面對齊方法采用的為基于物理平面的分割方式,其分割依據(jù)為近地平面與遠背景平面具有完全不同方向的法向量。當場景較為復(fù)雜,存在多個物理平面時,該方法將會出錯。對于此類復(fù)雜的場景,Zheng等人[11]借鑒Gao 等人將平面法向量作為分割依據(jù)的思想,充分考慮圖像成像的特點,提出了一種基于投影一致平面的新穎圖像配準方法。該方法將濾除外點后的特征點作為頂點,利用德洛內(nèi)三角剖分方法[12-13]生成一個初始三角平面集合,并將三角平面的一般表達式定義為:
進而得到平面的法向量(a,b,c)。利用法向量求出各平面間的方向相似度后,結(jié)合投影誤差可對各三角平面進行合并,進而實現(xiàn)平面的分割。最后,在對各個平面求解單應(yīng)矩陣進行對齊后,該方法從各個平面中選取相同數(shù)目的特征點用于估計全局變換進一步提升配準的精度。此方法可以較好地處理大視差圖像的配準問題,但由于三角平面合并時需要利用從深度信息中計算得到的投影誤差,因此其性能依賴于三角平面初始化時估計的圖像深度信息的精度。此外,對于弧形的非平面結(jié)構(gòu),由于其中不同的點運動不一致,單個投影變換模型無法對整個平面的運動情況進行描述。因此,對于此類包含有非平面結(jié)構(gòu)的場景圖像,該方法的配準精度不高。
對于具有復(fù)雜場景的圖像平面分割,一個有效方法是借助深度學(xué)習(xí)的方法。Haines 等人[14]通過從一個最大標記樣本集中訓(xùn)練法向量方向,將圖像中的顯著點分組至具有不同法向量的平面區(qū)域,實現(xiàn)對圖像進行分割。Lou 等人[15]借鑒文獻[16]中的深度學(xué)習(xí)方法,利用參考圖像中的光照強度、梯度、紋理、對極幾何等信息獲得一個初始圖像片段集。為每個圖像片段估計一個仿射變換,并將具有相似變換參數(shù)的相鄰片段合并可得到若干平面。最后分別對各個平面求解仿射變換即可實現(xiàn)多平面的對齊。為避免各對齊后平面間出現(xiàn)重疊或分離情況,該方法通過添加一個全局約束保證了各平面區(qū)域連續(xù)性。相較于Gao 等人[7]所采用的簡單分割方法,借助深度學(xué)習(xí)方法進行平面分割,可以充分挖掘圖像中各物體的內(nèi)在聯(lián)系,實現(xiàn)更精準的分割,進而有利于估計出更精確的變換模型。
當前用于圖像配準的區(qū)域分割方法可大致總結(jié)為固定單元分割法[17-21]、多結(jié)構(gòu)數(shù)據(jù)分割法[22-23]、基于物理平面分割法[7,11]以及基于圖像表征特征分割法[24-30]四類,四類方法的特點及局限性如表1 所示。其中固定單元分割法由于其靈活性高、操作簡易以及對大部分場景魯棒性較好等特點近年來得到快速發(fā)展,在其基礎(chǔ)上衍生的基于網(wǎng)格變形的圖像配準方法已成為一種主要配準方法。其余三類分割方法則逐漸與深度學(xué)習(xí)技術(shù)相結(jié)合,利用機器學(xué)習(xí)的優(yōu)勢以提升分割精度?;诙嗥矫鎸R的圖像配準方法的配準精度易受平面分割精度的影響。由于平面分割的目的是通過使用相同的局部變換模型以保證各分割區(qū)域中的所有像素得到相應(yīng)的變換,進而實現(xiàn)平面的對齊。若平面分割精度較低,部分像素可能會被誤劃分到錯誤平面,然后執(zhí)行錯誤的變換從而產(chǎn)生重影等誤配準現(xiàn)象。Zheng等人[11]對此進行了相關(guān)的實驗并證實在一定范圍內(nèi),平面分割的精度與圖像配準精度呈正相關(guān)。此外,該配準方法的精度還易受圖像視差大小的影響。隨著圖像間的視差的增大,部分大視差平面的變換模型可能出現(xiàn)單應(yīng)矩陣過少、對齊能力不足情況,導(dǎo)致配準精度較低。此時若該部分平面分割精度較低,可通過提升分割精度細化分割一定程度提升配準精度。在實際應(yīng)用中,結(jié)合考慮圖像場景的內(nèi)容結(jié)構(gòu)與各類方法的局限性選擇對應(yīng)的分割方法可獲得綜合性能較好的算法。
基于網(wǎng)格變形的圖像配準的主要思想為對粗對齊后的圖像進行網(wǎng)格劃分,將圖像的變形轉(zhuǎn)化為網(wǎng)格的重繪,再將網(wǎng)格的變形對應(yīng)到圖像的變形,使絕大多數(shù)的匹配特征點對完全對齊。此類方法通過為網(wǎng)格頂點構(gòu)造一個能量函數(shù)實現(xiàn)整個流程,通過在能量函數(shù)中添加不同的約束項可達到不同目的。
Liu 等人[31]提出內(nèi)容保護變換(Content-Preserving Warps,CPW)用于三維視頻穩(wěn)定。該方法將已對齊的圖像劃分為多個網(wǎng)格單元,然后為網(wǎng)格頂點構(gòu)造一個由數(shù)據(jù)項、相似變換項以及全局對齊項組成的能量函數(shù),通過最小化能量函數(shù),得到重繪的網(wǎng)格頂點坐標。特征點所在網(wǎng)格的頂點坐標經(jīng)過能量函數(shù)的優(yōu)化,可以保護圖像重要區(qū)域的形狀在變換中不被改變。文獻[32-33]使用一種平滑過渡的仿射變換模型,以解決傳統(tǒng)算法求出的全局仿射變換參數(shù)無法準確對齊待拼接圖像問題[34]。該算法在高斯函數(shù)的平滑約束下,利用SIFT特征點的仿射變換參數(shù)插值得到任意點的仿射變換參數(shù),進而利用各位置的仿射變換進行局部配準,提升配準精度。Zaragoza等人[17]在上述兩種方法基礎(chǔ)上更一步,提出了一個基于網(wǎng)格變形的平滑過渡的透視模型。該方法的配準過程示意圖如圖3 所示。首先利用傳統(tǒng)配準方法計算出一個全局單應(yīng)矩陣,然后將圖像劃分成若干均勻網(wǎng)格單元,并在DLT(Direct Linear Transform)算法基礎(chǔ)上提出一個移動的DLT 算法以求解每個網(wǎng)格單元的局部單應(yīng)矩陣。求解局部單應(yīng)矩陣時,該方法依然采用DLT算法來優(yōu)化特征點的配準誤差,但其考慮了特征點周圍的結(jié)構(gòu),為每個配準誤差賦予了一個相應(yīng)的權(quán)重。權(quán)重的大小根據(jù)特征點到網(wǎng)格中心的距離計算,距離中心點越近權(quán)重越大。特征點的權(quán)重通過高斯函數(shù)計算得到:
表1 區(qū)域分割方法總結(jié)
其中,x*為網(wǎng)格中心位置,xi為特征點位置,σ2為尺度參數(shù)。
圖3 APAP算法配準示意圖
通過將圖像分割成多個網(wǎng)格,在全局對齊的基礎(chǔ)上利用多個局部單應(yīng)矩陣對各網(wǎng)格單元內(nèi)容進行局部優(yōu)化調(diào)整的方法,在處理具有一定視差的圖像時,可以實現(xiàn)更精確的配準。但它過分依賴于特征點對的數(shù)量,若圖像紋理信息較少或圖像間的重疊區(qū)域較小,則部分區(qū)域無法滿足計算得到可靠的單應(yīng)矩陣所需的最小條件,致使配準效果不佳。且同一單元可能包含來自不同平面的特征點,該情況下計算得到的單應(yīng)矩陣準確性不高,對于配準精度也會產(chǎn)生影響。因此該方法最終的拼接效果很大程度取決于特征點對的數(shù)量以及網(wǎng)格單元的劃分情況。
Zaragoza等人[17]提出的盡可能射影變換(As-Projective-As-Possible Image Stitching with Moving DLT,APAP)算法為視差較大的圖像的配準提供了一個較好的解決示例。在此基礎(chǔ)上涌現(xiàn)出了許多基于網(wǎng)格變形優(yōu)化的圖像配準工作,這些工作主要從提升對齊精度與改善圖像的自然性兩方面改進圖像配準效果。
2.2.1 提升對齊精度的圖像配準
如何精確、高效地對齊圖像是圖像配準的核心問題。基于網(wǎng)格變形的配準的方法雖較好地提高了對齊精度,但過分依賴于特征點,特征點的數(shù)量與分布對于最終的拼接效果有著較大影響。針對過度依賴特征點對配準精度造成的一些影響,近年來涌現(xiàn)出了一些解決方案[18-19,35-38]。
圖像網(wǎng)格劃分的方式對于對齊的精度有著很大影響。若網(wǎng)格劃分過密,會導(dǎo)致計算量過大或因網(wǎng)格內(nèi)特征點過少致使估計的單應(yīng)矩陣不準確;而劃分過于稀疏,當圖像重疊區(qū)域包含復(fù)雜紋理時,會由于矩陣對齊能力不足致使配準結(jié)果中產(chǎn)生重影。針對這一問題,齊向明等人[18]提出一種細分網(wǎng)格變形的方法。在對圖像粗分割的基礎(chǔ)上,對重疊區(qū)域內(nèi)特征點較為密集的區(qū)域進行細化分割以適當增加變換矩陣數(shù)量,提升配準精度。但該方法對于不同場景需多次調(diào)整以獲得最佳的細分閾值,且易出現(xiàn)過分割問題。王元煒等人[19]提出了一種自適應(yīng)四叉樹分塊的網(wǎng)格劃分法,在初始分割時迭代地對圖像進行四叉樹分塊直至區(qū)塊內(nèi)特征點數(shù)量小于預(yù)先設(shè)定閾值或達到樹的最大深度。該方法可在保證APAP算法配準精度的同時大幅提升算法的效率,但對于圖像的紋理稀疏部分,該劃分方式會加劇誤匹配。Liu等人[39]提出一種利用圖像中特征點的分布實現(xiàn)自動網(wǎng)格生成的方法。該方法對特征點分別建立(橫坐標,特征點數(shù))與(縱坐標,特征點數(shù))兩個數(shù)據(jù)集。對特征點數(shù)據(jù)集進行處理后,令兩組數(shù)據(jù)中的局部極大值數(shù)分別為其對應(yīng)特征點分組數(shù)W與L。然后利用公式(3)進而可得網(wǎng)格在豎直與水平兩個方向的分割系數(shù)w 與l。
其中,ImageWidth 與ImageLength 分別表示圖像的寬度與高度,F(xiàn)eatureWidth 與FeatureLength 分別為當前圖像在重疊區(qū)域的寬度與高度。此外,該方法為進一步提升算法的多圖像配準效率,采用了與Qu 等人[40]相似的思想,即在初始對圖像兩兩之間進行特征點檢測與匹配時記錄其各自對應(yīng)的信息,當下次對具有對應(yīng)信息記錄的圖像進行配準時,直接利用原有記錄信息,以避免反復(fù)執(zhí)行特征點提取與匹配過程。該網(wǎng)格自動生成方法受圖像特征點的分布影響較大,若特征點分布較為平均則難以生成有效的網(wǎng)格且可能會降低算法效率。
當重疊區(qū)域紋理分布不均或特征匹配對不足時,已有的局部單應(yīng)矩陣無法對圖像進行精確的配準,此時調(diào)整網(wǎng)格的劃分也很難有所改善。針對重疊區(qū)域特征點匹配對數(shù)量不足問題,Liu 等人[39]提出了一套自動識別未對齊區(qū)域并在其中插入匹配點的算法。該算法通過對圖像的視覺顯著圖進行迭代閾值處理求得一系列新增插入像素點,然后利用獲得像素的強度值,根據(jù)定義的強度匹配代價函數(shù)在對應(yīng)圖像中找到相應(yīng)特征點組成匹配對。該方法可以解決重疊區(qū)域關(guān)聯(lián)性較弱時配準出錯的問題,但其搜索對應(yīng)特征關(guān)系耗時較長,且由于需要輸入圖像間在顏色與亮度具有一致性,因此在配準前需進行預(yù)處理操作,導(dǎo)致整體算法效率不高。此外,該方法插入的特征匹配對接受率較低,算法性能不高。
除點特征外,還可利用圖像中的線特征作為輔助,為圖像低紋理區(qū)域提供豐富可靠的對應(yīng)關(guān)系[35-37,41]。Li等人將線段作為補充特征元素,提出一種采用點、線結(jié)合的雙特征配準算法。通過利用線段作為點特征的補充,在緩解紋理稀疏區(qū)域特征點不足問題的同時也保護了圖像中的直線結(jié)構(gòu)。該方法首先使用EDLine直線檢測法[42]檢測圖像中的直線結(jié)構(gòu),并對檢測的線段采用端點參數(shù)化以解決點線度量不一致無法進行計算的問題。然后使用MSLD 描述子[43]對檢測到的線段進行表述。針對MSLD 描述子采用固定大小的方形區(qū)域采樣導(dǎo)致無法處理縮放、透視變換等情況,該方法提出了使用點引導(dǎo)線進行匹配使得采樣區(qū)域可變的解決方案。進行局部調(diào)整時,該方法在網(wǎng)格頂點坐標的能量函數(shù)中加入直線約束項Eline(V),以提升對齊精度,其表達式為:
圖4 網(wǎng)格變形模型中線段特征對應(yīng)關(guān)系圖
Joo 等人[36]對APAP 算法中的移動DLT 進行了擴展,提出了一個直線引導(dǎo)moving DLT(L-mDLT)圖像拼接框架。該方法將求解函數(shù)中的點權(quán)重替換成一個綜合了點、線誤差的混合權(quán)重w=diag([wp,λwl]),并根據(jù)點、線的幾何投影誤差,計算出一個權(quán)重平衡參數(shù)λ 進一步改善拼接效果。由于需要手動對圖像中的直線進行標注,該方法實際操作較為復(fù)雜。Lin 等人[35]在利用直線特征作為特征補充的基礎(chǔ)上,將光流法[44]與網(wǎng)格變形配準結(jié)合,提出了基于網(wǎng)格的光度校準(Mesh-based Photometric Alignment,MPA)方法,以進一步提升對齊精度。該方法借鑒了光流法思想,根據(jù)像素點的光強度構(gòu)造了一個測光誤差函數(shù)Ec(τ(q)),并將該函數(shù)作為約束項添加到網(wǎng)格頂點的能量函數(shù)中,以優(yōu)化配準誤差。改進后的能量函數(shù)公式如下:
特征點中的外點對于配準精度也有著較大的影響。多數(shù)配準算法利用RANSAC算法對外點進行過濾以提高配準的精度,然而對于不同的場景,很難保證每次都能確定一個合適的閾值在盡可能保留內(nèi)點的同時濾除外點。針對這一問題,Zhang 等人[41]提出一種局部DLT方法在局部去除外點。對于任意特征點,若它們間的距離小于R,則視其為一個平面,利用DLT算法計算它們的單應(yīng)矩陣,然后計算該單應(yīng)矩陣的殘差,殘差值小于γ 則視為內(nèi)點,反之為外點。局部DLT方法僅適用于紋理豐富區(qū)域,在特征點不足的區(qū)域會失效。且如果鄰域內(nèi)的匹配特征點數(shù)小于4,無法估計出可靠的單應(yīng)矩陣。
2.2.2 改善圖像自然性的圖像配準
基于網(wǎng)格變形的配準方案普遍使用單應(yīng)矩陣對圖像進行射影變換。由于射影變換的特性,生成的單視角圖像會不可避免地在變換圖像的非重疊區(qū)域產(chǎn)生投影失真,影響最終拼接圖像的觀感。針對這一問題,可利用全局相似性保留多幅圖像的視角以減少投影失真。Chang 等人[45]率先提出一個保留形狀的半射影(Shape-Preserving Half-Projective Warps,SPHP)方案以解決圖像投影失真問題。其主要思想為在重疊區(qū)域使用射影變換保證較好的對齊效果,同時在非重疊區(qū)域使用相似變換保留每個視圖的視角。為使目標圖像從射影變換平滑地過渡到相似變換,該方法使用兩條平行于v 軸的直線u1與u2將待變換的目標圖像分割為RH、RT與RS三個部分。然后構(gòu)造一個分段變換函數(shù)W(u,v)分別對圖像三個區(qū)域進行變換,利用函數(shù)W 連續(xù)這一條件可求解出各部分對應(yīng)的表達式。該分段函數(shù)的表達式為:
該方法還為每幅圖像Ii定義了一個代價函數(shù)Ei來衡量圖像變換函數(shù)Wi與其最近相似變換的偏差。通過最小化代價函數(shù)值求解參數(shù)u1與u2,可最大范圍地保留圖像視角。SPHP算法可以有效地改善非重疊區(qū)域透視失真問題,然而該方法從全局單應(yīng)變換中推導(dǎo)出相似變換,當估計的單應(yīng)矩陣不準確時,可能會導(dǎo)致拼接結(jié)果出現(xiàn)非自然的旋轉(zhuǎn)問題。
Liu 等人[39]同樣采用單應(yīng)矩陣結(jié)合相似矩陣的思路,但只將圖像分為兩部分處理。對于重疊區(qū)域,該方法利用APAP的射影變換進行處理,對于非重疊區(qū)域則定義一個形狀優(yōu)化變換對圖像優(yōu)化。權(quán)重Wn為一個3×3的矩陣,其中的子元素的表達式為:
Lin等人[20]提出了一個自適應(yīng)盡可能自然的圖像拼接算法(AANAP)進一步解決投影失真問題。該方法首先對非重疊區(qū)域的單應(yīng)矩陣進行線性化以解決非線性外推導(dǎo)致的圖像結(jié)構(gòu)扭曲。通過將圖像網(wǎng)格頂點p 附近的點q 的單應(yīng)變換函數(shù)展開成泰勒級數(shù)形式,可以實現(xiàn)單應(yīng)矩陣線性化。求解相似變換矩陣時,由于圖像中的物體可能存在于不同平面,該方法在RANSAC 中設(shè)置雙重閾值對特征點進行迭代過濾并分組。各組點近似代表不同平面,分別對其計算相應(yīng)的相似變換,自動選擇旋轉(zhuǎn)角度最小的變換作為最佳候選。AANAP算法使用自適應(yīng)選擇最佳相似變換的方法,相較于SPHP 算法,非自然旋轉(zhuǎn)的問題得到了更好的改善。通過將單應(yīng)矩陣線性化,有效地改善了非重疊區(qū)域結(jié)構(gòu)扭曲的情況。但是AANAP 算法使用特征匹點配來確定最佳相似性變換,獲得的全局相似變換估計魯棒性不強,在配準時圖像仍可能存在非自然旋轉(zhuǎn)和縮放情況。此外,該算法直接將使用齊次坐標的最優(yōu)相似變換矩陣與使用像素坐標的單應(yīng)變換矩陣的對應(yīng)元素進行加權(quán)平均,以得到最后的變換矩陣,由于二者坐標單位不同,若直接進行運算可能會出現(xiàn)錯誤。龐榮等人[46]對兩個變換矩陣的坐標進行了轉(zhuǎn)化統(tǒng)一處理,并提出一個基于網(wǎng)格變形的雙向moving DLT 算法。對圖像進行變換前,首先在兩幅輸入圖像間尋找一個較為自然的中間狀態(tài),然后讓二者以基于moving DLT的方式同時向此中間狀態(tài)進行變換,實現(xiàn)圖像的對齊。該方法可以實現(xiàn)自主調(diào)控最終圖像的自然觀感。
Chen 等人[21]提出在網(wǎng)格頂點能量函數(shù)中添加全局相似先驗項約束來改善圖像的自然性。他們構(gòu)造了一個由對齊項Ψa、局部相似項Ψl以及全局相似項Ψg組成的能量函數(shù)Ψ(V)。其中局部相似項Ψl將對齊約束從重疊區(qū)域傳遞到非重疊區(qū)域,確保每個網(wǎng)格進行相似變換。全局相似項Ψg約束每幅圖像盡可能地進行經(jīng)歷全局相似性先驗,以解決配準后圖像傾斜和非均勻變形的問題。該全局相似性項定義為:
其中,R(Φij)為相對旋轉(zhuǎn)角Φij對應(yīng)的二維旋轉(zhuǎn)矩陣,二維單位向量(u,v)表示對應(yīng)的旋轉(zhuǎn)角θ 。最小化函數(shù)EMLDR即可求解出最優(yōu)旋轉(zhuǎn)角度。利用最佳縮放因子與最佳旋轉(zhuǎn)角度可獲得一個最優(yōu)全局相似項進而保護圖像的自然性。該方法對于圖像的自然性進行了較好的保護,但它基于網(wǎng)格連續(xù)性相似約束變換,只能保證網(wǎng)格內(nèi)部不會產(chǎn)生形變,當直線結(jié)構(gòu)跨網(wǎng)格時,該約束將不存在,此時直線結(jié)構(gòu)可能產(chǎn)生形變。
獲得具有較好自然觀感的圖像,除解決投影失真問題外,還需保證圖像中的顯著性結(jié)構(gòu)不被破壞。直線是圖像中最易被人眼所察覺的顯著結(jié)構(gòu),在配準過程中容易受配準誤差的影響導(dǎo)致結(jié)構(gòu)彎曲進而影響圖像的觀感。在各種基于網(wǎng)格變形優(yōu)化的算法中,這一現(xiàn)象由于圖像中直線結(jié)構(gòu)往往橫跨多個網(wǎng)格,而圖像在局部變換時,每個網(wǎng)格的內(nèi)容進行的變換不一致所導(dǎo)致。通過在網(wǎng)格頂點的能量代價函數(shù)中添加一個直線約束項可以有效地解決這一問題。文獻[37,47-48]中采用相似的方法,對每條跨越網(wǎng)格的直線進行分段,使得每個網(wǎng)格區(qū)域只包含直線的一部分,對線段與網(wǎng)格的交點使用點所在網(wǎng)格的四個頂點表示,然后采用點到直線的距離作為懲罰項約束三點共線。得到直線約束項能量代價函數(shù)Eline(V)后,將代價函數(shù)添加到網(wǎng)格頂點能量函數(shù)E(V)中,從而對圖像的變換實現(xiàn)直線約束以保護直線的線性結(jié)構(gòu)不被破壞。
基于網(wǎng)格變形優(yōu)化的圖像配準技術(shù)具有較好的靈活性,通過對能量函數(shù)中添加不同的約束項可以很好地解決圖像配準中的許多問題,然而此類方法太過于依賴特征點。如何處理好特征點信息以獲得更精確的單應(yīng)變換是提升對齊精度的關(guān)鍵。當前基于該方法的配準算法多數(shù)致力于解決紋理稀疏特征點不足帶來的配準出錯問題,雖取得了一些較為不錯的效果,但距離實際應(yīng)用仍有一定距離。此外,該類方法存在一個顯著問題,即被分割至同一網(wǎng)格內(nèi)的特征點未必處于同一平面,這會導(dǎo)致估計出的單應(yīng)矩陣不夠準確。對于圖像自然性的保護,通過對能量函數(shù)中添加不同的約束可以較好地解決問題,然而會帶來巨大的計算量,算法的整體效率不高。且采用單應(yīng)變換和相似變換的組合雖可緩解透視失真問題,但由于相似性變換保留了單個視角,會導(dǎo)致兩變換間的過渡區(qū)域結(jié)構(gòu)彎曲或同一物體顯示不同的視角問題。
當圖像視差較大時,即使采用對視差具有一定容忍性的基于網(wǎng)格變形的配準方法也會配準出錯,此時基于空間變換的配準方法已無法得到正常配準結(jié)果。對于此類更大視差的圖像配準問題,目前較為有效的方法是基于縫合線的圖像配準技術(shù)。其中,縫合線選擇是基于縫合線的圖像配準方法中的重要步驟,只有縫合線的相鄰區(qū)域精確對齊,才能夠生成一個視覺上無縫的全景圖像?;诳p合線的配準技術(shù)結(jié)合了局部配準與縫合線搜索算法,利用縫合線來輔助選擇優(yōu)化圖像對齊,并從對齊優(yōu)化后的圖像中估計出一條最佳的縫合線,以使得在后期圖像融合時能夠獲得較好的拼接效果?;诳p合線的圖像配準示意圖如圖5所示。
圖5 縫合線驅(qū)動的圖像配準示意圖
Gao等人[49]提出縫合線驅(qū)動的圖像配準算法。與傳統(tǒng)配準方法不同,該方法并非根據(jù)已匹配特征點的最佳幾何擬合選擇單應(yīng)性矩陣,而是根據(jù)生成的縫合線的直觀質(zhì)量來評估選擇最終變換矩陣。首先對所有獲得的特征匹配對估計單應(yīng)矩陣,并使用每個單應(yīng)矩陣對圖像執(zhí)行對齊變換。然后對每幅生成圖像執(zhí)行縫合線分割,通過在縫合線上選取一個17×17 像素大小的方塊與輸入圖像中對應(yīng)大小方塊進行比對實現(xiàn)對生成的縫合線質(zhì)量進行評估。這種利用縫合線的質(zhì)量而非對齊誤差大小進行變換矩陣選擇的方法可以使生成圖像達到更好的感官效果。但是該方法只使用了局部的少數(shù)特征點計算單應(yīng)矩陣,圖像的配準精度不高。且當進行多幅圖像拼接時,誤差會累積,導(dǎo)致拼接結(jié)果產(chǎn)生彎曲、圖像自然性較差。
大視差的圖像的配準,很難實現(xiàn),也無需在整個重疊區(qū)域中精確對齊圖像,只需在重疊區(qū)域中的局部區(qū)域?qū)R圖像即可。基于該思想,Zhang 等人[50]將單應(yīng)變換與內(nèi)容保留變換相結(jié)合,提出了一種在縫合線附近使用CPW 進行局部對齊的方法,并將該方法擴展到立體圖像拼接。該方法首先隨機選擇種子特征點并在其鄰域進行增量聚合分組的方式來估計出多個初始單應(yīng)變換矩陣,若估計得單應(yīng)矩陣引起較大的圖像形變則將其丟棄。然后通過使用Canny 邊緣檢測法[51]提取出變換圖像與參考圖像的邊緣圖,并計算它們得到差分圖,結(jié)合graph-cut圖割算法[52]可求出最佳縫合線。最后,利用縫合線代價得到最佳變換矩陣后,結(jié)合文獻[49]中方法,采用CPW對重疊區(qū)域進行局部對齊優(yōu)化以彌補初始變換矩陣對齊精度的不足,進一步提升整體對齊精度。該方法在對特征點進行聚類分組時,使用一個較大的擬合閾值以盡可能包含周圍更多的特征點,這使得圖像之間的特征點無法完全對齊。雖然后續(xù)使用CPW方法緩解該問題,但是對于重疊區(qū)域中存在大量顯著結(jié)構(gòu)的情況效果較差。且該方法的對齊模型選擇與CPW優(yōu)化步驟耗時較長,導(dǎo)致算法的效率不高。
文獻[49-50]采用從生成的大量初始對齊假設(shè)中獲得最佳對齊假設(shè)的方法會導(dǎo)致配準效率低下,且單純利用縫合線來篩選出最佳的單應(yīng)變換對于對齊精度的提升很有限。Lin等人[53]提出一種基于超像素的特征分組方法來優(yōu)化初始對齊假設(shè)的生成。該方法使用文獻[54]中的方法對目標圖像進行分割,然后采用增量式的合并方式將包含特征的超像素劃分為幾個具有代表性的超混合組,并采用排列組合的方式對超混合組進行組合,以豐富初始對齊假設(shè)的豐富性。為進一步利用縫合線提升對齊精度,該方法將CPW 框架中對齊項的權(quán)重w替換為自適應(yīng)特征權(quán)重wi,將局部對準計算和縫合線估計緊密結(jié)合起來。自適應(yīng)特征權(quán)重wi的表達式為:
其中括號中的項取決于特征的對齊誤差,λ 取決于特征到當前縫合線的最短距離ds。初始值設(shè)為0.1,若ds≤20,λ 值取1.5。
在提升對齊精度的同時,該方法還在CPW 框架中增加了一個新的非局部結(jié)構(gòu)保留項Ecs,對圖像中的直線、曲線等顯著結(jié)構(gòu)進行保護。通過使用定義在每個線性輪廓上的三角形計算一組非局部相似性約束,實現(xiàn)對非局部結(jié)構(gòu)項構(gòu)造,具體如圖6所示?;贑PW框架優(yōu)化后的總能量函數(shù)為一個稀疏線性函數(shù),函數(shù)中各項均為二次型。利用這一特性,Li等人在文獻[48]中對能量函數(shù)形式進行變形優(yōu)化了計算效率。汪洋鑫等人[55]提出一種利用縫合線的質(zhì)量迭代選擇局部匹配點的方法,可同時找到最佳局部區(qū)域與縫合線。該方法首先迭代地對縫合線進行分割,并采用配準質(zhì)量Qp對分割的片段進行評估,對篩選出的質(zhì)量較差片段的鄰域依次進行特征點檢測。Qp表達式為:
其中,pt(pj;θ)和分別表示以點′對應(yīng)點為中心的來自變換后目標圖像It′和參考圖像Ir的圖像小塊,其大小被設(shè)為θ,σp為圖像小塊差異的標準差。然后將檢測的新特征點添加到局部匹配點集合中直到計算出一個有效的單應(yīng)變換。最后將新的特征點補充到全局匹配點集進而獲得更好的初始單應(yīng)矩陣及縫合線。該方法可以在避免大量初始配準假設(shè)帶來巨大計算開銷的同時,更好地優(yōu)化局部的配準。基于縫合線的配準方法對色彩差異較大的圖像進行處理時會產(chǎn)生明顯拼接縫問題,通過改進縫合線搜索算法并結(jié)合圖像融合算法可使問題得到較好緩解[56-59]。
圖6 非局部結(jié)構(gòu)項構(gòu)造原理圖
基于縫合線的圖像配準方法的關(guān)鍵步驟為尋找最佳初始對齊矩陣與尋找最優(yōu)縫合線。其中初始對齊矩陣作用與傳統(tǒng)圖像拼配準[6]中的全局單應(yīng)矩陣作用相似,用于對齊兩幅圖像。因此,初始對齊假設(shè)越好,其對應(yīng)的單應(yīng)矩陣表達能力則更強,相應(yīng)地圖像的配準精度也更高??p合線則被用于評估初始對齊的質(zhì)量以篩選出最佳的初始對齊。文獻[49-50]即通過改進縫合線與初始對齊間的關(guān)聯(lián)表達式以獲得更好的初始對齊,進而提升圖像的配準精度。由于該方法在配準中引入了圖像融合中的縫合線元素,因而對于大視差圖像的配準可以取得較好的視覺結(jié)果。但該類方法的最終縫合精度主要取決于初始對齊精度以及搜索到的最佳縫合線的質(zhì)量,其對齊精度相對前兩種方法較差一些。且由于選擇最佳單應(yīng)變換矩陣需要生成大量的初始假設(shè)并驗證,因此算法的計算量也較大。此外,由于使用單應(yīng)矩陣進行初始的對齊,縫合的結(jié)果基本是單一視角,因此該類方法也會出現(xiàn)投影失真問題。
本文將近年來基于特征的視差圖像配準的研究工作大致分為基于多平面的圖像配準、基于網(wǎng)格變形的圖像配準以及縫合線驅(qū)動的圖像配準三類,分別介紹和分析了各類算法的思想與限制,具體如表2所示。同時對近年各類方法的發(fā)展現(xiàn)狀進行了歸納與總結(jié):
(1)基于多平面對齊的圖像配準方法的性能受平面分割精度的影響。當平面分割精度較高時,對于一般視差的圖像可獲得較好的配準效果。近年來該類方法的發(fā)展主要為對其中平面分割部分的不斷優(yōu)化。隨著深度學(xué)習(xí)網(wǎng)絡(luò)在計算機視覺處理中取得巨大成功,此類配準方法中采用的平面分割法也從早期Gao等人[7]使用的種子區(qū)域生長法逐漸轉(zhuǎn)變?yōu)榻Y(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)的基于物理平面分割法[11]、基于圖像表征特征分割法[15]等方法。借助于深度學(xué)習(xí)的強大學(xué)習(xí)能力與特征表現(xiàn)能力,近年來基于多平面對齊的圖像配準方法的配準精度得到了較大提升。
(2)基于網(wǎng)格變形的圖像配準由于其較高的靈活性備受研究學(xué)者青睞,其相關(guān)研究取得了飛速發(fā)展。該類方法的發(fā)展主要分為提升對齊精度與加強自然性。由于依賴于特征點,該方法對齊精度提升部分的研究主要從優(yōu)化網(wǎng)格的劃分[18-19,39]、補充特征匹配對[35-36,38]以及提升內(nèi)點純度[41]幾個方面進行。自然性的保護方面則是聚焦于減少投影失真[20-21,39,45-46]和對顯著結(jié)構(gòu)進行保護[37,47-48]。通過調(diào)整網(wǎng)格的劃分以及優(yōu)化網(wǎng)格頂點的能量函數(shù),對于一般視差場景該類方法可以取得較好的視覺效果。
(3)縫合線驅(qū)動的圖像配準方法從圖像拼接的結(jié)果著手,通過結(jié)合圖像融合技術(shù),利用縫合線選出最佳的初始對齊,進而實現(xiàn)圖像的配準。該方法的配準精度與初始對齊假設(shè)的有效性在一定范圍內(nèi)呈正相關(guān)。其近年的發(fā)展主要從優(yōu)化初始對齊假設(shè)[50,53]以及改進縫合線與對齊假設(shè)間的篩選關(guān)系進行[48,55,57]。通過該方法獲得圖像配準精度與傳統(tǒng)的全局單應(yīng)矩陣配準精度相近,相較于前面兩類配準方法要更差一些。但是將其與圖像融合技術(shù)相結(jié)合,對于大視差圖像的拼接可以獲得比前面兩者更好的拼接效果。
表2 基于特征的視差圖像配準方法總結(jié)
盡管三類方法針對視差圖像配準中的特定的問題可以取得不錯的效果,但要提升其實用性仍有許多值得研究的問題:
(1)基于多平面的圖像配準方法精度主要取決于分割平面的準確性。因此可以考慮將圖像分割技術(shù)中的先進方法引入圖像配準技術(shù)中,但需考慮算法的復(fù)雜度避免過于強調(diào)平面分割的準確性而導(dǎo)致算法效率低下。
(2)基于網(wǎng)格變形的圖像配準需計算多個單應(yīng)矩陣,且要手動設(shè)置較多的參數(shù),提高算法的效率以及自適應(yīng)選擇參數(shù)對于提升其實用性具有重要意義。此外,該類方法的精度太過于依賴特征點。同一網(wǎng)格單元內(nèi)特征點對應(yīng)不同變換矩陣導(dǎo)致局部配準出錯問題以及尚未得到較好解決的紋理稀疏區(qū)域配準出錯問題也都是未來需要進一步研究的難題。
(3)基于縫合線的圖像配準雖不要求嚴格初始對齊,但良好的初始對齊有助于配準精度的提升。因此可考慮將此類方法與基于多平面對齊的配準方法結(jié)合以期提升配準精度。此外,該類方法由于使用單應(yīng)矩陣進行初始對齊會導(dǎo)致最終結(jié)果出現(xiàn)透視失真問題。如何提升此類方法配準結(jié)果的自然性也是未來的研究方向之一。