李素梅,韓永甜,馬?帥,韓?旭
基于雙目融合網(wǎng)絡的立體圖像質量評價
李素梅,韓永甜,馬?帥,韓?旭
(天津大學電氣自動化與信息工程學院,天津 300072)
立體圖像質量評價為3D技術的發(fā)展與應用提供了技術支撐.如何根據(jù)立體圖像特點,構建更加符合立體視覺認知機制的立體圖像質量評價模型,已成為該領域的關鍵問題之一.現(xiàn)有的立體圖像質量評價方法要么先分別處理左右視圖,然后結合左右視圖質量得到立體圖像質量分數(shù);要么先對左右視圖進行融合得到融合視圖,然后評價平面的融合視圖得到立體圖像質量分數(shù).事實上,大腦對立體視覺信號的處理是一個長期的復雜融合與處理的過程,并最終在視覺皮層完成對視覺信號的認知與判斷.受大腦立體視覺認知機制的啟發(fā),本文提出一種基于雙目融合網(wǎng)絡的立體圖像質量評價模型,實現(xiàn)了雙目信息的多次融合與處理,模擬了大腦對雙目信息進行處理和判決的視覺傳導通路.所提出的雙目融合網(wǎng)絡包含左視圖通道、右視圖通道和融合通道,模擬立體視覺信息在視覺通路中的逐層并行處理過程;左右視圖通道在網(wǎng)絡中多次交互,模擬視覺通路中雙目信息的多次融合與處理;網(wǎng)絡末端的3個全連接層,模擬視覺信息經(jīng)過視覺通路處理后復雜的質量判斷過程.本文實驗在兩個公開立體圖像庫LIVE 3D PhaseⅠ和LIVE 3D PhaseⅡ上進行,實驗結果表明,該方法在對稱與非對稱失真立體圖像上均能取得更好的結果,且較其他方法具有更強的普適性.
圖像質量評價;立體圖像;立體視覺;雙目融合
立體圖像不僅帶給人類身臨其境的視覺感受,而且促進了各項立體技術的蓬勃發(fā)展.但任何處理技術都可能會造成立體圖像的失真,從而影響人類對立體圖像的視覺感知[1].有效的立體圖像質量評價方法不僅可以實現(xiàn)立體圖像質量的檢測,而且可以進一步指導3D處理技術的改進.因此,建立一種有效的立體圖像質量評價方法是十分必要的[2].
隨著立體圖像質量評價研究的不斷深入,技術需求的不斷提升,以及人類對視覺通路認知的不斷加深,構造一種更加符合人腦視覺感知機理的質量評價模型已成為該領域的研究趨勢.單純將平面圖像質量評價方法用于立體圖像質量評價已不能滿足需?求[3-4].經(jīng)研究發(fā)現(xiàn),來自于雙眼的信息首先經(jīng)過視覺通路的復雜融合與處理,然后大腦皮層對處理后的信息做出視覺感知與判斷.為了模擬這種復雜的視覺感知機理,現(xiàn)有的立體圖像質量評價方法主要有兩類:一類[5-12]是首先對來自雙眼的左右視圖分別進行處理,然后考慮人眼的雙目融合特性,最終對立體圖像的質量進行判斷;另一類[13-22]是首先考慮雙目融合特性,對來自于雙眼的左右視圖進行融合,然后類似于平面圖像質量評價方法,最終得到立體圖像的質量等級.
事實上,雙目視覺信息在通過視網(wǎng)膜之后首先在視覺通路中的視交叉神經(jīng)處進行部分交叉,產(chǎn)生初步融合,部分交叉后的左右視覺信息分別通過左右外側膝狀體傳輸?shù)匠跫壱曈X皮層進行融合,然后在其他視覺皮層中進行復雜的分層、并行的融合與處理,進而對融合處理后的圖像質量進行判斷[23-24].因此,上述兩類方法都僅僅模擬了視覺通路的一部分.深度學習方法的出現(xiàn),為更好地模擬視覺通路提供了可能,因為深度學習方法可以逐級分層地提取所處理信息的特征.
論文主要貢獻總結如下.
(1)論文模擬立體圖像在視覺通路中融合和處理相結合的方法,對立體圖像質量進行客觀評價,構建了一種包含3個通道的卷積神經(jīng)網(wǎng)絡模型.
(2)所提模型通過對左右視圖的多次交互,模擬了視交叉神經(jīng)中的初步融合與后續(xù)視覺皮質層的復雜融合與處理過程;模型中的多個卷積層與多個通道模擬了人腦對視覺信息的逐級分層次并行處理過程;模型中的3個全連接層模擬了復雜的質量決策過程.
在視覺通路中,大腦對來自雙眼視覺信息的處理是一個復雜過程,圖1[25]所示為視覺通路的簡單描述模型.圖2為視覺通路中的視覺信息傳遞過程.
圖1?視覺通路模型
圖2?視覺通路中的視覺信息傳遞過程
從圖1、圖2可以看出,來自雙眼的視覺信息經(jīng)過視網(wǎng)膜后通過雙極細胞和視網(wǎng)膜節(jié)細胞(retinal ganglion cells,RGC)進行處理,其中視網(wǎng)膜節(jié)細胞中包含M細胞和P細胞,視網(wǎng)膜節(jié)細胞的軸突在視神經(jīng)盤處匯聚成視神經(jīng).視覺信息通過視神經(jīng)入顱,在視交叉處進行部分的交叉后延伸為視束.在視交叉中,來自雙眼鼻側的纖維交叉,加入對側視束,而來自視網(wǎng)膜顳側的纖維不進行交叉,進入同側視束.因此,左側視束內(nèi)含有來自右眼鼻側的纖維和左眼顳側的纖維,右側視束含有左眼鼻側的纖維和右眼顳側的纖維,在視交叉神經(jīng)處,左右眼視覺信息完成了初步融合.左右側視束經(jīng)過外側膝狀體細胞(lateral geniculate nucleus,LGN)后進入初級視覺皮質V1,進行復雜的融合與處理.來自視網(wǎng)膜節(jié)細胞的M細胞通過腹側LGN傳導形成M 視覺通路.信息到達V1區(qū)域后經(jīng)過復雜的分層處理最終投射到內(nèi)側顳區(qū)(medial temporal area,MT),然后投射到頂葉皮層. MT區(qū)域的細胞對運動十分敏感,經(jīng)過M視覺通路處理后在頂葉皮層能夠解析出視覺信息的位置.來自視網(wǎng)膜節(jié)細胞的P細胞通過背側LGN形成P 視覺通路,經(jīng)過V1區(qū)域后經(jīng)過復雜的分層處理最終投射到視覺皮質的V4區(qū)域,然后投射到顳葉皮層.V4區(qū)域的細胞對顏色十分敏感,顳葉皮層對內(nèi)容和細節(jié)十分敏感.經(jīng)過P視覺通路處理后在顳葉皮層能夠解析出視覺信息中的內(nèi)容信息.同時在LGN層間存在一種K細胞,同樣處理色彩信息,最終投射到V4區(qū)域[26].大腦通過頂葉顳葉等的處理最終獲得視覺判斷.
可見,雙眼信息經(jīng)過視覺通路最終得到質量等級的判斷是一個復雜的融合處理與判斷的過程.左右視圖通過視交叉神經(jīng)的簡單融合后,由LGN傳遞到初級視覺皮質V1中,經(jīng)過V1~V4、MT、IT等視覺皮質的融合與處理最終分析出視覺信息的質量.視覺信息在視覺皮質層中的處理是一個逐層分級的并行過程,不能由簡單的一次融合進行模擬.
圖3為本文提出的雙目融合網(wǎng)絡模型.該網(wǎng)絡模型包含3個通道:左視圖通道、右視圖通道和融合通道.左視圖通道提取左視點特征,右視圖通道提取右視點特征.左視圖通道和右視圖通道各包含4個卷積層和2個池化層.融合通道提取雙目特征,包含4個卷積層、3個池化層和3個全連接層.網(wǎng)絡輸入為失真的立體圖像對,立體圖像對經(jīng)過網(wǎng)絡的分層融合與處理得到立體圖像的質量分數(shù).左右視圖通道在經(jīng)過每一個卷積層后,會在融合通道發(fā)生一次融合,本文采用了4次融合(①、②、③、④)的方案對立體圖像質量進行評價.左、右視圖通道和融合通道模擬了視覺通路中的并行處理機制.融合通道中的4次融合模擬了視交叉神經(jīng)的初級融合與其他視覺皮層的復雜融合與處理過程.同時多層卷積神經(jīng)網(wǎng)絡也模擬了視覺皮層中的逐級分層處理機制.通過復雜的融合與處理后,網(wǎng)絡通過3層全連接層模擬最終立體圖像質量判斷的過程.本文所提出的雙目融合網(wǎng)絡具體網(wǎng)絡參數(shù)設置如表1所示.
網(wǎng)絡中左右通道特征圖的融合可以采取Concat和Eltwise兩種方式實現(xiàn).Eltwise方式將特征圖逐像素點對應相加,Concat方式級聯(lián)所有的特征圖.本文采取Concat方式融合左右通道特征圖.例如,若采用Concat融合方式進行特征圖的融合,對于融合點④將會有3個輸入,分別是來自左視圖通道的384張?zhí)卣鲌D,來自右視圖通道的384張?zhí)卣鲌D和來自融合通道的384張?zhí)卣鲌D.因此,對于融合點④將會有384+384+384=1152張?zhí)卣鲌D,作為融合通道Conv5的輸入.來自左右通道和融合通道的特征圖均被集中到融合點④,不同通道的特征圖將被分配不同的權重,模擬雙目融合的過程.若在特征圖融合過程中采用Eltwise方式,融合點④將只有1個輸入,該輸入為左右視圖通道和融合通道的384張?zhí)卣鲌D像素點對應相加的結果.這也就是說,來自左右通道的信息將會被網(wǎng)絡分配相同的權重.根據(jù)雙目融合與雙目競爭機制,左右視圖應該被分配不同的權重[27-28],顯然,Eltwise方法并不符合雙目融合與雙目競爭機制.
圖3?雙目融合網(wǎng)絡結構
表1?雙目融合網(wǎng)絡參數(shù)
Tab.1 Configurations of the proposed binocular fusion network
所提網(wǎng)絡中的卷積操作可由式(1)表示.
本文方法分別在LIVE 3D PhaseⅠ、LIVE 3D PhaseⅡ和天津大學(Tianjin University,TJU)立體圖像庫上進行網(wǎng)絡性能的測試.其中,LIVE 3D PhaseⅠ包含20張原始參考立體圖像對和365張對稱失真的立體圖像對.失真類型包括JPEG、JPEG 2000 (JP2K)、White Noise(WN)、Gaussian Blur(Blur)和Fast-Fading(FF).LIVE 3D PhaseⅡ包含8張原始參考立體圖像對、120張對稱失真立體圖像對和240張非對稱失真立體圖像對.失真類型包括JPEG,JPEG 2000(JP2K)、White Noise(WN)、Gaussian Blur(Blur)和Fast-Fading(FF).TJU立體圖像庫包含4張原始參考立體圖像對和403張非對稱失真的立體圖像對,包括JPEG、JP2K、WN、Blur、FF和視差失真6種失真類型.
為了評價所提出網(wǎng)絡模型性能的優(yōu)劣,論文采用3種常見的性能指標計算網(wǎng)絡實際輸出和主觀DOMS值之間的相關程度,分別是皮爾遜線性相關系數(shù)(Pearson linear correlation coefficient,PLCC)、斯皮爾曼階相關系數(shù)(Spearman rank order correlation coefficient,SROCC)和均方根誤差(root mean square error,RMSE).PLCC和SROCC越接近1、RMSE越接近0,證明網(wǎng)絡模型的評價效果越好.
表2中給出所提出網(wǎng)絡模型與其他13種先進立體圖像質量評價方法的性能比較.這些方法中,文獻[5-6,10-11]首先分別對左右視點進行處理,然后根據(jù)雙目融合特性對得到的特征或分數(shù)進行融合.文獻[13,15-22]首先對左右兩個視點進行融合,然后對融合圖像進行處理得到立體圖像質量分數(shù).上述兩類方法均從不同角度模擬了視覺通路中左右視覺信息的一部分融合和處理過程.其中文獻[5-6,19-20,22]采用傳統(tǒng)的特征提取的方法,文獻[15-17]采取了稀疏表示的方法,文獻[10-11,13,18,21]同本文方法一樣,采用了深度學習方法.從表2中可以清楚地看到,所提出方法在LIVE 3D PhaseⅠ上所有指標的效果均好于其他方法,在LIVE 3D PhaseⅡ,SROCC和RMSE均優(yōu)于其他方法,只有PLCC的效果稍遜于Karimi等[16],但處于同一個數(shù)量級上.并且,所提出方法在LIVE 3D PhaseⅠ上的PLCC和SROCC均超過了0.96,在LIVE 3D PhaseⅡ上PLCC和SROCC均超過0.95.表3顯示了所提出方法在TJU立體圖像庫上的評價效果,其PLCC和SROCC均超過了0.95.
從表2和表3中可以看出,所提方法無論是在對稱失真還是非對稱失真的立體圖像上評價效果都很優(yōu)秀,所提方法在對稱失真和非對稱失真數(shù)據(jù)庫上的指標差值小于其他方法在2個數(shù)據(jù)庫上的差值.以Xu等[5]的PLCC值為例,LIVE 3D PhaseⅠ上的值為0.9490,而在LIVE 3D PhasezⅡ上的值為0.9260,差值為0.0230,所提方法在2個數(shù)據(jù)庫上的差值為0.0113.其他方法的差值甚至大于0.0230,這說明所提方法不僅能夠很好地評價對稱失真的立體圖像,而且也更適用于評價非對稱失真的立體圖像.相比于對稱失真的立體圖像,評價非對稱失真立體圖像更加困難,只有更加符合人眼視覺認知機理的方法才能夠有更好的結果.因此,相對于其他只模擬視覺通路中一部分的融合處理機制方法,所提出方法具有更強的普適性能,在對稱失真和非對稱失真的立體圖像上具有較好的效果.這也證明了所提方法在一定程度上能夠較好地模擬視覺通路中立體圖像認知的復雜融合與處理過程.
表2?各種方法在LIVE 3D 圖像數(shù)據(jù)庫上的效果比較
Tab.2 Performance of the different methods on LIVE 3D image quality database
表3?本文方法在天津大學立體圖像庫上的性能
Tab.3 Performance of the proposed method on the Tian-jin University 3D image quality database
為了更加準確地評價所提網(wǎng)絡的性能,表4比較了所提方法與其他方法在LIVE 3D PhaseⅠ和LIVE 3D PhaseⅡ上不同失真類型的PLCC評價結果.可以看到,本文的PLCC結果在不同失真類型上基本都處在前3名的位置,只有LIVE 3D PhaseⅡ數(shù)據(jù)庫上JPEG和WN失真類型上PLCC表現(xiàn)稍差.因此所提方法具有較好的普適性能.
表4?各種方法在LIVE 3D圖像庫上不同失真類型的PLCC結果
為了證明所提網(wǎng)絡能夠很好地模擬視覺通路中復雜的融合與處理過程,本文對有不同融合次數(shù)的網(wǎng)絡,即有不同層數(shù)的網(wǎng)絡進行了性能對比.圖4顯示了在LIVE 3D PhaseⅠ和LIVE 3D PhaseⅡ數(shù)據(jù)庫中,有不同融合次數(shù)網(wǎng)絡的PLCC與SROCC結果對比.其中,橫坐標(1,2,3,4,5,6)表示在融合通道中存在次融合的網(wǎng)絡結構,即左視圖通道、右視圖通道與融合通道各存在層卷積層.縱坐標為網(wǎng)絡對應SROCC與PLCC值.從圖4可以看到,無論在LIVE 3D PhaseⅠ還是LIVE 3D PhaseⅡ數(shù)據(jù)庫上,所提出的4次融合網(wǎng)絡的表現(xiàn)性能均為最佳.隨著網(wǎng)絡融合次數(shù)的增加,網(wǎng)絡性能有所提升,這正反映出在視覺通路中圖像的融合和處理是一個復雜的過程,不能簡單地采用一次融合來模擬.但隨著網(wǎng)絡融合次數(shù)的增多,網(wǎng)絡結構變得復雜,網(wǎng)絡的評價效果反而變差,這可能是由于模型過于復雜而訓練數(shù)據(jù)不足的原因.通過實驗可以證明采用4次融合能夠很好地模擬視覺通路中的融合與處理過程.
圖4?不同融合次數(shù)網(wǎng)絡結果對比
表5比較了在不同位置發(fā)生融合的網(wǎng)絡結構的表現(xiàn)性能.其中①表示只在融合點①處發(fā)生融合的網(wǎng)絡結構,①②表示只在融合點①②處發(fā)生融合的網(wǎng)絡結構,其余符號表示意義相同.從表5中可以看出,當網(wǎng)絡具有相同的融合次數(shù)時,例如①和④,①②和③④,①②③和②③④,網(wǎng)絡④、③④和②③④的結果要好于網(wǎng)絡①、①②和①②③,甚至一次融合的網(wǎng)絡④的結果要好于3次融合的①②③.這可能是由于隨著網(wǎng)絡層數(shù)的加深,網(wǎng)絡學習到的特征更抽象,更能表示出圖像中的關鍵性信息.因此更深層次的融合對評價準確性的貢獻更大.但是網(wǎng)絡③④、②③④和①②③④的評價效果要好于網(wǎng)絡④,這也說明淺層的融合對網(wǎng)絡性能的提升同樣有幫助.
表5?不同融合位置性能比較
Tab.5 Performance of the proposed method at different fusion locations
為了比較不同融合方式對網(wǎng)絡性能的影響,表6展示了采用不同方式進行融合的網(wǎng)絡性能的結果對比.從表6中可以看出,Concat融合方式要明顯優(yōu)于Eltwise的融合方式.Eltwise融合方式對于左右通道的特征圖分配了相同的權重,而Concat融合方式通過網(wǎng)絡的學習,左右通道的特征圖會被分配不同的權重.在雙目融合的過程中,左右視覺信號應該根據(jù)自己的能量刺激和對方的能量刺激自動調(diào)節(jié),從而分配不同的權重[22].顯然,Concat融合方式更加符合雙目融合特性.通過網(wǎng)絡的學習,左右視圖通道的權重將被自動調(diào)節(jié),這不僅適合于評價對稱失真立體圖像,更適合于評價雙目競爭現(xiàn)象更為劇烈的非對稱失真立體圖像.這也是本文方法在對稱和非對稱失真立體圖像上具有良好表現(xiàn)的原因之一.
表6?不同融合方式性能比較
Tab.6 Performance of the proposed method with differ-nt fusion ways
本文提出了一種能夠更好地模擬視覺通路的立體圖像質量評價模型.雙目融合網(wǎng)絡中的多通道結構、分層的卷積與左右視圖的多次融合模擬了立體圖像在視覺通路中并行的分層的復雜融合與處理的過程.網(wǎng)絡中最后的全連接層模擬了對復雜處理后的信息進行綜合并做出質量決策的過程.實驗結果表明,本文所提出的雙目融合網(wǎng)絡在對稱和非對稱失真的立體圖像上的表現(xiàn)都十分優(yōu)秀,這也反映了本文提出的模型可以較好地模擬視覺通路中復雜的信息處理過程.
[1] Xing L,You J,Ebrahimi T,et al. Assessment of stereoscopic crosstalk perception[J]. IEEE Transactions on Multimedia,2012,14(2):326-337.
[2] Chen M,Cormack L K,Bovik A C. No-reference quality assessment of natural stereopairs[J]. IEEE Transactions on Image Processing,2013,22(9):3379-3391.
[3] You H,Xing L,Perkis A,et al. Perceptual quality assessment for stereoscopic images based on 2D image quality metrics and disparity analysis[C]// 5th International Workshop on Video Processing and Quality Metrics for Consumer Electronics. Scottsdale,Arizona,USA,2010:1-6.
[4] Bosc E,Repion R,Le Callet P,et al. Towards a new quality metric for 3-D synthesized view assessment[J]. IEEE Journal of Selected Topics in Signal Processing,2011,5(7):1332-1343.
[5] Xu X,Zhao Y,Ding Y. No-reference stereoscopic image quality assessment based on saliency-guided binocular feature consolidation[J]. Electronics Letters,2017,53(22):1468-1470.
[6] Ma J,An P,Shen L,et al. Reduced-reference stereoscopic image quality assessment using natural scene statistics and structural degradation[J]. IEEE Access,2018,6:2768-2780.
[7] Shao F,Li K,Lin W,et al. Using binocular feature combination for blind quality assessment of stereoscopic images[J]. IEEE Signal Processing Letters,2015,22(10):1548-1551.
[8] Jiang G,Shao F,Li K,et al. Joint structure-texture sparse coding for quality prediction of stereoscopic images[J]. Electronics Letters,2015,51(24):1994-1995.
[9] Shao F,Li K,Lin W,et al. Learning blind quality evaluator for stereoscopic images using joint sparse representation[J]. IEEE Transactions on Multimedia,2016,18(10):2104-2114.
[10] Yang J,Jiang B,Song H,et al. No-reference stereoimage quality assessment for multimedia analysis towards Internet-of-things[J]. IEEE Access,2018,6:7631-7640.
[11] Ding Y,Deng R,Xie X,et al. No-reference stereoscopic image quality assessment using convolutional neural network for adaptive feature extraction[J]. IEEE Access,2018,6:37595-37603.
[12] Lü Y,Yu M,Jiang G,et al. No-reference stereoscopic image quality assessment using binocular self-similarity and deep neural network[J]. Signal Processing:Image Communication,2016,47:346-357.
[13] Sang Q,Gu T,Li C,et al. Stereoscopic image quality assessment via convolutional neural networks[C]// International Smart Cities Conference. Wuxi,China,2017:1-2.
[14] Lu K,Liu X. Stereoscopic image quality assessment based on cyclopean image[C]// 2016 IEEE International Conference on Internet of Things(iThings)and IEEE Green Computing and Communications(GreenCom)and IEEE Cyber,Physical and Social Computing(CPSCom) and IEEE Smart Data(SmartData). Chengdu,China,2016:750-753.
[15] Lin Y,Yang J,Lu W,et al. Quality index for stereoscopic images by jointly evaluating cyclopean amplitude and cyclopean phase[J]. IEEE Journal of Selected Topics in Signal Processing,2017,11(1):89-101.
[16] Karimi M,Nejati M,Soroushmehr M R,et al. Blind stereo quality assessment based on learned features from binocular combined images[J]. IEEE Transactions on Multimedia,2017,19(11):2475-2489.
[17] Li S,Han X,Chang Y. Adaptive cyclopean image based stereoscopic image quality assessment using ensemble learning[J]. IEEE Transactions on Multimedia,2019,21(10):2616-2624.
[18] Yang J,Sim K,Gao X,et al. A blind stereoscopic image quality evaluator with segmented stacked autoencoders considering the whole visual perception route[J]. IEEE Transactions on Image Processing,2019,28(3):1314-1328.
[19] Li Y,Yang F,Wan W,et al. No-reference stereoscopic image quality assessment based on visual attention and perception[J]. IEEE Access,2019,7:46706-46716.
[20] Liu T,Lin C,Liu H,et al. Blind stereoscopic image quality assessment based on hierarchical learning[J]. IEEE Access,2019,7:8058-8069.
[21] Yang J,Sim K,Lu W,et al. Predicting stereoscopic image quality via stacked auto-encoders based on stereopsis formation[J]. IEEE Transactions on Multimedia,2019,21(7):1750-1761.
[22] Liu Y,Kong F,Zhen Z. Toward a quality predictor for stereoscopic images via analysis of human binocular visual perception[J]. IEEE Access,2019,7:69283-69291.
[23] 林崇德,楊治良,黃希庭. 心理學大辭典[M]. 上海:教育出版社,2003.
Lin Chongde,Yang Zhiliang,Huang Xiting. Psychological Dictionary[M]. Shanghai:Education Press,2003(in Chinese).
[24] Wilson-Pauwels L. Cranial Nerves[M]. Shelton:People’s Medical Publishing House Press,2010.
[25] Holden A L. Chapter 15 the Central Visual Pathways[EB/OL]. http://www. docin. com/p-1774332014. html,1977-11-01.
[26] Snowden R J,Thompson P,Troscianko T. Basic Vision:An Introduction to Visual Perception[M]. London:Oxford University Press,2006.
[27] Tong F,Meng M,Blake R. Neural bases of binocular rivalry[J]. Trends in Cognitiveences,2006,10(11):502-511.
[28] Ding J,Sperling G. A gain-control theory of binocular combination[J]. Proceedings of the National Academy of Sciences,2006,103(4):1141-1146.
Stereo Image Quality Assessment Based on Binocular Fusion Network
Li Sumei,Han Yongtian,Ma Shuai,Han Xu
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
Stereo image quality assessment provides technical support for the development and application of 3D technologies. The construction of a stereo image quality assessment model that is more in line with the stereo visual cognition mechanism based on the characteristics of stereo images has become one of the key issues in this field. Existing stereo image quality evaluation methods either process the left and right images respectively and then combine their quality to derive the stereo image quality score,or first fuse the left and right images to get the fusion image and then evaluate the planar fusion image to derive the stereo image quality score. In fact,the processing of stereo visual signals in the brain is a long-term process of complex fusion and processing,and finally completes the cognition and judgment of visual signals in the visual cortex. Inspired by the stereo visual transmission pathway in the brain,a stereo image quality assessment model based on the binocular fusion network is proposed in this study,which realizes multiple fusion and processing of binocular information,and simulates the brain’s visual pathway for processing and judging binocular information. The convolutional neural network model includes the left view channel,the right view channel and the fusion channel,which simulates the hierarchical and parallel processing of visual information in the visual pathway. The left and right view channels have multiple interactions in the network,which simulates the multiple fusion and processing in the visual pathway. Three fully connected layers are set at the end of the network,which simulates the complex quality judgment process after information fusion and processing in the visual pathway. Experiments are conducted on two public stereo image databases,namely LIVE 3D Phase I and LIVE 3D Phase II,and the experimental results show that the proposed method outperforms other methods in both symmetric and asymmetric distorted stereo images,and shows better universality.
image quality assessment;stereo image;stereo visual;binocular fusion
TN911.73
A
0493-2137(2020)10-1086-07
10.11784/tdxbz201908005
2019-08-03;
2019-12-21.
李素梅(1975—??),女,博士,副教授,lisumei@tju.edu.cn.
韓永甜,han_yt9@163.com.
國家自然科學基金資助項目(61571325,61002028,61520106002).
Supported by the National Natural Science Foundation ofChina(No. 61571325,No. 61002028,No. 61520106002).
(責任編輯:王曉燕)