曾 鵬,許 平
(江漢大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北 武漢 430056)
隨著3G通信技術(shù)的發(fā)展,視頻業(yè)務(wù)在網(wǎng)絡(luò)通信中占據(jù)越來(lái)越重要的地位。由于目前無(wú)線移動(dòng)網(wǎng)絡(luò)不能提供可靠的數(shù)據(jù)傳輸,因此視頻流在無(wú)線網(wǎng)絡(luò)中傳輸時(shí)經(jīng)常會(huì)發(fā)生誤碼等傳輸錯(cuò)誤,從而導(dǎo)致數(shù)據(jù)包的丟失。由于壓縮過(guò)的視頻流對(duì)傳輸錯(cuò)誤非常敏感,如果不對(duì)出錯(cuò)碼流進(jìn)行保護(hù),將導(dǎo)致解碼圖像質(zhì)量的嚴(yán)重下降。因此,設(shè)計(jì)高效的容錯(cuò)視頻編碼方法成為目前視頻傳輸研究的重點(diǎn)內(nèi)容之一。
在各類容錯(cuò)編碼方法中,冗余片編碼是一項(xiàng)重要的技術(shù),對(duì)于有線Internet網(wǎng)絡(luò)和無(wú)線移動(dòng)網(wǎng)絡(luò)都具有較好的抗誤碼能力。該技術(shù)通過(guò)在碼流中添加一定的冗余信息,可以達(dá)到增強(qiáng)視頻流容錯(cuò)能力的目的。但該技術(shù)在提升視頻容錯(cuò)能力的同時(shí),降低了視頻編碼效率,因此在采用冗余片技術(shù)實(shí)現(xiàn)視頻流穩(wěn)健傳輸?shù)耐瑫r(shí),必須設(shè)計(jì)一個(gè)合理的冗余片選擇策略,從而能在編碼效率和容錯(cuò)能力之間取得較好的平衡。
為此,本文提出基于顯著度模型的冗余片編碼方法。通過(guò)改進(jìn)顯著度建模時(shí)的運(yùn)動(dòng)特征提取方法,提升運(yùn)動(dòng)顯著度子圖的精確性。然后將改進(jìn)的顯著度模型用于H.264視頻冗余片編碼中,對(duì)圖像中人眼關(guān)注區(qū)域進(jìn)行冗余片編碼,從而有效地提高了視頻流的傳輸容錯(cuò)能力。
1980年,美國(guó)普林斯頓大學(xué)心理學(xué)教授Anne Treisman[1]通過(guò)對(duì)人眼視覺(jué)系統(tǒng)進(jìn)行實(shí)驗(yàn)得出顏色、方向和亮度是人類視覺(jué)系統(tǒng)最關(guān)注特征的結(jié)論,并在此基礎(chǔ)上提出了特征融合理論,它是人類視覺(jué)系統(tǒng)一個(gè)重要的理論基礎(chǔ)。
近年來(lái),關(guān)于顯著度模型的研究得到廣泛關(guān)注。1998年,Itti等[2]對(duì)視覺(jué)注意中的選擇和轉(zhuǎn)移工作機(jī)制進(jìn)行了開(kāi)創(chuàng)性的研究,提出了可計(jì)算視覺(jué)注意模型的框架,采用特征融合的方式計(jì)算顯著度圖,并將其用于圖像的顯著度提取。2003年,Itti等[3]通過(guò)考慮前后兩幀視頻信號(hào)的運(yùn)動(dòng)特征和閃爍特征,提出視頻信號(hào)的顯著度模型。2004年,Hu等[4]在Itti模型的基礎(chǔ)上,采用動(dòng)態(tài)融合的策略決定每個(gè)特征子圖的權(quán)重,再將其融合成一幅關(guān)注度圖。Simone Frintrop等[5]則通過(guò)統(tǒng)計(jì)每個(gè)特征子圖的顯著點(diǎn)數(shù),調(diào)整特征子圖的權(quán)重來(lái)進(jìn)行建模。2005年,Cheng Wen-huang等[6]針對(duì)Itti模型對(duì)緩慢運(yùn)動(dòng)處理不佳的缺點(diǎn),將視頻序列分段,利用中值濾波得到時(shí)間分段的顯著度圖,但這種方法對(duì)于運(yùn)動(dòng)劇烈的序列效果不好。2006年,Zhai Yun等[7]根據(jù)圖像的活動(dòng)強(qiáng)度動(dòng)態(tài)地改變時(shí)域顯著度子圖和空域顯著度子圖的權(quán)值,提升關(guān)注度模型的準(zhǔn)確性。2007年,You Jun-yong等[8]通過(guò)綜合考慮運(yùn)動(dòng)關(guān)注度、對(duì)比關(guān)注度、人臉識(shí)別、聲音識(shí)別及攝像機(jī)運(yùn)動(dòng)等多種高層語(yǔ)義要素,從而構(gòu)成視頻序列的顯著度模型。2009年,Liu Chang等[9]利用基于信息熵的時(shí)空域顯著度融合來(lái)彌補(bǔ)時(shí)域顯著度模型對(duì)于緩慢運(yùn)動(dòng)處理不佳的缺陷,但該方法對(duì)于時(shí)域顯著度本身沒(méi)有改進(jìn)。
通過(guò)以上分析可知:現(xiàn)有顯著度模型通常利用前后兩幀圖像的信息提取運(yùn)動(dòng)參數(shù),再輔以其他手段對(duì)運(yùn)動(dòng)特征子圖進(jìn)行建模。這種方法不能同時(shí)兼顧快速運(yùn)動(dòng)場(chǎng)景和慢速運(yùn)動(dòng)場(chǎng)景,從而導(dǎo)致能夠捕獲的物體速度范圍有限,容易造成漏判。為此,筆者提出基于多幀參考的運(yùn)動(dòng)特征提取方案對(duì)該問(wèn)題進(jìn)行改進(jìn)。
此外,現(xiàn)有方法采用幀差法對(duì)運(yùn)動(dòng)特征進(jìn)行檢測(cè),這種方法容易將活動(dòng)物體內(nèi)部標(biāo)識(shí)成低顯著度區(qū)域,從而造成誤判。為此,筆者將時(shí)域運(yùn)動(dòng)矢量預(yù)測(cè)技術(shù)引入時(shí)域顯著度區(qū)域的提取中,對(duì)該問(wèn)題進(jìn)行改進(jìn)。
顯著度提取模塊通常分為以下3部分:視頻特征提取、顯著度子圖處理和特征合并。
1.1.1 圖像特征值提取 對(duì)于原始視頻流中的第i幀,首先分別提取強(qiáng)度、顏色、閃爍、方向、運(yùn)動(dòng)5類特征量。其中,強(qiáng)度特征值、顏色特征值、方向特征值、閃爍特征值的計(jì)算基于文獻(xiàn)[3]所述規(guī)定。
本文在運(yùn)動(dòng)特征提取上,對(duì)原有顯著度模型做了擴(kuò)展。在Itti提出的模型中,運(yùn)動(dòng)特征由第i幀和第i-1幀中的方向特征值co進(jìn)行一個(gè)像素大小的偏移S(θ)計(jì)算得到
Itti模型利用高斯金字塔分解可以捕獲不同速率的運(yùn)動(dòng),
其中v是物體的運(yùn)動(dòng)捕獲速度,Level是高斯金字塔分解層數(shù),dx、dy是提取運(yùn)動(dòng)特征時(shí)水平和垂直方向上的偏移量。當(dāng)v<時(shí),即當(dāng)前景物體運(yùn)動(dòng)緩慢時(shí),此模型很容易將緩慢運(yùn)動(dòng)誤判為背景噪聲,使得時(shí)域運(yùn)動(dòng)特征提取出現(xiàn)偏差。造成偏差的原因是Itti模型僅用了前后兩幀圖像進(jìn)行運(yùn)動(dòng)參數(shù)的提取,使得運(yùn)動(dòng)參數(shù)提取時(shí)能夠捕獲的物體速度范圍有限。本方法對(duì)整個(gè)時(shí)間序列進(jìn)行運(yùn)動(dòng)參數(shù)的提取,從而能夠適應(yīng)更多的運(yùn)動(dòng)情況。
在視頻序列上,假定物體在短時(shí)間內(nèi)視為連續(xù)運(yùn)動(dòng),利用高斯金字塔分解可以捕獲不同速率的運(yùn)動(dòng),
其中cur是當(dāng)前幀的幀號(hào),prei是參考幀幀號(hào),這意味著運(yùn)動(dòng)特征提取時(shí),其可以有多個(gè)參考幀。因此,運(yùn)動(dòng)特征參數(shù)的提取方法為
1.1.2 時(shí)域顯著度圖的處理 在得到時(shí)域顯著圖的時(shí)候,由于利用差分法做的運(yùn)動(dòng)提取,往往會(huì)將物體的邊緣提取出來(lái),而物體內(nèi)部的關(guān)注度值并不高,這與事實(shí)不符。而空域顯著度對(duì)前景物體起到了較好的分割效果,本方法擬用空域顯著度圖對(duì)時(shí)域關(guān)注度進(jìn)行處理,使得物體內(nèi)部的顯著度ROC值得以提升。具體計(jì)算步驟如下:
步驟1 得到當(dāng)前幀的時(shí)域顯著度圖和空域顯著度圖,根據(jù)一定的閾值,將時(shí)域顯著度高的點(diǎn)標(biāo)明出來(lái)。設(shè)高時(shí)域顯著度值的點(diǎn)集為。同理,根據(jù)一定的閾值,將空域顯著度高的點(diǎn)標(biāo)明出來(lái)。設(shè)高空域顯著度值的點(diǎn)集為。
步驟3 針對(duì)每一個(gè)qi,設(shè)其鄰域?yàn)長(zhǎng),在其鄰域進(jìn)行搜索,并設(shè)置其顯著性。
1.1.3 特征合并 將得到對(duì)應(yīng)的5類特征值(強(qiáng)度 I、顏色C、閃爍 F、方向O、運(yùn)動(dòng) M)進(jìn)行特征合并,并主要通過(guò)視頻特征提取、顯著度子圖生成、顯著度子圖處理及融合成最終的顯著度圖,從而得到對(duì)應(yīng)像素點(diǎn)的顯著度值SM:
其中 λ1、λ2、λ3、λ4、λ5為對(duì)應(yīng)的加權(quán)系數(shù)。
傳統(tǒng)的顯著度模型采用幀差法對(duì)運(yùn)動(dòng)特征進(jìn)行檢測(cè),容易將活動(dòng)物體內(nèi)部標(biāo)識(shí)成低顯著度區(qū)域,從而造成誤判。此外,傳統(tǒng)方法采用逐幀計(jì)算的方式,計(jì)算復(fù)雜度較高,對(duì)硬件設(shè)備提出了較高要求。由于視頻序列有較強(qiáng)的時(shí)域相關(guān)性,可以知道每幀的顯著度圖也有較強(qiáng)的時(shí)域相關(guān)性。根據(jù)這一假設(shè),可以利用已知的顯著度圖,預(yù)測(cè)出相鄰幀的顯著度圖。
進(jìn)一步做出假設(shè):在短時(shí)間內(nèi),前景物體的顯著度強(qiáng)度不發(fā)生改變,那么顯著度圖的改變僅和前景物體的位置改變相關(guān)?;谠摷僭O(shè),將時(shí)域運(yùn)動(dòng)矢量預(yù)測(cè)技術(shù)引入時(shí)域顯著度區(qū)域的提取中。如圖1所示,預(yù)測(cè)方法與視頻序列的時(shí)域預(yù)測(cè)類似。
通過(guò)這種方法可以快速定位前景物體的位置改變信息,不僅可以降低將活動(dòng)物體內(nèi)部標(biāo)識(shí)成低顯著度區(qū)域的誤判現(xiàn)象,也可以降低生成時(shí)域顯著度圖的計(jì)算復(fù)雜度。
圖1 基于時(shí)域運(yùn)動(dòng)矢量預(yù)測(cè)的顯著度計(jì)算及關(guān)注度提取方法示意圖
在確定了圖像中的感興趣區(qū)域后,可以在編碼前利用H.264標(biāo)準(zhǔn)的FMO技術(shù)把一幀圖像中的感興趣宏塊和其他非感興趣宏塊分別劃分到兩個(gè)不同的片組中:感興趣片組和非感興趣片組。相應(yīng)的,對(duì)感興趣片組進(jìn)行對(duì)應(yīng)的冗余片編碼策略。動(dòng)態(tài)劃分兩個(gè)片組的策略不但可以避免產(chǎn)生大量過(guò)短冗余片,而且可以有效抑制發(fā)生在非感興趣區(qū)的解碼錯(cuò)誤擴(kuò)散到感興趣區(qū)中。
為了降低冗余片引入的碼率開(kāi)銷,只有屬于感興趣片組中的片才會(huì)被冗余編碼。同時(shí),對(duì)于冗余片筆者使用較大的QP值編碼。相對(duì)于主片而言,冗余片的重構(gòu)質(zhì)量相對(duì)粗糙但碼率較低。在實(shí)驗(yàn)過(guò)程中,把冗余片的QP值設(shè)定為比主片的QP值大6,這大約相當(dāng)于把冗余片的量化步長(zhǎng)提高了1倍。
為了評(píng)估本方法的有效性,基于H.264的參考代碼JM12.2為實(shí)驗(yàn)平臺(tái),根據(jù)ITU-T技術(shù)文檔VCEG-N79r1[10]來(lái)搭建網(wǎng)絡(luò)丟包通用測(cè)試條件以及相應(yīng)的仿真程序,實(shí)驗(yàn)中網(wǎng)絡(luò)丟包率設(shè)定為3%,使用標(biāo)準(zhǔn)QCIF視頻序列:Foreman、Carphone、Akiyo、Hall。
由于圖像全局的峰值信噪比PSNR不能很好地反映人眼對(duì)圖像局部區(qū)域內(nèi)容更關(guān)注的特點(diǎn),因此本文進(jìn)一步采用了感興趣區(qū)域峰值信噪比ROI-PSNR來(lái)評(píng)價(jià)重建視頻圖像的質(zhì)量。
從表1可以看出,本文算法對(duì)上述序列都取得了優(yōu)于傳統(tǒng)算法的PSNR和ROI-PSNR值,特別是對(duì)圖像的前景部分算法效果比較明顯。這是因?yàn)橥ㄟ^(guò)冗余片機(jī)制對(duì)圖像的前景部分施加了更高的保護(hù)力度,使其容錯(cuò)能力得到了增強(qiáng)。
表1 解碼圖像PSNR比較
恰當(dāng)?shù)厥褂萌哂嗥幋a技術(shù)可以增強(qiáng)視頻流的容錯(cuò)能力,但該技術(shù)會(huì)明顯影響編碼器的壓縮效率。為了在編碼效率和容錯(cuò)能力之間取得較好的平衡,通過(guò)視覺(jué)顯著度模型對(duì)圖像進(jìn)行分析,提出一種基于視覺(jué)顯著度的冗余片編碼方法。實(shí)驗(yàn)結(jié)果表明,該方法在丟包網(wǎng)絡(luò)環(huán)境下能有效提高視頻流的容錯(cuò)能力,特別對(duì)于圖像中人眼感興趣的區(qū)域能取得較好的主客觀質(zhì)量。
[1]Treisman A M,Gelade G.A feature-integration theory of attention[J].Cognitive Psychology,1980,12(1):97-136.
[2]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions Pattern Analysis Machine Intelligence,1998,20(11):1254-1259.
[3]Itti L,Dhavale N,Pighin F.Realistic avatar eye and head animation using a neurobiological model of visual attention[C]//Proceedings of SPIE 48th Annual International Symposium on Optical Science and Technology,Bellingham,2003:64-78.
[4]Hu Y Q,Xie X,Ma W Y,et al.Salient region detection using weighted feature maps based on the human visual attention model[C]//Proceedings of 5th IEEE Pacific-Rim Conference on Multimedia,Shanghai,China,2004:993-1000.
[5]Frintrop S,Nüchter A,Surmann H,et al.Saliency-based object recognition in 3D data[C]//IEEE/RSJ International Conference on Intelligent Robots and System,2004:3167-3172.
[6]Cheng W H,Chu W T,Wu J L.A visual attention based region of interest determination framework for video sequences[J].IEICE Transactions on Information and Systems,2005,88(7):1578-1586.
[7]Zhai Y,Shah M.Visual attention detection in video sequences using spatiotemporal cues[C]//Proceedings of the 14th Annual ACM International Conference on Multimedia,New York,2006:815-824.
[8]You J Y,Liu G Z,Sun L,et al.A multiple visual models based perceptive analysis framework for multilevel video summarization[J].IEEE Transactions on Circuits and Systems for Video Technology,2007,17(3):273-285.
[9]Liu C,Yuen P C,Qiu G P.Object motion detection using information theoretic spatio-temporal saliency[J].Pattern Recognition,2009,42(11):2897-2906.
[10]Wenger S.Common conditions for wire-line low-delay IP/UDP/RTP packet loss resilience testing[S].ITUVCEG document:VCEG-N79r1,2001.