陳小平
摘要:隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和智能設(shè)備的普及,人與人之間的溝通更加多元化,而多媒體交互更是受到人們追捧,成為移動(dòng)網(wǎng)絡(luò)下溝通交流的首選方式。而多媒體交互的關(guān)鍵在于視頻編碼和傳輸兩個(gè)方面且相互制約:高質(zhì)量視頻需要更大傳輸帶寬,而移動(dòng)互聯(lián)網(wǎng)帶寬有限,因此解決質(zhì)量和帶寬矛盾問(wèn)題是移動(dòng)互聯(lián)網(wǎng)環(huán)境下多媒體交互的關(guān)鍵。該文跟進(jìn)實(shí)際應(yīng)用場(chǎng)景,提出基于人臉作為ROI區(qū)域編碼,能在不影響視頻主觀質(zhì)量的情況下,有效降低傳輸碼率,從而提供更加流暢的多媒體交互體驗(yàn)。
關(guān)鍵詞:移動(dòng)互聯(lián)網(wǎng);多媒體交互;感興趣區(qū)域(ROI)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)26-6197-03
隨著移動(dòng)互聯(lián)網(wǎng)及智能設(shè)備的快速發(fā)展和普及,基于移動(dòng)網(wǎng)絡(luò)環(huán)境的多媒體實(shí)時(shí)交互需求也日益強(qiáng)烈,多媒體應(yīng)用環(huán)境也變得越來(lái)越復(fù)雜和多樣化。移動(dòng)智能設(shè)備的快速發(fā)展,為多媒體應(yīng)用在移動(dòng)設(shè)備上的發(fā)展普及提供了良好的基礎(chǔ),尤其是隨著雙核、4核、8核以及64位處理器的發(fā)展與推廣,基于移動(dòng)智能設(shè)備的多媒體應(yīng)用受限于設(shè)備處理性能的門(mén)檻越來(lái)越低。
雖然隨著3G網(wǎng)絡(luò)的普及、4G網(wǎng)絡(luò)的來(lái)臨,目前的移動(dòng)互聯(lián)網(wǎng)帶寬相對(duì)與過(guò)去2G網(wǎng)絡(luò)時(shí)代,有了明顯的提升,但是相對(duì)與傳統(tǒng)的互聯(lián)網(wǎng),其傳輸速率及穩(wěn)定性都還有很大差異,以及移動(dòng)終端的多樣性也給無(wú)線網(wǎng)絡(luò)傳輸帶來(lái)許多不確定因素。
因此,基于移動(dòng)互聯(lián)網(wǎng)的多媒體應(yīng)用,不僅要考慮多媒體數(shù)據(jù)本身質(zhì)量、碼率等因素,同時(shí)也需要針對(duì)移動(dòng)網(wǎng)絡(luò)特性進(jìn)行優(yōu)化,有效處理多媒體質(zhì)量、碼率以及網(wǎng)絡(luò)帶寬之間的相互制約關(guān)系。
感興趣區(qū)域(ROI,Region Of Interest)則是圖像觀察者注意力最集中的一部分圖像區(qū)域,也即是圖像質(zhì)量主觀評(píng)判的決定區(qū)域。因此,在編碼控制時(shí),如果將主要碼流更多的分配到ROI區(qū)域,使得ROI區(qū)域質(zhì)量明顯提高,而非ROI區(qū)域質(zhì)量則有所下降,但圖像的總體主觀質(zhì)量評(píng)價(jià)則能夠有效提高。因此,ROI技術(shù)的應(yīng)用能夠有效解決圖像質(zhì)量和網(wǎng)絡(luò)帶寬之間的矛盾,使得在網(wǎng)絡(luò)帶寬較低或則不穩(wěn)定狀態(tài)下,也能夠獲得較好的視頻通訊質(zhì)量。
1 基于移動(dòng)互聯(lián)網(wǎng)的多媒體交互系統(tǒng)
1) 音視頻處理模塊:音視頻處理模塊主要負(fù)責(zé)音視頻的采集、編碼、顯示,以及視頻數(shù)據(jù)的ROI檢測(cè)、動(dòng)態(tài)質(zhì)量控制等。
2) 網(wǎng)絡(luò)傳輸處理模塊:網(wǎng)絡(luò)傳輸模塊負(fù)責(zé)終端間信令及多媒體數(shù)據(jù)傳輸,以及動(dòng)態(tài)檢測(cè)網(wǎng)絡(luò)發(fā)送及接受速率,并將網(wǎng)絡(luò)狀態(tài)返回給音視頻處理模塊。音視頻處理模塊根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài),動(dòng)態(tài)調(diào)整編碼參數(shù),使得輸出碼率與網(wǎng)絡(luò)傳輸速率匹配,保證多媒體數(shù)據(jù)質(zhì)量及傳輸實(shí)時(shí)性。
2 基于感興趣區(qū)域(ROI)的檢測(cè)
人們?cè)谶M(jìn)行多媒體交互時(shí),往往只對(duì)視頻中的某一個(gè)區(qū)域感興趣,并希望這一部分區(qū)域有較高的主觀質(zhì)量,而對(duì)于其他部分則不太關(guān)注,只需滿足一般視覺(jué)要求即可。因此,對(duì)視頻中ROI部分采用高質(zhì)量編碼以獲得較高視頻質(zhì)量,而對(duì)于非ROI區(qū)域,則采用量化步長(zhǎng)較大的壓縮比編碼,這就是ROI編碼技術(shù)。ROI編碼技術(shù)能使視頻在相同的主觀質(zhì)量評(píng)價(jià)下,有效降低視頻輸出碼率。因此在基于移動(dòng)互聯(lián)網(wǎng)的多媒體交互應(yīng)用中,ROI編碼技術(shù)則顯的尤為重要。
2.1 ROI區(qū)域檢測(cè)與分割
ROI區(qū)域的檢測(cè)與提取,從本質(zhì)上講屬于圖像分割問(wèn)題,目前ROI檢測(cè)與分割主要有以下幾種方式。
2.1.1 基于先驗(yàn)特征的ROI分割
該方法首先確定視頻ROI區(qū)域具有的特征向量,然后對(duì)視頻中的每一子區(qū)域,計(jì)算選定特征的特征向量,然后按照一定的標(biāo)準(zhǔn)評(píng)價(jià)特征相似度,從而確定哪些子區(qū)域?qū)儆赗OI。在實(shí)時(shí)視頻ROI檢測(cè)中,一般會(huì)根據(jù)編碼器所支持的宏塊大小來(lái)指定特征區(qū)域分開(kāi)大小,如H.264/AVC支持16*16的宏編碼,則一般將特征區(qū)域大小設(shè)置為16*16。在參考文獻(xiàn)[1]中,對(duì)分塊圖像利用分塊圖像的像素方差座位特征來(lái)確定ROI。而參考文獻(xiàn)[2]中,則利用顏色和輪廓特征對(duì)圖像中的ROI(即車牌區(qū)域)進(jìn)行識(shí)別。
2.1.2 基于Snake模型的ROI分割
Snake模型分割方法最早由KASS在1987年提出。他的基本思想是用以構(gòu)成具有一定形狀的控制點(diǎn)為初始輪廓線,這條曲線在內(nèi)部力、外部力和約束里的作用下,主動(dòng)向感興趣的目標(biāo)區(qū)域附近輪廓邊界移動(dòng),通過(guò)求解輪廓曲線能量函數(shù)的極小化,來(lái)完成對(duì)圖像分割[3]。
2.1.3基于幀差法的ROI分割
幀差法是比較常用的運(yùn)動(dòng)目標(biāo)檢測(cè)方法,其基本原理就是利用視頻序列相鄰幀之間采用基于像素的時(shí)間差分閥值來(lái)提取ROI區(qū)域[4]。首先,將相鄰兩幀視頻對(duì)應(yīng)像素值相減得到差值,然后設(shè)定一個(gè)閥值T來(lái)判斷這個(gè)像素點(diǎn)是屬于運(yùn)動(dòng)區(qū)還是屬于背景區(qū)域,如果對(duì)應(yīng)像素值變換小于預(yù)先設(shè)定的閥值T時(shí),則認(rèn)為該像素屬于背景區(qū)域,反之則可以認(rèn)為該像素屬于前景區(qū)域。該算法實(shí)現(xiàn)簡(jiǎn)單,能夠應(yīng)用于各種環(huán)境,不足指出是對(duì)環(huán)境較為敏感,并且閥值設(shè)定也非常關(guān)鍵。
2.1.4 基于背景模型的ROI分割
背景模型法是一種有效的運(yùn)動(dòng)目標(biāo)ROI檢測(cè)算法,其基本思想是通過(guò)建立并不停更新背景模型,從而得到一副背景視頻幀,并將當(dāng)前視頻幀與建立的背景幀做像素差值,并設(shè)定一個(gè)閥值T,提取差值超過(guò)閥值T的區(qū)域作為ROI區(qū)域。
2.2 基于ROI編碼策略
ROI分割的目的即為分離視頻幀中的有效區(qū)域,從而在編碼過(guò)程中為這些區(qū)域分配更多的碼流,而對(duì)于非ROI區(qū)域則適當(dāng)降低碼流,進(jìn)而在相同的碼率下得到較高主觀視覺(jué)效果的視頻。一般ROI編碼策略有兩種[5]:
1) 調(diào)整量化參數(shù)值:該策略在編碼過(guò)程中,對(duì)于ROI區(qū)域使用低因子,而非ROI區(qū)域則使用高量化因子,從而使得ROI區(qū)域具有較高的質(zhì)量。為此,人們提出了兩種名為MBT和JBA壓縮策略。MBT策略對(duì)非ROI區(qū)域采用最大化的量化因子,ROI區(qū)域的量化因子則通過(guò)剩余比特?cái)?shù)進(jìn)行計(jì)算。JBA則是對(duì)MBT的一種改進(jìn),在非ROI區(qū)域和ROI區(qū)域之間進(jìn)行比特分配時(shí),考慮了區(qū)域面積、運(yùn)動(dòng)等因素,使得比特分配更加合理,非ROI區(qū)域和ROI區(qū)域間過(guò)度更加柔和。
2) 調(diào)整碼率控制:這種方法根據(jù)限定的碼率,按照某一比例將比特率分配給ROI和非ROI區(qū)域,并且針對(duì)ROI和非ROI區(qū)域使用不同的碼率控制模型:針對(duì)非ROI區(qū)域,采用TMN8碼率控制算法為每一宏塊計(jì)算量化因子,而對(duì)于ROI區(qū)域,則采用高碼率失真模型建模,利用拉格朗日數(shù)值進(jìn)行優(yōu)化,計(jì)算每個(gè)宏塊的量化因子[6]。
3 基于H.264/AVC的ROI編碼在移動(dòng)多媒體中的實(shí)現(xiàn)
3.3 ROI區(qū)域檢測(cè)策略
根據(jù)移動(dòng)交互視頻應(yīng)用的特點(diǎn),人們?cè)谝曨l聊天的過(guò)程中,最關(guān)注的必然是對(duì)方的面部情況,因此,我們將人臉部分作為我們編碼的ROI區(qū)域。同時(shí),人們?cè)谶M(jìn)行視頻通話的過(guò)程中,一般不會(huì)有劇烈的移動(dòng),也就是不會(huì)有大動(dòng)態(tài)畫(huà)面;因此沒(méi)有必要每一個(gè)視頻幀都進(jìn)行ROI區(qū)域檢測(cè),而是每隔時(shí)間窗t后強(qiáng)制檢測(cè)一次,而在這個(gè)時(shí)間窗t內(nèi),則可以使用更為簡(jiǎn)單的算法進(jìn)行輔組檢測(cè)ROI區(qū)域是否有發(fā)生改變。因此我們?cè)趶?qiáng)制檢測(cè)時(shí),利用OpenCV中的正面人臉定位,確定人面部位,繼而確定人面部位占據(jù)的宏塊范圍;而在輔組檢測(cè)時(shí),則通過(guò)簡(jiǎn)單的膚色檢測(cè)算法檢測(cè)ROI區(qū)域是否發(fā)生改變,如果發(fā)生改變則重新使用OpenCV進(jìn)行人臉部位置的檢測(cè),具體實(shí)現(xiàn)如下:
4 結(jié)束語(yǔ)
在基于移動(dòng)互聯(lián)網(wǎng)的多媒體應(yīng)用中,移動(dòng)網(wǎng)絡(luò)的帶寬限制即傳輸不穩(wěn)定性,一定程度上制約了該類應(yīng)用的發(fā)展與推廣。RIO技術(shù)在移動(dòng)互聯(lián)網(wǎng)有限的帶寬環(huán)境下,能夠提供較高的多媒體視覺(jué)效果。同時(shí),在進(jìn)行視頻編碼時(shí),我們也可以采用可擴(kuò)展編碼(SVC:Scalable Video Coding)和ROI相結(jié)合的方式,將ROI區(qū)域放到基礎(chǔ)層編碼,而非ROI區(qū)域則放到增強(qiáng)層編碼,并在網(wǎng)絡(luò)帶寬有限的情況下只發(fā)送基礎(chǔ)層,而在網(wǎng)絡(luò)帶寬允許時(shí),則同時(shí)發(fā)送增強(qiáng)層,這樣就能夠更加有效的適配移動(dòng)網(wǎng)絡(luò)情況,并獲取更好的視頻視覺(jué)效果。
參考文獻(xiàn):
[1] 許可,師忠超,漆進(jìn).一種面向感興趣區(qū)域的之分圖像分割方法[J].計(jì)算機(jī)應(yīng)用,2004,24(SI):149-151.
[2]尹顯東,姚軍,李在銘.基于BP神經(jīng)網(wǎng)絡(luò)的圖像感興趣區(qū)域自動(dòng)檢測(cè)技術(shù)[J].系統(tǒng)工程與電子技術(shù),2006,28(2):192-195.
[3] 李慶,楊峻峰,江漢紅,等.基于Snake模型的圖像分割技術(shù)[J].武漢理工大學(xué)學(xué)報(bào),2006,28(11).
[4] 汪洋,李強(qiáng).基于ROI的可伸縮視頻編碼技術(shù)研究[D].重慶郵電大學(xué),2011.
[5] 周磊,羅三定.視頻通信中ROI四橫批壓縮算法的研究與應(yīng)用[D].中南大學(xué),2011.
[6] 李子印,朱善安,劉麗芳.支持ROI優(yōu)先編碼策略的自適應(yīng)碼率控制算法[J].光電工程,2006,33(4):105-110.