ROI技術(shù)在移動(dòng)多媒體交互中的研究與應(yīng)用

2014-10-17 17:49:28陳小平

電腦知識(shí)與技術(shù) 2014年26期

陳小平

摘要：隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和智能設(shè)備的普及，人與人之間的溝通更加多元化，而多媒體交互更是受到人們追捧，成為移動(dòng)網(wǎng)絡(luò)下溝通交流的首選方式。而多媒體交互的關(guān)鍵在于視頻編碼和傳輸兩個(gè)方面且相互制約：高質(zhì)量視頻需要更大傳輸帶寬，而移動(dòng)互聯(lián)網(wǎng)帶寬有限，因此解決質(zhì)量和帶寬矛盾問(wèn)題是移動(dòng)互聯(lián)網(wǎng)環(huán)境下多媒體交互的關(guān)鍵。該文跟進(jìn)實(shí)際應(yīng)用場(chǎng)景，提出基于人臉作為ROI區(qū)域編碼，能在不影響視頻主觀質(zhì)量的情況下，有效降低傳輸碼率，從而提供更加流暢的多媒體交互體驗(yàn)。

關(guān)鍵詞：移動(dòng)互聯(lián)網(wǎng)；多媒體交互；感興趣區(qū)域（ROI）

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）26-6197-03

隨著移動(dòng)互聯(lián)網(wǎng)及智能設(shè)備的快速發(fā)展和普及，基于移動(dòng)網(wǎng)絡(luò)環(huán)境的多媒體實(shí)時(shí)交互需求也日益強(qiáng)烈，多媒體應(yīng)用環(huán)境也變得越來(lái)越復(fù)雜和多樣化。移動(dòng)智能設(shè)備的快速發(fā)展，為多媒體應(yīng)用在移動(dòng)設(shè)備上的發(fā)展普及提供了良好的基礎(chǔ)，尤其是隨著雙核、4核、8核以及64位處理器的發(fā)展與推廣，基于移動(dòng)智能設(shè)備的多媒體應(yīng)用受限于設(shè)備處理性能的門(mén)檻越來(lái)越低。

雖然隨著3G網(wǎng)絡(luò)的普及、4G網(wǎng)絡(luò)的來(lái)臨，目前的移動(dòng)互聯(lián)網(wǎng)帶寬相對(duì)與過(guò)去2G網(wǎng)絡(luò)時(shí)代，有了明顯的提升，但是相對(duì)與傳統(tǒng)的互聯(lián)網(wǎng)，其傳輸速率及穩(wěn)定性都還有很大差異，以及移動(dòng)終端的多樣性也給無(wú)線網(wǎng)絡(luò)傳輸帶來(lái)許多不確定因素。

因此，基于移動(dòng)互聯(lián)網(wǎng)的多媒體應(yīng)用，不僅要考慮多媒體數(shù)據(jù)本身質(zhì)量、碼率等因素，同時(shí)也需要針對(duì)移動(dòng)網(wǎng)絡(luò)特性進(jìn)行優(yōu)化，有效處理多媒體質(zhì)量、碼率以及網(wǎng)絡(luò)帶寬之間的相互制約關(guān)系。

感興趣區(qū)域（ROI，Region Of Interest）則是圖像觀察者注意力最集中的一部分圖像區(qū)域，也即是圖像質(zhì)量主觀評(píng)判的決定區(qū)域。因此，在編碼控制時(shí)，如果將主要碼流更多的分配到ROI區(qū)域，使得ROI區(qū)域質(zhì)量明顯提高，而非ROI區(qū)域質(zhì)量則有所下降，但圖像的總體主觀質(zhì)量評(píng)價(jià)則能夠有效提高。因此，ROI技術(shù)的應(yīng)用能夠有效解決圖像質(zhì)量和網(wǎng)絡(luò)帶寬之間的矛盾，使得在網(wǎng)絡(luò)帶寬較低或則不穩(wěn)定狀態(tài)下，也能夠獲得較好的視頻通訊質(zhì)量。

1 基于移動(dòng)互聯(lián)網(wǎng)的多媒體交互系統(tǒng)

1）音視頻處理模塊：音視頻處理模塊主要負(fù)責(zé)音視頻的采集、編碼、顯示，以及視頻數(shù)據(jù)的ROI檢測(cè)、動(dòng)態(tài)質(zhì)量控制等。

2）網(wǎng)絡(luò)傳輸處理模塊：網(wǎng)絡(luò)傳輸模塊負(fù)責(zé)終端間信令及多媒體數(shù)據(jù)傳輸，以及動(dòng)態(tài)檢測(cè)網(wǎng)絡(luò)發(fā)送及接受速率，并將網(wǎng)絡(luò)狀態(tài)返回給音視頻處理模塊。音視頻處理模塊根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài)，動(dòng)態(tài)調(diào)整編碼參數(shù)，使得輸出碼率與網(wǎng)絡(luò)傳輸速率匹配，保證多媒體數(shù)據(jù)質(zhì)量及傳輸實(shí)時(shí)性。

2 基于感興趣區(qū)域（ROI）的檢測(cè)

人們?cè)谶M(jìn)行多媒體交互時(shí)，往往只對(duì)視頻中的某一個(gè)區(qū)域感興趣，并希望這一部分區(qū)域有較高的主觀質(zhì)量，而對(duì)于其他部分則不太關(guān)注，只需滿足一般視覺(jué)要求即可。因此，對(duì)視頻中ROI部分采用高質(zhì)量編碼以獲得較高視頻質(zhì)量，而對(duì)于非ROI區(qū)域，則采用量化步長(zhǎng)較大的壓縮比編碼，這就是ROI編碼技術(shù)。ROI編碼技術(shù)能使視頻在相同的主觀質(zhì)量評(píng)價(jià)下，有效降低視頻輸出碼率。因此在基于移動(dòng)互聯(lián)網(wǎng)的多媒體交互應(yīng)用中，ROI編碼技術(shù)則顯的尤為重要。

2.1 ROI區(qū)域檢測(cè)與分割

ROI區(qū)域的檢測(cè)與提取，從本質(zhì)上講屬于圖像分割問(wèn)題，目前ROI檢測(cè)與分割主要有以下幾種方式。

2.1.1 基于先驗(yàn)特征的ROI分割

該方法首先確定視頻ROI區(qū)域具有的特征向量，然后對(duì)視頻中的每一子區(qū)域，計(jì)算選定特征的特征向量，然后按照一定的標(biāo)準(zhǔn)評(píng)價(jià)特征相似度，從而確定哪些子區(qū)域?qū)儆赗OI。在實(shí)時(shí)視頻ROI檢測(cè)中，一般會(huì)根據(jù)編碼器所支持的宏塊大小來(lái)指定特征區(qū)域分開(kāi)大小，如H.264/AVC支持16*16的宏編碼，則一般將特征區(qū)域大小設(shè)置為16*16。在參考文獻(xiàn)[1]中，對(duì)分塊圖像利用分塊圖像的像素方差座位特征來(lái)確定ROI。而參考文獻(xiàn)[2]中，則利用顏色和輪廓特征對(duì)圖像中的ROI（即車牌區(qū)域）進(jìn)行識(shí)別。

2.1.2 基于Snake模型的ROI分割

Snake模型分割方法最早由KASS在1987年提出。他的基本思想是用以構(gòu)成具有一定形狀的控制點(diǎn)為初始輪廓線，這條曲線在內(nèi)部力、外部力和約束里的作用下，主動(dòng)向感興趣的目標(biāo)區(qū)域附近輪廓邊界移動(dòng)，通過(guò)求解輪廓曲線能量函數(shù)的極小化，來(lái)完成對(duì)圖像分割[3]。

2.1.3基于幀差法的ROI分割

幀差法是比較常用的運(yùn)動(dòng)目標(biāo)檢測(cè)方法，其基本原理就是利用視頻序列相鄰幀之間采用基于像素的時(shí)間差分閥值來(lái)提取ROI區(qū)域[4]。首先，將相鄰兩幀視頻對(duì)應(yīng)像素值相減得到差值，然后設(shè)定一個(gè)閥值T來(lái)判斷這個(gè)像素點(diǎn)是屬于運(yùn)動(dòng)區(qū)還是屬于背景區(qū)域，如果對(duì)應(yīng)像素值變換小于預(yù)先設(shè)定的閥值T時(shí)，則認(rèn)為該像素屬于背景區(qū)域，反之則可以認(rèn)為該像素屬于前景區(qū)域。該算法實(shí)現(xiàn)簡(jiǎn)單，能夠應(yīng)用于各種環(huán)境，不足指出是對(duì)環(huán)境較為敏感，并且閥值設(shè)定也非常關(guān)鍵。

2.1.4 基于背景模型的ROI分割

背景模型法是一種有效的運(yùn)動(dòng)目標(biāo)ROI檢測(cè)算法，其基本思想是通過(guò)建立并不停更新背景模型，從而得到一副背景視頻幀，并將當(dāng)前視頻幀與建立的背景幀做像素差值，并設(shè)定一個(gè)閥值T，提取差值超過(guò)閥值T的區(qū)域作為ROI區(qū)域。

2.2 基于ROI編碼策略

ROI分割的目的即為分離視頻幀中的有效區(qū)域，從而在編碼過(guò)程中為這些區(qū)域分配更多的碼流，而對(duì)于非ROI區(qū)域則適當(dāng)降低碼流，進(jìn)而在相同的碼率下得到較高主觀視覺(jué)效果的視頻。一般ROI編碼策略有兩種[5]：

1）調(diào)整量化參數(shù)值：該策略在編碼過(guò)程中，對(duì)于ROI區(qū)域使用低因子，而非ROI區(qū)域則使用高量化因子，從而使得ROI區(qū)域具有較高的質(zhì)量。為此，人們提出了兩種名為MBT和JBA壓縮策略。MBT策略對(duì)非ROI區(qū)域采用最大化的量化因子，ROI區(qū)域的量化因子則通過(guò)剩余比特?cái)?shù)進(jìn)行計(jì)算。JBA則是對(duì)MBT的一種改進(jìn)，在非ROI區(qū)域和ROI區(qū)域之間進(jìn)行比特分配時(shí)，考慮了區(qū)域面積、運(yùn)動(dòng)等因素，使得比特分配更加合理，非ROI區(qū)域和ROI區(qū)域間過(guò)度更加柔和。

2）調(diào)整碼率控制：這種方法根據(jù)限定的碼率，按照某一比例將比特率分配給ROI和非ROI區(qū)域，并且針對(duì)ROI和非ROI區(qū)域使用不同的碼率控制模型：針對(duì)非ROI區(qū)域，采用TMN8碼率控制算法為每一宏塊計(jì)算量化因子，而對(duì)于ROI區(qū)域，則采用高碼率失真模型建模，利用拉格朗日數(shù)值進(jìn)行優(yōu)化，計(jì)算每個(gè)宏塊的量化因子[6]。

3 基于H.264/AVC的ROI編碼在移動(dòng)多媒體中的實(shí)現(xiàn)

3.3 ROI區(qū)域檢測(cè)策略

根據(jù)移動(dòng)交互視頻應(yīng)用的特點(diǎn)，人們?cè)谝曨l聊天的過(guò)程中，最關(guān)注的必然是對(duì)方的面部情況，因此，我們將人臉部分作為我們編碼的ROI區(qū)域。同時(shí)，人們?cè)谶M(jìn)行視頻通話的過(guò)程中，一般不會(huì)有劇烈的移動(dòng)，也就是不會(huì)有大動(dòng)態(tài)畫(huà)面；因此沒(méi)有必要每一個(gè)視頻幀都進(jìn)行ROI區(qū)域檢測(cè)，而是每隔時(shí)間窗t后強(qiáng)制檢測(cè)一次，而在這個(gè)時(shí)間窗t內(nèi)，則可以使用更為簡(jiǎn)單的算法進(jìn)行輔組檢測(cè)ROI區(qū)域是否有發(fā)生改變。因此我們?cè)趶?qiáng)制檢測(cè)時(shí)，利用OpenCV中的正面人臉定位，確定人面部位，繼而確定人面部位占據(jù)的宏塊范圍；而在輔組檢測(cè)時(shí)，則通過(guò)簡(jiǎn)單的膚色檢測(cè)算法檢測(cè)ROI區(qū)域是否發(fā)生改變，如果發(fā)生改變則重新使用OpenCV進(jìn)行人臉部位置的檢測(cè)，具體實(shí)現(xiàn)如下：

4 結(jié)束語(yǔ)

在基于移動(dòng)互聯(lián)網(wǎng)的多媒體應(yīng)用中，移動(dòng)網(wǎng)絡(luò)的帶寬限制即傳輸不穩(wěn)定性，一定程度上制約了該類應(yīng)用的發(fā)展與推廣。RIO技術(shù)在移動(dòng)互聯(lián)網(wǎng)有限的帶寬環(huán)境下，能夠提供較高的多媒體視覺(jué)效果。同時(shí)，在進(jìn)行視頻編碼時(shí)，我們也可以采用可擴(kuò)展編碼（SVC：Scalable Video Coding）和ROI相結(jié)合的方式，將ROI區(qū)域放到基礎(chǔ)層編碼，而非ROI區(qū)域則放到增強(qiáng)層編碼，并在網(wǎng)絡(luò)帶寬有限的情況下只發(fā)送基礎(chǔ)層，而在網(wǎng)絡(luò)帶寬允許時(shí)，則同時(shí)發(fā)送增強(qiáng)層，這樣就能夠更加有效的適配移動(dòng)網(wǎng)絡(luò)情況，并獲取更好的視頻視覺(jué)效果。

參考文獻(xiàn)：

[1] 許可，師忠超，漆進(jìn).一種面向感興趣區(qū)域的之分圖像分割方法[J].計(jì)算機(jī)應(yīng)用，2004，24（SI）：149-151.

[2]尹顯東，姚軍，李在銘.基于BP神經(jīng)網(wǎng)絡(luò)的圖像感興趣區(qū)域自動(dòng)檢測(cè)技術(shù)[J].系統(tǒng)工程與電子技術(shù)，2006，28（2）：192-195.

[3] 李慶，楊峻峰，江漢紅，等.基于Snake模型的圖像分割技術(shù)[J].武漢理工大學(xué)學(xué)報(bào)，2006，28（11）.

[4] 汪洋，李強(qiáng).基于ROI的可伸縮視頻編碼技術(shù)研究[D].重慶郵電大學(xué)，2011.

[5] 周磊，羅三定.視頻通信中ROI四橫批壓縮算法的研究與應(yīng)用[D].中南大學(xué)，2011.

[6] 李子印，朱善安，劉麗芳.支持ROI優(yōu)先編碼策略的自適應(yīng)碼率控制算法[J].光電工程，2006，33（4）：105-110.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

ROI技術(shù)在移動(dòng)多媒體交互中的研究與應(yīng)用