吳一亮,胡彥多,鄭佳春
(集美大學(xué)信息工程學(xué)院,福建 廈門 361021)
視頻傳輸相關(guān)應(yīng)用中的原始視頻因其數(shù)據(jù)量龐大,通常需要經(jīng)過壓縮編碼才能進(jìn)行傳輸,然后在接收端解碼顯示[1-3].因此遠(yuǎn)程視頻傳輸應(yīng)用一般包含視頻編碼、數(shù)據(jù)壓縮傳輸、視頻解碼,但這三部分都會帶來一定的時延.5G網(wǎng)絡(luò)普及前,常見的遠(yuǎn)程視頻傳輸應(yīng)用,在視頻編碼和解碼上的時延一般為150~2 000 ms[4-5],對時延測量的精度要求并不高.但隨著5G網(wǎng)絡(luò)的推廣應(yīng)用,網(wǎng)絡(luò)傳輸上的時延可以降到1 ms以內(nèi)[6].同時相應(yīng)的低時延編碼方案也正在制定中,這就使高精度視頻時延的監(jiān)測逐漸成為視頻系統(tǒng)質(zhì)量評估中不可缺少的一部分,尤其對于一些時延要求比較高的新應(yīng)用,比如遠(yuǎn)程操控、虛擬現(xiàn)實(VR)、視頻互動等[7].如3GPP26.929標(biāo)準(zhǔn)[8]將運(yùn)動請求到視頻顯示的時延(motion-to-photon,MTP)列為VR業(yè)務(wù)的體驗質(zhì)量(quality of experience,QOE)指標(biāo)之一,經(jīng)業(yè)內(nèi)測試確定在互動性較強(qiáng)的應(yīng)用(如云VR游戲)中該指標(biāo)應(yīng)小于20 ms才能避免交互延遲導(dǎo)致的眩暈感[9-10].
越來越多的視頻相關(guān)應(yīng)用或者編解碼方案將低時延作為其關(guān)鍵指標(biāo)之一,但現(xiàn)在常用的視頻時延測量方法有限且精度較低.如需進(jìn)行精確測量,則需要在視頻中打入時間戳信息,這會破壞原視頻畫面的內(nèi)容,也就無法實現(xiàn)實時的無損在線測量.
工程中常用的測量方法為并排拍攝法[11],但由于該方法用到的秒表、攝像頭、顯示器都是獨(dú)立的個體,而且攝像頭和顯示器都是以幀為單位進(jìn)行刷新,這將導(dǎo)致測量結(jié)果有最大2幀視頻時間長度的測量誤差,即按60 幀/s計算會有33.3 ms的最大誤差,無法滿足5G網(wǎng)絡(luò)的時延測量精度.而且視頻內(nèi)必須包含秒表,將遮擋視頻原有內(nèi)容,屬于破壞性測量.
針對實際場景中視頻時延的精確測量,Omnitek公司為視頻廣播領(lǐng)域推出了一些專用設(shè)備,如OTM/OTR系列[12].其原理是通過發(fā)送一個特殊的視頻序列來進(jìn)行測量,視頻序列的每幀中打入特殊的時序編碼圖案,設(shè)備通過識別圖案來測量時延.這類設(shè)備普遍價格較高,測量時必須發(fā)送特殊的視頻內(nèi)容,不能在正常的視頻傳輸應(yīng)用中進(jìn)行實時測量.
鑒于現(xiàn)有設(shè)備無法在線無損測量視頻時延,本研究研制了一種不破壞原有傳輸視頻內(nèi)容的視頻時延實時測量裝置.
整體測量方案如圖1所示,其中,為了避免因打入時間戳造成視頻的破壞,本研究將視頻用一個一進(jìn)二出的分配器將視頻分成兩路,一路進(jìn)行視頻傳輸,另一路進(jìn)行時延測量.
圖1 整體測試方案Fig.1 Overall scheme
為了實現(xiàn)無損在線測量,首先要找出原視頻中的每一幀以及經(jīng)過編解碼后的對應(yīng)幀.設(shè)原視頻序列為On(i,j),經(jīng)過編解碼后的重建視頻序列為Rm(i,j),其中(i,j)表示視頻中的像素點(diǎn)坐標(biāo),n和m分別表示原視頻第n幀和重建視頻中的第m幀.確定出On(i,j)與Rm(i,j)各幀之間的對應(yīng)關(guān)系,再根據(jù)對應(yīng)幀到達(dá)時延測量裝置的時間差得出視頻時延.
然而直接按整幀對比來確定時間差的計算量大,且視頻經(jīng)過編解碼后幀內(nèi)像素值會有輕微的改變,并不適于直接的像素級對比,因此需要一個高效的視頻對比檢測方法.傳統(tǒng)散列函數(shù)將任意長的數(shù)據(jù)信息壓縮到某一固定長度的散列值,可以用于信息搜索匹配.但傳統(tǒng)散列函數(shù)受輸入數(shù)據(jù)微小變化的波動較大,而視頻編解碼處理后像素的微小變化對視頻要表達(dá)的內(nèi)容影響不大.為了對經(jīng)過變化處理后的視頻內(nèi)容進(jìn)行搜索匹配,需要使用視頻感知散列[13].
視頻感知散列包括3部分研究內(nèi)容,分別是特征提取方法、視頻感知散列壓縮算法以及散列碼匹配方法.因要檢測對比的視頻尺寸并未發(fā)生變化,只是受編解碼的影響,且現(xiàn)有的視頻編解碼算法多為基于運(yùn)動搜索的混合編碼結(jié)構(gòu)[14],編解碼前后視頻幀之間的運(yùn)動信息特征基本沒有發(fā)生變化,故本文選取運(yùn)動特征來反映視頻內(nèi)容的變化.同時為了能實時處理,對視頻幀進(jìn)行分塊下采樣后采用幀差法獲取運(yùn)動特征[15].將經(jīng)過下采樣以及幀差處理的殘差圖像數(shù)據(jù)經(jīng)過閾值判斷后按一定順序組成散列碼.散列碼匹配主要采用距離度量法.距離表示兩個散列碼的差異程度,距離越大兩個圖像幀的相似度越低,距離越小兩個圖像幀的相似度越高.常見的距離公式有歐式距離、切比雪夫距離、漢明距離、標(biāo)準(zhǔn)化歐式距離等.實際應(yīng)用中多選用漢明距離來度量.在信息論中,兩個等長字符串之間的漢明距離是兩個字符串對應(yīng)位置的不同字符的個數(shù),即對兩個二進(jìn)制字符串按位進(jìn)行異或計算并統(tǒng)計異或結(jié)果為1的個數(shù),此個數(shù)就是兩個二進(jìn)制字符串之間的漢明距離.
針對編解碼后的視頻,以及為了方便在硬件上實時實現(xiàn),本研究提出基于運(yùn)動信息的視頻散列映射方案.具體流程如圖2所示.
圖2 測量流程Fig.2 Measurement process
以下采用實際視頻仿真例子來說明測量流程.
原視頻On(i,j)為循環(huán)播放的一段分辨率為1 280×720的50幀的人頭移動視頻,視頻中的各幀如圖3(a)所示;重建視頻Rm(i,j)為On(i,j)經(jīng)過H.265 視頻壓縮編碼后傳送到解壓縮裝置解碼得到的視頻,除了因有損壓縮帶來的損失外,重建視頻與原視頻內(nèi)容基本一致.
(1)
(2)
選取一個閾值ε對ΔOn(i′,j′)和ΔRm(i′,j′)中的每一幀殘差圖像進(jìn)行二值化處理,大于ε的像素置1,小于ε的像素置0,從而獲得二值化的圖像BOn(i′,j′)和BRm(i′,j′),算法如式(3),進(jìn)一步壓縮數(shù)據(jù)規(guī)模以及排除其他影響因素,處理后如圖3(c)所示.
圖3 仿真實例Fig.3 Simulation example
(3)
將獲得的原視頻圖像散列碼HOn存入散列庫HashDB,庫容量的大小決定了時延的測量范圍,現(xiàn)實中庫容量設(shè)計為600,對于幀率為60 幀/s的視頻來說,時延測量最大范圍為10 s.當(dāng)存入的散列碼超過庫容量時,將最早存入的散列碼丟棄.用重建視頻當(dāng)前幀的散列碼HRm在HashDB中進(jìn)行特征匹配,定義M1表示HOn和HRm的匹配程度.匹配算法如式(4)所示,將重建視頻幀特征散列值與原視頻幀特征散列值對應(yīng)位進(jìn)行異或處理,并統(tǒng)計值為1的個數(shù),也就是特征不同的位置,匹配度越高M(jìn)1值越小.
(4)
如果獲得的重建視頻幀散列碼二進(jìn)制序列中1的個數(shù)較少,表示該幅圖像運(yùn)動特征不明顯,將不會對該幀進(jìn)行匹配計算,經(jīng)測試驗證個數(shù)選為60.確定了原視頻幀與重建視頻幀之間的對應(yīng)關(guān)系后,就可以通過比較檢測裝置打上的時間戳信息計算出重建視頻各幀與原視頻各對應(yīng)幀之間的時延.
為驗證真實效果,本文將原視頻與經(jīng)過壓縮傳輸設(shè)備后的重建視頻幀進(jìn)行匹配度驗證計算,匹配度如圖3(d)所示.原視頻為圖3(a)所示采用非編視頻采集卡循環(huán)播放的一段長度為50幀、分辨率為1 280×720的人頭移動視頻,通過非編視頻采集卡采集了437幀該視頻.將非編視頻采集卡播放的視頻輸入到視頻編碼傳輸設(shè)備中,在解碼端采集重建視頻,并取重建視頻中的1幀計算其散列值與采集的437幀原視頻幀的散列值按式(4)計算匹配度.從圖3(d)可以看出在每50幀原視頻中都可以明確找出最小M值,也就是與重建視頻幀最匹配的原視頻幀.
為了驗證提出算法(以下簡稱算法1)的效果,與業(yè)界常用的基于梯度取向質(zhì)心的視頻感知散列算法[16](以下簡稱算法2)進(jìn)行比較.算法2取輸入視頻的亮度分量,將亮度幀下采樣后分割成固定大小的圖塊,計算圖塊各個位置的梯度取向,最后計算出圖塊內(nèi)所有像素位置梯度取向的質(zhì)心值,將質(zhì)心值作為該圖塊的特征,整幅圖像圖塊的質(zhì)心值序列作為該幀圖像的散列值用于視頻圖像匹配M2.匹配度采用原視頻和重建視頻的質(zhì)心值序列的均方差.
取一段長為300幀、分辨率為1 280×720的視頻,通過H.265標(biāo)準(zhǔn)模型HM16.5代碼按量化系數(shù)為40獲取壓縮后的視頻,即重建視頻.將重建視頻的第170幀與原視頻的300幀分別按算法1和算法2計算其匹配度.結(jié)果如圖4所示.
圖4 匹配度曲線Fig.4 Matching curve
從仿真看兩個算法都能準(zhǔn)確檢測出對應(yīng)幀.相比于算法1,算法2匹配度的相對波動較大(由于算法1與2的匹配度計算式不一樣,故此處以匹配度相對波動作為對比標(biāo)準(zhǔn)),因為視頻編碼壓縮會損失視頻的高頻分量,算法2采用的梯度取向較側(cè)重于像素變化,所以造成波動較大.本研究應(yīng)用場景主要考慮視頻傳輸中的壓縮帶來的影響.算法1的計算量遠(yuǎn)小于算法2,且效果在壓縮傳輸情況下優(yōu)于算法2.
測量系統(tǒng)硬件由基于Xilinx Artix-7系列的現(xiàn)場可編程門陣列(FPGA)和STM32F7系列微控制器組成的異構(gòu)系統(tǒng)實現(xiàn),兩者之間用串行外設(shè)接口(SPI)連接(圖5).FPGA提供了兩個HDSDI接口以及兩個HDMI接口用于視頻輸入,一個HDSDI以及一個HDMI用于OSD.設(shè)備的配置以及測量結(jié)果還可以通過網(wǎng)口在其他設(shè)備的網(wǎng)頁上體現(xiàn).
圖5 測量裝置系統(tǒng)框圖Fig.5 System block diagram of measuring device
利用FPGA對原視頻和重建視頻主要處理步驟如圖6所示.整個FPGA架構(gòu)可以處理最大分辨率為3 840×2 160像素、30幀刷新率的視頻.
圖6 FPGA處理流程Fig.6 FPGA processing flow
為降低成本,F(xiàn)PGA選用Xilinx Artix-7系列的XC7A35T,共有33 280個查找表(LUT)資源.測量系統(tǒng)工作時,使用了22 949個查找表資源,占該芯片資源的70%.片上其他資源如分布式隨機(jī)存取存儲器(RAM)(即將LUT用做分布式RAM(LUTRAM))、塊RAM(BRAM)、輸入輸出(IO)等資源使用情況如圖7所示.選用的FPGA芯片資源滿足裝置功能需求且有一定的余量.
FF為觸發(fā)器; GT為高速收發(fā)器;MMCM為 混合模式時鐘管理器; PLL為鎖相環(huán).圖7 FPGA資源使用情況Fig.7 FPGA resource usage
FPGA將生成的原視頻或重建視頻各幀特征散列碼作為數(shù)據(jù)載荷,在外部打上時間戳、幀編碼以及糾錯碼等內(nèi)容并組成數(shù)據(jù)包,通過SPI總線傳送給STM32F7單片機(jī),SPI傳輸內(nèi)容的數(shù)據(jù)協(xié)議如圖8所示.單片機(jī)對散列碼按式(4)定義的方法進(jìn)行匹配,計算出時延,并在OLED屏幕上顯示,或傳回FPGA,通過網(wǎng)頁將歷史數(shù)據(jù)進(jìn)行展示查看.
圖8 SPI傳輸協(xié)議Fig.8 SPI transmission protocol
測量系統(tǒng)硬件實物如附錄(http:∥jxmu.xmu.edu.cn/upload/html/20210611.html)圖S1所示,經(jīng)過4次硬件設(shè)計改進(jìn)現(xiàn)已產(chǎn)品化.
當(dāng)檢測到原視頻或重建視頻的幀同步信號時,將一個由高精度25 MHz時鐘驅(qū)動32位計數(shù)器的值保存下來,作為該原視頻幀或重建視頻幀的時間戳TO或TR.在確定原視頻與重建視頻對應(yīng)幀后(運(yùn)動特征不明顯的重建視頻幀不進(jìn)行匹配),按式(5)處理相應(yīng)的時間戳即可以得出視頻的時延D(單位:ns).
(5)
根據(jù)誤差傳遞公式[17-19]以及式(5)可知時延測量的方差SD為源視頻時間戳方差STO與重建視頻時間戳方差STR的和.即
SD=STO+STR.
(6)
因為幀同步信號與25 MHz時鐘是不同步的,在幀同步信號到來時抓取的時間戳可能多計或少計一個數(shù),通常稱為±1誤差.因為25 MHz時鐘一個單位時間為40 ns,所以可知時延測量的方差SD為3 200 ns2,從而可以推導(dǎo)出測量的理論標(biāo)準(zhǔn)差為56.6 ns,滿足高精度時延在線測量的要求.
40 ns
為了驗證裝置的精度以及功能,設(shè)計了相應(yīng)的實驗進(jìn)行驗證.
標(biāo)定實驗需要用到固定時延的兩個標(biāo)準(zhǔn)視頻,市場上現(xiàn)有的串行數(shù)字接口(SDI)視頻延時設(shè)備采用存儲回放方式運(yùn)行,可用于直播節(jié)目內(nèi)容審查,但精度不能滿足標(biāo)定要求.為此,設(shè)計如圖9(a)所示的精度標(biāo)定方案.采用一個一分三的SDI視頻分配器(圖9(b)圈中所示SDI傳輸速率為12 Gbit/s),將視頻復(fù)制成三路內(nèi)容及傳輸時間完全相同的視頻,即三路零時延的視頻標(biāo)準(zhǔn)源.將三路中的兩路視頻分別接入時延測量裝置的原視頻和重建視頻SDI輸入口,用于裝置標(biāo)定,將剩下的一路SDI視頻直接顯示.圖9(b)中右邊屏幕為打上測量結(jié)果的重建視頻,屏幕上顯示的時間位數(shù)只到0.1 ms,通過時延測量裝置的網(wǎng)口抓取了10次時延測量匹配幀的時間戳數(shù)據(jù).10次時延測量匹配幀各自的時間戳數(shù)據(jù)如表1所示.
圖9 標(biāo)定實驗Fig.9 Calibration experiment
兩個視頻之間的時延應(yīng)該為0,根據(jù)表1的數(shù)據(jù)可以計算出10次測量的樣本標(biāo)準(zhǔn)差為25.298 ns,與理論精度分析結(jié)果一致,說明裝置符合設(shè)計要求.
為了驗證裝置的功能是否滿足設(shè)計需求,選取華為海思HI3519視頻編解碼方案的H.265編解碼器進(jìn)行驗證.圖10為結(jié)合H.265視頻傳輸系統(tǒng)搭建的視頻無損在線時延測量裝置.圖10中左邊屏幕顯示未經(jīng)壓縮的原視頻,分辨率為1 280×720,刷新率為60 Hz.右邊屏幕為原視頻經(jīng)過H.265編碼后解碼輸出的重建視頻.測量結(jié)果采用OSD形式打印在重建視頻上.
圖10 H.265視頻傳輸系統(tǒng)時延在線監(jiān)測Fig.10 Latency online monitoring of H.265 video transmission system
測量裝置面板顯示如附錄圖S2(http:∥jxmu.xmu.edu.cn/upload/html/20210611.html)所示,顯示視頻的時延為366.7 ms.因現(xiàn)有視頻傳輸系統(tǒng)時延一般為100~2 000 ms,裝置面板設(shè)定的最小讀數(shù)為0.1 ms.時延監(jiān)測的歷史數(shù)據(jù)也可以通過裝置的網(wǎng)口以網(wǎng)頁形式顯示.網(wǎng)頁形式視頻時延監(jiān)測數(shù)據(jù)表如圖11所示.
圖11 視頻時延數(shù)據(jù)記錄Fig.11 Video latency data recording
本研究針對當(dāng)前視頻時延測量領(lǐng)域測量精度低、不能在線無損測量的問題,提出了一種基于視頻散列特征的無損在線視頻時延監(jiān)測方法,并研制了監(jiān)測裝置.經(jīng)過精度分析以及實際測量試驗,結(jié)果表明該裝置能夠滿足視頻傳輸系統(tǒng)中視頻時延無損在線監(jiān)測的要求,可應(yīng)用于視頻傳輸應(yīng)用在線監(jiān)控以及視頻編解碼傳輸系統(tǒng)研發(fā).