一、全民藝術(shù)普及工作及視音頻服務(wù)
為貫徹落實(shí)中辦、國辦《關(guān)于加快構(gòu)建現(xiàn)代公共文化服務(wù)體系的意見》中關(guān)于加快推進(jìn)公共文化機(jī)構(gòu)數(shù)字化建設(shè)的精神,2015年起,中央財政面向文化館行業(yè)開啟了數(shù)字化專項(xiàng)投入。目前,全國已有超過120家文化館得到中央財政數(shù)字文化館項(xiàng)目經(jīng)費(fèi)支持,累計投入經(jīng)費(fèi)1.74億元。隨著在第五次全國文化館評估工作中數(shù)字化服務(wù)評分項(xiàng)比例的提升,數(shù)字化服務(wù)正成為全民藝術(shù)普及工作的重要組成部分,全國副省級以上數(shù)字文化館啟動率達(dá)到了97%。為整合數(shù)字化全民藝術(shù)普及資源,提供一體化、一站式服務(wù),公共文化云服務(wù)項(xiàng)目在文化和旅游部的推動下應(yīng)運(yùn)而生。該項(xiàng)目以看直播、享活動、學(xué)才藝、訂場館、趕大集、讀好書等服務(wù)欄目為核心,面向基層,提高整體公共文化供給能力,整合對接國家公共文化云與基于數(shù)字文化館服務(wù)的各省級全民藝術(shù)普及云資源、服務(wù)和數(shù)據(jù),形成以國家公共文化云為主入口,各省級云聯(lián)合服務(wù)的公共數(shù)字文化服務(wù)新模式。截至2020年11月,國家公共文化云累計組織數(shù)字資源12萬余條,(其中,視音頻類資源45642條,占比37.94%),訪問量5.6億余人次(其中視音頻類資源訪問量占比81.01%)。可見,視音頻服務(wù)在數(shù)字化全民藝術(shù)普及服務(wù)中占據(jù)核心地位。對視音頻技術(shù)的了解,將有助于在5G時代進(jìn)一步占領(lǐng)服務(wù)制高點(diǎn)。
二、視音頻服務(wù)的技術(shù)實(shí)現(xiàn)過程
為進(jìn)一步梳理、把握數(shù)字化全民藝術(shù)普及的視音頻技術(shù)服務(wù),首先結(jié)合國家公共文化云就視音頻服務(wù)用戶端的技術(shù)實(shí)現(xiàn)過程進(jìn)行重點(diǎn)分解。
目前,國家公共文化云提供的互聯(lián)網(wǎng)服務(wù)無論是面向電腦端(PC)、移動端(APP、微信公眾號)還是大屏端(EPG),從技術(shù)上講,核心用戶交互界面均使用HTML5方式進(jìn)行構(gòu)建。一條視音頻資源,通過互聯(lián)網(wǎng)傳輸?shù)接脩舳?,通過播放器并呈現(xiàn)給用戶時,大體要經(jīng)過四個步驟:
(一)解協(xié)議。流媒體協(xié)議的核心在于在統(tǒng)一規(guī)則下進(jìn)行數(shù)據(jù)傳輸。解協(xié)議是將遵循流媒體協(xié)議所傳輸?shù)馁Y源分解還原為標(biāo)準(zhǔn)的封裝資源和信令數(shù)據(jù),封裝資源為需要具體解碼內(nèi)容信息的集合包。
(二)解封裝。封裝工作是將視頻、音頻和描述文件形成統(tǒng)一的集合包。解封裝相當(dāng)于打開集合包,將解協(xié)議后獨(dú)立出來的封裝資源分離成視頻編碼資源和音頻編碼資源。
(三)解編碼。解編碼的作用在于將傳輸過來的壓縮視頻和壓縮音頻資源進(jìn)行還原,根據(jù)編碼規(guī)則的不同,有些資源在壓縮還原后會有一定損失,但通常不影響視聽效果。編碼和解碼工作是整個資源文件從傳輸?shù)讲シ抛詈诵囊彩亲顝?fù)雜的環(huán)節(jié)。力圖尋求高效傳輸與高質(zhì)量視音頻內(nèi)容上的平衡。通過解碼,視頻資源最終轉(zhuǎn)化為非壓縮的圖像數(shù)據(jù)信息,音頻資源轉(zhuǎn)化成為非壓縮的音頻抽樣數(shù)據(jù)信息。
(四)視音頻同步。視音頻同步的核心是根據(jù)共同認(rèn)可的時間信息,對視頻內(nèi)容和音頻內(nèi)容進(jìn)行同步播放。
國家公共文化云用戶端解析視音頻文件的技術(shù)過程參見下圖1所示:
圖1.國家公共文化云用戶端解析視音頻文件的技術(shù)過程
三、視音頻播放服務(wù)的技術(shù)對比
國家公共文化云視音頻播放服務(wù)過程,對應(yīng)的關(guān)鍵技術(shù)為流媒體技術(shù)、視音頻封裝技術(shù),視頻、音頻壓縮編碼技術(shù)以及視音頻同步技術(shù)。
(一)流媒體技術(shù)。流媒體技術(shù)主要通過規(guī)范服務(wù)器與用戶端之間通信實(shí)現(xiàn),這些規(guī)范形成了不同的流媒體協(xié)議。不同的應(yīng)用場景通常使用不同的流媒體協(xié)議。當(dāng)前互聯(lián)網(wǎng)主要應(yīng)用的流媒體協(xié)議如下表1所示:
由上表可以看出,互聯(lián)網(wǎng)視頻服務(wù)通常采用TCP作為流媒體傳輸協(xié)議,因而像RTMP、MMS、HTTP以及基于HTTP協(xié)議擴(kuò)展形成的HLS協(xié)議廣泛應(yīng)用于互聯(lián)網(wǎng)視音頻服務(wù)中。盡管RTSP+RTP是國際標(biāo)準(zhǔn),然而由于互聯(lián)網(wǎng)環(huán)境的不穩(wěn)定性,RTP這種采用UDP作為傳輸層協(xié)議的流媒體協(xié)議容易產(chǎn)生丟包等現(xiàn)象,視頻的質(zhì)量在傳輸過程中容易受到影響,因此并未廣泛應(yīng)用于互聯(lián)網(wǎng)視頻服務(wù)。
值得關(guān)注的是HLS(HTTP Live Streaming),該協(xié)議是蘋果公司推出的直播協(xié)議,通過將視頻流切片成文件片段進(jìn)行傳輸。用戶端在接收文件時首先會尋求索引文件(m3u8),里面會有不同碼率的文件流資源,亦或索引文件中直接給出ts文件列表,用戶端通過給出的ts文件地址依次進(jìn)行播放。在直播的時候,用戶端會不斷請求索引文件(m3u8),檢查ts列表是否有新的ts切片。因此,HLS因其既可用于直播也可用于點(diǎn)播而被廣泛應(yīng)用。
(二)封裝技術(shù)。封裝技術(shù)主要用于將視音頻文件、字幕等信息按照一定的方案存儲在一個文件中。用戶端的播放器根據(jù)封裝格式將文件按照既定方案進(jìn)行解封裝即可得到封裝前的文件。一般來說視音頻文件的后綴名稱就是其封裝格式。目前,互聯(lián)網(wǎng)視音頻主要封裝格式如表2所示:
由表2可見,除AVI外,多數(shù)的封裝格式都支持流媒體播放,能夠應(yīng)用于互聯(lián)網(wǎng)視音頻服務(wù)使用。其中,考慮播放器普及程度等因素,RMVB方式?jīng)]有在互聯(lián)網(wǎng)視音頻網(wǎng)站中廣泛使用。被較多采納和應(yīng)用的封裝技術(shù)主要為MP4、FLV、TS等。隨著普通用戶互聯(lián)網(wǎng)帶寬的不斷提升,特別是4G、5G無線技術(shù)的廣泛應(yīng)用,TS技術(shù)因其解封裝后進(jìn)行播放視頻的過程中,不會出現(xiàn)因流媒體片段跳轉(zhuǎn)而產(chǎn)生的黑幀現(xiàn)象,而被互聯(lián)網(wǎng)視頻服務(wù)廣泛采用。
(三)視音頻編碼技術(shù)。視頻和音頻的編碼技術(shù)是互聯(lián)網(wǎng)服務(wù)中最重要的技術(shù)之一。其中,視頻碼流的數(shù)據(jù)量占了互聯(lián)網(wǎng)視音頻總數(shù)據(jù)量的絕大部分,視頻編碼用于將視頻像素數(shù)據(jù)壓縮成為視頻碼流,以降低視頻文件總的數(shù)據(jù)量,高效率的視頻編碼在同等的碼率下,可以獲得更高的視頻質(zhì)量。音頻編碼用于將音頻采樣數(shù)據(jù)壓縮成音頻碼流,以降低音頻文件的數(shù)據(jù)量,高效率的音頻編碼技術(shù)在同等碼率下,可以獲得更好的音質(zhì)?;ヂ?lián)網(wǎng)視頻、音頻編碼技術(shù)如表3所示:
在視頻編碼中,H.264憑借其高效壓縮算法及在戶聯(lián)網(wǎng)適應(yīng)性方面的顯著優(yōu)勢,成為當(dāng)今視頻編碼領(lǐng)域的主流標(biāo)準(zhǔn)。HEVC(High Efficiency Video Coding)和VP9屬于較新的編碼技術(shù)。值得一提的是,第一版的HEVC視頻壓縮技術(shù)于2013年4月被ITU-T(International Telegraph and Telephone Consultative Committee,國際電信聯(lián)盟)接受為正式標(biāo)準(zhǔn)。HEVC可以顯著提高壓縮效率、內(nèi)容的魯棒性和出現(xiàn)錯誤的恢復(fù)能力。HEVC預(yù)期可以實(shí)現(xiàn)利用2Mbps的傳輸速度傳送分辨率1280*720普通高清視頻。根據(jù)實(shí)驗(yàn)結(jié)果,同等的碼率下不同視頻壓縮編碼標(biāo)準(zhǔn)的視頻質(zhì)量有如下關(guān)系:HEVC(H.265)> VP9 >H.264 > VP8 > MPEG4 > H.263 > MPEG2。
而對于音頻編碼,由于編碼技術(shù)已經(jīng)基本可以滿足現(xiàn)有帶寬下人們的需要,因此近年來并未推出全新的音頻編碼方案。當(dāng)前音頻編碼技術(shù)大部分的改動,都是在MP3的繼任者——AAC的基礎(chǔ)上完成的。根據(jù)實(shí)驗(yàn)結(jié)果,在低碼率的情況下(48kbps),不同音頻編碼標(biāo)準(zhǔn)的音頻壓縮質(zhì)量如下:AAC+>MP3PRO > AAC > RealAudio > WMA > MP3。
(四)視音頻同步技術(shù)。視音頻同步技術(shù)通過分別讀取封裝文件內(nèi)的視頻和音頻時間戳,并基于基準(zhǔn)時間,解決視音頻播放時的畫音同步問題。在視音頻解碼后,播放器以幀數(shù)據(jù)為單位進(jìn)行播放。由于媒體流本身視音頻播放起始幀的差距,視頻的非線性播放與音頻的線性播放之間的偏差,以及解碼及渲染的耗時偏差,播放器需要不斷通過文件中的時間戳進(jìn)行動態(tài)的時序同步,確保用戶視聽的良好體驗(yàn)。視音頻同步技術(shù)主要使用的DTS(Decoding Time Stamp)和PTS(Presentation Time Stamp)。DTS為解碼時間戳,用于告訴播放器該在什么時候解碼這一幀的數(shù)據(jù)。PTS為顯示時間戳,用于告訴播放器該在什么時候顯示這一幀的數(shù)據(jù)。
四、當(dāng)前主流服務(wù)平臺采用的視音頻技術(shù)
為進(jìn)一步了解當(dāng)前社會互聯(lián)網(wǎng)視音頻主流平臺使用的技術(shù)規(guī)范,針對當(dāng)前部分點(diǎn)擊率較高的平臺視音頻參數(shù)進(jìn)行了研究。鑒于國家公共文化云是提供視音頻一體化服務(wù),因此本次調(diào)研僅限于提供視音頻一體化服務(wù)的平臺,未包括僅提供音頻服務(wù)的互聯(lián)網(wǎng)平臺。當(dāng)前視音頻服務(wù)主要包括兩種方式:直播和點(diǎn)播。直播即互聯(lián)網(wǎng)視音頻平臺直接將視頻內(nèi)容實(shí)時發(fā)送給用戶,目前還處于發(fā)展階段。國家公共文化云的“看直播”頻道即提供該項(xiàng)服務(wù)。點(diǎn)播即根據(jù)用戶的需要播放相應(yīng)的視頻節(jié)目,這是互聯(lián)網(wǎng)視音頻服務(wù)最基本的服務(wù)方式,大部分視音頻網(wǎng)站都提供點(diǎn)播服務(wù)。
(一)直播。主流互聯(lián)網(wǎng)視音頻平臺直播服務(wù)及公共數(shù)字文化服務(wù)平臺參數(shù)對比如表4所示:
以上各直播平臺基于互聯(lián)網(wǎng)進(jìn)行視頻流傳輸并通過瀏覽器進(jìn)行觀看,大部分采取了基于HLS(HTTP Live Streaming)協(xié)議的直播方案。HLS協(xié)議基于HTTP訪問,通過讀取動態(tài)變化的m3u8索引文件,對TS文件進(jìn)行動態(tài)讀取和播放,從而完成視頻直播流的有序接收。
(二)點(diǎn)播。主流互聯(lián)網(wǎng)視音頻平臺點(diǎn)播服務(wù)及公共數(shù)字文化服務(wù)平臺的參數(shù)對比如表5所示:
綜上,當(dāng)前互聯(lián)網(wǎng)點(diǎn)播普遍采用的流媒體協(xié)議為TTP/HTTPS,采用的封裝格式有TS、MP4等,普遍采用的視頻編碼為H.264,普遍采用的音頻編碼為AAC。
五、5G時代全民藝術(shù)普及視音頻服務(wù)采用技術(shù)建議
5G時代已經(jīng)到來,其高帶寬、低延時的特性必然會對全民藝術(shù)普及視音頻服務(wù)產(chǎn)生深刻影響。以下將結(jié)合公共文化云平臺、數(shù)字文化館等公共數(shù)字文化服務(wù)重點(diǎn)項(xiàng)目采納的標(biāo)準(zhǔn)和現(xiàn)實(shí)成果,對5G時代下視音頻服務(wù)應(yīng)選擇的技術(shù)方向提出建議:
(一)流媒體技術(shù)應(yīng)用建議
隨著技術(shù)的進(jìn)步,流媒體傳輸技術(shù)會向著更穩(wěn)定、更效率、更便捷的方向前進(jìn)。隨著HTML5在用戶端的日益普及,以及觀看視頻的終端由PC+瀏覽器到手機(jī)端+App的轉(zhuǎn)變,視音頻直播應(yīng)考慮脫離Flash的場景開展服務(wù)。(Adobe公司已于2021年1月1日起不太提供對Flash的維護(hù)支持,微軟公司給Windows 10系統(tǒng)發(fā)布了補(bǔ)丁KB4577586用來卸載系統(tǒng)已安裝的Flash插件,各大主流瀏覽器包括Chrome、Edge、Firefox等都宣布將終止對Flash技術(shù)的支持,瀏覽器默認(rèn)把Flash功能設(shè)置為禁用。國家公共文化云播放器也于2021年起對播放器進(jìn)行了重新設(shè)置,不再使用RTMP和RTMFP等技術(shù)標(biāo)準(zhǔn)。)基于這樣的考慮,HLS(HTTP Live Streaming)以基于HTTP流協(xié)議之上的高性能、高適配集成,且支持IOS、Android、Html5等用戶端播放器的原生兼容等優(yōu)勢,被優(yōu)先推薦應(yīng)用。點(diǎn)播服務(wù)推薦繼續(xù)使用HTTP協(xié)議,主要好處是可以減輕服務(wù)器壓力。當(dāng)視頻文件完成下載后即可以斷開鏈接,從而節(jié)省出服務(wù)器資源為其他用戶請求服務(wù)。此外,在提供視頻服務(wù)時可以直接使用普通的Web服務(wù)器而不必花費(fèi)有限經(jīng)費(fèi)額外購買流媒體服務(wù)器,從而可以大幅節(jié)省費(fèi)用。著眼于未來,全民藝術(shù)普及直播服務(wù)流媒體技術(shù)應(yīng)用建議:HLS(HTTP Live Streaming)、RTMP、RTMFP(Real Time Media Flow Protocol,實(shí)時媒體流協(xié)議)。
點(diǎn)播服務(wù)流媒體技術(shù)應(yīng)用建議:HTTP/HTTPS。
(二)對封裝格式應(yīng)用的建議
封裝格式相比流媒體協(xié)議和壓縮編碼來說,不能算作一個非常關(guān)鍵的技術(shù),且不同封裝格式之間的差別很小,很多推出比較早的封裝格式(例如AVI,RMVB)和相對推出較晚的封裝格式(例如MKV)都在視音頻服務(wù)中占有一定份額。就互聯(lián)網(wǎng)視音頻來說,封裝格式可以分為支持流媒體的格式和不支持流媒體的格式兩種。支持流媒體的格式包括TS、FLV、MP4、MKV等,其特點(diǎn)是可以“邊下邊播”。不支持流媒體的格式如AVI等,需要在下載完整個文件后才能開始播放。盡管5G時代的高帶寬可以在一定程度上加速文件下載,考慮到并發(fā)、存儲等限制條件,今后全民藝術(shù)普及的互聯(lián)網(wǎng)服務(wù)仍需要以支持流媒體的封裝格式為核心應(yīng)用。全民藝術(shù)普及直播服務(wù)封裝技術(shù)應(yīng)用建議:TS。點(diǎn)播服務(wù)封裝技術(shù)應(yīng)用建議:MP4。
(三)對視音頻壓縮編碼技術(shù)應(yīng)用的建議
視頻數(shù)據(jù)占據(jù)了互聯(lián)網(wǎng)視音頻數(shù)據(jù)總量的絕大部分比例,因而其壓縮編碼技術(shù)是互聯(lián)網(wǎng)視音頻服務(wù)中最關(guān)鍵的技術(shù)之一。從現(xiàn)有市場占有率、發(fā)展趨勢判斷,在未來的3—5年內(nèi),H.264依然會是主流的視頻壓縮編碼標(biāo)準(zhǔn)。在5G網(wǎng)絡(luò)時代,網(wǎng)絡(luò)帶寬進(jìn)一步加大,需要考慮在視頻的傳輸效率和視頻的編解碼效率之間做動態(tài)平衡??赡艿膱鼍笆且曨l壓縮標(biāo)準(zhǔn)的推進(jìn)步伐減緩,以適當(dāng)提高碼率的方式增加視頻的清晰度。這樣,通過5G網(wǎng)絡(luò)的高帶寬來平衡高碼率帶來的視頻文件加大對傳輸效率的影響,同時不會增加播放終端CPU對視頻文件解碼帶來的計算負(fù)擔(dān)和工作效率。當(dāng)然,面對視頻應(yīng)用不斷向高清晰度、高幀率、高壓縮率方向發(fā)展的趨勢,當(dāng)前主流的視頻壓縮標(biāo)準(zhǔn)協(xié)議H.264的局限性也將逐漸凸顯,但是隨著時間的推移,HEVC將最終成為主流的視頻編碼標(biāo)準(zhǔn)。全民藝術(shù)普及視頻壓縮技術(shù)應(yīng)用建議:H.264,HEVC/H.265。
音頻數(shù)據(jù)占據(jù)了互聯(lián)網(wǎng)視音頻數(shù)據(jù)總量的小部分比例,不會對互聯(lián)網(wǎng)視音頻的總數(shù)據(jù)量產(chǎn)生太大的影響。因此音頻壓縮編碼技術(shù)的進(jìn)步的需求并沒有視頻就壓縮編碼技術(shù)的需求那么大。在目前來說,MP3不僅有廣泛的用戶端軟件支持,也有很多的硬件支持。AAC是MP3格式的接替者。就目前的調(diào)查看,網(wǎng)絡(luò)視音頻平臺已經(jīng)普遍采用AAC作為其音頻壓縮編碼的標(biāo)準(zhǔn)。鑒于其優(yōu)秀的性能,在不久的將來,AAC應(yīng)該也會在硬件等其他領(lǐng)域超過MP3成為市場上最主流的音頻壓縮編碼格式。全民藝術(shù)普及音頻壓縮技術(shù)應(yīng)用建議:AAC。
(四)對視音頻同步技術(shù)應(yīng)用的建議
視頻和音頻都擁有各自的DTS和PTS數(shù)據(jù),它們是在編碼時由編碼器依據(jù)參考時鐘的時間生成。要實(shí)現(xiàn)視音頻同步,需要在播放時讀取文件中的時間戳,同時設(shè)立參考時鐘進(jìn)行播放??蛇x擇的參考時鐘包括:同步音頻到視頻,同步視頻到音頻,同步音頻和視頻到外部時鐘幾種。全民藝術(shù)普及視音頻同步方式建議:同步音頻到視頻。
參考文獻(xiàn):
[1]魏雪飛,周祥.HLS流媒體技術(shù)在廣播電視網(wǎng)絡(luò)直播系統(tǒng)的應(yīng)用[J].廣播電視信息,2020,27(09):38-40.
[2]周向,李薰春.5G網(wǎng)絡(luò)音視頻傳輸標(biāo)準(zhǔn)概述[J].數(shù)據(jù)與計算發(fā)展前沿,2020,2(04):65-79.
[3]辛齊.多媒體視頻文件格式研究與應(yīng)用[J].數(shù)碼世界,2017(07):76.
[4]侯峰.淺析高清視頻的編碼與封裝技術(shù)[J].科學(xué)之友,2011(18):10-11.
[5] 徐劍烈.H.264向H.265的數(shù)字視頻壓縮技術(shù)升級研究[J].數(shù)字通信世界,2017(07):6+16.
[6]羅云川,姜秀華,劉平.互聯(lián)網(wǎng)視音頻技術(shù)現(xiàn)狀與展望[J].上海文化,2014(04):72-78.
[7]畢建華,范健康,劉春華,宋杰.音視頻同步方法和裝置[P].江蘇?。篊N111954064A,2020-11-17.
[8]陸小華.媒體融合運(yùn)作體系構(gòu)建方法與實(shí)現(xiàn)路徑——以新華社全球視頻智媒體平臺與相關(guān)運(yùn)作體系為研究樣本[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報),2019,41(10):1-11.
[9]陳銀鳳.淺析音視頻同步傳輸研究與實(shí)現(xiàn)[J].西部皮革,2016,38(10):7.
[10]賀海玉.基于5G技術(shù)的移動視頻直播系統(tǒng)設(shè)計及應(yīng)用[J].電視技術(shù),2019,43(Z2):62-64+69
[11]劉平.公共數(shù)字文化融合背景下的數(shù)字文化館建設(shè)與發(fā)展思考[J].大眾文藝,2020(07):13-14.
(作者單位:文化和旅游部全國公共文化發(fā)展中心)