劉瓊 趙中燦
摘 要:本文通過分析用戶的視頻使用習(xí)慣、視頻業(yè)務(wù)偏好,得到用戶在視頻大類(騰訊、愛奇藝、優(yōu)酷等)以及視頻小類(王牌對王牌等具體節(jié)目)上的業(yè)務(wù)偏好性,感知對應(yīng)的視頻業(yè)務(wù)信息:業(yè)務(wù)類型、種類、流量、激活人數(shù)、請求次數(shù)等,以此作為基站特征,對基站進(jìn)行兩層聚類,形成視頻業(yè)務(wù)的二級內(nèi)容虛擬緩存簇。最后通過對現(xiàn)網(wǎng)數(shù)據(jù)的分析驗證了較為明顯的實驗性能。
1.引言
隨著移動互聯(lián)網(wǎng)以及智能終端的迅猛發(fā)展,終端業(yè)務(wù)越來越多樣化,移動用戶由原先的瀏覽網(wǎng)頁逐漸向視頻業(yè)務(wù)轉(zhuǎn)變,視頻點播、視頻會議等應(yīng)用越來越普及,視頻業(yè)務(wù)逐漸成為蜂窩移動通信中的主流業(yè)務(wù)。據(jù)不完全統(tǒng)計,在4G網(wǎng)絡(luò)中視頻業(yè)務(wù)產(chǎn)生的流量已經(jīng)占據(jù)50%以上,根據(jù)思科預(yù)測報告,到2020年為止,視頻產(chǎn)生的流量將達(dá)到網(wǎng)絡(luò)流量的75%以上[1]。如此大量的網(wǎng)絡(luò)流量給接入網(wǎng)和核心網(wǎng)甚至整個網(wǎng)絡(luò)都帶來了巨大的壓力,主要體現(xiàn)在核心網(wǎng)絡(luò)或者空中接口處。因此,如何降低主干網(wǎng)絡(luò)的壓力從而提升用戶體驗成為當(dāng)前移動網(wǎng)絡(luò)亟需解決的問題。
隨著視頻流量造成的網(wǎng)絡(luò)帶寬危機(jī)越來越嚴(yán)重,同時視頻的延時、速率、清晰度等各方面要求提升,有關(guān)網(wǎng)絡(luò)緩存的研究開始成為一個熱門話題。各大型無線視頻提供商,如國外的YouTube、Netfix,國內(nèi)的優(yōu)酷、騰訊等,為了提高移動視頻用戶的用戶體驗以及無線視頻媒體的QoS(Quality of Service,服務(wù)質(zhì)量)并減少網(wǎng)絡(luò)帶寬危機(jī)而部署了CDN(內(nèi)容分發(fā)網(wǎng)絡(luò))[2],并在移動交換中心上部署了緩存服務(wù)器,使得視頻內(nèi)容更靠近終端用戶[3][4][5][6]。這樣做法節(jié)省了大量的網(wǎng)絡(luò)帶寬,并且使用戶的體驗得到明顯提升[7]。
然而上面的所有的研究都是基于互聯(lián)網(wǎng)絡(luò)的內(nèi)容分發(fā)網(wǎng)絡(luò)算法研究,游離在移動網(wǎng)絡(luò)的核心網(wǎng)與接入網(wǎng)之外。除此之外,大多數(shù)是針對單個業(yè)務(wù)進(jìn)行的內(nèi)容緩存,沒有考慮到同等業(yè)務(wù)下不同視頻類型的用戶使用習(xí)慣。文獻(xiàn)[8]基于移動網(wǎng)絡(luò)中的業(yè)務(wù)特征進(jìn)行基站存儲算法的研究,著重關(guān)注的是存儲的分配等技術(shù),而忽略了網(wǎng)絡(luò)中真實業(yè)務(wù)的分布情況以及用戶對于業(yè)務(wù)的偏好性,而這恰恰是內(nèi)容緩存技術(shù)的核心要求:熱點視頻、熱點內(nèi)容、場景需求。
隨著5G的來臨,網(wǎng)絡(luò)信息感知成為網(wǎng)絡(luò)維護(hù)、優(yōu)化、規(guī)劃的重要手段。通過對網(wǎng)絡(luò)側(cè)用戶的log信息,網(wǎng)絡(luò)側(cè)可以感知用戶的位置信息、終端特性、接入方式、移動特征、業(yè)務(wù)使用與特征等,利用這些特征可以很好地分析出某一場景、某一時段內(nèi)區(qū)域中用戶的整體業(yè)務(wù)使用偏好。5G網(wǎng)絡(luò)的扁平化,核心網(wǎng)功能的下沉為網(wǎng)絡(luò)感知提供了有利的條件,在基站層通過感知用戶的業(yè)務(wù)偏好特性,為基站端業(yè)務(wù)內(nèi)容緩存提供了必要的數(shù)據(jù)基礎(chǔ)。
內(nèi)容緩存的首要問題是對什么內(nèi)容進(jìn)行緩存,因此本文基于信息感知的框架,通過網(wǎng)絡(luò)側(cè)用戶上網(wǎng)日志信息,提取每個基站用戶使用的業(yè)務(wù)類型、類別、流量大小、激活人數(shù)、請求次數(shù)等等,對基站在不同的時段、不同區(qū)域業(yè)務(wù)特征分布進(jìn)行分析。通過對不同等級的視頻內(nèi)容分布以及用戶喜好進(jìn)行分析,我們提取一種多級內(nèi)容緩存的方式,在不同的等級上對視頻內(nèi)容進(jìn)行緩存,從而從多層次解決視頻緩存的問題。
內(nèi)容緩存另一個重點問題在于緩存的區(qū)域大小或者緩存的位置。在5G系統(tǒng)中,強(qiáng)調(diào)網(wǎng)絡(luò)虛擬化以及資源池的概念,從某種意義上,基站在地理位置上相近,并不代表它們屬于一個管理區(qū)域。因此利用這樣的虛擬化的概念,以上述感知的特征作為基站的特征向量,將具有相似視頻業(yè)務(wù)偏好的基站通過兩層聚類的方式形成多級內(nèi)容緩存虛擬簇,以此控制對應(yīng)的多個基站內(nèi)容緩存。
本文第2節(jié)簡單介紹我們的研究框架以及對應(yīng)的感知參數(shù)說明;第3節(jié)針對現(xiàn)網(wǎng)采集的數(shù)據(jù)進(jìn)行特征提取,分析以及最終的基站內(nèi)容緩存聚簇。第4節(jié)總結(jié)了本文的研究內(nèi)容。
2.基本框架
圖 1給出了本文多級內(nèi)容緩存的研究框架。整體可分為四大部分:數(shù)據(jù)來源、信息感知、內(nèi)容分級以及基站聚簇。由于數(shù)據(jù)來源于基站,同時應(yīng)用于基站,從某種意義上來說,整體框架是一個回環(huán)。
數(shù)據(jù)來源:
基站上多用戶的業(yè)務(wù)使用方式、習(xí)慣構(gòu)成整體網(wǎng)絡(luò)的流量特性。從終端側(cè)可以感知用戶的業(yè)務(wù)使用情況、移動情況、終端信號情況等等,這些信息構(gòu)成了整體網(wǎng)絡(luò)-用戶信息。然而對于3G、4G網(wǎng)絡(luò)來說,終端信息采集匯總具有較大的人力成本,而基站本身只具備轉(zhuǎn)發(fā)功能,無法進(jìn)行信息感知。在現(xiàn)網(wǎng)當(dāng)中,數(shù)據(jù)業(yè)務(wù)經(jīng)過接入網(wǎng)之后會去除無線協(xié)議棧,在核心網(wǎng)上進(jìn)行IP傳輸,因此核心網(wǎng)網(wǎng)關(guān)可以獲取用戶的控制面和數(shù)據(jù)面數(shù)據(jù)包,通過深度包解析(DPI)以及兩方面數(shù)據(jù)的融合,獲取其中對應(yīng)的用戶信息,從而使得從核心網(wǎng)進(jìn)行數(shù)據(jù)感知具有一定的可行性。在未來5G中,網(wǎng)絡(luò)架構(gòu)的扁平化以及上層功能的下沉等使得在基站上感知成為可能。本身研究的著力點在基站,抽取的信息特征也是以基站為單位,則認(rèn)為數(shù)據(jù)來源于基站下的用戶。
信息感知:
從核心網(wǎng)獲取對應(yīng)的用戶控制面和數(shù)據(jù)面數(shù)據(jù)包之后,通過協(xié)議解析的方法,可以有效地獲取用戶的位置、業(yè)務(wù)類型等信息。以基站為單位,統(tǒng)計基站下的用戶信息,從而得到關(guān)于基站的特征向量:業(yè)務(wù)類型(優(yōu)酷、愛奇藝、新浪圖片等)、業(yè)務(wù)小類(具體內(nèi)容)、業(yè)務(wù)流量、業(yè)務(wù)激活人數(shù)、業(yè)務(wù)請求次數(shù)、內(nèi)容請求次數(shù)、內(nèi)容請求人數(shù)。這些感知信息描述了單個基站下業(yè)務(wù)的分布情況、用戶的使用情況等,為后續(xù)進(jìn)行基站聚簇,內(nèi)容緩存提供有效地基礎(chǔ)。
內(nèi)容分級:
無論是視頻業(yè)務(wù)還是網(wǎng)頁瀏覽業(yè)務(wù),內(nèi)容一般都可以分為大類(一級)和小類(二級)。本文將APP的訪問種類定義為大類,如優(yōu)酷、騰訊、新浪微博等等。一般而言,同一個視頻內(nèi)容或者圖片會在不同的內(nèi)容提供商上存在。對移動通信網(wǎng)來說,緩存哪部分視頻是首要研究的內(nèi)容。由于用戶的使用習(xí)慣存在差異性,不同的場景業(yè)務(wù)大類的使用偏好不同,首先分析業(yè)務(wù)大類的用戶使用習(xí)慣,是進(jìn)行內(nèi)容一級大類緩存的前提。很多時候,真正流行的視頻通常為某一特定的內(nèi)容,比如某個娛樂節(jié)目,某些熱播電視劇等等,此時緩存具體的視頻內(nèi)容或者圖片內(nèi)容,比緩存大類信息更加具有實際意義。這一特定的內(nèi)容,我們定義為小類(二級)。利用業(yè)務(wù)的整體分布情況,判別一級緩存內(nèi)容,通過具體內(nèi)容的流行程度,判別二級緩存內(nèi)容是本文對基站進(jìn)行內(nèi)容緩存的多級分析方法。
基站聚簇:
基站之間的偏好存在一定的相似性,根據(jù)感知的基站信息形成基站的特征向量,以此進(jìn)行基站的聚類。當(dāng)基站所屬類別中騰訊視頻站主導(dǎo)時,對應(yīng)的緩存為一級內(nèi)容緩存,進(jìn)一步地當(dāng)基站所屬類別中騰訊視頻中某項內(nèi)容占主導(dǎo)時,對應(yīng)的緩存為二級內(nèi)容緩存。這樣的一級、二級內(nèi)容緩存虛擬簇是以基站特征為相似度量,因此聚簇的基站不一定屬于同一個物理區(qū)域,而是從邏輯上是一個簇,本文稱之為虛擬簇。
從合適的位置進(jìn)行數(shù)據(jù)采集,感知不同基站的信息特征,形成基站特征信息庫。以基站信息特征為特征向量對基站多級聚類。分析聚類之后的分級內(nèi)容的分布情況,存在一級內(nèi)容偏向時,采用一級內(nèi)容緩存,具有二級內(nèi)容流行時,采用二級內(nèi)容緩存策略,從而形成基站多級內(nèi)容緩存。
3.實驗結(jié)果
數(shù)據(jù)集
針對上述提出的研究框架,采集現(xiàn)網(wǎng)移動4G網(wǎng)中的數(shù)據(jù)進(jìn)行用戶行為分析,進(jìn)而進(jìn)行基站的特征聚類,從而形成虛擬簇的多級內(nèi)容緩存。
圖 2給出現(xiàn)網(wǎng)4G數(shù)據(jù)采集的節(jié)點,通過核心網(wǎng)節(jié)點S1-MME、S6a、S1-U、S11的數(shù)據(jù)匯總,得到對應(yīng)的LTE-xDR話單。其中對應(yīng)的4G數(shù)據(jù)詳見表 1。XDR數(shù)據(jù)的格式為一條數(shù)據(jù)為用戶的一條GET請求,包含該請求對應(yīng)的用戶位置、發(fā)送數(shù)據(jù)包總數(shù)、流量總數(shù)等等統(tǒng)計信息,從一定角度反映了HTTP業(yè)務(wù)的特征。通過解析GET中的HTTP信息可以分析用戶的業(yè)務(wù)。
圖 3給出了多級內(nèi)容解析的例子,一條XDR中視頻業(yè)務(wù)的http請求為:http://v.youku.com/v_show/id_XMTQ4OTkwMDg4MA==.html?from=s1.8-3-1.1,其中前半部分的“youku.com”表明用戶的業(yè)務(wù)是優(yōu)酷視頻,后半部分的“id_XMTQ4OTkwMDg4MA”為對應(yīng)視頻片段id,且在視頻內(nèi)容提供商內(nèi)部唯一。因此通過XDR中HTTP請求的解析可以得到對應(yīng)的一級內(nèi)容和二級內(nèi)容。同樣的解析方式可以用在朋友圈、微博等業(yè)務(wù)上進(jìn)行圖片內(nèi)容的解析。根據(jù)這樣的解析結(jié)果,對基站特征進(jìn)行統(tǒng)計。
業(yè)務(wù)特征空間分析
不同場景下,不同時段內(nèi),由于用戶的移動性以及生活習(xí)慣,業(yè)務(wù)的分布特征也會隨之變化。首先統(tǒng)計所有的業(yè)務(wù)類型,這里主要關(guān)注視頻業(yè)務(wù),因此統(tǒng)計每個基站在騰訊、優(yōu)酷、愛奇藝、樂視、搜狐幾大主要業(yè)務(wù)中對應(yīng)的每小時業(yè)務(wù)流量、每小時激活人數(shù)、每小時get次數(shù),以此分析用戶的使用習(xí)慣。
圖 4給出了一級內(nèi)容空間流量分布情況。將所有的基站按照voronoi圖進(jìn)行劃分,每個區(qū)域可以代表一種場景。圖中橫坐標(biāo)代表以及內(nèi)容的類別:騰訊視頻、優(yōu)酷視頻、愛奇藝視頻、樂視視頻以及搜狐視頻;坐標(biāo)表示天,上面一行表示一天,下面一行表示另一天;每個版塊的顏色代表該基站下的該業(yè)務(wù)流量,藍(lán)色表示低流量,黃色表示高流量。根據(jù)上圖不難看出,不同的業(yè)務(wù)在不同的區(qū)域的使用情況不同,有些區(qū)域用戶偏向于騰訊視頻,有些區(qū)域用戶偏向于搜狐視頻,整體上騰訊視頻的使用程度偏高,因此業(yè)務(wù)的使用存在場景差異性。除此之外,可以較為明顯看出業(yè)務(wù)在不同區(qū)域上的流量也存在典型差異,這種空間上的不均勻性反映了用戶對于視頻業(yè)務(wù)的使用情況。從縱向的角度看,不同的天,由于視頻內(nèi)容熱度的差異性,業(yè)務(wù)的使用情況有所差異。上面一天的視頻業(yè)務(wù)使用較為明顯地超過下面一天,因此業(yè)務(wù)的使用存在時間差異性。
視頻業(yè)務(wù)流量空間不均勻性以及使用偏好的差異性,加上時間上的時變性,導(dǎo)致基站進(jìn)行多級內(nèi)容進(jìn)行聚簇緩存時,存在一定的差異性與動態(tài)性,下面針對不同的內(nèi)容級別進(jìn)行分析聚類。
多級內(nèi)容聚類緩存
以基站流量作為視頻緩存的依據(jù),即當(dāng)對應(yīng)的視頻流量偏高時,需要進(jìn)行內(nèi)容緩存。將基站按照騰訊、優(yōu)酷、愛奇藝、樂視以及搜狐視頻的流量大小組成對應(yīng)的向量,按照特征向量對基站采用kmeans聚類[9],得到圖 5所示的基站聚類結(jié)果。整體可以看出,基站按照流量可以分為7類,每一個類對應(yīng)一種特征。第一類為騰訊流量在400MB左右,優(yōu)酷為200MB左右的基站,第二類騰訊流量為400MB,但其它流量很少的基站。按照視頻柱狀圖進(jìn)行一定的分析,可以分別得到7類基站視頻業(yè)務(wù)使用特征。顯然,在不同的基站類別中,緩存的視頻業(yè)務(wù)也存在差異性。第一類基站騰訊視頻和優(yōu)酷視頻流量較大,因此緩存為騰訊、優(yōu)酷的熱門視頻;而第5類基站,搜狐視頻流量遠(yuǎn)大于其他基站,則搜狐視頻熱門視頻進(jìn)行緩存。
分析每個基站所屬的類別,則可以得到對應(yīng)的一級內(nèi)容緩存基站簇,在同類的基站簇中,一級的緩存視頻種類是一致。
如何判定對應(yīng)的基站所屬的類別是進(jìn)行基站緩存的另一個重要方面。用戶的使用習(xí)慣問題,視頻熱點的更新問題,使得用戶在不同的時段內(nèi)對于視頻業(yè)務(wù)的偏好使用存在差異性。圖 6表示不同的基站在13天中對應(yīng)的所屬的類別變化。一個7個基站,每個基站基本都有一定的類別波動,從而表明不同的基站偏好情況存在差異性,一級緩存存在差異,同時由于時間上的波動,在不同的時段上也可能存在緩存差異。
由于內(nèi)容緩存在一定意義上是一種相對靜態(tài)的表現(xiàn),當(dāng)基站波動較大,不存在明顯規(guī)律時,對應(yīng)的基站無法緩存。圖 7中的左圖是基站117號對應(yīng)的所屬基站類別的變化趨勢。第一天屬于7類,第二天屬于1類,根據(jù)圖 5中的基站類別分類,優(yōu)酷視頻的流量明顯上升,搜狐視頻下降。第五天屬于4類,第六、七天屬于2類,騰訊視頻上升,而愛奇藝視頻降低,由于13天中對應(yīng)波動性較大,相對無規(guī)律,內(nèi)容基本無法緩存,因此此類用戶偏好不明顯的基站不進(jìn)行考慮。圖 7中的右圖為基站32號的趨勢變化圖,前面6天有明顯抖動趨勢,但最后7天都屬于3號類別,以騰訊視頻為主,此時對應(yīng)的基站可以進(jìn)行一級騰訊視頻緩存。
當(dāng)確定了基站的一級緩存之后,則可以進(jìn)一步考慮基站是否存在二級緩存。針對32號基站,統(tǒng)計其對應(yīng)的平穩(wěn)的后7天的TOP二級內(nèi)容的請求次數(shù),得到圖 8所示的結(jié)果。通過右側(cè)的統(tǒng)計結(jié)果可以看出,7天中統(tǒng)計的”d5039ievs.m701.mp4”的請求次數(shù)最多,由此可見這段視頻為對應(yīng)的熱門視頻,在進(jìn)行一級騰訊視頻緩存之后可以再次對其中的二級內(nèi)容”d5039ievs.m701.mp4”進(jìn)行緩存。將具有相同二級緩存內(nèi)容的基站進(jìn)行合并,形成二級內(nèi)容緩存虛擬簇。
4.總結(jié)
本文通過信息感知的方式獲取網(wǎng)絡(luò)中業(yè)務(wù)的使用情況,并以此為依據(jù)提出一種基于兩層聚類的基站多級內(nèi)容緩存策略。首先通過不同種業(yè)務(wù)的分布情況對基站進(jìn)行一層聚類,得到不同的基站類別,每個類別代表不同的一級內(nèi)容緩存虛擬簇。根據(jù)基站在時間上的波動性將基站劃歸到對應(yīng)的虛擬簇。對存在一級內(nèi)容緩存的基站進(jìn)行二次聚類,根據(jù)其對應(yīng)的具體內(nèi)容進(jìn)行統(tǒng)計分析,得到不同的二級內(nèi)容緩存虛擬簇。這種方式根據(jù)基站下用戶的具體使用情況,得到較為合理的基站緩存簇。
值得深思的是,很多熱點的緩存是在事件發(fā)生之前,對于一級緩存簇由于不涉及具體內(nèi)容,可以直接緩存對應(yīng)業(yè)務(wù)的當(dāng)前熱點內(nèi)容。對于二級緩存簇,由于涉及到具體的業(yè)務(wù)內(nèi)容,因此還需要考慮如何提前預(yù)知這一個熱點內(nèi)容,以預(yù)測的方式提前進(jìn)行緩存是下一步需要考慮的具體問題。
參考文獻(xiàn):
[1]Cisco. Cisco visual networking index: Global mobile data traffic forecast update, 2015-2020. 2016.
[2]Cisco C V N I. Global Mobile Data Traffic Forecast Update. 2014–2019 (white paper)[J]. 2015.
[3]Zhang Q, Xiang Z, Zhu W, et al. Cost-based cache replacement and server selection for multimedia proxy across wireless Internet[J]. IEEE Transactions on Multimedia, 2004, 6(4): 587-598.
[4]Chen H, Xiao Y. Cache access and replacement for future wireless Internet[J]. IEEE Communications Magazine, 2006, 44(5): 113-123.
[5]梁彪. 內(nèi)容分發(fā)網(wǎng)絡(luò)協(xié)作緩存算法研究[D]. 北京交通大學(xué), 2016.
[6]姚士佳. 視頻分發(fā)與緩存協(xié)同優(yōu)化技術(shù)研究[D]. 中國科學(xué)技術(shù)大學(xué), 2014.
[7]“Explanation of Optimization Deployment”, Available:http: //www. verizonwireless. com/vzwoptimization/.
[8]顧競雄. 無線蜂窩網(wǎng)絡(luò)中基于業(yè)務(wù)信息的基站主動存儲[D]. 浙江大學(xué), 2014.
[9]Hartigan J A, Wong M A. Algorithm AS 136: A k-means clustering algorithm[J]. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1979, 28(1): 100-108.