,,,,
(1.中國(guó)科學(xué)院聲學(xué)研究所 國(guó)家網(wǎng)絡(luò)新媒體工程技術(shù)研究中心,北京 100190; 2.中國(guó)科學(xué)院大學(xué),北京 100190)
目前,在線視頻服務(wù)越來(lái)越流行,國(guó)內(nèi)在線視頻服務(wù)月度覆蓋人數(shù)已達(dá)5億人,有效使用時(shí)間占所有網(wǎng)絡(luò)服務(wù)使用時(shí)間的33%,占據(jù)網(wǎng)民的最主要上網(wǎng)時(shí)間,2014年,其市場(chǎng)規(guī)模達(dá)到245億元[1]。同時(shí),提供在線視頻服務(wù)的內(nèi)容提供商也越來(lái)越多。國(guó)內(nèi)的在線視頻服務(wù)網(wǎng)站已有上百家,很多網(wǎng)站都能提供相似的視頻服務(wù),例如,一部當(dāng)前熱播的電視劇,可能在多個(gè)在線視頻網(wǎng)站都可進(jìn)行觀看,但由于各網(wǎng)站的CDN數(shù)目和位置分布不同,調(diào)度策略也不同,不同時(shí)間的網(wǎng)絡(luò)狀況會(huì)有波動(dòng),各網(wǎng)站對(duì)同一內(nèi)容的服務(wù)能力也會(huì)有所差異,并且這種差異性會(huì)隨著時(shí)間有所變化。
因?yàn)橛脩艟W(wǎng)絡(luò)本身具有異構(gòu)性和動(dòng)態(tài)性,而視頻網(wǎng)絡(luò)服務(wù)質(zhì)量受到網(wǎng)絡(luò)狀況的影響又十分顯著,所以對(duì)用戶觀看視頻服務(wù)時(shí)的服務(wù)質(zhì)量進(jìn)行預(yù)測(cè)是一件具有挑戰(zhàn)性的工作。海服務(wù)是一種融合用戶端資源的服務(wù)系統(tǒng),是與云服務(wù)互為補(bǔ)充的新型服務(wù)架構(gòu)[2]。利用海服務(wù)的分布式、異構(gòu)式特性,可以有效地預(yù)測(cè)和模擬用戶的訪問(wèn)行為。由其地理分布式特點(diǎn)可以更好地貼近用戶,針對(duì)性地預(yù)測(cè)來(lái)自不同地區(qū)的用戶訪問(wèn)時(shí)的服務(wù)質(zhì)量,并提供實(shí)時(shí)的反饋。據(jù)此,本文設(shè)計(jì)并實(shí)現(xiàn)一個(gè)基于海服務(wù)的在線視頻網(wǎng)站服務(wù)質(zhì)量測(cè)量和推薦系統(tǒng)。該系統(tǒng)可以對(duì)訪問(wèn)各視頻網(wǎng)站時(shí)的網(wǎng)絡(luò)情況進(jìn)行測(cè)量,根據(jù)測(cè)量結(jié)果評(píng)估各網(wǎng)站的服務(wù)能力,并且針對(duì)性地給出用戶體驗(yàn)最優(yōu)的網(wǎng)站。此外,該測(cè)量系統(tǒng)也可以作為測(cè)量工具向第三方應(yīng)用直接提供服務(wù)。
本節(jié)主要介紹關(guān)于在線視頻服務(wù)質(zhì)量影響因素和相關(guān)測(cè)量的研究。
由于在線視頻服務(wù)的流行,目前有很多在線視頻服務(wù)網(wǎng)絡(luò)特征的相關(guān)研究,對(duì)可能影響用戶QoE的因素進(jìn)行測(cè)量和探討。文獻(xiàn)[3]研究了YouTube上QoE降低的一些情況。通過(guò)對(duì)手機(jī)用戶YouTube流量軌跡的分析,指出一個(gè)主要CDN的緩存策略可能會(huì)對(duì)最終用戶的QoE造成明顯影響,而不是把QoE下降全部歸因于ISP的流量策略。文獻(xiàn)[4]介紹了不同視頻質(zhì)量參數(shù)對(duì)于用戶參與度的影響,并指出在所有的視頻類型和比特率中,緩沖率對(duì)用戶參與度的影響最大,以及直播中平均碼率的影響要大于其在點(diǎn)播中的影響。文獻(xiàn)[5]指出,在HTTP視頻流服務(wù)中,再緩沖的頻率是影響用戶最終QoE體驗(yàn)的主要因素。文獻(xiàn)[6]研究了PPTV上設(shè)備類型、無(wú)線網(wǎng)絡(luò)連接類型和視頻質(zhì)量對(duì)用戶觀看行為和網(wǎng)絡(luò)流量的影響。文獻(xiàn)[7]提出一種偽主觀質(zhì)量評(píng)估(Pseudo Subjective Quality Assessment,PSQA)工具來(lái)解決針對(duì)SVC視頻編碼的實(shí)時(shí)QoE測(cè)量,并利用隨機(jī)神經(jīng)網(wǎng)絡(luò)來(lái)建模視頻編碼參數(shù)和QoE之間的非線性關(guān)系。文獻(xiàn)[8]考察了視頻點(diǎn)播服務(wù)器的性能測(cè)試方法。文獻(xiàn)[9]開(kāi)發(fā)了一套純軟件的分布式視頻會(huì)議系統(tǒng),并能有效地根據(jù)可用帶寬的變化調(diào)整音視頻傳輸?shù)乃俾?以保持終端的播放QoS和同步性。
還有一些研究則特別考慮了在線視頻服務(wù)的CDN情況。文獻(xiàn)[10]提出一個(gè)互聯(lián)網(wǎng)視頻QoE預(yù)測(cè)模型,并據(jù)此提出了一個(gè)基于此模型選擇CDN和比特率的交付系統(tǒng)框架,其考慮了各種不同情況下用戶的容忍能力變化來(lái)提高整體用戶參與度,與原有方法相比,可以實(shí)現(xiàn)整體用戶參與度超過(guò)20%的改善。文獻(xiàn)[11]研究了YouTube的CDN選擇策略,發(fā)現(xiàn)用戶和數(shù)據(jù)中心之間的RTT在視頻服務(wù)器選擇過(guò)程中扮演了重要角色,其他可能的影響因素還包括負(fù)載均衡和晝夜影響等。文獻(xiàn)[12]研究了Netflix的體系結(jié)構(gòu)和服務(wù)策略,對(duì)Netflix的CDN情況進(jìn)行了測(cè)量,他們采用一種數(shù)據(jù)中心和CDN混合交付的策略,并提出了一種基于自適應(yīng)CDN選擇和多CDN的視頻傳輸策略,可以顯著提高用戶的平均帶寬,另外,還對(duì)Hulu進(jìn)行了類似的研究[13],發(fā)現(xiàn)Hulu會(huì)頻繁地更換優(yōu)先CDN,但是一旦為用戶選定了某個(gè)CDN,即使其性能明顯下降,也會(huì)繼續(xù)由該CDN服務(wù)。文獻(xiàn)[14]則對(duì)Netflix和Hulu的CDN策略進(jìn)行了比較,并提出了基于自適應(yīng)和多CDN的優(yōu)化建議。
上述研究大多集中在對(duì)每個(gè)在線視頻服務(wù)網(wǎng)站的單獨(dú)研究,或是對(duì)不同視頻網(wǎng)站進(jìn)行一些架構(gòu)設(shè)計(jì)和策略上的比較,相較于上述研究,為了向用戶推薦,本文對(duì)提供同一內(nèi)容的不同在線視頻服務(wù)網(wǎng)站進(jìn)行比較性的研究。而且,這些研究幾乎都是基于Youtube、Netflix等國(guó)外流行視頻網(wǎng)站,本文研究則主要針對(duì)中國(guó)大陸常見(jiàn)的視頻網(wǎng)站,更加重視中國(guó)用戶的特點(diǎn)。相對(duì)于國(guó)外的在線視頻用戶,中國(guó)用戶在地理上分布較為集中,海外訪問(wèn)比例較低,地理分布情況相對(duì)簡(jiǎn)單。但是,由于使用移動(dòng)終端訪問(wèn)視頻服務(wù)的比例更高,導(dǎo)致了更加復(fù)雜的網(wǎng)絡(luò)和地理環(huán)境變化。另外,中國(guó)在線視頻用戶數(shù)量大,用戶密度也遠(yuǎn)遠(yuǎn)大于國(guó)外,這一方面導(dǎo)致用戶相互之間的干擾更大,預(yù)測(cè)時(shí)需要考慮其他用戶的因素,另一方面相似度較大的用戶也會(huì)更多,有利于協(xié)同預(yù)測(cè)。
此外,這些研究通常將同一在線視頻服務(wù)網(wǎng)站的內(nèi)容不加區(qū)分地視為一體,或是粗略地按照直播/點(diǎn)播,亦或是長(zhǎng)視頻/短視頻等屬性進(jìn)行分類,而本文研究中的測(cè)量系統(tǒng)在測(cè)量過(guò)程中更加重視不同視頻的不同特征,并將在后續(xù)研究中探索和視頻服務(wù)質(zhì)量的特征關(guān)系更加緊密的分類模式。
本節(jié)將介紹海服務(wù)的概念及本文所設(shè)計(jì)實(shí)現(xiàn)的基于海服務(wù)架構(gòu)的視頻服務(wù)測(cè)量系統(tǒng)的基本架構(gòu)。
文獻(xiàn)[2]提出了海服務(wù)的架構(gòu)。海服務(wù)即在充分考慮網(wǎng)絡(luò)和服務(wù)特性的基礎(chǔ)上,利用網(wǎng)絡(luò)邊緣設(shè)備提供的現(xiàn)場(chǎng)(on-Site)、彈性(Elastic)、自治的(Autonomous)服務(wù)。該服務(wù)可以用于構(gòu)建以用戶為中心的需要滿足在線實(shí)時(shí)、準(zhǔn)實(shí)時(shí)要求的應(yīng)用。
目前在移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)服務(wù)中,一方面,用戶和各類端設(shè)備會(huì)產(chǎn)生大量的數(shù)據(jù)和請(qǐng)求,另一方面,各種應(yīng)用對(duì)于實(shí)時(shí)性的要求越來(lái)越高,所以,迫切需要更加現(xiàn)場(chǎng)性的服務(wù)。海服務(wù)的提出就是為了探索如何解決越來(lái)越大的數(shù)據(jù)處理需求和越來(lái)越高的實(shí)時(shí)響應(yīng)要求之間的矛盾。
在海服務(wù)架構(gòu)中,網(wǎng)絡(luò)中的邊緣設(shè)備被視為“海”端,而傳統(tǒng)的數(shù)據(jù)中心模式則作為“云”端。對(duì)于實(shí)時(shí)性要求高、涉及到的數(shù)據(jù)地理分布集中的請(qǐng)求,直接在海端進(jìn)行響應(yīng)。而對(duì)于實(shí)時(shí)性要求較低,涉及到的數(shù)據(jù)地理分布廣泛,如關(guān)于大規(guī)模數(shù)據(jù)的模型構(gòu)建等需求,則匯總到云端處理。文獻(xiàn)[15]研究了海云協(xié)同下的共性服務(wù)模式。
在海服務(wù)中,海端表現(xiàn)出物聯(lián)網(wǎng)系統(tǒng)所具有的異構(gòu)性、混雜性和超大規(guī)模特性。異構(gòu)性表現(xiàn)在海節(jié)點(diǎn)可能由不同制造商、不同擁有者、不同類型以及不同范疇的對(duì)象網(wǎng)絡(luò)組成;混雜性意味著網(wǎng)絡(luò)形態(tài)、組成、場(chǎng)景、服務(wù)和應(yīng)用等多方面的混雜;超大規(guī)模表現(xiàn)在海節(jié)點(diǎn)在全球范圍內(nèi)與用戶端的深度融合。
上述特性要求海服務(wù)平臺(tái)在數(shù)據(jù)管理和任務(wù)支持中必須采用不同的新技術(shù)來(lái)處理不同格式的大數(shù)據(jù),并且設(shè)計(jì)新的系統(tǒng)架構(gòu)來(lái)支持現(xiàn)在的多樣化需求,既能滿足依賴較少數(shù)據(jù)和計(jì)算資源任務(wù)的實(shí)時(shí)響應(yīng)服務(wù)的需求,也能滿足依賴大量數(shù)據(jù)和計(jì)算資源但不要求實(shí)時(shí)響應(yīng)的服務(wù)的需求。文獻(xiàn)[16]提出了一種面向大數(shù)據(jù)管理的海云協(xié)同模型。
而本文中提出的在線視頻網(wǎng)站服務(wù)質(zhì)量測(cè)量和推薦系統(tǒng),既需要實(shí)時(shí)響應(yīng),向用戶提供推薦結(jié)果,又需要大規(guī)模計(jì)算,生成預(yù)測(cè)和推薦模型。用戶節(jié)點(diǎn)和各類測(cè)量節(jié)點(diǎn)表現(xiàn)出了明顯的異構(gòu)性和混雜性,利用海服務(wù)的相關(guān)特性可以很好地支持該系統(tǒng)構(gòu)建。
本節(jié)將介紹本文設(shè)計(jì)和實(shí)現(xiàn)的在線視頻網(wǎng)站服務(wù)質(zhì)量測(cè)量和推薦系統(tǒng),并著重對(duì)下文所分析的數(shù)據(jù)的主要來(lái)源,即負(fù)責(zé)測(cè)量和推薦部分的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行詳細(xì)的介紹。
一個(gè)在線視頻網(wǎng)站服務(wù)質(zhì)量測(cè)量和推薦系統(tǒng)已經(jīng)被設(shè)計(jì)和實(shí)現(xiàn),該系統(tǒng)是基于海服務(wù)的架構(gòu)進(jìn)行設(shè)計(jì)的。
在該系統(tǒng)中,中心節(jié)點(diǎn)作為傳統(tǒng)的數(shù)據(jù)中心,將數(shù)據(jù)匯總到“云”端,并且負(fù)責(zé)需要大規(guī)模運(yùn)算的預(yù)測(cè)和推薦模型訓(xùn)練任務(wù)。中心服務(wù)器擁有多個(gè)位于網(wǎng)絡(luò)邊緣的代理服務(wù)器,用戶在訪問(wèn)推薦服務(wù)時(shí)會(huì)被調(diào)度到網(wǎng)絡(luò)中距用戶最近的代理服務(wù)器,與代理服務(wù)器進(jìn)行直接交互。中心服務(wù)器訓(xùn)練的預(yù)測(cè)和推薦模型會(huì)被下發(fā)到代理服務(wù)器,代理服務(wù)器據(jù)此為用戶做出快速的推薦服務(wù)。
該系統(tǒng)中設(shè)置的測(cè)量節(jié)點(diǎn)分布于不同地區(qū)和運(yùn)營(yíng)商,可以根據(jù)測(cè)量節(jié)點(diǎn)和用戶的位置關(guān)系為用戶提供個(gè)性化的視頻網(wǎng)站推薦。此外,該系統(tǒng)會(huì)被動(dòng)收集用戶觀看時(shí)的服務(wù)質(zhì)量參數(shù),并將用戶端直接收集到的服務(wù)質(zhì)量參數(shù)也匯總加入模型訓(xùn)練;用戶端也可以主動(dòng)地對(duì)在線視頻服務(wù)網(wǎng)站進(jìn)行掃描,測(cè)量延遲等可以快速簡(jiǎn)易地測(cè)得服務(wù)質(zhì)量參數(shù)。由用戶端、測(cè)量節(jié)點(diǎn)和代理服務(wù)器共同構(gòu)成了該測(cè)量和推薦系統(tǒng)的“?!倍恕?/p>
基于海服務(wù)的架構(gòu),該系統(tǒng)可以繼承海服務(wù)平臺(tái)的數(shù)據(jù)管理和任務(wù)支持特性以支持多樣化的需求,既可以實(shí)時(shí)響應(yīng)向用戶提供推薦,也可以對(duì)歷史數(shù)據(jù)進(jìn)行大規(guī)模訓(xùn)練和學(xué)習(xí),不斷優(yōu)化推薦方式。測(cè)量節(jié)點(diǎn)之間可以完成彈性、自治的任務(wù)調(diào)度。例如,相似節(jié)點(diǎn)之間可以共享任務(wù),當(dāng)出現(xiàn)異常情況時(shí),測(cè)量節(jié)點(diǎn)間也可以互相通知。例如,當(dāng)A節(jié)點(diǎn)的任務(wù)過(guò)多無(wú)法完成時(shí),可以與A節(jié)點(diǎn)相似、任務(wù)較少的B節(jié)點(diǎn)協(xié)作,共同完成測(cè)量,減少測(cè)量時(shí)間;當(dāng)A節(jié)點(diǎn)測(cè)量到某視頻內(nèi)容x失效,即多次測(cè)量均無(wú)法獲得有效結(jié)果時(shí),可以通知與A節(jié)點(diǎn)不相似的C、D節(jié)點(diǎn)也對(duì)x進(jìn)行測(cè)量,驗(yàn)證其無(wú)效后上報(bào)云端處理。
基于海服務(wù)架構(gòu)的視頻服務(wù)測(cè)量系統(tǒng)功能結(jié)構(gòu)如圖1所示。
圖1 系統(tǒng)功能結(jié)構(gòu)
2.2.1 系統(tǒng)介紹
該測(cè)量和推薦系統(tǒng)主要分為3個(gè)部分:數(shù)據(jù)采集子系統(tǒng),網(wǎng)絡(luò)測(cè)量子系統(tǒng)和交互服務(wù)子系統(tǒng)。其中,數(shù)據(jù)采集子系統(tǒng)主要負(fù)責(zé)元數(shù)據(jù)的采集和匯聚,該子系統(tǒng)可以從各視頻網(wǎng)站上獲取視頻播放地址,以及視頻內(nèi)容名稱、視頻長(zhǎng)度、影片海報(bào)、在原視頻網(wǎng)站上的點(diǎn)擊量、評(píng)論量等元數(shù)據(jù),并根據(jù)視頻內(nèi)容進(jìn)行匯聚。數(shù)據(jù)服務(wù)包括管理中心和執(zhí)行節(jié)點(diǎn),管理中心負(fù)責(zé)發(fā)布采集任務(wù),由執(zhí)行節(jié)點(diǎn)采集、抽取數(shù)據(jù)后進(jìn)行清洗,然后向管理中心發(fā)布數(shù)據(jù)采集結(jié)果,由管理中心匯總數(shù)據(jù),并具體進(jìn)行處理,然后向交互服務(wù)子系統(tǒng)進(jìn)行發(fā)布,具體工作流程如圖2所示。
圖2 數(shù)據(jù)采集系統(tǒng)工作流程
網(wǎng)絡(luò)測(cè)量子系統(tǒng)負(fù)責(zé)對(duì)各視頻網(wǎng)站進(jìn)行測(cè)量,并對(duì)測(cè)量結(jié)果進(jìn)行數(shù)據(jù)分析,根據(jù)相關(guān)的分析和預(yù)測(cè)結(jié)果提供服務(wù)源推薦。該子系統(tǒng)可以從交互服務(wù)子系統(tǒng)獲取由數(shù)據(jù)采集系統(tǒng)發(fā)布的元數(shù)據(jù),然后對(duì)所采集到的視頻進(jìn)行測(cè)量,并且對(duì)測(cè)量結(jié)果進(jìn)行分析和建模。當(dāng)交互服務(wù)子系統(tǒng)請(qǐng)求視頻時(shí),該子系統(tǒng)可以根據(jù)測(cè)量結(jié)果對(duì)具體視頻提供服務(wù)源推薦結(jié)果。
交互服務(wù)子系統(tǒng)負(fù)責(zé)與終端交互和信息匯總,包括根據(jù)元數(shù)據(jù)和測(cè)量結(jié)果向終端用戶提供影片列表、根據(jù)服務(wù)源推薦結(jié)果對(duì)該影片的服務(wù)源進(jìn)行排序、從用戶選中的服務(wù)源獲取影片并最終向用戶提供播放服務(wù)。在向用戶提供服務(wù)的過(guò)程中,視頻點(diǎn)播、多屏互動(dòng)、內(nèi)容上線、下線、更新可播性狀態(tài)等功能都需要經(jīng)由交互服務(wù)完成。數(shù)據(jù)服務(wù)定期把新采集數(shù)據(jù)或更新數(shù)據(jù)發(fā)布給內(nèi)容管理,由內(nèi)容管理向測(cè)量服務(wù)通知測(cè)試任務(wù),測(cè)量服務(wù)測(cè)試后把測(cè)試結(jié)果通知給內(nèi)容服務(wù)。
2.2.2 網(wǎng)絡(luò)測(cè)量子系統(tǒng)
網(wǎng)絡(luò)測(cè)量子系統(tǒng)主要負(fù)責(zé)對(duì)各視頻網(wǎng)站的服務(wù)等級(jí)進(jìn)行測(cè)量,并根據(jù)測(cè)量結(jié)果向用戶進(jìn)行推薦,其工作流程如圖3所示。
圖3 網(wǎng)絡(luò)測(cè)量系統(tǒng)工作流程
測(cè)量服務(wù)包括管理中心、服務(wù)代理和測(cè)量節(jié)點(diǎn)。測(cè)量節(jié)點(diǎn)又分成2類,即可播性測(cè)量節(jié)點(diǎn)、播放質(zhì)量測(cè)量節(jié)點(diǎn)。
管理中心從測(cè)量服務(wù)代理接收2類測(cè)試任務(wù)。對(duì)于可播性測(cè)量任務(wù),管理中心及時(shí)向可播性測(cè)量節(jié)點(diǎn)派遣測(cè)試任務(wù),可播性測(cè)試節(jié)點(diǎn)測(cè)試完畢后,預(yù)處理測(cè)試結(jié)果并向管理中心發(fā)布測(cè)試結(jié)果,管理中心匯總測(cè)試結(jié)果,發(fā)布給測(cè)量代理,由測(cè)量代理通知給內(nèi)容管理系統(tǒng);對(duì)于播放質(zhì)量測(cè)量,管理中心及時(shí)向播放質(zhì)量測(cè)量節(jié)點(diǎn)分配測(cè)試任務(wù),測(cè)量節(jié)點(diǎn)優(yōu)先執(zhí)行該任務(wù),在測(cè)試完畢后,預(yù)處理測(cè)試結(jié)果并向管理中心發(fā)布,管理中心匯總測(cè)試結(jié)果,并進(jìn)行最終發(fā)布。
測(cè)量服務(wù)代理完成從內(nèi)容管理系統(tǒng)接收測(cè)試任務(wù)、測(cè)試結(jié)果反饋,并為交互門(mén)戶提供點(diǎn)播源服務(wù)排名,測(cè)量代理統(tǒng)計(jì)熱度,管理中心定期獲取熱度,作為質(zhì)量探測(cè)優(yōu)先級(jí)參考。
為便于管理,測(cè)量節(jié)點(diǎn)不持久化測(cè)試結(jié)果,由中心統(tǒng)一持久化,且分為臨時(shí)存儲(chǔ)和持久存儲(chǔ),即從各測(cè)量節(jié)點(diǎn)收集的測(cè)量結(jié)果存儲(chǔ)到臨時(shí)存儲(chǔ)中,分析后的結(jié)果將存儲(chǔ)在持久存儲(chǔ)中。
為了減少對(duì)IP分析系統(tǒng)的請(qǐng)求壓力,測(cè)量服務(wù)代理和管理中心會(huì)緩存IP地址信息及有效時(shí)間,當(dāng)在有效時(shí)間內(nèi),不再向IP分析系統(tǒng)發(fā)起請(qǐng)求。
無(wú)論是可播性還是播放質(zhì)量測(cè)量節(jié)點(diǎn),當(dāng)收到測(cè)量請(qǐng)求時(shí),會(huì)先向解析服務(wù)請(qǐng)求URL解析,對(duì)視頻播放URL進(jìn)行分析,根據(jù)視頻服務(wù)網(wǎng)站的CDN調(diào)度,獲取相應(yīng)的視頻不同清晰度的真實(shí)下載地址。在獲得視頻下載地址后,測(cè)量節(jié)點(diǎn)會(huì)對(duì)各清晰度的視頻依次嘗試請(qǐng)求并進(jìn)行一段下載,記測(cè)量節(jié)點(diǎn)向視頻下載地址發(fā)出請(qǐng)求后,到獲得響應(yīng)的時(shí)間為視頻的請(qǐng)求延遲;記測(cè)量節(jié)點(diǎn)在進(jìn)行下載時(shí)的下載速率為視頻的下載速率,并將記錄的測(cè)量結(jié)果匯總到測(cè)量管理中心。
該系統(tǒng)設(shè)計(jì)的難點(diǎn)在于,為了做出最優(yōu)的推薦,系統(tǒng)需要收集來(lái)自多種終端和方式的測(cè)量結(jié)果。所收集的對(duì)象既有特意部署的測(cè)量節(jié)點(diǎn)進(jìn)行的規(guī)律性測(cè)量結(jié)果,也有智能網(wǎng)關(guān)收集到的被動(dòng)測(cè)量結(jié)果,還有用戶終端的觀看日志等。要對(duì)大量不同的結(jié)果進(jìn)行收集存儲(chǔ),并綜合處理用于預(yù)測(cè)和推薦。這些數(shù)據(jù)還要用于多種不同的服務(wù),既要用于快速地向用戶提供實(shí)時(shí)推薦結(jié)果,也要用于模型的訓(xùn)練和優(yōu)化,甚至進(jìn)一步用于深度挖掘。
要對(duì)這些大數(shù)據(jù)進(jìn)行不同級(jí)別的收集和處理,需要采用新的數(shù)據(jù)處理技術(shù)。本文研究中利用海服務(wù)的思想構(gòu)建該系統(tǒng),將多種測(cè)量終端統(tǒng)一作為“海端”,據(jù)此對(duì)這些數(shù)據(jù)進(jìn)行收集和管理。海服務(wù)平臺(tái)的特性使得該系統(tǒng)可以很好地支持多種服務(wù)場(chǎng)景。
本節(jié)將對(duì)已經(jīng)測(cè)量到的數(shù)據(jù)集進(jìn)行一個(gè)概括性的描述。首先介紹測(cè)量節(jié)點(diǎn)的部署與測(cè)量數(shù)據(jù)的結(jié)構(gòu);然后介紹測(cè)量數(shù)據(jù)的整體特征;最后對(duì)已集中測(cè)量的部分?jǐn)?shù)據(jù)形成的數(shù)據(jù)集進(jìn)一步分析測(cè)量數(shù)據(jù)的一些特點(diǎn)。
上述系統(tǒng)被部署在1個(gè)管理中心和50個(gè)測(cè)量節(jié)點(diǎn)上,并對(duì)15家視頻網(wǎng)站進(jìn)行了9個(gè)月的測(cè)量,獲得約150 GB的測(cè)量結(jié)果數(shù)據(jù)。
從上述所有的測(cè)量結(jié)果中,選擇了在12個(gè)節(jié)點(diǎn)上,對(duì)6個(gè)主要視頻網(wǎng)站的336個(gè)視頻節(jié)目測(cè)量的一個(gè)月的數(shù)據(jù)(測(cè)量時(shí)間為2015-08-01—2015-08-31),共計(jì)4 622 359條測(cè)量結(jié)果,形成下一步研究中所用的數(shù)據(jù)集。
元數(shù)據(jù)信息由爬蟲(chóng)子系統(tǒng)收集整理,已收集的元數(shù)據(jù)信息如表1所示。
表1 抓取到的視頻元數(shù)據(jù)信息
已部署的測(cè)量節(jié)點(diǎn)在測(cè)量過(guò)程中收集到的數(shù)據(jù)如表2所示。根據(jù)這些測(cè)量數(shù)據(jù)本文進(jìn)行了初步的分析和統(tǒng)計(jì)。
表2 測(cè)量到的數(shù)據(jù)項(xiàng)
在表2中,視頻的播放地址由內(nèi)容管理子系統(tǒng)傳入,即在線視頻服務(wù)網(wǎng)頁(yè)播放時(shí)的URL;測(cè)量時(shí)間為測(cè)量該條測(cè)量結(jié)果的時(shí)間,用Unix時(shí)間戳表示,精確到秒;延遲為訪問(wèn)視頻到視頻開(kāi)始播放之間的時(shí)間差;帶寬計(jì)算方法為:先下載一小段視頻(本文測(cè)量時(shí)設(shè)置為50 KB)并記錄下載時(shí)間,然后利用下載時(shí)間計(jì)算下載速率;清晰度為測(cè)量該條測(cè)量結(jié)果時(shí)所測(cè)量的清晰度,數(shù)據(jù)集中清晰度有4個(gè)取值(1-超清,2-高清,3-標(biāo)清,4-流暢)。
本節(jié)將對(duì)所使用的數(shù)據(jù)集的整體統(tǒng)計(jì)信息進(jìn)行討論,包括測(cè)量結(jié)果的分布以及不同地區(qū)、網(wǎng)站、ISP測(cè)量結(jié)果分布的異同。
3.2.1 不同地區(qū)的測(cè)量結(jié)果
本節(jié)按照測(cè)量節(jié)點(diǎn)所處的地區(qū)不同對(duì)測(cè)量結(jié)果進(jìn)行了分類統(tǒng)計(jì)。不同地區(qū)的測(cè)量節(jié)點(diǎn)測(cè)量到的測(cè)量結(jié)果概況如表3和圖4、圖5所示。
表3 不同地區(qū)的測(cè)量結(jié)果
圖4 不同地區(qū)的延遲概率密度分布
圖5 不同地區(qū)的帶寬概率密度分布
表3是不同地區(qū)的測(cè)量結(jié)果概況,在所整理的數(shù)據(jù)集中,包含位于8個(gè)不同城市的測(cè)量節(jié)點(diǎn),對(duì)于每個(gè)地區(qū)至少收集了30萬(wàn)條有效測(cè)量結(jié)果。其中,沈陽(yáng)的測(cè)量節(jié)點(diǎn)的平均延遲最小,鄭州的測(cè)量節(jié)點(diǎn)的平均延遲最大,所有節(jié)點(diǎn)的平均延遲均在0.1 s數(shù)量級(jí)。
在測(cè)量結(jié)果中,西安的平均下載速率最大,北京的平均下載速率最小,成都次之,且和北京的平均下載速率非常接近。所有地區(qū)的平均下載速率數(shù)量級(jí)均在103KB/s。
圖4是不同地區(qū)的延遲測(cè)量結(jié)果的概率密度分布(PDF)情況,從圖4中可以看出,大多數(shù)地區(qū)的延遲測(cè)量結(jié)果的概率密度呈單峰分布,如沈陽(yáng)、深圳、杭州、大連、北京、成都,其中,沈陽(yáng)、深圳、杭州、大連、北京的延遲集中在<0.1 s,成都的延遲則主要集中在0.1 s,沈陽(yáng)的延遲測(cè)量結(jié)果最為集中,而北京的延遲測(cè)量結(jié)果則最為分散。鄭州和西安的測(cè)量結(jié)果的概率密度則呈現(xiàn)雙峰分布,鄭州的延遲測(cè)量結(jié)果主要集中在<0.1 s,即概率密度函數(shù)的最高峰,在0.6 s處有一個(gè)明顯的次高峰,也就是說(shuō)也測(cè)到了大量0.6 s附近的延遲。西安的測(cè)量結(jié)果主要集中在0.1 s,次高峰位于0.5 s。
圖5是不同地區(qū)的下載速率測(cè)量結(jié)果的概率密度分布(PDF)情況。從測(cè)量結(jié)果來(lái)看,大多數(shù)地區(qū)的下載速率都呈現(xiàn)明顯的多峰分布。其中下載速率測(cè)量結(jié)果最為集中的是深圳地區(qū),下載速率集中在1 200 KB/s附近呈單峰分布,下載速率分布最為分散的則是杭州地區(qū)的測(cè)量結(jié)果,其峰值集中在1 500 KB/s,且在圖中可以明顯看到4個(gè)集中程度較低的峰值。
由圖5可知,不同地區(qū)的測(cè)量結(jié)果在統(tǒng)計(jì)特征和概率密度分布上都有明顯的差異,在后續(xù)的測(cè)量和預(yù)測(cè)中有必要考慮地區(qū)差異。由于不同地區(qū)的網(wǎng)絡(luò)鏈路不同,考慮網(wǎng)站分發(fā)策略和用戶網(wǎng)絡(luò)環(huán)境,使得不同地區(qū)的測(cè)量結(jié)果差異極大。
3.2.2 不同網(wǎng)站的測(cè)量結(jié)果
本節(jié)按照測(cè)量的視頻來(lái)自的在線視頻服務(wù)網(wǎng)站不同對(duì)測(cè)量結(jié)果進(jìn)行了分類統(tǒng)計(jì)。不同網(wǎng)站的測(cè)量節(jié)點(diǎn)測(cè)量到的測(cè)量結(jié)果如表4和圖6、圖7所示。
表4 不同網(wǎng)站的測(cè)量結(jié)果
圖6 不同網(wǎng)站的延遲概率密度分布
圖7 不同網(wǎng)站的帶寬概率密度分布
表4是不同網(wǎng)站的測(cè)量結(jié)果,在所整理的數(shù)據(jù)集中,包含位于6個(gè)不同在線視頻服務(wù)網(wǎng)站的測(cè)量節(jié)點(diǎn),對(duì)于每個(gè)網(wǎng)站至少收集了18萬(wàn)條有效測(cè)量結(jié)果。其中,愛(ài)奇藝的平均延遲最小,華數(shù)網(wǎng)的平均延遲最大,除華數(shù)網(wǎng)外,所有網(wǎng)站的平均延遲均在0.1 s數(shù)量級(jí),華數(shù)網(wǎng)的平均延遲則在1 s數(shù)量級(jí)。
在測(cè)量結(jié)果中,樂(lè)視網(wǎng)的平均下載速率最大,土豆網(wǎng)的平均下載速率最小,優(yōu)酷網(wǎng)的平均下載速率僅略高于土豆網(wǎng)。所有視頻網(wǎng)站的平均下載速率數(shù)量級(jí)均在103KB/s。
圖6是不同在線視頻服務(wù)網(wǎng)站的延遲測(cè)量結(jié)果的概率密度分布(PDF)情況,從圖6中可以看出,除愛(ài)奇藝外,各網(wǎng)站的延遲測(cè)量結(jié)果的概率密度均呈單峰分布,其中,華數(shù)網(wǎng)的延遲測(cè)量結(jié)果集中在0.2 s附近,優(yōu)酷、土豆、搜狐、樂(lè)視的延遲測(cè)量結(jié)果均集中在<0.1 s,優(yōu)酷和土豆的延遲測(cè)量結(jié)果最為集中,搜狐略次之,而華數(shù)的延遲測(cè)量結(jié)果則最為分散。愛(ài)奇藝的延遲測(cè)量結(jié)果的概率密度呈現(xiàn)雙峰分布,延遲測(cè)量結(jié)果主要集中在<0.1 s,即概率密度函數(shù)的最高峰,次高峰位于0.7 s。
圖7是不同在線視頻服務(wù)網(wǎng)站的下載速率測(cè)量結(jié)果的概率密度分布(PDF)情況。從圖7中可以看出,所有網(wǎng)站的下載速率都呈現(xiàn)明顯的多峰分布,而且各網(wǎng)站PDF的3個(gè)最高峰都位于300 KB/s、700 KB/s和1 100 KB/s附近,但該3個(gè)峰值的排序不同。其中下載速率測(cè)量結(jié)果最為集中的是愛(ài)奇藝網(wǎng)站,下載速率PDF最高峰集中在300 KB/s附近,下載速率分布最為分散的則是樂(lè)視網(wǎng)的下載速率測(cè)量結(jié)果,其PDF最高峰集中在1 200 KB/s,且在圖7中可以明顯看到至少5個(gè)集中程度較低的峰值。
不同網(wǎng)站的測(cè)量結(jié)果統(tǒng)計(jì)信息也有明顯的差異,但是程度不及不同地區(qū)的測(cè)量結(jié)果差異高。其原因是不同網(wǎng)站的測(cè)量差別僅來(lái)源于網(wǎng)站的分發(fā),測(cè)量端的網(wǎng)絡(luò)環(huán)境相似。特別當(dāng)性能瓶頸處于測(cè)量端時(shí),不同網(wǎng)站的測(cè)量結(jié)果分布十分相似。
3.2.3 不同ISP的測(cè)量結(jié)果
本節(jié)按照測(cè)量節(jié)點(diǎn)所在的服務(wù)提供商(ISP)不同對(duì)測(cè)量結(jié)果進(jìn)行了分類統(tǒng)計(jì)。不同網(wǎng)站的測(cè)量節(jié)點(diǎn)測(cè)量到的測(cè)量結(jié)果如表5和圖8、圖9所示。
表5 不同ISP的測(cè)量結(jié)果
圖8 不同ISP的延遲概率密度分布
圖9 不同ISP的帶寬概率密度分布
表5是不同網(wǎng)絡(luò)服務(wù)提供商(ISP)的測(cè)量結(jié)果概況,在所整理的數(shù)據(jù)集中,包含位于4個(gè)不同網(wǎng)絡(luò)提供商網(wǎng)絡(luò)的測(cè)量節(jié)點(diǎn),對(duì)于每個(gè)網(wǎng)絡(luò)提供商至少收集了36萬(wàn)條有效測(cè)量結(jié)果。其中,電信網(wǎng)絡(luò)中的測(cè)量節(jié)點(diǎn)的平均延遲最小,移動(dòng)網(wǎng)絡(luò)中的測(cè)量節(jié)點(diǎn)的平均延遲最大,所有ISP的平均延遲均在0.1 s數(shù)量級(jí)。
在測(cè)量結(jié)果中,聯(lián)通網(wǎng)絡(luò)中的平均下載速率最大,電信次之,光環(huán)新網(wǎng)中的平均下載速率最小,移動(dòng)次之。所有ISP的平均下載速率數(shù)量級(jí)均在103KB/s。
圖8是不同網(wǎng)絡(luò)服務(wù)提供商的延遲測(cè)量結(jié)果的概率密度分布(PDF)情況,從圖8中可以看出,各ISP的延遲測(cè)量結(jié)果的概率密度均呈單峰分布,其中,移動(dòng)的延遲測(cè)量結(jié)果集中在0.2 s附近,聯(lián)通、電信和光環(huán)新網(wǎng)的延遲測(cè)量結(jié)果均集中在<0.1 s,電信的延遲測(cè)量結(jié)果最為集中,移動(dòng)的延遲測(cè)量結(jié)果則最為分散。
圖9是不同網(wǎng)絡(luò)服務(wù)提供商的下載速率測(cè)量結(jié)果的概率密度分布(PDF)情況。從圖9中可以看出,除移動(dòng)外,各ISP的下載速率測(cè)量結(jié)果都呈現(xiàn)明顯的多峰分布。其中下載速率測(cè)量結(jié)果最為集中的是移動(dòng),下載速率PDF最高峰集中在200 KB/s附近呈單峰分布,其余3個(gè)ISP的下載速率分布均較為分散,包含至少4個(gè)明顯的峰值,且相互之間差異較大。
由上述結(jié)果可知,不同ISP的統(tǒng)計(jì)信息看起來(lái)差別不大,但概率密度分布有明顯區(qū)別,各ISP測(cè)量結(jié)果聚集的位置各不相同。在后續(xù)測(cè)量和預(yù)測(cè)中同樣需要考慮其差異性。
可以看出在已有的測(cè)量結(jié)果中,各運(yùn)營(yíng)商、視頻網(wǎng)站、不同地區(qū)的測(cè)量結(jié)果均有明顯的差異。延遲的測(cè)量結(jié)果相對(duì)比較集中,相較而言,各分類下載速率的測(cè)量結(jié)果都有明顯的區(qū)分,而下載速率恰恰對(duì)用戶的觀看體驗(yàn)有較大的影響。上述測(cè)量結(jié)果說(shuō)明,對(duì)測(cè)量數(shù)據(jù)進(jìn)行分析并向用戶推薦是十分有必要的。后續(xù)研究中將進(jìn)一步對(duì)這些性能差異進(jìn)行分析,為向用戶推薦服務(wù)源提供更多的理論依據(jù)。最終將根據(jù)數(shù)據(jù)分析的結(jié)果優(yōu)化推薦系統(tǒng)。
本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)在線視頻網(wǎng)站服務(wù)質(zhì)量測(cè)量和推薦系統(tǒng)。該系統(tǒng)可以實(shí)現(xiàn)對(duì)多個(gè)在線視頻服務(wù)網(wǎng)站的網(wǎng)絡(luò)性能測(cè)量,在利用爬蟲(chóng)獲取在線視頻服務(wù)視頻內(nèi)容列表的基礎(chǔ)上,對(duì)列表中的視頻內(nèi)容的網(wǎng)絡(luò)性能進(jìn)行測(cè)量。根據(jù)測(cè)量和數(shù)據(jù)分析的結(jié)果,針對(duì)用戶需要觀看的具體視頻內(nèi)容,可以向用戶提供服務(wù)源推薦,使用戶可以利用該系統(tǒng)獲得當(dāng)前網(wǎng)絡(luò)狀況下,對(duì)該視頻內(nèi)容最佳的觀看體驗(yàn)。使用已經(jīng)實(shí)現(xiàn)的測(cè)量和推薦系統(tǒng),利用多個(gè)測(cè)量節(jié)點(diǎn)對(duì)部分在線視頻服務(wù)網(wǎng)站進(jìn)行了測(cè)量,驗(yàn)證了該系統(tǒng)可以實(shí)現(xiàn)相關(guān)測(cè)量和推薦功能,并收集了大量的測(cè)量結(jié)果。下一步將對(duì)同一個(gè)視頻網(wǎng)站的不同視頻之間的性能差異進(jìn)行分析,同時(shí)研究視頻的網(wǎng)絡(luò)性能變化規(guī)律。
[1] 艾瑞咨詢.2015年中國(guó)在線視頻行業(yè)年報(bào)監(jiān)測(cè)報(bào)告[Z].2015.
[2] 王勁林,田 靜,尤佳莉,等.一種現(xiàn)場(chǎng)、彈性、自治的網(wǎng)絡(luò)服務(wù)系統(tǒng)——海服務(wù)系統(tǒng)研究與設(shè)計(jì)[J].中國(guó)科學(xué):信息科學(xué),2015,45(10):1237-1248.
[3] CASAS P,D’ALCONZ O,FIADINO P,et al.On the analysis of QoE-based performance degradation in YouTube traffic[C]//Proceedings of International Conference on Network and Service Management.Washington D.C.,USA:IEEE Press,2014:1-9.
[4] DOBRIAN F,SEKAR V,AWAN A,et al.Understanding the impact of video quality on user engagement[J].Communications of the ACM,2013,41(4):362-373.
[5] MOK R K P,CHAN E W W,CHANG R K C.Measuring the quality of experience of HTTP video streaming[C]//Proceedings of IEEE International Sympo-sium on Integrated Network Management.Dublin,Ireland:IEEE Press,2011:485-492.
[6] ZHOU C,GUO Y,CHEN Y,et al.Characterizing user watching behavior and video quality in mobile devices[C]//Proceedings of IEEE International Conference on Computer Communication and Networks.Washington D.C.,USA:IEEE Press,2014:125-134.
[7] MOHAMED S,RUBINO G.A study of real-time packet video quality using random neural networks[J].IEEE Transactions on Circuits & Systems for Video Technology,2002,12(12):1071-1083.
[8] 周應(yīng)超,苗彥超,郝 敏,等.視頻服務(wù)器性能測(cè)試研究[J].計(jì)算機(jī)工程,2004,30(14):133-135.
[9] 宋 玲,胡凡良.純軟件視頻會(huì)議系統(tǒng)視音頻QoS的研究與控制[J].計(jì)算機(jī)工程,2006,32(16):221-223.
[10] BALACHANDRAN A,SEKAR V,AKELLA A,et al.Developing a predictive model of quality of experience for internet video[J].ACM SIGCOMM Computer Communication Review,2013,43(4):339-350.
[11] LIEBHARDT H,STOLZ K,MORTL K,et al.Dissecting video server selection strategies in the YouTube CDN[C]//Proceedings of International Conference on Distributed Computing Systems.Washington D.C.,USA:IEEE Computer Society,2011:248-257.
[12] ADHIKARI V K,GUO Y,HAO F,et al.Unreeling netflix:understanding and improving multi-CDN movie delivery[C]//Proceedings of IEEE INFOCOM’12.Washington D.C.,USA:IEEE Press,2012:1620-1628.
[13] ADHIKARI V K,YANG G,FANG H,et al.A Tale of three CDNs:an active measurement study of hulu and its CDNs[C]//Proceedings of Computer Communica-tions Workshops.Washington D.C.,USA:IEEE Press,2012:7-12.
[14] ADHIKARI V K,GUO Y,HAO F,et al.Measurement study of Netflix,Hulu,and a tale of three CDNs[J].IEEE/ACM Transactions on Networking,2015,23(6):1984-1997.
[15] 封松林,寧德軍,張紅廣,等.面向海云協(xié)同的共性服務(wù)綜述[J].網(wǎng)絡(luò)新媒體技術(shù),2014,3(1):1-7.
[16] 趙永波,陳曙東,管江華,等.基于海云協(xié)同的物聯(lián)網(wǎng)大數(shù)據(jù)管理[J].集成技術(shù),2014(3):49-60.