王慧斌,張美慶
?
CDN在社交網(wǎng)絡(luò)時(shí)代中的變革
王慧斌1,張美慶2
(1.邢臺學(xué)院 數(shù)學(xué)與信息技術(shù)學(xué)院,河北邢臺 054001;2.清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100084)
冪律表明在線社交網(wǎng)絡(luò)受歡迎的一小部分內(nèi)容占用了互聯(lián)網(wǎng)的大多數(shù)流量?;诖朔N原因,內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)大大優(yōu)化了用戶的等待時(shí)間,改善了帶寬成本,使原始服務(wù)器的緩存內(nèi)容更接近最終用戶。近年來,OSN的出現(xiàn)使這種情況發(fā)生了顯著的變化。OSN的自由精神促使用戶通過網(wǎng)絡(luò)或共享媒體去傳播信息,熱門的內(nèi)容和剩下的內(nèi)容之間的流量差距就變得越來越小。同時(shí),人們研究驗(yàn)證了OSN更多的基本性質(zhì)。例如,內(nèi)容的時(shí)空流行性,它提供了廣闊的空間使CDN能夠改善自己的表現(xiàn),即更好的緩存、更強(qiáng)的預(yù)抓取性能以及更智能化的實(shí)施內(nèi)容交付。另外,對涉及安全性和私密性的內(nèi)容也進(jìn)行了討論,試圖從多方面呈現(xiàn)CDN在社交網(wǎng)絡(luò)時(shí)代的變革趨勢。
內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN);社交網(wǎng)絡(luò);在線社交網(wǎng)絡(luò)(OSN)
內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)長期以來被認(rèn)為是提高用戶體驗(yàn)和服務(wù)質(zhì)量(QoS)的強(qiáng)大手段,比原始服務(wù)器緩存內(nèi)容更接近最終用戶。通過這種方式,CDN大大優(yōu)化了用戶的等待時(shí)間,改善了帶寬成本。CDN強(qiáng)大性能的基礎(chǔ)是一小部分受歡迎的內(nèi)容占據(jù)了大部分的互聯(lián)網(wǎng)流量。近年來,蓬勃發(fā)展的在線社交網(wǎng)絡(luò)(OSN)在不同年齡段的人群中變得越來越流行,給網(wǎng)絡(luò)帶來了重大的改變。世界上大量大規(guī)模的在線社交網(wǎng)絡(luò)諸如Facebook、Twitter和新浪微博在不斷的更新信息,成為了增加互聯(lián)網(wǎng)流量的主要貢獻(xiàn)者[1]。OSN的自由精神促進(jìn)用戶通過網(wǎng)絡(luò)或共享媒體傳播,這使得熱門內(nèi)容和剩下的內(nèi)容之間的流量差距變得更小,其中內(nèi)容共享的用戶已經(jīng)占據(jù)了越來越多的互聯(lián)網(wǎng)流量[2]。因此,考慮如何利用OSN的內(nèi)容擴(kuò)散方法去優(yōu)化CDN的內(nèi)容緩存和分發(fā)策略,是非常必要而且有益的。這樣做會出現(xiàn)更多的智能CDN,使用戶得到更好的體驗(yàn),平衡更多的互聯(lián)網(wǎng)流量。在本文中,我們將首先概述CDN當(dāng)前遇到的挑戰(zhàn)和如何利用OSN的性質(zhì)去應(yīng)對這些挑戰(zhàn)。其次,我們將仔細(xì)地討論OSN的內(nèi)容擴(kuò)散的證明模式?;谶@些模式,對一些改善CDN的現(xiàn)行方法進(jìn)行介紹。接下來,將敘述其他的可能方面和未來的工作。最后,分析和挖掘OSN的內(nèi)容,幫助CDN更好的了解和預(yù)測網(wǎng)絡(luò)流量,使得內(nèi)容傳遞更加智能和高效。
自從幾十年前第一次創(chuàng)建內(nèi)容分發(fā)網(wǎng)絡(luò)以來,CDN扮演著越來越重要的角色,它通過將用戶重定向到合適的代理服務(wù)器來提供更好的內(nèi)容緩沖性能、網(wǎng)絡(luò)流量平衡和內(nèi)容交付加速度[3]。在大數(shù)據(jù)的今天,越來越多的內(nèi)容需要及時(shí)交付給眾多的終端用戶。但是,用戶的數(shù)量和數(shù)據(jù)的規(guī)模呈幾何倍數(shù)增長,良好的服務(wù)質(zhì)量和用戶體驗(yàn)會受到更多的關(guān)注。因此,CDN通過許多商業(yè)公司改善他們的服務(wù)并變得愈加繁榮。在用戶為中心的時(shí)代,CDN的提供商在市場上將會有更多的機(jī)會。但是,這些新興CDN也面臨一些嚴(yán)峻的挑戰(zhàn)。如圖1所示, CDN傳統(tǒng)的工作機(jī)制是基于觀察的一小部分受歡迎的內(nèi)容來占據(jù)大多數(shù)的互聯(lián)網(wǎng)流量,這是著名的冪律。CDN可以在多個(gè)服務(wù)器分發(fā)熱門內(nèi)容并緩存很長一段時(shí)間。當(dāng)用戶請求內(nèi)容時(shí),他們會被重定向到最近的CDN節(jié)點(diǎn)服務(wù)器,以有效地得到想要的內(nèi)容,這就是傳統(tǒng)的緩存,類似于操作系統(tǒng)等其他緩存設(shè)備,它通常不是智能的。近年來,新興的OSN使小部分內(nèi)容占據(jù)了越來越多的網(wǎng)絡(luò)流量。這使得本來基于CDN可以很好工作的論調(diào)受到了挑戰(zhàn)。更重要的是,在線社交網(wǎng)絡(luò)中盡管大多數(shù)的用戶貢獻(xiàn)較小的互聯(lián)網(wǎng)流量,但是OSN公司依然需要為他們提供很好的服務(wù),這就是用戶對應(yīng)的長尾理論。如果內(nèi)容是冷門的,即只有一小部分用戶關(guān)心,那么就會出現(xiàn)無法有效率訪問的現(xiàn)象。這種現(xiàn)象將破壞用戶體驗(yàn),而OSN也會逐漸失去其用戶。反過來,CDN提供商也會失去客戶。
圖1 OSN改變內(nèi)容分布示意圖
從以上討論中我們不難看出,在社交網(wǎng)絡(luò)和大數(shù)據(jù)的時(shí)代情況已經(jīng)大大改變。我們必須優(yōu)化傳統(tǒng)的CDN工作機(jī)制,以適應(yīng)新的網(wǎng)絡(luò)環(huán)境。在這種情況下,給CDN[4]提供了很大的機(jī)會和挑戰(zhàn)空間。為了完成這些挑戰(zhàn),更智能的基于流量(內(nèi)容)的政策或機(jī)制會應(yīng)運(yùn)而生。
社交網(wǎng)絡(luò)數(shù)據(jù)挖掘領(lǐng)域的最新研究已經(jīng)證明,社交網(wǎng)絡(luò)的內(nèi)容分布遵循一定的模式,這些模式可以用于CDN,以改善其緩存和分配策略。在本節(jié)中,我們將主要介紹在線社交網(wǎng)絡(luò)兩類數(shù)據(jù)的屬性,即內(nèi)容的空間流行性和時(shí)間流行性。OSN上大多數(shù)用戶的朋友地理上彼此接近,很多內(nèi)容是在本地和短暫地?cái)U(kuò)散[5]。OSN的這種屬性可以給CDN許多有用的建議。例如, 在本地提供內(nèi)容的同時(shí),可以全球性地跟蹤內(nèi)容[6],并利用距離信息改善內(nèi)容分發(fā)和處理[7-8]。
2.1 內(nèi)容的空間流行性
盡管在線社交網(wǎng)絡(luò)使得信息指數(shù)傳播成為可能。但是最近研究表明,大多數(shù)在線社交網(wǎng)絡(luò)傳播內(nèi)容的流行受到空間限制[9]。OSN上的地理信息可以對CDN的緩存和分配政策造成非常大的影響[10-11]。
對“騰訊微博”的跟蹤[12]揭示了社會視頻的傳播特性。圖2展示了在五類視頻中傳播深度與每個(gè)樣本所代表的傳播樹數(shù)量之間的關(guān)系??梢杂^察到,大多數(shù)的傳播樹深度不超過10個(gè),平均傳播長度小于2個(gè)鏈接。這個(gè)觀察可以推斷,社會拓?fù)湓诰€內(nèi)容是受空間限制的,它可以幫助設(shè)計(jì)新的預(yù)取和緩存策略。
圖2 傳播樹和傳播深度數(shù)量的比較[13]
如圖3中所示,可以看出有一個(gè)關(guān)聯(lián)性的數(shù)量涉及了傳播的區(qū)域與大小,可以預(yù)測有多少實(shí)際的區(qū)域?qū)⑴c一個(gè)視頻的傳播過程。因此,利用傳播的大小及其動力學(xué),我們有能力預(yù)測CDN所需要副本的正確數(shù)量。
圖3 傳播范圍與傳播大小的對比[13]
2.2 內(nèi)容的時(shí)間流行性
在社交網(wǎng)絡(luò)上,內(nèi)容分布除了空間的流行性,也可以根據(jù)其時(shí)間流行的模式進(jìn)行分類。有些話題從時(shí)間的頻率是可以明顯區(qū)別于其他。內(nèi)容的預(yù)期壽命實(shí)際上是CDN最重要的基礎(chǔ),其決定了應(yīng)當(dāng)緩存哪些內(nèi)容以及緩存多長時(shí)間。因此,在線社交網(wǎng)絡(luò)采用臨時(shí)流行模式來實(shí)施更合理和智能的緩存策略,顯然這對CDN是有利的。在本節(jié)中,我們將介紹時(shí)間流行模式的三個(gè)類別以及每個(gè)類別對應(yīng)的CDN緩存策略的一些應(yīng)用。
2.2.1 周期性和非周期性
在線社交網(wǎng)絡(luò)主題中,最重要的時(shí)間流行模式之一是周期性或非周期性的。定期主題可能受到歡迎,經(jīng)常在特定的時(shí)間間隔反復(fù)。典型的例子是人為策劃的一些著名事件。例如,關(guān)于每年中央電視臺舉辦春節(jié)聯(lián)歡晚會、我國假期安排等主題,這些主題會定期成為流行事件。值得一提的是,一些周期性的主題只在特定的地理區(qū)域內(nèi)呈現(xiàn)周期性。例如,推特上的“followfriday”,如圖4(a)所示,在全球范圍內(nèi)每周末重復(fù)而且并不局限于一個(gè)特定的地理范圍,而圖4(b)中的主題與主題對應(yīng)的“獨(dú)立日”隨著時(shí)間的推移重復(fù),但只局限于兩個(gè)不同地域(美國和印度)。對于CDN緩存策略,一旦話題已經(jīng)被確認(rèn)具有周期性,內(nèi)容布局策略可以在適當(dāng)?shù)臅r(shí)候做出相應(yīng)的反應(yīng)和復(fù)制。
圖4 周期性的主題
2.2.2 短暫性和穩(wěn)定性
根據(jù)存在的時(shí)間可以將主題分為短暫的或穩(wěn)定的。短暫的話題只在幾個(gè)短時(shí)間間隔內(nèi)很受歡迎,可能僅僅延續(xù)幾天的峰值。相比之下,穩(wěn)定的主題在幾周和幾個(gè)月依然受到歡迎。比如,一個(gè)短暫的主題事件的例子是“比爾·克林頓去朝鮮尋求釋放美國記者”,這個(gè)主題只流行了幾天;而穩(wěn)定主題的例子是“伊朗選舉”,其流行時(shí)間超過了2個(gè)月。通過這些對比可以幫助決策者制定更優(yōu)化的緩存策略。例如,內(nèi)容布局策略可以通過主題的穩(wěn)定性來決定哪些內(nèi)容在緩存中保留和哪些內(nèi)容需要刪除。
圖5 短暫的與穩(wěn)定的主題
2.2.3 慢增長/衰變與急劇增長/衰變
在OSN中,一些主題是逐漸獲得普及的,而有的迅速得到普及。緩慢的典型例子包括那些是眾所周知的及其日期也是可以預(yù)測的事件。比如,關(guān)于“2012世界末日”的主題接近2012年12月21日時(shí)可能會逐漸成為流行的。相比之下,一些主題在一個(gè)晚上可能就會得到矚目。許多用戶使用的網(wǎng)絡(luò)詞匯和各種風(fēng)格在短時(shí)間內(nèi)可能會變得非常流行,我們見證了許多社交網(wǎng)絡(luò)時(shí)代急劇增長的主題。同樣,主題的衰退模式也可以歸類為緩慢或急劇變化,增長與衰落的模式是相似的。主題的增長率和事件的日期(如果已知),可以協(xié)助決定內(nèi)容的放置策略,可以預(yù)測對內(nèi)容有最大需求的時(shí)間,從而在復(fù)制內(nèi)容時(shí)進(jìn)行成本效益的評估。
圖6 慢增長/衰退與急劇增長/衰退話題的比較
除了上述利用CDN優(yōu)化OSN的方法之外,最近研究表明,還可以通過其他方式實(shí)現(xiàn)對CDN的改進(jìn)。
3.1 P2P和CDN的結(jié)合
盡管在大多數(shù)情況下CDN的性能令人滿意,但它有一個(gè)缺點(diǎn)是價(jià)格昂貴。CDN提供商必須在世界各地不同的位置部署許多服務(wù)器,并配備寬帶上網(wǎng)業(yè)務(wù),還需要進(jìn)行大量的、必需的日常維護(hù),這些都增加了CDN的基礎(chǔ)設(shè)施成本。Facebook本來是通過支付第三方CDN來加速其內(nèi)容的提供,然而隨著這些年其規(guī)模變得越來越大,費(fèi)用支出也相應(yīng)增加。因此,F(xiàn)acebook正在創(chuàng)建自己的優(yōu)勢網(wǎng)絡(luò),在某種程度上來代替一些CDN服務(wù)。至于谷歌,它有自己的CDN來加速其YouTube視頻服務(wù)。CDN最初是在為擁有大規(guī)模用戶的公司提供加速服務(wù)。但是一旦這些公司的用戶規(guī)模達(dá)到了某種程度,以至于費(fèi)用高到他們負(fù)擔(dān)不起,那么他們就會尋找更便宜的解決方案。比如創(chuàng)建自己的CDN或者一些類似CDN的產(chǎn)品(例如Facebook的網(wǎng)絡(luò))。從供需來講,這似乎是一對矛盾,但這確實(shí)是這些大公司正在做的事情。
一些研究者提出,可以將P2P集成到當(dāng)前的CDN架構(gòu)中以降低成本[14-16],從而緩解高費(fèi)用的問題。P2P以低成本著稱,不需要昂貴的服務(wù)器。然而,P2P并不穩(wěn)定,連接有時(shí)可能會被不合時(shí)宜的打破,而CDN在大多數(shù)情況下是非常穩(wěn)定的。因此,P2P和CDN的結(jié)合有時(shí)可以達(dá)到較好的結(jié)果。當(dāng)前主要有兩個(gè)方面可以將P2P集成到CDN的架構(gòu)中。首先是在服務(wù)器端,CDN可以在服務(wù)器節(jié)點(diǎn)之間使用P2P,因?yàn)檫@些P2P節(jié)點(diǎn)服務(wù)器是穩(wěn)定的。其次是在終端客戶機(jī)端,不同的客戶端可以作為P2P節(jié)點(diǎn)。但是,終端客戶機(jī)和機(jī)器的連接是不可控、不穩(wěn)定的,所以這里仍然有很多問題需要解決。其潛在的應(yīng)用前景比較樂觀。因?yàn)橥ㄟ^社交網(wǎng)絡(luò)傳播的內(nèi)容大多數(shù)是空間性流行的,這意味著在大多數(shù)情況下,如果一類人對用戶發(fā)布的內(nèi)容感興趣,那么他們的同行可能幾乎都是用戶的朋友。在這種情況下,我們相信這些用戶都愿意在他們的電腦上分享P2P服務(wù)。
3.2 安全和隱私的考慮
盡管CDN的緩存策略是可以減少交付延遲的,但這也有可能導(dǎo)致用戶的歷史信息和其他隱私的泄漏。對于一個(gè)成功的CDN,使用身份驗(yàn)證和保護(hù)用戶的緩存信息是非常重要的。在大多數(shù)的在線社交網(wǎng)絡(luò)中,總是有一個(gè)嚴(yán)格的內(nèi)容訪問認(rèn)證系統(tǒng),規(guī)定在OSN中用戶能否以及何時(shí)進(jìn)行訪問。內(nèi)容認(rèn)證系統(tǒng)代表隱私、保密和在線社交網(wǎng)絡(luò)的個(gè)人主義精神。然而,在當(dāng)前CDN架構(gòu)中大部分的資源訪問是通過一個(gè)獨(dú)特的資源位置(URL)來進(jìn)行的,這就會存在信息泄漏和其他的不安全隱患的風(fēng)險(xiǎn)。首先,對于CDN提供商存檔帳戶和眾多OSN用戶的身份驗(yàn)證信息通常是不容易甚至不可能的,所以在CDN中實(shí)行內(nèi)容認(rèn)證系統(tǒng)也變得非常困難。其次,內(nèi)容認(rèn)證也不是CDN的主要責(zé)任。內(nèi)容認(rèn)證系統(tǒng)的引入可能會導(dǎo)致CDN成本的增加,使CDN系統(tǒng)越來越復(fù)雜并且性能下降。因此,在OSN中設(shè)計(jì)合適的內(nèi)容認(rèn)證系統(tǒng)接口以及在CDN中的擴(kuò)展,對于解決CDN目前面臨的安全和隱私問題是非常有意義的。
3.3 商業(yè)視角
如上所述,許多問題比如安全和隱私問題的解決,需要OSN公司和CDN提供商進(jìn)行深入合作。此外,將OSN內(nèi)容的傳播模式應(yīng)用到CDN,OSN公司也應(yīng)該為CDN提供商提供足夠的數(shù)據(jù)。在這些情況下,將會有許多商業(yè)障礙需要克服。創(chuàng)新體系結(jié)構(gòu)可能會為OSN公司和CDN提供商提供解決方案,它們合作并和諧地共享數(shù)據(jù)而不會導(dǎo)致太多商業(yè)競爭。這是一種理想的情況,也是研究團(tuán)體的一個(gè)目標(biāo)。然而,在大多數(shù)情況下,商業(yè)障礙很難克服。目前,許多OSN公司開始建立自己的CDN(例如Google的CDN)或類似的產(chǎn)品(例如Facebook的邊緣網(wǎng)絡(luò))。在這種情況下,OSN和CDN服務(wù)提供者都是相同的, 兩者的無縫集成變得越來越容易。OSN內(nèi)容的傳播模式可以充分被挖掘和利用,用來幫助改善CDN。因此,這樣的模式帶來了將OSN完全整合到CDN的新的機(jī)會。
圖7 CDN架構(gòu)中OSN的整合
在這篇文章中,我們概括了在線社交網(wǎng)絡(luò)內(nèi)容傳播的幾個(gè)模式,并說明了改善CDN的方法。在CDN中集成OSN的架構(gòu)如圖7所示。最后,我們還討論改善CDN性能的其他方面。
繁榮的在線社交網(wǎng)絡(luò)正在改變整個(gè)互聯(lián)網(wǎng)環(huán)境,大多數(shù)的用戶正在用傳播的內(nèi)容占據(jù)著越來越多的互聯(lián)網(wǎng)流量,這使CDN必須進(jìn)行改變,以求能夠服務(wù)大量OSN用戶和更好地平衡整個(gè)互聯(lián)網(wǎng)流量。最近的研究證實(shí)了OSN的本質(zhì),即能夠?yàn)镃DN提供更優(yōu)的緩存、更強(qiáng)的預(yù)抓取性能以及更智能化的內(nèi)容交付功能。在不久的將來,與OSN更深層次的整合可能會是CDN在社交網(wǎng)絡(luò)時(shí)代最重要的一個(gè)變革。
[1]Salvatore Scellato, Cecilia Mascolo. 2011. Track globally, deliver locally: improving content delivery networks by tracking geographic social cascades. WWW '11, 457-466.
[2]Poese, I., Frank, B., Ager, B., Smaragdakis, G., Uhlig, S., & Feldmann, A. (2012). Improving Content Delivery with PaDIS. IEEE Internet Computing, 16(3), 46-52. doi:10.1109/MIC.2011.105
[3]George Pallis and Athena Vakali. 2006. Insight and perspectives for content delivery networks. Commun. ACM 49, 1 (January 2006), 101-106.
[4]Sastry, Nishanth Ramakrishna. "Social network support for data delivery infrastructures." (2011).
[5]Ingmar Poese, Benjamin Frank. 2010. Improving content delivery using provider-aided distance information. In Proceedings of the 10th ACM SIGCOMM conference on Internet measurement (IMC '10). ACM, New York, NY, USA, 22-34.
[6]Anders Brodersen, Salvatore Scellato. 2012. YouTube around the world: geographic popularity of videos. WWW '12, 241-250.
[7]Stefano Traverso, Kévin Huguenin.2012. TailGate: handling long-tail content with a little help from friends. WWW '12, 151-160.
[8]Ruhela A., Tripathy R.M.. Towards the use of online social networks for efficient Internet content distribution. Advanced Networks and Telecommunication Systems (ANTS), 2011 IEEE 5th International Conference on. pp. 1-6. Dec, 2011.
[9]Anders Brodersen, Salvatore Scellato, and Mirjam Wattenhofer. 2012. YouTube around the world: geographic popularity of videos. In Proceedings of the 21st international conference on World Wide Web (WWW '12). ACM, New York, NY, USA, 241-250.
[10]Poese, Ingmar, et al. "Improving content delivery using provider-aided distance information." Proceedings of the 10th annual conference on Internet measurement. ACM, 2010.
[11]Wittie, Mike P., et al. "Exploiting locality of interest in online social networks." Proceedings of the 6th International Conference. ACM, 2010.
[12]http://t.qq.com.
[13]Zhi Wang, Lifeng Sun, Xiangwen Chen, Wenwu Zhu, Jiangchuan Liu, Minghua Chen, and Shiqiang Yang. 2012. Propagation-based social-aware replication for social video contents. In Proceedings of the 20th ACM international conference on Multimedia (MM '12). ACM, New York, NY, USA, 29-38.
[14]Gerhard Haílinger and Franz Hartleb. 2011. Content delivery and caching from a network provider's perspective. Comput. Netw. 55, 1 8 (December 2011), 3991-4006.
[15]Jiang, H., Li, J., Li, Z., & Bai, X. (2009). Efficient Large-scale Content Distribution with Combination of CDN and P2P Networks, 2(2), 13-24.
[16]Fortino, G., & Russo, W. (2008). Using P2P, GRID and Agent technologies for the development of content distribution networks. Future Generation Computer Systems, 24(3), 180-190. doi:10.1016/j.future.2007.06.007
[17]SCELLATO, Salvatore, and Cecilia MASCOLO. "Understanding the geography of Online Social Networks." Cambridge University. PhD thesis. (2010).
[18]Lauinger, Tobias, et al. "Privacy risks in named data networking: what is the cost of performance?." ACM SIGCOMM Computer Communication Review 42.5 (2012): 54-57.
[19]Christodoulou, G., Georgiou, C., & Pallis. The Role of Twitter in YouTube Videos Diffusion. 2012.
[20]Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon. 2010. What is Twitter, a social network or a news media?. In Proceedings of the 19th international conference on World wide web (WWW '10). ACM, New York, NY, USA, 591-600.
2015-02-01
王慧斌(1981-),男,河北邢臺人,畢業(yè)于河北科技大學(xué),碩士,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)、網(wǎng)絡(luò)安全.
TP393.4
A
1672-4658(2015)02-0176-04