楊 鵬,李幼平
(東南大學a.計算機科學與工程學院;b.計算機網絡和信息集成教育部重點實驗室,南京211189)
今天的互聯網已經成為“博大精深”文化大數據的集散地,它的飛速發(fā)展及其對人類社會所產生的深遠影響,引起了世界各國政府和研究界的高度關注。如何科學地享用互聯網文化大數據,中、美等大國都在積極探索合理有效的發(fā)展戰(zhàn)略和實現技術。2011年,美國奧巴馬政府提出要將高速無線網絡的覆蓋率擴大至美國98%的地區(qū)。2012年,美國宣布投資2億美元開展“大數據研究和發(fā)展計劃”,強調從大數據中萃取有利于美國持久繁榮的智慧,找到保證國家信息安全的有效措施。2013年,美國聯邦通信委員會FCC提議,斥資1 780億美元建設覆蓋全美所有城市和鄉(xiāng)村的超級無線網絡,消除全民享用無線網絡服務的技術鴻溝。2014年初,美國媒體發(fā)展投資基金MDIF又提出Outernet設想,借助廣播技術和低軌衛(wèi)星系統(tǒng)構建覆蓋全球的信息網絡,向全球提供新聞、教育和娛樂等內容共享服務。中國政府在幾年前就積極倡導采用“三網融合”戰(zhàn)略,營造“國家公共文化服務體系”。2013年11月,十八屆三中全會通過關于全面深化改革若干重大問題的決定,明確指出要“建立公共文化服務體系建設協(xié)調機制,統(tǒng)籌服務設施網絡建設,促進基本公共文化服務標準化、均等化”,在此基礎上“構建現代公共文化服務體系”;同時,要“堅持積極利用、科學發(fā)展、依法管理、確保安全的方針,加大依法管理網絡力度,加快完善互聯網管理領導體制,確保國家網絡和信息安全”。
互聯網先輩的美好初衷是人人平等享有網絡,其科學依據在于,信息共享與物質、能量共享存在本質差異,更容易實現“各取所需”。質量與能量分配服從總量守恒,但信息可以借助比特復制實現無限共享。按照經典的香農信息論,獲取1bit信息所需的最少能量約為10-20焦耳。據此理論極限,全世界70億人各復制1Mbits信息,加起來的能量總消耗少于1焦耳。然而,理論極限與互聯網現實狀況之間存在天壤之別,互聯網中的能量消耗正在以驚人的速度持續(xù)增長[1]。分析這種巨大差距的根本原因,很大程度上是由于互聯網主要采用基于帶寬分配和端到端通信的方法來共享信息,而通信鏈路及其帶寬是受總量守恒直接制約的物質性資源,享用的人多了,自然就會出現資源排他性競爭引起的共享沖突。由此可見,互聯網中面向廣域范圍的規(guī)?;畔⒐蚕碇孕艿拖拢淦款i在于基于帶寬分配的傳統(tǒng)互聯網信息共享方式。從這一認識出發(fā),播存思想認為信息共享的基本操作是在時空域上對信息比特的復制,若借助廣播輻射,可以在空間上隨意復制信息比特;而借助泛在內容存儲,則可以在時間上隨意復制信息比特。因此,一種合理且可行的未來互聯網發(fā)展戰(zhàn)略,就是把廣播輻射和泛在內容存儲二者的優(yōu)勢結合起來,建立輔助互聯網體系結構的次級播存結構,以此適配具有典型“一對多”輻射特征的內容共享類應用(從信息與內容的共性出發(fā),本文不嚴格區(qū)分這兩個概念)?;谶@種思想提出的次級播存結構,本文稱為未來互聯網次結構,它將有望突破傳統(tǒng)互聯網信息共享方式受帶寬資源約束的瓶頸。
現行互聯網體系結構在20世紀70、80年代基本成型,主要針對的是E-mail、FTP、Telnet這類以端到端通信為基礎的傳統(tǒng)應用。自90年代初開始,以WWW為代表的互聯網新技術和應用迅猛發(fā)展,促使互聯網近20年來一直處于高速發(fā)展之中。隨著互聯網規(guī)模的指數擴張、應用的日趨豐富以及用戶的不斷增長,現行互聯網體系結構所存在的不足日益凸顯?;ヂ摼W的主流應用范型,已經由傳統(tǒng)的端到端數據通信,轉變?yōu)椤耙詢热轂橹行摹钡膬热莨蚕眍悜谩;ヂ摼W也已從服從泊松分布的隨機網絡,演化為服從冪律的無標度網絡。當前主要以互聯網為基礎的內容共享,正遭遇到流量持續(xù)增長引發(fā)的“非線性擁堵”難題。據最新的Cisco VNI統(tǒng)計[2],全球IP流量在過去5年中增長了5倍多,其中九成以上的流量與內容獲取類應用有關,未來幾年內IP流量仍將以21%的年均復合增長率高速增長。而隨著用戶生成內容(UGC)、高清視頻內容等的豐富,內容相關流量仍在持續(xù)攀升,預計到2018年全球互聯網總流量將高達1.6ZB。與此同時,伴隨著互聯網規(guī)模的擴張和互聯網流量的爆炸性增長,近年來互聯網的發(fā)展一直面臨可擴展性、服務質量、異構性、安全性等方面的長期困擾。
面對互聯網體系結構與內容共享類主流應用范型之間日漸突出的不適應性,國內外研究界越來越重視信息中心網絡ICN[3]的研究。在信息中心網絡當中,用戶并不關心內容的位置,而只關心內容本身。國際上較有影響的研究包括 TRIAD[4],PSIRP[5],DONA[6],4WARD[7],NetInf[8],CCN[9],NDN[10]等。鑒于信息中心網絡近年來的快速發(fā)展趨勢,IRTF專門成立了ICNRG(Information-Centric Networking Research Group)研究組[11],旨在推動信息中心網絡研究的開展??傮w來說,作為一類概念新穎的未來網絡研究方案,信息中心網絡對于解決當前互聯網所面臨的發(fā)展困境提供了很好的思路。但是,相關研究正處在起步階段,目前尚缺乏成熟的實際系統(tǒng),而且在一些關鍵問題上還存在爭議[12-13]。更重要的是,目前已提出的許多信息中心網絡研究方案,大多強調采用“推倒重建”的指導思想,然而短期內完全取代現有互聯網絕非易事。
從互聯網發(fā)展困境的主要根源來看,由于面向普羅大眾的內容共享類應用占據主流,從而使互聯網中的內容分發(fā)呈現典型的點到面輻射特征。然而,互聯網是一種基于地址計算的端到端通信網絡,它所采用的基于對流傳輸模型的TCP/IP結構,顯著失配于在規(guī)模、流量和用戶數等方面具有無標度特征的內容共享類主流應用范型。播存思想認為,現有互聯網體系結構的長處是支持交互型端到端通信類應用(即“對流型”應用),對于現存的和未來的此類應用,互聯網的特殊優(yōu)勢仍然長期存在;然而,從互聯網應用的流量占比而言,其主流應用范型已經轉變?yōu)槊嫦虼蟊姷膬热莘?,現有互聯網基礎設施所采用的對流傳輸模型,本質上難以適配具有點到面輻射特征的內容分發(fā)和用戶訪問社會特征,從而導致現有的針對內容分發(fā)的優(yōu)化措施難以有質的躍升。另一方面,廣播傳輸具有天然的一對多的能力,可實現一次分發(fā)、無限多個用戶接收,再借助于在接收環(huán)節(jié)引入的泛在存儲手段,可有效支持用戶的異步個性化訪問需求,大幅提升內容分發(fā)的效率。因此,盡管現有互聯網體系結構存在缺陷和不足,但它并非一無是處,尤其對端到端對流型應用而言,仍然具有無可替代的體系結構優(yōu)勢。與其推倒成熟且仍具優(yōu)勢的互聯網再造新網,不如從互聯網發(fā)展困境的根源出發(fā),借助于電信網、廣播網等多種網絡的融合和優(yōu)勢互補,實現互聯網新的飛躍。圖1是這種發(fā)展思路的形象說明,在此基礎上本文提出了一種雙結構未來互聯網方案,其特色在于具有以廣播輻射傳輸和泛在內容存儲為特征的次級播存結構。
一般地,網絡體系結構設計原則是指導網絡的技術設計,尤其是網絡的協(xié)議和算法設計的一組高層設計原則[14]。設計原則的合理與否將會直接影響到實際網絡系統(tǒng)的功能和性能,并將最終決定整個網絡系統(tǒng)能否持續(xù)、穩(wěn)定和協(xié)調地向前發(fā)展。傳統(tǒng)互聯網體系結構的設計原則主要包括端到端原則(End-to-End Argument,亦稱“邊緣論”)[15]、透明性原則[16]等。針對當前互聯網所面臨的發(fā)展困境,以播存思想為指導,聚焦更好支持“以內容為中心”的內容共享類主流應用范型的未來互聯網發(fā)展需求,從主/次結合與多網優(yōu)勢互補的角度,提出3條雙結構未來互聯網設計原則:
1)主結構原則(堅持以現行互聯網體系結構作為主結構):互聯網作為一個擁有為數眾多、成份復雜、利益各異的建設者和使用者的復雜生態(tài)系統(tǒng),其體系結構已經在現實中產生了根深蒂固的深遠影響?,F行互聯網體系結構仍然是支持端到端對流型應用的最佳體系結構,這種特殊優(yōu)勢在今后相當長一段時間內仍然長期存在。同時,互聯網數十年來不間斷的持續(xù)演進歷史表明,其體系結構仍具有較大發(fā)展空間。因此,合理且可行的未來互聯網體系結構,應該以現行互聯網體系結構作為基礎和主結構。
2)次結構原則(輔以“廣播+存儲”的播存結構為次結構):互聯網的主流應用范型已經轉變?yōu)椤耙詢热轂橹行摹钡膬热莨蚕眍悜?,互聯網單純基于地址計算的TCP/IP結構與主流應用范型之間的顯著失配,是促使互聯網體系結構矛盾凸顯的主要根源。建立基于“廣播輻射傳輸+泛在內容存儲”的播存結構作為未來互聯網的次結構,彌補現行互聯網體系結構的功能缺失,以此適配具有典型“一對多”輻射特征的內容共享類應用,是發(fā)展未來互聯網體系結構的成本高效途徑。
3)主動尋的原則(營造內容自尋讀者的內容主動服務環(huán)境):互聯網大數據時代已經到來,當前互聯網只依靠“讀者找內容”的“搜索”機制實施內容去冗,遭遇到了“帶寬擁堵”和“內容無序”的困感?;ヂ摼W文化大數據與個人的有限需求之間,缺乏順從人意的直達機制。雙結構未來互聯網亟需創(chuàng)立溝通主結構和次結構的內容基元(統(tǒng)一內容標簽),借助泛在無線廣播營造內容自尋讀者的內容主動服務環(huán)境,實現互聯網文化大數據的主動尋的和深度去冗。
將雙結構未來互聯網體系結構設計原則付諸現實的技術基礎,是基于播存思想的未來互聯網次結構和統(tǒng)一內容標簽UCL(Uniform Content Label)。當前互聯網由于采用基于帶寬分配的共享方法而導致流量無標度增長,進而使互聯網中面向廣域范圍的規(guī)?;畔⒐蚕硇苁值拖?。通過把廣播輻射傳輸和泛在內容存儲二者的優(yōu)勢結合起來,形成基于“廣播+存儲”的異步廣播結構(播存結構),讓它充當未來互聯網的次結構,可以為互聯網文化大數據的不限規(guī)模分發(fā)和均等化提供高效可行的解決途徑。但是,播存結構僅提供了支持內容泛在分發(fā)與普適共享的物理基礎,而充分發(fā)掘其潛能的邏輯創(chuàng)意是統(tǒng)一內容標簽UCL。目前,在互聯網中廣泛采用URL(Uniform Resource Locator)來唯一標識信息資源,通常URL包括資源協(xié)議類型、存放資源的主機域名和資源文件名等信息。作為一種主要用于對互聯網中的信息資源進行定位的標識技術,URL本質上仍然是基于地址計算的概念,難以用來表達資源本身的語義信息,這使得內容完全相同的文件常常在網絡中冗余傳輸,造成網絡資源的極大浪費。統(tǒng)一內容標簽UCL正是針對URL的不足和局限性而提出,它是一種能夠描述內容豐富語義信息的新型內容元數據,包含UCL代碼(描述內容源、欄目、話題、時戳等)和UCL屬性(如內容標題、內容要義、內容指紋和內容出處URL等),由國家互聯網管理機構進行統(tǒng)一注冊和管理。在主結構原則、次結構原則和主動尋的原則等的指導下,以異步廣播結構(播存結構)和統(tǒng)一內容標簽UCL為基礎,本文提出了如圖2所示的雙結構未來互聯網體系結構模型。
圖1 多網互補的未來互聯網發(fā)展思路Fig.1 Multi-network based approach to developing future Internet
圖2 雙結構未來互聯網體系結構模型Fig.2 Architectural model of the dual-structural future Internet
從中美等大國的國家發(fā)展戰(zhàn)略來看,未來互聯網的一個核心價值理念,在于實現全民對網絡文化大數據的科學享用。實現這一核心價值理念,必然面臨3個科學問題,即:共享如何普及全民?服務如何匹配個人?國家如何依法管理?然而,在現有的互聯網體系結構中,回答上述問題都會面臨難以逾越的原理性和技術性障礙。因此,本文提出以異步廣播結構(播存結構)輔佐基于分組交換的現行互聯網主結構,形成的具有主/次雙結構的未來互聯網體系結構。綜合前面的分析可以斷言,實現互聯網文化大數據全民共享的最理想傳輸方式,必然是無線電廣播。因為無線電廣播是一種“一點對無限點”的單向電磁輻射,它不同于傳統(tǒng)互聯網所采用的基于TCP/IP協(xié)議的對流傳輸模型,可以保證無論多少人分享電磁波帶來的數據,永遠都不會發(fā)生帶寬擁堵的現象。從中國無線網絡的客觀條件和發(fā)展現狀來看,已經具備實現這種泛在分發(fā)的物理環(huán)境。中國在6年前開始實施“新一代寬帶無線移動通信”(03專項),旨在建立“多種無線技術無縫銜接的異構泛在網絡”。發(fā)展到今天,中國大地出現了數百萬量級的2G/3G/4G基站,再加上數量更多的家庭WiFi,已經形成了一個品類繁多、遍布互聯網邊緣的“少跳數、超扁平”國家基礎設施。有效整合中國業(yè)已具備的無線移動通信和衛(wèi)星優(yōu)勢,足以為實現互聯網次結構奠定必要的物理基礎。
未來互聯網次結構的理論基礎,來自于復雜網絡的相關研究。事實上,復雜網絡的研究一直與互聯網有緊密的關聯。Barabási和Albert提出無標度網絡BA模型[17]的最早實驗基礎,就是因為他們在BA模型提出的前一年(1998年)合作進行了一項關于World Wide Web研究,結果發(fā)現由網頁、文件所構成的Web網絡,并不是如一般隨機網絡一樣有均勻的度分布,而是由少數高連接性的頁面串聯起來,其中絕大多數(超過80%)網頁只有少數鏈接(不超過4個),但極少數頁面(不到總頁面數的萬分之一)卻擁有極多的鏈接。該項研究以及后續(xù)若干關于互聯網復雜網絡性質的研究,表明互聯網與生物細胞網絡、人際關系網絡、交通運輸網絡等類似,具有小世界、高聚集度和無標度等特征。然而在現實中,互聯網在體現復雜網絡特征的同時,又深受它們的制約和困擾,其中影響最甚的是互聯網流量的無標度增長。有趣的是,這些制約和困擾互聯網的因素,如果被有意識地合理利用或適應性調整,恰恰成為互聯網次結構的特色和優(yōu)勢。在雙結構未來互聯網中,充當次結構的異步廣播結構(播存結構)與占據主結構的現行互聯網體系結構,在多個方面存在顯著的特征差異,如表1所示。
表1 主結構與次結構的特征差異Tab.1 Differences between primary and secondary structure
未來互聯網雙結構化之后,一方面互聯網中具有“一對多”分發(fā)特征的內容共享類流量,可以通過天然具有點到面電磁輻射能力的無線電廣播進行分流;另一方面,播存次結構在互聯網邊緣廣布數量眾多、成本低廉、易于部署的泛在內容存儲(包括邊緣庫和家庭庫),從而形成把最熱內容放到離用戶最近這一理想目標的“泛在CDN”。通過這兩種機制,可以大比例分擔互聯網的共享類流量,建立共享不限人數和普惠全民的新型高效信息共享途徑。針對服務匹配個人和國家依法管理內容等問題,需要在互聯網大數據時代背景下,結合雙結構互聯網主、次結構的特點尋找出路。
在今天的互聯網中,各種各樣的信息浩如煙海,每天通過新生主頁展現的內容不可勝數。充斥其間的,既有大量冗余的相似信息,又有形形色色的片面信息?;ヂ摼W就像是橫亙在用戶面前的信息汪洋,人們往往迷失其中,難以適從?;ヂ摼W不應該只是信息無序化產生的場所,所以從海量、繁雜、無序,走向人本、有序、至簡,成為發(fā)展未來互聯網的美好愿景。實現這一美好愿景,需要面臨3方面的技術挑戰(zhàn):首先,如何有效歸集互聯網中的海量信息,其目標是耗時少、涵蓋廣;其次,海量信息在集結之后如何進行聚類整理,其目標是要反映信息之間的語義關聯;最后,經聚類整理后的信息如何滿足用戶個性化需求,其目標是高精準、少冗余。對于第一方面技術挑戰(zhàn),復雜網絡的相關研究表明,互聯網中的大量熱門信息常常聚集在少數網站而形成集散節(jié)點(HUB),并體現冪律和“二八律”。因此只需對互聯網中主要HUB網站的信息進行動態(tài)歸集,將有效涵蓋大多數人的信息需求。對于第二方面技術挑戰(zhàn),歸集的海量信息形成大數據,體現繁雜、無序、冗余等特征,應對原則是“分類去冗”。但由于互聯網的基本理念是“以地址為中心”(URL通常只反映出網頁的地址屬性),所以現有互聯網缺乏有效的實現技術。在雙結構未來互聯網中,通過補充基于語義的內容標引方法(即統(tǒng)一內容標簽UCL),使模量形式的互聯網文化大數據矢量化,從而理順雜亂無序的互聯網文化大數據。對于第三方面技術挑戰(zhàn),雙結構未來互聯網可以動態(tài)集結所有UCL形成超級門戶,并通過泛在無線電廣播進行主動推送,使所有內容的UCL直達用戶,然后在終端依據用戶個人興趣進行過濾適配和主動推薦,從而實現“內容自尋讀者”的個性化主動服務。
另外,未來互聯網要持續(xù)、健康地發(fā)展,必須解決好互聯網依法管理問題和互聯網安全可信問題。傳統(tǒng)上對于網絡安全的研究,主要側重考慮網絡傳輸系統(tǒng)的安全性。在信息中心網絡的相關研究中,人們已經開始把目光轉向內容本身的安全性,如NDN提出了基于內容的安全性概念,強調采用數據簽名來確保內容不被篡改。吸納這一思想的合理因素,在統(tǒng)一內容標簽UCL中,專門增加了內容的哈希指紋。通過內容指紋與內容出處(URL)的配合,再借助互聯網次級播存結構中具有非對稱性和半連接隔離解耦特性的衛(wèi)星分發(fā)UCL,可以為網絡管理者提供實現對共享內容進行依法管理的有效手段。再者,在網絡環(huán)境中由于單項內容片面性帶來的不可信問題,比防止內容的虛假性更難處理。雙結構未來互聯網解決這一問題的方法,是運用錢學森、戴汝為提出的綜合集成理論,通過UCL中的話題關聯大量內容形成網絡“研討廳”,依靠時空淀積“化片面為全面”的處理,形成保障網絡內容可信性的“厚積簿發(fā)”新機制。
互聯網已經演化為服從冪律的無標度網絡,互聯網主流應用范型正在向“以內容為中心”的信息共享發(fā)生深刻改變?;趲挿峙涞幕ヂ摼W基本傳輸模型,難以有效支持面向廣域范圍的規(guī)?;畔⒐蚕?。流量爆炸性增長問題、服務質量(QoS)問題、節(jié)能問題、內容安全與可信等問題,困擾今天互聯網體系結構的發(fā)展,又挑戰(zhàn)未來互聯網體系結構的研究。因此,研究適應新的主流應用范型的未來互聯網體系結構,已成為當前國內外網絡研究界亟待解決的緊迫問題。本文以播存思想為指導,通過將廣播輻射與內容存儲二者的優(yōu)勢有機結合,運用“邊緣幫助核心、存儲幫助路由”的研究策略,提出了以播存結構輔佐現有互聯網體系結構的雙結構未來互聯網研究方案,并著重對基于播存思想的未來互聯網次結構的原理及關鍵實現機制等進行了闡釋,勾畫了未來互聯網可持續(xù)、高效、綠色、安全的發(fā)展藍圖。
[1] Yun D,Lee J.Research in green network for future Internet[J].Journal of KIISE,2010,28(1):41-51.
[2] Cisco Visual networking index:forecast and methodology:2013-2018[DB/OL].[2014-06-10].http://www.cisco.com/.
[3] Ahlgren B,Dannewitz C,Imbrenda C,et al.A survey of Information-Centric Networking[J].IEEE Communications Magazine,2012,50(7):26-36.
[4] Gritter M,Cheriton D R.An architecture for content routing support in the Internet[C]//The 3rd conference on USENIX Symposium on Internet Technologies and Systems.San Francisco,USA,2001:37-48.
[5] Tselentis G,Galis A,Gavras A,et al.Towards the Future Internet[M].Amsterdam:IOS Press,2009:102-111.
[6] Koponen T,Chawla M,Chun B,et al.A data-oriented(and beyond)network architecture[C]//ACM SIGCOMM'2007.Kyoto,Japan,2007:181-192.
[7] The FP7 4WARD Project[DB/OL].[2014-09-10].http://www.4ward-project.eu/.
[8] NetInf.The Network of Information:architecture and applications[DB/OL].[2011-07-31].http://www.sail-project.eu/wp-content/uploads/2011/08/SAIL_DB1_v1_0_final-Public.pdf.
[9]Jacobson V,Smetters D K,Thornton J D,et al.Networking named content[C]//ACM CoNEXT'09.New York,USA,2009:1-12.
[10]Zhang L,Estrin D,Burke J,et al.Named data networking(NDN)project,NDN-0001[DB/OL].[2010-10-31].http://named-data.net/ndnproj.pdf.
[11]IRTF.Information-Centric Networking Research Group[DB/OL].[2013-06-10].http://irtf.org/icnrg.
[12]Ghodsi A,Koponen T,Raghavan B,et al.Information-centric networking:seeing the forest for the trees[C]//ACM SIGCOMM Workshop on Hot Topics in Networks(HotNets'11).Cambridge,MA,USA,2011:1-6.
[13]Fayazbakhsh F,Lin Y,Tootoonchian A,et al.Less pain,most of the gain:incrementally deployable ICN[C]//ACM SIGCOMM'2013.Hong Kong,China,2013:147-158.
[14]Braden R,Clark D,Shenker S,et al.Developing a next-generation Internet architecture[DB/OL].[2000-07-15].http://www.isi.edu/newarch/WhitePaper.pdf.
[15]Saltzer J H,Reed D P,Clark D D.End-to-End Arguments in system design[J].ACM Transactions on Computer Systems,1984,2(4):277-288.
[16]Carpenter B.Internet transparency[DB/OL].[2000-02-10].http://www.ietf.org/rfc/rfc2775.txt.
[17]Barabási A L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.