文|李幼平
大數(shù)據(jù)時代,可能出現(xiàn)某種“內(nèi)容無所不有、位置無處不在”的巨媒體(macro-media)環(huán)境,它是一種可計算的電磁網(wǎng)絡(luò)空間(Cyberspace)。群聚幾萬種報刊、電臺、網(wǎng)站當(dāng)天的數(shù)據(jù),通過衛(wèi)星及移動通信直接分發(fā)全國,支持個人按興趣下載享用。此舉改變公共內(nèi)容的個案傳輸方式,變革為“全部交你,由你自己選擇”的批量生產(chǎn)方式,是生產(chǎn)力的一項變革。依此變革,中國有望創(chuàng)造高效安全的互聯(lián)網(wǎng)第二體系結(jié)構(gòu)。
巨媒體源于“聚媒體”。如果沒有統(tǒng)計數(shù)據(jù)的支持,人們很難相信,衛(wèi)星轉(zhuǎn)發(fā)有能力把幾萬種媒體的全部內(nèi)容聚合起來,提供給全國人民自由下載。根據(jù)北大李曉明等人“網(wǎng)頁博物館”十一年不間斷統(tǒng)計,可以判斷,除去長視頻,全國所有報紙、期刊、網(wǎng)頁當(dāng)天新產(chǎn)生的全部內(nèi)容加起來,總量不超過50GB/天。再把全國全年產(chǎn)生3萬小時標(biāo)清長視頻的因素加上去,全國海量媒體內(nèi)容的日均增量只有100GB/天左右。目前衛(wèi)星和地面無線電轉(zhuǎn)發(fā)的帶寬已經(jīng)大于39Mbps,日推送量大于400GB/天,完全有能力將巨媒體內(nèi)容推送不止一遍。
如圖1所示,國家群聚當(dāng)天海量媒體的全部內(nèi)容,通過衛(wèi)星和地面轉(zhuǎn)發(fā)主動送達全國所有家庭,讓他們自由選擇感興趣的內(nèi)容下載,實現(xiàn)公共文化內(nèi)容的全民各取所需。
創(chuàng)建巨媒體的主要難題是內(nèi)容的可計算性。聚合后的萬種媒體是一種大數(shù)據(jù),如何實現(xiàn)按需分解?或者說,如何實現(xiàn)“自由選擇有興趣的內(nèi)容下載”?
我國古代發(fā)明家畢升把漢字單字看成是“可聚可分的文化基元”,發(fā)明了活版印刷術(shù)。網(wǎng)頁是網(wǎng)絡(luò)時代 “可聚可分的文化基元”?;畎嬗∷⑿g(shù)成功的精髓在于依托語義聚分漢字。幾乎沒有異議,靈活聚分網(wǎng)頁依然需要依托語義。很遣憾,人們沿著B. T. Lee所提出的語義網(wǎng)(Semantic Web)方向努力了十幾年,至今沒有出現(xiàn)預(yù)想的重大突破。
無情的現(xiàn)實迫使我們不再簡單依托用語義本身,改用“語義的聚類抽象”(即話題)來引領(lǐng)網(wǎng)頁對網(wǎng)民的靈活適配。
圖1 群聚全國海量媒體,實現(xiàn)巨媒體的天播地存
話題(topic)是人類信息興趣的本體聚類(ontology clustering)。信息的獲得,在數(shù)量上等于疑惑(不確定性)的減少。只有當(dāng)外來信息有能力化解人們心中的疑惑時,才獲得心理的愉悅和興趣的滿足。可以說,興趣的分類本質(zhì)上就是話題的分類。按照B. A. Barabasi等人關(guān)于互聯(lián)網(wǎng)由隨機網(wǎng)絡(luò)轉(zhuǎn)化成無標(biāo)度(scalefree)網(wǎng)絡(luò)的原因解釋,正是由于客觀上存在網(wǎng)民的“個人偏好”(優(yōu)先連接性),網(wǎng)民總是優(yōu)先連接那些有能力化解心中疑惑的內(nèi)容。某話題積累的先驗知識愈多,愈容易產(chǎn)生更多的疑惑,探索該話題的欲望也就愈加強烈。
一個話題可以吸引一批具有相同求知興趣的網(wǎng)民,組織起一個信息社區(qū)(info-community);一個話題也是一個網(wǎng)頁池(info-pool),吸引并組織一批批作者圍繞該話題源源不斷地把作品投入池中。如圖2所示,應(yīng)該按照話題來引領(lǐng)網(wǎng)頁的聚合與分發(fā)。
事實上,話題詞典已經(jīng)存在幾十年。稍加留意,就可發(fā)現(xiàn)每個網(wǎng)站天天都通過主頁向網(wǎng)民通報:本網(wǎng)站的什么話題(欄目)出現(xiàn)了什么新鮮的網(wǎng)頁。把上萬種網(wǎng)站自定義的話題結(jié)構(gòu)羅列出來,就可以得到一本“海量媒體的話題詞典”。
如果全國媒體總數(shù)少于六萬五千種(216),每個網(wǎng)站的話題數(shù)少于256種(28),就可以用一個24bits的代碼(code)準(zhǔn)確定位每一種話題?;谶@一思想,全國中文新聞信息標(biāo)準(zhǔn)委員會已經(jīng)接受“最少跳數(shù)內(nèi)容分發(fā)”項目組所提出的UCL格式建議,正在開展“統(tǒng)一內(nèi)容標(biāo)簽UCL”國家標(biāo)準(zhǔn)的起草工作。
傳統(tǒng)互聯(lián)網(wǎng)所采用的基于端到端通信的TCP/IP結(jié)構(gòu)(如圖1的下半部分所示),多數(shù)情況下需經(jīng)歷6至23跳的路由轉(zhuǎn)接,才能從遠處網(wǎng)站取來所需網(wǎng)頁。而基于衛(wèi)星廣播的播存結(jié)構(gòu)(如圖1的上半部分所示),可以事先把內(nèi)容存入家庭WiFi或基站后臺,獲取網(wǎng)頁的跳數(shù)大比例降至3跳以下。
我們有充分理由判斷,互聯(lián)網(wǎng)的雙結(jié)構(gòu)化進程已經(jīng)很難避免?,F(xiàn)有的互聯(lián)網(wǎng)TCP/IP結(jié)構(gòu)將繼續(xù)作為未來互聯(lián)網(wǎng)的主結(jié)構(gòu)(primary structure),而播存結(jié)構(gòu)將成為未來互聯(lián)網(wǎng)的第二結(jié)構(gòu)(secondary structure)。如表1所示,經(jīng)過從物理學(xué)、計算科學(xué)、拓?fù)鋵W(xué)、統(tǒng)計學(xué)和社會學(xué)等多種視角的觀察,我們堅信播存結(jié)構(gòu)有能力幫助傳統(tǒng)的TCP/IP主結(jié)構(gòu)回答以下三方面科學(xué)問題:
1. 共享如何不限人數(shù)?播存結(jié)構(gòu)可支持內(nèi)容的不限人數(shù)共享,廣播下載無需帶寬分配,用戶數(shù)目可以任意增加,不會產(chǎn)生人多引發(fā)的擁堵。
2. 網(wǎng)頁如何自尋網(wǎng)民?統(tǒng)一內(nèi)容標(biāo)簽UCL能引領(lǐng)網(wǎng)頁自尋網(wǎng)民,UCL控制下載的話題選擇。
3. 國家如何依法管理?衛(wèi)星廣播提供了依法管理公共內(nèi)容的物理基礎(chǔ):衛(wèi)星廣播是一種由國家管理的“一點對所有點的”的輻射通道,它既有能力向全國存儲環(huán)節(jié)提供內(nèi)容,也會有能力依法管理這些內(nèi)容。如表1所示。
當(dāng)前,未來互聯(lián)網(wǎng)體系結(jié)構(gòu)的研究呈多元化的態(tài)勢。
圖2 按照話題引領(lǐng)網(wǎng)頁的聚合與分發(fā)
表1 第一結(jié)構(gòu)與第二結(jié)構(gòu)的多種視角對比分析
全球都在探討基于內(nèi)容計算的未來網(wǎng)體系結(jié)構(gòu),具體稱呼有信息中心網(wǎng)絡(luò)ICN(information-centric networking)、面向內(nèi)容網(wǎng)絡(luò)CON(content oriented networking)等,代表性研究項目有DONA、PSIRP、CCN、NDN等。在國際上產(chǎn)生很大影響的是美國NSF支持的NDN,國內(nèi)北大、清華、東南等大學(xué)有過充分的研討。NDN的關(guān)鍵技術(shù)之一是如何對數(shù)據(jù)(內(nèi)容)進行命名和高效處理,播存結(jié)構(gòu)中的統(tǒng)一內(nèi)容標(biāo)簽UCL(尤其是UCL code)也許可以助其一臂之力。
多國正在探討軟件定義網(wǎng)絡(luò)SDN(software defined network),我國已在南京建立了專門的試驗基地。SDN強調(diào)控制平面和數(shù)據(jù)平面的分離,從而實現(xiàn)網(wǎng)絡(luò)控制功能與物理網(wǎng)絡(luò)拓?fù)渲g的解耦,擺脫硬件對網(wǎng)絡(luò)體系結(jié)構(gòu)發(fā)展的束縛。這種理念要求邏輯層面定義“基于需求的價值度量”(requirement is the measure of value),其目標(biāo)與正在制定的“統(tǒng)一內(nèi)容標(biāo)簽 UCL”頗為類似。
中國培育互聯(lián)網(wǎng)的第二結(jié)構(gòu),除了制定“統(tǒng)一內(nèi)容標(biāo)簽UCL”國家標(biāo)準(zhǔn),還要組織更多專家去創(chuàng)建“融合通信/廣播的互聯(lián)網(wǎng)協(xié)議族”:BSP/IP。BSP/IP的設(shè)計目標(biāo),是在統(tǒng)一的IP數(shù)據(jù)包格式下,重點關(guān)注如下需求:如何將先后到達的海量網(wǎng)頁轉(zhuǎn)換成單一的衛(wèi)星載波流?如何在家庭下載有興趣的網(wǎng)頁?如何在基站后臺按網(wǎng)民民主表決結(jié)果淘汰過時網(wǎng)頁?如何按存儲內(nèi)容縮短路由跳數(shù)?等等。
巨媒體是“國家搭臺、市場唱戲”。國家的責(zé)任是創(chuàng)造環(huán)境。以國家名義聚合無所不包的內(nèi)容,通過衛(wèi)星和移動通信覆蓋全國,放手讓大、中、小企業(yè)自主體現(xiàn)經(jīng)濟效益與社會效益。
網(wǎng)絡(luò)內(nèi)容提供企業(yè)(ICP)歡迎巨媒體的原因是,ICP追求最大的“社會關(guān)注度”(人分鐘總量)。全國全民的覆蓋為人分鐘總量供物理支持,而且不必?fù)?dān)心因更多人分鐘總量添加設(shè)備費與流量費?;ヂ?lián)網(wǎng)接入企(ISP)歡迎巨媒體的原因是,直接向家庭WiFi或基站后臺供應(yīng)內(nèi)容,減少平均的路由跳數(shù),節(jié)約路由耗能,節(jié)約長距離的帶寬消耗,從整體上降低ISP的運營成本。
市場的主人是消費者,他們歡迎巨媒體的出現(xiàn)。我國一半以上的領(lǐng)土領(lǐng)海,缺乏寬帶光纖和寬帶移動網(wǎng)覆蓋,那里的居民,希望直接通過衛(wèi)星平等得到幾萬種媒體的主動服務(wù)。依托衛(wèi)星和3G移動通信對WiFi的雙重支持,邊遠城鎮(zhèn)和農(nóng)村居民可以得到相當(dāng)于今天大城市居民的信息服務(wù)。大城市居民得到寬帶光纖和寬帶移動網(wǎng)覆蓋之后,希望聚媒體給他們帶來資費的大幅下降。
更重要的是,巨媒體有望幫助國家在文化上辦成幾件大事。例如,開創(chuàng)自由和秩序兼得的互聯(lián)網(wǎng)文化。再如,營造全民終身教育環(huán)境,其中最先行的也許是營造全國性高等工程教育環(huán)境。等等。
設(shè)想中的巨媒體是一種覆蓋全國的、內(nèi)容多元化的、可管可控的電磁空間,它符合“網(wǎng)絡(luò)安全和信息化是一體之兩翼”的國家戰(zhàn)略,向全國網(wǎng)絡(luò)專家、工程師與企業(yè)家提供一個寬松的自主創(chuàng)新場所。