徐焱
摘 要:網(wǎng)絡(luò)大數(shù)據(jù)是對(duì)真實(shí)社會(huì)的網(wǎng)絡(luò)映射,蘊(yùn)含著豐富的信息、知識(shí)和智慧。深度挖掘網(wǎng)絡(luò)大數(shù)據(jù)的潛在價(jià)值給人們帶來了前所未有的機(jī)遇,但是同時(shí)也給現(xiàn)有存儲(chǔ)能力、計(jì)算能力等帶來了巨大挑戰(zhàn)。分析了網(wǎng)絡(luò)大數(shù)據(jù)的特點(diǎn),總結(jié)了網(wǎng)絡(luò)大數(shù)據(jù)研究的重要意義,通過實(shí)例展示了網(wǎng)絡(luò)大數(shù)據(jù)在現(xiàn)實(shí)中的成功應(yīng)用,并指出了網(wǎng)絡(luò)大數(shù)據(jù)在感知與表示、存儲(chǔ)與管理、數(shù)據(jù)挖掘和社會(huì)計(jì)算等方面所面臨的挑戰(zhàn)。
關(guān)鍵詞:大數(shù)據(jù);網(wǎng)絡(luò)大數(shù)據(jù);大數(shù)據(jù)感知;存儲(chǔ)管理;大數(shù)據(jù)挖掘
DOIDOI:10.11907/rjdk.162277
中圖分類號(hào):TP3-0
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2016)011020802
0 引言
近年來,互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算的迅猛發(fā)展,加上人、機(jī)、物在網(wǎng)絡(luò)空間的高度融合,引發(fā)了數(shù)據(jù)的爆炸式增長(zhǎng),給許多行業(yè)帶來了新的挑戰(zhàn)和機(jī)遇,人類已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)正在改變著人們的生活工作方式,改變著企業(yè)的運(yùn)行模式,并正在引起科學(xué)研究方式的變革。
大數(shù)據(jù)指無法在可容忍的時(shí)間內(nèi)使用常規(guī)工具和軟硬件環(huán)境對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合[1]。網(wǎng)絡(luò)大數(shù)據(jù)指人、機(jī)、物三元世界在網(wǎng)絡(luò)空間中相互交互融合產(chǎn)生的可以通過互聯(lián)網(wǎng)獲取的大數(shù)據(jù)[2]。與傳統(tǒng)的數(shù)據(jù)規(guī)模相比,大數(shù)據(jù)特別是網(wǎng)絡(luò)大數(shù)據(jù)具有3V特征:①大量化(Volume):網(wǎng)絡(luò)空間中數(shù)據(jù)的規(guī)模不斷擴(kuò)大,計(jì)數(shù)單位從GB、TB到PB,甚至已經(jīng)增長(zhǎng)到EB和ZB,具有空前的規(guī)模性。IDC的研究報(bào)告稱,未來十年,大數(shù)據(jù)數(shù)量還將增加50倍,而管理數(shù)據(jù)存儲(chǔ)的服務(wù)器數(shù)量將增加10倍以便滿足大數(shù)據(jù)50倍的增長(zhǎng);②多樣化(Variety):網(wǎng)絡(luò)大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)在互聯(lián)網(wǎng)世界中呈現(xiàn)大幅增長(zhǎng)的趨勢(shì),目前,非結(jié)構(gòu)化數(shù)據(jù)占互聯(lián)網(wǎng)數(shù)據(jù)總量的比例已達(dá)75%以上;③快速化(Velocity):數(shù)據(jù)產(chǎn)生速度快,要求極高的處理能力。Facebook每天有超過1 000萬張照片上傳,YouTube平均1秒就有一個(gè)時(shí)間長(zhǎng)度1小時(shí)以上的視頻在上傳。數(shù)據(jù)是快速動(dòng)態(tài)演化的,具有很強(qiáng)的時(shí)效性,因此處理效率就是企業(yè)的生命,只有在有效時(shí)間內(nèi)對(duì)數(shù)據(jù)流進(jìn)行處理,才能很好地利用這些數(shù)據(jù)。
1 網(wǎng)絡(luò)大數(shù)據(jù)研究意義
當(dāng)前全球已經(jīng)全面進(jìn)入信息時(shí)代,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算以及網(wǎng)絡(luò)空間中層出不窮的各種應(yīng)用,使網(wǎng)絡(luò)數(shù)據(jù)以前所未有的速度激增,數(shù)據(jù)類型越來越復(fù)雜,對(duì)網(wǎng)絡(luò)數(shù)據(jù)的深度挖掘和利用可以幫人們很好地感知現(xiàn)在、預(yù)測(cè)未來。對(duì)網(wǎng)絡(luò)大數(shù)據(jù)研究的意義主要體現(xiàn)在以下3個(gè)方面:
(1)大數(shù)據(jù)資源是一個(gè)國家繼海、陸、空、天之后另一個(gè)博弈的空間,是數(shù)字主權(quán)的象征。一個(gè)國家在數(shù)據(jù)資源方面的落后,意味著其在產(chǎn)業(yè)戰(zhàn)略制高點(diǎn)的失守,意味著國家安全在網(wǎng)絡(luò)空間可能會(huì)出現(xiàn)漏洞,大數(shù)據(jù)直接影響著國家安全、社會(huì)穩(wěn)定。2012年3月,美國政府制定了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,投資2億美元用于改進(jìn)和提高從海量數(shù)據(jù)中獲取知識(shí)的能力,這是美國繼1993年制定“信息高速公路”計(jì)劃后又一重大科技戰(zhàn)略部署。同年5月,英國建立了世界上第一個(gè)大數(shù)據(jù)研究所。西方國家正在通過國家頂層推動(dòng)對(duì)大數(shù)據(jù)的研究,加強(qiáng)對(duì)大數(shù)據(jù)的研究及應(yīng)用對(duì)提高國家競(jìng)爭(zhēng)力具有戰(zhàn)略意義。
(2)網(wǎng)絡(luò)大數(shù)據(jù)的研究利用已經(jīng)成為產(chǎn)業(yè)升級(jí)和新產(chǎn)業(yè)產(chǎn)生的重要推動(dòng)力。通過挖掘網(wǎng)絡(luò)大數(shù)據(jù),從中發(fā)現(xiàn)其蘊(yùn)含的信息、知識(shí)甚至智慧。網(wǎng)絡(luò)大數(shù)據(jù)已不僅僅是產(chǎn)業(yè)所產(chǎn)生的副產(chǎn)品,而是聯(lián)系產(chǎn)業(yè)生產(chǎn)各環(huán)節(jié)的關(guān)鍵。2011年“雙十一”,淘寶網(wǎng)站當(dāng)天的銷售總額達(dá)到191億元人民幣,淘寶之所以能夠創(chuàng)造如此巨大交易量的商業(yè)神話,得益于其對(duì)用戶消費(fèi)習(xí)慣、瀏覽習(xí)慣和搜索習(xí)慣等大數(shù)據(jù)的分析挖掘。網(wǎng)絡(luò)大數(shù)據(jù)正在成為信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)的新引擎,成為提高企業(yè)競(jìng)爭(zhēng)力的新動(dòng)力。
(3)大數(shù)據(jù)引起科學(xué)界重新審視科學(xué)研究方法論,引發(fā)了一種新的科學(xué)研究模式??茖W(xué)研究最初是實(shí)驗(yàn)科學(xué),后來出現(xiàn)理論科學(xué),研究各種定理定律。但是在許多問題上,理論研究方法太復(fù)雜而難以解決問題。而大數(shù)據(jù)的出現(xiàn)使科研人員可以直接從數(shù)據(jù)中挖掘所需的信息、知識(shí)和智慧,而無需直接接觸需要研究的對(duì)象。2007年,已故圖靈獎(jiǎng)得主吉姆格雷將數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中分離出來,描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”[3],他認(rèn)為要解決某些全球最棘手的挑戰(zhàn),第四范式可能是具有系統(tǒng)性的唯一方法。PB級(jí)數(shù)據(jù)使人們沒有假設(shè)和模型,就可以通過分析挖掘發(fā)現(xiàn)過去科學(xué)方法發(fā)現(xiàn)不了的新知識(shí)和新規(guī)律。
2 網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用
網(wǎng)絡(luò)大數(shù)據(jù)特別是來自社交網(wǎng)絡(luò)的數(shù)據(jù)蘊(yùn)含著豐富的信息,是對(duì)真實(shí)社會(huì)的網(wǎng)絡(luò)映射。分析挖掘網(wǎng)絡(luò)大數(shù)據(jù)發(fā)現(xiàn)其蘊(yùn)含的線索和規(guī)律,可以幫助人們更好地感知現(xiàn)在,并預(yù)測(cè)未來事物發(fā)展趨勢(shì)。一個(gè)很好的例子是2009年H1N1流感病毒傳播的預(yù)測(cè)。美國衛(wèi)生部官員使用傳統(tǒng)跟蹤方式跟不上流感的傳播,但是谷歌工程師們使用網(wǎng)絡(luò)搜索主題成功預(yù)測(cè)了流感傳播區(qū)域,這為衛(wèi)生系統(tǒng)提供了相當(dāng)有價(jià)值的實(shí)時(shí)數(shù)據(jù)。
通過分析海量網(wǎng)絡(luò)大數(shù)據(jù)可以幫助人們作出更好的決策。奧巴馬的競(jìng)選團(tuán)隊(duì)通過對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的挖掘成功幫助奧巴馬在競(jìng)選總統(tǒng)中獲得連任。奧巴馬團(tuán)隊(duì)在競(jìng)選前兩年,通過收集、存儲(chǔ)海量數(shù)據(jù),利用數(shù)字化策略尋找和鎖定傾向自己的選民,并拉攏中立派選民,這幫助奧巴馬在某些地區(qū)獲得更多的選票,數(shù)據(jù)分析團(tuán)隊(duì)在奧巴馬競(jìng)選中發(fā)揮了至關(guān)重要的作用。華爾街一家證券公司通過分析3.4億微博用戶的留言,判斷民眾的情緒,根據(jù)人們高興時(shí)買股票,焦慮時(shí)拋售股票的規(guī)律,決定買賣股票的時(shí)機(jī),從而為公司取得了巨大利潤(rùn)。
3 網(wǎng)絡(luò)大數(shù)據(jù)面臨的挑戰(zhàn)
3.1 網(wǎng)絡(luò)大數(shù)據(jù)感知與表示
一方面,根據(jù)網(wǎng)絡(luò)空間中數(shù)據(jù)隱藏的深度,可以將數(shù)據(jù)分為表層數(shù)據(jù)和深層數(shù)據(jù)[4]。表層數(shù)據(jù)是指可以通過傳統(tǒng)網(wǎng)頁爬蟲直接爬取的數(shù)據(jù),而深層數(shù)據(jù)由網(wǎng)頁在線訪問的數(shù)據(jù)庫組成,只有通過提交頁面的查詢接口才能獲取。與表層數(shù)據(jù)相比,深層數(shù)據(jù)蘊(yùn)含的信息更豐富,同時(shí)更具規(guī)?;?shí)時(shí)動(dòng)態(tài)化和異構(gòu)化等特點(diǎn),傳統(tǒng)方法無法對(duì)深層數(shù)據(jù)進(jìn)行采樣。為了有效利用網(wǎng)絡(luò)數(shù)據(jù),針對(duì)異構(gòu)、實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù),需要研究有效的方法通過數(shù)據(jù)獲取、數(shù)據(jù)抽取、數(shù)據(jù)整合3個(gè)環(huán)節(jié)將數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)統(tǒng)一的高質(zhì)量數(shù)據(jù)。
另一方面,網(wǎng)絡(luò)大數(shù)據(jù)的建模和表達(dá)還面臨著許多新挑戰(zhàn),傳統(tǒng)方法不一定能直接表達(dá)大數(shù)據(jù)本身的意義。在大數(shù)據(jù)表示方面,需要解決數(shù)據(jù)稀疏性所帶來的問題,對(duì)快速動(dòng)態(tài)演化的大數(shù)據(jù)進(jìn)行建模,需要對(duì)圖片和多媒體數(shù)據(jù)進(jìn)行建模和表示等。研究簡(jiǎn)單有效的數(shù)據(jù)表示方法是處理網(wǎng)絡(luò)大數(shù)據(jù)的首要難題。
3.2 網(wǎng)絡(luò)大數(shù)據(jù)存儲(chǔ)與管理
網(wǎng)絡(luò)大數(shù)據(jù)的規(guī)模已經(jīng)從TB級(jí)增長(zhǎng)到PB級(jí)、EB級(jí),網(wǎng)絡(luò)大數(shù)據(jù)的存儲(chǔ)管理不僅影響其分析處理效率,也影響其存儲(chǔ)成本。因此,如何提高存儲(chǔ)效率降低存儲(chǔ)成本成為有效利用網(wǎng)絡(luò)大數(shù)據(jù)面臨的又一個(gè)難題。針對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的存儲(chǔ),谷歌公司提出了分布式數(shù)據(jù)處理技術(shù),但是其仍然存在局限性,面臨著數(shù)據(jù)總量規(guī)模超大、處理速度要求高、數(shù)據(jù)類型繁多等多個(gè)難題。需要研究?jī)?yōu)化分布式數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),以提高網(wǎng)絡(luò)大數(shù)據(jù)的存儲(chǔ)效率、節(jié)約成本,從而實(shí)現(xiàn)高效、高可用的數(shù)據(jù)存儲(chǔ)系統(tǒng)。
3.3 網(wǎng)絡(luò)大數(shù)據(jù)挖掘和社會(huì)計(jì)算
利用計(jì)算技術(shù)分析挖掘網(wǎng)絡(luò)大數(shù)據(jù),發(fā)現(xiàn)其蘊(yùn)含的知識(shí),是實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)深層價(jià)值和實(shí)現(xiàn)行為可計(jì)算的主要途徑。隨著社會(huì)媒體的涌現(xiàn),用戶規(guī)模和數(shù)據(jù)復(fù)雜性都呈現(xiàn)出指數(shù)式增長(zhǎng),傳統(tǒng)的數(shù)據(jù)挖掘方法在性能和效率上已經(jīng)無法滿足需求。目前,網(wǎng)絡(luò)大數(shù)據(jù)挖掘的主要研究熱點(diǎn)是基于內(nèi)容信息的數(shù)據(jù)挖掘和基于結(jié)構(gòu)信息的社會(huì)計(jì)算方法。
4 結(jié)語
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算的快速發(fā)展以及層出不窮的網(wǎng)絡(luò)應(yīng)用,引發(fā)了網(wǎng)絡(luò)數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng),從而產(chǎn)生了網(wǎng)絡(luò)大數(shù)據(jù)。網(wǎng)絡(luò)大數(shù)據(jù)的研究主要是通過分析挖掘歷史數(shù)據(jù),發(fā)現(xiàn)新的模式,再結(jié)合源源不斷的流數(shù)據(jù),感知現(xiàn)在,并預(yù)測(cè)未來。網(wǎng)絡(luò)大數(shù)據(jù)的研究是經(jīng)濟(jì)發(fā)展和國家安全的戰(zhàn)略需要,網(wǎng)絡(luò)大數(shù)據(jù)的涌現(xiàn)為人們提供了前所未有的機(jī)遇,但也對(duì)人們提出了重大挑戰(zhàn)。網(wǎng)絡(luò)大數(shù)據(jù)的研究尚處于初級(jí)階段,還有很多問題亟待解決。
參考文獻(xiàn):
[1] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重要戰(zhàn)略領(lǐng)域[J].中國科學(xué)院院刊,2012,27(6):647657.
[2] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與挑戰(zhàn)[J].計(jì)算機(jī)學(xué)報(bào),2013,36(6):115.
[3] ANTHONY J G HEY.The fourth paradigm:data-intensive scientific discovery[J].Proceedings of the IEEE,2011,99(9):13441377.
[4] BERGMAN M K.White paper:the deep web: surfacing hidden value[J].Journal of Electronic Publishing,2000,50(1):476481.
(責(zé)任編輯:孫 娟)