佚名
云計(jì)算已經(jīng)成為近些年我國(guó)科學(xué)技術(shù)領(lǐng)域高速發(fā)展的重要推動(dòng)力來(lái)源,對(duì)于互聯(lián)網(wǎng)科技、云技術(shù)以及IT通信領(lǐng)域來(lái)說(shuō),通過(guò)眾多領(lǐng)域的不斷云化,已經(jīng)讓很多應(yīng)用開始變得更加靈活和高效。我們都知道,隨著當(dāng)前每日數(shù)據(jù)量的遞增,用戶對(duì)于海量數(shù)據(jù)的服務(wù)能力已經(jīng)開始變得十分關(guān)注。與此同時(shí)也有一些業(yè)內(nèi)專家表示,網(wǎng)絡(luò)大數(shù)據(jù)帶給我們機(jī)遇的同時(shí),也帶來(lái)了困擾。
網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用廣泛,無(wú)論是經(jīng)濟(jì)發(fā)展領(lǐng)域還是軍事、文化發(fā)展領(lǐng)域,網(wǎng)絡(luò)大數(shù)據(jù)都發(fā)揮著重要作用。加強(qiáng)網(wǎng)絡(luò)大數(shù)據(jù)研究對(duì)維護(hù)國(guó)家網(wǎng)絡(luò)空間數(shù)字主權(quán),保證經(jīng)濟(jì)、文化穩(wěn)定持續(xù)發(fā)展,提高國(guó)民經(jīng)濟(jì)競(jìng)爭(zhēng)力,實(shí)現(xiàn)科技突破等都有著至關(guān)重要的作用。無(wú)論是直接影響還是間接影響,加強(qiáng)網(wǎng)絡(luò)大數(shù)據(jù)研究都十分必要。
大數(shù)據(jù)研究
助力數(shù)字主權(quán)保護(hù)
隨著近些年我國(guó)逐漸步入信息化時(shí)代,我國(guó)綜合實(shí)力的競(jìng)爭(zhēng)也正在大數(shù)據(jù)的推動(dòng)下加快了腳步。作為一個(gè)發(fā)展大國(guó)重要的博弈空間,若我國(guó)網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用落后,就會(huì)直接影響我國(guó)占領(lǐng)產(chǎn)業(yè)戰(zhàn)略制高點(diǎn),出現(xiàn)網(wǎng)絡(luò)空間發(fā)展不足的情況,影響國(guó)家數(shù)據(jù)使用安全。
“人、機(jī)、物”三元世界的交互發(fā)展產(chǎn)生了大量的數(shù)據(jù)。為了充分實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的感知和利用價(jià)值,國(guó)民經(jīng)濟(jì)發(fā)展過(guò)程中必須有效地解決對(duì)大規(guī)模數(shù)據(jù)的測(cè)量和應(yīng)用,以促進(jìn)各行業(yè)數(shù)字化和信息化的發(fā)展,解決行業(yè)發(fā)展過(guò)程中出現(xiàn)的網(wǎng)絡(luò)大數(shù)據(jù)爆炸阻礙。因此加強(qiáng)網(wǎng)絡(luò)大數(shù)據(jù)研究,解決大數(shù)據(jù)基本共性問題十分重要。
信息時(shí)代背景下在科學(xué)技術(shù)上實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)的技術(shù)研究突破,能促進(jìn)數(shù)據(jù)服務(wù)以及數(shù)據(jù)材料等相關(guān)戰(zhàn)略性新興產(chǎn)業(yè)的興起與發(fā)展。實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)的技術(shù)研究和科技突破,能使人們更清楚地認(rèn)識(shí)數(shù)據(jù)交互連接的復(fù)雜問題,并準(zhǔn)確地把握數(shù)據(jù)冗余與缺失等不確定性特性,能夠更好地實(shí)現(xiàn)對(duì)高速增長(zhǎng)數(shù)據(jù)的駕馭。
網(wǎng)絡(luò)大數(shù)據(jù)如何感知
這是一個(gè)令業(yè)界十分關(guān)注的問題。按照網(wǎng)絡(luò)空間中數(shù)據(jù)的蘊(yùn)藏深度,整個(gè)網(wǎng)絡(luò)空間可劃分為Surface Web和Deep Web(或稱作Hidden Web)。Surface Web是指Web中通過(guò)超鏈接可被傳統(tǒng)搜索引擎獲取到的靜態(tài)頁(yè)面,而Deep Web則由Web中可在線訪問的數(shù)據(jù)庫(kù)組成。Deep Web的數(shù)據(jù)隱藏在Web數(shù)據(jù)庫(kù)提供的查詢接口后面,只有通過(guò)向查詢接口提交查詢才能獲得。
與Surface Web相比,Deep Web所包含的信息更加豐富。與此同時(shí),Deep Web具有規(guī)模大、實(shí)時(shí)動(dòng)態(tài)變化、異構(gòu)性、分布性以及訪問方式特殊等特點(diǎn)。
網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜性使其諸多環(huán)節(jié)操作運(yùn)行難度增加,包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析處理以及數(shù)據(jù)深度挖掘等。大數(shù)據(jù)的復(fù)雜性又包括其類型的復(fù)雜,如社交網(wǎng)絡(luò)與傳統(tǒng)文本數(shù)據(jù)的相互發(fā)展,使其類型更加豐富;數(shù)據(jù)結(jié)構(gòu)復(fù)雜,包括移動(dòng)技術(shù)以及社交技術(shù)發(fā)展下形成的結(jié)構(gòu)數(shù)據(jù)流以及非結(jié)構(gòu)化數(shù)據(jù)流,具體形式包括文本、圖像等,這給網(wǎng)絡(luò)大數(shù)據(jù)管理與分析帶來(lái)了難度。
海量數(shù)據(jù)存儲(chǔ)問題
就我們目前所掌握的數(shù)據(jù)處理規(guī)模和存儲(chǔ)能力來(lái)說(shuō),我們已經(jīng)實(shí)現(xiàn)了從TB級(jí)別到PB級(jí)別甚至是EB級(jí)別的跨越。在實(shí)現(xiàn)等級(jí)上升后,為更好地實(shí)現(xiàn)對(duì)數(shù)據(jù)存儲(chǔ)成本的控制,實(shí)現(xiàn)計(jì)算資源優(yōu)化利用,以及提高系統(tǒng)整體的并發(fā)吞吐率,要積極地探究出更加有效的存儲(chǔ)模式,實(shí)現(xiàn)目前網(wǎng)絡(luò)大數(shù)據(jù)分布式數(shù)據(jù)存儲(chǔ)方式。
Hadoop系統(tǒng)在Yahoo、IBM、百度、Facebook等公司得到了大量應(yīng)用和快速發(fā)展,但作為新興的技術(shù)體系,分布式數(shù)據(jù)處理技術(shù)在支持大規(guī)模網(wǎng)絡(luò)信息處理及應(yīng)用等大數(shù)據(jù)計(jì)算應(yīng)用能力方面還存在很多不足。
分布式數(shù)據(jù)存儲(chǔ)是網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用的一個(gè)重要環(huán)節(jié)。但之前的研究工作仍存在著一些局限性。針對(duì)海量數(shù)據(jù)存儲(chǔ)和處理所面臨的數(shù)據(jù)總量超大規(guī)模、處理速度要求高和數(shù)據(jù)類型異質(zhì)多樣等難題,需要開發(fā)支持?jǐn)U展度高、深度處理的PB級(jí)以上分布式數(shù)據(jù)存儲(chǔ)框架,同時(shí)需要研究適應(yīng)數(shù)據(jù)布局分布的存儲(chǔ)結(jié)構(gòu)優(yōu)化方法,以提高網(wǎng)絡(luò)大數(shù)據(jù)存儲(chǔ)和處理效率,降低系統(tǒng)建設(shè)成本,從而實(shí)現(xiàn)高效、高可用的網(wǎng)絡(luò)大數(shù)據(jù)分布式存儲(chǔ)。
海量數(shù)據(jù)以及各種應(yīng)用的全面云化已經(jīng)正在成為未來(lái)IT信息化發(fā)展的必然趨勢(shì),同時(shí)從很多企業(yè)用戶角度,我們也不難發(fā)現(xiàn),通過(guò)云計(jì)算技術(shù)在應(yīng)用端的不斷壯大,已經(jīng)使用戶的感知程度大大提升,同時(shí)這對(duì)于技術(shù)的不斷創(chuàng)新也具有重要的推動(dòng)意義。