李蕭瑋
摘要
本文以大數(shù)據(jù)時(shí)代為背景,對(duì)大數(shù)據(jù)處理系統(tǒng)與大數(shù)據(jù)分析技術(shù)的發(fā)展現(xiàn)狀進(jìn)行了簡(jiǎn)單的綜述,并梳理了大數(shù)據(jù)計(jì)算面臨的問(wèn)題,通過(guò)翻閱大量文獻(xiàn)總結(jié)相應(yīng)的解決方案。
【關(guān)鍵詞】大數(shù)據(jù) 大數(shù)據(jù)處理系統(tǒng) 技術(shù)分析
“大數(shù)據(jù)(Big Data)”一詞自2008年被提出至今,很多領(lǐng)域以及企業(yè)均在投入大量精力對(duì)它進(jìn)行研究并有效利用。在這個(gè)信息爆炸的時(shí)代,數(shù)據(jù)已經(jīng)滲透到各行各業(yè),對(duì)于如何有效發(fā)掘并使用大數(shù)據(jù)已成為誰(shuí)會(huì)各界關(guān)注的焦點(diǎn)?;诖?,很有必要將大數(shù)據(jù)處理系統(tǒng)作為重點(diǎn)研究對(duì)象,并就當(dāng)今計(jì)算系統(tǒng)面臨的挑戰(zhàn)提出相應(yīng)的解決方案,為提升數(shù)據(jù)計(jì)算效率、增加處理系統(tǒng)有效性提供相應(yīng)的參考與借鑒。
1 大數(shù)據(jù)處理系統(tǒng)
大數(shù)據(jù)處理系統(tǒng)根據(jù)大批數(shù)據(jù)分析適合的模式,制定相對(duì)應(yīng)的策略后制定出科學(xué)的應(yīng)對(duì)措施,以實(shí)現(xiàn)特定的業(yè)務(wù)目標(biāo)。目前,靜態(tài)數(shù)據(jù)的批量處理、在線數(shù)據(jù)的實(shí)時(shí)處理和圖數(shù)據(jù)的綜合處理是人們對(duì)大數(shù)據(jù)處理的主要形式。不同的數(shù)據(jù)處理形式特征和代表性對(duì)應(yīng)相當(dāng)?shù)臄?shù)據(jù)處理系統(tǒng)。
1.1 批量數(shù)擔(dān)處理系統(tǒng)
批量數(shù)據(jù)處理系統(tǒng)比較適用于先儲(chǔ)存后計(jì)算,對(duì)于實(shí)時(shí)處理方面沒(méi)有過(guò)高要求,但需要較高的數(shù)據(jù)準(zhǔn)確性和完整性。通過(guò)大量閱讀大量文章后可發(fā)現(xiàn),數(shù)據(jù)量龐大、儲(chǔ)存時(shí)間長(zhǎng)、處理時(shí)耗長(zhǎng)和數(shù)據(jù)角度高等是批量數(shù)據(jù)處理系統(tǒng)的特征,該處理系統(tǒng)普遍適用于相對(duì)成熟的大型企業(yè),且主要應(yīng)用于社交網(wǎng)絡(luò)、電子商務(wù)、搜索引擎等領(lǐng)域。
2003年,Google公司研發(fā)了GFS文件系統(tǒng),以及2004年研發(fā)了MapReduce變成模型,由于這兩款批量數(shù)據(jù)處理系統(tǒng)的特有魅力引起了各界的很大反響。2006年Nutch項(xiàng)目的Hadoop順應(yīng)現(xiàn)代IT公司的一致需求實(shí)現(xiàn)了HDFS和MapReduce.Hadoop兩種典型的大數(shù)據(jù)批量處理架構(gòu),HDFS和由HDFS負(fù)責(zé)靜態(tài)數(shù)據(jù)的存儲(chǔ),并通過(guò)MapReduce將計(jì)算邏輯分配到各數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)計(jì)算和價(jià)值發(fā)現(xiàn)。
1.2 流式數(shù)據(jù)處理系統(tǒng)
2010年,Google公司針對(duì)批量數(shù)據(jù)處理系統(tǒng)的問(wèn)題推出了Dremel,將數(shù)據(jù)處理方式向著實(shí)時(shí)性邁進(jìn)了一步。Teitter推出的Storm系統(tǒng)就是典型的流式數(shù)據(jù)處理系統(tǒng),該套系統(tǒng)消息傳遞于處理響應(yīng)速度很快,對(duì)數(shù)據(jù)進(jìn)行連續(xù)計(jì)算、查詢后將結(jié)果以流量的方式發(fā)送給用戶,可確保消息的完整性。另外,Linkedin推出的Kafka的消息隊(duì)列為許多流式數(shù)據(jù)處理系統(tǒng)提供了信息處理模塊。2013年,Linkedin基于此研發(fā)了Samza流式數(shù)據(jù)處理框架。高容錯(cuò)率、高可靠性和可擴(kuò)展性等特點(diǎn)使得Samza數(shù)據(jù)處理系統(tǒng)受到廣泛關(guān)注。
2 大數(shù)據(jù)分析技術(shù)
大數(shù)據(jù)分析技術(shù)就是對(duì)收集到的大數(shù)據(jù)進(jìn)行儲(chǔ)存、分析及可視化操作的技術(shù)。大數(shù)據(jù)的分析以深度學(xué)習(xí)和知識(shí)計(jì)算為基礎(chǔ),以可視化作為數(shù)據(jù)分析結(jié)果呈現(xiàn)的關(guān)鍵技術(shù)。
2.1 深度學(xué)習(xí)
深度學(xué)習(xí)利用層次化對(duì)的構(gòu)架學(xué)習(xí)出對(duì)象在不同層次上的表達(dá),已達(dá)到有效的表達(dá)和學(xué)習(xí)圖像、聲音和文本數(shù)據(jù)等媒體。2009年,微軟研究院的Dahl在語(yǔ)音方面使用DNN深度神經(jīng)網(wǎng)絡(luò),使得語(yǔ)音處理成為深度學(xué)習(xí)的第一領(lǐng)域。2012年,Hinton等人使用CNN卷積神經(jīng)網(wǎng)絡(luò)將圖像拾取的錯(cuò)誤率從26%講到了15%。2013年,F(xiàn)acebook人工智能實(shí)驗(yàn)室的Taigman等人利用神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別的技術(shù)上取得了很好的效果。
2.2 知識(shí)計(jì)算
知識(shí)計(jì)算是國(guó)內(nèi)外學(xué)術(shù)界研究的一個(gè)熱點(diǎn),從大數(shù)據(jù)中抽取出有價(jià)值的知識(shí),構(gòu)建成可支持查詢、分析和計(jì)算知識(shí)庫(kù)。在國(guó)外存在許多支持知識(shí)計(jì)算的基礎(chǔ)是構(gòu)建知識(shí)庫(kù)。如EVi公司的TureKnowledge知識(shí)搜索平臺(tái),美國(guó)Data.gov,Wolfrair的知識(shí)計(jì)算平臺(tái),F(xiàn)acebook推出的搜索服務(wù)Graph Search等。在國(guó)內(nèi),具有代表性的知識(shí)平臺(tái)有中國(guó)科學(xué)院的陸汝鈴院士提出的知件(knowware),上海交通大學(xué)構(gòu)建的中文知識(shí)圖譜平臺(tái)zhishi.me,百度推出了中文知識(shí)圖譜搜索,搜狗推出的知立方平臺(tái),復(fù)旦大學(xué)GDM實(shí)驗(yàn)室推出的中文知識(shí)圖譜展示平臺(tái)等。
2.3 可視化
2005年,提出了一種可通過(guò)交互可視界面分析、決策數(shù)據(jù)的科學(xué)方法,將可視化和數(shù)據(jù)處理相結(jié)合為用戶提供大規(guī)模數(shù)據(jù)解決的方案。2011年,俄羅斯工程師Ruslan Inikeev將幾百個(gè)國(guó)家十幾萬(wàn)的數(shù)據(jù)整合聯(lián)系起來(lái),建立了互聯(lián)網(wǎng)宇宙。2004年,Vigas提出的歷史流圖(History Flow),利用可視化文檔編輯記錄廣大用戶對(duì)公開(kāi)文檔的修改,使得很容易看出每個(gè)人對(duì)這篇文檔的貢獻(xiàn)。2007年,Kaser提出的標(biāo)簽云(Tag Cloud),根據(jù)其熱門程度標(biāo)識(shí)字體的大小和顏色,通過(guò)頻率高低來(lái)標(biāo)簽標(biāo)識(shí)不同對(duì)象,方便用戶按照熱門程度來(lái)查找信息。
3 大數(shù)據(jù)面臨的挑戰(zhàn)與應(yīng)對(duì)之策
3.1 數(shù)據(jù)的安全與隱私帶來(lái)的挑戰(zhàn)
大數(shù)據(jù)應(yīng)用的領(lǐng)域愈加廣泛,尤其在互聯(lián)網(wǎng)上的數(shù)據(jù)信息安全更值得注意。比如在網(wǎng)站中需輸入用戶密碼、身份證號(hào)、銀行卡號(hào)等用戶的個(gè)人信息,通過(guò)這些數(shù)據(jù)可以輕易挖掘出用戶的行為習(xí)慣和個(gè)人信息,如若運(yùn)用不當(dāng)遭到不法分子的竊取,將會(huì)帶來(lái)個(gè)人信息、財(cái)產(chǎn)等安全性問(wèn)題。針對(duì)這一類問(wèn)題,2006年,Dwork提出了一種差分隱私方法。2010年,Roy等提出了隱私保護(hù)系統(tǒng)Airavat.Lindell等提出了保護(hù)隱私的數(shù)據(jù)挖掘概念,防止數(shù)據(jù)處理過(guò)程中的隱私泄露。
3.2 計(jì)算復(fù)雜性帶來(lái)的挑戰(zhàn)
大數(shù)據(jù)具有結(jié)構(gòu)多層次,存儲(chǔ)量巨大、速度快等特點(diǎn),這些特點(diǎn)導(dǎo)致過(guò)去的機(jī)器在信息檢索及數(shù)據(jù)采集方面上不能夠有效地進(jìn)行數(shù)據(jù)分析和計(jì)算。這就要求我們?cè)谶M(jìn)行大數(shù)據(jù)計(jì)算中,需對(duì)它的可行性、有效性進(jìn)行評(píng)估,這是核心問(wèn)題,也為大數(shù)據(jù)的研究工作帶來(lái)了挑戰(zhàn)。為了克服這種挑戰(zhàn),需根據(jù)大數(shù)據(jù)的特性,以數(shù)據(jù)為中心對(duì)計(jì)算模式進(jìn)行改進(jìn),去除傳統(tǒng)計(jì)算理念的糟粕,通過(guò)對(duì)大數(shù)據(jù)理論的深入研究建立起更為規(guī)范化的推送式的數(shù)據(jù)模式,利用大量數(shù)據(jù)建立起牢固的計(jì)算理論基礎(chǔ)。
4 結(jié)語(yǔ)
綜上所述可以看出,在這個(gè)信息爆炸的時(shí)代,各行各業(yè)都在跟數(shù)據(jù)打交道,大數(shù)據(jù)時(shí)代己然來(lái)臨,充分了解并認(rèn)知大數(shù)據(jù)有著非常重要的意義。通過(guò)大量閱讀國(guó)內(nèi)外文獻(xiàn),本文對(duì)近幾年來(lái)國(guó)內(nèi)外大數(shù)據(jù)的處理系統(tǒng)及技術(shù)進(jìn)行了較為全面的總結(jié),并針對(duì)存在于大數(shù)據(jù)研究中的隱私安全性、計(jì)算復(fù)雜性等挑戰(zhàn)做出了相應(yīng)的解決方案。
參考文獻(xiàn)
[1]程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,09:1889-1908.
[2]吳卉男.大數(shù)-M系統(tǒng)和分析技術(shù)綜述[J].信息記錄材料,2016,17(03):2-4.