周丹妮 唐鴻霞
(1.西華大學(xué) 西華學(xué)院,四川 成都 610039;2.西華大學(xué) 計(jì)算機(jī)與軟件工程學(xué)院,四川 成都 610039)
時(shí)代和科技的發(fā)展使人類進(jìn)入了信息時(shí)代,各種信息數(shù)據(jù)和更新速度以成倍增長的形式出現(xiàn),信息時(shí)代催生了一個(gè)新時(shí)代,即大數(shù)據(jù)時(shí)代。誠然,大數(shù)據(jù)時(shí)代已經(jīng)到來,各方面的動(dòng)態(tài)數(shù)據(jù)圍繞著人們的生活。通過新技術(shù)將生活中的數(shù)據(jù)捕捉并匯聚起來,為未來的發(fā)展提供可靠、有效的數(shù)據(jù),也為大數(shù)據(jù)時(shí)代打下堅(jiān)實(shí)的基礎(chǔ)。大數(shù)據(jù)時(shí)代給人們生活帶來便利的同時(shí),也存在著諸多挑戰(zhàn)。任一事物都具有兩面性,我們應(yīng)擇其善者而從之,其不善者而改之[1-3]。
大數(shù)據(jù),又稱海量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[4-6]。事實(shí)上,“大數(shù)據(jù)”是從越來越多的數(shù)據(jù)中衍生出來的一種現(xiàn)象,因而在行業(yè)中沒有統(tǒng)一的定義。每個(gè)供應(yīng)商或者用戶,站在不同的角度,都會(huì)有自己不同的理解。對投資者和創(chuàng)業(yè)家而言,大數(shù)據(jù)是一個(gè)熱門的融資標(biāo)簽;對于大多數(shù)互聯(lián)網(wǎng)公司或者工程師而言,大數(shù)據(jù)只不過是把一堆亂七八糟的數(shù)據(jù)扔到HDFS上面,然后進(jìn)行計(jì)算;可是對消費(fèi)者或所謂的互聯(lián)網(wǎng)用戶來說,大數(shù)據(jù)是盡量搜集跟終端消費(fèi)者相關(guān)的隱私,然后進(jìn)行營銷。
第一,海量性,即數(shù)據(jù)量巨大。截止到2012 年,數(shù)據(jù)量級已經(jīng)從TB(240字節(jié))級別躍遷到PB(250字節(jié))、EB(260字節(jié))乃至ZB(270 字節(jié))級別,可稱巨量甚至超量。據(jù)國際數(shù)據(jù)公司(IDC)的報(bào)告預(yù)測稱,2020 年全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將擴(kuò)大50 倍。
第二,多樣性,即多種數(shù)據(jù)類型。數(shù)據(jù)不僅包括了網(wǎng)絡(luò)日志、互聯(lián)網(wǎng)搜索記錄、圖片信息、手機(jī)通話記錄,還包括了音頻、視頻、位置等信息[7]。
第三,高速性,即創(chuàng)建和移動(dòng)數(shù)據(jù)的速度快。由于數(shù)據(jù)和信息更新的空前快速發(fā)展,信息的價(jià)值存在時(shí)間非常短,為搜集具有價(jià)值且能夠利用的信息,必須在很短的時(shí)間內(nèi)摒棄大量數(shù)據(jù)中的無用信息,所以數(shù)據(jù)往往為高速實(shí)時(shí)數(shù)據(jù)流。
第四,易變性。大數(shù)據(jù)擁有多層結(jié)構(gòu),這就意味著大數(shù)據(jù)會(huì)出現(xiàn)多變的形式。相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)有模糊不清和不規(guī)則的特點(diǎn),因此使用傳統(tǒng)的應(yīng)用軟件進(jìn)行分析非常困難。
第一,多樣化。相較于以文本為主的結(jié)構(gòu)化數(shù)據(jù),網(wǎng)頁、圖片、視頻、音頻及位置信息等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)愈來愈多。
第二,速度快時(shí)效高。和傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)的效率更高,在數(shù)據(jù)處理方面有一個(gè)著名的“一秒定律”,即要在秒級時(shí)間內(nèi)分析出結(jié)果,若超出這個(gè)時(shí)間,數(shù)據(jù)就失去價(jià)值了。其次,“快”有兩個(gè)層面:數(shù)據(jù)產(chǎn)生快和處理快,因而對數(shù)據(jù)時(shí)效性的要求也提高了。
第三,價(jià)值密度相對較低,即有價(jià)值的數(shù)據(jù)比例小,猶如大海里的一根針。以視頻為例,在連續(xù)不間斷的監(jiān)控中,有重大價(jià)值的數(shù)據(jù)流可能只有幾分鐘,甚至僅僅只在那一兩秒中。
繼云計(jì)算、物聯(lián)網(wǎng)之后,大數(shù)據(jù)在人們毫不察覺的情況下已經(jīng)悄悄滲透進(jìn)了人們的日常生活中,它帶來的是前所未有的信息大爆炸,它不僅改變了互聯(lián)網(wǎng)的數(shù)據(jù)應(yīng)用模式,還深深地影響著人們生活的方方面面。
目前,大數(shù)據(jù)廣泛應(yīng)用于電子商務(wù)領(lǐng)域,且應(yīng)用模式已經(jīng)成熟。例如我們所熟知的淘寶網(wǎng),正是通過建立大數(shù)據(jù)平臺(tái),監(jiān)測用戶的行為,對數(shù)據(jù)進(jìn)行記錄并分析,精確把控用戶的喜好,從而提升用戶的購物體驗(yàn)感。例如,針對不同用戶的喜好和瀏覽記錄,網(wǎng)站將在其首頁為該用戶推薦適合的商品,這就能提高用戶的購物效率和忠誠度。這就是為什么當(dāng)我們在網(wǎng)上購物時(shí),頁面總是會(huì)顯示我們最想購買的商品類型,而淘寶網(wǎng)也正因?yàn)樵谶@基礎(chǔ)上進(jìn)行營銷,所以取得了較好的業(yè)績。
大數(shù)據(jù)已應(yīng)用于公共汽車、出租車出行等交通領(lǐng)域?,F(xiàn)階段的交通出行令很多人頭疼,對天氣、人流量、路況等情況的考慮往往顧此失彼。大數(shù)據(jù)則可根據(jù)天氣、人流量及路況等進(jìn)行綜合性分析,推測交通規(guī)律,合理設(shè)計(jì)公交路線,及時(shí)解決交通擁堵的問題,并減輕城市交通負(fù)擔(dān)。如滴滴打車可利用用戶的打車記錄和司機(jī)行車軌跡等數(shù)據(jù)分析結(jié)果,精準(zhǔn)地為乘客匹配合適的司機(jī),提升出行效率。
保障人民生命和健康的醫(yī)療行業(yè)也與大數(shù)據(jù)進(jìn)行了跨界融合。大數(shù)據(jù)能更科學(xué)地劃分醫(yī)療衛(wèi)生體系,緩解看病難的現(xiàn)狀,還能通過大數(shù)據(jù)分析某些疾病的高發(fā)時(shí)期,如流感、麻疹等,提前采取有效措施,減少患病率。例如,谷歌公司通過分析“咳嗽”、“發(fā)燒”等特定詞條來預(yù)測美國冬季流感傳播趨勢,且預(yù)測結(jié)果與官方數(shù)據(jù)的相關(guān)性高達(dá)97%[8]。對于個(gè)人而言,醫(yī)生以前只能對患者的當(dāng)前身體狀況做出判斷,而現(xiàn)在則可對患者的歷史數(shù)據(jù)進(jìn)行分析,并綜合國內(nèi)外治療經(jīng)驗(yàn)、遺傳變異等,為患者提供針對性地治療。
隨著智能手機(jī)的發(fā)展,在社會(huì)安全管理領(lǐng)域內(nèi),通過對手機(jī)數(shù)據(jù)的挖掘,可以搜集熱點(diǎn)事件,挖掘輿論,還可追蹤造謠信息的源頭。同時(shí)通過數(shù)據(jù)信息分析,可發(fā)現(xiàn)案件屬性和犯罪人員屬性的關(guān)聯(lián)規(guī)則,進(jìn)而找到犯罪的規(guī)律、特點(diǎn),預(yù)防和打擊犯罪,保障城市公共安全。
在古代,傳遞信息時(shí)往往會(huì)借助某種工具或面對面進(jìn)行,而如今,人們傳遞信息不必局限于時(shí)間和空間,甚至打破國界,通過網(wǎng)絡(luò)技術(shù)可以實(shí)現(xiàn)多種多樣的資料傳遞,以及查詢各種所需的資料,還可以通過電子郵件等獲取國外最新消息,促進(jìn)國際交流。
手機(jī)和計(jì)算機(jī)的使用已經(jīng)滲透到人們生活的各個(gè)方面,大數(shù)據(jù)使得消息的傳遞和獲取更便捷,但同時(shí)也使國家及個(gè)人的信息安全受到威脅。人們每時(shí)每刻都能產(chǎn)生數(shù)據(jù),而這些數(shù)據(jù)不再具有神秘性和私有性,與之相關(guān)的數(shù)據(jù)也會(huì)在毫不知情的情況下被一些大數(shù)據(jù)公司搜集,且網(wǎng)絡(luò)中還存在著很多風(fēng)險(xiǎn),如木馬病毒、黑客攻擊等,他們像無形的殺手,會(huì)悄無聲息地“綁架”你的系統(tǒng),且需要付費(fèi)才能“解放”你的系統(tǒng),若你不從,他們則會(huì)“撕票”。他們一旦破壞了你的系統(tǒng),會(huì)對系統(tǒng)數(shù)據(jù)進(jìn)行惡意篡改或刪除,且會(huì)造成網(wǎng)絡(luò)癱瘓、甚至系統(tǒng)崩潰,而很多賬號密碼、個(gè)人隱私、文件將會(huì)被泄露,一旦被不法分子利用,將可能會(huì)造成個(gè)人財(cái)產(chǎn)損失,甚至?xí){到個(gè)人的人身安全。例如杭州某民企財(cái)務(wù)給假“老板”匯款數(shù)十萬的案件,此案件就是不法分子利用大數(shù)據(jù)技術(shù)獲取個(gè)人信息,并根據(jù)相關(guān)數(shù)據(jù)分析模仿其行為習(xí)慣,進(jìn)行造假并行騙。更嚴(yán)重的是,一些國家可能會(huì)利用黑客等攻擊來盜取別國機(jī)密,這很可能會(huì)危及國家安全或者給國家?guī)聿槐匾膿p失,2013 年的斯諾塔事件為我們敲響了警鐘,我們更要加強(qiáng)維護(hù)國家的信息安全。
在網(wǎng)絡(luò)還未興起的時(shí)代,信息大部分都以紙質(zhì)存儲(chǔ)為主,浪費(fèi)資源較多,占地空間大,整理較為麻煩。隨著大數(shù)據(jù)的興起,人們將紙質(zhì)存儲(chǔ)改為計(jì)算機(jī)存儲(chǔ),節(jié)約了大量空間和資源,整理也容易了許多。但隨著大數(shù)據(jù)時(shí)代數(shù)據(jù)信息的增長速度日益加快,大數(shù)據(jù)除了數(shù)據(jù)量巨大之外,還意味著擁有龐大的文件數(shù)量,如系統(tǒng)日志、訪問控制列表等,必須需要多臺(tái)機(jī)器同時(shí)提供服務(wù),又由于是文件式讀寫,對元數(shù)據(jù)(描述數(shù)據(jù)屬性的信息)的訪問可能會(huì)比較困難。其次,對于非結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)、檢索都會(huì)存在一定問題,占用空間也較大;對于半結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)、分析都需要轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),難度較大,不利于實(shí)時(shí)處理。最后,傳統(tǒng)的技術(shù)和數(shù)據(jù)庫容量有限,不能處理TB 級別的數(shù)據(jù),時(shí)效性低,對大數(shù)據(jù)的查詢效率極低,這樣會(huì)降低大數(shù)據(jù)的存儲(chǔ)效率及訪問效率。若想使信息技術(shù)繼續(xù)發(fā)展下去,就需要更大的存儲(chǔ)空間,盡管存儲(chǔ)技術(shù)在不斷進(jìn)步,但是在數(shù)據(jù)存儲(chǔ)過程中面臨的問題也更多。
大數(shù)據(jù)是一種數(shù)量龐大、種類繁多的信息資產(chǎn),數(shù)據(jù)的海量性和多樣性使得傳統(tǒng)的工具無法在一定時(shí)間范圍內(nèi)捕捉和管理,這就是想要深入探索其財(cái)富十分困難的原因。通常企業(yè)所收集的數(shù)據(jù)來自于物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等渠道的非結(jié)構(gòu)化數(shù)據(jù),但目前企業(yè)現(xiàn)有數(shù)據(jù)處理方式僅適用于結(jié)構(gòu)化數(shù)據(jù)處理,而企業(yè)中85%的數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),且每一秒數(shù)據(jù)都呈指數(shù)式增長,使得數(shù)據(jù)處理效率降低,數(shù)據(jù)的價(jià)值難以彰顯,整合、分析速度成為數(shù)據(jù)應(yīng)用的瓶頸,更是企業(yè)發(fā)展的“攔路虎”,不利于企業(yè)未來的發(fā)展。
近年來,大數(shù)據(jù)行業(yè)越來越熱門,而人才短缺的問題日益突出,特別是數(shù)據(jù)分析人員的緊缺,數(shù)據(jù)分析作為大數(shù)據(jù)產(chǎn)業(yè)的核心,是大數(shù)據(jù)轉(zhuǎn)為商業(yè)利益以及發(fā)展其特殊社會(huì)意義的關(guān)鍵,行業(yè)發(fā)展也因此到了瓶頸期。由于國內(nèi)的人才嚴(yán)重稀缺,大多企業(yè)還選擇從海外發(fā)掘人才,但仍存在崗位空缺的現(xiàn)象。為應(yīng)對大數(shù)據(jù)落地人才緊缺的發(fā)展瓶頸,企業(yè)和高校需要共同培養(yǎng)打造一批掌握大數(shù)據(jù)技術(shù),并有相關(guān)經(jīng)驗(yàn)的專業(yè)人才。
雖然未來的大數(shù)據(jù)發(fā)展仍存在諸多挑戰(zhàn),但前景依然非常樂觀,就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。
通過對大量數(shù)據(jù)信息的整理和分析,相關(guān)技術(shù)人員能及時(shí)發(fā)現(xiàn)安全威脅以及網(wǎng)絡(luò)異常行為,再針對其風(fēng)險(xiǎn)問題制定計(jì)劃并及時(shí)處理,將其扼殺在搖籃里。當(dāng)處理的信息出現(xiàn)問題時(shí),傳統(tǒng)的查詢方法就非常耗時(shí)傷神,即使找到問題根源也需要消耗大量的資源進(jìn)行補(bǔ)救。而大數(shù)據(jù)技術(shù)能及時(shí)地發(fā)現(xiàn)問題所在,并自發(fā)性地制定針對性的計(jì)劃進(jìn)行補(bǔ)救,進(jìn)而能將安全風(fēng)險(xiǎn)降到最低。另外,大數(shù)據(jù)技術(shù)可以把各種數(shù)據(jù)有機(jī)結(jié)合起來,在對這些數(shù)據(jù)分析時(shí)可以進(jìn)行風(fēng)險(xiǎn)預(yù)測,對網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)不間斷地監(jiān)控,能有效識(shí)別釣魚網(wǎng)站、預(yù)防黑客入侵。若網(wǎng)絡(luò)被非法攻擊就一定會(huì)留下數(shù)據(jù)信息,相關(guān)人員利用大數(shù)據(jù)技術(shù)對這些蛛絲馬跡進(jìn)行整合和分析,便可找到最佳解決方案和防范措施,還可找到非法攻擊的源頭。
大數(shù)據(jù)與物聯(lián)網(wǎng)、云計(jì)算等新技術(shù)聯(lián)合應(yīng)用,對全球資源配置進(jìn)一步地整合和創(chuàng)新,并有效運(yùn)用資源,使其不再受文化差異、地理位置等因素的限制,實(shí)現(xiàn)全球資源共享,從而為各行各業(yè)的發(fā)展提供了諸多保障,提高人們的生活水平。在此背景下,我相信隨著大數(shù)據(jù)技術(shù)的不斷創(chuàng)新與完善,不僅會(huì)為信息安全創(chuàng)造一個(gè)良好的發(fā)展環(huán)境,還能推動(dòng)全球經(jīng)濟(jì)的發(fā)展和社會(huì)的重大變革。
一是保護(hù)用戶隱私的前提下,利用大數(shù)據(jù)分析,運(yùn)營商可為政府、銀行等提供信用查詢服務(wù)、目標(biāo)客戶群消費(fèi)分析等信息,挖掘出更多有價(jià)值的信息,實(shí)現(xiàn)互惠互利。二是針對性地投放廣告,通過對客戶位置信息、消費(fèi)情況的分析,運(yùn)營商可以幫助廣告商分析目標(biāo)客戶群聚集區(qū)域、消費(fèi)習(xí)慣、關(guān)注事物等,并根據(jù)其分析的數(shù)據(jù)更有效地投放相關(guān)廣告,從而提升相關(guān)業(yè)績。
在教育、醫(yī)療等各個(gè)領(lǐng)域,已經(jīng)證明大數(shù)據(jù)技術(shù)是科學(xué)的,如果有足夠的數(shù)據(jù)來支持其相關(guān)性,就不需要分析原因。例如,當(dāng)有大量數(shù)據(jù)證明某種藥物對醫(yī)治某種疾病有效時(shí),則這種藥物就是對該疾病的科學(xué)治療。毋庸置疑,在公眾關(guān)注的大環(huán)境下,大數(shù)據(jù)思維的應(yīng)用在我們的日常生活中隨處可見,程序員將繁冗乏味的數(shù)據(jù)轉(zhuǎn)化為一份份真實(shí)可靠的分析報(bào)告,從而構(gòu)建一個(gè)為公眾提供優(yōu)質(zhì)服務(wù)的應(yīng)用平臺(tái)。
目前,建立一套完整的安全防范網(wǎng)絡(luò)至關(guān)重要,不僅要從技術(shù)上加強(qiáng)網(wǎng)絡(luò)系統(tǒng)的防范能力,還要提高用戶網(wǎng)絡(luò)安全防范意識(shí)[9]。用戶在使用計(jì)算機(jī)和手機(jī)前,需要認(rèn)真閱讀操作指南及注意事項(xiàng),對于不確定信息不要隨意亂點(diǎn),更不要輕易相信,因?yàn)椴僮鞑划?dāng)很有可能會(huì)為自己埋下安全隱患。因此,為給網(wǎng)絡(luò)安全提供必要的保障,需要用戶對計(jì)算機(jī)或手機(jī)進(jìn)行定期地維護(hù),檢測系統(tǒng)的安全性;下載相應(yīng)軟件對網(wǎng)絡(luò)漏洞進(jìn)行及時(shí)修復(fù),建議安裝正版軟件并及時(shí)更新;規(guī)范自己的使用習(xí)慣,加強(qiáng)對網(wǎng)絡(luò)安全的學(xué)習(xí)。上述手段可有效防范病毒攻擊系統(tǒng)和黑客入侵系統(tǒng),還可有效避免隱私被非法分子利用的問題發(fā)生。
一是利用加密技術(shù)對個(gè)人信息進(jìn)行加密處理,降低網(wǎng)絡(luò)風(fēng)險(xiǎn)問題。二是通過法律來保護(hù)個(gè)人信息,國家應(yīng)將個(gè)人信息保護(hù)條款添加到相關(guān)的法律法規(guī)中。三是國家應(yīng)統(tǒng)一擬定信息安全等級技術(shù)標(biāo)準(zhǔn)和管理制度,并且通過相關(guān)組織采取分等級的形式對信息進(jìn)行安全保護(hù)、管理和監(jiān)督。
大數(shù)據(jù)意味著大商機(jī),可以用于強(qiáng)化客戶對企業(yè)品牌的認(rèn)知度[10]。紐約大學(xué)教授羅伯特先生曾指出:大數(shù)據(jù)是一個(gè)超越了人們想象力的事物,是一個(gè)對企業(yè)進(jìn)行全方面觀察的重要方法。因此,企業(yè)必須要弄懂業(yè)務(wù)的整體概況,并摸清楚產(chǎn)業(yè)鏈的整個(gè)布局,對行業(yè)的上游和下游的經(jīng)營狀況有大抵地了解,更新自身的信息技術(shù),引進(jìn)新技術(shù),提高其數(shù)據(jù)處理能力。
從某些發(fā)達(dá)國家的經(jīng)驗(yàn)來看,先進(jìn)的企業(yè)與優(yōu)秀的高校合作會(huì)帶來意想不到的效果,高校擁有大量有潛力的學(xué)生,而企業(yè)擁有行業(yè)發(fā)展前沿的課題和處理這些課題的物質(zhì)條件,兩者相結(jié)合則推動(dòng)了人才的培養(yǎng)和技術(shù)的發(fā)展?;ヂ?lián)網(wǎng)企業(yè)拿出自己業(yè)務(wù)上的數(shù)據(jù),提出分析目標(biāo),在高校中廣泛征集分析方案,舉行大數(shù)據(jù)分析競賽,這不僅為在校學(xué)生提供接觸行業(yè)前沿的機(jī)會(huì),還可讓學(xué)生通過實(shí)踐成長,更是一種培養(yǎng)高級人才的方法。
大數(shù)據(jù)時(shí)代是科技進(jìn)步的必然趨勢,有機(jī)遇亦有挑戰(zhàn),且機(jī)遇多于挑戰(zhàn),企業(yè)需抓緊大數(shù)據(jù)時(shí)代的機(jī)遇,積極應(yīng)對挑戰(zhàn),才能在這大數(shù)據(jù)時(shí)代中立于不敗之地。我們所領(lǐng)會(huì)的大數(shù)據(jù)只是一小部分,大數(shù)據(jù)中還有良多寶藏等待著我們?nèi)ヌ剿骱屯诰颉?/p>