葛敏娜
摘要:該文主要簡單分析了大數(shù)據(jù)背景下的計算機信息處理技術(shù),從大數(shù)據(jù)的定義入手,分析了大數(shù)據(jù)的產(chǎn)生對計算機信息處理技術(shù)帶來的挑戰(zhàn),在此基礎(chǔ)上,說明了分布式存儲、數(shù)據(jù)挖掘、信息安全等大數(shù)據(jù)背景下的計算機處理技術(shù),并詳細介紹了數(shù)據(jù)挖掘的C4.5決策樹算法思想、k-means聚類算法思想以及信息安全中的加密算法的基本機制。
關(guān)鍵詞:大數(shù)據(jù);分布式存儲;數(shù)據(jù)挖掘;信息安全
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)01-0003-02
1概述
隨著科學(xué)技術(shù)的不斷快速發(fā)展以及國民經(jīng)濟的快速增長,基于互聯(lián)網(wǎng)絡(luò)的計算機應(yīng)用逐漸在社會的各個行業(yè)中得到廣泛應(yīng)用,我國社會正朝著數(shù)字化、網(wǎng)絡(luò)化、信息化的方向快速發(fā)展。由于計算機技術(shù)以及互聯(lián)網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,在互聯(lián)網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)非常大,可以說人們在享受信息時代為社會生活帶來無限便利和快捷的同時,也逐步向數(shù)據(jù)時代步入,而海量數(shù)據(jù)的生成,對傳統(tǒng)的IT信息處理技術(shù)和計算機結(jié)構(gòu)框架來說,雖然沒有致命的威脅,但是人們時時刻刻都需要對海量的數(shù)據(jù)進行存儲、處理、傳輸、計算、搜索等任務(wù),這對于當(dāng)前互聯(lián)網(wǎng)絡(luò)和計算機系統(tǒng)快速響應(yīng)終端用戶的請求以提升服務(wù)質(zhì)量來說,也是非常巨大的挑戰(zhàn)。所以,對于當(dāng)前大數(shù)據(jù)時代的計算機信息處理技術(shù)技術(shù)的研究與分析,對于提升IT系統(tǒng)運行效率,優(yōu)化企業(yè)生產(chǎn)效率來說,具有非常重要的現(xiàn)實意義。
2大數(shù)據(jù)時代的數(shù)據(jù)信息處理挑戰(zhàn)
大數(shù)據(jù)(Big Data)的定義需要從兩方面理解,第一是從數(shù)量方面,是指需要處理或存儲的對象的數(shù)據(jù)量非常之大,是傳統(tǒng)信息處理技術(shù)在適當(dāng)?shù)臅r間內(nèi)難以完成數(shù)據(jù)處理任務(wù)的;第二就是這些數(shù)據(jù)中包含了很多有用的信息,可以通過專門的將這些信息提取出來以指導(dǎo)和決策人們未來的行為。大數(shù)據(jù)是當(dāng)前互聯(lián)網(wǎng)絡(luò)和計算機信息系統(tǒng)的大量應(yīng)用的必然結(jié)果,而這樣的必然結(jié)果,并不意味著是一種累贅,如果取舍得當(dāng),反而是一種非常重要的資源和無形財富。所以,大數(shù)據(jù)的產(chǎn)生對于現(xiàn)代的社會是一種機遇,對于經(jīng)濟的促進和發(fā)展也是良好的催化劑,如果一個企業(yè)能夠抓住對大數(shù)據(jù)信息處理技術(shù)的核心技能,那么必將在未來IT市場上占據(jù)一席之地。那么,大數(shù)據(jù)對數(shù)據(jù)信息處理帶來了哪些挑戰(zhàn)?
首先,大數(shù)據(jù)帶來了巨大的存儲壓力??梢砸院A縼矸Q謂的數(shù)據(jù)量,對于當(dāng)前的數(shù)據(jù)存儲技術(shù)是非常大的挑戰(zhàn),傳統(tǒng)的觀念或者數(shù)據(jù)管理系統(tǒng)對于大數(shù)據(jù)的存儲與管理已經(jīng)捉襟見肘,如何良好地將這些海量數(shù)據(jù)有序地存儲,并且選用優(yōu)越的數(shù)據(jù)管理機制進行數(shù)據(jù)壓縮、備份、管理等都是當(dāng)前大數(shù)據(jù)背景下所需要考慮的問題。其次,數(shù)據(jù)查詢問題。傳統(tǒng)的直接查詢的數(shù)據(jù)庫管理系統(tǒng)已經(jīng)很難應(yīng)對海量數(shù)據(jù)的查詢,一個存儲量在GB級別的數(shù)據(jù)表的遍歷查詢都需要十幾個小時來完成,所以如何快速地實現(xiàn)對大數(shù)據(jù)的查詢和提取也是當(dāng)前繼續(xù)解決的問題。最后,數(shù)據(jù)安全問題?;ヂ?lián)網(wǎng)絡(luò)中各種系統(tǒng)層出不窮,各式各樣的數(shù)據(jù)都需要相互傳輸,這些都為網(wǎng)絡(luò)惡意攻擊者提供了可乘之機。各種社會工程學(xué)攻擊、病毒、木馬、系統(tǒng)后門等惡意行為都時時刻刻威脅著大數(shù)據(jù)信息的安全,如何能夠保證大數(shù)據(jù)中有效信息不被泄露或惡意篡改,這也是當(dāng)前大數(shù)據(jù)時代亟須解決的問題。
3 大數(shù)據(jù)背景下的計算機信息處理技術(shù)
大數(shù)據(jù)的發(fā)展推動了計算機信息處理技術(shù)的快速發(fā)展,當(dāng)前計算機信息處理技術(shù)為了能夠滿足大數(shù)據(jù)量的數(shù)據(jù)信息處理需求而得到快速更新。
3.1 分布式存儲技術(shù)
分布式存儲技術(shù)是當(dāng)前專門應(yīng)對大數(shù)據(jù)存儲的問題而發(fā)展起來的。由于大數(shù)據(jù)的海量數(shù)據(jù)使得傳統(tǒng)模式的單個數(shù)據(jù)庫很難存儲,同時應(yīng)對管理以及備份等工作,分布式存儲技術(shù)打破了傳統(tǒng)的思維,利用網(wǎng)絡(luò)專線或者高速網(wǎng)絡(luò)將多個數(shù)據(jù)庫存儲服務(wù)器搭建在一起,形成一個總分形式的分布式存儲系統(tǒng),而上層的總與下層的分的特殊結(jié)構(gòu)之間則是通過數(shù)據(jù)之間的邏輯關(guān)系串聯(lián)起來。在結(jié)構(gòu)上看,分布式系統(tǒng)中同一個數(shù)據(jù)鏈中大數(shù)據(jù)可能隨機分配到不同的數(shù)據(jù)庫服務(wù)器中進行存儲,而由于數(shù)據(jù)庫存儲服務(wù)器彼此之間特殊的數(shù)據(jù)邏輯關(guān)系,看似分離的數(shù)據(jù)卻又在邏輯上得到統(tǒng)一。分布式存儲技術(shù),不僅解決了海量數(shù)據(jù)的存儲問題,而且多個服務(wù)器的共同服務(wù)還提升了大數(shù)據(jù)的高通并發(fā)性,解決了數(shù)據(jù)串行處理反應(yīng)時間長的問題,大大提升數(shù)據(jù)處理性能。
3.2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是主要應(yīng)對大數(shù)據(jù)數(shù)據(jù)處理的而興起的、體現(xiàn)人工智能處理的計算機處理技術(shù)。數(shù)據(jù)挖掘技術(shù)多采用仿生學(xué)的手段,按照人類思維的方式,將海量的大數(shù)據(jù)進行處理,最終從海量數(shù)據(jù)中過濾出對企業(yè)生產(chǎn)或決策有用的信息,進而指導(dǎo)人們的行為。數(shù)據(jù)挖掘的主要流程包括數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)分析與評估。首先對大數(shù)據(jù)的有效部分進行選取,然后采用數(shù)據(jù)預(yù)處理的技術(shù)對數(shù)據(jù)中的無效數(shù)據(jù)、冗余數(shù)據(jù)、零數(shù)據(jù)等進行清洗和刪除,然后采用數(shù)據(jù)挖掘的技術(shù)方法對有效數(shù)據(jù)進行挖掘,最后將有用的數(shù)據(jù),通過專門的應(yīng)用系統(tǒng)進行分析與展示。其中,數(shù)據(jù)挖掘技術(shù)是采用人工智能的思維方式而設(shè)計的數(shù)據(jù)處理技術(shù),主要包括決策樹、聚類、神經(jīng)網(wǎng)絡(luò)等多種數(shù)據(jù)處理技術(shù),通過數(shù)據(jù)挖掘的處理,最終對清洗后的數(shù)據(jù)進行有效地分類,最后通過專門的應(yīng)用系統(tǒng)對分類的數(shù)據(jù)進行分析、處理、展示,從而使用形象直觀的方式展示有價值的數(shù)據(jù)信息。
在整個數(shù)據(jù)挖掘過程中,真正體現(xiàn)人工智能數(shù)據(jù)挖掘分析的是數(shù)據(jù)挖掘環(huán)節(jié),數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理以及后期的數(shù)據(jù)分析與評估都是數(shù)據(jù)挖掘之前的準備工作以及數(shù)據(jù)挖掘之后得到有用新的常規(guī)數(shù)據(jù)處理工作。數(shù)據(jù)挖掘技術(shù)包含了很多技術(shù)和算法,例如以二叉樹原理為模型的決策樹技術(shù)以及智能分類的聚類技術(shù),這些都是以數(shù)據(jù)分類為核心的數(shù)據(jù)挖掘技術(shù)。決策樹是以二叉樹為基本模型,所有的數(shù)據(jù)都需要通過決策樹的根節(jié)點,然后按照固定的算法分析,流向其子節(jié)點,依次計算指導(dǎo)最終的子節(jié)點。
某個數(shù)據(jù)經(jīng)過該模型是,首先按照固定的算法進行計算,分析出該數(shù)據(jù)與父節(jié)點的差異度,然后根據(jù)結(jié)果流向其子節(jié)點。例如,一個對電子產(chǎn)品非常喜愛的人,在經(jīng)過決策樹模型之后,其會流向“購買”的子節(jié)點一類中。在數(shù)據(jù)挖掘過程中,經(jīng)過選取和預(yù)處理的數(shù)據(jù),都要經(jīng)過決策樹模型進行分類,最終落到其相關(guān)的區(qū)域中。決策樹的模型相對比較簡單,關(guān)鍵環(huán)節(jié)就是如何判斷一個數(shù)據(jù)歸屬于哪一個節(jié)點。在決策樹的C4.5算法的具體實現(xiàn)中,在對數(shù)據(jù)分類分析環(huán)節(jié)加入了信息增益比的概念,即待挖掘的數(shù)據(jù)通過計算信息增益比,比值比較高的進入到相應(yīng)的節(jié)點中。簡單地理解就是,源數(shù)據(jù)落入兩個子節(jié)點的概率計算,概率高的即進入該分類節(jié)點中的可能性就比較大。
聚類技術(shù)則是另一種數(shù)據(jù)挖掘分類技術(shù),與決策樹專門比值計算不同,聚類算法是無目的分類。即采用聚類算法分析數(shù)據(jù)時,只需要將其定義分為幾個簇群即可,并不用指定分成什么樣在簇群。在聚類技術(shù)中,k-means算法是常見的一種算法,其核心思想就是通過指定的簇群個數(shù),將源數(shù)據(jù)的數(shù)據(jù)生成對應(yīng)個簇群中心,然后離該中心較近的即為該簇群數(shù)據(jù)。那么,在k-means算法的核心向就是如何生成簇群中心以及如何判斷源數(shù)據(jù)與該簇群中心的距離。K-means算法采用歐式距離作為源數(shù)據(jù)與簇群中心距離的計算公式,首先按照分類個數(shù)任意選取對應(yīng)個數(shù)的數(shù)據(jù),然后將該數(shù)據(jù)作為每個簇群中心,然后將源數(shù)據(jù)與簇中心計算,在限定距離范圍內(nèi)的數(shù)據(jù)即可劃分到相應(yīng)簇群中直至結(jié)束。最后將每個簇群的數(shù)據(jù)計算其平均值,并且與原有簇群中心進行比較,如果不符合要求,則將該平均值作為新的簇群中心,再次從頭循環(huán)分類源數(shù)據(jù),直到簇群中心值與新的平均值比值符合一定的要求,即可結(jié)束算法處理過程。經(jīng)過k-means算法的聚類過程,最理想的結(jié)果就是平均地得到了對應(yīng)個數(shù)的簇群,從而實現(xiàn)限定簇群個數(shù)的聚類過程。
3.3 信息安全技術(shù)
信息安全技術(shù)是大數(shù)據(jù)時代對數(shù)據(jù)保護的一道屏障,是保障大數(shù)據(jù)有效保密的處理技術(shù)。一般的信息安全技術(shù)包括數(shù)據(jù)加密、身份認證技術(shù)、隧道技術(shù)的VPN網(wǎng)絡(luò)等。當(dāng)然,這些信息安全技術(shù)都是在一定程度上保障了數(shù)據(jù)信息的安全,并不能完全杜絕例如由于應(yīng)用系統(tǒng)的自身安全漏洞而引起的安全問題。所以,在大數(shù)據(jù)時代下,首先要加強IT網(wǎng)絡(luò)自身安全體系框架的構(gòu)建,加強運維部門或相關(guān)部門的監(jiān)控運維力度,同時要加強IT網(wǎng)絡(luò)框架安全測試的理念,采購良好的、穩(wěn)定的IT安全運維方案,從而有效地保障大數(shù)據(jù)時代的數(shù)據(jù)信息的安全。
在信息安全技術(shù)中,數(shù)據(jù)加密算法是一直以來都在廣泛應(yīng)用的算法,不同的加密算法在不同的數(shù)據(jù)環(huán)節(jié)中有不同的應(yīng)用,例如在數(shù)據(jù)存儲時,常用MD5算法對數(shù)據(jù)進行加密存儲,該算法常應(yīng)用于存儲數(shù)據(jù)驗證型的加密存儲,例如用戶密碼。MD5算法是一直不可逆的算法,即按照原始數(shù)據(jù)添加、數(shù)據(jù)分解、數(shù)據(jù)初始化以及處理的過程,將任意長度的字符按照固定的MD5算法,經(jīng)過多次的循環(huán)計算,變成128位長度的存儲數(shù)據(jù)。在身份認證環(huán)節(jié),當(dāng)系統(tǒng)用戶輸入登陸憑證之后,系統(tǒng)的應(yīng)用會將該字符串進行MD5加密處理,生成固定128字節(jié)的字符串進行傳輸,并與數(shù)據(jù)庫中的存儲字符進行對比,從而完成系統(tǒng)用戶身份驗證。MD5算法只是單向加密,一般情況下,不可能通過逆算法得到原始數(shù)據(jù)。而惡意攻擊者則通過各種方法來破解講過MD5算法機密的哈希值,例如彩虹表對比、密碼嗅探等等。而在數(shù)據(jù)傳輸過程中,加密的數(shù)據(jù)是需要在接收端呈現(xiàn)出原始數(shù)據(jù)值的,那么就需要有解密算法對加密值進行解密處理,不同的算法,加解密的計算過程不一樣,關(guān)鍵是在在加解密的密鑰處理上。之前,一般的加解密算法采用的是對稱密鑰,即加密算法和解密算法的加入密鑰是相同的,但是這樣在具體實現(xiàn)上也存在一定的安全風(fēng)險,對于密鑰的管理工作卻成了困擾系統(tǒng)設(shè)計人員的核心問題?,F(xiàn)在的不對稱密鑰的加密算法,通過公鑰和私鑰的密鑰管理機制,極大地提升了數(shù)據(jù)加密的信息安全程度,為當(dāng)前大數(shù)據(jù)時代信息數(shù)據(jù)的安全保密性帶來了極大的保障。
4 總結(jié)
大數(shù)據(jù)時代的計算機信息處理技術(shù)主要是針對海量數(shù)據(jù)存儲、管理、備份、處理、提取以及有效保障數(shù)據(jù)安全、有效、保密的數(shù)據(jù)處理技術(shù),只有信息處理技術(shù)順應(yīng)時代發(fā)展的需要,才能使人們在大數(shù)據(jù)時代享受更高質(zhì)量的服務(wù)。
參考文獻:
[1] 張允壯,劉戟鋒. 大數(shù)據(jù)時代信息安全的機遇與挑戰(zhàn):以公開信息情報為例[J]. 國防科技, 2013(02).
[2] 趙英偉,郭凱. 淺談信息處理技術(shù)的發(fā)展[J]. 信息通信, 2014(12).