楊曉嵐
摘要:隨著我國互聯(lián)網(wǎng)用戶群體的不斷擴大,提升數(shù)據(jù)的挖掘、分析以及應用能力是未來互聯(lián)網(wǎng)技術發(fā)展的重要方向之一,特別是經(jīng)濟社會的發(fā)展導致人們對數(shù)據(jù)處理的需求越來越高,現(xiàn)有的海量網(wǎng)絡數(shù)據(jù)處理系統(tǒng)方案已經(jīng)不能滿足人們的需求。因此,探索將云計算技術應用于分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)的構建中,能充分發(fā)揮云計算技術與分布式網(wǎng)絡的優(yōu)勢,從而提高海量數(shù)據(jù)的處理效率。
關鍵詞:云計算技術;分布式網(wǎng)絡;海量數(shù)據(jù);處理系統(tǒng)
中圖分類號:TM73中圖分類號? 文獻標志碼:A文獻標志碼
0 引言
隨著我國互聯(lián)網(wǎng)技術的不斷發(fā)展,截止到2020年,我國的互聯(lián)網(wǎng)用戶已經(jīng)超過了10億,互聯(lián)網(wǎng)技術進入千家萬戶,成為人們?nèi)粘I畹谋貍涔ぞ?,這也為網(wǎng)絡技術的發(fā)展帶來了新的機遇[1]。龐大的互聯(lián)網(wǎng)用戶中的大部分會參與到網(wǎng)絡購物中,以淘寶、拼多多、京東等為主的網(wǎng)絡購物平臺成為便利人們生活的重要手段。在用戶進行互聯(lián)網(wǎng)活動時,不可避免地會產(chǎn)生數(shù)據(jù),而通過對這些數(shù)據(jù)的分析能夠更好地推動互聯(lián)網(wǎng)技術的發(fā)展創(chuàng)新。因此,學會對網(wǎng)絡海量數(shù)據(jù)進行處理,是促進互聯(lián)網(wǎng)發(fā)展的有效途徑。本文將云計算技術與分布式網(wǎng)絡數(shù)據(jù)處理相結合,構建一個數(shù)據(jù)處理系統(tǒng),以此來更好地對用戶需求進行分析、處理。
1 基于云計算技術的海量數(shù)據(jù)處理需要解決的問題
要想搭建基于云計算的數(shù)據(jù)處理系統(tǒng),需要推動其在高速流數(shù)據(jù)特征的海量感知數(shù)據(jù)的分布式儲存技術,而這種簡單化的、高效的海量異構感知數(shù)據(jù)分布式知識發(fā)現(xiàn)和并行化數(shù)據(jù)挖掘算法,需要解決以下問題。
1.1 儲存問題
互聯(lián)網(wǎng)平臺中,感知層的傳感器節(jié)點、監(jiān)控終端以及RFID的標簽種類多樣,且不同的節(jié)點擁有不同的功能特征,會導致最終采集的數(shù)據(jù)并不一致,儲存方式也會有明顯的不同。例如數(shù)據(jù)會存在動態(tài)數(shù)據(jù)與靜態(tài)數(shù)據(jù)兩類,其對于儲存的需求并不一致,要想實現(xiàn)其在數(shù)據(jù)儲存系統(tǒng)中的有效儲存,必須搭建多態(tài)異構的感知數(shù)據(jù)儲存方案,從而使得不同結構的數(shù)據(jù)都能夠得到有效儲存,從而便于后續(xù)的處理工作[2]。
1.2 時效性問題
在龐大的互聯(lián)網(wǎng)中,每分每秒所產(chǎn)生的數(shù)據(jù)數(shù)量都是龐大的,如果將所有數(shù)據(jù)都進行儲存,很可能會導致數(shù)據(jù)系統(tǒng)的崩潰。同時搜集到的海量數(shù)據(jù)并不一定有用,如果單純地對所有數(shù)據(jù)都進行備份,那么在長期的系統(tǒng)運行中會減緩系統(tǒng)的運作效率。因而在設計基于云技術的分布式海量數(shù)據(jù)處理系統(tǒng)時,要充分考慮數(shù)據(jù)的時效性,通過數(shù)據(jù)篩選的方式來提高系統(tǒng)的數(shù)據(jù)處理效率,也能夠增強系統(tǒng)的可靠性。
1.3 分析挖掘問題
在對海量數(shù)據(jù)進行搜集時,通常不會進行結構化的劃分,而是以原始數(shù)據(jù)的形式納入數(shù)據(jù)處理系統(tǒng)中,通過圖結構、序列等特殊的結構來對數(shù)據(jù)進行分析,而對于一些非特征的數(shù)據(jù)不能直接使用數(shù)據(jù)挖掘算法,如何解決這些非結構性數(shù)據(jù)的挖掘工作成了亟待解決的問題。這需要在搭建數(shù)據(jù)處理系統(tǒng)時注重對數(shù)據(jù)挖掘算法的效率提升,從而實現(xiàn)在時空非向量空間中直接執(zhí)行分析挖掘操作的算法[3]。
2 分布式網(wǎng)絡數(shù)據(jù)的特征及其設計思路
分布式網(wǎng)絡是通過不同的終端設備連接而形成的網(wǎng)絡結構,與傳統(tǒng)的網(wǎng)絡結構相比,其能夠在某條線路出現(xiàn)故障時依靠其他終端設備維持網(wǎng)絡的運行,從而體現(xiàn)出較高的適應,提升網(wǎng)絡的適應范圍。這種突出優(yōu)勢使得在網(wǎng)絡技術發(fā)展的過程中,分布式網(wǎng)絡得到了有效的推廣,成為最常用的網(wǎng)絡結構之一[4]。但正是由于分布式網(wǎng)絡的端口多,獲取到的數(shù)據(jù)也更加繁復,這無疑會增加系統(tǒng)的工作量,不利于對海量數(shù)據(jù)進行處理。為了提升分布式網(wǎng)絡的處理效率,在研發(fā)的過程中不少團隊會傾向于使用分析算法以及模糊聚類算法,從而能夠?qū)?shù)據(jù)進行集中的處理,但其應用效果也十分有效,常常需要較長的時間進行分析,如果將其應用于數(shù)據(jù)挖掘工作中,會使得挖掘效率大大降低,因此探索將云計算技術納入分布式網(wǎng)絡研究成了當下的熱點。
要想實現(xiàn)云計算技術上的分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)的設計,需要在充分了解兩者特性的基礎上,從數(shù)據(jù)處理系統(tǒng)的實際需求入手,分析海量數(shù)據(jù)的特點,從而促進系統(tǒng)設計的完善。在這個過程中,最重要的是發(fā)揮云計算技術與分布式網(wǎng)絡的優(yōu)勢,對分布式網(wǎng)絡的研究發(fā)現(xiàn),其能夠在短時間內(nèi)產(chǎn)生海量數(shù)據(jù),通常一天內(nèi)就能夠獲取數(shù)百萬條信息,而要想對這些數(shù)據(jù)進行處理,需要經(jīng)過一系列的流程才能保障每條信息都能得到妥善處理,而這個處理過程勢必會較其他的網(wǎng)絡結構較長[5]。因此,在設計時要充分發(fā)揮云計算的優(yōu)勢,將其應用于分布式網(wǎng)絡的數(shù)據(jù)挖掘中,根據(jù)數(shù)據(jù)特性、數(shù)據(jù)種類等方式對數(shù)據(jù)進行分區(qū)處理,從而提升數(shù)據(jù)處理系統(tǒng)的效率。以熱點數(shù)據(jù)識別為例,在數(shù)據(jù)挖掘的過程中出現(xiàn)頻率較高的數(shù)據(jù)則被稱為熱點數(shù)據(jù),利用云計算技術將熱點數(shù)據(jù)從海量數(shù)據(jù)中脫離出來,并建立專門的數(shù)據(jù)庫,從而便于數(shù)據(jù)的識別。通過熱點數(shù)據(jù)識別的方式,能夠縮減數(shù)據(jù)的檢索范圍,是系統(tǒng)的處理系統(tǒng)在合理的負載范圍內(nèi)。同時要認識到分布式網(wǎng)絡的龐大數(shù)據(jù)量,根據(jù)數(shù)據(jù)的來源對其進行分類處理,可以提升處理效率。在云計算技術的支持下,分布式網(wǎng)絡能夠?qū)?shù)據(jù)處理的要求進行分解,將原本復雜的任務轉化為一個個工作量較小的任務,通過多端共同處理的方式來分解一個端口的壓力,促進數(shù)據(jù)處理系統(tǒng)的穩(wěn)定。
3 基于云計算技術的分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)設計
3.1 轉變處理思路
分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)之間有著明確的差異,在應用過程中研發(fā)人員必須明確分布式網(wǎng)絡的特征,在致力于促進云計算技術融合的基礎上進行系統(tǒng)搭建,可以實現(xiàn)對數(shù)據(jù)系統(tǒng)處理思路的轉變。將云計算與分布式網(wǎng)絡聯(lián)合后,能夠大大地提升系統(tǒng)對于海量數(shù)據(jù)的處理效率,從而滿足數(shù)據(jù)處理的需求。在這個過程中,做好對數(shù)據(jù)的定位就顯得至關重要。海量的數(shù)據(jù)要進行挖掘必須經(jīng)一定的特性進行引導,如熱點數(shù)據(jù)就可成為數(shù)據(jù)的一種特性,經(jīng)過定位的數(shù)據(jù)能夠減少數(shù)據(jù)挖掘的工作量,在短時間內(nèi)實現(xiàn)對數(shù)據(jù)的挖掘,以此來促進系統(tǒng)處理效率的提升。以云計算技術作為系統(tǒng)優(yōu)化的手段,為數(shù)據(jù)處理提供多一層的保障,從而促進數(shù)據(jù)處理的正確率提升[6]。
3.2 建立數(shù)據(jù)挖掘模型
將數(shù)據(jù)挖掘技術以模型的形式呈現(xiàn),推動了云計算技術在系統(tǒng)設計中的應用,能夠?qū)A繑?shù)據(jù)實現(xiàn)明確的分類,從而促進數(shù)據(jù)處理有效性的提升。在這個過程中,研發(fā)人員要建立基于數(shù)據(jù)挖掘技術的基本模式,將各項數(shù)據(jù)處理活動有序地連接起來,從而促進數(shù)據(jù)挖掘的展開。數(shù)據(jù)挖掘基本模型可分為3個層次,分別為用戶層、運算層與服務層。在服務層中依托于HDFS、MapReduce、Hadoop技術建立一個云計算環(huán)境,將個網(wǎng)絡節(jié)點連接到一起從而形成一個循環(huán)相連的網(wǎng)絡結構,為用戶層與運算層提供服務。運算層中主要運行海量數(shù)據(jù)的挖掘機優(yōu)化工作,以聚類算法、分類算法、回歸算法、關聯(lián)規(guī)則等將各數(shù)據(jù)關聯(lián)起來,對數(shù)據(jù)進行抽取、轉換、清洗、集成以及加載,實現(xiàn)數(shù)據(jù)的預處理。最后的用戶層分為用戶輸入模塊與結束展示模塊兩部分,在輸入過程中根據(jù)數(shù)據(jù)挖掘技術對其提供個性化的應用,而結束時則體現(xiàn)為Web服務與知識流。通過3個層次之間的相互聯(lián)系,彼此之間展開數(shù)據(jù)交換,一方面用戶通過數(shù)據(jù)輸入來獲取自身的預期信息,另一方面對數(shù)據(jù)挖掘、分析的過程也會不斷優(yōu)化系統(tǒng)的運作方式,提供數(shù)據(jù)展示的準確性,從而達到數(shù)據(jù)處理的效果。
3.3 節(jié)點設計
基于云計算的分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)的建設,最主要的就是對節(jié)點的設計,而其中中心控制節(jié)點尤為重要。中心控制節(jié)點是整個系統(tǒng)中的核心,通過中心節(jié)點能夠控制系統(tǒng)內(nèi)部的所有環(huán)節(jié),并起到分配任務的作用,是系統(tǒng)調(diào)節(jié)和運轉的關鍵[7]??紤]到意外情況,中心控制節(jié)點需要使用雙機熱備的方式來進行備份,一般而言中心控制節(jié)點下包括通信模塊、任務調(diào)度模塊、任務管理模塊、鎖管理等多個模塊。以通信模塊為例,其是中心控制模塊與其他模塊之間的溝通橋梁,負責對數(shù)據(jù)處理任務的分發(fā),同時建立不同模塊之間的聯(lián)系。而任務管理模塊是對數(shù)據(jù)處理任務進行管理的模塊,包括對任務的建立、對任務的分解以及任務的執(zhí)行與維護等,凡與任務相關的環(huán)節(jié)都需要經(jīng)過任務管理模塊。任務調(diào)度模塊則是負責任務的調(diào)度工作,如能夠根據(jù)任務的需求及用戶的要求對任務的實施進行安排,包括鎖進程的維護與管理等。除此之外,定時器模塊主要是對系統(tǒng)的數(shù)據(jù)處理時間進行監(jiān)督,從而保障系統(tǒng)的處理效率。當系統(tǒng)的處理時間超過預期時間后,則會對超時的情況進行記錄,包括超時處理后導致后續(xù)處理工作的障礙等,以此來完成系統(tǒng)運行狀況的檢測。一旦出現(xiàn)超時處理,表明系統(tǒng)在運行過程中受到了阻礙,使得預期的目標難以實現(xiàn),那么在解決問題時不僅要注重當下,更要對以后數(shù)據(jù)處理過程設定備用程序,避免相同的問題再次出現(xiàn)。
3.4 云儲存方案
在云計算技術的支持下,通過對分布式網(wǎng)絡海量數(shù)據(jù)進行分析,發(fā)現(xiàn)其搜集的數(shù)據(jù)具有異構性、不確定性,同時數(shù)據(jù)龐大,常規(guī)的儲存方式難以滿足系統(tǒng)的建設需要,因此通過云計算技術提高數(shù)據(jù)處理系統(tǒng)的儲存功能具有良好的應用前景。在設計云儲存方案時,要注重與提升數(shù)據(jù)儲存的可擴展性、容錯性,同時降低數(shù)據(jù)處理系統(tǒng)的運作能耗,在設計中以3層儲存結構的方式來搭建云儲存方案。其中第一層運行支撐數(shù)據(jù),第二層運行結果數(shù)據(jù),第三層則是儲存歷史數(shù)據(jù),根據(jù)數(shù)據(jù)的性質(zhì)不同將其劃分到不同的數(shù)據(jù)儲存層次,從而科學化、規(guī)范化地進行云儲存。至于對數(shù)據(jù)的分類由中央儲存進行調(diào)度,根據(jù)需求將其分布到3層儲存層中,但這3個儲存層并不是完全獨立的,而是彼此相互印證。以歷史數(shù)據(jù)儲存層為例,其是對處理過的數(shù)據(jù)進行儲存,從而將新的數(shù)據(jù)轉變?yōu)闅v史數(shù)據(jù)的層次,在支撐數(shù)據(jù)和結構數(shù)據(jù)的每次運行結束后,都會將數(shù)據(jù)送入到歷史數(shù)據(jù)層,實現(xiàn)對歷史數(shù)據(jù)層的豐富,而在對歷史數(shù)據(jù)層進行調(diào)度的過程中,也需要支撐數(shù)據(jù)與結果數(shù)據(jù)的支持,從而使得所調(diào)度的數(shù)據(jù)具有一致性。這樣的分層云儲存方式能夠?qū)⒑A繑?shù)據(jù)處理系統(tǒng)中的數(shù)據(jù)進行分類儲存,既便于對數(shù)據(jù)系統(tǒng)的管理,又能夠?qū)崿F(xiàn)數(shù)據(jù)的及時調(diào)度。云儲存的方式也能減少系統(tǒng)本身的能耗,使得系統(tǒng)運作效率大大提升,這是對云計算技術的有效利用。
3.5 優(yōu)化系統(tǒng)運行算法
系統(tǒng)運行算法直接關系到系統(tǒng)對數(shù)據(jù)處理的效率,研發(fā)人員在進行系統(tǒng)設計的過程中,要遵照云計算技術與分布式網(wǎng)絡的特性,優(yōu)先使用SPRINT算法來進行系統(tǒng)運算。SPRINT算法又被稱為決策樹算法,其分為兩個步驟:(1)由數(shù)據(jù)的根節(jié)點形成并對遞歸的數(shù)據(jù)進行分片,從而實現(xiàn)對樹的生成;(2)去除一些可能是噪音或異常的數(shù)據(jù)來完成樹的修剪,以此來進行決策樹的創(chuàng)建。在建立基礎的決策樹模型后,研發(fā)人員要對決策樹的使用狀況進行調(diào)試,以多次數(shù)據(jù)處理的形式來不斷挖掘決策樹運行中可能出現(xiàn)的問題,并針對這些問題進行優(yōu)化完善,使得決策樹的結構更加符合分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)的需求,同時優(yōu)化決策樹的過程勢必將提升決策樹的運作效率,對于優(yōu)化系統(tǒng)運作模式有著重要意義。決策樹算法的過程,可根據(jù)用戶的需求設置個性化應用,例如設置索引、類別等來方便用戶的查詢,使得用戶能夠在短時間內(nèi)實現(xiàn)對數(shù)據(jù)的搜集工作。在這個優(yōu)化系統(tǒng)算法的過程中,工作人員也要對數(shù)據(jù)處理的任務需求進行分析,對不同數(shù)據(jù)的分類要求進行歸納,從而提升數(shù)據(jù)處理的有效性。
4 結語
海量數(shù)據(jù)處理系統(tǒng)是在網(wǎng)絡時代實現(xiàn)數(shù)據(jù)處理的最佳途徑,而將云計算技術與分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)結合起來,能夠有效地提升其對于龐大的數(shù)據(jù)流的處理效率,同時以數(shù)據(jù)分類的方式實現(xiàn)對數(shù)據(jù)的精確分析,這使得數(shù)據(jù)處理的準確性得到了較高的提升。而云計算技術對于數(shù)據(jù)處理系統(tǒng)的優(yōu)勢在于其能夠為系統(tǒng)提供云計算與云儲存,將原本的海量數(shù)據(jù)以云儲存的方式儲存在網(wǎng)絡中,能夠減輕系統(tǒng)的處理負擔,使得數(shù)據(jù)處理系統(tǒng)的處理時間縮短,提升系統(tǒng)處理效率。在未來,云計算技術將為分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)的優(yōu)化帶來更多好處,兩者之間的融合研究具有良好的發(fā)展前景。
參考文獻
[1]劉巧利.云計算技術在分布式網(wǎng)絡均衡負載控制中的應用[J].信息與電腦(理論版),2021(4):28-30.
[2]盧鵬,蘆立華.基于云計算技術的分布式網(wǎng)絡海量數(shù)據(jù)處理系統(tǒng)設計[J].現(xiàn)代電子技術,2020(18):36-39.
[3]任尚云.云計算環(huán)境下網(wǎng)絡空間數(shù)據(jù)分布式存儲方法研究[J].信息通信,2019(8):21-22,25.
[4]周艷艷.基于云計算下網(wǎng)絡流媒體分布式存儲與分配優(yōu)化策略[J].電腦迷,2018(8):235.
[5]畢云星.云計算環(huán)境下的網(wǎng)絡技術及應用實踐研究[J].數(shù)碼世界,2017(12):554.
[6]袁超.面向分布式網(wǎng)絡的跨異構域認證密鑰協(xié)商及加密算法研究[D].成都:西南交通大學,2017.
[7]楊波.分布式網(wǎng)絡中海量空間特征數(shù)據(jù)檢測仿真[J].計算機仿真,2017(3):427-430.
(編輯 李春燕編輯)
Construction of distributed network mass data processing system based on cloud computing technology
Yang? Xiaolan
(Shanxi Vocational and Technical College, Taiyuan 030000, China)
Abstract:? With the continuous expansion of my countrys Internet user groups, improving data mining, analysis and application capabilities is one of the important directions for the development of Internet technology in the future, especially the economic and social development has led to peoples increasing demand for data processing , the existing massive network data processing system solutions can no longer meet peoples needs, so exploring the application of cloud computing technology to the construction of distributed network massive data processing systems can give full play to the advantages of cloud computing technology and distributed networks. Thereby, the processing efficiency of massive data is improved.
Key words: cloud computing technology; distributed network; massive data; processing system