周 瑩
(遼寧行政學(xué)院,遼寧沈陽,110161)
基于云計算的海量網(wǎng)絡(luò)流量數(shù)據(jù)分析處理研究
周 瑩
(遼寧行政學(xué)院,遼寧沈陽,110161)
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,在我們的生活中網(wǎng)絡(luò)已經(jīng)成為我們不可以缺少的重要的組成部分。網(wǎng)絡(luò)流量監(jiān)控技術(shù)是對網(wǎng)絡(luò)中海量的流量數(shù)據(jù)進行分析的重要工具和技術(shù)?;谠朴嬎愕木W(wǎng)絡(luò)流量監(jiān)控技術(shù)可以對網(wǎng)絡(luò)流量數(shù)據(jù)和用戶的特征進行更好的分析,可以對用戶的上網(wǎng)行為進行深入的挖掘,更好的為用戶推薦喜歡的網(wǎng)絡(luò)內(nèi)容。本文結(jié)合互聯(lián)網(wǎng)的發(fā)展現(xiàn)狀對海量網(wǎng)絡(luò)流量數(shù)據(jù)分析技術(shù)進行了分析,在基于云計算的基礎(chǔ)上提出了海量網(wǎng)絡(luò)流量數(shù)據(jù)分析的幾個關(guān)鍵性技術(shù),對基于云計算的海量網(wǎng)絡(luò)流量數(shù)據(jù)分析技術(shù)進行了分析和研究。
云計算;數(shù)據(jù)分析;流量監(jiān)控技術(shù);互聯(lián)網(wǎng)
我國互聯(lián)網(wǎng)應(yīng)用范圍及用戶數(shù)量增長越來越快,互聯(lián)網(wǎng)的發(fā)展需要網(wǎng)絡(luò)基礎(chǔ)資源作為支持的基礎(chǔ)。移動智能終端技術(shù)的發(fā)展,用戶對移動網(wǎng)絡(luò)的需求越來越多。我國為了更好的滿足網(wǎng)絡(luò)用戶對互聯(lián)網(wǎng)的需求,不斷的進行互聯(lián)網(wǎng)設(shè)施的建設(shè)和完善。應(yīng)用云計算技術(shù)對海量的網(wǎng)絡(luò)流量數(shù)據(jù)進行分析,更好的了解互聯(lián)網(wǎng)用戶的上網(wǎng)行為和特點,有利于互聯(lián)網(wǎng)技術(shù)的可持續(xù)發(fā)展。網(wǎng)站是用戶使用互聯(lián)網(wǎng)的主要應(yīng)用,對用戶網(wǎng)站數(shù)據(jù)分析處理,分析用戶的上網(wǎng)行為,是基于云計算的海量網(wǎng)絡(luò)流量數(shù)據(jù)分析的主要部分。
Hadoop是在海量數(shù)據(jù)中進行分布式計算處理的一種軟件框架,Hadoop軟件框架是開源的。Hadoop框架的可擴展性非常強,并且支持PB等級的數(shù)據(jù)量。正是因為Hadoop技術(shù)具有可擴展并且具有開源的特點,基于Hadoop的云計算技術(shù)才可以在很多領(lǐng)域中得到具體的應(yīng)用。隨著云服務(wù)的出現(xiàn),阿里巴巴和微軟等大公司都為用戶提供了云計算服務(wù),云服務(wù)現(xiàn)在成為了諸多科技應(yīng)用領(lǐng)域中的一項新的技術(shù)。Hadoop技術(shù)中的MapReduce是程序處理的框架,可以對大規(guī)模集群的海量數(shù)據(jù)進行并行計算處理。Hadoop技術(shù)中的Hadoop Common主要功能是提供支持作用的,為Hadoop的整個框架進行服務(wù)。Hadoop技術(shù)中的HDFS是一種分布式的系統(tǒng),可靠性高,而且具有強大的吞吐量;在HDFS上主要是實現(xiàn)對Hadoop框架數(shù)據(jù)的存儲,HDFS分布式文件系統(tǒng)數(shù)據(jù)訪問是流動模式的,超大文件也可以在HDFS分布式文件系統(tǒng)上進行存放,并且具有自動的容災(zāi)恢復(fù)能力。在HDFS架構(gòu)中主節(jié)點是NameNode,NameNode主節(jié)點的功能是完成對HDFS分布式文件系統(tǒng)的管理。HDFS架構(gòu)中還設(shè)有備份主節(jié)點Secondary NameNode。HDFS架構(gòu)中的對數(shù)據(jù)進行存儲的節(jié)點是DataNode,DataNode節(jié)點主要是對數(shù)據(jù)進行保存的,當(dāng)然這些數(shù)據(jù)都是存放在HDFS文件系統(tǒng)里面的。
2.1 互聯(lián)網(wǎng)海量流量數(shù)據(jù)分析關(guān)鍵技術(shù)研究
互聯(lián)網(wǎng)流量數(shù)據(jù)分析是在海量的數(shù)據(jù)中挖掘出用戶行為特征,海量流量的原始數(shù)據(jù)是在互聯(lián)網(wǎng)中直接得到的數(shù)據(jù),原始數(shù)據(jù)量比較大而且存在冗余的特點,所以我們在對原始數(shù)據(jù)進行分析處理之前要對海量的原始數(shù)據(jù)進行預(yù)處理,通過數(shù)據(jù)的預(yù)處理把原始數(shù)據(jù)的冗余數(shù)據(jù)消除,并對數(shù)據(jù)進行過濾和篩選然后對數(shù)據(jù)進行歸一化處理等。流量數(shù)據(jù)分析技術(shù)是數(shù)據(jù)挖掘技術(shù)和分布式計算等領(lǐng)域技術(shù)知識的結(jié)合,根據(jù)數(shù)據(jù)的實際內(nèi)容對數(shù)據(jù)進行分析并且設(shè)計出數(shù)據(jù)挖掘方法。傳統(tǒng)的算法很難滿足海量數(shù)據(jù)分析的需求,我們要把云計算中的Hadoop技術(shù)引入進來。Hadoop技術(shù)和數(shù)據(jù)挖掘技術(shù)實現(xiàn)了對數(shù)據(jù)進行高效的分析處理,基于云計算Hadoop技術(shù)的數(shù)據(jù)分析系統(tǒng)可以實現(xiàn)互聯(lián)網(wǎng)海量流量數(shù)據(jù)分析處理。聚類算法可以把對象間的共同相似的特性描述出來,并且把具有共同特點的對象結(jié)合成簇,實現(xiàn)簇內(nèi)各個對象之間的距離最小,簇與簇之間的對象的距離最大化的結(jié)果。如果在數(shù)據(jù)分析中對象的類別不清楚的情況,那么我們就可以采用聚類分析的算法進行計算,從對象集中把具有相似特性的對象通過數(shù)據(jù)挖掘技術(shù)都找出來。分類算法可以通過學(xué)習(xí)分類數(shù)據(jù)來獲得分類模型,分類算法可以優(yōu)化分類模型中的數(shù)據(jù)參數(shù),我們對數(shù)據(jù)進行分類的時候就可以采用優(yōu)化過的比較優(yōu)良的分類模型。當(dāng)數(shù)據(jù)分析過程中對類別有準(zhǔn)確的規(guī)則定義的情況下,我們采用分類算法對數(shù)據(jù)進行分析,按照分類模型對數(shù)據(jù)集中的對象進行分類分析和處理。
2.2 基于Hadoop云計算技術(shù)移動互聯(lián)網(wǎng)網(wǎng)站數(shù)據(jù)分類系統(tǒng)架構(gòu)研究
基于Hadoop云計算的海量互聯(lián)網(wǎng)網(wǎng)站流量數(shù)據(jù)分類系統(tǒng)架構(gòu)圖如圖1所示,系統(tǒng)架構(gòu)包括六層,第一層是數(shù)據(jù)導(dǎo)入層,把系統(tǒng)外界的原始數(shù)據(jù)導(dǎo)入進系統(tǒng)內(nèi)部的HDFS文件系統(tǒng)中進行存儲;第二層是文件存儲層,把海量的網(wǎng)絡(luò)流量的記錄進行分塊處理,然后存儲在HDFS中;第三層是數(shù)據(jù)存儲層,完成對海量數(shù)據(jù)的管理和存儲;第四層是模型編輯層,作為系統(tǒng)的核心部分,完成數(shù)據(jù)分析和數(shù)據(jù)挖掘的關(guān)鍵算法;第五層是數(shù)據(jù)分析層,系統(tǒng)的數(shù)據(jù)分析工作人員通過這一層完成數(shù)據(jù)分析,挖掘用戶特征數(shù)據(jù)等;第六層是系統(tǒng)管理層,實現(xiàn)對整個系統(tǒng)的監(jiān)管。系統(tǒng)每個層之間相互協(xié)作,構(gòu)成基于Hadoop云計算的移動互聯(lián)網(wǎng)網(wǎng)站分類系統(tǒng)。
通過云計算技術(shù)對網(wǎng)絡(luò)中海量的流量數(shù)據(jù)進行分析處理,對網(wǎng)絡(luò)用戶的行為特征進行分析,了解網(wǎng)絡(luò)用戶上網(wǎng)行為,實現(xiàn)了對網(wǎng)絡(luò)的優(yōu)化?;谠朴嬎愕暮A烤W(wǎng)絡(luò)流量數(shù)據(jù)分析處理研究具有一定的研究價值。
圖1 系統(tǒng)架構(gòu)圖
[1]趙衛(wèi)中,馬慧芳,傅燕翔,史忠植. 基于云計算平臺Hadoop的并行k-means聚類算法設(shè)計研究[J].計算機科學(xué).2011(10).
[2]劉小俊,徐正全,潘少明. 一種結(jié)合RDBMS和Hadoop的海量小文件存儲方法[J]. 武漢大學(xué)學(xué)報(信息科學(xué)版).2013(01).
[3]李志鵬,虞鴻,劉允才,劉富強. 一種改進的用于城市主干道行駛時間短時預(yù)測的自適應(yīng)指數(shù)平滑(IAES)模型(英文)[J].自動化學(xué)報. 2008(11).
[4]孫彥良.面向下一代無線通信系統(tǒng)的多天線信道建模和仿真技術(shù)研究[D].北京郵電大學(xué) 2015.
[5]陶彩霞,謝曉軍,陳康,郭利榮,劉春. 基于云計算的移動互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計[J]. 電信科學(xué).2013(03).
全面助力萬物互連時代的IC設(shè)計創(chuàng)新——R&S公司將參展第15屆中國國際半導(dǎo)體博覽會暨高峰論壇 (IC China 2017)
中國國際半導(dǎo)體博覽會暨高峰論壇(ICChina)將于2017年10月25-27號在上海新國際博覽中心盛大舉行,經(jīng)過15年的發(fā)展,已成為國內(nèi)外具有一定影響力的半導(dǎo)體業(yè)界盛會?!癐CChina”為從事集成電路設(shè)計、芯片加工、封裝測試、半導(dǎo)體專用設(shè)備、半導(dǎo)體專用材料、半導(dǎo)體分立器件的海內(nèi)外廠商,企事業(yè)單位搭建了一個展示最新成果,打造產(chǎn)品品牌的平臺。聚焦產(chǎn)業(yè)政策解讀,涵蓋“體制創(chuàng)新、模式創(chuàng)新、技術(shù)創(chuàng)新”等內(nèi)容的高峰論壇和專題研討會,在業(yè)界有著極佳的口碑和知名度。
市場推動產(chǎn)業(yè)發(fā)展,應(yīng)用引領(lǐng)技術(shù)創(chuàng)新,“IC China2017”繼續(xù)力邀國內(nèi)外優(yōu)秀半導(dǎo)體企業(yè)參展、參會;精心組織物聯(lián)網(wǎng)、智慧城市、智能家居、便攜終端、汽車電子、LED、健康醫(yī)療等IC應(yīng)用展示,共同推進“系統(tǒng)應(yīng)用-半導(dǎo)體-專用設(shè)備、材料”全產(chǎn)業(yè)鏈的發(fā)展。
羅德與施瓦茨公司(Rohde & Schwarz,R&S)作為全球電子和無線移動通信測試設(shè)備廠商之一,將在IC China上展示其領(lǐng)先的針對IoT和通用IC設(shè)計與測試的產(chǎn)品和解決方案,包括IoT芯片測試技術(shù),射頻微波芯片測試技術(shù),收發(fā)機芯片測試技術(shù),收發(fā)機芯片產(chǎn)線測試方案,先進相位噪聲測試技術(shù),調(diào)制解調(diào)器測試技術(shù),先進時域測試技術(shù)等方案。同時,針對頻域,時域和信號域的測試,R&S公司帶來了7款產(chǎn)品用于現(xiàn)場的演示和交流:
CMW500 無線通信測試儀
ZNB20 矢量網(wǎng)絡(luò)分析儀
SMW200A 矢量信號發(fā)生器
SMA100B 模擬信號發(fā)生器
FSW 信號與頻譜分析儀
FSWP 相位噪聲分析儀
RTO 數(shù)字示波器
通過參觀和交流,來賓將體驗到R&S公司的一流產(chǎn)品、服務(wù)以及先進理念,領(lǐng)略R&S公司打造的全方位的IC測試方案平臺,特別包含可以加速IC設(shè)計的獨有方案,期待與您分享,敬請您的光臨。
Research and analysis of massive network traffic data processing based on Cloud Computing
Zhou Ying
(Liaoning Academy of Governance,Shenyang Liaoning, 110161)
With the rapid development of Internet technology, in our life, the Internet has become an important part of what we can not afford Network traffic monitoring technology is an important tool and technology for analyzing large amount of traffic data in the network Better analysis of the features of network traffic monitoring technology of cloud computing to data traffic network and based on the user’s online behavior of users can conduct in-depth mining, better recommendation for users love web content Analysis technology has carried on the analysis to the current development of the Internet network traffic data in this paper, based on the cloud computing on several key technical analysis data of network traffic is proposed for cloud computing massive traffic data analysis based on network technology is analyzed and studied
cloud computing; data analysis; traffic monitoring technology; Internet