国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺構(gòu)建

2019-03-06 10:22蔡艷婧
關(guān)鍵詞:數(shù)據(jù)源數(shù)據(jù)挖掘分布式

蔡艷婧,王 強(qiáng),程 實

(1.南通大學(xué),江蘇 南通 226019;2.江蘇商貿(mào)職業(yè)學(xué)院,江蘇 南通 226011)

0 引 言

隨著互聯(lián)網(wǎng)快速發(fā)展,用戶利用網(wǎng)絡(luò)技術(shù)可體驗到多樣化、高速率的網(wǎng)絡(luò)服務(wù)[1]?;ヂ?lián)網(wǎng)中的用戶呈現(xiàn)爆炸式增長,用戶在網(wǎng)絡(luò)上產(chǎn)生海量的數(shù)據(jù),構(gòu)建大數(shù)據(jù)分析平臺能夠從大量數(shù)據(jù)中分析出用戶上網(wǎng)的共性與個性特征,挖掘用戶上網(wǎng)內(nèi)容偏好等行為習(xí)慣規(guī)律[2],提升網(wǎng)絡(luò)資源配置。完整、高效的大數(shù)據(jù)分析平臺為大數(shù)據(jù)運(yùn)用提供一站式基本服務(wù)[3],對實現(xiàn)網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)的準(zhǔn)確分析具有重要意義。

文獻(xiàn)[4]基于大數(shù)據(jù)處理技術(shù)的AIS應(yīng)用研究,只利用彈性數(shù)據(jù)集構(gòu)建分布式數(shù)據(jù)庫實現(xiàn)AIS數(shù)據(jù)分析,無法實時滿足大數(shù)據(jù)分析需求,不能挖掘出網(wǎng)絡(luò)瀏覽行為。文獻(xiàn)[5]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型,只針對大數(shù)據(jù)技術(shù)處理網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行初步探索,缺乏大數(shù)據(jù)挖掘過程,分析網(wǎng)絡(luò)瀏覽行為存在一定的局限性。文獻(xiàn)[6]提出大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù),只分析分布式數(shù)據(jù)流處理技術(shù),同樣缺乏數(shù)據(jù)的挖掘和管理過程,分析網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)效果差。

為解決上述問題,本文構(gòu)建基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺,提高網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析的效率。

1 基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺

1.1 平臺總體結(jié)構(gòu)設(shè)計

構(gòu)建的基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺的結(jié)構(gòu)用圖1描述。

圖1 平臺架構(gòu)圖

本文平臺層次結(jié)構(gòu)分明,針對大量用戶網(wǎng)絡(luò)瀏覽行為產(chǎn)生數(shù)據(jù)實施存儲與管理問題,平臺使用分布式存儲系統(tǒng)HDFS與分布式計算系統(tǒng)Spark組成的分布式集群[7]。圖1描述平臺架構(gòu)圖分為五層,分別為:

(1)視圖層:將用戶請求操作發(fā)送至前端Web界面再發(fā)送至控制層,由前端Web界面呈現(xiàn)用戶請求操作結(jié)果。視圖層調(diào)用Echarts插件對數(shù)據(jù)概況和挖掘結(jié)果分別使用折線圖和柱狀圖等方式呈現(xiàn)給用戶[8],能夠直接了解用戶網(wǎng)絡(luò)瀏覽行為分析的數(shù)據(jù)結(jié)果。

(2)控制層:視圖層將數(shù)據(jù)上傳、清洗等請求發(fā)送到控制層??刂茖邮占晥D層用戶操作信息與數(shù)據(jù),再發(fā)送到服務(wù)層處理,同時接收服務(wù)層處理后的結(jié)果,將結(jié)果反饋到視圖層呈現(xiàn)在前端[9]??刂茖佑伤膫€模塊組成:采用數(shù)據(jù)管理控制模塊解決前端數(shù)據(jù)管理場景中數(shù)據(jù)上傳和數(shù)據(jù)清洗等相關(guān)請求,分析前端的文件名與文件流,調(diào)用數(shù)據(jù)管理服務(wù)模塊將數(shù)據(jù)上傳到HDFS中,這一過程為數(shù)據(jù)上傳請求;通過用戶特征分析控制模塊管理前端用戶網(wǎng)絡(luò)瀏覽行為特征,分析場景中數(shù)據(jù)多維與相關(guān)性等請求;采用數(shù)據(jù)挖掘計算控制模塊控制數(shù)據(jù)挖掘任務(wù)中分類分析的創(chuàng)建任務(wù),以及實施任務(wù)的生命周期,管理前端挖掘計算場景相關(guān)請求[10]并調(diào)用數(shù)據(jù)挖掘計算服務(wù)模塊實現(xiàn)具體操作;利用用戶分群分析控制模塊管理前端用戶分群分析操作請求,并調(diào)用用戶分群分析服務(wù)模塊實現(xiàn)具體操作。

(3)服務(wù)層:管理控制層請求,依據(jù)控制層請求對應(yīng)的數(shù)據(jù)模型完成相關(guān)操作。數(shù)據(jù)模型的增減查改操作由服務(wù)層中對應(yīng)的四個服務(wù)模塊控制;Hadoop與Spark分布式集群的計算能力由服務(wù)層中兩個管理模塊與兩個腳本模塊調(diào)配使用,處理異步化的具體情況為:采用任務(wù)狀態(tài)管理模塊管理Hadoop與Spark任務(wù)創(chuàng)建與結(jié)果查詢等的生命周期;通過任務(wù)腳本管理模塊處理任務(wù)腳本信息與類型等對應(yīng)的不同分布式服務(wù)[11],出現(xiàn)新的分布式服務(wù)時只需在任務(wù)腳本管理模塊直接注冊即可;為能夠讓用戶實時了解服務(wù)模塊的管理步驟,得到異步操作的目標(biāo),采用多線程把腳本發(fā)送至集群Spakk分布式集群中分析。

(4)數(shù)據(jù)持久化層:增減改查數(shù)據(jù)方式和封裝數(shù)據(jù)持久化方式通過Hibernate完成,確保數(shù)據(jù)模型映射到數(shù)據(jù)庫內(nèi)。

(5)數(shù)據(jù)層:在HDFS內(nèi)存儲用戶的網(wǎng)絡(luò)瀏覽數(shù)據(jù)源,在MySQL數(shù)據(jù)庫內(nèi)存儲特征數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)層管理HDFS和MySQL數(shù)據(jù)的存儲過程[12]。使用HDFS分布式文件系統(tǒng)存儲海量網(wǎng)絡(luò)用戶瀏覽數(shù)據(jù)的數(shù)據(jù)源。特征數(shù)據(jù)庫利用MySQL緩存數(shù)據(jù)的統(tǒng)計分析挖掘運(yùn)算結(jié)果,將用戶網(wǎng)絡(luò)瀏覽數(shù)據(jù)狀況等相關(guān)內(nèi)容直接呈現(xiàn)在前端。

1.2 平臺動態(tài)流程設(shè)計

以數(shù)據(jù)源上傳與數(shù)據(jù)挖掘計算為例,詳細(xì)介紹平臺的動態(tài)流程。

(1)數(shù)據(jù)上傳流程設(shè)計

平臺把數(shù)據(jù)源上傳至HDFS內(nèi)的過程則是數(shù)據(jù)源上傳,該過程實現(xiàn)了海量網(wǎng)絡(luò)瀏覽數(shù)據(jù)源的存儲。平臺利用多線程方法和任務(wù)狀態(tài)管理模塊控制文件上傳任務(wù)的生命周期,減少文件上傳時I/O堵塞情況。圖2描述了數(shù)據(jù)源上傳流程圖。

圖2 數(shù)據(jù)源上傳流程圖

圖2描述的數(shù)據(jù)源上傳流程為:通過Web前端獲取用戶發(fā)出數(shù)據(jù)上傳請求的數(shù)據(jù)源文件;為得到數(shù)據(jù)上傳請求內(nèi)的文件名等參數(shù),管理控制層的數(shù)據(jù)管理控制模塊上傳數(shù)據(jù)請求,并調(diào)用服務(wù)層的數(shù)據(jù)管理服務(wù)模塊實施上傳;任務(wù)狀態(tài)管理模塊同數(shù)據(jù)管理服務(wù)模塊間的數(shù)據(jù)傳遞完成數(shù)據(jù)上傳任務(wù),并將上傳請求成功的結(jié)果返回控制層;文件狀態(tài)為上傳中時,視圖層呈現(xiàn)出反饋成功的結(jié)果,由數(shù)據(jù)管理控制模塊轉(zhuǎn)換為json格式,用戶通過Web前端了解到該數(shù)據(jù)源的文件名、狀態(tài)等信息。

(2)數(shù)據(jù)挖掘計算流程設(shè)計

平臺使用數(shù)據(jù)挖掘計算功能,可以讓用戶直接在Web頁面通過決策樹方式挖掘數(shù)據(jù)。用戶為獲取可視化結(jié)果,選取已完成的數(shù)據(jù)源,利用數(shù)據(jù)挖掘與填入算法的參數(shù),在Spark分布集群內(nèi)運(yùn)算數(shù)據(jù)挖掘任務(wù)。平臺利用異步實施方式,提高用戶體驗與平臺易用性。平臺管理用戶提交的數(shù)據(jù)挖掘任務(wù)信息,由前端頁面呈現(xiàn)該任務(wù)的實時情況,分布式聚類運(yùn)算由異步任務(wù)調(diào)用Spark,并在后臺運(yùn)算,任務(wù)完成后便可查看任務(wù)結(jié)果[13]。圖3描述數(shù)據(jù)挖掘計算流程圖。

圖3 數(shù)據(jù)挖掘計算流程圖

分析圖3可得,數(shù)據(jù)源列表在前端頁面呈現(xiàn)的情況為:用戶進(jìn)入數(shù)據(jù)挖掘計算頁面后,數(shù)據(jù)源列表是由數(shù)據(jù)挖掘計算控制模塊對數(shù)據(jù)挖掘計算服務(wù)模塊發(fā)起請求,通過任務(wù)狀態(tài)管理模塊從業(yè)務(wù)數(shù)據(jù)庫中獲取數(shù)據(jù)源信息,并將該信息逐層返回到前端;用戶選取已存在數(shù)據(jù)源并點(diǎn)擊下一步,平臺支持的聚類算法信息列表由數(shù)據(jù)挖掘計算控制模塊對數(shù)據(jù)挖掘計算服務(wù)模塊發(fā)出請求,聚類算法的類型、參數(shù)列表等信息可從業(yè)務(wù)數(shù)據(jù)庫內(nèi)獲取,并逐層返回到前端;用戶選取與填寫對應(yīng)的算法與參數(shù),將聚類計算任務(wù)提交到數(shù)據(jù)挖掘計算控制模塊內(nèi),數(shù)據(jù)挖掘計算服務(wù)模塊接收挖掘計算控制模塊的任務(wù)請求,將任務(wù)信息通過挖掘計算服務(wù)模塊加入業(yè)務(wù)數(shù)據(jù)庫內(nèi);聚類計算任務(wù)由挖掘計算服務(wù)模塊調(diào)用任務(wù)狀態(tài)管理模塊實施,聚類計算任務(wù)完成的結(jié)果發(fā)送至控制層;當(dāng)前用戶能夠在頁面了解到聚類任務(wù)名稱、類型等信息。

1.3 平臺實現(xiàn)

1.3.1 平臺數(shù)據(jù)管理實現(xiàn)

平臺具有數(shù)據(jù)管理功能,通過數(shù)據(jù)上傳功能能確保用戶上傳數(shù)據(jù)集到分布式系統(tǒng)HDFS中,數(shù)據(jù)管理在Web頁面內(nèi)查詢對應(yīng)信息,數(shù)據(jù)文件上傳、數(shù)據(jù)文件刪除、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分布特征統(tǒng)計組成數(shù)據(jù)管理[14],因篇幅有限,平臺描述了服務(wù)層中每個模塊中類的交互與調(diào)用關(guān)系,如圖4描述,上傳數(shù)據(jù)文件過程中,服務(wù)層數(shù)據(jù)源服務(wù)模塊管理用戶選取本地要上傳的數(shù)據(jù)文件,數(shù)據(jù)文件在Web頁面內(nèi),用戶將上傳數(shù)據(jù)任務(wù)請求發(fā)送到數(shù)據(jù)層,分析得到相關(guān)參數(shù)。

圖4 數(shù)據(jù)上傳

分析圖4數(shù)據(jù)上傳圖可得:HDFS接收用戶通過Web前端請求的上傳數(shù)據(jù),請求上傳數(shù)據(jù)源利用控制層數(shù)據(jù)源管理控制模塊調(diào)用服務(wù)層中SourceSvr類的uploadSource方式,上傳數(shù)據(jù)名稱等參數(shù);source實例是將要上傳的數(shù)據(jù)源,其由SourceSvr類的uploadSource方式初步形成,且業(yè)務(wù)數(shù)據(jù)庫內(nèi)接收更新的source,數(shù)據(jù)源名稱、上傳用戶等構(gòu)成記錄數(shù)據(jù)源的信息;平臺使用HadoopScript類中增添upload方式調(diào)用HDFS內(nèi)的API,將數(shù)據(jù)上傳到HDFS中,通過HadoopScript實例完成數(shù)據(jù)上傳;業(yè)務(wù)數(shù)據(jù)庫內(nèi)接收任務(wù)信息持久化、規(guī)劃上傳任務(wù)時間和狀態(tài)等信息、上傳數(shù)據(jù)任務(wù)由SourceSvr類調(diào)用JobManage類submitJob方式實現(xiàn)。

1.3.2 網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)挖掘?qū)崿F(xiàn)

平臺通過決策樹算法準(zhǔn)確挖掘網(wǎng)絡(luò)瀏覽行為,決策樹算法能夠準(zhǔn)確挖掘海量數(shù)據(jù)中的易解析形式。決策樹能夠作為數(shù)值型數(shù)據(jù)與非數(shù)值型數(shù)據(jù)存在。決策樹ID3算法分析節(jié)點(diǎn)的檢測屬性由最大信息增益屬性決定,通過各網(wǎng)絡(luò)瀏覽行為檢測屬性已知值建立決策樹的分支,根節(jié)點(diǎn)屬性的各值都是一個子集,將該步驟規(guī)劃遞歸地使用在各子樹中,實現(xiàn)子集內(nèi)元素為同類后停止規(guī)劃,形成網(wǎng)絡(luò)瀏覽行為決策樹。

決策樹ID3算法假設(shè)存在r個不同網(wǎng)絡(luò)瀏覽數(shù)據(jù){d1,d2,…,dr}在瀏覽行為檢測屬性D中,r個網(wǎng)絡(luò)瀏覽行為{k1,k2,…kr,}通過利用屬性D對總體瀏覽過程K規(guī)劃,K內(nèi)樣本體現(xiàn)在Ky中,它們在D上具有值dy,假設(shè)檢測屬性為D,集合K節(jié)點(diǎn)的分枝與子集相對應(yīng)。設(shè)定子集Ky中類Px的樣本數(shù)為Kx,y。公式(1)反映D規(guī)劃的網(wǎng)絡(luò)瀏覽行為子集熵為:

(1)

公式(1)中,第y個子集權(quán)為(kx,y,…,kn,y)/k,等于子集內(nèi)樣本個數(shù)除以K內(nèi)的樣本總數(shù),D值為d。F(D)與子集規(guī)劃純度呈負(fù)相關(guān)性。公式(2)描述規(guī)定的子集Ky為:

(2)

公式(2)內(nèi),Ky內(nèi)樣本屬于類Px的機(jī)率為Qx,y=Kx,y/|Ky|。公式(3)反映D上分枝得到的信息增益為:

H(D)=X(k1,k2,…,kn)-F(D)

(3)

公式(3)內(nèi),信息增益通過網(wǎng)絡(luò)瀏覽行為檢測屬性D值引起的期望壓縮為H(D)。將運(yùn)算得到的最大屬性信息增益當(dāng)成集合K的檢測屬性。決策樹ID3算法利用相同的步驟,遞歸的構(gòu)建網(wǎng)絡(luò)瀏覽行為樣本判定樹,實現(xiàn)網(wǎng)絡(luò)瀏覽行為的準(zhǔn)確挖掘[15]。

2 實驗分析

實驗為了檢測本文平臺的有效性,對本文平臺的功能與性能進(jìn)行測試,詳細(xì)過程為:

2.1 環(huán)境部署

構(gòu)建硬件環(huán)境中,本文平臺利用7臺設(shè)備為E5-2620V3 CUP、128G內(nèi)存和1TB硬盤的聯(lián)想服務(wù)器構(gòu)建底層分布式集群。HDFS分布式文件系統(tǒng)、Yarn分布式資源管理和Spark分布式集群部署在底層分布式集群內(nèi),在7臺服務(wù)器內(nèi)選取1臺服務(wù)器為主節(jié)點(diǎn),剩余6臺服務(wù)器為從節(jié)點(diǎn)。在構(gòu)建軟件環(huán)境內(nèi)選取適用性較高的軟件。

2.2 平臺功能測試

平臺功能測試由界面邏輯和整體結(jié)構(gòu)兩點(diǎn)出發(fā),檢測用例依據(jù)平臺要求撰寫,實驗詳細(xì)研究本文平臺的功能,分析本文平臺的數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析功能的實際結(jié)果能否達(dá)到預(yù)期效果。

實驗檢驗本文平臺能否成功向HDFS反饋數(shù)據(jù)管理模塊內(nèi)數(shù)據(jù)集,數(shù)據(jù)源上傳功能測試用例由表1所示。

表1 數(shù)據(jù)源上傳功能測試用例

實驗檢驗數(shù)據(jù)預(yù)處理功能經(jīng)過本文平臺的數(shù)據(jù)清洗能否達(dá)到規(guī)定條件,數(shù)據(jù)預(yù)處理功能測試用例由表2表示。

表2 數(shù)據(jù)預(yù)處理功能測試用例

檢驗本文平臺能否成功實施數(shù)據(jù)挖掘計算內(nèi)的聚類分析,并準(zhǔn)確獲取結(jié)果,聚類分析功能測試用例由表3表示。

表3 聚類分析功能測試用例由

由表1、表2、表3了解到本文平臺進(jìn)行數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析的功能符合預(yù)期結(jié)果,說明本文平臺是一種有效的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺。

2.3 平臺性能測試

2.3.1 數(shù)據(jù)源管理的響應(yīng)時間測試

listAllSources請求為數(shù)據(jù)源管理請求,數(shù)據(jù)源信息由listAllSources接口得到,在多用戶并發(fā)狀況下,利用工具Jmeter模擬檢測本文平臺和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺進(jìn)行數(shù)據(jù)源管理的響應(yīng)時間,用表4描述。

表4 數(shù)據(jù)源管理的響應(yīng)時間/ms

由表4得知,在不同的并發(fā)數(shù)下,本文平臺對listAllSources請求與整體響應(yīng)時間的平均值分別為30.25 ms與843.75 ms;基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺對listAllSources請求與整體響應(yīng)時間的平均值分別為56.75 ms與1352 ms,對比分析可以得出,本文平臺對于listAllSources數(shù)據(jù)源管理請求的響應(yīng)時間以及整體響應(yīng)時間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺分別少26.5 ms和508.25 ms,說明本文平臺具有較高的數(shù)據(jù)源管理響應(yīng)效率。

2.3.2 用戶行為特征分析的響應(yīng)時間測試

getSummary、perHourUser、topApp、topWeb和serviceType這5個請求是較為關(guān)鍵的網(wǎng)絡(luò)用戶行為特征分析請求,每個維度的統(tǒng)計結(jié)果分別由這5個接口得到,各接口接收各維度返回結(jié)果,并由前端并行管理5個接口。在多用戶并發(fā)狀況下,利用工具Jmeter模擬檢測本文平臺和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺進(jìn)行用戶行為特征分析的響應(yīng)時間,用表5描述。

表5 用戶行為特征分析的響應(yīng)時間/ms

由表5了解到,隨著并發(fā)數(shù)的不斷提升,兩種平臺對于5種不同用戶行為特征分析請求的響應(yīng)時間也逐漸提升,但是本文平臺的響應(yīng)時間始終低于基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺,并且在相同的并發(fā)數(shù)下,本文平臺的整體響應(yīng)時間遠(yuǎn)遠(yuǎn)低于基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺,本文平臺的整體響應(yīng)平均時間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺少836.5 ms,說明本文平臺分析用戶行為特征時具有較高的響應(yīng)效率。

2.3.3 數(shù)據(jù)挖掘及用戶流量分群分析的響應(yīng)時間測試

本文平臺進(jìn)行數(shù)據(jù)挖掘與用戶流量分群分析的工作機(jī)制相同,需要向Spark分布式集群內(nèi)反饋任務(wù)腳本,用戶以任務(wù)方式請求提交形成的子線程向任務(wù)腳本反饋,主要包括同步的任務(wù)提交與異步的分布式計算任務(wù),用戶體驗會受到同步任務(wù)提交的影響,其中submitDMJob請求和submitUserAnaJob請求分別是數(shù)據(jù)挖掘和用戶流量分群分析請求。

在多用戶并發(fā)狀況下,利用工具Jmeter模擬檢測本文平臺和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺進(jìn)行數(shù)據(jù)挖掘和用戶流量分群的響應(yīng)時間,用表6描述。

表6 數(shù)據(jù)挖掘及用戶流量分群分析的響應(yīng)時間/ms

通過表6了解到,本文平臺對于數(shù)據(jù)挖掘submitDMJob請求和用戶流量分群行為分析submitUserAnaJob請求的平均時間響應(yīng)分別為62.25 ms和55.25 ms,而基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺對于兩種請求的平均響應(yīng)時間分別為239.25 ms和232 ms,對比分析這些數(shù)據(jù)可以看出,本文平臺具有較高的數(shù)據(jù)挖掘和用戶流量分群響應(yīng)分析效率。

3 結(jié) 語

本文構(gòu)建了基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺,通過分布式存儲系統(tǒng)HDFS與分布式計算系統(tǒng)Spark組成的分布式集群存儲與管理網(wǎng)絡(luò)瀏覽行為產(chǎn)生的數(shù)據(jù),為用戶提供了一站式網(wǎng)絡(luò)用戶瀏覽行為分析服務(wù),利用決策樹ID3算法挖掘用戶網(wǎng)絡(luò)瀏覽行為。實驗分別測試了本平臺的功能與性能,得出本文平臺的數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析功能符合預(yù)期結(jié)果,本文平臺對數(shù)據(jù)源管理listAllSources請求與整體響應(yīng)時間的平均值比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺低26.5 ms和508.25 ms,具有較高的數(shù)據(jù)源管理效率;本文平臺進(jìn)行用戶行為特征分析的整體響應(yīng)時間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺低836.5 ms,具有較高的用戶行為特征分析效率;本文平臺具有較高的數(shù)據(jù)挖掘與用戶流量分群分析的響應(yīng)效率,綜合分析可得,本文平臺可完成高效率的網(wǎng)絡(luò)瀏覽行為分析,取得了令人滿意的效果。

猜你喜歡
數(shù)據(jù)源數(shù)據(jù)挖掘分布式
基于RTDS的分布式光伏并網(wǎng)建模研究
改進(jìn)支持向量機(jī)在特征數(shù)據(jù)挖掘中的智能應(yīng)用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
利用屬性集相關(guān)性與源誤差的多真值發(fā)現(xiàn)方法研究
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
基于預(yù)處理MUSIC算法的分布式陣列DOA估計
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
基于DDS的分布式三維協(xié)同仿真研究
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
长宁县| 鱼台县| 岚皋县| 墨玉县| 秦安县| 安阳市| 临洮县| 浮梁县| 墨竹工卡县| 郓城县| 桃园市| 建阳市| 盐津县| 辽阳县| 铜陵市| 桂林市| 大方县| 牟定县| 安西县| 井陉县| 萨迦县| 安康市| 图木舒克市| 东乌珠穆沁旗| 双鸭山市| 方山县| 平陆县| 博野县| 秦安县| 岳西县| 革吉县| 白山市| 拜城县| 朝阳市| 广州市| 岫岩| 牡丹江市| 新宁县| 南宁市| 大新县| 凯里市|