国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)架構(gòu)分析

2018-09-26 11:34陳利萍
關(guān)鍵詞:門戶網(wǎng)站數(shù)據(jù)挖掘

陳利萍

摘要:數(shù)據(jù)采集與存儲(chǔ)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘算法并行化、數(shù)據(jù)輸出與應(yīng)用等是數(shù)據(jù)挖掘的核心技術(shù)。在移動(dòng)云時(shí)代,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)架構(gòu)通常由數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺(tái)和客戶端三大層級(jí)組成,并通過DNS超級(jí)代理、CDN云計(jì)算化、訪問記錄與日志分析、用戶數(shù)據(jù)動(dòng)態(tài)分發(fā)網(wǎng)絡(luò)等實(shí)現(xiàn)數(shù)據(jù)挖掘與智能調(diào)度。

關(guān)鍵詞:門戶網(wǎng)站;分布式系統(tǒng);數(shù)據(jù)挖掘;云平臺(tái)架構(gòu)

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)05-0184-02

在信息技術(shù)不斷發(fā)展的背景下,多樣化的數(shù)據(jù)信息通過網(wǎng)絡(luò)進(jìn)行傳輸,數(shù)據(jù)的類型和規(guī)模均呈現(xiàn)出“爆炸式”增長(zhǎng)。數(shù)據(jù)規(guī)模的不斷增長(zhǎng)呼喚有效的數(shù)據(jù)處理和分析技術(shù),只有能夠整合數(shù)據(jù)資源并輸出有效數(shù)據(jù)產(chǎn)品的技術(shù)才能夠真正挖掘數(shù)據(jù)的價(jià)值,實(shí)現(xiàn)更高效的數(shù)據(jù)運(yùn)用。數(shù)據(jù)挖掘技術(shù)作為一種在較高層次對(duì)數(shù)據(jù)進(jìn)行高級(jí)查詢和篩選的技術(shù),具有數(shù)據(jù)記錄、整理、分析、輸出的能力,尤其是在云平臺(tái)的支持下,數(shù)據(jù)挖掘被賦予了更強(qiáng)的計(jì)算能力和更大的存儲(chǔ)空間[1]。通過云端進(jìn)行更高效的數(shù)據(jù)運(yùn)算和智能分析,能提升數(shù)據(jù)挖掘的報(bào)告質(zhì)量和輸出價(jià)值。

1 云時(shí)代數(shù)據(jù)挖掘的核心技術(shù)

1.1 數(shù)據(jù)采集與存儲(chǔ)

數(shù)據(jù)采集是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)階段,采集技術(shù)分為線上和線下兩種類型。線上數(shù)據(jù)采集主要通過網(wǎng)絡(luò)終端后臺(tái)實(shí)現(xiàn),例如檔案、日志、瀏覽、點(diǎn)擊等相關(guān)信息[2];線下數(shù)據(jù)采集則通過傳感器、磁卡片、RFID技術(shù)等進(jìn)行,獲取用戶的線下行為數(shù)據(jù),從而建立用戶的行為數(shù)字?jǐn)?shù)據(jù)庫。數(shù)據(jù)采集后,還須存儲(chǔ)已采集數(shù)據(jù),如設(shè)備存儲(chǔ)、數(shù)據(jù)庫存儲(chǔ)、云端存儲(chǔ)等。

1.2 數(shù)據(jù)預(yù)處理

采集的原始數(shù)據(jù)是非標(biāo)準(zhǔn)化的數(shù)據(jù),數(shù)據(jù)的類型、大小、字段等信息均不統(tǒng)一,這種數(shù)據(jù)特征不利于進(jìn)行深度的數(shù)據(jù)挖掘,因此需要在數(shù)據(jù)采集和存儲(chǔ)的基礎(chǔ)上進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理需要對(duì)已采集和存儲(chǔ)的信息進(jìn)行篩選、分類、集合、轉(zhuǎn)化等操作,進(jìn)而將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化加工,在一定格式規(guī)則下建立數(shù)據(jù)存儲(chǔ)與管理系統(tǒng)[2]。

1.3 數(shù)據(jù)挖掘算法并行化

經(jīng)過預(yù)處理,數(shù)據(jù)能夠呈現(xiàn)出標(biāo)準(zhǔn)化格式,可采用挖掘算法進(jìn)行并行化數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的算法包括關(guān)聯(lián)算法、聚類算法、數(shù)據(jù)分類算法和回歸算法等,這些算法能夠?qū)?biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行更為深入的整合和分析,探索數(shù)據(jù)內(nèi)部蘊(yùn)含的規(guī)律和關(guān)聯(lián)關(guān)系,輸出具有一定邏輯的數(shù)據(jù)結(jié)果[2]。數(shù)據(jù)挖掘算法并行化,能提升數(shù)據(jù)挖掘效率,并與云平臺(tái)的運(yùn)行規(guī)則適配。

1.4 數(shù)據(jù)輸出與應(yīng)用

通過云平臺(tái)分析的數(shù)據(jù),可以依據(jù)數(shù)據(jù)內(nèi)部的邏輯和規(guī)律輸出為可視化的數(shù)據(jù)報(bào)告和結(jié)果——通過數(shù)據(jù)可視化與數(shù)據(jù)轉(zhuǎn)化技術(shù),數(shù)據(jù)挖掘輸出的結(jié)果是規(guī)范的數(shù)據(jù)報(bào)告。需要指出的是,所有的數(shù)據(jù)輸出結(jié)果均應(yīng)可追索數(shù)據(jù)源,以便于報(bào)告使用者進(jìn)行檢查與學(xué)習(xí)。云數(shù)據(jù)挖掘報(bào)告可在政府政策研究、公共管理、行業(yè)研究、消費(fèi)者行為研究等領(lǐng)域廣泛應(yīng)用[2]。

本文探討門戶網(wǎng)站對(duì)“云數(shù)據(jù)挖掘技術(shù)”的一種應(yīng)用架構(gòu),即門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)架構(gòu)。

2 門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)架構(gòu)

云平臺(tái)又稱云計(jì)算平臺(tái),是能夠進(jìn)行數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)整合的一個(gè)服務(wù)平臺(tái)。云平臺(tái)的基礎(chǔ)服務(wù)內(nèi)容包括IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái)即服務(wù))、SaaS(軟件即服務(wù))三個(gè)方面。通過三方面的服務(wù)內(nèi)容,云平臺(tái)能夠?qū)⒃贫说臄?shù)據(jù)通過架構(gòu)層面的軟硬件服務(wù)設(shè)施進(jìn)行基礎(chǔ)搭建,并在應(yīng)用層進(jìn)行智能化的資源調(diào)度、并行計(jì)算和數(shù)據(jù)存儲(chǔ),最后在平臺(tái)層通過應(yīng)用代碼、定制代碼等工具進(jìn)行最終的數(shù)據(jù)挖掘結(jié)果輸出,從而完成對(duì)海量云端數(shù)據(jù)的高效挖掘[1]。分布式系統(tǒng)是相對(duì)于集中式系統(tǒng)而言的一種弱化集中處理性能的內(nèi)聚性軟件系統(tǒng)。一方面,分布式系統(tǒng)具有內(nèi)聚性,系統(tǒng)內(nèi)部的數(shù)據(jù)庫和不同模塊能夠進(jìn)行自治化的數(shù)據(jù)處理,而不需要經(jīng)過集中性的決策和處理過程,這在一定程度上能夠提升項(xiàng)目完成效率;另一方面,分布式系統(tǒng)具備全局化的透明性處理功能,能夠基于系統(tǒng)內(nèi)部的資源整體進(jìn)行資源的整合和調(diào)配,在用戶需求和相關(guān)指令的基礎(chǔ)上,對(duì)于系統(tǒng)網(wǎng)絡(luò)內(nèi)部的資源進(jìn)行自由的調(diào)度,匹配出最高效的資源分配和數(shù)據(jù)處理流程,從而實(shí)現(xiàn)平臺(tái)目標(biāo)。目前最為流行的分布式數(shù)據(jù)挖掘云平臺(tái)架構(gòu)是Hadoop平臺(tái),其能夠通過多樣的系統(tǒng)工具實(shí)現(xiàn)高效的數(shù)據(jù)處理,并通過HDFS進(jìn)行數(shù)據(jù)存儲(chǔ),在并行化模式下進(jìn)行海量數(shù)據(jù)的處理和運(yùn)算,通過強(qiáng)大的服務(wù)器來支持眾多客戶端應(yīng)用,實(shí)現(xiàn)對(duì)硬件成本、維護(hù)成本的控制[3]。門戶網(wǎng)站Hadoop分布式數(shù)據(jù)挖掘云平臺(tái)架構(gòu)主要由數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺(tái)和客戶端三個(gè)層級(jí)組成。

2.1 數(shù)據(jù)源層

數(shù)據(jù)源層是門戶網(wǎng)站數(shù)據(jù)挖掘的底層,其能夠整合來自云平臺(tái)上的多樣化數(shù)據(jù),涵蓋非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)類型。在實(shí)現(xiàn)充分的云計(jì)算平臺(tái)互聯(lián)互通的情況下,數(shù)據(jù)源層能夠?qū)佣鄠€(gè)云平臺(tái)的數(shù)據(jù),實(shí)現(xiàn)對(duì)于海量數(shù)據(jù)的整合和存儲(chǔ),從而為門戶網(wǎng)站數(shù)據(jù)挖掘提供充分的數(shù)據(jù)保障。

2.2 大數(shù)據(jù)挖掘平臺(tái)層

大數(shù)據(jù)挖掘平臺(tái)層是門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)架構(gòu)的核心技術(shù)層,也是多樣化數(shù)據(jù)處理工具的整合技術(shù)平臺(tái)。預(yù)處理工具是對(duì)數(shù)據(jù)源數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的工具,包括數(shù)據(jù)ETL(提取、轉(zhuǎn)化和加載)工具、多模態(tài)實(shí)體識(shí)別工具等。(1)基于Hadoop分布式系統(tǒng),MapReduce工具能夠進(jìn)行數(shù)據(jù)的分析式計(jì)算,在任務(wù)拆分的基礎(chǔ)上,分配運(yùn)算資源,從而進(jìn)行高效的數(shù)據(jù)分析;(2)HDFS作為分布式文件系統(tǒng),能夠?qū)A繑?shù)據(jù)進(jìn)行存儲(chǔ),通過文件分割和數(shù)據(jù)節(jié)點(diǎn)分配來提升存儲(chǔ)的集約性和安全性;(3)數(shù)據(jù)挖掘云平臺(tái)還能夠搭載數(shù)據(jù)流處理、復(fù)雜事件處理、R語言分析、聯(lián)系分析處理(OLAP)等工具,進(jìn)一步提升了門戶網(wǎng)站數(shù)據(jù)挖掘的輸出效果和運(yùn)行效率。

2.3 客戶端層

通過一系列大數(shù)據(jù)挖掘工具和相關(guān)技術(shù),海量的云平臺(tái)數(shù)據(jù)能夠通過計(jì)算機(jī)語言進(jìn)行高效處理。在客戶端層,數(shù)據(jù)處理的結(jié)果能夠通過可視化工具、人機(jī)交互技術(shù)、數(shù)據(jù)源技術(shù)等進(jìn)行加工,從而轉(zhuǎn)換成能夠被人工識(shí)別和閱讀的數(shù)據(jù)報(bào)告。在門戶網(wǎng)站后臺(tái),客戶端能夠?qū)哟髷?shù)據(jù)平臺(tái),并進(jìn)行數(shù)據(jù)結(jié)果的轉(zhuǎn)化,門戶網(wǎng)站后臺(tái)得到的是經(jīng)過可視化處理的數(shù)據(jù)報(bào)告,并能夠通過數(shù)據(jù)源的接口獲得相關(guān)數(shù)據(jù)的原始信息。

3 門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)的實(shí)現(xiàn)機(jī)制

如圖1所示,通過DNS超級(jí)代理、CDN云計(jì)算化、訪問記錄與日志分析、用戶數(shù)據(jù)動(dòng)態(tài)分發(fā)網(wǎng)絡(luò)等實(shí)現(xiàn)數(shù)據(jù)挖掘與智能調(diào)度[2]。

3.1 DNS超級(jí)代理

對(duì)門戶網(wǎng)站而言,數(shù)據(jù)挖掘的主要內(nèi)容是對(duì)于用戶瀏覽行為和點(diǎn)擊數(shù)據(jù)的分析。在用戶對(duì)門戶網(wǎng)站進(jìn)行訪問之后,通過網(wǎng)址和域名進(jìn)行用戶行為的采集,獲取用戶的地理位置、連接入口、設(shè)備等相關(guān)數(shù)據(jù)。通過DNS(域名系統(tǒng))超級(jí)代理能夠?qū)⒂蛎到y(tǒng)與云平臺(tái)進(jìn)行有效對(duì)接,從而迅速完成對(duì)門戶網(wǎng)站相關(guān)數(shù)據(jù)的采集和存儲(chǔ)。在部分云平臺(tái)內(nèi)部,還能夠?qū)崿F(xiàn)IP地址代理,更有利于加強(qiáng)對(duì)服務(wù)器和客戶端的對(duì)接,實(shí)現(xiàn)更有效的云計(jì)算。

3.2 CDN云計(jì)算化

CDN是指內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Network),其能夠?qū)⑦\(yùn)算的內(nèi)容進(jìn)行合理的分配,按照數(shù)據(jù)處理和計(jì)算的狀態(tài),將相關(guān)內(nèi)容分發(fā)到更為空閑的網(wǎng)絡(luò)通道,從而避免網(wǎng)絡(luò)傳輸?shù)膿矶拢岣咛幚硇?。CDN云計(jì)算化,能夠通過云計(jì)算技術(shù)對(duì)網(wǎng)絡(luò)資源和計(jì)算能力進(jìn)行整合調(diào)配,從橫向和縱向上對(duì)整個(gè)處理過程進(jìn)行技術(shù)的擴(kuò)展,從而提升系統(tǒng)運(yùn)行效率[4]。

3.3 訪問記錄與日志分析

門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)能夠在資源對(duì)接的基礎(chǔ)上,對(duì)用戶的網(wǎng)站訪問記錄和后臺(tái)日志進(jìn)行一體化存儲(chǔ),相關(guān)數(shù)據(jù)全部收錄到數(shù)據(jù)倉庫中,以便于深度數(shù)據(jù)挖掘。在日志分析和數(shù)據(jù)預(yù)處理的基礎(chǔ)上,云平臺(tái)還能夠進(jìn)行分布式的數(shù)據(jù)挖掘,輸出可提升門戶網(wǎng)站傳播效果和闡述用戶行為規(guī)律的數(shù)據(jù)報(bào)告。

3.4 用戶數(shù)據(jù)動(dòng)態(tài)分發(fā)

CDN實(shí)現(xiàn)了站點(diǎn)的全網(wǎng)覆蓋,網(wǎng)絡(luò)內(nèi)容分發(fā)的過程也是一個(gè)可以動(dòng)態(tài)調(diào)整的過程。在門戶網(wǎng)站傳統(tǒng)的網(wǎng)絡(luò)服務(wù)中,服務(wù)的范圍集中于某一特定區(qū)域,當(dāng)出現(xiàn)網(wǎng)絡(luò)中斷或網(wǎng)絡(luò)擁堵等情況時(shí),會(huì)出現(xiàn)該區(qū)域的網(wǎng)絡(luò)癱瘓。在分布式數(shù)據(jù)挖掘云平臺(tái)支撐下,CDN能夠合理安排分發(fā)的網(wǎng)絡(luò)通道,即使某一節(jié)點(diǎn)的網(wǎng)絡(luò)出現(xiàn)故障,也能夠通過其他可行網(wǎng)絡(luò)的傳輸保障網(wǎng)站訪問和數(shù)據(jù)采集的正常進(jìn)行[5]。

由此可見,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)不僅能夠在日常運(yùn)行的基礎(chǔ)上完成數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)挖掘的工作,還能夠?qū)崿F(xiàn)智能調(diào)度,極大程度的提高了門戶網(wǎng)站的運(yùn)行效率,優(yōu)化了用戶訪問體驗(yàn)。

4 結(jié)語

在大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)等眾多信息科技不斷創(chuàng)新和發(fā)展的背景下,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺(tái)技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)挖掘、提升門戶網(wǎng)站的運(yùn)行效率。需要指出的是,由于數(shù)據(jù)就是資產(chǎn),數(shù)據(jù)挖掘是創(chuàng)新和發(fā)展的重要工具,因此,門戶網(wǎng)站在關(guān)注數(shù)據(jù)挖掘的技術(shù)與效果的同時(shí),還要關(guān)注用戶的隱私保護(hù),力避數(shù)據(jù)安全風(fēng)險(xiǎn)。

參考文獻(xiàn)

[1]王小妮,高學(xué)東,倪曉明.基于云計(jì)算的分布式數(shù)據(jù)挖掘平臺(tái)架構(gòu)[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,(5):19-24.

[2]程發(fā)洲.基于云計(jì)算的大數(shù)據(jù)挖掘系統(tǒng)架構(gòu)[J].東莞理工學(xué)院學(xué)報(bào),2017,(3):39-43.

[3]陳志雄.基于hadoop平臺(tái)的分布式數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)探討[J].數(shù)字技術(shù)與應(yīng)用,2017,(1):179.

[4]王微.一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)研究[J].電子制作,2017,(15):82-83.

[5]江舞山.基于網(wǎng)格的分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)的研究[D].重慶大學(xué),2006.

猜你喜歡
門戶網(wǎng)站數(shù)據(jù)挖掘
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
談?wù)T戶網(wǎng)站的全方位
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究
中國(guó)省級(jí)教育門戶網(wǎng)站排行榜等
中國(guó)省級(jí)教育門戶網(wǎng)站排行榜等
中國(guó)省級(jí)教育門戶網(wǎng)站排行榜
南城县| 平原县| 靖西县| 普格县| 三明市| 兴海县| 巴中市| 吉水县| 宁国市| 墨竹工卡县| 建水县| 象山县| 恩平市| 清水河县| 靖西县| 瑞丽市| 皋兰县| 望都县| 句容市| 肃宁县| 拜城县| 盐池县| 侯马市| 凉城县| 娱乐| 南平市| 东港市| 榆林市| 德保县| 姜堰市| 西城区| 盐津县| 辽阳县| 中西区| 郧西县| 延庆县| 新余市| 松桃| 阿勒泰市| 阿合奇县| 桦甸市|