国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)技術(shù)研究

2015-03-19 03:07劉吳文
關(guān)鍵詞:調(diào)用數(shù)據(jù)挖掘模塊

劉吳文

(福建師范大學(xué)福清分校,福建 福州 350300)

基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)技術(shù)研究

劉吳文

(福建師范大學(xué)福清分校,福建 福州 350300)

通過(guò)云計(jì)算來(lái)挖掘海量的信息數(shù)據(jù)成為當(dāng)前計(jì)算機(jī)領(lǐng)域的主流技術(shù),其優(yōu)勢(shì)在于能夠提供良好的數(shù)據(jù)挖掘平臺(tái)。本文以云計(jì)算與數(shù)據(jù)挖掘概念為基礎(chǔ),闡述了相關(guān)架構(gòu)與功能模塊,并剖析了關(guān)鍵技術(shù)。

云計(jì)算;數(shù)據(jù)挖掘;大數(shù)據(jù)

云計(jì)算是一種計(jì)算平臺(tái),可以通過(guò)并行、分布、網(wǎng)格等計(jì)算方式實(shí)現(xiàn)在海量數(shù)據(jù)中獲取動(dòng)態(tài)數(shù)據(jù)的方式。因此,云計(jì)算在商業(yè)金融、電子商務(wù)以及科研開發(fā)等諸多領(lǐng)域中加以廣泛使用。云計(jì)算的突出優(yōu)勢(shì)在于:高效率、通用性、虛擬化、規(guī)模化以及相對(duì)廉價(jià)等方面。使用時(shí),可以根據(jù)客戶的需求提供虛擬、透明的計(jì)算并加以存儲(chǔ),還能以動(dòng)態(tài)形式將該客戶短期內(nèi)無(wú)法利用的數(shù)據(jù)提供給急需的客戶使用。這也凸顯出該技術(shù)的通用、廉價(jià)的特點(diǎn),直接實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)操作的可能性。

一、云計(jì)算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)設(shè)計(jì)的分析

(一)目標(biāo)系統(tǒng)模型

以云計(jì)算為前提所構(gòu)建的目標(biāo)系統(tǒng)模型所提供的服務(wù)界面更為透明,接口服務(wù)也更具有開放性。此時(shí),用戶可以通過(guò)終端訪問(wèn)的方式直接使用系統(tǒng),還可以通過(guò)開放式接口實(shí)現(xiàn)對(duì)應(yīng)用系統(tǒng)的間接訪問(wèn)。終端客戶使用過(guò)程中不必考慮系統(tǒng)的存儲(chǔ)能力,僅需考慮到算法的選擇。使用結(jié)果就是將任務(wù)形式直接部署到相應(yīng)的系統(tǒng)之中,以此獲取所需的挖掘數(shù)據(jù)。同時(shí),以云計(jì)算環(huán)境為條件的數(shù)據(jù)挖掘平臺(tái),都可以通過(guò)開放式接口與用戶界面提供便捷的服務(wù)。

(二)功能層次框架設(shè)計(jì)

1.算法層

算法層主要是通過(guò)對(duì)下層數(shù)據(jù)的調(diào)用,并通過(guò)相關(guān)算法實(shí)現(xiàn)有效地管理。由于運(yùn)算方法存在執(zhí)行順序與結(jié)果存在較大的差異,需區(qū)別對(duì)待。以數(shù)據(jù)清洗算法為例,該方法挖掘噪聲數(shù)據(jù)前,需對(duì)接口服務(wù)進(jìn)行調(diào)用,然后對(duì)相關(guān)數(shù)據(jù)加以清洗,通過(guò)數(shù)據(jù)層存儲(chǔ)于云計(jì)算平臺(tái),該步驟的重要作用是更好地服務(wù)于后續(xù)數(shù)據(jù)挖掘。數(shù)據(jù)挖掘調(diào)用服務(wù),在應(yīng)用該服務(wù)之前,將已清洗的及不需要清洗的數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)統(tǒng)一對(duì)數(shù)據(jù)進(jìn)行調(diào)用。

2.應(yīng)用層

與其他層相比,抽象性是應(yīng)用層更為突出的特性。應(yīng)用層主要是描述海量數(shù)據(jù)的挖掘、算法之間的冠以相關(guān)具體數(shù)據(jù),還能直接為客戶提供維護(hù)接口和調(diào)用服務(wù)。

3.用戶層

云計(jì)算的應(yīng)用層通過(guò)友好用戶界面直接提供了用戶所需的相關(guān)服務(wù)和軟件,主要為客戶提供OA、CRM和ERP等相關(guān)服務(wù)(見圖1)。

(三)云計(jì)算機(jī)構(gòu)設(shè)計(jì)的關(guān)鍵點(diǎn)

1.插件系統(tǒng)的設(shè)計(jì)

插件程序是對(duì)相應(yīng)的應(yīng)用程序開發(fā)接口加以規(guī)范實(shí)現(xiàn)的。所有插件都是由擴(kuò)展點(diǎn)、業(yè)務(wù)邏輯、調(diào)用下層擴(kuò)展點(diǎn)這三部分組成的,以上三部分都是由相同的模塊對(duì)綁定包加以管理。綁定包需具備規(guī)范要求,在特定目錄下防止插件,可以及時(shí)識(shí)別并實(shí)現(xiàn)動(dòng)態(tài)加載。此外,插件的算法是以滿足算法為前提,而不僅局限于特定個(gè)數(shù)與排列數(shù)據(jù),其兼容性的實(shí)現(xiàn)是以提供抽象數(shù)據(jù)為基礎(chǔ)的。該算法除此之外,算法實(shí)現(xiàn)不同于以往針對(duì)特定個(gè)數(shù)、排列數(shù)據(jù)而實(shí)現(xiàn)。它是在滿足實(shí)現(xiàn)算法的基礎(chǔ)上,利用抽象數(shù)據(jù)提供更多的兼容性。

2.開放接口的設(shè)計(jì)

在云計(jì)算平臺(tái)中,開放接口主要用于數(shù)據(jù)的使用。在使用過(guò)程中,我們可以充分挖掘出所需的數(shù)據(jù)資源。設(shè)計(jì)開放接口的前提是保證其具有相關(guān)性與高效性,無(wú)態(tài)型優(yōu)勢(shì)是平臺(tái)接口(REST)最為主要的使用優(yōu)勢(shì)。在某一局域網(wǎng)之中,緩沖裝置可實(shí)現(xiàn)重復(fù)調(diào)用。正是這種重復(fù)使用能提升服務(wù)器的吞吐量,最大限度的降低服務(wù)器的工作負(fù)擔(dān)。

(四)云計(jì)算數(shù)據(jù)挖掘平臺(tái)架構(gòu)的實(shí)現(xiàn)

1.開發(fā)環(huán)境

云計(jì)算的開發(fā)環(huán)境各不相同,但對(duì)環(huán)境的要求都是提供自動(dòng)擴(kuò)展與動(dòng)態(tài)服務(wù)等方面,以Google為例,其開發(fā)環(huán)境為App Engine,如果計(jì)算過(guò)程中出現(xiàn)重載以及數(shù)據(jù)量劇增的情況,構(gòu)造出的應(yīng)用程序具有較強(qiáng)的安全性。

2.云計(jì)算數(shù)據(jù)平臺(tái)架構(gòu)的開發(fā)思想與技術(shù)

(1)原型開發(fā)模型

該模型的開發(fā)是建立在快速分析的基礎(chǔ)之上的,開發(fā)人與用戶的有效溝通能夠準(zhǔn)確將系統(tǒng)需求加以定位,同時(shí)結(jié)合原型特征滿足開發(fā)的目的;建構(gòu)原型需結(jié)合認(rèn)真的分析,進(jìn)而建構(gòu)出具有較高可行性的系統(tǒng)。為了保證支持技術(shù)的可靠性,需使用相應(yīng)的軟件工具,暫不對(duì)系統(tǒng)細(xì)節(jié)加以考慮;為了保證原型運(yùn)行通暢,設(shè)計(jì)人員需及時(shí)發(fā)現(xiàn)并解決問(wèn)題;考核原型特性的目的是將原型的運(yùn)行效果與用戶滿意程度加以測(cè)評(píng),如測(cè)評(píng)中發(fā)現(xiàn)錯(cuò)誤,有新的客戶需求,則需根據(jù)實(shí)際情況提出相應(yīng)的修改建議。

(2)以WSGI為前提的規(guī)范開發(fā)

由于WSGI 規(guī)范基礎(chǔ)上的開發(fā)優(yōu)勢(shì)明顯,能夠很好地實(shí)現(xiàn)系統(tǒng)可用性的提升、實(shí)現(xiàn)跨平臺(tái)的操作可行性。因此,該方式較之傳統(tǒng)的C/S 模塊而言,具有使用上的便捷性。用戶訪問(wèn)系統(tǒng)是通過(guò)瀏覽器實(shí)現(xiàn)的,還為用戶提供了更多的選擇。需注意的是,WSGI規(guī)范的實(shí)現(xiàn)是以Python語(yǔ)言環(huán)境為基礎(chǔ)的,該語(yǔ)言具有跨平臺(tái)的特點(diǎn),這也增加了系統(tǒng)與云計(jì)算平臺(tái)結(jié)合的便捷性。

3.開發(fā)步驟

(1)算法模塊插件系統(tǒng)

該系統(tǒng)的算法主要有數(shù)據(jù)挖掘算法、數(shù)據(jù)清洗算法、結(jié)果可視算法等。為了保證執(zhí)行過(guò)程的完整性,需在不規(guī)則數(shù)據(jù)和原始數(shù)據(jù)集的前提下通過(guò)數(shù)據(jù)清洗算法統(tǒng)一整理數(shù)據(jù)集才能實(shí)現(xiàn)。此外,還可以通過(guò)異構(gòu)和分布式中轉(zhuǎn)數(shù)據(jù)源后生成較為規(guī)則的數(shù)據(jù)集。通過(guò)數(shù)據(jù)挖掘算法對(duì)規(guī)則數(shù)據(jù)進(jìn)行處理,得到需要獲取的信息,進(jìn)而以可視的形式呈獻(xiàn)給使用者。上述過(guò)程中,涉及到數(shù)據(jù)調(diào)用的都需以REST接口實(shí)現(xiàn),數(shù)據(jù)通過(guò)接口傳遞與轉(zhuǎn)換的格式都為XML。由于多種算法模塊的出現(xiàn),促使云計(jì)算平臺(tái)下的數(shù)據(jù)挖掘平臺(tái)能夠提供更多的實(shí)用功能。

(2)數(shù)據(jù)集訪問(wèn)模塊

數(shù)據(jù)集訪問(wèn)模塊與算法模塊有很多相同之處,例如:插入方式與調(diào)用以及訪問(wèn)數(shù)據(jù)集時(shí)的調(diào)用狀態(tài)都是一致的。不同之處在于,其在調(diào)用數(shù)據(jù)集訪問(wèn)模塊之前,能夠?qū)?shù)據(jù)實(shí)例文件自動(dòng)加以分解,形成多個(gè)物理訪問(wèn)地址和元數(shù)據(jù)組,進(jìn)而將參數(shù)傳遞至數(shù)據(jù)集訪問(wèn)模塊。

4.云計(jì)算數(shù)據(jù)挖掘平臺(tái)的架構(gòu)

(1)系統(tǒng)構(gòu)成

用戶交互、應(yīng)用程序、數(shù)據(jù)挖掘與硬件服務(wù)等眾多子系統(tǒng)構(gòu)成了基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)系統(tǒng),通過(guò)終端設(shè)備進(jìn)入互聯(lián)網(wǎng)并與數(shù)據(jù)平臺(tái)連接,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)挖掘的目的。上述幾個(gè)子系統(tǒng)的有機(jī)組合能夠很好地為用戶提供數(shù)據(jù),還能通過(guò)單獨(dú)運(yùn)行服務(wù)于用戶。

(2)用戶交互子系統(tǒng)

該系統(tǒng)是用戶與平臺(tái)之間的交互接口,在圖形的形式下操作。其主要服務(wù)內(nèi)容包括:注冊(cè)和注銷、用戶的授權(quán)申請(qǐng)、用戶的身份驗(yàn)證、賬戶管理等。該系統(tǒng)不僅保證了平臺(tái)的安全,有效地提供了用戶入口。

(3)應(yīng)用程序子系統(tǒng)

作為數(shù)據(jù)挖掘和用戶管理之間的銜接環(huán)節(jié),應(yīng)用程序子系統(tǒng)可以準(zhǔn)確描述數(shù)據(jù)與算法、相互關(guān)系,并通過(guò)任務(wù)形式加以實(shí)現(xiàn)。其工作內(nèi)容還包括:用戶的注冊(cè)和注銷、用戶應(yīng)用、調(diào)用服務(wù)于應(yīng)用維護(hù)入口等功能。

(4)數(shù)據(jù)挖掘子系統(tǒng)

該系統(tǒng)完成挖掘任務(wù)的基礎(chǔ)是數(shù)據(jù)的計(jì)算及數(shù)據(jù)信息的處理。該系統(tǒng)的功能模塊包括:數(shù)據(jù)的挖掘和預(yù)處理、數(shù)據(jù)的評(píng)估、特殊化服務(wù)等。該系統(tǒng)對(duì)相應(yīng)數(shù)據(jù)處理后,按照固定格式儲(chǔ)存于數(shù)據(jù)庫(kù)之中,并通過(guò)降噪處理滿足不同用戶的使用要求。

二、基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架的關(guān)鍵技術(shù)

構(gòu)建云計(jì)算數(shù)據(jù)挖掘是建立在分布式計(jì)算、并行與效用計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡、熱備份冗余等網(wǎng)絡(luò)計(jì)算機(jī)技術(shù)之上的,所涉及的主要技術(shù)有如下幾方面。

(一)云計(jì)算技術(shù)

1.分布式儲(chǔ)存技術(shù)

為了保證云計(jì)算技術(shù)處理數(shù)據(jù)時(shí)的經(jīng)濟(jì)性與高可靠性,我們通常采用分布式存儲(chǔ)的方式實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)。為了彌補(bǔ)硬件的不足,一般選用最為可靠的軟件,正是在這種要求下,分布式存儲(chǔ)技術(shù)不但能提供海量的數(shù)據(jù)挖掘支持,還具有非常廉價(jià)的經(jīng)濟(jì)優(yōu)勢(shì)。

2.虛擬化技術(shù)

全面虛擬條件下的應(yīng)用與整合可以保證在云計(jì)算的環(huán)境下,實(shí)現(xiàn)大量數(shù)據(jù)挖掘功能的實(shí)現(xiàn)。在虛擬化與云計(jì)算的組合作用下,資源調(diào)度能夠?qū)崿F(xiàn)數(shù)據(jù)挖掘通過(guò)跨系統(tǒng)整合,進(jìn)而通過(guò)IT資源匯合海量數(shù)據(jù),并以動(dòng)態(tài)的形式供給用戶虛擬化的資源。這樣能夠保證服務(wù)任務(wù)具有海量動(dòng)態(tài)的特點(diǎn)和高效率的優(yōu)勢(shì)。

3.并行云計(jì)算技術(shù)

該技術(shù)與云計(jì)算技術(shù)并行,在執(zhí)行數(shù)據(jù)挖掘和計(jì)算過(guò)程中具有很強(qiáng)的高效性,因此,該技術(shù)屬于數(shù)據(jù)挖掘過(guò)程中的重要技術(shù)手段。該技術(shù)還能針對(duì)部分技術(shù)細(xì)節(jié)進(jìn)行封裝,如:任務(wù)調(diào)度、并行、容錯(cuò)、數(shù)據(jù)分布等方面。由于該技術(shù)的功能打消了客戶的顧慮,直接提高了研發(fā)的效率。

(二)數(shù)據(jù)匯集調(diào)度中心

數(shù)據(jù)匯集調(diào)度中心主要作用在于能夠針對(duì)不同類的數(shù)據(jù)加以匯集。同時(shí),該技術(shù)也收集匯合了接入云計(jì)算數(shù)據(jù)挖掘平臺(tái)的業(yè)務(wù)數(shù)據(jù),有效地解決了因?yàn)閿?shù)據(jù)不同而產(chǎn)生的數(shù)據(jù)相關(guān)規(guī)約問(wèn)題,并在運(yùn)行中支持各種源數(shù)據(jù)格式。

(三)服務(wù)調(diào)度與管理技術(shù)

在云計(jì)算的數(shù)據(jù)挖掘平臺(tái)下,為保證各種業(yè)務(wù)系統(tǒng)都能使用該平臺(tái),需提供必要的管理與調(diào)度功能。通過(guò)有效地管理與調(diào)度,保證各系統(tǒng)能夠并行且互斥,還要實(shí)現(xiàn)系統(tǒng)間的隔離,這樣才能確保平臺(tái)在安全可靠的條件下服務(wù)于客戶。服務(wù)調(diào)度與管理需滿足統(tǒng)一服務(wù)注冊(cè)以及支持第三方數(shù)據(jù)挖掘的功能,這樣才能將平臺(tái)的服務(wù)能力更好地加以擴(kuò)展。

三、結(jié)語(yǔ)

隨著計(jì)算機(jī)技術(shù)的發(fā)展,基于云計(jì)算平臺(tái)下的數(shù)據(jù)挖掘系統(tǒng)日趨完善,并為用戶提供了更為便捷的服務(wù)。本文以云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)為切入點(diǎn),對(duì)當(dāng)前云計(jì)算環(huán)境下的數(shù)據(jù)挖掘系統(tǒng)的發(fā)展加以分析,希望對(duì)推動(dòng)該技術(shù)的發(fā)展起到積極的作用。

[1]陳康,鄭緯民.云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào),2009,20(5).

[2]2015-2020年中國(guó)云計(jì)算產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告[R].2015.

[3]馮登國(guó),張敏,張妍,等.云計(jì)算安全研究[J].軟件學(xué)報(bào),2011,22(1).

[4]韓燕波,王桂玲,劉晨,等.互聯(lián)網(wǎng)計(jì)算的原理與實(shí)踐[M].北京:科學(xué)出版社,2010.

[5]莊福振.基于云計(jì)算的大數(shù)據(jù)挖掘平臺(tái)[J].中興通訊技術(shù),2013,(19).

2095-4654(2015)10-0013-03

2015-08-02

TP311.13

A

猜你喜歡
調(diào)用數(shù)據(jù)挖掘模塊
28通道收發(fā)處理模塊設(shè)計(jì)
“選修3—3”模塊的復(fù)習(xí)備考
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
核電項(xiàng)目物項(xiàng)調(diào)用管理的應(yīng)用研究
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于系統(tǒng)調(diào)用的惡意軟件檢測(cè)技術(shù)研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
利用RFC技術(shù)實(shí)現(xiàn)SAP系統(tǒng)接口通信
高級(jí)數(shù)據(jù)挖掘與應(yīng)用國(guó)際學(xué)術(shù)會(huì)議
集成水空中冷器的進(jìn)氣模塊
封丘县| 秦皇岛市| 旬阳县| 高雄县| 双牌县| 乌兰察布市| 德钦县| 淅川县| 信丰县| 紫阳县| 苗栗县| 奈曼旗| 伊春市| 大关县| 民乐县| 木里| 满城县| 定州市| 馆陶县| 冀州市| 渭源县| 霍城县| 康定县| 新密市| 涞源县| 区。| 当雄县| 佛山市| 阳谷县| 古交市| 平果县| 固镇县| 黄大仙区| 永春县| 吉木乃县| 伊川县| 晴隆县| 惠水县| 留坝县| 天等县| 峨眉山市|