查道貴,許彩芳,陳 偉
(宿州職業(yè)技術(shù)學(xué)院 計算機信息系, 安徽 宿州 234101)
云計算平臺下數(shù)據(jù)挖掘算法研究
查道貴,許彩芳,陳 偉
(宿州職業(yè)技術(shù)學(xué)院 計算機信息系, 安徽 宿州 234101)
伴隨著網(wǎng)絡(luò)信息化建設(shè)的萬象更新,云計算平臺下數(shù)據(jù)挖掘算法日益重要。為求解云計算平臺下海量數(shù)據(jù)的科學(xué)分析與整合處理,本文就云計算平臺下數(shù)據(jù)挖掘算法的現(xiàn)實應(yīng)用、云計算平臺下數(shù)據(jù)挖掘算法的挖掘建構(gòu)流程及服務(wù)應(yīng)用體系,做出具體探討,為數(shù)據(jù)挖掘的集成開發(fā)與商業(yè)應(yīng)用提供參考。
數(shù)據(jù)挖掘;服務(wù);云計算
目前,國內(nèi)外云計算技術(shù)尚處起步階段,還僅限于開發(fā)研究與初步應(yīng)用的“雛形期”,尚未形成規(guī)范性的統(tǒng)一定義與整體標(biāo)準(zhǔn)。綜合分析各類云計算,突顯四大共性特色:云環(huán)境存儲規(guī)模性;云環(huán)境超強性;云環(huán)境資源動態(tài)性;云環(huán)境結(jié)構(gòu)伸展性。而差異性的特色,則在于依靠不同領(lǐng)域龐大資源與虛擬技術(shù)的“并駕齊驅(qū)”,分別完成按需供應(yīng)的特色服務(wù)。大勢所趨之下,云計算平臺數(shù)據(jù)將何以挖掘,成為亟待探討的話題。
1.1 商業(yè)發(fā)展需求的迫切性
伴隨業(yè)務(wù)量的突飛猛進與業(yè)務(wù)范圍的極限擴張,帶來了商業(yè)數(shù)據(jù)的海量“囤積”,極具規(guī)模的數(shù)據(jù)庫令企業(yè)應(yīng)接不暇。一邊是市場競爭的“獨力難支”,一邊是數(shù)據(jù)傳統(tǒng)挖掘方式的“積重難返”,“一頭霧水”的經(jīng)營者在創(chuàng)建企業(yè)再發(fā)展中“望洋興嘆”。傳統(tǒng)計算能力已經(jīng)難以滿足海量數(shù)據(jù)的挖掘需求,已經(jīng)造成了再發(fā)展危機。同時,網(wǎng)絡(luò)大環(huán)境下,出于海量數(shù)據(jù)跨地域性再生業(yè)務(wù)的增勢與發(fā)展前景考慮,尋求高性能新式數(shù)據(jù)挖掘算法,已成當(dāng)務(wù)之急。因此,構(gòu)建一個融數(shù)據(jù)存儲、數(shù)據(jù)分析于一體,全面實現(xiàn)分布式數(shù)據(jù)處理與數(shù)據(jù)挖掘的云平臺模式,已成企業(yè)眾望所歸。
1.2 數(shù)據(jù)挖掘算法的前沿性
云計算平臺下的共享資源存儲形式以分布式的特色,其挖掘數(shù)據(jù)任務(wù)執(zhí)行模式與本地單機式挖掘形式“大相徑庭”,所充分體現(xiàn)的也是網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)挖掘的鮮明亮點。云計算服務(wù)器群體的超規(guī)模化令人乍舌,同時擁有的超強計算能力更出人意料。尤其云存儲作為時代的“寵兒”,所展現(xiàn)存儲能力強大性的“無與倫比”,綜合分析能力超強性的“難以比擬”,數(shù)據(jù)管理無限性的“心思縝密”,置身再“海量”的數(shù)據(jù)也自當(dāng)“處變不驚”、“游刃有余”。目前已有的數(shù)據(jù)挖掘算法多以整體系統(tǒng)作為中心,尤其注重算法與系統(tǒng)的完整統(tǒng)一。云計算平臺最為突出的特點,在于面向服務(wù)視野作數(shù)據(jù)挖掘,將規(guī)范化與科學(xué)化兼顧一身,提供出前沿性的獨到解決方法??v觀云平臺始終,無論平臺運行,還是海量存儲,或者軟件開發(fā)應(yīng)用,均有獨到“修為”,聯(lián)手成就一種共享空間下的網(wǎng)絡(luò)互動資源,“包羅萬象”于無形,在統(tǒng)一接口之下,把資源整體封裝為一個整體,并以服務(wù)互動的模式給用戶與開發(fā)者提供支持。同時,云計算按需出售的軟件商業(yè)計算模式,也將挖掘數(shù)據(jù)程序的服務(wù)性能完美給予體現(xiàn),這對于企業(yè)不僅是挖掘數(shù)據(jù)成本的有效降低,更是為挖掘數(shù)據(jù)商業(yè)化應(yīng)用搭建前沿性平臺。
1.3 數(shù)據(jù)挖掘算法的科學(xué)性
其一,基于云計算平臺的挖掘數(shù)據(jù)的科學(xué)算法探究,即通過科學(xué)改進手段或系統(tǒng)移植策略,開展云計算平臺下的一種網(wǎng)絡(luò)算法,進一步拓展其算法的科學(xué)性能;其二,基于云計算平臺挖掘數(shù)據(jù)的系統(tǒng)架構(gòu)探究,即通過整體結(jié)構(gòu)的系統(tǒng)分析與構(gòu)建設(shè)計,綜合挖掘數(shù)據(jù)平臺;其三,基于云計算挖掘數(shù)據(jù)的應(yīng)用探討,即實現(xiàn)商業(yè)化應(yīng)用的云計算平臺數(shù)據(jù)挖掘方案。有的將云計算技術(shù)應(yīng)用于數(shù)據(jù)挖掘與機器學(xué)習(xí)兩個不同領(lǐng)域,特色在于K鄰近與約束玻爾茲曼式機算法的結(jié)合應(yīng)用,并基于云計算平臺創(chuàng)設(shè)出客戶興趣的預(yù)測模型,使模型精度得以有效提升。有的則獨辟蹊徑,從資源與服務(wù)不同角度創(chuàng)設(shè)云架構(gòu),并設(shè)計容高性能與廣域性于一身,即分布式海量數(shù)據(jù)定向管理與綜合分析、多向抽取與系統(tǒng)分配為一體的云平臺挖掘數(shù)據(jù)架構(gòu)。
2.1 云計算平臺下數(shù)據(jù)挖掘算法的建構(gòu)思路
依據(jù)網(wǎng)絡(luò)科學(xué),“云計算平臺下數(shù)據(jù)挖掘算法”的主要表現(xiàn)形式是:云計算平臺通過“Iaas”(基礎(chǔ)設(shè)施)、“Paas”( 服務(wù)平臺)與“Saas”( 服務(wù)軟件)三種模式服務(wù),將數(shù)據(jù)化存儲與計算設(shè)備、平臺開發(fā)與服務(wù)軟件等平臺資源,以不同的網(wǎng)絡(luò)技術(shù)支持突出特色服務(wù)的亮點模式,形成一套客戶需求“供給制”的計算綜合服務(wù)。云計算平臺下的數(shù)據(jù)挖掘,作為網(wǎng)絡(luò)計算資源的一種獨特應(yīng)用,歸根結(jié)底是一道服務(wù)的“計算題”??蛻舳诉f達云端的挖掘數(shù)據(jù)任務(wù),本身就視作一種“云服務(wù)”; 處理器與存儲空間就是服務(wù)的廣域資源,數(shù)據(jù)挖掘的執(zhí)行操作也屬于運算的綜合服務(wù)范疇;具體到數(shù)據(jù)信息的“收集整合”、數(shù)據(jù)倉儲“綜合拓展”與數(shù)據(jù)挖掘算法“統(tǒng)籌兼顧”等,各環(huán)節(jié)均可視為數(shù)據(jù)挖掘“服務(wù)組合”中的不同取向性服務(wù)資源。
所謂技術(shù)性挖掘數(shù)據(jù)服務(wù),是數(shù)據(jù)功能屬性與行為挖掘的技術(shù)集合體,無論從數(shù)據(jù)的定向選擇到數(shù)據(jù)取向的前期運作,還是數(shù)據(jù)整合到數(shù)據(jù)挖掘與系統(tǒng)分析,或是綜合評價與最后結(jié)果展示等,貫穿始終的均為服務(wù)整合與服務(wù)搭配特色功能,最終所概括而出的是復(fù)合型的服務(wù)應(yīng)用。云計算實現(xiàn)了計算機端口設(shè)備與網(wǎng)絡(luò)存儲設(shè)備“合二為一”,創(chuàng)設(shè)了服務(wù)器集群服務(wù)與網(wǎng)路集成應(yīng)用平臺“齊頭并進”,打造了應(yīng)用軟件與網(wǎng)絡(luò)資源“共享天下”?;谶@樣的思路,通過虛擬化與集成技術(shù)的量身定做,接口組件與軟硬件組合的“打包封裝”,最終結(jié)成形態(tài)各異的服務(wù)鏈接,以響應(yīng)開發(fā)平臺、基礎(chǔ)設(shè)施和實現(xiàn)應(yīng)用等客戶不同層面上的服務(wù)要求,分別為“Iaas”(基礎(chǔ)設(shè)施服務(wù))、“Paas”(平臺服務(wù))與“Saas”(軟件服務(wù))。三種層次實現(xiàn)三重服務(wù),進而形成一整套的服務(wù)支持組合?;谶@樣的網(wǎng)絡(luò)科學(xué),云計算平臺下進行的數(shù)據(jù)挖掘足以給客戶組合式、系統(tǒng)化的數(shù)據(jù)儲備與開發(fā)服務(wù)、數(shù)據(jù)挖掘與應(yīng)用支持,在綜合性的運籌帷幄中,全面落實數(shù)據(jù)挖掘“技術(shù)型”與“服務(wù)型”方案的具體整合。將服務(wù)需求與行為支持貫穿于數(shù)據(jù)挖掘進程始終,貼緊云計算組合整體結(jié)構(gòu)與“SOA”架構(gòu)(面向服務(wù)體系結(jié)構(gòu)),創(chuàng)設(shè)演繹出云計算模式數(shù)據(jù)挖掘的服務(wù)構(gòu)架。
所謂基礎(chǔ)性設(shè)施服務(wù),指向性在于數(shù)據(jù)中心的基礎(chǔ)性支持,主要表現(xiàn)為計算資源成就了數(shù)據(jù)挖掘的服務(wù)行為,并塑造出遠程資源訪問能力的前沿性。遠程數(shù)據(jù)資源的支持服務(wù)屬數(shù)據(jù)庫托管式行為,需求驅(qū)動的遠程數(shù)據(jù)庫與數(shù)據(jù)倉儲技術(shù),其先進性足以使客戶如同使用本地數(shù)據(jù)信息般“一覽無遺”,方便快捷。就業(yè)務(wù)流程而言,數(shù)據(jù)挖掘行為簡潔明了,而服務(wù)方式卻具有豐富的廣域性,形成包羅萬象的多系統(tǒng)涉獵。其特點在于,將相應(yīng)的數(shù)據(jù)信息對接綁定于關(guān)鍵模塊,以關(guān)鍵模式分工挖掘流程,以此挖掘模式的具體構(gòu)建,系統(tǒng)完成遠程資源的整合與開發(fā)。所謂應(yīng)用服務(wù),可具體為軟件的開發(fā)與運用,是以程序應(yīng)用的整體性具體履行數(shù)據(jù)挖掘不同的屬性行為,最終依托平臺完成客戶的交付使用。測試服務(wù)則是以遠程托管為依托完成測試工具的創(chuàng)設(shè),實現(xiàn)云平臺交付數(shù)據(jù)挖掘或本地數(shù)據(jù)挖掘的系統(tǒng)測試與評估;平臺服務(wù)則是注重于應(yīng)用數(shù)據(jù)系統(tǒng)挖掘的遠程開發(fā)整合,主要形式在于應(yīng)用程序與鏈接端口開發(fā),并兼容數(shù)據(jù)庫的配套拓展,同時兼容信息存儲與數(shù)據(jù)集成、系統(tǒng)測試與體系部署等綜合功能,讓客戶基于此創(chuàng)建企業(yè)級的數(shù)據(jù)挖掘應(yīng)用。
所謂集成服務(wù),在于語義仲裁與抽象接口、流控制與整合設(shè)計的集成技術(shù)支持,最終形成服務(wù)形式,達成對客戶的交付使用。眾所周知,云計算最大薄弱點在于安全性的“舉步維艱”,云安全也成為互聯(lián)網(wǎng)技術(shù)的長久話題,也是眾多操作系統(tǒng)鼎力不懈的探索。本研究以加密服務(wù)為手段,以身份管理的監(jiān)控為抓手,打造規(guī)范性與先進性的等級式安全服務(wù)職能,為挖掘數(shù)據(jù)全面性地構(gòu)建云計算的安全環(huán)境。云計算模式下的數(shù)據(jù)挖掘,通過服務(wù)架構(gòu)的綜合打造,可使客戶便捷靈活地使用服務(wù)資源。同時,貼近市場需求的“量身定做”,也使動態(tài)服務(wù)更加成為可能。
2.2 云計算模式下建模流程的主要做法
要完成數(shù)據(jù)挖掘的系統(tǒng)化服務(wù), 關(guān)鍵在于上述對服務(wù)架概括性的全面分析, 在于每個組件模型中挖掘服務(wù)每一處個性數(shù)據(jù)的第一手建立。通過服務(wù)支持的考究與識別與信息數(shù)據(jù)的互動關(guān)聯(lián),以此為據(jù)打造具有完整性的一處服務(wù)構(gòu)件,建模流程的主要做法有三。其一,如何定義于服務(wù)。問題的關(guān)鍵在于對域內(nèi)信息數(shù)據(jù)的理解與歸類,在于數(shù)據(jù)收集與挖掘的服務(wù)屬性思考與分析,從而定義出該服務(wù)潛在的核心性功能、信息數(shù)據(jù)的取向支撐及服務(wù)集成的組合產(chǎn)出。具體而論,對服務(wù)做出屬性定義,從中可以窺視數(shù)據(jù)挖掘行為與服務(wù)組合的整體關(guān)聯(lián)性,進而形成數(shù)據(jù)挖掘候選服務(wù)目錄中的理性思考。其二,如何綁定數(shù)據(jù)創(chuàng)設(shè)服務(wù)。整體數(shù)據(jù)化挖掘服務(wù)由其自身功能屬性與趨向性數(shù)據(jù)體系共同構(gòu)建而成,由此可見,服務(wù)定義的嚴(yán)密性不容忽視,其關(guān)聯(lián)屬性數(shù)據(jù)的結(jié)合與候選服務(wù)的取舍也極具規(guī)范性。因此,基于嚴(yán)謹?shù)目茖W(xué)態(tài)度,數(shù)據(jù)的組合綁定與服務(wù)集成創(chuàng)設(shè)也應(yīng)合理規(guī)范。其三,如何構(gòu)建服務(wù)屬性組件。結(jié)合規(guī)范的處理整合,服務(wù)探討中的屬性策略與服務(wù)綁定中的組合信息,最終達成服務(wù)的定義功能屬性,并在封裝打包模式中成就具有獨立性的每一處服務(wù)組件,以此,定義并調(diào)用起統(tǒng)一的服務(wù)接口,形成獨立環(huán)節(jié)服務(wù)組件的完整性。
3.1 模型體系結(jié)構(gòu)的特色
3.1.1 基礎(chǔ)層的“終端性” 基礎(chǔ)設(shè)施層的特點,在于提供挖掘數(shù)據(jù)服務(wù)資源型的計算與資源存儲的基礎(chǔ)性服務(wù)。其主要形式,在于依據(jù)終端接口的鏈接,將千姿百態(tài)的物理資源盡收網(wǎng)絡(luò)“囊中”,以數(shù)據(jù)共享全面實現(xiàn)網(wǎng)絡(luò)信息資源的平臺互聯(lián),并逐步形成虛擬層的直觀展示,創(chuàng)設(shè)虛擬化進程的終極接口。
3.1.2 虛擬層的“邏輯性” 在虛擬工具的導(dǎo)向性對接中,虛擬層做出“邏輯性”判斷,將云計算平臺下分布的各種資源“物以類聚”,進行透明性與邏輯性服務(wù)屬性資源的封裝打造。并通過對邏輯資源的規(guī)范管理,實現(xiàn)資源合理的調(diào)度與分配, 并將封裝的資源傳遞于平臺層,以供其開發(fā)與應(yīng)用。
3.1.3 平臺層的“核心性” 平臺層作為挖掘數(shù)據(jù)服務(wù)的核心服務(wù)層,其“核心性”在于服務(wù)的整體實施與綜合治理。包括服務(wù)取向性建模以及目錄管理的支持組合,兼顧任務(wù)探討、調(diào)度計算及數(shù)據(jù)管理的完整性。
3.1.4 應(yīng)用層的“廣域性” 應(yīng)用層由終端層與接口層所共同構(gòu)建,有其鮮明的“廣域性”。由接口層為其鏈接客戶認證、客戶管理、需求表達與需求處理,由終端層為其搭建不同地域的訪問接入,并通過網(wǎng)頁、移動終端等終極端口,客戶可方便完成訪問鏈接,使用系統(tǒng)的云數(shù)據(jù)挖掘式服務(wù)。
3.2 模型體系結(jié)構(gòu)的構(gòu)建要求
分析期要“定義科學(xué)”。要根據(jù)具體需求給予科學(xué)的甄別與發(fā)現(xiàn),適時做出合理性的定義與判定,啟迪服務(wù)的生命發(fā)展新周期。
設(shè)計期要“接口規(guī)范”。要結(jié)合服務(wù)行為的具體屬性定義與探討,規(guī)范形成服務(wù)屬性說明,完善服務(wù)設(shè)計的接口嚴(yán)謹與契約規(guī)范,以確保服務(wù)定義與非功能特性的傳承進度。
開發(fā)期要“集成功能”。要全面展現(xiàn)功能服務(wù)支持的獨到屬性,在服務(wù)定義的切實取舍下,進一步做好低耦合結(jié)合高內(nèi)聚的集成功能文章,完善功能屬性的互動與溝通。
維護期要“有的放矢”。要在支持服務(wù)設(shè)計的前提條件下,有的放矢,及時對開發(fā)缺陷做出具有時效性的修復(fù),并根據(jù)服務(wù)領(lǐng)域的具體需求,適時更新服務(wù)支持版本,為長久的循環(huán)發(fā)展做出積極努力。
[1] 王 鵬.走進云計算[M].北京:人民郵電出版社,2009.
[2] 徐 昕.增強學(xué)習(xí)與近似動態(tài)規(guī)劃[M].北京:科學(xué)出版社,2010.
[3] 范 波,潘 泉,等.多智能體學(xué)習(xí)中基于知識的強化函數(shù)設(shè)計方法[J].計算機工程與應(yīng)用,2005(3)77-79.
(編輯:嚴(yán)佩峰)
Data Mining Algorithm on Cloud Computing Platform
ZHA Dao-gui, XU Cai-fang, CHEN Wei
(Computer Information Department of Suzhou Vocational and Technical College, Suzhou 234101, China)
Along with the various innovation of network informatization construction, data mining algorithm on cloud computing platform has become increasingly significant. To solve the scientific analysis and integrated processing issues on cloud computing platform, the essay combines the reality application, mining construction process and service application system of the data mining algorithm on cloud computing platform and conducts concrete discussion and research at these three levels, aiming to provide reference for the integrated development and commercial application of data mining.
data mining;service;cloud computing
2016-11-23
安徽省高校自然科學(xué)研究重點項目(KJ2016A778).
查道貴(1975—),男,安徽安慶人,碩士,講師,研究方向:計算機應(yīng)用.
TP311.13
A
2095-8978(2017)01-0113-03