国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的并行化聚類系統(tǒng)的設計

2016-07-26 06:22張友海李鋒剛安徽職業(yè)技術(shù)學院信息工程系安徽合肥230011合肥工業(yè)大學管理學院安徽合肥230009
赤峰學院學報·自然科學版 2016年9期
關(guān)鍵詞:聚類分析數(shù)據(jù)挖掘

張友海,李鋒剛(1.安徽職業(yè)技術(shù)學院 信息工程系,安徽 合肥 230011;2.合肥工業(yè)大學 管理學院,安徽 合肥 230009)

?

基于Hadoop的并行化聚類系統(tǒng)的設計

張友海,李鋒剛
(1.安徽職業(yè)技術(shù)學院 信息工程系,安徽 合肥 230011;2.合肥工業(yè)大學 管理學院,安徽 合肥 230009)

摘 要:數(shù)據(jù)挖掘技術(shù)可以找出大量數(shù)據(jù)中的隱含的價值并對數(shù)據(jù)做作出預測.聚類分析是挖掘數(shù)據(jù)價值的重要手段之一,在識別數(shù)據(jù)的內(nèi)在相似性具有極其重要的作用.近些年來,隨著互聯(lián)網(wǎng)技術(shù)的飛躍式發(fā)展,各行各業(yè)產(chǎn)生的數(shù)據(jù)以爆炸式的增長.面對如此龐大的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)挖掘處理方式已經(jīng)無法勝任,而以Hadoop生態(tài)圈為代表的大數(shù)據(jù)處理方法,提供了成熟且易用的工具技術(shù)支撐.因此,基于Hadoop相關(guān)工具來設計一種并行化聚類系統(tǒng)具有非常重要的意義.

關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析;hadoop

1 引言

互聯(lián)網(wǎng)的普及和各種互聯(lián)網(wǎng)技術(shù)的快速應用,導致大量數(shù)據(jù),充斥在人們生產(chǎn)和生活中.如何有效地從這些繁復復雜的數(shù)據(jù)中提取有價值的隱含信息意義重大.所謂聚類分析就是將包含有大量數(shù)據(jù)對象的數(shù)據(jù)集合劃分為若干個類或者是簇,使得同一類或者簇中的對象彼此具有較高的相似度,而不同的類或者簇中的對象之間的相異度則比較大.聚類算法不同于其他的數(shù)據(jù)挖掘算法,它不依賴于預先已經(jīng)定義好的簇或者類的特征.在數(shù)據(jù)挖掘領(lǐng)域,學術(shù)界提出了若干的基于不同思想的聚類算法,其中應用最為廣泛且思想較為簡便的是基于劃分的聚類算法.如何采用快速有效的聚類算法對海量的數(shù)據(jù)進行有效處理十分迫切,分布式技術(shù)的應用為海量數(shù)據(jù)的處理提供了新的機遇.云計算是分布式發(fā)展的重要方向,它利用互聯(lián)網(wǎng),使用多臺計算機進行分布式協(xié)同處理,共享各種信息以及軟硬件資源,為用戶提供分布式的信息服務.目前,Hadoop作為一種有效手段,被廣泛應用于數(shù)據(jù)挖掘領(lǐng)域.Hadoop是一個開源的分布式云計算平臺,能夠?qū)崿F(xiàn)對大量的數(shù)據(jù)集高效、可靠、可伸縮的分布式處理.它是一個軟件框架,由底部的分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)和上層的MapReduce編程模式構(gòu)成,它們是Hadoop的核心.HDFS用于存儲Hadoop集群中的所有存儲節(jié)點上面的文件,而MapReduce編程模式是將已有單機算法實現(xiàn)分布式的關(guān)鍵,通過實現(xiàn)MapReduce編程模式,我們就可以方便的把已有的算法移植到Hadoop平臺實現(xiàn)算法的并行化.然而,在實際項目中,除了研究聚類算法外,還針對具體的應用需求來改善現(xiàn)有的聚類算法,并在Hadoop平臺上進行分布式實現(xiàn).這也是系統(tǒng)設計完成后的終極目標.

2 需求分析

2.1 功能性需求

本系統(tǒng)處理對象主要是以CSV的大容量文本文件,系統(tǒng)需要選取合適的存儲方式存儲這些大文件.另外系統(tǒng)需要提供合適的導入導出工具,實現(xiàn)預處理文件的導入和結(jié)果文件的導出,然后對數(shù)據(jù)進行預處理操作.用戶可以選擇分類算法對數(shù)據(jù)進行模型訓練,可以利用測試集對分類效果進行評估.另外,聚類也是系統(tǒng)的一個重要功能,用戶可以選擇系統(tǒng)提供的并行化聚類算法對數(shù)據(jù)進行聚類,并對聚類效果進行評測.另外,系統(tǒng)提供數(shù)據(jù)導出工具,用于將結(jié)果數(shù)據(jù)導出系統(tǒng).系統(tǒng)功能可以分為數(shù)據(jù)管理,數(shù)據(jù)預處理,并行化分類,并行化聚類4個部分.

數(shù)據(jù)管理:如何存儲單機無法存儲的數(shù)據(jù)是大數(shù)據(jù)處理系統(tǒng)需要解決的問題.另外如何保證在少數(shù)節(jié)點宕機的情況下數(shù)據(jù)不丟失也是本系統(tǒng)需要解決的問題.大數(shù)據(jù)處理系統(tǒng)的數(shù)據(jù)導入導出是數(shù)據(jù)處理系統(tǒng)的必要模塊,對于大數(shù)據(jù)系統(tǒng)高效地將待處理數(shù)據(jù)上傳到數(shù)據(jù)處理系統(tǒng)以及將結(jié)果數(shù)據(jù)下載或備份到其他系統(tǒng)都是需要完成的功能.

數(shù)據(jù)預處理:需要實現(xiàn)在分類和聚類前使用數(shù)據(jù)變換和數(shù)據(jù)清理,以提高數(shù)據(jù)的質(zhì)量,分類和聚類的效果,同時也要提高分類和聚類的效率,以減少數(shù)據(jù)處理時間.

分類和聚類:需要以并行化方式實現(xiàn)自動化分類系統(tǒng)和聚類系統(tǒng).提高分類和聚類的效率.并可以動態(tài)擴張,以適應數(shù)據(jù)量的膨脹.

集群管理:由于大數(shù)據(jù)系統(tǒng)的特點就是集群規(guī)模龐大,如果完全依賴人工運維的話,將不堪重負,而且也不切實際.系統(tǒng)也需要提供自動化運維工具以實現(xiàn)自動化安裝,自動化配置軟件,并提供告警和監(jiān)控功能

2.2 非功能性需求

可擴展性:系統(tǒng)在現(xiàn)實使用過程中可能出現(xiàn)用戶數(shù)量快速增長現(xiàn)象,這就要求系統(tǒng)有動態(tài)擴展的能力,以適應帶來的系統(tǒng)負載量的增加,系統(tǒng)功能的擴展也要容易實現(xiàn).

可維護性:可維護性是指系統(tǒng)管理員能夠方便地進行系統(tǒng)維護,在系統(tǒng)發(fā)生錯誤或者崩潰時,能夠很快地定位到問題所處位置.因此系統(tǒng)在投入使用后,需要提供帶寬、磁盤、CPU、內(nèi)存等性能指標實時監(jiān)控工具.另外系統(tǒng)還應該有詳細的日志輸出,這些日志包括系統(tǒng)運行日志和系統(tǒng)錯誤日志.系統(tǒng)運行日志主要記錄用戶登錄、退出和重要數(shù)據(jù)變更等反映系統(tǒng)運行狀況變化的信息;這些信息主要用于管理員對系統(tǒng)使用情況進行跟蹤.系統(tǒng)錯誤日志包括系統(tǒng)的錯誤、警告信息等;這些信息主要用來提供給技術(shù)人員對系統(tǒng)的錯誤原因進行分析.系統(tǒng)需要提供方便的日志管理程序,以方便查詢、刪除系統(tǒng)日志.

精確性:系統(tǒng)的分類效果需要達到一個理想的值.如召回率和準確性都有一個較高的值.

高效性:系統(tǒng)需要在特定數(shù)據(jù)量情況下能夠處理完成.

3 系統(tǒng)設計

系統(tǒng)的總體架構(gòu)如圖1所示,其中基礎設施層保證了網(wǎng)絡,存儲,以及運算的基本能力.在基礎設施層之上部署基于hdfs的分布式文件存儲系統(tǒng),以提供大文件的存儲能力和存儲可靠性.另外在基礎設施之上同時還會構(gòu)建MapReduce計算框架,以提供分布式處理能力.數(shù)據(jù)管理構(gòu)建在分布式文件存儲hdfs之上,實現(xiàn)用戶數(shù)據(jù)高效導入和結(jié)果文件的高效導出.本系統(tǒng)將通過MapReduce編程框架實現(xiàn)數(shù)據(jù)的預處理功能,并行化分類以及并行化聚類功能.最后系統(tǒng)接口提供用戶可以通過WEB頁面方式使用本系統(tǒng).

圖1 系統(tǒng)總體結(jié)構(gòu)

圖2 系統(tǒng)的運行流程

本系統(tǒng)的使用流程如圖2所示,用戶實現(xiàn)導入數(shù)據(jù)到分布式文件存儲系統(tǒng)hdfs,通過數(shù)據(jù)預處理模塊運行預處理.用戶可以安裝需要選擇分類還是聚類.用戶如果需要進行分類預測,用戶可以選擇對數(shù)據(jù)進行劃分,劃分為數(shù)據(jù)集和測試集,然后對通過分類模型進行分類.分類完成后會對分類效果進行評估.最后用戶可以將分類結(jié)果導出.如果用戶需要對數(shù)據(jù)進行聚類,用戶可以選擇聚類模型對預處理后的文件進行聚類,然后對結(jié)果進行評估,最后用戶可以將結(jié)果數(shù)據(jù)導出.系統(tǒng)主要涉及5個功能模塊,分別是:數(shù)據(jù)管理,數(shù)據(jù)預處理,并行化分類,和并行化聚類,集群運維.

3.1 集群運維子系統(tǒng)

大數(shù)據(jù)運維子系統(tǒng)將依托開源集群運維工具Ambari進行集群管理,采用主從式架構(gòu),主節(jié)點進行管理,從節(jié)點執(zhí)行節(jié)點組件添加刪除,組件配置,運維消息采集等等工作.

3.2 大數(shù)據(jù)存儲系統(tǒng)

存儲系統(tǒng)將采用hdfs和hbase作為底層存儲系統(tǒng),使用hdfs存儲文件,有hbase存儲需要實時查詢的信息.本系統(tǒng)實現(xiàn)用戶可以通過多種方式將文件導入到存儲系統(tǒng)中.提供ftp方式將本地文件導入到存儲.也支持通過頁面上傳小文件到存儲系統(tǒng),另外支持,將關(guān)系數(shù)據(jù)表導入到存儲系統(tǒng)或者將結(jié)果導入到關(guān)系數(shù)據(jù)庫中.

3.3 數(shù)據(jù)預處理模塊

該子系統(tǒng)將包括數(shù)據(jù)預處理模塊和數(shù)據(jù)分類挖掘模塊.預處理模塊將為用戶提供MR,hive,pig等多種方式進行數(shù)據(jù)預處理.用戶可以編寫簡單的sql腳本,或pig腳本進行數(shù)據(jù)處理.對于復雜的問題可以是使用MapReduce進行處理.

3.4 并行化分類模塊

本模塊將提供基于MapReduce的kMeans聚類算法的并行化實現(xiàn).提供基于pig,hive的模型評估功能對聚類效果進行評估.并提供基于Pig,Hive的模型評估功能,實現(xiàn)對數(shù)據(jù)分類效果的評估.充分發(fā)揮MapReduce并行化計算的優(yōu)勢,提高分類效率.

總的來說,基于Hadoop的并行化聚類分析系統(tǒng)的設計是一個比較復雜的過程,這里只是簡要分析了系統(tǒng)的需求,并對系統(tǒng)進行了總體設計,對系統(tǒng)架構(gòu)和系統(tǒng)基本流程作了描述以及對系統(tǒng)的各個模塊做了簡要設計.如果需要實現(xiàn)該系統(tǒng)功能還需要進行具體的編程實現(xiàn).

參考文獻:

〔1〕【美】陳封能,【美】斯坦巴赫,【美】庫瑪爾.數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫跰].人民郵電出版社,2011.305-347.

〔2〕王駿,王士同,鄧趙紅.聚類分析研究中的若干問題[J].控制與決策,2012(03):321-328.

〔3〕喻云峰.數(shù)據(jù)挖掘算法的分析與研究[J].科技廣場,2010 (9):54-56.

〔4〕解二虎.數(shù)據(jù)挖掘中數(shù)據(jù)預處理關(guān)鍵技術(shù)研究[J].科技通報,2013(12):211-213.

〔5〕吳昉,宋培義.數(shù)據(jù)挖掘的應用[J].貴州科學,2012,30(3):54-56.

〔6〕周瑩.數(shù)據(jù)挖掘聚類算法研究及實現(xiàn)[J].信息技術(shù)與標準化,2013(9):32~34.

中圖分類號:TP311.13

文獻標識碼:A

文章編號:1673-260X(2016)05-0015-02

收稿日期:2016-03-18

基金項目:國家自然科學青年基金項目資助(71301041)

猜你喜歡
聚類分析數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
農(nóng)村居民家庭人均生活消費支出分析
基于省會城市經(jīng)濟發(fā)展程度的實證分析
基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
“縣級供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計一套”表輔助決策模式研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
基于GPGPU的離散數(shù)據(jù)挖掘研究