文/周昊 毛明慧 劉釩
我國正處于大數(shù)據(jù)時(shí)代背景下,在這一時(shí)代背景下,人們一切的生產(chǎn)經(jīng)營活動(dòng)都可以通過數(shù)據(jù)來顯示,而數(shù)據(jù)挖掘系統(tǒng)通常都采用的是信息計(jì)算系統(tǒng),通過對(duì)海量的數(shù)據(jù)進(jìn)行計(jì)算、分析與總結(jié)。數(shù)據(jù)挖掘系統(tǒng)不僅用于公司企業(yè)當(dāng)中,同時(shí)還可以在高校內(nèi)應(yīng)用,用以監(jiān)測(cè)學(xué)生的能源消耗情況。目前,數(shù)據(jù)挖掘技術(shù)在各項(xiàng)網(wǎng)絡(luò)工程中,被眾多網(wǎng)絡(luò)企業(yè)進(jìn)行數(shù)據(jù)的計(jì)算與管理,并且利用HADOOP 技術(shù),并且搭建了自己的技術(shù)分析平臺(tái),對(duì)數(shù)據(jù)挖掘起到了一定的促進(jìn)作用。并且隨著現(xiàn)代信息數(shù)據(jù)處理技術(shù)的不斷進(jìn)步與完善,許多公司企業(yè)都已經(jīng)開始利用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)的大量存儲(chǔ),并利用HADOOP 技術(shù)獲得了大量的數(shù)據(jù)信息,成為目前受歡迎的研究熱點(diǎn)與領(lǐng)域。在數(shù)據(jù)挖掘領(lǐng)域中,HADOOP 技術(shù)已經(jīng)成為了主要的計(jì)算方法,得出了一種基于Hadoop 的關(guān)聯(lián)規(guī)則挖掘算法,這種計(jì)算方法雖然高效,但是中間手動(dòng)編碼的過程太過繁瑣,雖然方法高效,但是耗費(fèi)的時(shí)間與精力過長,這是今后將要研究的重點(diǎn),也是未來要克服的技術(shù)難題。
Hadoop 是一個(gè)由Apache 基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。HADOOP 技術(shù)是數(shù)據(jù)挖掘技術(shù)中采用的重要方法,它是一種分布式系統(tǒng),應(yīng)用在公司企業(yè)內(nèi)部的數(shù)據(jù)網(wǎng)絡(luò)系統(tǒng)中,它可以根據(jù)該企業(yè)龐大的、大量的數(shù)據(jù)進(jìn)行層層分布,并能夠進(jìn)行精確的計(jì)算與存儲(chǔ)。Hadoop 的框架最核心的設(shè)計(jì)就是:HDFS 和MapReduce。HDFS 為海量的數(shù)據(jù)提供了存儲(chǔ),而MapReduce 則為海量的數(shù)據(jù)提供了計(jì)算。利用Hadoop 技術(shù)系統(tǒng)進(jìn)行數(shù)據(jù)的處理,不僅可靠、高效、可伸縮,而且成本低廉,任何人都可以使用,它是一個(gè)能夠客戶輕松利用與計(jì)算的數(shù)據(jù)平臺(tái)系統(tǒng)。而且最重要的是利用Hadoop 技術(shù)系統(tǒng)在直接計(jì)算出結(jié)果之后就可以自動(dòng)幫助客戶存儲(chǔ)數(shù)據(jù),非常方便高效。
一個(gè)完整的數(shù)據(jù)挖掘系統(tǒng)必須具有三方面的基本條件:
(1)數(shù)據(jù)源,數(shù)據(jù)挖掘系統(tǒng)只對(duì)特定的數(shù)據(jù)源進(jìn)行分析與計(jì)算,用戶可以給系統(tǒng)輸入制定的計(jì)算命令,而系統(tǒng)根據(jù)用戶的需求對(duì)特定的數(shù)據(jù)源進(jìn)行計(jì)算、分析,而且是必須在一個(gè)數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)才可以,Hadoop 技術(shù)系統(tǒng)是針對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行大量的計(jì)算與分析,進(jìn)行統(tǒng)一的規(guī)劃與處理。
(2)數(shù)據(jù)源服務(wù)器,用戶提出的數(shù)據(jù)計(jì)算分析請(qǐng)求發(fā)送到數(shù)據(jù)源服務(wù)器,服務(wù)器負(fù)責(zé)接收、計(jì)算與處理,運(yùn)送過程中的數(shù)據(jù)信息也被保護(hù)。因此,對(duì)于整個(gè)數(shù)據(jù)挖掘系統(tǒng)來說,整個(gè)數(shù)據(jù)計(jì)算設(shè)備都是互通的,在此運(yùn)送過程中數(shù)據(jù)信息能夠被好好的保護(hù)。
(3)預(yù)處理模塊,模塊被輸入固定的計(jì)算程序后,能夠根據(jù)程序要求的編輯管理進(jìn)行數(shù)據(jù)的計(jì)算,進(jìn)行計(jì)算與分析,能夠得出預(yù)定的結(jié)果。
(4)知識(shí)庫是應(yīng)用數(shù)據(jù)挖掘系統(tǒng)后進(jìn)行數(shù)據(jù)存儲(chǔ)的,這是數(shù)據(jù)挖掘系統(tǒng)的一大優(yōu)點(diǎn),它能夠根據(jù)得出的數(shù)據(jù)結(jié)果進(jìn)行自動(dòng)存儲(chǔ)與數(shù)據(jù)歸類,但是還是由操作者進(jìn)行手動(dòng)操作來把數(shù)據(jù)進(jìn)行確定和設(shè)計(jì)。
(5)數(shù)據(jù)挖掘引擎,數(shù)據(jù)挖掘系統(tǒng)中有多種數(shù)據(jù)計(jì)算的方式方法,而具體采用何種方法是通過數(shù)據(jù)挖掘引擎來決定的,數(shù)據(jù)挖掘引擎通過分析數(shù)據(jù)的特點(diǎn)從而確定采用何種方法來計(jì)算。
(6)評(píng)估模塊,在進(jìn)行數(shù)據(jù)的計(jì)算分析與歸類之后,會(huì)自動(dòng)的為數(shù)據(jù)系統(tǒng)的應(yīng)用進(jìn)行綜合的評(píng)定與評(píng)估,模式評(píng)估能夠呈現(xiàn)出數(shù)據(jù)挖掘技術(shù)應(yīng)用的具體結(jié)果。
Hadoop 本身就是一個(gè)數(shù)據(jù)計(jì)算技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行計(jì)算與分析是Hadoop 技術(shù)的主要特點(diǎn),而應(yīng)用數(shù)據(jù)挖掘系統(tǒng),只會(huì)讓Hadoop 技術(shù)的計(jì)算功能更加具有針對(duì)性與實(shí)用性,能運(yùn)用到具體的業(yè)務(wù)當(dāng)中。Hadoop 技術(shù)本身就具有強(qiáng)大的計(jì)算能力,它能夠讓數(shù)據(jù)挖掘中各個(gè)數(shù)據(jù)集群點(diǎn)變得更加明顯,各個(gè)模塊能根據(jù)不同的計(jì)算要求,擴(kuò)張Hadoop 集群,根據(jù)模塊的數(shù)據(jù)特點(diǎn)對(duì)數(shù)據(jù)龐大的數(shù)據(jù)量進(jìn)行分層,通過分層,各個(gè)數(shù)據(jù)之間的特征就非常明顯,以此就能夠根據(jù)數(shù)據(jù)特點(diǎn)來綜合運(yùn)用計(jì)算方法。另外,Hadoop 技術(shù)中的HDFS 提供了大量的數(shù)據(jù)存儲(chǔ)空間,一個(gè)公司、企業(yè)內(nèi)部會(huì)有大量的數(shù)據(jù)信息需要存儲(chǔ),而且HDFS 還提供了一個(gè)高度容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲(chǔ)解決方案。HDFS 能夠根據(jù)數(shù)據(jù)信息的特點(diǎn)特征進(jìn)行定量存儲(chǔ),高效、快速的接收各種數(shù)據(jù)信息,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,方便后期的數(shù)據(jù)挖掘。
根據(jù)數(shù)據(jù)挖掘系統(tǒng)的分層功能,可以將數(shù)據(jù)挖掘系統(tǒng)具體分為三個(gè)層級(jí):
3.3.1 交互層
交互層可以將各個(gè)模塊的指令端口結(jié)合在一起,這樣就可以接收到系統(tǒng)中來自各個(gè)方面的指令,且只需要用戶登錄進(jìn)去,就可以進(jìn)入系統(tǒng)的主數(shù)據(jù)庫。
3.3.2 業(yè)務(wù)應(yīng)用層
業(yè)務(wù)應(yīng)用層可以接收來自交互層的信息指令,從而根據(jù)指令來進(jìn)行計(jì)算過程,主要依靠的是HADOOP 設(shè)置,擬安排一個(gè)邏輯思維,使得系統(tǒng)按照既定的原則實(shí)現(xiàn)業(yè)務(wù)操作。
3.3.3 數(shù)據(jù)挖掘平臺(tái)層
經(jīng)過預(yù)處理的數(shù)據(jù)信息可以存儲(chǔ)在數(shù)據(jù)庫中,在這個(gè)層級(jí)上,數(shù)據(jù)信息可依靠系統(tǒng)實(shí)現(xiàn)應(yīng)用價(jià)值的提升與優(yōu)化。這是整個(gè)數(shù)據(jù)挖掘系統(tǒng)的核心,數(shù)據(jù)挖掘平臺(tái)層可以實(shí)現(xiàn)數(shù)據(jù)的深層挖掘,從而發(fā)現(xiàn)數(shù)據(jù)中隱藏的信息。而且,數(shù)據(jù)挖掘平臺(tái)層可以展現(xiàn)出數(shù)據(jù)在經(jīng)過計(jì)算之后的結(jié)果與類型。
目前,很多高校都應(yīng)用了以HADOOP 技術(shù)為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù)系統(tǒng),為學(xué)校提供大量的數(shù)據(jù)計(jì)算與分析功能。但是隨著現(xiàn)代信息化技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的功能已經(jīng)在悄悄改變著。數(shù)據(jù)挖掘系統(tǒng)已經(jīng)不再是簡(jiǎn)單的為高校提供數(shù)據(jù)計(jì)算、分析功能,同時(shí)還可以為高校建筑提供一定的系統(tǒng)監(jiān)測(cè)功能,對(duì)學(xué)校內(nèi)部各個(gè)宿舍、教學(xué)樓、辦公樓等地進(jìn)行綜合的監(jiān)測(cè),監(jiān)測(cè)每幢樓內(nèi)部的能源消耗情況,同時(shí),還提供了報(bào)警系統(tǒng),高校內(nèi)部的教學(xué)樓、宿舍樓有大量的電線和電壓表,學(xué)生在日常生活中如果出現(xiàn)用電不安全的情況,會(huì)造成很嚴(yán)重的后果。因此,為了監(jiān)測(cè)學(xué)生們的用電消耗量,同時(shí)也為了學(xué)生的用電安全,安裝數(shù)據(jù)挖掘系統(tǒng)的同時(shí)還提供數(shù)據(jù)監(jiān)測(cè)功能,一旦發(fā)現(xiàn)出現(xiàn)數(shù)據(jù)異常的情況,或者其他危險(xiǎn)性情況,都可以及時(shí)采用報(bào)警系統(tǒng)。未來,數(shù)據(jù)挖掘技術(shù)會(huì)應(yīng)用于高校的各個(gè)方面,為學(xué)校的建設(shè)發(fā)展以及學(xué)生的個(gè)人發(fā)展提供大量的數(shù)據(jù)支持。
在大數(shù)據(jù)時(shí)代背景下,人們生活和工作的方方面面都可以用數(shù)據(jù)來體現(xiàn),數(shù)據(jù)挖掘技術(shù)能夠挖掘在數(shù)據(jù)背后的意義,通過分析一系列數(shù)據(jù)可以從中得到一定的結(jié)論。高校學(xué)生大量的消耗能源,這并不是一個(gè)高校應(yīng)該體現(xiàn)的教育教學(xué)面貌,然而大量的數(shù)據(jù)是無法用人工的力量進(jìn)行計(jì)算與分析的,只能通過數(shù)據(jù)信息技術(shù)系統(tǒng)來實(shí)現(xiàn),不僅可以計(jì)算、分析數(shù)據(jù)結(jié)果,還可以得出一定的結(jié)論,通過數(shù)據(jù)挖掘技術(shù)可以進(jìn)一步分析學(xué)生的能源消耗主要集中在哪一方面,從而做出一定的調(diào)整措施。人們生活方式的改變推動(dòng)了數(shù)據(jù)挖掘技術(shù)的出現(xiàn)與應(yīng)用,而數(shù)據(jù)挖掘系統(tǒng)主要應(yīng)用HADOOP 技術(shù),它可以實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)與計(jì)算功能,為各個(gè)大型企業(yè)海量的數(shù)據(jù)進(jìn)行綜合的計(jì)算、分析與存儲(chǔ),從而得出一定的數(shù)據(jù)信息,企業(yè)可以通過數(shù)據(jù)挖掘技術(shù)進(jìn)一步取得產(chǎn)業(yè)在行業(yè)發(fā)展中的信息與發(fā)展?fàn)顩r,通過數(shù)據(jù)信息總結(jié)出企業(yè)下一年度的生產(chǎn)經(jīng)營策略與方案計(jì)劃。本文研究了基于HADOOP 技術(shù)的數(shù)據(jù)挖掘系統(tǒng)的應(yīng)用,描述了數(shù)據(jù)挖掘與HADOOP 技術(shù)的概況,同時(shí)還分析了當(dāng)前數(shù)據(jù)挖掘技術(shù)應(yīng)用的現(xiàn)狀,綜合討論了基于HADOOP 的數(shù)據(jù)挖掘系統(tǒng)的構(gòu)成與設(shè)計(jì),從構(gòu)成要素、系統(tǒng)設(shè)計(jì)原則與方法、數(shù)據(jù)挖掘的層級(jí)功能這三方面展開了詳細(xì)的分析與研究。在大數(shù)據(jù)時(shí)代背景下,企業(yè)的任何生產(chǎn)經(jīng)營,或者是人們的生活等都可以通過數(shù)據(jù)來體現(xiàn),通過數(shù)據(jù)挖掘得到的數(shù)據(jù)信息都可以第一時(shí)間為企業(yè)的決策者提供各方面的關(guān)于企業(yè)生產(chǎn)經(jīng)營狀況的信息,由此可見,數(shù)據(jù)挖掘技術(shù)是今后現(xiàn)代信息技術(shù)將要發(fā)展的重點(diǎn)。