摘? 要:由于信息技術(shù)的快速發(fā)展,信息量在持續(xù)增多,借助數(shù)據(jù)挖掘可以從海量數(shù)據(jù)中挖掘出有價值的信息,信息資源實現(xiàn)了更有價值的應(yīng)用。如何從海量數(shù)據(jù)中高效挖掘有價值的資源,屬于信息技術(shù)要解決的關(guān)鍵問題。云計算技術(shù)支持下的數(shù)據(jù)挖掘?qū)崿F(xiàn)了資源的優(yōu)化配置,體現(xiàn)出實用性、虛擬性的特點,可以保證數(shù)據(jù)挖掘的高效、精準(zhǔn)。因此,有必要構(gòu)建云計算技術(shù)下的數(shù)據(jù)挖掘模式,保證數(shù)據(jù)挖掘具有更高的精準(zhǔn)度,并實現(xiàn)挖掘成本的降低。
關(guān)鍵詞:云計算技術(shù);數(shù)據(jù)挖掘;技術(shù)實現(xiàn)
中圖分類號:TP311.13? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)09-0091-03
Research on Implementation of Mass Data Mining Based on
Cloud Computing Technology
HE Xin
(Zhanjiang Health School of Guangdong,Zhanjiang? 524037,China)
Abstract:Due to the rapid development of information technology,the amount of information continues to increase. With the help of data mining,valuable information can be mined from massive data,and information resources have realized more valuable applications. How to efficiently mine valuable resources from massive data is a key problem to be solved by information technology. Data mining supported by cloud computing technology realizes the optimal allocation of resources,reflects the characteristics of practicability and virtuality,and can ensure the efficiency and accuracy of data mining. Therefore,it is necessary to build a data mining model under cloud computing technology to ensure that data mining has higher accuracy and reduce mining costs.
Keywords:cloud computing technology;data mining;technology implementation
0? 引? 言
由于信息技術(shù)的發(fā)展,不僅生成的數(shù)據(jù)多,數(shù)據(jù)分析處理能力也迎來了挑戰(zhàn)。面對海量的數(shù)據(jù),數(shù)據(jù)挖掘顯得更加重要。借助數(shù)據(jù)挖掘,可以從海量信息中獲取到有價值的信息。依托云計算技術(shù),可以為海量數(shù)據(jù)的挖掘創(chuàng)造有利條件,體現(xiàn)出高效、精準(zhǔn)的特點。本文通過研究云計算與數(shù)據(jù)挖掘技術(shù),讓教師更好地理解信息化教學(xué)能力的內(nèi)涵,提高信息化教學(xué)的意識,探索中職衛(wèi)生學(xué)校教師信息化教學(xué)能力提升策略,提高本校教師信息化教學(xué)能力和學(xué)生信息化學(xué)習(xí)能力。
1? 云計算與數(shù)據(jù)挖掘的引入
1.1? 云計算技術(shù)
云計算是指客戶端借助網(wǎng)絡(luò)向服務(wù)器發(fā)送運(yùn)算任務(wù),服務(wù)器完成數(shù)據(jù)運(yùn)算后將結(jié)果反饋給客戶端。云計算的形式有軟件即服務(wù)、平臺即服務(wù)以及基礎(chǔ)設(shè)施即服務(wù)。軟件即服務(wù)模式覆蓋到客戶與服務(wù)供應(yīng)商,服務(wù)供應(yīng)商會在服務(wù)器部署應(yīng)用軟件,客戶對于云計算有需求時,向供應(yīng)商購買軟件的使用權(quán),借助終端接收,此形式的優(yōu)勢體現(xiàn)在客戶如果對云計算有需求時,不需要資金的投入,不需要對軟件和硬件進(jìn)行維護(hù)、服務(wù)供應(yīng)商可以提供的統(tǒng)一的維護(hù)管理;在平臺即服務(wù)模式下,服務(wù)供應(yīng)商提供平臺,客戶借助平臺實現(xiàn)數(shù)據(jù)計算,服務(wù)包括提供服務(wù)器資源、硬件與開發(fā)環(huán)境,用戶利用平臺以滿足計算需求,用戶借助此模式方便實現(xiàn)軟件、應(yīng)用程序的開發(fā);基礎(chǔ)設(shè)施即服務(wù)采用了托管型的技術(shù),用戶可借助服務(wù)供應(yīng)商提供的平臺,利用虛擬服務(wù)器對數(shù)據(jù)資源加以計算。
1.2? 數(shù)據(jù)挖掘技術(shù)
此技術(shù)的應(yīng)用基于對海量數(shù)據(jù)的抽取分析。海量數(shù)據(jù)存在噪音,具有不完全性和隨機(jī)性,表達(dá)模糊。數(shù)據(jù)挖掘技術(shù)是抽取分析不同數(shù)據(jù)之間的關(guān)聯(lián)變化、數(shù)據(jù)的變化趨勢、結(jié)構(gòu)存在的異常等。隨著技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的應(yīng)用結(jié)合了人工智能、模糊計算、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘技術(shù)當(dāng)前已應(yīng)用于金融、科研等多個領(lǐng)域,比如應(yīng)用于城市的規(guī)劃、對消費(fèi)行為的分析等。傳統(tǒng)模式下的數(shù)據(jù)挖掘基于數(shù)據(jù)倉庫,利用關(guān)系數(shù)據(jù)庫完成數(shù)據(jù)的統(tǒng)計分析,分析內(nèi)在的關(guān)系,以提升數(shù)據(jù)的利用價值。數(shù)據(jù)挖掘要占用大量的存儲空間與計算資源,互聯(lián)網(wǎng)的發(fā)展中,數(shù)據(jù)規(guī)模不斷增大,傳統(tǒng)的數(shù)據(jù)挖掘難以保證效果,表現(xiàn)為效率低下;軟件硬件的應(yīng)用成本較高,資源及空間占用高;體系架構(gòu)薄弱,數(shù)據(jù)分析基于單一算法,難以保證普遍適用性。
2? 云計算技術(shù)下的數(shù)據(jù)挖掘
2.1? 云計算技術(shù)下的數(shù)據(jù)挖掘概述
大數(shù)據(jù)的應(yīng)用需要利用數(shù)據(jù)處理技術(shù),以挖掘不同的類型數(shù)據(jù)內(nèi)在的價值。比如應(yīng)用于金融業(yè),借助大數(shù)據(jù)可以為商業(yè)銀行的發(fā)展起到導(dǎo)向作用。在大數(shù)據(jù)挖掘的過程中,決策可以更加具有科學(xué)性與合理性。在信息技術(shù)快速發(fā)展并應(yīng)用領(lǐng)域不斷擴(kuò)大的背景下,產(chǎn)生了多種數(shù)據(jù),推動了大數(shù)據(jù)技術(shù)的應(yīng)用,目前大數(shù)據(jù)技術(shù)已應(yīng)用于多個領(lǐng)域。在大數(shù)據(jù)技術(shù)的應(yīng)用與發(fā)展中,云計算技術(shù)得以發(fā)展。云計算技術(shù)的應(yīng)用提升了數(shù)據(jù)信息的處理效果,數(shù)據(jù)分析可以更加高效與便利,數(shù)據(jù)挖掘保證了服務(wù)性和時效性,可以為社會發(fā)展提供多方面的數(shù)據(jù)支持。
要實現(xiàn)數(shù)據(jù)挖掘,先要處理數(shù)據(jù),再進(jìn)行數(shù)據(jù)挖掘,借助相應(yīng)算法得到對結(jié)果的評價和表達(dá),然后提取有價值的信息,如圖1所示。
云計算可以實現(xiàn)海量存儲,采用分布并行處理,數(shù)據(jù)挖掘的技術(shù)體現(xiàn)出多方面的特點:
(1)云計算技術(shù)提升了數(shù)據(jù)挖掘的效率,并行處理和海量數(shù)據(jù)挖掘得以實現(xiàn),體現(xiàn)出優(yōu)越性。云計算服務(wù)模式可以為不同規(guī)模的客戶提供差異化服務(wù),并且成本更低,數(shù)據(jù)處理快速,中小客戶可以不必依賴于大型高端服務(wù)器。
(2)云計算技術(shù)針對數(shù)據(jù)挖掘采用了塊劃分,計算任務(wù)自動分配,節(jié)點加載更具有靈活性。
(3)云計算技術(shù)的準(zhǔn)入門檻低,普通用戶借助云服務(wù)平臺可以結(jié)合自身需求完成數(shù)據(jù)挖掘,對于需求量大的用戶可以提供個性化服務(wù)。
(4)云計算可以對結(jié)點進(jìn)行動態(tài)增刪,原本設(shè)備可隨意添加結(jié)點,提升了海量數(shù)據(jù)處理速度,設(shè)備的使用率得以提高。
2.2? 云計算技術(shù)下的數(shù)據(jù)挖掘過程
2.2.1? 數(shù)據(jù)挖掘模型的建立
從客戶的實際需求角度來說,數(shù)據(jù)挖掘基于數(shù)據(jù)庫中的信息探索,需要借助對應(yīng)的技術(shù)方案從海量數(shù)據(jù)獲取到有應(yīng)用價值的信息。針對客戶而言,其更傾向于利用有效的模式從海量數(shù)據(jù)中挖掘具備應(yīng)用價值的數(shù)據(jù),以確保挖掘數(shù)據(jù)的真實性、合理性。面對海量數(shù)據(jù)的挖掘需要,云計算技術(shù)的引入,顯示出云計算技術(shù)的優(yōu)勢,大容量存儲得以實現(xiàn),并行處理能力得以提升,有利于解決了傳統(tǒng)數(shù)據(jù)挖掘存在的難點問題。數(shù)據(jù)挖掘模型的建立方式如圖2所示。
圖2表明,基于云計算技術(shù)建立的海量數(shù)據(jù)挖掘模型包括了三個層次,分別為服務(wù)層、運(yùn)算層、用戶層。
模型中,服務(wù)層處于基礎(chǔ)地位,其作用是對海量數(shù)據(jù)加以存儲,對分布并行數(shù)據(jù)實現(xiàn)初步處理。由于云計算技術(shù)下的數(shù)據(jù)挖掘不僅要保證實用性,還考慮到數(shù)據(jù)的安全與可靠。云計算技術(shù)針對數(shù)據(jù)存儲借助了分布存儲,資源庫中數(shù)據(jù)副本實現(xiàn)冗余存儲,對數(shù)據(jù)加以備份,如果數(shù)據(jù)丟失,用戶還可以找回。當(dāng)前,云計算模式下的數(shù)據(jù)存儲采用了開源HDFS。此外,云計算可以對數(shù)據(jù)挖掘加以進(jìn)行并行處理,同時執(zhí)行不同用戶多種指令,實現(xiàn)對用戶指令的及時回復(fù),數(shù)據(jù)挖掘服務(wù)保證了及時性。MapReduce與hadoop作為分布式計算框,可以進(jìn)行分布式的計算編程。
第二層為數(shù)據(jù)挖掘運(yùn)算層,其功能是對數(shù)據(jù)加以預(yù)處理,然后實現(xiàn)并行處理挖掘。技術(shù)中的數(shù)據(jù)預(yù)處理是對缺少規(guī)則的數(shù)據(jù)進(jìn)行提前處理,為后續(xù)處理創(chuàng)造條件。數(shù)據(jù)預(yù)處理的實現(xiàn),保證了數(shù)據(jù)挖掘效果,使海量數(shù)據(jù)的處理實現(xiàn)高效實時。數(shù)據(jù)預(yù)處理的實現(xiàn),保證了數(shù)據(jù)挖掘效果,使海量數(shù)據(jù)的處理實現(xiàn)高效實時。
最頂層為用戶層,服務(wù)直接對接用戶,對用戶的請求加以回應(yīng),使數(shù)據(jù)可以向下層持續(xù)傳遞,數(shù)據(jù)被挖掘后將結(jié)果及時傳遞給用戶。此外,數(shù)據(jù)用戶還可以利用可視化界面監(jiān)督數(shù)據(jù)挖掘的完成進(jìn)度,實時看到任務(wù)執(zhí)行的最后結(jié)果。
在云計算技術(shù)的支持下,數(shù)據(jù)挖掘可以實現(xiàn)流程設(shè)計:用戶可以向模塊發(fā)出挖掘指令,指令可以上傳至系統(tǒng)服務(wù)器,服務(wù)器可以自動分析識別挖掘指令,隨時調(diào)出數(shù)據(jù)庫存儲的數(shù)據(jù),在算法庫調(diào)出最優(yōu)算法,數(shù)據(jù)完成預(yù)處理后,傳遞到運(yùn)算模塊,將結(jié)果用可視化界面加以反饋,用戶查看更加方便。
云計算支持下的技術(shù)基礎(chǔ)架構(gòu)庫要保證可靠性,需要安全可靠的服務(wù)流程,以提升服務(wù)的效果。服務(wù)支持要有利于規(guī)范對用戶的數(shù)據(jù)挖掘流程中,服務(wù)流程要結(jié)合業(yè)務(wù)需求的差異化,服務(wù)交付要結(jié)合信息挖掘處理的目標(biāo),要發(fā)揮技術(shù)基礎(chǔ)架構(gòu)庫作用,降低系統(tǒng)對人的依賴性。
2.2.2? 算法的設(shè)計方式
應(yīng)用云計算技術(shù),海量數(shù)據(jù)挖掘可以采用SPRINT算法,依據(jù)設(shè)計的流程,先要將決策樹創(chuàng)建起來,然后完成剪枝。針對決策樹的創(chuàng)建,要多次對數(shù)據(jù)進(jìn)行篩分,剪枝過程是去除無價值的數(shù)據(jù)。剪枝的時間占用較短,算法運(yùn)行效率取決于決策樹的創(chuàng)建。借助SPRINT算法,可以表明數(shù)據(jù)特征。屬性表發(fā)生劃分后,節(jié)點發(fā)生分裂,直方圖的構(gòu)建的基礎(chǔ)是確定屬性表。屬性表體現(xiàn)了索引、類,停留于內(nèi)存空間外,直方圖體現(xiàn)了節(jié)點屬性。在數(shù)據(jù)處理過程中,由于不間斷的刷新獲得了最佳的分裂點。屬性值若設(shè)定為離散型,可以借助直方圖表達(dá)體現(xiàn)屬性值的分布信息。算法的設(shè)計采用了并行處理,提升了效率。借助哈希表的引入,在存儲空間中不同節(jié)點分裂后可以體現(xiàn)出子節(jié)點的數(shù)據(jù)信息變化,節(jié)點并行處理有了直接的分割依據(jù)。哈希表的應(yīng)用還體現(xiàn)出兩種不同的信息,決策節(jié)點號碼與樹節(jié)點子信息。算法發(fā)生移植后,借助MapReduce算法可以加以優(yōu)化,此算法的優(yōu)勢體現(xiàn)在可以快速創(chuàng)建出決策樹,保證了算法執(zhí)行效率。
2.2.3? 增量數(shù)據(jù)挖掘?qū)崿F(xiàn)
針對數(shù)據(jù)挖掘的技術(shù)應(yīng)用,為了提升結(jié)果的時效性,要考慮到及時性。數(shù)據(jù)挖掘出的信息時間表明其應(yīng)用價值,價值對于商業(yè)發(fā)揮著重要作用。Hadoop條件下如果借助MapReduce對海量數(shù)據(jù)加以處理要快速實現(xiàn)數(shù)據(jù)庫的掃描,會占用計算資源,并導(dǎo)致等待時間延長。由于云計算技術(shù)的進(jìn)步,為充分滿足各類用戶的差異化需求,需要開發(fā)可以實現(xiàn)數(shù)據(jù)實時處理的應(yīng)用平臺,以實現(xiàn)數(shù)據(jù)批量處理的需要。針對海量數(shù)據(jù),傳統(tǒng)的Hadoop難以保證效率,而Twitter公司針對數(shù)據(jù)挖掘推出了分布式處理系統(tǒng),可以實現(xiàn)容錯實時處理。大數(shù)據(jù)挖掘借助計算系統(tǒng)Storm可以實現(xiàn)數(shù)據(jù)的高效挖掘,當(dāng)前有了許多新的算法,如K-means聚類、FP-growth增量,這些算法可以嵌入到系統(tǒng)中,為海量數(shù)據(jù)挖掘提供多種技術(shù)支持。
2.2.4? 體現(xiàn)的效果
海量數(shù)據(jù)的挖掘,可以利用駕車風(fēng)險來分析預(yù)測公用數(shù)據(jù),以此數(shù)據(jù)基礎(chǔ)進(jìn)行樣本訓(xùn)練驗證集,數(shù)據(jù)體現(xiàn)了參保車主的信息,決策樹中針對多個節(jié)點信息的創(chuàng)建。針對數(shù)據(jù)挖掘算法有效性的判定,對樣本分組進(jìn)行驗證操作,分割成為5個不發(fā)生交集的組,以保證測試的精準(zhǔn)性,如表1所示。
從表1的測算結(jié)果可以看出,算法精準(zhǔn)率可以達(dá)到80.32%。結(jié)合表明挖掘算法精準(zhǔn)性,可以保證挖掘分類效果。
3? 結(jié)? 論
綜上所述,云計算技術(shù)應(yīng)用于海量數(shù)據(jù)挖掘不僅可以保證準(zhǔn)確率,還可以保證數(shù)據(jù)挖掘效率。用戶不需要軟硬件建設(shè)成本的資金投入,購買云計算服務(wù)后,就能獲得數(shù)據(jù)挖掘操作服務(wù),可以滿足不同用戶對海量數(shù)據(jù)的挖掘需求。
參考文獻(xiàn):
[1] 張菁.云計算技術(shù)下海量數(shù)據(jù)挖掘的實現(xiàn)機(jī)制 [J].安徽水利水電職業(yè)技術(shù)學(xué)院學(xué)報,2018,18(1):62-64.
[2] 蘇彥舟.基于云計算的海量數(shù)據(jù)挖掘研究 [J].電腦迷,2018(3):196-197.
[3] 張捷,封俊紅,朱曉姝.云計算環(huán)境下海量數(shù)據(jù)挖掘的優(yōu)化方法研究 [J].玉林師范學(xué)院學(xué)報,2017,38(5):146-151.
[4] 鄒燕飛.云計算技術(shù)在海量數(shù)據(jù)挖掘中的應(yīng)用研究 [J].自動化與儀器儀表,2017(6):185-186+190.
作者簡介:何欣(1985.11—),女,漢族,廣東湛江人,講師,本科,研究方向:計算機(jī)信息化教學(xué)。