摘要:本文對(duì)數(shù)據(jù)挖掘以及分類算法的內(nèi)涵進(jìn)行闡述,對(duì)數(shù)據(jù)挖掘中常用的分?jǐn)?shù)算法技術(shù)改善策略進(jìn)行分析,旨在推動(dòng)我國(guó)數(shù)據(jù)分類算法技術(shù)的高速發(fā)展。
關(guān)鍵詞:大數(shù)據(jù)挖掘;分類算法技術(shù);大數(shù)據(jù)分析
引言
在數(shù)字化辦公環(huán)境下,我國(guó)各個(gè)行業(yè)領(lǐng)域開始選擇應(yīng)用大數(shù)據(jù)挖掘概念技術(shù),給我國(guó)計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展帶來(lái)了發(fā)展機(jī)遇,促進(jìn)了各式分類技術(shù)以及算法技術(shù)的高速發(fā)展。
一、數(shù)據(jù)挖掘
大數(shù)據(jù)本身是并不存在有效的價(jià)值意義,是需要對(duì)大數(shù)據(jù)進(jìn)行有效處理才能讓大數(shù)據(jù)產(chǎn)生實(shí)質(zhì)性價(jià)值意義,為此大數(shù)據(jù)分析、大數(shù)據(jù)挖掘處理工作極為重要。大數(shù)據(jù)挖掘主要是指需要從海量、模糊性高、隨機(jī)性高的數(shù)據(jù)信息中提取人們不曾了解,但十分有價(jià)值的信息過(guò)程。數(shù)據(jù)挖掘?qū)ο笙鄬?duì)廣泛,不僅能夠?qū)?shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘,同時(shí)也能對(duì)文本數(shù)據(jù)資源進(jìn)行數(shù)據(jù)挖掘。
二、分類算法技術(shù)
分類算法技術(shù)則是對(duì)已知類別的數(shù)據(jù)進(jìn)行分析,對(duì)于其中存在的分類規(guī)律進(jìn)行總結(jié),以此為基礎(chǔ)對(duì)新的數(shù)據(jù)類別進(jìn)行預(yù)測(cè)。分類算法技術(shù)的本質(zhì)就是將位置樣本分布到已存類別的過(guò)程,分類過(guò)程實(shí)現(xiàn)可具體分為兩個(gè)方面,一方面是以已知訓(xùn)練數(shù)據(jù)集為依托,構(gòu)建用于描述預(yù)定數(shù)據(jù)類集的全新模型,另一方面則是在新型構(gòu)建模型的基礎(chǔ)上,對(duì)未知的數(shù)據(jù)進(jìn)行分類,實(shí)現(xiàn)對(duì)相關(guān)數(shù)據(jù)的有效處理。
三、大數(shù)據(jù)挖掘分類算法技術(shù)改善策略分析
大數(shù)據(jù)挖掘技術(shù)就是從大量數(shù)據(jù)信息中尋找能夠應(yīng)用價(jià)值數(shù)據(jù)信息,數(shù)據(jù)挖掘技術(shù)是互聯(lián)網(wǎng)技術(shù)發(fā)展下的產(chǎn)物,涉及到數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)以及電子學(xué)等多個(gè)智能領(lǐng)域。大數(shù)據(jù)挖掘中常用的分類算法技術(shù)主要分為三種,分別為決策樹分類算法、神經(jīng)網(wǎng)絡(luò)分類算法以及樸素貝葉斯分類算法。
(一)決策樹分類算法
決策樹分類算法是以數(shù)據(jù)集為基礎(chǔ),對(duì)并沒(méi)有規(guī)則順序的樣本數(shù)據(jù)信息進(jìn)行推算,繼而得出具體分類規(guī)則的算法,是歸納學(xué)習(xí)算法類型之一,同時(shí)也是組成決策方案的重要元素。決策樹分類算法能夠以樹式圖形式表現(xiàn)出來(lái),實(shí)現(xiàn)對(duì)系統(tǒng)決策方案的選擇,由于其展示形式較為形象直觀,能夠?qū)⒉煌瑳Q策時(shí)期的決策類問(wèn)題進(jìn)行顯示,決策類問(wèn)題以清晰的邏輯展現(xiàn),將其構(gòu)建成為直觀形象的樹形模型。決策樹算法中包含的種類相對(duì)校對(duì),像ID3算法、C4算法以及C5算法等都是常用的算法,與其他類型的分類算法技術(shù)相比較而言,決策樹分類算法具備便于理解、實(shí)現(xiàn)的應(yīng)用優(yōu)勢(shì),對(duì)于數(shù)據(jù)挖掘技術(shù)人員而言,決策樹分類算法的容易理解屬性能夠讓其快速將決策樹算法應(yīng)用至實(shí)際分類之中。決策樹分類算法具備運(yùn)行速度相對(duì)較快的特征,這是由于決策樹分類算法的工作量要小于其他類型分類算法的工作量,因此決策樹分類算法的總計(jì)算應(yīng)用時(shí)間相對(duì)較短。決策樹分類算法同時(shí)也具備算法精準(zhǔn)性相對(duì)較高的優(yōu)勢(shì),將決策時(shí)分類算法應(yīng)用至數(shù)據(jù)挖掘工作中,能夠幫助工作人員快速、準(zhǔn)確的根據(jù)分類規(guī)則進(jìn)行數(shù)據(jù)分類,以樹式圖形式清晰直觀的展示重點(diǎn)字節(jié)。
決策樹分類算法雖然具備多種應(yīng)用優(yōu)勢(shì),同時(shí)也不可避免存在一系列的應(yīng)用問(wèn)題,如決策樹分類算法在應(yīng)用過(guò)程中需要對(duì)連續(xù)性數(shù)據(jù)信息進(jìn)行離散化處理,只有這樣才能進(jìn)行分類學(xué)習(xí),對(duì)于已經(jīng)具備時(shí)間順序的數(shù)據(jù),需要提前對(duì)其進(jìn)行大規(guī)模性質(zhì)的加工處理,同時(shí)若分類類別過(guò)多,存在決策樹分類算法發(fā)生錯(cuò)誤分類的問(wèn)題。為此需要對(duì)決策樹分類算法進(jìn)行改善,可將監(jiān)督學(xué)習(xí)任務(wù)算法應(yīng)用至決策樹分類算法之中,在決策樹形成的初期階段進(jìn)行應(yīng)用,能夠隨著決策樹分類算法記錄數(shù)量的提升,借助預(yù)排序方式實(shí)現(xiàn)對(duì)決策樹分類算法的有效改善。
(二)神經(jīng)網(wǎng)絡(luò)分類算法
神經(jīng)網(wǎng)絡(luò)分類算法中神經(jīng)網(wǎng)絡(luò)主要是指人工神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)算法通過(guò)對(duì)生物大腦結(jié)構(gòu)以及生物工作狀態(tài)進(jìn)行模擬,進(jìn)而形成動(dòng)態(tài)化、靈活化的信息處理模型。神經(jīng)網(wǎng)絡(luò)分類算法的具體應(yīng)用原理為,一個(gè)神經(jīng)網(wǎng)絡(luò)就是一個(gè)計(jì)算單位,一個(gè)單位是由多層神經(jīng)元組成,一個(gè)多層神經(jīng)元包含三個(gè)層次,即“輸入層次”、“輸出層次”以及“隱含層次”。神經(jīng)網(wǎng)絡(luò)分類算法的具備精度相對(duì)較高以及較強(qiáng)的魯棒性優(yōu)勢(shì),神經(jīng)網(wǎng)絡(luò)分類算法具備一定的自我學(xué)習(xí)能力以及記憶能力,能夠有效解答部分較為復(fù)雜的問(wèn)題,由于人工審計(jì)網(wǎng)絡(luò)具備非線性擬合功能,因此能夠在不具備條件背景下利用變量進(jìn)行線性組合后,將其轉(zhuǎn)變?yōu)榉蔷€性組合,因此神經(jīng)網(wǎng)絡(luò)分類算法具備映射較為復(fù)雜非線性內(nèi)容的優(yōu)勢(shì)。
神經(jīng)網(wǎng)絡(luò)分類算法同樣也具備相應(yīng)的分類算法缺陷,最為典型的缺陷就是神經(jīng)網(wǎng)絡(luò)建設(shè)問(wèn)題,通常情況下建立先進(jìn)、完整的神經(jīng)網(wǎng)絡(luò)是需要花費(fèi)大量的時(shí)間精力,對(duì)于技術(shù)人員的技術(shù)要求也相對(duì)較高,因此可利用提取規(guī)則對(duì)神經(jīng)網(wǎng)絡(luò)實(shí)施剪枝策略,將神經(jīng)網(wǎng)絡(luò)中分類準(zhǔn)確程度影響相對(duì)較小進(jìn)行去除,不能對(duì)分類結(jié)果造成影響的神經(jīng)元進(jìn)行去除,進(jìn)行簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的構(gòu)建。
(三)樸素貝葉斯分類算法
樸素貝葉斯分類算法是以統(tǒng)計(jì)學(xué)為基礎(chǔ)開展的數(shù)據(jù)分類算法,樸素貝葉斯分類算法的應(yīng)用實(shí)質(zhì)為借助概率形式展現(xiàn)數(shù)據(jù)信息的不確定性。樸素貝葉斯分類算法的應(yīng)用優(yōu)勢(shì)在于對(duì)于空間以及時(shí)間的應(yīng)用開銷相對(duì)較低,因此占用的系統(tǒng)資源相對(duì)較少,分類算法的運(yùn)行速度也相對(duì)較快,同時(shí)樸素貝葉斯分類算法也具備邏輯思維簡(jiǎn)單明確的優(yōu)勢(shì),大大增加樸素貝葉斯分類算法的可操作性。
樸素貝葉斯分類算法的應(yīng)用缺點(diǎn)在于,該分類算法應(yīng)用需要立足于獨(dú)立性的假設(shè)前提,這一應(yīng)用場(chǎng)景是無(wú)法在現(xiàn)實(shí)情況下得到有效滿足,導(dǎo)致樸素貝葉斯分類算法的分類準(zhǔn)確性降低,為此需要對(duì)樸素貝葉斯分類算法進(jìn)行再次升級(jí)創(chuàng)新,可應(yīng)用選擇貝葉斯算法進(jìn)行數(shù)據(jù)分類。
結(jié)語(yǔ)
總而言之,為了能夠有效應(yīng)對(duì)大量數(shù)據(jù)的分類統(tǒng)計(jì)分析,相關(guān)領(lǐng)域?qū)?shù)據(jù)分類算法技術(shù)的應(yīng)用程度不斷加強(qiáng),需要對(duì)大數(shù)據(jù)挖掘中應(yīng)用的數(shù)據(jù)分類算法技術(shù)進(jìn)行完善,加強(qiáng)對(duì)相關(guān)數(shù)據(jù)的有效處理。
參考文獻(xiàn):
[1]李金召.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用與研究[J].計(jì)算機(jī)產(chǎn)品與流通,2020(05):30.
[2]謝盛嘉.大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].計(jì)算機(jī)產(chǎn)品與流通,2020(05):128.
[3]臧玉魏,謝連科,張永,張國(guó)英,吳健,白曉春.基于電力營(yíng)銷聚類分析的數(shù)據(jù)挖掘算法研究[J].信息技術(shù),2020,44(04):56-59+64.
作者簡(jiǎn)介:
余薇(1992)女.漢族.黑龍江大慶.本科 大慶油田信息技術(shù)公司 163000 中級(jí)工程師 軟件開發(fā)