陳子榮
摘要
本文針對(duì)數(shù)據(jù)挖掘,對(duì)其發(fā)展歷史和基本算法類型做出了簡(jiǎn)要的介紹,并對(duì)其未來(lái)發(fā)展做出預(yù)測(cè)。
【關(guān)鍵詞】數(shù)據(jù)挖掘 算法 信息
1 數(shù)據(jù)挖掘的發(fā)展歷史
在二十世紀(jì)七十年代,電子郵件開始出現(xiàn),通訊量以每年翻幾倍的速度增加,人類社會(huì)的信息量增長(zhǎng)速度由此開始出現(xiàn)明顯的加快,數(shù)據(jù)挖掘也伴隨著網(wǎng)絡(luò)信息的發(fā)展而出現(xiàn),但是由于受到當(dāng)時(shí)的網(wǎng)絡(luò)速度的影響,電子郵件的數(shù)量和內(nèi)容仍較少,數(shù)據(jù)挖掘仍為比較冷門的內(nèi)容。直到1995年,web技術(shù)出現(xiàn),以其為代表信息發(fā)布系統(tǒng)嶄露頭角并且以極快的速度發(fā)展成長(zhǎng),到目前為止這種信息發(fā)布系統(tǒng)仍為因特網(wǎng)的主要的應(yīng)用,電子商務(wù)也向更精準(zhǔn)更準(zhǔn)確的時(shí)代邁進(jìn),這就要求更為精確的數(shù)據(jù)搜尋,數(shù)據(jù)挖掘得到了充分的發(fā)展。在第五次APEC會(huì)議即亞太經(jīng)合組織首腦會(huì)議上,時(shí)任美國(guó)總統(tǒng)的克林頓提出了促進(jìn)電子商務(wù)發(fā)展的提案,電子商務(wù)迎來(lái)了歷史性的發(fā)展,受到了全球的關(guān)注。目前,電子商務(wù)即EC時(shí)代已經(jīng)到來(lái),Internet也向著商業(yè)化信息傳遞邁進(jìn),是商業(yè)信息的主要發(fā)布和傳播者。Internet上所包含的商業(yè)信息和其它信息出現(xiàn)了爆炸式的增長(zhǎng),這時(shí)候數(shù)據(jù)挖掘在新時(shí)代的電子商務(wù)中起到了至關(guān)重要的作用。進(jìn)入二十一世紀(jì)之后,saas(Software as a service)一軟件即服務(wù)這種服務(wù)模式開始大規(guī)模應(yīng)用,互聯(lián)網(wǎng)技術(shù)和應(yīng)用軟件技術(shù)發(fā)展成熟。對(duì)電子商務(wù)而言這種模式進(jìn)一步延長(zhǎng)了電子商務(wù)的商務(wù)鏈,進(jìn)一步促進(jìn)了數(shù)據(jù)挖掘的知識(shí)擴(kuò)增。
2 數(shù)據(jù)挖掘的算法內(nèi)容
數(shù)據(jù)挖掘是通過(guò)統(tǒng)計(jì)學(xué)和算法來(lái)進(jìn)行具體的運(yùn)作的,通過(guò)統(tǒng)計(jì)學(xué)進(jìn)行抽樣和估計(jì)并提出假設(shè),再通過(guò)包含多個(gè)學(xué)科的算法來(lái)進(jìn)行具體的數(shù)據(jù)處理。進(jìn)行數(shù)據(jù)挖掘,其算法步驟一般包括以下內(nèi)容:
(1)分類或估計(jì)。首先數(shù)據(jù)挖掘分類技術(shù)對(duì)已有數(shù)據(jù)進(jìn)行確定好類別和數(shù)目的分類,在處理連續(xù)值的時(shí)候可以采用估計(jì)的方式,通過(guò)對(duì)已知數(shù)據(jù)的處理估算出未知量的值。估計(jì)可以作為分類的前一步工作。
(2)預(yù)測(cè)。
(3)相關(guān)性分組或關(guān)聯(lián)規(guī)則。將具有相關(guān)性或同時(shí)發(fā)生性的數(shù)據(jù)進(jìn)行合并分組。
(4)聚類。與分類不同,根據(jù)數(shù)據(jù)里包含的內(nèi)容將數(shù)據(jù)聚為幾類,不進(jìn)行預(yù)先的類別確定。
(5)數(shù)據(jù)描述和可視化處理。這一步是對(duì)數(shù)據(jù)挖掘的結(jié)果描述。通過(guò)具體的工具對(duì)數(shù)據(jù)進(jìn)行直觀的展示。下面介紹具體的算法。
2.1 決策樹法
決策樹是分類過(guò)程的一種,通過(guò)樹狀流程圖的形式來(lái)進(jìn)行,羅斯昆(J.Ross Quinlan)所提出的ID3算法便是決策樹法的一種,之后在此算法的基礎(chǔ)上又出現(xiàn)了目前應(yīng)用較廣的C4.5型算法,該算法繼承了ID3算法的優(yōu)點(diǎn),除此之外還還有隨機(jī)森林法。決策樹法適合處理非數(shù)值型的數(shù)據(jù),并且其對(duì)于數(shù)量規(guī)模較大的數(shù)據(jù)處理及其合適。決策樹法比較容易理解,構(gòu)造決策樹的過(guò)程也較短,分類的速度快。
2.2 遺傳算法
遺傳算法基于的理論為進(jìn)化理論,它利用了遺傳學(xué)中的遺傳交叉變異、自然選擇學(xué)說(shuō)等規(guī)則,并利用了適者生存原理。遺傳算法易與其它類型的模型相結(jié)合應(yīng)用,并且可以同時(shí)處理多種數(shù)據(jù)類型,處理速度較快。但是遺傳算法計(jì)算量是比較大的,運(yùn)用遺傳算法所需要的參數(shù)數(shù)據(jù)量很大。在其它技術(shù)難以對(duì)問(wèn)題進(jìn)行解決時(shí)通常會(huì)使用遺傳算法。
2.3 關(guān)聯(lián)規(guī)則法
關(guān)聯(lián)規(guī)則是描述事物與事物之間的相關(guān)性和依賴性的,該算法的代表算法為Apriori算法。Apriori算法由R.AGRAWAI等學(xué)者提出,是一種影響力最大的挖掘布爾關(guān)聯(lián)規(guī)則(非數(shù)值型關(guān)聯(lián))頻繁項(xiàng)集(全部支持度大于最小支持度)的算法。該算法較為簡(jiǎn)單,對(duì)數(shù)據(jù)的要求也不高,但是缺點(diǎn)也比較明顯,如在計(jì)算支持度時(shí)會(huì)對(duì)數(shù)據(jù)庫(kù)中的全部記錄進(jìn)行掃描,會(huì)增大計(jì)算機(jī)系統(tǒng)的開銷等。此算法在商業(yè)領(lǐng)域、移動(dòng)通信領(lǐng)域等領(lǐng)域的應(yīng)用極其廣泛。
2.4 神經(jīng)網(wǎng)絡(luò)法
神經(jīng)網(wǎng)絡(luò)法是通過(guò)對(duì)生物神經(jīng)系統(tǒng)的模擬,通過(guò)模仿其結(jié)構(gòu)和各個(gè)結(jié)構(gòu)的功能來(lái)進(jìn)行非線性的預(yù)測(cè)。神經(jīng)網(wǎng)絡(luò)法可以完成多種數(shù)據(jù)挖掘任務(wù),例如分類聚類等。該方法通過(guò)對(duì)權(quán)值的修改來(lái)進(jìn)行具體的學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)法對(duì)干擾的抵抗力比較強(qiáng),并且能夠進(jìn)行非線性的學(xué)習(xí),對(duì)較為復(fù)雜的情況也具有較良好的處理能力。但是這種方法的學(xué)習(xí)過(guò)程是不可控和不能觀察的,容易出現(xiàn)錯(cuò)誤和漏洞,對(duì)輸出結(jié)構(gòu)的解釋也較為困難,并且整個(gè)學(xué)習(xí)過(guò)程也需要耗費(fèi)較多的時(shí)間。這種算法在聚類中比較常見(jiàn)。
2.5 粗糙集法
粗糙集理論是由波蘭科學(xué)家Z.Pawlak創(chuàng)立的數(shù)據(jù)分析處理理論,在國(guó)際數(shù)學(xué)和計(jì)算機(jī)界受到了相當(dāng)?shù)闹匾?。該理論的核心?nèi)容是集合,是處理模糊、不精確或者不完整不完備的信息的有效工具。其算法很簡(jiǎn)單,但是粗糙集法很難直接處理連續(xù)的屬性的信息。
3 數(shù)據(jù)挖掘的應(yīng)用
目前數(shù)據(jù)挖掘得到了充分而迅速的發(fā)展,現(xiàn)在的數(shù)據(jù)挖掘熱點(diǎn)在于各種大數(shù)據(jù)的精確挖掘,例如網(wǎng)站上的數(shù)據(jù)挖掘,如上文提到的電子商務(wù)內(nèi)容對(duì)生物的基因信息進(jìn)行數(shù)據(jù)發(fā)掘;從大批量文本中進(jìn)行數(shù)據(jù)挖掘等。未來(lái)的發(fā)展趨勢(shì)很大程度上也會(huì)沿著這三個(gè)方向進(jìn)行進(jìn)一步的發(fā)展和完善。我國(guó)的數(shù)據(jù)挖掘尚不成熟,處于發(fā)展階段,但各行各業(yè)對(duì)于數(shù)據(jù)挖掘的重視程度正逐步提高,對(duì)數(shù)據(jù)挖掘的研究和應(yīng)用也越來(lái)越廣泛。
4 總結(jié)
數(shù)據(jù)挖掘是一個(gè)常見(jiàn)而好用的數(shù)據(jù)處理工具,在如今的電子商務(wù)時(shí)代和大數(shù)據(jù)時(shí)代并行的時(shí)代背景下顯得尤為重要,目前國(guó)內(nèi)外對(duì)數(shù)據(jù)挖掘的熱度正逐漸上升,多個(gè)數(shù)據(jù)量大且對(duì)數(shù)據(jù)處理需求較大行業(yè)已經(jīng)開始應(yīng)用數(shù)據(jù)挖掘來(lái)進(jìn)行輔助決策,數(shù)據(jù)處理在日常的數(shù)據(jù)分析中也開始逐步應(yīng)用。但是就目前而言數(shù)據(jù)挖掘還存在著許多缺憾和不足,例如在數(shù)據(jù)量非常大時(shí)數(shù)據(jù)發(fā)掘的速度和效率亟待提高、動(dòng)態(tài)數(shù)據(jù)的挖掘方式不足、對(duì)多數(shù)據(jù)類型的挖掘方法不夠等。作為數(shù)據(jù)的分析者,必須理解和掌握數(shù)據(jù)挖掘的原理和使用方法,熟練和合理的應(yīng)用數(shù)據(jù)挖掘,從而能解釋和應(yīng)用最終的到的數(shù)據(jù)挖掘結(jié)果,使得數(shù)據(jù)挖掘能真正有利于自己的工作,服務(wù)于行業(yè)。
參考文獻(xiàn)
[1]陜粉麗.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及應(yīng)用[J].現(xiàn)代企業(yè)教育,2008(06):101-102.
[2]陶翠霞.淺談數(shù)據(jù)挖掘及其發(fā)展?fàn)顩r[J].科技信息,2008(04):72.
[3]陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006,2(01):46-49.