王學輝 王興鵬
摘要:介紹了Weka的歷史、特點及使用方法。
關鍵詞:數據挖掘工具
Weka
中圖分類號:TP311
文獻標識碼B文章編號:1002-2422(2007)05-0048-01
Weka全名為懷卡托智能分析環(huán)境(Waikato Environ-merit for Knowledge Analysis),是一個基于java、用于數據挖掘和知識發(fā)現的開源項目,其開發(fā)者是來自新西蘭懷卡托大學的Ian H.Witten和Eibe Frank。經過12年的發(fā)展歷程,Weka是現今最完備的數據挖掘工具之一,而且被公認為是數據挖掘開源項目中最著名的一個,每月下載次數已超過萬次。
和其他數據挖掘工具的艱深復雜不同,Weka使數據挖掘輕松易行,無需編程也能輕松實現:它提供了統(tǒng)一的用戶界面,可在任何數據集上應用各種預處理和數據挖掘算法,同時還提供了數據可視化工具。介紹Weka的使用方法。
運行Weka軟件,有四種不同的界面供您選擇:Simple CLI、Explorer、Experimenter、KnowledgeFlow。
(1)Simple CLI:能通過鍵入文本命令的方式來實現其他三個用戶界面所提供的所有功能。
(2)Explorer:是普通用戶最常用的一個界面。用戶可以從ARFF文件(Weka使用的一種文本文件格式)、網頁或數據庫中讀取數據集。打開數據文件后,可以選擇算法對數據進行預處理。這時窗體上給出了這個數據集的一些基本特征,如含有多少屬性,各屬性的一些簡單統(tǒng)計量,右下方還給出一些可視化效果圖。這些都是比較直觀的分析,如果想發(fā)現隱藏在數據集背后的關系,還需要選擇Weka提供的各種分類、聚類或關聯規(guī)則的算法。所有設置完成后,點擊Start按鈕,就可以安心地等待weka帶來最終的結果。哪些結果是真正有用的還要靠經驗來判斷。
(3)Experimenter:這個界面可以同時使用多個算法對一組(或多組)數據進行分析,對各種算法分析的結果進行比較并從中選出最佳,還可以使用Experimenter把一項任務分割成多個子項,每個子項可以在單獨的計算機上執(zhí)行,從而大大加快了分析進程。
(4)Knowledge Flow:Explore的不足在于,當用戶打開一個數據集時,所有數據將全部被讀入到主存當中,隨著任務規(guī)模的增大,普通配置的計算機很難滿足要求。Knowledge Flow提供了一個用于處理大型數據集的遞增算法,專門處理這一問題??梢栽贙nowledge Flow界面的工具條中拖動任意部件(代表數據源、預處理工具、數據挖掘算法、評估手段或可視化模塊)放置在畫布中,這些部件組合在一起形成一個數據流,當您選擇有遞增學習功能的過濾器和數據挖掘算法后,大型數據集就可以被分批讀取和處理。
2結束語
由于Weka的開源、易操作等優(yōu)點,可供各類人群學習、使用。如果是一位數據挖掘算法的研究者,可以把自己的算法放在這個平臺上,然后從海量數據中發(fā)掘其背后隱藏的種種關系。如果是數據挖掘的初學者,這是最好的學習平臺,它不但簡單易學,還提供了八個數據挖掘、統(tǒng)計學上的經典案例供您參考;如果在工作中有大量的數據需要分析,Weka也許能幫您發(fā)現更大的商機。
注:Weka的最新版本是3.5:weka-3-5-3jre.exe(30.7M,帶ire)和weka-3-5-3.exe(12.5M);
應用平臺:Windows、Linux和Macintosh操作系統(tǒng);
下載地址:http://www.cs.waikato.ac.nz/ml/weka。