文/陳珊
隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,商業(yè)、經(jīng)濟(jì)、及其他各個(gè)領(lǐng)域都進(jìn)入互聯(lián)網(wǎng)+模式,電子商務(wù)、Ο2Ο、物流配送,各種利用大數(shù)據(jù)進(jìn)行發(fā)展的領(lǐng)域正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務(wù),創(chuàng)新運(yùn)營模式?;ヂ?lián)網(wǎng)公司日常運(yùn)用生成和累積的用戶數(shù)據(jù)如此龐大,已不能用G或T來衡量,大數(shù)據(jù)時(shí)代已到來。
爆炸式增長的數(shù)據(jù)為大家?guī)肀憬莸耐瑫r(shí)也帶來了很多隱患。數(shù)據(jù)量單位已從GB、TB級(jí)別躍升到PB、EB乃至ZB級(jí)別。據(jù)國際數(shù)據(jù)公司研究結(jié)果表明,2008、2010、2012年全球生產(chǎn)的數(shù)據(jù)量分別為0.49ZB、0.8ZB、200PB,預(yù)計(jì)到2020年,將達(dá)到今天的44倍,豪不夸張的講,數(shù)據(jù)已將人們淹沒,如何有效的分類過濾數(shù)據(jù),選擇和發(fā)現(xiàn)有趣的數(shù)據(jù)知識(shí)是一個(gè)值得思考的問題,也是迫切需要解決的問題。
數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的知識(shí)或模式的過程。數(shù)據(jù)挖掘最大的作用是分類和預(yù)測(cè)。分類,可將數(shù)據(jù)按要求分為有用和無用的知識(shí)可用于做決策、專家系統(tǒng)分析、醫(yī)療智能診斷、模式識(shí)別、人臉識(shí)別、智能語音等多個(gè)領(lǐng)域。預(yù)測(cè),可以根據(jù)以往產(chǎn)生的數(shù)據(jù)訓(xùn)練擬合模型,預(yù)測(cè)未來的趨勢(shì),可用于商業(yè)預(yù)測(cè)等領(lǐng)域。用數(shù)據(jù)挖掘的方法可以幫助人們更好的管理現(xiàn)有的數(shù)據(jù),從現(xiàn)有的大數(shù)據(jù)中挖掘超乎想象的知識(shí),也有學(xué)者稱之為知識(shí)發(fā)現(xiàn)。知識(shí)發(fā)現(xiàn)的過程包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示等七個(gè)步驟。
在此背景下,本文主要研究數(shù)據(jù)挖掘經(jīng)典算法,即知識(shí)發(fā)現(xiàn)的第五個(gè)步驟。根據(jù)數(shù)據(jù)挖掘的作用從關(guān)聯(lián)分析(頻繁模式、關(guān)聯(lián)和相關(guān))、分類和預(yù)測(cè)兩方面研究其經(jīng)典方法應(yīng)用及未來趨勢(shì)。
頻繁模式旨在發(fā)現(xiàn)數(shù)據(jù)集中有趣的關(guān)聯(lián)和相關(guān)。頻繁模式是在數(shù)據(jù)集中頻繁出現(xiàn)的項(xiàng)集、子序列或子結(jié)構(gòu)。其中每個(gè)獨(dú)立的數(shù)據(jù)稱為數(shù)據(jù)項(xiàng),某一數(shù)據(jù)項(xiàng)頻繁與另一數(shù)據(jù)項(xiàng)關(guān)聯(lián)出現(xiàn),且有先后順序,稱這兩個(gè)數(shù)據(jù)之間的關(guān)系稱為模式。若此模式在此數(shù)據(jù)集中頻繁出現(xiàn),則稱此模式為頻繁模式。挖掘頻繁模式、關(guān)聯(lián)和相關(guān)的過程稱為關(guān)聯(lián)分析。
關(guān)聯(lián)分析的經(jīng)典算法是Apriori算法,Apriori算法的算法步驟由連接步和剪枝步。連接步通過將數(shù)據(jù)與自身連接產(chǎn)生候選k項(xiàng)集。剪枝步根據(jù)提前設(shè)置好的支持度support(A?B)=P(A∪B)剪掉低于閾值的項(xiàng)組成頻繁項(xiàng)集。這兩步順序循環(huán)操作,直到發(fā)現(xiàn)最大頻繁項(xiàng)集為止。然后,由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則,再根據(jù)提前設(shè)置好的置信度confidence ( A?B ) = P(B | A)剪掉低于閾值的規(guī)則,最終產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)分析的一個(gè)經(jīng)典例子是購物籃分析。該過程是將顧客放入購物籃的商品信息作為數(shù)據(jù)集,分析不同商品之間的關(guān)聯(lián)和相關(guān),分析顧客的購物習(xí)慣。例如,20世紀(jì)90年代,美國沃爾瑪超市管理人員在分析銷售數(shù)據(jù)時(shí),發(fā)現(xiàn)“啤酒”與“尿布”經(jīng)常出現(xiàn)在同一個(gè)購物籃中,且大多購物籃主人是年輕的父親。究其原因,在美國有嬰兒的家庭中,一般母親在家中照看嬰兒,父親去超市購買家庭所需產(chǎn)品,通常在買尿布時(shí)往往會(huì)為自己購買啤酒?!捌【?尿布”模式是一頻繁模式,超市的商品可根據(jù)此模式將模式兩邊的商品項(xiàng)目就近擺放,可提升商品銷售收入。
關(guān)聯(lián)分析適用于發(fā)現(xiàn)數(shù)據(jù)項(xiàng)中的相互關(guān)系和模式,可用于廣告精準(zhǔn)投放,如淘寶、京東、微博等平臺(tái)可根據(jù)用戶的瀏覽與商品購買記錄,分析用戶的喜好,為用戶推薦適合用戶需求的廣告產(chǎn)品。關(guān)聯(lián)分析可幫助商家制定響應(yīng)的交叉銷售、捆綁式銷售等營銷策略,以及貨架安排,倉儲(chǔ)存貨配置等。隨著該技術(shù)的不斷成熟和發(fā)展,也可擴(kuò)展應(yīng)用于網(wǎng)站路徑優(yōu)化、網(wǎng)絡(luò)入侵檢測(cè)、交通事故模式分析、設(shè)備故障檢測(cè)等領(lǐng)域。
圖1:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
分類是根據(jù)大數(shù)據(jù)構(gòu)造一個(gè)模型或分類器來預(yù)測(cè)類屬性標(biāo)號(hào)。預(yù)測(cè)是數(shù)據(jù)值的預(yù)測(cè),即根據(jù)大數(shù)據(jù)構(gòu)造連續(xù)值函數(shù)模型來預(yù)測(cè)數(shù)值。
數(shù)據(jù)分類第一步是選擇合適的算法分析或從訓(xùn)練集中“學(xué)習(xí)”來構(gòu)造分類器。訓(xùn)練集是由數(shù)據(jù)庫元組和相關(guān)聯(lián)的類標(biāo)號(hào)組成,其中類標(biāo)號(hào)屬性是離散值和無序值。此過程可看作一個(gè)映射或函數(shù)y=f(X),X是給定的數(shù)據(jù)庫元組,y是類標(biāo)號(hào)。數(shù)據(jù)分類的第二步是使用第一步構(gòu)造的分類器模型進(jìn)行分類。在分類之前,需要評(píng)估分類器的準(zhǔn)確率,使用獨(dú)立于訓(xùn)練集的檢驗(yàn)元組和相關(guān)類標(biāo)號(hào)組成檢驗(yàn)集,最后使用準(zhǔn)確率高的分類器對(duì)新數(shù)據(jù)進(jìn)行分類。
數(shù)據(jù)預(yù)測(cè)與數(shù)據(jù)分類的區(qū)別是,預(yù)測(cè)的是數(shù)據(jù)值而不是類標(biāo)簽,所以其訓(xùn)練集是無類標(biāo)簽的。構(gòu)造連續(xù)值函數(shù)模型,是在某一特定環(huán)境下,構(gòu)造擬合訓(xùn)練集數(shù)據(jù)的擬合映射函數(shù)。其他與數(shù)據(jù)分類相同。
在分類時(shí),以訓(xùn)練集有無標(biāo)簽劃分,可將分類和預(yù)測(cè)方法分成監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三種類。監(jiān)督學(xué)習(xí)主要算法有決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等;無監(jiān)督學(xué)習(xí)主要算法有聚類等。
決策樹是一種類似于流程圖的樹形結(jié)構(gòu),每個(gè)非樹葉節(jié)點(diǎn)的內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分支表示一個(gè)輸出,根節(jié)點(diǎn)存放一個(gè)類標(biāo)簽。決策樹算法中經(jīng)典算法C4.5算法是其核心算法是ΙD3算法的改進(jìn),繼承了ΙD3算法的優(yōu)點(diǎn)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;在樹構(gòu)造過程中進(jìn)行剪枝能夠完成對(duì)連續(xù)屬性的離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
貝葉斯是用概率論和決策論的知識(shí),用先驗(yàn)概率P(H)和后驗(yàn)概率P(H/X))來進(jìn)行分類。
支持向量機(jī)是一種非線性的映射,將原訓(xùn)練數(shù)據(jù)映射到較高的維,在新的維上搜索線性最佳分離超平面。
聚類分析是將物理或者抽象的數(shù)據(jù)對(duì)象的集合分成相似的類或簇的過程。通常證明兩數(shù)據(jù)相似的條件是距離,此方法的訓(xùn)練集無分類標(biāo)簽,屬于無監(jiān)督分類。k-means algorithm算法是一個(gè)聚類算法,其核心距離計(jì)算為
E=i=1∑kp∈Ci∑dist(p,ci)。
神經(jīng)網(wǎng)絡(luò)是一種模擬人神經(jīng)元結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu)。經(jīng)典的神經(jīng)網(wǎng)絡(luò)包含三層,輸入層、隱藏層和輸出層。沒兩層之間的神經(jīng)元連接線上有一個(gè)權(quán)值,在學(xué)習(xí)階段,通過調(diào)整這些權(quán)重,構(gòu)造準(zhǔn)確率較高的分類器。如圖1所示,當(dāng)隱藏層層數(shù)為0時(shí),此網(wǎng)絡(luò)叫做單層神經(jīng)網(wǎng)絡(luò),也成為感知器,只有輸入層和輸出層,其權(quán)值可通過訓(xùn)練得到。
當(dāng)隱藏層為多層時(shí),叫多層神經(jīng)網(wǎng)絡(luò),也叫做深度學(xué)習(xí)。2006年,Hinton在《Science》和相關(guān)期刊上發(fā)表了論文,首次提出了“深度信念網(wǎng)絡(luò)”的概念。此方法減少了神經(jīng)網(wǎng)絡(luò)訓(xùn)練的實(shí)踐可以讓神經(jīng)網(wǎng)絡(luò)找到最優(yōu)解的權(quán)值,再用“微調(diào)”來進(jìn)行網(wǎng)絡(luò)的優(yōu)化。深度學(xué)習(xí)在語音識(shí)別、圖像識(shí)別等領(lǐng)域發(fā)展迅猛。
深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))比普通的神經(jīng)網(wǎng)絡(luò)隱藏層增加了很多,有更強(qiáng)的函數(shù)模擬能力,能夠更準(zhǔn)確深入的表示特征,更加的智能。深度學(xué)習(xí)已在計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理、機(jī)器翻譯等多個(gè)領(lǐng)域有很好的應(yīng)用及效果。
數(shù)據(jù)挖掘已在金融、醫(yī)療、零售電商、電信、社交網(wǎng)絡(luò)分析、交通領(lǐng)域等多個(gè)領(lǐng)域廣泛應(yīng)用,未來將滲透到各行各業(yè)前景廣闊。數(shù)據(jù)挖掘是一門多學(xué)科交叉學(xué)科,是人工智能的基礎(chǔ),人工智能是未來的研究趨勢(shì),數(shù)據(jù)挖掘在保證提高分類器準(zhǔn)確率的基礎(chǔ)上,如何使已應(yīng)用數(shù)據(jù)挖掘的產(chǎn)品類人腦學(xué)習(xí)、思考、創(chuàng)造、更智能是未來的發(fā)展方向。