何慶, 易娜, 汪新勇, 江立斌
(中國(guó)移動(dòng)通信集團(tuán)廣東公司,廣州 510623)
隨著信息技術(shù)應(yīng)用領(lǐng)域的不斷拓展,人們掌握的數(shù)據(jù)日益增加,如何存儲(chǔ)和分析海量數(shù)據(jù),成為學(xué)術(shù)研究的關(guān)鍵課題。海量數(shù)據(jù)中隱患帶有巨大價(jià)值的共識(shí),但由于大數(shù)據(jù)冗余的問(wèn)題,其價(jià)值密度比較低,很難準(zhǔn)確發(fā)現(xiàn)其中有價(jià)值的信息[1、2]。聚類分析算法是一種在無(wú)人監(jiān)督情況下,進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法,是進(jìn)行大數(shù)據(jù)處理的重要方式。然而,聚類算法需要制定聚類個(gè)數(shù),以串行方式運(yùn)行,不適合海量數(shù)據(jù)處理。因此,本文選擇最大期望聚類算法,其通過(guò)高斯混合模型為用戶選擇合理的聚類個(gè)數(shù), 無(wú)需憑借經(jīng)驗(yàn)指定。
聚類算法影響因素較多,如,判別標(biāo)準(zhǔn)、算法實(shí)現(xiàn)。在大數(shù)據(jù)處理中,聚類算法要滿足以下要求。1.可伸縮性;2.多樣性;3.發(fā)現(xiàn)任意形式簇;4.聚類高維數(shù)據(jù)處理。其中,數(shù)據(jù)集包括大量屬性,例如,文檔聚類中的關(guān)鍵詞。聚類算法適合于低維度數(shù)據(jù)分析,不適合2-3維數(shù)據(jù)分析[3、4]。最大期望聚類算法是基于模型的聚類算法[5、6],假設(shè)樣本數(shù)據(jù)分布符合高斯混合模型,算法目的就是確定高斯部件中的參數(shù),對(duì)給定數(shù)據(jù)進(jìn)行充分?jǐn)M合,得出模糊聚類。每個(gè)樣本以不同概率符合每個(gè)高斯分析,概率值由以上各個(gè)參數(shù)計(jì)算值求得。最大期望聚類算法的基礎(chǔ)是混合高斯模型,該模型被定義為N個(gè)高斯密度函數(shù)的線性組合,如式(1)。
(1)
(2)
最大似然估計(jì)是參數(shù)估計(jì)的主要方法,其通過(guò)似然函數(shù)獲得最大值的參數(shù)估計(jì)。高斯混合密度函數(shù)中所有參數(shù)標(biāo)記為θ,那么似然函數(shù)為式(3)[7、8]:
(3)
其中θ為所參數(shù)集合,P(x|θ)為最大似然函數(shù),N為自然數(shù)。
為了讓最大期望聚類算法的適用范圍更廣,需要對(duì)其進(jìn)行優(yōu)化。首先,對(duì)公式3取對(duì)數(shù),求出其最大值,計(jì)算公式如式(4)。
(4)
由于有和的對(duì)數(shù),求導(dǎo)結(jié)果比較復(fù)雜,所以不能采用一般的計(jì)算方法,即求偏導(dǎo)并令導(dǎo)數(shù)為零的計(jì)算方法。最大期望聚類算法可以優(yōu)化為某混合高斯分布,其共有K個(gè)分布,而且對(duì)應(yīng)每一個(gè)觀察到的X。如果同時(shí)知道其屬于K中哪個(gè)分布[9、10],就可以求出其中的參數(shù)。然而,由于不知道每個(gè)X屬于哪個(gè)分布,就是說(shuō)Z是觀察不到的數(shù)值,則Z是隱患變量,如式(5)。
(5)
由于Z是觀察不到的數(shù)值,所以最大期望聚類算法需要對(duì)Z的分布進(jìn)行假設(shè)。依據(jù)式(5)進(jìn)行參數(shù)估計(jì),求出式(5)的最大期望值,其計(jì)算式,如式(6)。
(6)
通過(guò)上述計(jì)算以后,式(6)進(jìn)行拉格朗日乘法計(jì)算,可得到式(7)。
(7)
其中,P(k|xi,θ(i-1))可以由以下式求得式(8)。
(8)
期望最大算法的整體流程是重復(fù)執(zhí)行以下2步驟,直至數(shù)據(jù)收斂:
(1)依據(jù)參數(shù)初始值,或上次迭代所得結(jié)果數(shù)值,進(jìn)行似然函數(shù)計(jì)算,如式(9)。
(9)
其中的條件分布P(Z|X,θold)的期望為式(10)。
Q(θ,θold)=Ez[logP(X,Z|θ)|X,θold]
(10)
(2)對(duì)似然函數(shù)進(jìn)行最大化處理,以此獲得新的參數(shù)值,用θnew對(duì)θold進(jìn)行更新,實(shí)現(xiàn)Q(θ,θold)最大化。
本文以Hadoop平臺(tái)為實(shí)驗(yàn)平臺(tái)進(jìn)行分析,該平臺(tái)屬于高效的云計(jì)算基礎(chǔ)平臺(tái),利用通用硬件構(gòu)建功能強(qiáng)大,運(yùn)行穩(wěn)定,操作簡(jiǎn)單的分布式集群計(jì)算系統(tǒng),完全滿足大數(shù)據(jù)分析的需要。Hadoop平臺(tái)自身的開(kāi)源性,使其付出相對(duì)低廉的成本[11-12],就可以輕松處理大規(guī)模的數(shù)據(jù)群。國(guó)內(nèi)利用Hadoop構(gòu)建底層大數(shù)據(jù)基礎(chǔ)框架平臺(tái)有百度、騰訊和阿里等互聯(lián)網(wǎng)公司,也有電信、移動(dòng)和聯(lián)通等傳統(tǒng)通訊企業(yè)。MapReduce是一種新的海量數(shù)據(jù)處理方式,通過(guò)抽象出高層次的數(shù)學(xué)模型,編寫(xiě)出能夠在成千上百臺(tái)計(jì)算機(jī)上運(yùn)行的程序,將聚類分析變得更加簡(jiǎn)單和準(zhǔn)確。MapReduce引擎的擴(kuò)展性趨于線性,如果數(shù)據(jù)處理量增加,只需要增加相應(yīng)的計(jì)算機(jī)數(shù)量即可,而其他參數(shù)和運(yùn)行時(shí)間不變。另外,MapReduce穩(wěn)定性非常高,雖然個(gè)別計(jì)算機(jī)出現(xiàn)故障,但是計(jì)算集群規(guī)模為數(shù)千Note,不影響整體運(yùn)行效率。對(duì)應(yīng)個(gè)別計(jì)算故障問(wèn)題,MapReduce進(jìn)行相應(yīng)完善,利用高斯混亂模型,將整體數(shù)據(jù)分析任務(wù),進(jìn)行聚類分解,妥善解決數(shù)據(jù)任務(wù)分析失敗的問(wèn)題,保證其不對(duì)所屬作用的正確執(zhí)行產(chǎn)生影響。下面就利用MapReduce處理方式中的最大期望聚類算方法,在Hadoop平臺(tái)中選擇樣本數(shù)據(jù)進(jìn)行相應(yīng)分析,以國(guó)家失業(yè)率(UR)和國(guó)內(nèi)人均總產(chǎn)值(GDP)間的關(guān)系為案例,進(jìn)行相應(yīng)數(shù)據(jù)說(shuō)明。其中,數(shù)據(jù)來(lái)源于Hadoop平臺(tái)中2016年世界主要國(guó)家失業(yè)率數(shù)據(jù)(單位:%)和國(guó)內(nèi)人均總產(chǎn)值數(shù)據(jù)(單位:美元)[13-14]。由于部分國(guó)家2016年數(shù)據(jù)丟失,所以選擇131個(gè)國(guó)家和地區(qū)數(shù)據(jù)進(jìn)行分析,如表1所示。
表1 2016年世界主要國(guó)家失業(yè)率數(shù)據(jù)和國(guó)內(nèi)人均總產(chǎn)值數(shù)據(jù)
由于利用數(shù)學(xué)原理進(jìn)行計(jì)算,其過(guò)程比較復(fù)雜,所以采用MapReduce數(shù)據(jù)分析方式中的R語(yǔ)言進(jìn)行數(shù)分析。首先,選擇最優(yōu)的聚類數(shù)目和一組要選擇的混合模型,對(duì)每一模型采用基于高斯混合模型的分層聚類,計(jì)算出似然函數(shù)的最大值,得出最優(yōu)高斯分布。以初始聚類結(jié)果作為最初數(shù)值,對(duì)每一模型和從2到131的多個(gè)類數(shù)進(jìn)行期望值最大化法進(jìn)行參數(shù)估計(jì),計(jì)算每一情況下的BIC(貝葉斯數(shù)值),并選擇BIC數(shù)值最大的模型,完成R語(yǔ)言計(jì)算中的模型選擇和數(shù)據(jù)聚類[15、16]。
依據(jù)R語(yǔ)言計(jì)算結(jié)果,得出BIC數(shù)值為-901.458 41,最優(yōu)類別數(shù)為3類,并對(duì)各類分別含有184,210,3個(gè)樣本,高斯混合概率密度分別為:0.412 142 17,0.521 352 82,0.098 451 24,可以在R語(yǔ)言中作出二維和三維的聚類概率密度圖,如圖1、圖2所示。
圖1 基于高斯混合模型的最大期望聚類二維概率密度圖
通過(guò)圖1可以大致看出各類別的主要分布區(qū)域,以及概率密度最為集中區(qū)域分別是人均國(guó)內(nèi)生產(chǎn)總值處于45 000美元和失業(yè)率處于6%以下,以及國(guó)內(nèi)人均生產(chǎn)總值處于15 000美元,失業(yè)率處于6%-7%之間的國(guó)家或者區(qū)域。由此可知,國(guó)內(nèi)人均生產(chǎn)總值越高,失業(yè)率就會(huì)相對(duì)較低,但是這一特征并不明顯,也會(huì)存在國(guó)內(nèi)人均生產(chǎn)總值較高,失業(yè)率隨之增加的現(xiàn)象[17]。
圖2 基于高斯混合模型的最大期望聚類三維概率密度圖
從圖2中的三維概率密度圖可知,失業(yè)率與國(guó)內(nèi)人均生產(chǎn)總值之間并無(wú)必然關(guān)系,所以圖2中顯示的結(jié)果:國(guó)內(nèi)人均生產(chǎn)總值越高,失業(yè)率就會(huì)相對(duì)較低,這一特征并不成立。
大數(shù)據(jù)的出現(xiàn)給教育、醫(yī)療和工業(yè)等行業(yè)帶來(lái)深入影響,其中的潛在價(jià)值非常巨大。大數(shù)據(jù)具有海量性、分散性[8],實(shí)時(shí)性和低價(jià)值密度性的特征,需要利用數(shù)學(xué)分析方法進(jìn)行數(shù)據(jù)挖掘,特征聚類,發(fā)現(xiàn)其中隱藏的價(jià)值。數(shù)據(jù)分析受到高斯混合模型的影響,可以對(duì)某一數(shù)據(jù)任務(wù)進(jìn)行分類表示,并成功地應(yīng)用到圖像處理、語(yǔ)音識(shí)別領(lǐng)域。然而,高斯混
合模型在大數(shù)據(jù)特征分析方面仍然存在很多科學(xué)問(wèn)題,所以本文圍繞大數(shù)據(jù)的本質(zhì),深入研究針對(duì)大數(shù)據(jù)分析的最大期望聚類算法。
本文首先介紹基于高斯混合模型的最大期望聚類算法的原理,對(duì)高斯混合模型進(jìn)行操作簡(jiǎn)化,然后選擇Hadoop平臺(tái)中的經(jīng)濟(jì)類數(shù)據(jù)作為研究對(duì)象,并利用MapReduce處理技術(shù)中的R語(yǔ)言進(jìn)行相應(yīng)分析。在R語(yǔ)言中利用高斯混合模型得出最大期望聚類算法的概率密度,并用二維、三維可視化化圖進(jìn)行表示,通過(guò)概率密度形象的表示,可以清楚地發(fā)現(xiàn)失業(yè)率與國(guó)內(nèi)人均生產(chǎn)總值的集中區(qū)域。在二維可視化圖中發(fā)現(xiàn)的“國(guó)內(nèi)人均生產(chǎn)總值越高,失業(yè)率就會(huì)相對(duì)較低”假設(shè),經(jīng)過(guò)三維可視化圖證明為不成立,說(shuō)明基于高斯混合模型的最大期望聚類算法可以在大數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值信息。本文將高斯混合模型應(yīng)用于大數(shù)據(jù)分析,具有一定的創(chuàng)新價(jià)值,而且MapReduce中的R語(yǔ)言在處理高斯混合模型的數(shù)據(jù)聚類分析中,具有非常好的作用。
參考文獻(xiàn)
[1] 魯偉明,杜晨陽(yáng),魏寶剛,等.基于Map Reduce的分布式近鄰傳播聚類算法[J].計(jì)算機(jī)研究與發(fā)展.2012,49(8):1762-1772.
[2] Bi-Ru Dai; I-Chang Lin. Efficient Map/Reduce-Based DBSCAN Algorithm with Optimized Data Partition [J].Cloud Computing, 2012,5(4):59-66
[3] 翟周偉.Hadoop核心技術(shù)[M]北京:機(jī)械工業(yè)出版社,2015,9(1):2-3.
[4] 黃宜華.深入理解大數(shù)據(jù):大數(shù)據(jù)處理與編程實(shí)踐[M]北京:機(jī)械工業(yè)出版社,2014,4(8):9-10.
[5] 孟小峰,慈樣.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,2(1):7.
[6] 陳麗敏,楊靜,張健沛.一種加速迭代的大數(shù)據(jù)集譜聚類方法[J].計(jì)算機(jī)科學(xué),2012,39(5):172-176.
[7] 陳思慧.基于M1P和改進(jìn)模糊K-Means算法的大數(shù)據(jù)聚類設(shè)計(jì)[J].計(jì)算機(jī)測(cè)量與控制,2014,22(4):1270-1275.
[8] 高霞,李瑞俊.EM算法在不完全數(shù)據(jù)參數(shù)估計(jì)中的應(yīng)用[J].集寧師范學(xué)院學(xué)報(bào),2015,2(3):8-11.
[9] 毛海斌,張瀟笑.一種解決不平衡情感分類的EM改進(jìn)算法[J].電子測(cè)試,2015,3(5):90.
[10] 浦慧忠.基于數(shù)據(jù)挖掘的一種聚類分析方法在PDM系統(tǒng)中的應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程,2016,4(11):7-10.
[11] 陳巖.電信運(yùn)營(yíng)商基于移動(dòng)互聯(lián)網(wǎng)門戶的精細(xì)化營(yíng)銷系統(tǒng)研究[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2017,4(2):8-11.
[12] 殷小紅,王君.流量精細(xì)化運(yùn)營(yíng)的網(wǎng)絡(luò)架構(gòu)方案[J].通信管理與技術(shù),2014,5(2):9-10
[13] 張卓筠,高功應(yīng),王磊.WLAN與LEPACN與EPC網(wǎng)絡(luò)融合架構(gòu)研究[J].移動(dòng)通信,2012,11(10):9-11.
[14] DHARMESTID,NUGROHOSS,et al. The antecedents of online customers at insfaction and customer loyalty. DELAROSAM,2012,8(9):8-11.
[15] 林濟(jì)鏗,劉露,張聞博,等.基于隨機(jī)模糊聚類的負(fù)荷建模與參數(shù)辨識(shí)[J].電力系統(tǒng)自動(dòng)化,2013,9(14):9-12.
[16] 張粒子,王茜,舒雋.基于聚類最優(yōu)乘子向量的發(fā)輸電系統(tǒng)可靠性評(píng)估[J].電力系統(tǒng)自動(dòng)化,2011,3(6):7-11.
[17] 王德青,劉曉葳,朱建平.基于自適應(yīng)迭代更新的函數(shù)型數(shù)據(jù)聚類方法研究[J]. 統(tǒng)計(jì)研究,2015,4(4):7-9.
[18] MengXiaofeng.Big data management:concepts,techniques andchallenges[J].Journal of Computer Research and Development,2013,50(1):146-169.