張 蕾,崔志坤,李井泉,白 濤
(國(guó)網(wǎng)河北省電力公司信息通信分公司,河北 石家莊 050000)
改進(jìn)K-means模型在電力系統(tǒng)用戶行為分析中的應(yīng)用
張 蕾,崔志坤,李井泉,白 濤
(國(guó)網(wǎng)河北省電力公司信息通信分公司,河北 石家莊 050000)
針對(duì)電力信息系統(tǒng)用戶行為分析的問(wèn)題,提出了一種基于改進(jìn)K-means聚類模型的電力信息系統(tǒng)用戶行為分析方法。該方法把基于單詞向量特征的改進(jìn)K-means聚類模型應(yīng)用于電力信息系統(tǒng)用戶行為分析,解決了傳統(tǒng)K-means算法通過(guò)隨機(jī)選出聚類中心質(zhì)點(diǎn)的方式得到的聚類結(jié)果范圍波動(dòng)較大、迭代次數(shù)較多、耗費(fèi)時(shí)間較長(zhǎng)以及穩(wěn)定性較差的問(wèn)題,優(yōu)化后的算法聚類內(nèi)距整體縮小,迭代次數(shù)也大幅度減少,提升了主動(dòng)服務(wù)信息推送的精準(zhǔn)性。
電力信息系統(tǒng); 用戶行為;單詞向量;改進(jìn)K-means聚類模型
隨著智能電網(wǎng)建設(shè)的全面開(kāi)展,大量信息系統(tǒng)在電力公司全面建成運(yùn)行,各項(xiàng)業(yè)務(wù)數(shù)據(jù)量也呈爆炸式增長(zhǎng)。用戶大規(guī)模的訪問(wèn)也給系統(tǒng)穩(wěn)定運(yùn)行、合理調(diào)配資源和運(yùn)維服務(wù)保障帶來(lái)了巨大的壓力[1]。為全面掌握用戶信息系統(tǒng)使用情況,梳理各崗位、地市信息系統(tǒng)使用頻率,確定各業(yè)務(wù)量爆發(fā)時(shí)間以及用戶集中訪問(wèn)時(shí)間,從而針對(duì)性地開(kāi)展系統(tǒng)運(yùn)維服務(wù),合理規(guī)劃基礎(chǔ)設(shè)施及網(wǎng)絡(luò)安全保障,就需要開(kāi)展用戶行為分析模型的研究,根據(jù)用戶集中訪問(wèn)時(shí)系統(tǒng)和資源的壓力,找出瓶頸,合理進(jìn)行基礎(chǔ)建設(shè)和規(guī)劃[2]。通過(guò)對(duì)用戶行為分析,從“用戶”和“系統(tǒng)”兩個(gè)維度分析系統(tǒng)相關(guān)模塊和流程等使用情況,反映企業(yè)運(yùn)轉(zhuǎn)存在的問(wèn)題,柔性支撐企業(yè)生產(chǎn)管理活動(dòng)[3]。
對(duì)于信息系統(tǒng)用戶行為分析通常利用K-means聚類模型[4],但是傳統(tǒng)K-means算法是通過(guò)隨機(jī)選出聚類中心質(zhì)點(diǎn)的方式得到的聚類結(jié)果,該模型具有范圍波動(dòng)較大、迭代次數(shù)較多、耗費(fèi)時(shí)間較長(zhǎng)以及穩(wěn)定性較差的缺點(diǎn),本文提出一種基于單詞向量特征的改進(jìn)K-means聚類模型的電力信息系統(tǒng)用戶行為分析方法,該方法使得優(yōu)化后算法聚類內(nèi)距整體縮小,減少了迭代次數(shù),能夠提升主動(dòng)服務(wù)信息推送的精準(zhǔn)性。
用戶行為分析模型由三大模塊組成:用戶行為獲取模塊、基于Hadoop搭建的大數(shù)據(jù)平臺(tái)模塊和決策支持平臺(tái)模塊,如圖1所示[5]。
用戶行為數(shù)據(jù)獲取主要有2種形式:① 日志記錄較完善,通過(guò)日志解析,存入中間臨時(shí)表;② 對(duì)于日志不夠完善系統(tǒng),采用由數(shù)據(jù)包捕獲及篩選服務(wù)實(shí)時(shí)監(jiān)聽(tīng)入庫(kù)形式,然后將處理好的結(jié)果存入中間表[6]。
圖1 用戶分析模型結(jié)構(gòu)
大數(shù)據(jù)平臺(tái)主要將中間表數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換、存儲(chǔ)和分析計(jì)算。平臺(tái)整體采用Hadoop的分布式架構(gòu),ETL工具采用Ketlle+Sqoop完成,數(shù)據(jù)存儲(chǔ)集合采用NoSql(Hbase)、Hive及分布式MySQL共同完成,離線計(jì)算采用MapReduce與Pig來(lái)實(shí)現(xiàn),數(shù)據(jù)分析模型借助開(kāi)源類庫(kù)Mahot進(jìn)行構(gòu)建,用于分析展現(xiàn)結(jié)果,存入PostgreSQL中。
決策支持部分借助開(kāi)源的大數(shù)據(jù)分析展現(xiàn)組件(echarts)實(shí)現(xiàn),對(duì)挖掘結(jié)果進(jìn)行描述性分析、推斷性分析等,以及實(shí)現(xiàn)的智能的多種預(yù)測(cè),同時(shí)實(shí)現(xiàn)基于用戶行為分析的業(yè)務(wù)系統(tǒng)服務(wù)信息的精準(zhǔn)投送。
對(duì)于用戶行為分析模型實(shí)現(xiàn)的關(guān)鍵技術(shù)主要包括2部分:① 信息系統(tǒng)功能訪問(wèn)記錄的采集;② 數(shù)據(jù)處理,本文主要研究數(shù)據(jù)處理方面[7]的內(nèi)容。
2.1 傳統(tǒng)K-means算法
K-means是一種基于距離的經(jīng)典聚類算法,以距離作為判定相似性指標(biāo),2個(gè)對(duì)象的間距越近,它們的相似度就越大[8]。K-means算法認(rèn)為簇是由相近的對(duì)象組成的對(duì)象集,所有該算法的最終目標(biāo)是將數(shù)據(jù)劃分為幾個(gè)緊湊且獨(dú)立的簇。
K-means的算法如下[9]:① 隨機(jī)在數(shù)據(jù)中選取K個(gè)質(zhì)心點(diǎn);② 對(duì)數(shù)據(jù)中的所有點(diǎn)求到這K個(gè)質(zhì)心點(diǎn)的距離,距離在閥值之下的,移動(dòng)到質(zhì)心點(diǎn);③ 移動(dòng)種子點(diǎn)到屬于它的類群的中心;④ 重復(fù)第②步和第③步,直到質(zhì)心點(diǎn)沒(méi)有移動(dòng)。
在K-means算法的核心數(shù)學(xué)公式為:
(1)
式中,J(c,u)表示各樣本點(diǎn)到質(zhì)心的距離平方和。算法的目標(biāo)是要將J(c,u)調(diào)整到最小,如果當(dāng)前J并沒(méi)有達(dá)到最小值,首先固定所有類的質(zhì)心uc(i),然后調(diào)整每個(gè)樣本c(i)的所屬類別來(lái)減小距離平方和。同樣,固定樣本所屬類別,調(diào)整每個(gè)類的質(zhì)心點(diǎn)也可以達(dá)到減小距離平方和的目的。
K-means作為一種簡(jiǎn)單的迭代型聚類算法,具有算法簡(jiǎn)單高效、便于處理大型數(shù)據(jù)集等優(yōu)點(diǎn),已經(jīng)被廣泛應(yīng)用在諸多領(lǐng)域。但是,傳統(tǒng)的K-means算法還存在一些缺點(diǎn),如在聚類運(yùn)算時(shí),初始質(zhì)心點(diǎn)為隨機(jī)選取,這樣聚類結(jié)果具有隨機(jī)性和不確定性。而且對(duì)于用戶行為分析來(lái)說(shuō),將用戶行為聚類劃分,還得需要對(duì)文本內(nèi)容做處理,因此,需要提出一種適合本用戶行為分析的K-means算法。
2.2 基于單詞向量特征的K-means聚類模型
結(jié)合用戶行為分析數(shù)據(jù)類型,將單詞向量特征這一概念引入了算法之中,提出一種基于單詞向量特征的K-means聚類模型[10]。相對(duì)于傳統(tǒng)的K-means聚類算法,該算法以單詞向量作為聚類劃分的對(duì)象,通過(guò)單詞向量的特征對(duì)比來(lái)確定與質(zhì)心點(diǎn)的相似度,并且質(zhì)心個(gè)數(shù)和質(zhì)心點(diǎn)通過(guò)具體業(yè)務(wù)來(lái)確定,使得該算法的收斂時(shí)間更快速、收斂效果更穩(wěn)定。
該算法的過(guò)程與傳統(tǒng)算法相似,其計(jì)算公式如下:
① 系統(tǒng)信息文本相似度是本文聚類算法的關(guān)鍵依據(jù),采用通過(guò)余弦函數(shù)和向量空間算法來(lái)計(jì)算:
單詞加權(quán)值公式:
(2)
式中,TFmn為特征項(xiàng)Tn在用戶關(guān)鍵詞Cn中出現(xiàn)次數(shù);IDFmn為特征項(xiàng)Tn關(guān)鍵詞的倒數(shù)。2個(gè)詞之間的相似度可以用其對(duì)應(yīng)的向量之間的余弦之間的夾角余弦來(lái)表示,即
(3)
② 將得到的文本向量值帶入歐式距離計(jì)算,這樣可直觀表達(dá)文檔中句子間語(yǔ)義間關(guān)聯(lián)性。
(4)
式中,VSm和VSn為句子的向量表達(dá)式;J為文檔集合的特征數(shù);WSmk和WSnk為句子的在K維的權(quán)值。通過(guò)上述公式便可獲得向量距離矩陣。
根據(jù)業(yè)務(wù)要求,選取k個(gè)聚類質(zhì)心點(diǎn),該質(zhì)心點(diǎn)便是業(yè)務(wù)關(guān)鍵詞特征向量。
調(diào)整質(zhì)心點(diǎn)的計(jì)算公式:
(5)
重復(fù)計(jì)算歸類直到收斂。
測(cè)試數(shù)據(jù)主要從系統(tǒng)的ERP日志、用戶操作系統(tǒng)行為記錄和工作流轉(zhuǎn)情況這3個(gè)典型數(shù)據(jù)來(lái)源抽取,分別為ERP、actionLog和workflow。3個(gè)數(shù)據(jù)集的參數(shù)如表1所示。
表1 測(cè)試數(shù)據(jù)集信息
分別將這3個(gè)數(shù)據(jù)集用于測(cè)試原始K-means聚類算法和基于單詞向量特征K-means算法,二者參數(shù)設(shè)置的最大迭代次數(shù)均為140 000,進(jìn)行測(cè)試60次,分析其平均收斂次數(shù)、平均聚類速度和行為分析準(zhǔn)確度,其結(jié)果如表2所示。
表2 數(shù)據(jù)集性能分析
由表2可以得出以下結(jié)論:
① 基于單詞向量特征K-means算法迭代次數(shù)相對(duì)于傳統(tǒng)算法要少好幾倍,減少了算法的迭代次數(shù),加快了聚類速度;
② 基于單詞向量特征K-means算法完成聚類所需時(shí)間僅為零點(diǎn)幾秒,在數(shù)據(jù)量增大時(shí),耗費(fèi)時(shí)間增幅并不是很大,而傳統(tǒng)的算法則需要幾十秒,并且隨著數(shù)據(jù)量的增大,耗費(fèi)時(shí)間增漲非???;
③ 基于單詞向量特征K-means算法在對(duì)用戶行為進(jìn)行聚類時(shí)準(zhǔn)確度均保持在80%之上,準(zhǔn)確度相當(dāng)高,而傳統(tǒng)的算法分析準(zhǔn)確度卻在40%~60%之間?;趩卧~向量特征K-means算法在快速聚類的前提下很好地保證了聚類質(zhì)量。
通過(guò)基于單詞向量特征K-means算法對(duì)ERP、actionLog和workflow的聚類分析,能很好地統(tǒng)計(jì)出每個(gè)用戶對(duì)各系統(tǒng)的使用情況、其所在崗位的工作重點(diǎn)和問(wèn)題咨詢方向等一系列信息,為以后的精準(zhǔn)消息推送服務(wù)做準(zhǔn)備。
本文提出了一種基于單詞向量特征的K-means聚類模型,并在電力信息系統(tǒng)用戶行為分析當(dāng)中進(jìn)行了應(yīng)用。解決了傳統(tǒng)K-means算法通過(guò)隨機(jī)選出聚類中心質(zhì)點(diǎn)的方式得到的聚類結(jié)果范圍波動(dòng)比較大、迭代次數(shù)也多、耗費(fèi)時(shí)間較長(zhǎng)和穩(wěn)定性差的問(wèn)題,優(yōu)化后的算法使聚類內(nèi)距整體縮小,迭代次數(shù)也少很多。依據(jù)內(nèi)距越小、迭代次數(shù)越少、聚類質(zhì)量越好這一聚類性質(zhì),可以得出改進(jìn)K-means算法提高了聚類結(jié)果的穩(wěn)定性和有效性,準(zhǔn)確地對(duì)用戶行為特征進(jìn)行歸類,提升了主動(dòng)服務(wù)信息推送的精準(zhǔn)性。
[1] 周國(guó)亮,宋亞奇,王桂蘭,等.狀態(tài)監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)及聚類劃分研究[J].電工技術(shù)學(xué)報(bào),2013,28(2):337-334.
[2] 華志潔.基于Hadoop云計(jì)算平臺(tái)仿百度智能輸入提示算法的研究與實(shí)現(xiàn)[J].天津科技,2015,42(12):20-23.
[3] 劉爾凱,崔振東.基于HADOOP技術(shù)實(shí)現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J].金融電子化,2014(1):65-66.
[4] LI Hai-yang,HE Hong-zhou,WEN Yong-ge.Dynamic Particle Swarm Optimization and K-means Clustering Algorithm for Image Segmentation[J].Optik-International Journal for Light and Electron Optics,2015,126(24):19-22.
[5] 梁 偉.基于用戶用電行為正向分析負(fù)荷預(yù)測(cè)方法的研究[D].廣州:華南理工大學(xué),2015.
[6] 顧 強(qiáng).基于消除噪聲的聚類算法的手機(jī)用戶行為分析[J].移動(dòng)通信,2014,38(7):36-39.
[7] CEPEDA-GOMEZ R,OLGAC N.Stability of Formation Control Using a Consensus Protocol under Directed Communications with Two Time Delays and Delay Scheduling[J].International Journal of Systems Science,2016,47(2):433-449.
[8] PAUL H,AMANDEEP C,ANDREW C,et al.CL-dash:Rapid Configuration and Deployment of Hadoop Clusters for Bioinformatics Research in the Cloud[J].Bioinformatics,2016,32(2):301-303.
[9] 楊天劍,張 靜.基于聚類算法的通信基站能耗標(biāo)桿建立與分析[J].移動(dòng)通信,2015,39(18):92-96.
[10] 安建成,史德增.一種改進(jìn)的K-means算法[J].電腦開(kāi)發(fā)與應(yīng)用,2011,24(4):39-42.
張 蕾 女,(1964—),碩士,高級(jí)工程師。主要研究方向:電子技術(shù)。
崔志坤 男,(1982—),碩士,工程師。主要研究方向:計(jì)算機(jī)技術(shù)及應(yīng)用。
Application of Modified K-means Model in User Behavior Analysis of Electric Power System
ZHANG Lei,CUI Zhi-kun,LI Jing-quan,BAI Tao
(StateGridHebeiInformation&TelecommunicationBranch,ShijiazhuangHebei050000,China)
Aiming at the problem of user behavior analysis of electric power information system,a new method based on the modified K-means clustering model is proposed.It applies the modified K-means clustering model based on word vector feature to the user behavior analysis of electric power information system,and solves the problems existing in the traditional K-means algorithm,which gives the clustering results by means of randomly selected clustering center,resulting in large fluctuation range,more iteration times,long time consuming and poor stability problems.The optimized algorithm makes the intra-cluster distance shrink,also greatly reduces the iteration times,and improves the precision of active information push service.
electric power information system;user behavior;word vector;modified K-means clustering model
10.3969/j.issn.1003-3106.2017.03.03
張 蕾,崔志坤,李井泉,等.改進(jìn)K-means模型在電力系統(tǒng)用戶行為分析中的應(yīng)用[J].無(wú)線電工程,2017,47(3):12-14,38.
2016-12-28
?
A
1003-3106(2017)03-0012-03