張國安 鐘紹輝
摘要:文章通過對用戶數(shù)據(jù)的分析,根據(jù)用戶的教育情況,用戶的收入情況,采用k均值算法對用戶進行聚類,將具有相同特征的用戶歸為同一類,為微博的個性化營銷和服務(wù)提供依據(jù)。
關(guān)鍵詞:K均值聚類;微博;用戶分類
中圖分類號:TP393文獻標(biāo)識碼:A文章編號:1009-3044(2012)26-6273-03
微博客是博客的一種變體,是一種允許用戶及時更新簡短文本并公開發(fā)布的博客形式,允許任何人閱讀或者只能由用戶選擇的群組閱讀。用戶可通過即時通訊工具、網(wǎng)頁等終端發(fā)布、更新博文。博客雖已成為一種有效的信息溝通與交流方式,但依然具有進入門檻,而微博客則將門檻降到最低[1]。微博的使用人群數(shù)量基數(shù)大,狀態(tài)信息更新頻繁、信息傳播迅速。并且微博平臺媒介用戶占有率相對集中,因此基于微博數(shù)據(jù)的分析研究成為了十分值得關(guān)注的研究方向。在廉捷[1]等人就微博數(shù)據(jù)的獲取提出了基于新浪微博API與基于頁面解析的新浪微博數(shù)據(jù)獲取方案。KANG Shulong[2]針對新浪微博研究了其群體結(jié)構(gòu)與度分布特征。目前,微博的應(yīng)用中,沒有根據(jù)用戶的需求,用戶的特征做相應(yīng)的推薦工作,比如根據(jù)用戶的受教育程度,用戶的所從事的工作,推薦相應(yīng)的用戶群體。本文根據(jù)新浪微博提供的API接口,獲得用戶的相關(guān)資料,采用k均值算法對用戶分類,為微博的智能的發(fā)展和微博得營銷提供有力的支持。
k均值算法的步驟如下:
初始化。輸入基因表達矩陣作為對象集X,輸入指定聚類類數(shù)N,并在X中隨機選取N個對象作為初始聚類中心。設(shè)定迭代中止條件,比如最大循環(huán)次數(shù)或者聚類中心收斂誤差容限。
進行迭代。根據(jù)相似度準(zhǔn)則將數(shù)據(jù)對象分配到最接近的聚類中心,從而形成一類。初始化隸屬度矩陣。
更新聚類中心。然后以每一類的平均向量作為新的聚類中心,重新分配數(shù)據(jù)對象。
反復(fù)執(zhí)行第二步和第三步直至滿足中止條件。
2.1數(shù)據(jù)采集與預(yù)處理
本文用戶數(shù)據(jù)的來源于新浪微博網(wǎng)站,該網(wǎng)站是國內(nèi)知名的微博社區(qū)。通過利用網(wǎng)絡(luò)爬蟲來實現(xiàn)數(shù)據(jù)的獲取。具體抓取和處理過程如下:
1)提取每位用戶基本的數(shù)據(jù)信息,包括用戶的受教育情況,用戶的年齡,用戶從事的行業(yè)情況。
2)提取表征用戶社區(qū)結(jié)構(gòu)屬性的數(shù)據(jù)資料,包括他關(guān)注的人數(shù)、關(guān)注他的人數(shù)、微博數(shù)、收藏數(shù)四項數(shù)據(jù)。3)為了在網(wǎng)絡(luò)分析時更加高效,對用戶名稱進行順序編碼。4)提取每位用戶的關(guān)注對象名單,共得到8257條數(shù)據(jù),以用戶為單位進行保存。將所有的非數(shù)值型數(shù)據(jù)采用數(shù)值型來表示,為對用戶進行聚類分析做好準(zhǔn)備。
2.2 K均值聚類法代碼及其對用戶分類的實現(xiàn)
本文通過對k-meam聚類算法的分析,將聚類算法首次應(yīng)用在微博中,實現(xiàn)對用戶的分類,為微博用戶的個性化服務(wù)和個性化營銷提供依據(jù)。本文的創(chuàng)新點在與,實現(xiàn)了對用戶智能的分類,開拓了微博應(yīng)用的新的領(lǐng)域。
[1]廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報:自然科學(xué)版,2005,51(10): 1300-1305.
[2] KANG Shulong,ZHANG Chuang. Complexity research of massively microblogging based on human behaviors[C]//2010 2nd Inter? national Workshop on Database Technology and Applications,DBT A2010) Proceedin gs.Wu han,China:IEEE Comput er S ociety, 2010:1-4.