基于k均值聚類的微博用戶分類的研究

2012-04-29 18:05張國安鐘紹輝

電腦知識與技術(shù) 2012年26期

關(guān)鍵詞：微博

張國安鐘紹輝

摘要：文章通過對用戶數(shù)據(jù)的分析，根據(jù)用戶的教育情況，用戶的收入情況，采用k均值算法對用戶進行聚類，將具有相同特征的用戶歸為同一類，為微博的個性化營銷和服務(wù)提供依據(jù)。

關(guān)鍵詞：K均值聚類；微博；用戶分類

中圖分類號：TP393文獻標(biāo)識碼：A文章編號：1009-3044(2012)26-6273-03

微博客是博客的一種變體,是一種允許用戶及時更新簡短文本并公開發(fā)布的博客形式,允許任何人閱讀或者只能由用戶選擇的群組閱讀。用戶可通過即時通訊工具、網(wǎng)頁等終端發(fā)布、更新博文。博客雖已成為一種有效的信息溝通與交流方式,但依然具有進入門檻,而微博客則將門檻降到最低[1]。微博的使用人群數(shù)量基數(shù)大,狀態(tài)信息更新頻繁、信息傳播迅速。并且微博平臺媒介用戶占有率相對集中,因此基于微博數(shù)據(jù)的分析研究成為了十分值得關(guān)注的研究方向。在廉捷[1]等人就微博數(shù)據(jù)的獲取提出了基于新浪微博API與基于頁面解析的新浪微博數(shù)據(jù)獲取方案。KANG Shulong[2]針對新浪微博研究了其群體結(jié)構(gòu)與度分布特征。目前，微博的應(yīng)用中，沒有根據(jù)用戶的需求，用戶的特征做相應(yīng)的推薦工作，比如根據(jù)用戶的受教育程度，用戶的所從事的工作，推薦相應(yīng)的用戶群體。本文根據(jù)新浪微博提供的API接口，獲得用戶的相關(guān)資料，采用k均值算法對用戶分類，為微博的智能的發(fā)展和微博得營銷提供有力的支持。

k均值算法的步驟如下：

初始化。輸入基因表達矩陣作為對象集X，輸入指定聚類類數(shù)N，并在X中隨機選取N個對象作為初始聚類中心。設(shè)定迭代中止條件，比如最大循環(huán)次數(shù)或者聚類中心收斂誤差容限。

進行迭代。根據(jù)相似度準(zhǔn)則將數(shù)據(jù)對象分配到最接近的聚類中心，從而形成一類。初始化隸屬度矩陣。

更新聚類中心。然后以每一類的平均向量作為新的聚類中心，重新分配數(shù)據(jù)對象。

反復(fù)執(zhí)行第二步和第三步直至滿足中止條件。

2.1數(shù)據(jù)采集與預(yù)處理

本文用戶數(shù)據(jù)的來源于新浪微博網(wǎng)站，該網(wǎng)站是國內(nèi)知名的微博社區(qū)。通過利用網(wǎng)絡(luò)爬蟲來實現(xiàn)數(shù)據(jù)的獲取。具體抓取和處理過程如下:

1）提取每位用戶基本的數(shù)據(jù)信息，包括用戶的受教育情況，用戶的年齡，用戶從事的行業(yè)情況。

2）提取表征用戶社區(qū)結(jié)構(gòu)屬性的數(shù)據(jù)資料，包括他關(guān)注的人數(shù)、關(guān)注他的人數(shù)、微博數(shù)、收藏數(shù)四項數(shù)據(jù)。3）為了在網(wǎng)絡(luò)分析時更加高效，對用戶名稱進行順序編碼。4）提取每位用戶的關(guān)注對象名單，共得到8257條數(shù)據(jù)，以用戶為單位進行保存。將所有的非數(shù)值型數(shù)據(jù)采用數(shù)值型來表示，為對用戶進行聚類分析做好準(zhǔn)備。

2.2 K均值聚類法代碼及其對用戶分類的實現(xiàn)

本文通過對k-meam聚類算法的分析，將聚類算法首次應(yīng)用在微博中，實現(xiàn)對用戶的分類，為微博用戶的個性化服務(wù)和個性化營銷提供依據(jù)。本文的創(chuàng)新點在與，實現(xiàn)了對用戶智能的分類，開拓了微博應(yīng)用的新的領(lǐng)域。

[1]廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報:自然科學(xué)版,2005,51(10): 1300-1305.

[2] KANG Shulong,ZHANG Chuang. Complexity research of massively microblogging based on human behaviors[C]//2010 2nd Inter? national Workshop on Database Technology and Applications,DBT A2010) Proceedin gs.Wu han,China:IEEE Comput er S ociety, 2010:1-4.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于k均值聚類的微博用戶分類的研究