国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于k均值聚類的微博用戶分類的研究

2012-04-29 18:05張國安鐘紹輝
電腦知識與技術(shù) 2012年26期
關(guān)鍵詞:微博

張國安 鐘紹輝

摘要:文章通過對用戶數(shù)據(jù)的分析,根據(jù)用戶的教育情況,用戶的收入情況,采用k均值算法對用戶進行聚類,將具有相同特征的用戶歸為同一類,為微博的個性化營銷和服務(wù)提供依據(jù)。

關(guān)鍵詞:K均值聚類;微博;用戶分類

中圖分類號:TP393文獻標(biāo)識碼:A文章編號:1009-3044(2012)26-6273-03

微博客是博客的一種變體,是一種允許用戶及時更新簡短文本并公開發(fā)布的博客形式,允許任何人閱讀或者只能由用戶選擇的群組閱讀。用戶可通過即時通訊工具、網(wǎng)頁等終端發(fā)布、更新博文。博客雖已成為一種有效的信息溝通與交流方式,但依然具有進入門檻,而微博客則將門檻降到最低[1]。微博的使用人群數(shù)量基數(shù)大,狀態(tài)信息更新頻繁、信息傳播迅速。并且微博平臺媒介用戶占有率相對集中,因此基于微博數(shù)據(jù)的分析研究成為了十分值得關(guān)注的研究方向。在廉捷[1]等人就微博數(shù)據(jù)的獲取提出了基于新浪微博API與基于頁面解析的新浪微博數(shù)據(jù)獲取方案。KANG Shulong[2]針對新浪微博研究了其群體結(jié)構(gòu)與度分布特征。目前,微博的應(yīng)用中,沒有根據(jù)用戶的需求,用戶的特征做相應(yīng)的推薦工作,比如根據(jù)用戶的受教育程度,用戶的所從事的工作,推薦相應(yīng)的用戶群體。本文根據(jù)新浪微博提供的API接口,獲得用戶的相關(guān)資料,采用k均值算法對用戶分類,為微博的智能的發(fā)展和微博得營銷提供有力的支持。

k均值算法的步驟如下:

初始化。輸入基因表達矩陣作為對象集X,輸入指定聚類類數(shù)N,并在X中隨機選取N個對象作為初始聚類中心。設(shè)定迭代中止條件,比如最大循環(huán)次數(shù)或者聚類中心收斂誤差容限。

進行迭代。根據(jù)相似度準(zhǔn)則將數(shù)據(jù)對象分配到最接近的聚類中心,從而形成一類。初始化隸屬度矩陣。

更新聚類中心。然后以每一類的平均向量作為新的聚類中心,重新分配數(shù)據(jù)對象。

反復(fù)執(zhí)行第二步和第三步直至滿足中止條件。

2.1數(shù)據(jù)采集與預(yù)處理

本文用戶數(shù)據(jù)的來源于新浪微博網(wǎng)站,該網(wǎng)站是國內(nèi)知名的微博社區(qū)。通過利用網(wǎng)絡(luò)爬蟲來實現(xiàn)數(shù)據(jù)的獲取。具體抓取和處理過程如下:

1)提取每位用戶基本的數(shù)據(jù)信息,包括用戶的受教育情況,用戶的年齡,用戶從事的行業(yè)情況。

2)提取表征用戶社區(qū)結(jié)構(gòu)屬性的數(shù)據(jù)資料,包括他關(guān)注的人數(shù)、關(guān)注他的人數(shù)、微博數(shù)、收藏數(shù)四項數(shù)據(jù)。3)為了在網(wǎng)絡(luò)分析時更加高效,對用戶名稱進行順序編碼。4)提取每位用戶的關(guān)注對象名單,共得到8257條數(shù)據(jù),以用戶為單位進行保存。將所有的非數(shù)值型數(shù)據(jù)采用數(shù)值型來表示,為對用戶進行聚類分析做好準(zhǔn)備。

2.2 K均值聚類法代碼及其對用戶分類的實現(xiàn)

本文通過對k-meam聚類算法的分析,將聚類算法首次應(yīng)用在微博中,實現(xiàn)對用戶的分類,為微博用戶的個性化服務(wù)和個性化營銷提供依據(jù)。本文的創(chuàng)新點在與,實現(xiàn)了對用戶智能的分類,開拓了微博應(yīng)用的新的領(lǐng)域。

[1]廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報:自然科學(xué)版,2005,51(10): 1300-1305.

[2] KANG Shulong,ZHANG Chuang. Complexity research of massively microblogging based on human behaviors[C]//2010 2nd Inter? national Workshop on Database Technology and Applications,DBT A2010) Proceedin gs.Wu han,China:IEEE Comput er S ociety, 2010:1-4.

猜你喜歡
微博
基于社交網(wǎng)絡(luò)的英語互動微平臺建設(shè)
新浪微博的“語—圖”互文分析
基于Redis的微博系統(tǒng)基本功能設(shè)計
“985工程”高校圖書館閱讀推廣的調(diào)查與分析
微信與微博平臺謠言差異分析
大學(xué)出版社微博傳播分析及發(fā)展策略
打造醫(yī)院里的“主流媒體”
事實與流言的博弈
重大突發(fā)事件中微博之力不微
神回復(fù)