国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于云計算的微博數(shù)據(jù)挖掘研究綜述

2014-10-21 00:54:32賈沖沖王名揚鄭丹張曉霞
安徽農(nóng)業(yè)科學 2014年31期
關(guān)鍵詞:社會化媒體微博云計算

賈沖沖 王名揚 鄭丹 張曉霞

摘要 微博作為新的社會化媒體所產(chǎn)生的巨大影響力和海量數(shù)據(jù)使之成為很有價值的研究平臺,云計算的高效數(shù)據(jù)處理能力在微博平臺的應(yīng)用,使得對微博的數(shù)據(jù)挖掘可以快速了解當前的熱點話題,控制突發(fā)事件,引導(dǎo)輿論導(dǎo)向,分析受眾行為,發(fā)現(xiàn)新的商業(yè)模式等。

關(guān)鍵詞 微博;社會化媒體;大數(shù)據(jù);云計算;數(shù)據(jù)挖掘

中圖分類號 S126;TP311 文獻標識碼 A 文章編號 0517-6611(2014)31-11193-03

A Review on the Research of Data Mining in Microblog Based on Cloud Computing

JIA Chongchong, WANG Mingyang*, ZHENG Dan et al

(College of Information and Computer Engineering, Northeast Forestry University, Harbin, Heilongjiang 150040)

Abstract As a new social media, microblog has become a valuable research platform by generating massive amounts of influential data. And the applications of cloud computing in microblog platform, could help to quickly understand the current hot topic, control emergencies, guide public opinion, analyze audience behavior and discover new business models etc..

Key words Microblog; Social media; Big data; Cloud computing; Data mining

云計算和Web 2.0技術(shù)的發(fā)展帶領(lǐng)人們走進了“大數(shù)據(jù)”時代和社交網(wǎng)絡(luò)交互時代,新技術(shù)催生了微博并使之成為新的信息互動和傳播的社會化媒體,網(wǎng)絡(luò)與用戶間的關(guān)系已由用戶被動接受網(wǎng)絡(luò)呈現(xiàn)的信息轉(zhuǎn)變?yōu)橹鲃訁⑴c的模式。用戶通過發(fā)布內(nèi)容、參與討論以及分享轉(zhuǎn)載等行為使互聯(lián)網(wǎng)呈現(xiàn)出更加主動、豐富的形態(tài)。數(shù)據(jù)的增長海量化、類型多樣化、傳播即時化以及事件的突發(fā)性、影響持久化等諸多表現(xiàn),從一定程度上影響著社會的穩(wěn)定和輿論走勢[1]。技術(shù)在提供便利的同時也考驗著人們對海量數(shù)據(jù)的分析和駕馭能力。如何從時刻變化的海量數(shù)據(jù)中提取出有價值的信息,同時對消極、負面和虛假的信息進行及時監(jiān)管,已經(jīng)成為社會化媒體數(shù)據(jù)研究的重要問題[2]。而云計算可以為海量數(shù)據(jù)處理和分析提供高效的計算平臺,數(shù)據(jù)挖掘技術(shù)在云計算平臺的應(yīng)用將使得微博成為互聯(lián)網(wǎng)領(lǐng)域的又一變革力量。

為此,筆者以新浪微博為研究對象,從微博數(shù)據(jù)的獲取,到好友推薦、用戶影響力評價、網(wǎng)絡(luò)輿情監(jiān)測等實際應(yīng)用,闡述了如何借助云計算平臺對微博產(chǎn)生的大量數(shù)據(jù)進行挖掘的研究成果。

1 微博數(shù)據(jù)的獲取

微博數(shù)據(jù)挖掘的前提是數(shù)據(jù)獲取。新浪開放平臺為第三方提供了獲取微博信息的API接口以及方便微博API調(diào)用的支持多種計算機語言的SDK軟件開發(fā)包,其中封裝了從授權(quán)認證到數(shù)據(jù)獲取與解析的各項功能,開發(fā)者通過申請Accesstoken獲得開發(fā)者權(quán)限,就可編寫程序調(diào)用API接口獲取用戶信息和微博內(nèi)容等數(shù)據(jù)。此外,開發(fā)者也可通過Web爬蟲方式訪問新浪微博平臺頁面,解析后獲取所需數(shù)據(jù)。

新浪微博擁有數(shù)以億計的微博用戶群體,其產(chǎn)生的海量數(shù)據(jù)給分析研究工作帶來一定的困難。作為一個社會化媒體,微博要為用戶呈現(xiàn)實時的準確數(shù)據(jù)和良好的用戶體驗,因此需要先進的計算分析手段提供技術(shù)支撐,而Hadoop就是這樣一個能夠應(yīng)用的主流云計算平臺。Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,主要由分布式文件系統(tǒng)HDFS和分布式編程模型MapReduce組成。Hadoop使得用戶能輕松開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序,新浪微博海量數(shù)據(jù)的獲取、處理、存儲以及數(shù)據(jù)挖掘算法均可編寫相應(yīng)的MapReduce程序?qū)崿F(xiàn)分布式運行,MapReduce架構(gòu)如圖1所示。

2 基于云計算的微博平臺數(shù)據(jù)挖掘

2.1 微博用戶的好友推薦研究

微博好友推薦系統(tǒng)是微博數(shù)據(jù)挖掘最基礎(chǔ)的應(yīng)用,它通過關(guān)系預(yù)測來幫助用戶找到感興趣的人。目前,推薦算法使用較為廣泛的是基于內(nèi)容的推薦和基于協(xié)同過濾的推薦。基于內(nèi)容的推薦主要是依據(jù)用戶個人信息、標簽及以往瀏覽記錄等;協(xié)同過濾的原理是查找與目標用戶相似的近鄰用戶,根據(jù)近鄰用戶的評價對目標用戶作出推薦。

傳統(tǒng)的用戶關(guān)系預(yù)測方法通過共同關(guān)注計算用戶間的關(guān)系強度,假設(shè)用N表示關(guān)注列表集合,那么用戶A和用戶B的關(guān)系強度R計算公式為:

在式(1)基礎(chǔ)上,學者們又進一步提出一些改進的算法,如胡文江等提出一種基于標簽的協(xié)同過濾算法,用于尋找與目標用戶最相似的用戶,以進行推薦[3];楊婷設(shè)計了基于MapReduce的Dijkstm算法和PageRank算法,計算被推薦用戶到其他用戶的距離和用戶影響力,并結(jié)合用戶信息基于內(nèi)容的方式進行推薦[4];Papadimitriou等基于小世界理論探索了更大范圍的用戶對好友關(guān)系的影響,并嘗試將算法應(yīng)用于MapReduce[5]。

微博好友推薦系統(tǒng)是微博用戶擴展社交圈子的重要途徑,且用戶間的關(guān)注和粉絲關(guān)系處于時時的動態(tài)變化中。云計算所具有的效用計算和自主計算特點使得推薦更加快速和準確,對于提高用戶體驗具有重要意義。

2.2 用戶影響力的評價研究

微博用戶的影響力體現(xiàn)在發(fā)博用戶通過輿論對其粉絲用戶所帶來的影響,用戶影響力越大,其傳播能力越強,由此,影響力最強的那些用戶就成了意見領(lǐng)袖,他們擁有更多的話語權(quán),對于信息擴散、輿論導(dǎo)向和商品推介等有著重要作用[6]。目前,國內(nèi)外學者研究影響力的方法有以下幾類。

(1)基于PageRank的評價方法。舒琰等將好友數(shù)量作為用戶影響力的一個重要指標,基于PageRank進行了MapReuce改造完成了用戶影響力排名[7]。PageRank的計算公式為:

式中,Vi表示用戶i;d為阻尼系數(shù),表示某用戶隨機關(guān)注其他用戶的概率;F(Vi)表示用戶i的粉絲集合;L(Vi)表示用戶Vj的關(guān)注數(shù)。

(2)基于用戶行為的評價方法。Cha等在研究中,對微博中最常見的轉(zhuǎn)發(fā)、評論、提及3種行為進行研究,并分析了這3種行為所表征的用戶影響力類型[8]。

(3)基于PageRank和用戶行為的評價方法。陳浩基于PageRank從用戶自身質(zhì)量及其粉絲質(zhì)量著手,考慮了粉絲數(shù)量、評論率、轉(zhuǎn)發(fā)率和是否微博認證用戶等因素進行影響力評價[6];康書龍結(jié)合用戶發(fā)表微博活躍度和PageRank算法,提出了BehaviorRelationship Rank算法來評價用戶影響力[9]。

(4)基于URL追蹤的評價方法。Bakshy等指出口碑信息通過許多級聯(lián)進行傳播。通過追蹤URL傳播情況,并按一定方式分配相應(yīng)的影響力進行評價[10]。

(5)新浪微博的用戶影響力評價模型。新浪微博定義的影響力由活躍度、傳播力和覆蓋度3大指標構(gòu)成?;钴S度代表發(fā)博、轉(zhuǎn)發(fā)、評論的有效條數(shù);傳播力與微博被轉(zhuǎn)發(fā)、被評論的有效條數(shù)和有效人數(shù)相關(guān);覆蓋度則取決于微博的活躍粉絲數(shù)的多少。其計算公式為:

影響力=α×活躍度+β×傳播力+γ×覆蓋度(3)

由以上可知,微博用戶影響力研究考慮的因素主要是用戶關(guān)系(關(guān)注、粉絲等)和用戶行為(評論、轉(zhuǎn)發(fā)等),其中PageRank是當前用戶影響力研究的主流應(yīng)用算法。由于PageRank算法需要多次迭代,所以當用戶量較大時,云計算將是很好的解決手段。

2.3 網(wǎng)絡(luò)輿情監(jiān)測研究

網(wǎng)絡(luò)輿情是指在一定社會空間內(nèi),針對社會事件的發(fā)生、發(fā)展和變化,民眾通過網(wǎng)絡(luò)對公共問題或社會管理者產(chǎn)生和表現(xiàn)出的態(tài)度、價值觀?;ヂ?lián)網(wǎng)的開放性和虛擬性讓言論自由得到釋放,對那些能引起公眾關(guān)注的事件,尤其是突發(fā)事件(如地震、恐怖襲擊等),很快便成了網(wǎng)絡(luò)輿情[11]。網(wǎng)絡(luò)輿情是社會輿情在互聯(lián)網(wǎng)空間的映射,是社會輿情的直接反映,對政治生活秩序和社會穩(wěn)定的影響越來越大。

社會管理者應(yīng)當熟悉網(wǎng)絡(luò)輿情的特點,對于網(wǎng)絡(luò)中出現(xiàn)的引起相當關(guān)注的輿論能夠及時作出反饋,防患于未然。因此,使用現(xiàn)代信息技術(shù)對網(wǎng)絡(luò)輿情進行分析,形成一套自動化網(wǎng)絡(luò)輿情分析系統(tǒng),從而控制和引導(dǎo)輿論走向是非常必要的。輿情分析系統(tǒng)的技術(shù)核心在于輿情分析引擎,主要涉及文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤、自動摘要等計算機文本信息內(nèi)容識別技術(shù)。目前,針對微博輿情,研究者主要從如下幾個方面展開分析。

(1)熱點話題識別??梢愿鶕?jù)微博出處權(quán)威度、評論數(shù)量、發(fā)言時間密集程度等參數(shù),識別出某時間段內(nèi)的熱門話題。

(2)傾向性分析。對微博內(nèi)容及其評論進行情感分析。

(3)主題跟蹤。分析新發(fā)微博的話題是否與已有主題相同。

(4)自動摘要。對各類微博主題能夠形成自動摘要,幫助理解話題的核心語義。

(5)趨勢分析。分析某話題在不同的時間段內(nèi)人們所關(guān)注的程度,來預(yù)測它的發(fā)展趨勢。

(6)突發(fā)事件分析。對突發(fā)事件綜合分析,獲知事件發(fā)生的全貌并預(yù)測事件的發(fā)展趨勢。

(7)警報系統(tǒng)。對突發(fā)事件、涉及公共或人身安全的敏感話題及時發(fā)現(xiàn)并報警。

(8)統(tǒng)計報告。根據(jù)輿情分析結(jié)果生成報告,提供信息檢索功能。

2.3.1 熱點話題發(fā)現(xiàn)。

熱點話題是指在特定的時間段內(nèi)出現(xiàn)頻率較高或傳播范圍較廣的主題特征詞[12]。通過熱點話題可以了解當前的微博討論熱點、發(fā)現(xiàn)輿情事件等。熱點話題的獲取一般包括中文分詞處理、微博文本特征詞獲取和話題提取3個主要步驟。

2.3.1.1 微博分詞處理。

微博文本內(nèi)容長短不一,為了提取話題,需要對其進行分詞處理。常用中文分詞效果較好的是由中國科學院開發(fā)的ICTCLAS漢語分詞系統(tǒng),ICTCLAS分詞精度達到98.45%,分詞速度500 kB/s左右,并且支持多級詞性標注,提供了包括Java在內(nèi)的多種計算機語言開發(fā)工具包。完成分詞后,還要對照停用詞表進行去停用詞處理,停用詞是指對文本意思表達無用的詞,如“的”、“呢”等。去除停用詞可以降低文本特征向量的維度,減少數(shù)據(jù)處理復(fù)雜度。

2.3.1.2 微博文本特征詞獲取。

文本特征詞提取的常用算法是TFIDF,其思想是:如果某詞在一個文本中出現(xiàn)頻率(TF)較高,在其他文本中很少出現(xiàn),則該詞具有很好的類別區(qū)分能力,選取幾個這樣權(quán)重較高的詞可作為該文本的主題特征詞。TFIDF算法表示如下:

Wi=TFi×IDFi=TFi×log式中,Wi表示單詞i的權(quán)重;TFi表示單詞i在該文本中出現(xiàn)的頻率;DFi表示文本集合中出現(xiàn)單詞i的文本數(shù)量;N表示文本集合的數(shù)量。

2.3.1.3 微博話題提取。

獲取某時段每條微博的特征詞后,基于MapReduce的并行FPgrowth算法挖掘主題特征詞的關(guān)聯(lián)規(guī)則頻繁項集,根據(jù)產(chǎn)生的頻繁項集提取該時段的熱點話題?;贛apReduce的并行FPgrowth算法執(zhí)行過程如下:

①掃描數(shù)據(jù),計算一項集的計數(shù)。

②根據(jù)計數(shù)與支持度計算出頻繁一項集,對于頻繁一項集按照計數(shù)從大到小排序,存入HDFS,執(zhí)行Map或Reduce任務(wù)前到HDFS上讀取相應(yīng)的項集和序號。

③根據(jù)劃分集合的數(shù)目將頻繁一項集劃分為G份,對每份標號(GID),把一項集映射到對應(yīng)的GID上,將產(chǎn)生的GList存入HDFS,以后讀取。

④再次掃描事務(wù)數(shù)據(jù),將事務(wù)項集轉(zhuǎn)換成項集的序號集合,并對其排序,再生成相應(yīng)的條件事務(wù)序號集合。將其根據(jù)GID收集,再對每個GID構(gòu)造FP樹,然后得出條件模式基和條件FP樹,再得出最大的K個頻繁模式。

⑤將所有項集的頻繁模式收集起來,對于每個項生成最大的K個頻繁模式。

2.3.2 情感分析。

情感分析是對帶有情感色彩的主觀性文本進行分析、歸納和推理的過程。微博中的情感分析是根據(jù)微博內(nèi)容、發(fā)博時間等信息,分析發(fā)博者所表現(xiàn)出的情緒狀態(tài),進而對發(fā)博者即將可能產(chǎn)生的行為作出評估。微博及其評論中包含了很多發(fā)博者的主觀情感內(nèi)容,對其情感數(shù)據(jù)的挖掘可用于輿情監(jiān)控、商品口碑評估、民意傾向預(yù)測、網(wǎng)絡(luò)救助等實際應(yīng)用中。

微博文本情感分類一般被作為一個二分類問題,即將微博文本集T分為兩個類型:T={T1,T2},T1表示(支持、積極的)正面類型,T2表示(反對、消極的)負面類型。情感分類就是利用分類器模型判斷微博文本t屬于T1還是T2。目前情感分類的方法有基于特征的情感分類方法和基于情感知識的情感分類方法。前者主要使用機器學習手段,讓機器學習人工標注好的數(shù)據(jù)集,從中發(fā)現(xiàn)分類規(guī)則作為對其他數(shù)據(jù)集分類的依據(jù);后者建立在情感詞典或語義規(guī)則的基礎(chǔ)上,由于新的網(wǎng)絡(luò)詞語不斷出現(xiàn),且用戶更傾向于對新詞的使用,使得情感詞典的選擇和維護工作給此方法帶來一定的難度。目前中文微博的情感分類主要是借助情感詞典作為特征選擇并利用機器學習方法實現(xiàn)分類。該研究總結(jié)了基于機器學習的微博文本情感分類算法流程,如圖2所示。

微博情感分析的文本數(shù)據(jù)可以選擇話題微博,也可以選擇話題微博的評論。情感分析完成后,就可進行綜合分析和趨勢預(yù)測,來獲知公眾對該話題所持的態(tài)度,以此為管理者提供決策。

同時應(yīng)該注意到的是,由于人類情感的復(fù)雜性、中文的多義性、受公眾情緒的影響而導(dǎo)致的情緒轉(zhuǎn)變和傳遞等眾多因素,使得簡單的二分類或者是正、中、負三維描述已無法準確評判用戶情感,挑戰(zhàn)是一直存在的。

3 結(jié)語

針對微博大數(shù)據(jù)平臺,該研究從最初的數(shù)據(jù)抓取、預(yù)處理到最后數(shù)據(jù)挖掘和實際應(yīng)用進行了較為全面的介紹,說明了微博平臺數(shù)據(jù)挖掘的價值。微博作為網(wǎng)絡(luò)時代產(chǎn)物,隨著計算機技術(shù)的發(fā)展和網(wǎng)絡(luò)用戶數(shù)量的增多,其產(chǎn)生的影響力也將越來越大。云計算在微博平臺上的應(yīng)用,使得對數(shù)據(jù)的處理更加方便和快捷,為新應(yīng)用產(chǎn)品的出現(xiàn)和帶來更好的用戶體驗,提供了更多可能性。

參考文獻

[1] 許斌.中文微博的情感分析和影響力技術(shù)研究[D].鄭州:解放軍信息工程大學,2013.

[2] 姚海波.微博熱點話題檢測與趨勢預(yù)測研究[D].廣州:華南理工大學,2013.

[3] 胡文江,胡大偉,高永兵,等.基于關(guān)聯(lián)規(guī)則與標簽的好友推薦算法[J].計算機工程與科學,2013(2):109-113.

[4] 楊婷.基于MapReduce的好友推薦系統(tǒng)的研究與實現(xiàn)[D].北京:北京郵電大學,2013.

[5] PAPADIMITRIOU A,SYMEONIDIS P,MANOLOPOULOS Y.Fast and accurate link prediction in social networking systems[J].Journal of Systems and Software,2012,85(9):2119-2132.

[6] 陳浩.基于Hadoop 的微博用戶影響力排名算法研究[D].廣州:華東理工大學,2014.

[7] 舒琰,向陽,張騏,等.基于PageRank的微博排名MapReduce算法研究[J].計算機技術(shù)與發(fā)展,2013(2):73-76,81.

[8] CHA M,HADDADI H,BENEVENUTO F,et al.Measuring user influence in twitter:The million follower fallacy[C]//AAAI.Washington,DC,USA:ICWSM,2010:11-13.

[9] 康書龍.基于用戶行為及關(guān)系的社交網(wǎng)絡(luò)節(jié)點影響力評價[D].北京:北京郵電大學,2011.

[10] BAKSHY E,HOFMAN J M,MASON W A,et al.Everyones an influencer:Quantifying influence on twitter[C]//WSDM.Hong Kong.China,2011:67-69.

[11] 陳彥舟,曹金璇.基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2013(4):18-22,9.

[12] 林大云.基于Hadoop的微博信息挖掘[J].計算機光盤軟件與應(yīng)用,2012(1):7-8.

猜你喜歡
社會化媒體微博云計算
社會化媒體的傳播模式分析
戲劇之家(2016年22期)2016-11-30 19:04:19
事實與流言的博弈
人間(2016年26期)2016-11-03 18:19:04
從通道過剩走向品牌價值
江淮論壇(2016年5期)2016-10-31 17:03:59
基于云計算的移動學習平臺的設(shè)計
實驗云:理論教學與實驗教學深度融合的助推器
大學教育(2016年9期)2016-10-09 08:54:03
云計算中的存儲虛擬化技術(shù)應(yīng)用
科技視界(2016年20期)2016-09-29 13:34:06
湖北采花毛尖的社會化媒體營銷模式研究
社會化媒體下的事件營銷問題及對策研究
神回復(fù)
意林(2013年15期)2013-05-14 16:49:23
探究微博在語文閱讀教學中的可行性
合阳县| 南雄市| 天柱县| 白山市| 开封县| 青冈县| 铜川市| 仙居县| 台江县| 肇州县| 张掖市| 东莞市| 汽车| 新余市| 安西县| 静乐县| 苏尼特左旗| 华亭县| 鸡泽县| 商都县| 容城县| 伊吾县| 江油市| 济阳县| 德州市| 佛冈县| 宜春市| 和政县| 潮安县| 宿迁市| 师宗县| 金溪县| 乌鲁木齐县| 溆浦县| 苏尼特右旗| 文化| 当阳市| 铜川市| 西城区| 安西县| 剑川县|