謝松燕 劉肖依
摘要:微博作為當(dāng)前社會中最重要的社會信息傳播平臺,具有快速、高效、方便的特點。人們越來越依賴微博來進(jìn)行社交活動,微博平臺每天所產(chǎn)生的信息量越來越大,這其中蘊(yùn)含了大量有價值的信息,因此,針對微博平臺的數(shù)據(jù)挖掘引起了很多學(xué)者的關(guān)注和研究。為全面了解當(dāng)前國內(nèi)微博研究的發(fā)展現(xiàn)狀,分析了現(xiàn)有的對微博方面的研究并對其進(jìn)行總結(jié)。
關(guān)鍵詞:微博;社交網(wǎng)絡(luò);數(shù)據(jù)挖掘
一、研究背景及相關(guān)研究
微博作為典型的應(yīng)用,發(fā)展勢頭迅猛并得到日益增多的用戶的喜愛與應(yīng)用,成為當(dāng)下最流行的社交平臺之一。
國內(nèi)關(guān)于微博的研究始于2008年,研究者從不同的角度對微博進(jìn)行了分析。國內(nèi)針對微博用戶數(shù)據(jù)的信息挖掘研究主要包括信息智能推薦、情感分析、話題事件分析、網(wǎng)絡(luò)關(guān)系分析及影響力分析等,此外還有一些關(guān)于微博自身的特性、博文內(nèi)容價值、可信度等方面的研究;而國外對微博的研究主要在于技術(shù)和應(yīng)用方面。因此本文將對國內(nèi)外的微博研究進(jìn)行綜合分析,為之后的研究提供參考。
二、微博的數(shù)據(jù)來源
在微博分析過程中需要采集大量的微博數(shù)據(jù),目前獲取微博數(shù)據(jù)的方法有很多,但最主要的可以分為以下三種。
API(Application Programming Interface)。用戶通過程序調(diào)用官方的API,程序會返回API相應(yīng)的官方信息數(shù)據(jù),用戶可以通過查看自由選擇所需要的信息。通過API獲取數(shù)據(jù)集用戶可以很方便地得到想要的數(shù)據(jù),但它的缺點在于微博平臺對其API的訪問有設(shè)置權(quán)限,并且有訪問次數(shù)的限制,若要獲取大量的數(shù)據(jù)一般要通過API經(jīng)過多次的訪問才能得到。
網(wǎng)絡(luò)爬蟲。這是一種按照一定規(guī)則自動抓取網(wǎng)頁信息的程序,我們可以通過這種程序從訪問的網(wǎng)頁中獲得HTML文本文件,然后根據(jù)特定規(guī)則通過表達(dá)式來分析其HTML文本并提取信息,獲取指定數(shù)據(jù)。最后爬蟲根據(jù)某一標(biāo)準(zhǔn)停止運(yùn)行。使用爬蟲軟件爬取數(shù)據(jù)的優(yōu)點是軟件可以自動提取頁面上的信息,且信息數(shù)據(jù)較全,操作相對簡單。但通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的缺點是需要用戶自己分析所需要數(shù)據(jù)的表達(dá)式,并進(jìn)行解析和數(shù)據(jù)提取,工作量較大。
下載公共數(shù)據(jù)集?,F(xiàn)在有一部分學(xué)者或研究人員會將自己擁有的數(shù)據(jù)信息共享到網(wǎng)上,供其他研究者學(xué)習(xí)使用,并且隨著研究人員的不斷更新,這些數(shù)據(jù)集也在逐漸完善,對于很多研究網(wǎng)上的公告數(shù)據(jù)集都能夠滿足。但這些數(shù)據(jù)集也有其局限性:不同的研究所需要的數(shù)據(jù)集是不同的,并且有的數(shù)據(jù)具有時效性。
三、微博內(nèi)容研究
根據(jù)微博的特點,研究人員對微博進(jìn)行了以下幾個方面的研究:
(一)微博話題事件分析
話題事件是指由某些原因或條件引起的,發(fā)生在特定時間和地點,以及所有預(yù)測直接相關(guān)的事件或活動。
(二)微博情感分析
情感分析又稱意見挖掘,是對帶有情感色彩的主管性文本進(jìn)行分析的過程,分析過程包括文本處理、歸納和推理。Barbosa等人利用博文的一系列特征和詞的原信息來檢測Twitter中的情感。Davidov等人利用Twitter中的50個Hashtag情感標(biāo)簽和15個“笑臉”標(biāo)簽,提出了監(jiān)督式的分類方法識別情感。
(三)微博關(guān)系分析與挖掘
微博用戶之間的交互是多樣性的,這使得微博的網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)多關(guān)系的特性,用戶可以根據(jù)關(guān)注關(guān)系來構(gòu)造朋友網(wǎng)絡(luò),根據(jù)轉(zhuǎn)發(fā)關(guān)系構(gòu)造傳播網(wǎng)絡(luò),根據(jù)回復(fù)關(guān)系構(gòu)造評論網(wǎng)絡(luò)。Romero等人根據(jù)Twitter中的關(guān)注行為,研究了Twitter中關(guān)注關(guān)系的形成機(jī)制;同時,Romero等人研究了用戶關(guān)注關(guān)系的交互機(jī)制,驗證了關(guān)系保持特點:平衡性、交互性、中介性。Yin等人通過研究微博中用戶關(guān)注關(guān)系的形成機(jī)制,發(fā)現(xiàn)用戶中大約90%的新關(guān)系建立都有兩跳的關(guān)系形成。Welch等人通過研究Twitter中關(guān)注和轉(zhuǎn)發(fā)關(guān)系的語義信息,發(fā)現(xiàn)這兩種關(guān)系中轉(zhuǎn)發(fā)關(guān)系具有更強(qiáng)的話題關(guān)聯(lián)性。
(四)微博信息傳播
微博的轉(zhuǎn)發(fā)功能使信息在微博平臺能夠無限制地被傳播,這使得微博平臺的信息能夠以“核裂變”式速度傳播。研究微博中信息的傳播模式與擴(kuò)散機(jī)制,能夠有助于微博輿情的控制與引導(dǎo),能夠更好地推廣企業(yè)品牌和產(chǎn)品。Romero等人研究了不同的HashTag在Twitter中的傳播模式,發(fā)現(xiàn)相比而言,有爭議性的政治話題通常能夠持續(xù)更長時間的傳播,而習(xí)語和新詞通常傳播的持續(xù)時間較短,并且不同的信息在傳播路徑上也存在差異。Dabeer等人分析了粉絲節(jié)點對微博信息傳播的影響,發(fā)現(xiàn)粉絲節(jié)點的活躍度不同對源信息節(jié)點的響應(yīng)性和傳播能力等都有不同影響,因此提出了基于馬爾科夫決策處理的框架來度量微博中信息的傳播效果。
(五)微博中用戶的影響力分析
微博中的用戶由于自身的特性,對網(wǎng)絡(luò)中其他用戶的影響力作用也不同。影響力的研究的數(shù)量在微博研究中占很大的比例,傳統(tǒng)的有關(guān)個體影響力的度量技術(shù)相關(guān)研究中主要包括點度中心度、接近中心度、中間中心度、HITS、PageRank及擴(kuò)展方法等。應(yīng)用最多且最成熟的是PageRank的算法,很多研究者針對微博中的關(guān)注關(guān)系構(gòu)造類似PageRank的算法,加入粉絲的影響力等參考因素來衡量用戶的影響力,如果粉絲數(shù)越多,并且這些粉絲對其他用戶的關(guān)注度越少,那么這些粉絲對該用戶的影響力貢獻(xiàn)就越大。
四、總結(jié)與展望
隨著網(wǎng)絡(luò)的不斷普及,微博平臺每天所產(chǎn)生的信息量越來越大,這其中蘊(yùn)含了大量有價值的信息。因此,針對微博平臺的數(shù)據(jù)挖掘研究越來越多。通過研究出微博的規(guī)律,我們可以利用微博預(yù)測時間的發(fā)展趨勢,也可以將微博應(yīng)用到商業(yè)領(lǐng)域,通過微博影響力大的用戶進(jìn)行信息擴(kuò)散、輿論導(dǎo)向、商品推介和宣傳,這無疑將收到事半功倍的效果。但國內(nèi)微博分析領(lǐng)域研究起步較晚,對微博接口資源的限制問題以及分析精確度方面還有待進(jìn)一步提高。(作者單位:中央財經(jīng)大學(xué))
參考文獻(xiàn):
[1]Page L, Brin S and Motwani R. The PageRank citation ranking: Bringing order to the web [R]. Tech. Report of the Stanford University,USA, 1999.
[2]Weng J, Yao, Y, Leonardi, E and Lee, F. Event detection in Twitter [R]. Tech. Report of HP Laboratories, USA, 2011.
[3]尹紅軍.大規(guī)模社交網(wǎng)絡(luò)中局部興趣社區(qū)發(fā)現(xiàn)研究[D].中國科學(xué)技術(shù)大學(xué),2014.
[4]熊小兵.微博網(wǎng)絡(luò)傳播行為中的關(guān)鍵問題研究[D].解放軍信息工程大學(xué),2014.
[5]丁兆云 賈焰 周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機(jī)研究與發(fā)展,2014,51(4):691-704.
[6]陸研 毛健驗 屠方楠.網(wǎng)絡(luò)信息老化規(guī)律研究新浪新聞與新浪微博實證研究[J].高等函授學(xué)報(哲學(xué)社會科學(xué)版),2011,24(12):52-55.
[7]丁兆云 賈焰 周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機(jī)研究與發(fā)展,2014,51(04):691-704.