国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于微博平臺的輿情分析研究綜述

2016-05-30 09:48:08謝松燕劉肖依
2016年14期
關(guān)鍵詞:社交網(wǎng)絡(luò)微博數(shù)據(jù)挖掘

謝松燕 劉肖依

摘要:微博作為當(dāng)前社會中最重要的社會信息傳播平臺,具有快速、高效、方便的特點。人們越來越依賴微博來進(jìn)行社交活動,微博平臺每天所產(chǎn)生的信息量越來越大,這其中蘊(yùn)含了大量有價值的信息,因此,針對微博平臺的數(shù)據(jù)挖掘引起了很多學(xué)者的關(guān)注和研究。為全面了解當(dāng)前國內(nèi)微博研究的發(fā)展現(xiàn)狀,分析了現(xiàn)有的對微博方面的研究并對其進(jìn)行總結(jié)。

關(guān)鍵詞:微博;社交網(wǎng)絡(luò);數(shù)據(jù)挖掘

一、研究背景及相關(guān)研究

微博作為典型的應(yīng)用,發(fā)展勢頭迅猛并得到日益增多的用戶的喜愛與應(yīng)用,成為當(dāng)下最流行的社交平臺之一。

國內(nèi)關(guān)于微博的研究始于2008年,研究者從不同的角度對微博進(jìn)行了分析。國內(nèi)針對微博用戶數(shù)據(jù)的信息挖掘研究主要包括信息智能推薦、情感分析、話題事件分析、網(wǎng)絡(luò)關(guān)系分析及影響力分析等,此外還有一些關(guān)于微博自身的特性、博文內(nèi)容價值、可信度等方面的研究;而國外對微博的研究主要在于技術(shù)和應(yīng)用方面。因此本文將對國內(nèi)外的微博研究進(jìn)行綜合分析,為之后的研究提供參考。

二、微博的數(shù)據(jù)來源

在微博分析過程中需要采集大量的微博數(shù)據(jù),目前獲取微博數(shù)據(jù)的方法有很多,但最主要的可以分為以下三種。

API(Application Programming Interface)。用戶通過程序調(diào)用官方的API,程序會返回API相應(yīng)的官方信息數(shù)據(jù),用戶可以通過查看自由選擇所需要的信息。通過API獲取數(shù)據(jù)集用戶可以很方便地得到想要的數(shù)據(jù),但它的缺點在于微博平臺對其API的訪問有設(shè)置權(quán)限,并且有訪問次數(shù)的限制,若要獲取大量的數(shù)據(jù)一般要通過API經(jīng)過多次的訪問才能得到。

網(wǎng)絡(luò)爬蟲。這是一種按照一定規(guī)則自動抓取網(wǎng)頁信息的程序,我們可以通過這種程序從訪問的網(wǎng)頁中獲得HTML文本文件,然后根據(jù)特定規(guī)則通過表達(dá)式來分析其HTML文本并提取信息,獲取指定數(shù)據(jù)。最后爬蟲根據(jù)某一標(biāo)準(zhǔn)停止運(yùn)行。使用爬蟲軟件爬取數(shù)據(jù)的優(yōu)點是軟件可以自動提取頁面上的信息,且信息數(shù)據(jù)較全,操作相對簡單。但通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的缺點是需要用戶自己分析所需要數(shù)據(jù)的表達(dá)式,并進(jìn)行解析和數(shù)據(jù)提取,工作量較大。

下載公共數(shù)據(jù)集?,F(xiàn)在有一部分學(xué)者或研究人員會將自己擁有的數(shù)據(jù)信息共享到網(wǎng)上,供其他研究者學(xué)習(xí)使用,并且隨著研究人員的不斷更新,這些數(shù)據(jù)集也在逐漸完善,對于很多研究網(wǎng)上的公告數(shù)據(jù)集都能夠滿足。但這些數(shù)據(jù)集也有其局限性:不同的研究所需要的數(shù)據(jù)集是不同的,并且有的數(shù)據(jù)具有時效性。

三、微博內(nèi)容研究

根據(jù)微博的特點,研究人員對微博進(jìn)行了以下幾個方面的研究:

(一)微博話題事件分析

話題事件是指由某些原因或條件引起的,發(fā)生在特定時間和地點,以及所有預(yù)測直接相關(guān)的事件或活動。

(二)微博情感分析

情感分析又稱意見挖掘,是對帶有情感色彩的主管性文本進(jìn)行分析的過程,分析過程包括文本處理、歸納和推理。Barbosa等人利用博文的一系列特征和詞的原信息來檢測Twitter中的情感。Davidov等人利用Twitter中的50個Hashtag情感標(biāo)簽和15個“笑臉”標(biāo)簽,提出了監(jiān)督式的分類方法識別情感。

(三)微博關(guān)系分析與挖掘

微博用戶之間的交互是多樣性的,這使得微博的網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)多關(guān)系的特性,用戶可以根據(jù)關(guān)注關(guān)系來構(gòu)造朋友網(wǎng)絡(luò),根據(jù)轉(zhuǎn)發(fā)關(guān)系構(gòu)造傳播網(wǎng)絡(luò),根據(jù)回復(fù)關(guān)系構(gòu)造評論網(wǎng)絡(luò)。Romero等人根據(jù)Twitter中的關(guān)注行為,研究了Twitter中關(guān)注關(guān)系的形成機(jī)制;同時,Romero等人研究了用戶關(guān)注關(guān)系的交互機(jī)制,驗證了關(guān)系保持特點:平衡性、交互性、中介性。Yin等人通過研究微博中用戶關(guān)注關(guān)系的形成機(jī)制,發(fā)現(xiàn)用戶中大約90%的新關(guān)系建立都有兩跳的關(guān)系形成。Welch等人通過研究Twitter中關(guān)注和轉(zhuǎn)發(fā)關(guān)系的語義信息,發(fā)現(xiàn)這兩種關(guān)系中轉(zhuǎn)發(fā)關(guān)系具有更強(qiáng)的話題關(guān)聯(lián)性。

(四)微博信息傳播

微博的轉(zhuǎn)發(fā)功能使信息在微博平臺能夠無限制地被傳播,這使得微博平臺的信息能夠以“核裂變”式速度傳播。研究微博中信息的傳播模式與擴(kuò)散機(jī)制,能夠有助于微博輿情的控制與引導(dǎo),能夠更好地推廣企業(yè)品牌和產(chǎn)品。Romero等人研究了不同的HashTag在Twitter中的傳播模式,發(fā)現(xiàn)相比而言,有爭議性的政治話題通常能夠持續(xù)更長時間的傳播,而習(xí)語和新詞通常傳播的持續(xù)時間較短,并且不同的信息在傳播路徑上也存在差異。Dabeer等人分析了粉絲節(jié)點對微博信息傳播的影響,發(fā)現(xiàn)粉絲節(jié)點的活躍度不同對源信息節(jié)點的響應(yīng)性和傳播能力等都有不同影響,因此提出了基于馬爾科夫決策處理的框架來度量微博中信息的傳播效果。

(五)微博中用戶的影響力分析

微博中的用戶由于自身的特性,對網(wǎng)絡(luò)中其他用戶的影響力作用也不同。影響力的研究的數(shù)量在微博研究中占很大的比例,傳統(tǒng)的有關(guān)個體影響力的度量技術(shù)相關(guān)研究中主要包括點度中心度、接近中心度、中間中心度、HITS、PageRank及擴(kuò)展方法等。應(yīng)用最多且最成熟的是PageRank的算法,很多研究者針對微博中的關(guān)注關(guān)系構(gòu)造類似PageRank的算法,加入粉絲的影響力等參考因素來衡量用戶的影響力,如果粉絲數(shù)越多,并且這些粉絲對其他用戶的關(guān)注度越少,那么這些粉絲對該用戶的影響力貢獻(xiàn)就越大。

四、總結(jié)與展望

隨著網(wǎng)絡(luò)的不斷普及,微博平臺每天所產(chǎn)生的信息量越來越大,這其中蘊(yùn)含了大量有價值的信息。因此,針對微博平臺的數(shù)據(jù)挖掘研究越來越多。通過研究出微博的規(guī)律,我們可以利用微博預(yù)測時間的發(fā)展趨勢,也可以將微博應(yīng)用到商業(yè)領(lǐng)域,通過微博影響力大的用戶進(jìn)行信息擴(kuò)散、輿論導(dǎo)向、商品推介和宣傳,這無疑將收到事半功倍的效果。但國內(nèi)微博分析領(lǐng)域研究起步較晚,對微博接口資源的限制問題以及分析精確度方面還有待進(jìn)一步提高。(作者單位:中央財經(jīng)大學(xué))

參考文獻(xiàn):

[1]Page L, Brin S and Motwani R. The PageRank citation ranking: Bringing order to the web [R]. Tech. Report of the Stanford University,USA, 1999.

[2]Weng J, Yao, Y, Leonardi, E and Lee, F. Event detection in Twitter [R]. Tech. Report of HP Laboratories, USA, 2011.

[3]尹紅軍.大規(guī)模社交網(wǎng)絡(luò)中局部興趣社區(qū)發(fā)現(xiàn)研究[D].中國科學(xué)技術(shù)大學(xué),2014.

[4]熊小兵.微博網(wǎng)絡(luò)傳播行為中的關(guān)鍵問題研究[D].解放軍信息工程大學(xué),2014.

[5]丁兆云 賈焰 周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機(jī)研究與發(fā)展,2014,51(4):691-704.

[6]陸研 毛健驗 屠方楠.網(wǎng)絡(luò)信息老化規(guī)律研究新浪新聞與新浪微博實證研究[J].高等函授學(xué)報(哲學(xué)社會科學(xué)版),2011,24(12):52-55.

[7]丁兆云 賈焰 周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機(jī)研究與發(fā)展,2014,51(04):691-704.

猜你喜歡
社交網(wǎng)絡(luò)微博數(shù)據(jù)挖掘
青少年數(shù)字素養(yǎng)的社會與文化內(nèi)涵及其教育啟示
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
事實與流言的博弈
人間(2016年26期)2016-11-03 18:19:04
基于圖片分享為核心的社交網(wǎng)絡(luò)應(yīng)用分析
戲劇之家(2016年19期)2016-10-31 19:44:28
社交網(wǎng)絡(luò)自拍文化的心理解讀
新聞前哨(2016年10期)2016-10-31 17:46:44
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
神回復(fù)
意林(2013年15期)2013-05-14 16:49:23
他們用微博玩營銷
武定县| 泸州市| 丹巴县| 澄城县| 中宁县| 海口市| 江阴市| 名山县| 漳浦县| 辛集市| 兰州市| 通渭县| 大同县| 青田县| 仁寿县| 巴青县| 玛纳斯县| 苍山县| 宁阳县| 阳江市| 建始县| 樟树市| 天台县| 阿拉善盟| 来宾市| 启东市| 肥乡县| 营口市| 聂拉木县| 贵定县| 鄢陵县| 安多县| 山东| 永新县| 亚东县| 保定市| 绥化市| 靖西县| 惠安县| 福清市| 福建省|