国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

微博及中文微博信息處理研究綜述

2012-10-15 01:51文坤梅李瑞軒辜希武李玉華
中文信息學(xué)報 2012年6期
關(guān)鍵詞:語義觀點情感

文坤梅,徐 帥,李瑞軒,辜希武,李玉華

(華中科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,武漢430074)

1 引言

微博(Microblog)即微型博客,是一種集成化、開放化的互聯(lián)網(wǎng)社交服務(wù),用戶可通過 Web、即時通信、電子郵件和手機等方式用很短的文字描述其當(dāng)前狀態(tài)。為方便與移動終端的接入,其每一篇“微博”限定在140字左右,即一條手機短信的長度限制,同時也可上傳音視頻、圖片。用戶與用戶之間信息的傳遞通過“關(guān)注—被關(guān)注”(Following-Follo-wer)來實現(xiàn),用戶之間在微博平臺上通過轉(zhuǎn)發(fā)的方式對其他用戶的微博進行傳播。微博的出現(xiàn)以2006年推特(Twitter)①http://www.twitter.com的創(chuàng)辦為標(biāo)志,從2008年開始Twitter得到了廣泛的應(yīng)用,至2011年底,Twitter擁有注冊用戶4.65億。中文微博在近兩年也得到了迅速的發(fā)展,以新浪微博為代表,包括騰訊、搜狐、網(wǎng)易、鳳凰等其他門戶紛紛加入微博陣營。中國互聯(lián)網(wǎng)信息中心(CNNIC)數(shù)據(jù)顯示,至2011年12月,國內(nèi)微博用戶人數(shù)已達2.5億。

微博在國內(nèi)外獲得了廣泛的應(yīng)用,已成為一種具有強大影響力的新型媒體。2008年11月印度孟買的恐怖襲擊事件、2008年5月汶川地震等事件都是通過Twitter首發(fā)。微博具備4A特性(任何時間、任何地點、任何方式、任何人),隨時隨地任何人都可以成為信息傳播者。在對熱點事件的報道中,微博可以占據(jù)信息發(fā)布的制高點,但與此同時也存在多方面的問題尚待解決。

近年來在KDD、WWW、SIGIR、WSDM 以及其他刊物和會議上有越來越多的研究工作開始關(guān)注微博。目前,對微博的研究主要從兩方面展開:一是分析微博的社會網(wǎng)絡(luò)特性,微博是一種新興的社會網(wǎng)絡(luò),因此也具有社會網(wǎng)絡(luò)的各種特性,微博社會網(wǎng)絡(luò)可以劃分為兩類,微博用戶形成的社會網(wǎng)絡(luò)和微博消息在傳播過程中形成的社會網(wǎng)絡(luò),很多研究都是圍繞這兩種類型的社會網(wǎng)絡(luò)展開特性分析;二是分析微博內(nèi)容中蘊含的語義信息,微博信息呈現(xiàn)文本碎片化、海量等特點,信息利用成本高,無法直接獲取微博中蘊含的語義信息,因此很多研究試圖從微博內(nèi)容中挖掘語義信息,特別是情感語義,用于發(fā)現(xiàn)用戶對于熱點事件的觀點。除此之外,還有相關(guān)的微博應(yīng)用研究等。大部分的研究工作是基于Twitter的,目前面向中文微博的研究工作還很少。

研究微博及中文微博信息處理技術(shù)具有重要的理論和應(yīng)用價值,在管理領(lǐng)域,能夠幫助領(lǐng)導(dǎo)者更快地了解群眾對各類政策措施的反饋意見;在政策風(fēng)險及輿情分析上,微博用戶具有更高的自由度,其內(nèi)容比博客更加難以監(jiān)控,進行面向中文微博的語義分析和觀點挖掘研究,也是實現(xiàn)內(nèi)容監(jiān)控、突發(fā)事件預(yù)警及輿情分析的基礎(chǔ);在商業(yè)領(lǐng)域中,能夠為企業(yè)進行市場分析、市場調(diào)查、顧客反饋提供更多有價值的信息。該領(lǐng)域的研究成果在政府輿情分析、事件監(jiān)控及企業(yè)商業(yè)智能系統(tǒng)等諸多領(lǐng)域有著廣闊的應(yīng)用空間和發(fā)展前景。

本文首先闡述以Twitter為代表的微博研究現(xiàn)狀,主要包括微博社會網(wǎng)絡(luò)(用戶社會網(wǎng)絡(luò)和消息傳播網(wǎng)絡(luò))的特性分析、微博內(nèi)容的語義分析以及微博在應(yīng)用領(lǐng)域的研究等,然后概述中文微博的研究現(xiàn)狀,最后對微博研究目前存在的問題進行總結(jié),進一步探討中文微博的研究前景。

2 微博社會網(wǎng)絡(luò)的特性分析

一般在線社會網(wǎng)絡(luò)中存在用戶網(wǎng)絡(luò)和消息網(wǎng)絡(luò)兩類,Twitter也不例外。不同之處在于,Twitter社會網(wǎng)絡(luò)中用戶間的關(guān)聯(lián)是基于一種“關(guān)注—被關(guān)注”的特殊關(guān)系建立起來的,微博用戶可以任意關(guān)注某個用戶而不需得到對方同意,同時該用戶也可被任意用戶所關(guān)注,其結(jié)果是微博用戶社會網(wǎng)絡(luò)成為一有向圖,而不同于一般社會網(wǎng)絡(luò)中的用戶關(guān)系無向圖。另外,Twitter中任意用戶發(fā)布的消息都會被該用戶的跟隨者收到,跟隨者中部分用戶會因興趣將其轉(zhuǎn)發(fā),使更多用戶看到這條消息,基于這種特殊的轉(zhuǎn)發(fā)關(guān)系(Retweet),使得Twitter消息網(wǎng)絡(luò)在傳播力上有明顯的優(yōu)勢。因此,在微博社會網(wǎng)絡(luò)的特性分析方面,研究人員主要集中在這兩種不同類型的社會網(wǎng)絡(luò)上,通過分析用戶網(wǎng)絡(luò)拓撲結(jié)構(gòu),研究其基本社會網(wǎng)絡(luò)特性,如小世界、6段分隔和冪律分布等;以及微博作為一種新興社會網(wǎng)絡(luò),研究其在用戶關(guān)聯(lián)關(guān)系、消息傳播機制等方面所具有的特性。

2.1 微博用戶網(wǎng)絡(luò)的特性分析

2.1.1 基本社會網(wǎng)絡(luò)特性分析

自2006年Twitter獲得廣泛應(yīng)用后,微博這一新興社會網(wǎng)絡(luò)逐漸引起學(xué)術(shù)領(lǐng)域的關(guān)注,研究人員對其社會網(wǎng)絡(luò)特性進行了相關(guān)分析。Java等人[1]對Twitter的基本功能及特點進行了詳細介紹,并對其社會網(wǎng)絡(luò)特性進行了初步分析,數(shù)據(jù)集包括76 177個用戶和1 348 543條微博信息,結(jié)果表明Twitter表現(xiàn)出一定的冪律分布和小世界等特性;同時還研究了Twitter用戶社會網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和地理位置等特征,并從個人和社區(qū)兩個不同層次對用戶使用Twitter的意圖進行了分析,結(jié)果表明用戶一般通過Twitter討論日常事件或共享信息。Kwak等人[2]對整個Twitter進行了定量分析,數(shù)據(jù)集包括Twitter上的4 170萬用戶、14.7億用戶社會關(guān)系、4 262個熱點話題和1.06億微博等大量數(shù)據(jù)信息,通過分析Twitter用戶間“關(guān)注—被關(guān)注”的拓撲結(jié)構(gòu),對Twitter用戶社會網(wǎng)絡(luò)統(tǒng)計特性進行了分析,統(tǒng)計結(jié)果表明Twitter在一定程度上表現(xiàn)出用戶間的互惠性,但其社會網(wǎng)絡(luò)特性較一般社會網(wǎng)絡(luò)存在一定的偏差,例如,用戶的follow數(shù)并不呈現(xiàn)冪律分布以及分割度更小等不同于一般社會網(wǎng)絡(luò)的基本特性。然而,Wu等人[3]則發(fā)現(xiàn)Twitter中存在明顯的互惠性,通過將用戶分為名人、媒體、博主和組織這四種類別,發(fā)現(xiàn)相同類別的用戶間往往更可能存在關(guān)注關(guān)系。Gupte等人[4]通過研究分析現(xiàn)實社會中社會階層的概念,提出一種有效的探測和度量算法可以在有向用戶社會網(wǎng)絡(luò)圖中發(fā)現(xiàn)社會階層。

2.1.2 用戶影響力探測

在用戶網(wǎng)絡(luò)中發(fā)現(xiàn)用戶影響力不僅有助于用戶推薦,對于微博網(wǎng)絡(luò)中的商業(yè)運營模式也有著重要的意義,如利用用戶影響力實現(xiàn)廣告推送等。因此,用戶影響力探測也是微博用戶網(wǎng)絡(luò)特性分析中的一個研究熱點。微博用戶影響力探測的方法可分為兩類。一種方法是利用用戶關(guān)系網(wǎng)絡(luò)圖的整體拓撲結(jié)構(gòu)探測用戶影響力;另外一種方法則是通過用戶發(fā)布微博的網(wǎng)絡(luò)傳播影響力間接探測用戶影響力。

基于用戶關(guān)系網(wǎng)絡(luò)圖的方法從兩個不同的角度去度量用戶影響力。最簡單直接的方法是利用用戶的關(guān)注數(shù)大小,即網(wǎng)絡(luò)圖中節(jié)點度的大小,來評定用戶影響力的大小。這種方法計算簡單但效果不佳。另一種方法則是將用戶這種“關(guān)注—被關(guān)注”關(guān)系看作是Web網(wǎng)頁間的超鏈接關(guān)系,利用Web網(wǎng)頁排名中常用的PageRank和HIT等算法進行用戶影響力評定。例如,Java等人[1]利用 HITS算法對Twitter用戶網(wǎng)絡(luò)圖中用戶影響力進行探測;Kwak等人[2]則利用 PageRank[5]算法對 Twitter中的用戶影響力進行探測,并通過用戶的跟隨者數(shù)和用戶發(fā)布微博的轉(zhuǎn)發(fā)數(shù)等不同方法與之進行對比;Weng等人[6]提出了一種TwitterRank算法,在PageRank算法基礎(chǔ)上,考慮用戶所關(guān)注話題間的相似度和用戶關(guān)系拓撲結(jié)構(gòu),從而發(fā)現(xiàn)Twitter中與話題相關(guān)且具有一定影響力的用戶。

基于微博在整個用戶網(wǎng)絡(luò)中的傳播覆蓋度,即用戶發(fā)布微博的被轉(zhuǎn)發(fā)次數(shù)或其他用戶在微博中提到該用戶的次數(shù),來度量用戶的影響力大小。如Cha等人[7]對比分析了3種不同的用戶影響力度量方法:用戶的跟隨者數(shù)、用戶的微博轉(zhuǎn)發(fā)數(shù)和用戶在微博中通過“@”被關(guān)聯(lián)的次數(shù),認為用戶的跟隨者數(shù)越多,并不能真正說明該用戶在用戶群中的認可度越高,而用戶的微博轉(zhuǎn)發(fā)數(shù)以及用戶在微博中通過“@”被關(guān)聯(lián)的次數(shù)則能更準(zhǔn)確地度量用戶的實際影響力。前文提到的Kwak等人[2]在分析Twitter用戶網(wǎng)絡(luò)的基本特性時,提出了微博轉(zhuǎn)發(fā)樹的概念,但并未用于度量用戶影響力,而Bakshy等人[8]則利用轉(zhuǎn)發(fā)樹的概念作為用戶影響力的度量標(biāo)準(zhǔn),認為在Twitter中用戶的影響力是通過用戶發(fā)布微博的轉(zhuǎn)發(fā)規(guī)模所決定的,即消息傳播的廣度和深度。

2.1.3 用戶特征分析與分類

通過微博用戶社會網(wǎng)絡(luò)分析用戶特征,并根據(jù)這些特征進行用戶分類也是重要的研究內(nèi)容之一。例如,Krishnamurthy[9]等人通過分析Twitter用戶關(guān)注和被關(guān)注數(shù)之間的關(guān)系分析了用戶的特征,將用戶分為三類:廣播人(broadcaster)、一般人(acquaintance)和垃圾蟲(miscreant)。有研究人員通過定量分析用戶使用Twitter的行為模式,探測用戶網(wǎng)絡(luò)中的垃圾消息傳播者,并分析用戶使用Twitter的目的,如信息查詢、信息共享以及維持自己的社會關(guān)系等[10]。Pal等人[11]收集同一主題中的微博,然后提取該主題下所有微博發(fā)布者的特征,并根據(jù)其特征將用戶聚成兩類,將所聚類別中的作者進行排序,并找出最具權(quán)威的用戶,實驗結(jié)果對權(quán)威用戶的發(fā)現(xiàn)提供了許多有用特征。

現(xiàn)實社會網(wǎng)絡(luò)中,用戶間各種不同的關(guān)聯(lián)關(guān)系是不盡相同的。例如,用戶A與用戶B是基于朋友關(guān)系建立的關(guān)聯(lián)關(guān)系,而用戶A與用戶C可能存在一種敵對的關(guān)聯(lián)關(guān)系。微博作為現(xiàn)實社會網(wǎng)絡(luò)在虛擬互聯(lián)網(wǎng)中的具體展現(xiàn),相應(yīng)地,微博用戶社會網(wǎng)絡(luò)中不同類型的鏈接關(guān)系也必然存在差異,研究用戶間不同的鏈接關(guān)系對于更深入的理解微博社會網(wǎng)絡(luò)特性有著重要的作用。Welch等人[12]認為在Twitter網(wǎng)絡(luò)結(jié)構(gòu)圖中不同節(jié)點之間的邊代表用戶間不同的鏈接關(guān)系,分別針對用戶間的follow關(guān)系和微博轉(zhuǎn)發(fā)關(guān)系進行了相應(yīng)的分析,并指出利用這種鏈接關(guān)系對用戶排名算法有較好的改進。

2.2 微博消息網(wǎng)絡(luò)的特性分析

與一般在線社會網(wǎng)絡(luò)相同,Twitter也允許用戶在線、實時發(fā)布文本信息,然而,不同的是Twitter在信息長度上限制在140個字符之內(nèi),同時語法結(jié)構(gòu)自由,支持手機等移動設(shè)備實時發(fā)布信息,這使得Twitter消息傳播網(wǎng)絡(luò)無論是在傳播范圍上還是速度上都具有更大的優(yōu)勢。因此,微博消息網(wǎng)絡(luò)的特性分析及消息在網(wǎng)絡(luò)中的傳播機制也是最近的研究熱點。

Yang等人[13]從用戶貢獻模式(即用戶每月發(fā)布微博數(shù)目的分布情況)、Web導(dǎo)航(即用戶發(fā)布微博中含有超鏈接的目的指向)和用戶社會網(wǎng)絡(luò)整體結(jié)構(gòu)模式等三個方面對比分析了Twitter與傳統(tǒng)博客在信息傳播結(jié)構(gòu)上的區(qū)別。Kwak等人[2]認為轉(zhuǎn)發(fā)方式是Twitter消息傳播中最有效的方式之一,基于微博轉(zhuǎn)發(fā)關(guān)系,針對不同的熱點話題,構(gòu)建了微博轉(zhuǎn)發(fā)樹,并對微博轉(zhuǎn)發(fā)機制進行了研究。通過對微博轉(zhuǎn)發(fā)樹的廣度進行分析發(fā)現(xiàn),Twitter用戶并非通過直接接收的方式獲得信息,即大部分用戶并不是該消息發(fā)布者的直接關(guān)注者,而是通過用戶與用戶間轉(zhuǎn)發(fā)微博而間接收到消息,且微博一經(jīng)轉(zhuǎn)發(fā),不管用戶關(guān)注者有多少,該微博總會被傳播到一定數(shù)量的用戶。對微博轉(zhuǎn)發(fā)樹的深度進行分析發(fā)現(xiàn),微博轉(zhuǎn)發(fā)樹中約占97.6%其轉(zhuǎn)發(fā)深度小于6。這體現(xiàn)了Twitter消息網(wǎng)絡(luò)中信息傳播范圍廣且速度快的特點,即病毒式傳播特點。在這種病毒式傳播網(wǎng)絡(luò)中,研究分析哪些微博被轉(zhuǎn)發(fā)的可能性較大,從而預(yù)測出可能被轉(zhuǎn)發(fā)的微博,然后在此基礎(chǔ)上根據(jù)不同需求利用預(yù)測結(jié)果,其價值是相當(dāng)可觀的,如文獻[14-16]等就針對該研究點進行了相關(guān)工作。在微博中對實時熱點話題的廣泛討論是一大特色,然而不同類型的話題在傳播機制上存在一定的差異。Romero等人[17]基于Twitter中利用“#”符號來標(biāo)示話題的特點,研究分析了Twitter消息網(wǎng)絡(luò)中不同類型話題的傳播特性。Sadikov等人[18]還針對消息在傳播的過程中導(dǎo)致信息丟失的問題做了相關(guān)研究。

筆者認為深入研究微博這一新興社會網(wǎng)絡(luò)的整體拓撲結(jié)構(gòu)特性,無論是對于評估當(dāng)前的微博本身,還是實現(xiàn)基于微博的應(yīng)用都具有重要意義。然而,目前大部分的研究都是基于Twitter,而針對中文微博的相關(guān)研究還很少,因此,在中國以新浪微博為代表的在線社會網(wǎng)路快速發(fā)展的同時,如果能夠深入研究中文微博的拓撲結(jié)構(gòu)及其基本特性,將為國內(nèi)在線社會網(wǎng)絡(luò)未來的良性發(fā)展提供重要的保證。

3 微博內(nèi)容的語義分析

微博不僅具有社會網(wǎng)絡(luò)的結(jié)構(gòu)性特征,微博內(nèi)容本身也包含了豐富的語義信息。基于微博內(nèi)容的語義分析,其研究工作主要是從用戶發(fā)布的微博內(nèi)容中挖掘出有價值的信息,可分為面向事實(Fact-Oriented)的文本挖掘和面向觀點(Opinion-Oriented)的文本挖掘兩類。其中面向事實的文本挖掘主要包括熱點話題探測[19]、主題抽取、垃圾信息處理、自動摘要等,在本文中歸納為微博內(nèi)容的基本語義分析。而面向觀點的文本挖掘即情感分析或觀點挖掘是指從用戶發(fā)布的信息中挖掘出其對討論主題的潛在情感信息。因此,基于微博的情感語義分析研究工作主要是指對微博內(nèi)容進行情感分析和觀點挖掘。

3.1 微博內(nèi)容的基本語義分析

微博為用戶提供了更加便捷的日志工具,用戶可通過微博發(fā)布大量的日常信息,而這些信息中通常隱含著用戶的興趣愛好,因此,與基于 Web網(wǎng)頁內(nèi)容的自動標(biāo)注[20]類似,可利用微博內(nèi)容自動為用戶生成標(biāo)簽,如 Wu等人[21]利用 TF-IDF與 Text-Rank[22]兩種不同的算法來自動提取用戶發(fā)布微博中的關(guān)鍵詞,從而標(biāo)注用戶的興趣愛好,其中Text-Rank算法的效果明顯好于TF-IDF算法。

基于微博內(nèi)容的文本自動摘要較傳統(tǒng)文本摘要技術(shù)存在以下兩方面的困難,一是微博消息內(nèi)容短小,垃圾信息較多;二是和傳統(tǒng)文本相比,微博中涉及的話題范圍較廣。Zhao等人[23]針對微博的特點提出了基于上下文話題相關(guān)的PageRank算法,對微博進行關(guān)鍵詞提取和排序,然后利用基于概率的得分函數(shù)計算關(guān)鍵詞短語間的相關(guān)度和興趣度,最后利用這些關(guān)鍵詞對某話題特定時間段內(nèi)的所有微博進行自動摘要生成。

在基于微博的話題探測方面,Zhao等人[24]還提出了非監(jiān)督LDA話題模型的改進形式Twitter-LDA模型,對Twitter與紐約時報在信息傳播力(包括內(nèi)容和速度兩方面)進行了對比,并認為Twitter傳播力更強。研究微博內(nèi)容的價值也是值得關(guān)注的方向之一,如Hong等人[25]利用微博的轉(zhuǎn)發(fā)次數(shù)作為度量微博流行程度的度量標(biāo)準(zhǔn),并利用機器學(xué)習(xí)的方法,通過分析微博的內(nèi)容、微博的時間特性、消息和用戶的元數(shù)據(jù)以及用戶社會網(wǎng)絡(luò)圖作為特征,預(yù)測新的微博發(fā)布后在多長時間內(nèi)會被轉(zhuǎn)發(fā)。

由于每個用戶都可使用微博發(fā)布信息使得在微博網(wǎng)絡(luò)中信息泛濫,最終導(dǎo)致信息的平均可靠度也隨之下降。Castillo等人[26]分析了微博的可信度,利用四個特征來度量微博的可信度:基于消息的特征,如消息的長度、是否存在“?!狈?、是否存在問號或感嘆號以及情感詞匯的數(shù)目等;基于用戶的特征,如用戶注冊時間、關(guān)注人數(shù)、被關(guān)注人數(shù)、過去發(fā)布微博的數(shù)量等;基于話題的特征,如有多少微博包含URL;基于消息傳播的特征,如微博轉(zhuǎn)發(fā)樹的深度和廣度等。結(jié)果表明:可信度高的微博被轉(zhuǎn)發(fā)次數(shù)也較多;微博的原始發(fā)布者一般集中在少數(shù)用戶中;轉(zhuǎn)發(fā)微博的用戶往往具有轉(zhuǎn)發(fā)的習(xí)慣。曹鵬等人[27]提出了一種Twitter中近似重復(fù)消息的判定方法,統(tǒng)計字符種類和最短編輯距離兩種字符串距離以判定Twitter中近似重復(fù)的消息。該方法可在一定程度上提高微博的信息利用率。

3.2 微博內(nèi)容的情感語義分析

3.2.1 傳統(tǒng)的情感分析和觀點挖掘

情感分析(Sentiment Analysis)也可稱為觀點挖掘(Opinion Mining)[28-30],隨著 Web2.0的發(fā)展,越來越多的用戶在網(wǎng)絡(luò)上發(fā)布具有不同情感趨向的信息,研究這些用戶信息中潛在的情感信息,挖掘用戶的潛在觀點一直是研究的熱點,但已有的觀點挖掘研究主要集中于在線產(chǎn)品評論或傳統(tǒng)博客上,較少有針對微博的觀點挖掘研究。

文獻[31]中提出了一種基于詞匯的方法,該方法用簡單的觀點詞匯來確定觀點的情感語義傾向。觀點詞匯是指經(jīng)常被用于表達正面或者負面情感的詞,這種方法從根本上取決于出現(xiàn)在對象或?qū)ο筇卣鞲浇恼婊蜇撁嬗^點詞個數(shù)。如果正面觀點詞個數(shù)大于負面觀點詞個數(shù),那么最終觀點就是正面的,否則為負面的。觀點詞匯集合利用英文詞網(wǎng)(WordNet)[32]通過引導(dǎo)過程得到,這種方法簡單有效,能給出較合理的結(jié)果,但也存在較大的問題,觀點詞是依賴于內(nèi)容的,在不同的語境中它所表達的語義傾向可能完全不同。Ding等人[33]提出了一種基于全局詞匯的方法,該方法充分利用了外部證據(jù)和自然語言表達中的語言約定。在中文領(lǐng)域,復(fù)旦大學(xué)朱嫣嵐等人[34]利用類似于 WordNet的中文知網(wǎng)(HowNet)進行了一些理論和試驗研究;章劍鋒等人[35]將同一句子中共現(xiàn)的評價詞與評價對象作為候選集合,應(yīng)用最大熵模型并結(jié)合詞、詞性、語義和位置等特征進行抽取評價詞和目標(biāo)對象之間的關(guān)聯(lián)關(guān)系,具有一定的效果。哈爾濱工業(yè)大學(xué)杜偉夫[36]提出一個可擴展的詞匯語義傾向計算框架,將詞語語義傾向計算問題歸結(jié)為優(yōu)化問題,通過實驗證明了方法的有效性。中國科學(xué)院計算所劉群等人[37]提出了一種基于知網(wǎng)的詞匯語義相似度計算方法;廖祥文等人[38]提出一個基于概率推理模型的博客傾向性檢索算法,該算法把主題相關(guān)性評分和傾向性評分合并到一個統(tǒng)一的概率推理理論模型,實驗證明該算法針對傳統(tǒng)博客是有效的。

2011年5月浮選車間進行了土建施工,隨后進行了浮選設(shè)備招標(biāo)安裝及電控系統(tǒng)的安裝。并組織公司安監(jiān)人員對浮選車間安全設(shè)施進行了預(yù)先檢查,對存在的安全隱患限定整改時間,確保了浮選車間高質(zhì)量建設(shè)和設(shè)備安全運行。。

綜上所述,盡管有許多研究工作針對觀點挖掘展開,但始終沒有一個一般性的框架或者模型能清楚的描述觀點挖掘中的各個方面及它們之間的聯(lián)系。微博無論是在內(nèi)容和形式上與傳統(tǒng)Web信息都存在較大的差別,微博具有單一性、碎片化、開放性及實時性等特點,而傳統(tǒng)Web信息具有多樣性及完整性等特點,其更新及傳播速度也相對較慢。已有的觀點挖掘方法是針對傳統(tǒng)Web信息,并不能完全適用于中文微博中的觀點挖掘。

3.2.2 基于微博的情感語義分析

微博正日益成為一個普遍流行的實時性交流工具,大量網(wǎng)絡(luò)用戶每天都會發(fā)布并傳播高達幾千萬的微博,在這些微博中包含著不同用戶的日常生活記錄,因此微博為情感分析與觀點挖掘提供了豐富的數(shù)據(jù)來源,從中挖掘出相關(guān)用戶對某個特定主題或事件的觀點,如對使用過的產(chǎn)品或服務(wù)的滿意程度以及用戶的政治或宗教觀點等。同時,由于微博內(nèi)容簡短、結(jié)構(gòu)自由、實時性高且數(shù)據(jù)量大也為進行用戶情感分析和觀點挖掘提出了挑戰(zhàn)。

微博用戶和用戶之間存在社會網(wǎng)絡(luò)關(guān)系,用戶通過微博所體現(xiàn)的觀點集之間也存在語義上的關(guān)聯(lián)關(guān)系,而事件特征之間同樣存在隱含的關(guān)系。這些隱含的關(guān)聯(lián)對情感分析會產(chǎn)生潛在的影響。如圖1所示,在微博中,用戶對事件或者事件特征表達某種觀點,u代表用戶,f代表事件特征,o代表用戶觀點。在u空間形成了微博用戶社會網(wǎng)絡(luò),在f空間形成特征關(guān)系網(wǎng)絡(luò),而在o空間形成觀點語義網(wǎng)絡(luò),因此,這三者(用戶、事件特征和觀點)之間存在關(guān)聯(lián)關(guān)系,需建立三維關(guān)聯(lián)關(guān)系R(u,f,o)。

Bermingham等人[39]研究結(jié)果表明,針對微博進行情感分析相對傳統(tǒng)博客的效果將會更好,微博已經(jīng)成為情感分析與觀點挖掘的有效文本領(lǐng)域。Go等人[40]利用機器學(xué)習(xí)的方法對微博消息進行情感分類,即判斷一條微博消息的情感傾向是正面還是負面。在訓(xùn)練集的選擇上,利用微博中的表情作為類別標(biāo)記,然后利用樸素貝葉斯和支持向量機等不同的分類算法訓(xùn)練分類器,從而實現(xiàn)微博的情感分類。Kim等人[41]研究了 Michael Jackson的死亡對Twitter用戶產(chǎn)生的情感影響,結(jié)果表明在這段時間內(nèi)用戶的情感普遍表現(xiàn)出低落的趨勢。Jansen等人[42]對微博進行隨機抽樣分析,結(jié)果表明大概19%的微博會涉及到針對某個產(chǎn)品品牌的評論,并利用自動分類的方法提取不同用戶對相應(yīng)產(chǎn)品的情感傾向性,指出Twitter可以作為在線市場營銷的重要工具。另外,還有研究人員根據(jù)Twitter用戶發(fā)布的微博探測目前股票市場的走勢[43]以及預(yù)測總統(tǒng)選舉的結(jié)果[44]等。在應(yīng)用方面,已開發(fā)了用來測量微博褒貶傾向性的在線工具TweetFeel①http://www.tweetfeel.com/。

圖1 用戶、觀點和事件特征的內(nèi)外部關(guān)聯(lián)關(guān)系

筆者認為以上研究主要存在以下問題:(1)僅利用微博中包含的表情分類訓(xùn)練集中文本的褒貶存在一定偏差,并可能導(dǎo)致各類的訓(xùn)練文本數(shù)相差較大;(2)大部分的工作都是利用統(tǒng)計微博中詞匯的出現(xiàn)頻率來確定其情感傾向性,并沒有考慮其上下文語境,從而影響最終結(jié)果的正確性;(3)大部分的分析方法將傳統(tǒng)的情感分析方法移植到微博中,并沒有深入考慮微博自身具有的特點。因此,如果能在傳統(tǒng)情感分析方法的基礎(chǔ)上,更多考慮微博自身的獨特之處,將能取得更好的情感挖掘效果。

4 微博中的應(yīng)用研究

4.1 微博事件檢測與預(yù)測

Sakaki等人[45]通過實時監(jiān)控微博用戶的狀態(tài)更新來進行地震探測,并實現(xiàn)了一個地震探測系統(tǒng)。該方法首先對目標(biāo)事件進行分析,提取目標(biāo)事件的特征屬性,然后利用機器學(xué)習(xí)算法將監(jiān)控到的所有微博用戶的狀態(tài)信息進行分類,最后對分類結(jié)果計算出目標(biāo)事件信息,利用基于概率的時空模型定位地震源,將每個微博用戶看作是一個傳感器,每個用戶發(fā)表的每一個微博狀態(tài)信息被視為傳感信息,利用普適計算中普遍使用的過濾方法定位地震源。文獻[46]將利用圖像中的像素概念來表示微博用戶對某事件的興趣,并結(jié)合微博包含的時間信息,將事件相關(guān)微博表示成類似視頻文件的動態(tài)結(jié)構(gòu),用來監(jiān)測事件發(fā)展的形勢變化情況。

4.2 微博中的安全及隱私

由于共享信息的私有性,數(shù)據(jù)隱私在微博中具有獨立的安全需求。Zhang等人[47]對在線社會網(wǎng)絡(luò)中的隱私安全問題進行了探討,提出了在線社會網(wǎng)絡(luò)包括Twitter等在設(shè)計上存在的問題和挑戰(zhàn),給出了一個統(tǒng)一的框架來評價當(dāng)前及下一代在線社會網(wǎng)絡(luò)的安全性及隱私保護。Sun等人[48]提出了一種有效廢止的方法提供在線社會網(wǎng)絡(luò)的隱私保護,一旦聯(lián)系人從社會組中被移除,將會遏制該聯(lián)系人訪問權(quán)限,同時該方法還具有高級特征,如有效搜索加密文件以及動態(tài)改變社會組成員。

4.3 微博實時檢索

微博具有較高的實時性,關(guān)于提高搜索質(zhì)量的研究有許多。這些研究大都集中在:(1)根據(jù)查詢和文檔的相似性進行排序。目前,這種技術(shù)包括產(chǎn)生錨文本、抽取元數(shù)據(jù)、分析鏈接關(guān)系和挖掘用戶日志等。(2)根據(jù)鏈接關(guān)系計算出文檔質(zhì)量。而微博的實時性及其海量數(shù)據(jù),決定了傳統(tǒng)的搜索技術(shù)并不能完全應(yīng)用于微博信息檢索。Teevan等人[49]給出了關(guān)于微博搜索的相關(guān)分析工作。通過工具欄的內(nèi)嵌方法采集了大量用戶的微博搜索日志與其Web搜索日志,并對日志數(shù)據(jù)進行了對比分析。結(jié)果表明,微博搜索用戶更愿意搜索時間性強的內(nèi)容,包括突發(fā)新聞、實時報道和時勢動態(tài);微博搜索語句往往更短、更熱門且常常被重復(fù)查詢。

4.4 微博中的其他應(yīng)用

微博在不同領(lǐng)域已得到了廣泛的應(yīng)用,包括其在政府、教育、市場等方面的應(yīng)用。Barau等人[50]將Twitter應(yīng)用到英語教學(xué)中;Ebner等人[51]針對教育方向研究了Twitter的適用性,特別是在移動學(xué)習(xí)方面;文獻[52]通過微博用戶的興趣和微博內(nèi)容來定義領(lǐng)域描述特征,從而將微博短文字分為預(yù)先定義好的類。Pujol等人[53]設(shè)計并實現(xiàn)了一個可以提高微博在線網(wǎng)絡(luò)服務(wù)可擴展性的中間件SPAR,該中間件通過平衡社會圖的結(jié)構(gòu),以最小的復(fù)制成本在本地獲得數(shù)據(jù)。Duan等人[54]提出另一種新的排序策略,不僅利用了微博內(nèi)容的相關(guān)性,還考慮了其權(quán)威性以及URL等特征,其結(jié)果表明微博是否包含URL、微博長度及其權(quán)威性是排序的最佳組合。Sarma 等 人[55]研 究 了 微 博 的 排 序 機 制。Huang等人[56]利用統(tǒng)計的方法研究了Twitter上的標(biāo)注現(xiàn)象,包括標(biāo)注本身和用戶標(biāo)注的意圖,并對Twitter上出現(xiàn)的標(biāo)注現(xiàn)象進行了解釋。除了上述基于微博的學(xué)術(shù)研究,目前也開始出現(xiàn)基于微博的應(yīng)用平臺。例如,Tweettronics①http://www.tweettronics.com提供了對品牌與產(chǎn)品相關(guān)微博信息進行分析的平臺,主要用于市場目的。該平臺可以將用戶微博分為正面和負面兩種評價,同時可識別出有影響力的用戶。

5 中文微博的信息處理

以Twitter為代表,基于英文微博的研究正不斷取得新的進展,最近召開的 WWW2011、SIGIR2011以及WSDM2011等世界著名計算機會議上微博相關(guān)的文章占了較大比例,說明針對微博的研究是目前的一大熱點,然而在中國雖然有新浪,網(wǎng)易、騰訊等知名微博服務(wù)提供商的蓬勃發(fā)展,中國微博用戶都已數(shù)以億計,但針對中文微博的學(xué)術(shù)研究比較匱乏。分析其原因,除了中文微博屬新興服務(wù)之外,比較重要的因素在于,中文微博中的信息以漢語語言形式存在,在信息處理領(lǐng)域,中文信息處理一直要比英文信息處理更具挑戰(zhàn)性。因此,筆者認為隨著國內(nèi)互聯(lián)網(wǎng)的快速發(fā)展,無論從商業(yè)價值還是社會研究價值,分析研究以微博為代表的中國在線社會網(wǎng)絡(luò)的意義重大,應(yīng)用前景廣闊。大致可以從以下幾個方面進行研究。

5.1 中文微博的特性

針對微博社會網(wǎng)絡(luò)的特性分析研究已經(jīng)有了初步的研究成果,在前文中也提到,主要有微博用戶社會網(wǎng)絡(luò)特性和微博消息網(wǎng)絡(luò)特性兩方面,目前仍有研究人員在進行更深入的研究工作。與此同時,大部分人認為以新浪微博為代表的中文微博與以Twitter為代表的英文微博沒有太大的區(qū)別,然而最近惠普實驗室發(fā)表的一篇論文[57]中指出,新浪微博無論在實現(xiàn)模式上還是在微博內(nèi)容上都與Twitter存在較大的差別,Sina微博與Twitter的統(tǒng)計對比分析如表1所示。究其原因,筆者認為這是由于中國擁有世界上最大的網(wǎng)民數(shù)量,在線社會網(wǎng)絡(luò)服務(wù)的崛起呈現(xiàn)出爆炸性增長,且大部分的用戶都來自中國,大部分的內(nèi)容信息以中文語言形式存在。同時,與西方國家(包括美國)的社會網(wǎng)絡(luò)發(fā)展軌跡不同,國內(nèi)社會網(wǎng)絡(luò)呈現(xiàn)出不同的特性。這與中國宏觀環(huán)境密切相關(guān),包括經(jīng)濟的飛速發(fā)展、技術(shù)基礎(chǔ)設(shè)施的快速擴張以及社會的轉(zhuǎn)型等,因而中國在線社會網(wǎng)絡(luò)服務(wù)(以新浪微博為例)呈現(xiàn)出不同的發(fā)展趨勢和特征。

表1 Sina微博與Twitter的統(tǒng)計對比分析表

微博在中國正獲得蓬勃發(fā)展,國外科學(xué)家和社會學(xué)家也逐漸開始從國際視角來對中國的在線社會網(wǎng)絡(luò)進行研究。因此,國內(nèi)研究工作者也應(yīng)該把握住這樣的機遇,中文微博是國內(nèi)在線社會網(wǎng)絡(luò)的研究熱點,對中文微博社會網(wǎng)絡(luò)的特性分析和中文微博內(nèi)容的語義分析,無論對當(dāng)前系統(tǒng)的優(yōu)化還是開發(fā)新的應(yīng)用系統(tǒng)都有著至關(guān)重要的作用。

5.2 中文微博的知識發(fā)現(xiàn)

目前,我國互聯(lián)網(wǎng)用戶已達4.52億,成為僅次于美國的互聯(lián)網(wǎng)用戶世界排名第二的國家,另外,微博在我國近兩年發(fā)展迅速,受到廣大網(wǎng)民的喜愛。究其原因,主要在于微博的方便、快捷、實時和高效等特點,同時微博內(nèi)容更加自由且對用戶的寫作能力要求更低,微博用戶可以較傳統(tǒng)博客用戶更方便地發(fā)表觀點。由于微博客觀真實地反映了由個體所組成社會的整體狀態(tài),因此筆者認為應(yīng)該針對微博背后的社會價值進行有效深挖,微博應(yīng)成為執(zhí)政者了解民意、分析輿情以及制定對策的快捷通道。特別是當(dāng)今社會處于轉(zhuǎn)型期,社會問題和社會矛盾前所未有的激化和突出,及時了解社會動態(tài)意義重大。

中文微博是適合中文信息處理的一種新文本模式,已有的中文信息處理技術(shù)有部分可直接應(yīng)用于中文微博中,而微博不完全同于已有的短文本,它自身具有的簡短、實時性及社會性等特征,應(yīng)在研究中充分考慮。謝麗星等人[58]使用新浪API獲取數(shù)據(jù),針對中文微博消息展開了情感分析方面的初步研究。對于三種情感分析的方法進行了深入研究,包括表情符號的規(guī)則方法、情感詞典的規(guī)則方法、基于SVM的層次結(jié)構(gòu)的多策略方法,實驗表明基于SVM的層次結(jié)構(gòu)多策略方法效果最好。

在國內(nèi),針對中文微博的研究還不多見。筆者認為,將中文信息處理技術(shù)與微博自身特性相結(jié)合,推出更為智能化、更為個性化、更易于操作以及更加有利于組織和利用中文微博信息的方法與技術(shù),將是未來中文微博領(lǐng)域較為前沿的研究課題。特別是針對中文微博的內(nèi)容,進行基于中文微博的語義分析,挖掘中文微博中用戶隱含的情感信息,在此基礎(chǔ)上進行相關(guān)的預(yù)警預(yù)測及輿情分析,是具有重要理論及使用價值的研究課題。

6 存在問題和未來研究方向

目前,微博開始呈現(xiàn)比較廣泛的研究,但是由于難以對其語義進行管理和應(yīng)用,微博及中文微博的研究成果還不能令人滿意。目前,在微博信息處理研究領(lǐng)域依然存在以下問題和挑戰(zhàn)。

(1)微博內(nèi)容松散、信息呈現(xiàn)碎片化

微博追求快速傳遞,很多信息在發(fā)送過程中未經(jīng)加工,文字內(nèi)容松散,不能清晰有效地向受眾傳達事件信息。簡潔的信息發(fā)布方式,促使用戶頻繁上傳信息,信息超載現(xiàn)象較為嚴(yán)重。據(jù)調(diào)查,在Twitter上有40.55%的內(nèi)容屬于毫無價值的信息。有效信息很容易被淹沒,信息提取成本高昂。筆者認為針對這一問題,微博未來的發(fā)展可以呈現(xiàn)多元化的特點,如針對不同領(lǐng)域,提供不同方向的專業(yè)微博平臺,從而部分解決微博內(nèi)容太過松散的問題。

(2)微博可信度

微博信息的發(fā)布取決于用戶的自律,可信度受到質(zhì)疑。不完整的信息經(jīng)過用戶不斷轉(zhuǎn)發(fā)后,難以找到信息源。而微博可信度從根本上依賴于發(fā)布微博的用戶。因此對微博用戶的研究也是很重要的課題之一。如何對微博用戶進行分類,如何識別具有重要影響力的用戶,這些都是需要重點解決的問題。通過建立完整的微博用戶社會網(wǎng)絡(luò),分析微博用戶社會網(wǎng)絡(luò)的基本特性及社會屬性,以此為基礎(chǔ)形成比較完善的微博可信度評價體系,是解決這一問題的根本途徑。

(3)微博語義挖掘

微博由大眾產(chǎn)生,當(dāng)微博匯集在一起時,由于缺乏規(guī)范和層次性,導(dǎo)致很難從大量的微博以及微博用戶間建立起層次結(jié)構(gòu)的語義關(guān)系。如對熱點事件跟進時,無法獲取大眾對熱點事件的整體觀點,也無法從整體層面獲取大眾的輿論導(dǎo)向。獲取海量微博中有價值的信息,需挖掘微博社會網(wǎng)絡(luò)所隱含的語義信息及情感關(guān)聯(lián)。解決這一問題,需要在已有的語義分析及情感挖掘技術(shù)基礎(chǔ)之上,結(jié)合微博自身的特點,提出新的微博語義分析方法,這也是目前尚待解決的重點及熱點問題之一。

(4)中文微博中的觀點挖掘

專門針對中文微博的研究還屬于起步階段,很多方面的問題亟待解決。由于文化差異導(dǎo)致語言表達方式不同、語言結(jié)構(gòu)的差異以及中英文詞匯語法的差別,因此,研究基于中文微博的語義分析和觀點挖掘就凸顯其必要性,如何從浩瀚的中文微博中特別是熱點話題中獲取有效的信息,發(fā)現(xiàn)用戶對于熱點事件的觀點,用于事件監(jiān)測和趨勢預(yù)測,是目前亟待解決的重點研究課題。另外在政策風(fēng)險及輿情分析上,微博比博客更加難以監(jiān)控其內(nèi)容,進行面向中文微博的語義分析和觀點挖掘研究,也是實現(xiàn)內(nèi)容監(jiān)控及輿情分析的基礎(chǔ),具有重要的研究和應(yīng)用價值。在企業(yè)商業(yè)智能系統(tǒng)、政府輿情分析等諸多領(lǐng)域有著廣闊的應(yīng)用空間和發(fā)展前景。

(5)垃圾微博的處理

目前,在提供微博的在線社會網(wǎng)絡(luò)服務(wù)中,存在大量惡意且無用的垃圾微博信息,這些垃圾微博十分不利于對網(wǎng)絡(luò)資源的共享、檢索和定位。對于垃圾微博,目前主要依靠手工檢查和刪除,其他很多提供此服務(wù)的微博應(yīng)用大多采用手工方式。由于微博不同于一般網(wǎng)頁,目前已有的垃圾網(wǎng)頁識別方法并不能直接用于垃圾微博的處理中。因此,能夠自動檢測垃圾微博是當(dāng)前須解決的一個問題,這一問題的解決將大大提高海量微博信息的有效利用率。

(6)微博實時信息檢索

微博在信息檢索中的應(yīng)用研究尚處于探索階段,考慮到微博的高實時性及微博數(shù)據(jù)的海量性,微博檢索將成為未來的研究熱點之一。已有的信息檢索技術(shù)并不能完全解決微博的實時檢索問題。問題的難點在于快速且實時地將搜索結(jié)果更新給查詢用戶,并對實時結(jié)果進行正確排序。如何將已有的信息檢索方法有效地融入到微博實時檢索中,提出有效的微博索引構(gòu)建機制和微博實時檢索結(jié)果排序方法,幫助用戶快速發(fā)現(xiàn)所需要的信息,在此基礎(chǔ)上盡可能保證微博信息的實時性,也是目前亟待解決的問題之一。

7 結(jié)束語

隨著微博在線社會網(wǎng)絡(luò)服務(wù)的普及和微博用戶的急劇增加,對微博的研究成為目前關(guān)注的重點,研究者已經(jīng)在這方面做了大量的工作,本文對近幾年來國內(nèi)外在該領(lǐng)域的主要成果進行了回顧與總結(jié),綜述了微博的研究現(xiàn)狀,包括微博社會網(wǎng)絡(luò)的特性、微博內(nèi)容的語義分析及其在觀點挖掘及信息檢索中的應(yīng)用等,同時指出了仍然存在的問題和將來進一步研究的方向??偟膩碚f,對微博及中文微博的研究仍然處于探索階段,離商業(yè)應(yīng)用還有很長的路要走,仍然有大量關(guān)鍵問題還需做深入細致的研究。

隨著中國微博服務(wù)的蓬勃發(fā)展,新浪、騰訊等公司相繼對外開放了其微博API接口,這對于研究中文微博所需的實驗數(shù)據(jù)提供了方便,為研究中文微博提供了一個良好的契機。隨著中文微博用戶的日益增長,對中文微博的研究日趨重要。如何在已有的微博相關(guān)研究成果和觀點挖掘方法的基礎(chǔ)上,結(jié)合中文自然語言處理技術(shù)和中文微博自身的特點,提出新的模型和方法,挖掘中文微博中蘊含的語義信息及用戶觀點,使之能有效應(yīng)用于熱點事件監(jiān)測及趨勢預(yù)測中,是需要重點解決的問題。

[1]A.Java,X.Song,T.Finin,et al.Why we twitter:understanding microblogging usage and communities.[C]//Proceedings of the 9th WebKDD and 1st SNAKDD 2007Workshop on Web Mining and Social Network Analysis,2007:56-65.

[2]H.Kwak,C.Lee,H.Park,et al.What is Twitter,a social network or a news media[C]//Proceedings of the International Conference on Word Wide Web(WWW),2010:591-600.

[3]S.Wu,J.M.Hofman,W.A.Mason,et al.Who says what to whom on Twitter[C]//Proceedings of the International Conference on World Wide Web(WWW),2011:705-714.

[4]M.Gupte,P.Shankar,J.Li,et al.Finding hierarchy in directed online social networks[C]//Proceedings of the International Conference on World Wide Web(WWW),2011:557-566.

[5]A.Arasu,J.Cho,H.Garcia-Molina,et al.Searching the web[J].ACM Transactions on Internet Technology,2001,1(1):2-43.

[6]J.Weng,E.Lim,J.Jiang,et al.TwitterRank:finding topic-sensitive influential twitterers[C]//Proceedings of the ACM Conference on Web Search and Data Mining(WSDM),2010:261-270.

[7]M.Cha,H.Haddadi,F(xiàn).Benevenuto,K.P.Gummad.Measuring user influence on twitter:the million follower fallacy[C]//Proceedings of the 4th International AAAI Conference on Weblogs and Social Media,2010.

[8]E.Bakshy,J.M.Hofman,W.A.Mason,et al.Everyone's an influencer:quantifying influence on Twitter[C]//Proceedings of the ACM Conference on Web Search and Data Mining(WSDM),2011:65-74.

[9]B.Krishnamurthy,P.Gill,M.Arlitt.A few chirps about twitter[C]//Proceedings the 1st Workshop on Online Social Networks,2008:19-24.

[10]D.Zhao,M.B.Rosson.How and why people twitter:the role that micro-blogging plays in informal communication at work[C]//Proceedings of the International Conference on Supporting Group Work,2009:243-252.

[11]Aditya Pal,Scott Counts.Identifying topical authorities in microblogs[C]//Proceedings of the ACM Conference on Web Search and Data Mining(WSDM),2011:45-54.

[12]M.Welch,U.Schonfeld,D.He,et al.Topical semantics of Twitter links[C]//Proceedings of the ACM Conference on Web Search and Data Mining(WSDM),2011:327-336.

[13]J.Yang,S.Counts.Comparing information diffusion structure in weblogs and microblogs[C]//Proceedings of the International AAAI Conference on Weblogs and Social Media(ICWSM),2010.

[14]J.Yang,S.Counts.Predicting the speed,scale,and range of information diffusion in Twitter[C]//Proceedings of the International AAAI Conference on Weblogs and Social Media(ICWSM),2010.

[15]S.Petrovic,M.Osborne,V.Lavrenko.RT to win!predicting message propagation in Twitter[C]//Proceedings of the International AAAI Conference on Weblogs and Social Media(ICWSM),2011.

[16]J.Leskovec.Social media analytics:Tracking,modeling and predicting the flow of information through networks[C]//Proceedings of the International Conference on World Wide Web (WWW),2011:277-278.

[17]D.Romero,B.Meeder,J.Kleinberg.Differences in the mechanics of information diffusion across topics:idioms,political hashtags,and complex contagion on Twitter[C]//Proceedings of the International Conference on World Wide Web(WWW),2011:695-704.

[18]S.Sadikov,M.Medina,J.Leskovec,et al.Correcting for missing data in information cascades[C]//Proceedings of the ACM Conference on Web Search and Data Mining(WSDM),2011:55-64.

[19]楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發(fā)現(xiàn) [J].中文信息學(xué)報,2012,26(1):84-90,109.

[20]靳延安,李瑞軒,文坤梅,等.社會標(biāo)注及其在信息檢索中的應(yīng)用研究綜述 [J].中文信息學(xué)報,2010,24(4):52-62.

[21]W.Wu,B.Zhang,M.Ostendorf.Automatic Generation of Personalized Annotation Tags for Twitter Users[C]//Proceedings of the Annual Conference of the North American Chapter of Association for Computational Linguistics(ACL),2010:689-692.

[22]Mihalcea,P.Tarau.TextRank:bringing order into texts[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2004:404-411.

[23]X.Zhao,J.Jiang,J.He,et al.Topical keyphrase extraction from Twitter[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics(ACL),2011:379-388.

[24]W.Zhao,J.Jiang,J.Weng.Comparing Twitter and traditional media using topic models[C]//Proceedings of the European Conference on Information Retrieval(ECIR),2011:338-349.

[25]L.Hong,O.Dan,B.D.Davison.Predicting popular messages in twitter[C]//Proceedings of the Inter-national Conference on World Wide Web (WWW),2011:57-58.

[26]C.Castillo,M.Mendoza,B.Poblete.Information credibility on twitter[C]//Proceedings of the International Conference on World Wide Web (WWW),2011:675-684.

[27]曹鵬,李靜遠,滿彤,等.Twitter中近似重復(fù)消息的判定方法研究 [J].中文信息學(xué)報,2011,25(1):20-27.

[28]M.Hu,B.Liu.Mining and summarizing customer reviews[C]//Proceedings of the Annual Conference of the ACM Special Interest Group on Knowledge Discovery and Data Mining(SIGKDD),2004:168-177.

[29]N.Kaji,M.Kitsuregawa.Automatic construction of polarity-tagged corpus from HTML documents[C]//Proceedings of the Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics(COLING/ACL),2006:452-459.

[30]L.Zhuang,F(xiàn).Jing,X.Zhu,et al.Movie review mining and summarization[C]//Proceedings of the 15th ACM International Conference on Information and Knowledge Management(CIKM),2006:43-50.

[31]A.Andreevskaia,S.Bergler.Mining WordNet for fuzzy sentiment:sentiment tag extraction from Word-Net glosses[C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics(EACL),2006:209-216.

[32]G.A.Miller.WordNet:a lexical database for English [J].ACM Transactions on Communication,1995,38(11):39-41.

[33]X.Ding,B.Liu,P.Yu.A holistic lexicon-based approach to opinion mining[C]//Proceedings of the ACM Conference on Web Search and Data Mining(WSDM),2008:231-240.

[34]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算 [J].中文信息學(xué)報,2006,1(20):14-20.

[35]章劍鋒,張奇,吳立德,等.中文觀點挖掘中的主觀性關(guān)系抽取 [J].中文信息學(xué)報,2008,22(2):55-59,86.

[36]杜偉夫,譚松波,云曉春.一種新的情感詞匯語義傾向計算方法 [J].計算機研究與發(fā)展,2009,46(10):1713-1720.

[37]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學(xué)研討會,2002.

[38]廖祥文,曹冬林,方濱興,等.基于概率推理模型的博客傾向性檢索研究 [J].計算機研究與發(fā)展,2009,46(9):1530-1536.

[39]A.Bermingham,A.Smeaton.Classifying sentiment in microblogs:is brevity an advantage?[C]//Pro-ceedings of the 19th ACM International Conference on Information and Knowledge Management (CIKM),2010:1833-1836.

[40]A.Go,L.Huang,R.Bhayani.Twitter sentiment analysis[R].Final Projects from CS224Nfor Spring 2008/2009at The Stanford Natural Language Processing Group.

[41]E.Kim,S.Gilbert,M.Edwards,et al.Detecting sadness in 140characters:sentiment analysis of mourning Michael Jackson on Twitter[R].Web E-cology Project,Boston,MA,2009.

[42]B.J.Jansen,M.Zhang,K.Sobel,et al.Microblogging as online word of mouth branding[C]//Proceedings of the 27th International Conference Extended Abstracts on Human Factors in Computing Systems,2009:3859-3864.

[43]J.Bollen,H.Mao,X.Zeng.Twitter mood predicts the stock market[J].Journal of Computational Science,2011,2(1):1-8.

[44]A.Tumasjan,T.O.Sprenger,P.G.Sandner,et al.Predicting elections with Twitter:what 140characters reveal about political sentiment[C]//Proceedings of the International AAAI Conference on Weblogs and Social Media(ICWSM),2010.

[45]T.Sakaki,M.Okazaki,Y.Matsuo.Earthquake shakes Twitter users:real-time event detection by social sensors[C]//Proceedings of the 19th International World Wide Web Conference(WWW),2010:851-860.

[46]V.K.Singh,M.Gao,R.Jain.Situation detection and control using spatio-temporal analysis of microblogs[C]//Proceedings of the 19th International World Wide Web Conference(WWW),2010:1181-1182.

[47]C.Zhang,J.Sun,X.Zhu,et al.Privacy and security for online social networks:challenges and opportunities[J].IEEE Network,2010,24(4):13-18

[48]J.Sun,X.Zhu,Y.Fang.A privacy-preserving scheme for online social networks with efficient revocation[C]//Proceedings of the 29th IEEE International Conference on Computer Communications(INFOCOM),2010:1-9.

[49]J.Teevan,D.Ramage,M.Morris.Twittersearch:A comparison of microblog search and web search[C]//Proceedings of the ACM Conference on Web Search and Data Mining(WSDM),2011:35-44.

[50]K.Borau,C.Ullrich,J.Feng,et al.Microblogging for language learning:using twitter to train communicative and cultural competence[C]//Proceedings of International Conference on Web-based Learning(ICWL),2009:78-87.

[51]M.Ebner,M.Schiefner.In microblogging more than fun?[C]//Proceedings of IADIS International Conference on Mobile Learning,2008:155-159.

[52]B.Sriram,D.Fuhry,E.Demir,et al.Short text classification in Twitter to improve information filtering[C]//Proceedings of the 33rd Annual Conference of the ACM Special Interest Group on Information Retrieval(SIGIR),2010:841-842.

[53]J.Pujol,V.Erramilli,G.Siganos,et al.The little engine(s)that could:scaling online social networks[C]//Proceedings of the Annual Conference of the ACM Special Interest Group on Data Communication(SIGCOMM),2010:375-386.

[54]Y.Duan,L.Jiang,T.Qin,et al.An empirical study on learning to rank of tweets[C]//Proceedings of the 23rd International Conference on Computational Linguistics(COLING),2010:295-303.

[55]A.D.Sarma,S.Gollapudi,R.Panigrahy.Ranking Mechanisms in Twitter-Like Forums[C]//Proceedings of the ACM Conference on Web Search and Data Mining(WSDM),2010:21-30.

[56]J.Huang,K.M.Thornton,E.N.Efthimiadis.Conversational tagging in Twitter[C]//Proceedings of the 21st ACM Conference on Hypertext and Hypermedia,2010:173-178.

[57]L.Yu,S.Asur,B.A.Huberman.What trends in Chinese social media[C]//Proceedings of the ACM SIGKDD Workshop on Social Network Mining and A-nalysis(SNA-KDD),2011.

[58]謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取 [J].中文信息學(xué)報,2012,26(1):73-83.

猜你喜歡
語義觀點情感
真實場景水下語義分割方法及數(shù)據(jù)集
如何在情感中自我成長,保持獨立
語言與語義
情感
詩歌與情感的斷想
如何在情感中自我成長,保持獨立
觀點
批評話語分析中態(tài)度意向的鄰近化語義構(gòu)建
“吃+NP”的語義生成機制研究
業(yè)內(nèi)觀點
大丰市| 湘阴县| 湖南省| 丰城市| 建平县| 哈巴河县| 乃东县| 黑河市| 泾阳县| 阿城市| 民权县| 西吉县| 颍上县| 永平县| 砚山县| 西城区| 诸城市| 太和县| 商河县| 阳谷县| 临清市| 怀安县| 玉龙| 泽库县| 丹棱县| 兴化市| 镇宁| 涟源市| 兴城市| 楚雄市| 霞浦县| 永昌县| 肥西县| 罗甸县| 清流县| 渭南市| 司法| 陈巴尔虎旗| 舒兰市| 怀仁县| 肃南|