国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的微博話(huà)題檢測(cè)方法研究進(jìn)展

2014-04-17 04:50:45孫國(guó)梓黃斯琪張禹森陳國(guó)蘭
關(guān)鍵詞:博文文本用戶(hù)

孫國(guó)梓,黃斯琪,張禹森,陳國(guó)蘭

(1.南京郵電大學(xué)計(jì)算機(jī)學(xué)院,江蘇 南京 210003; 2.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003;3.南京郵電大學(xué)圖書(shū)館,江蘇 南京 210003)

Web2.0的迅速發(fā)展以及信息傳播手段的進(jìn)步,使得近年來(lái)微博成長(zhǎng)為發(fā)展迅速且影響巨大的全民網(wǎng)絡(luò)媒體,也稱(chēng)自媒體形式。Twitter由Evan Williams在2006年正式推出,從此以后,開(kāi)啟了微博數(shù)據(jù)時(shí)代的大門(mén)。截至2013,Twitter累計(jì)注冊(cè)用戶(hù)已突破10億,月活躍用戶(hù)超過(guò)2.41億。近兩年,中文微博領(lǐng)域也呈現(xiàn)出一種迅速發(fā)展的態(tài)勢(shì)。從2009年8月新浪微博開(kāi)始發(fā)布到2013年9月,新浪微博注冊(cè)用戶(hù)數(shù)已超過(guò)5.5億,日活躍用戶(hù)數(shù)達(dá)到6 020萬(wàn)。

國(guó)內(nèi)外民眾對(duì)微博的廣泛使用,無(wú)疑將微博平臺(tái)提升為新一代具有影響力的網(wǎng)絡(luò)媒體。微博作為一種新的信息載體和傳播途徑,使網(wǎng)民對(duì)各種產(chǎn)品以及熱點(diǎn)話(huà)題的評(píng)論更加方便,在網(wǎng)路輿情信息發(fā)起和傳播中起著越來(lái)越重要的作用[1]。時(shí)效性相當(dāng)強(qiáng)的微博信息在突發(fā)性話(huà)題的傳播及評(píng)論方面速度很快,對(duì)于影響力較大的新聞話(huà)題,由于廣大用戶(hù)的積極參與、報(bào)道、轉(zhuǎn)發(fā)、評(píng)論,往往能夠在傳統(tǒng)媒體之前作出相應(yīng)的反應(yīng)。這更加說(shuō)明了微博在話(huà)題傳遞方面的功能不可小視[2]。實(shí)際上,已經(jīng)有研究證明,Twitter在應(yīng)對(duì)突發(fā)事件,諸如自然災(zāi)害、交通情況上有著較強(qiáng)的輔助與規(guī)避作用。

由此可見(jiàn),分析其中的網(wǎng)絡(luò)輿論,對(duì)微博中的話(huà)題進(jìn)行檢測(cè),對(duì)于了解社情民意有著重要意義。

1 微博文本的特點(diǎn)

微博文本與正式文本有很多不同的地方,如果簡(jiǎn)單的直接采用傳統(tǒng)文本處理方法,在微博文本上往往不能獲取良好的效果。因?yàn)榕c其他的傳統(tǒng)化社會(huì)媒體諸如博客和論壇相比,微博有著如下一些特點(diǎn)[3-5]。

1.1 短文本性

以新浪微博為例,每一條微博的字?jǐn)?shù)限制在140個(gè)字符以?xún)?nèi),受字?jǐn)?shù)的限制,用戶(hù)通常以更為精簡(jiǎn)的方式發(fā)表,往往句子成分不完整,甚至只是簡(jiǎn)單的幾個(gè)詞語(yǔ)。

1.2 實(shí)時(shí)性

新浪微博手機(jī)客戶(hù)端的出現(xiàn),讓人們每天使用微博的時(shí)間更為隨意。用戶(hù)可以在任何時(shí)間、任何地點(diǎn)進(jìn)行發(fā)帖。目前新浪微博用戶(hù)每天要發(fā)布上億條的微博信息,每秒發(fā)送量也高達(dá)1 000條,從而使得微博實(shí)時(shí)數(shù)據(jù)量十分的龐大。

1.3 文本形式自由

微博文本大多較為口語(yǔ)化,并充滿(mǎn)了網(wǎng)絡(luò)用語(yǔ)以及流行的縮寫(xiě),錯(cuò)字的現(xiàn)象也時(shí)有發(fā)生。用戶(hù)也會(huì)添加諸如表情、圖片、視頻、鏈接等來(lái)豐富自己所發(fā)布的微博信息。

1.4 多模態(tài)性

與普通文本不同的是,微博文本中除了用戶(hù)發(fā)布的信息外,還多了許多數(shù)據(jù)結(jié)構(gòu)上的信息,包括用戶(hù)名、用戶(hù)ID、評(píng)論、轉(zhuǎn)發(fā)等數(shù)據(jù)。

1.5 話(huà)題線(xiàn)索性

微博中常有一部分信息是針對(duì)某一個(gè)對(duì)話(huà)過(guò)程的留言與回復(fù),因此簡(jiǎn)單的一條微博文本中可能包含了大量的對(duì)話(huà)信息。這一特點(diǎn)形成了豐富的跨文本上下文信息,為微博文本分析的理解帶來(lái)了更多的依據(jù)。

綜上所述,短文本性、實(shí)時(shí)性以及多模態(tài)性是其主要特點(diǎn)。短文本性直接決定了微博文本信息中話(huà)題檢測(cè)與傳統(tǒng)文本之間的區(qū)別。實(shí)時(shí)性即用戶(hù)可以隨時(shí)隨地地進(jìn)行微博發(fā)布,從而對(duì)社會(huì)事件進(jìn)行最直接的闡述與評(píng)論。所以從微博數(shù)據(jù)中分析出的信息的時(shí)效性可以趕超其他普通媒體,但與此同時(shí),由于微博產(chǎn)生的是海量數(shù)據(jù),其中亦存在多方評(píng)論的干擾,甚至是誤導(dǎo)。多模態(tài)性即微博文本結(jié)構(gòu)中包含了許多除了純文本以外的其他信息,包括照片、視頻、網(wǎng)頁(yè)鏈接等等。

面對(duì)微博中海量且結(jié)構(gòu)多樣的數(shù)據(jù),靠傳統(tǒng)的人工審視或利用基本的數(shù)據(jù)分析方法很難快速、精煉地提煉出可信并且有用的信息,因此,引入文本挖掘中的數(shù)據(jù)分析與數(shù)據(jù)挖掘方法對(duì)微博信息的分析是十分必要的。

2 國(guó)內(nèi)外話(huà)題檢測(cè)研究現(xiàn)狀

話(huà)題檢測(cè)在學(xué)術(shù)界是備受關(guān)注的研究熱點(diǎn),傳統(tǒng)的話(huà)題檢測(cè)主要針對(duì)普通文本,目前話(huà)題檢測(cè)常用的聚類(lèi)方法有:中心向量法、agglomerative算法[6]、增量聚類(lèi)算法[7]、層次聚類(lèi)法[8]、基于主題模型算法[9]、K-means[10]、single-pass聚類(lèi)方法[11]等。而相似度計(jì)算方法通常采用余弦?jiàn)A角[12]、雅各比公式[13]、OKA-PI公式、Clarity、Tanimoto[14]、Hellinger公式[15]等。上述算法在傳統(tǒng)文本話(huà)題檢測(cè)研究中有著成熟的運(yùn)用,并能達(dá)到較好的研究結(jié)果。但是,由于微博的文本長(zhǎng)度較短,同一個(gè)詞語(yǔ)出現(xiàn)在不同微博中的概率會(huì)遠(yuǎn)小于其他傳統(tǒng)媒介中的長(zhǎng)文本,將以上的算法直接運(yùn)用到微博數(shù)據(jù)分析上,就會(huì)直接帶來(lái)文本特征矩陣稀疏的問(wèn)題[16],增加了分析文本間相似度的難度。

與傳統(tǒng)的話(huà)題檢測(cè)方法不同,由于微博數(shù)據(jù)大多數(shù)所具有的短文本性和文本缺失性,如果使用傳統(tǒng)的通過(guò)構(gòu)造詞匯-文本特征矩陣的方式來(lái)分析話(huà)題,如上文所述,由于微博文本短、詞匯缺失,在面對(duì)構(gòu)造高維數(shù)的詞匯-文本特征矩陣時(shí)將會(huì)導(dǎo)致生成的特征矩陣高度稀疏,得到的檢測(cè)結(jié)果也會(huì)大打折扣。而另一點(diǎn)與傳統(tǒng)話(huà)題文本不同的是,微博數(shù)據(jù)中有豐富的跨文本上下文信息:轉(zhuǎn)帖、評(píng)論、用戶(hù)標(biāo)簽hashtag、內(nèi)嵌鏈接URL、命名實(shí)體等,這些都具有很高的分析價(jià)值,在傳統(tǒng)方法中沒(méi)有也不可能綜合考慮這些因素。

3 針對(duì)微博話(huà)題檢測(cè)的主要研究成果

國(guó)內(nèi)外學(xué)者在近兩年基于海量的微博數(shù)據(jù)信息展開(kāi)了相關(guān)的數(shù)據(jù)挖掘研究工作,微博中的話(huà)題主要有兩種表現(xiàn)形式:1) 顯性話(huà)題,即用兩個(gè)“#”號(hào)包圍話(huà)題內(nèi)容,以區(qū)分于微博文本中的其他內(nèi)容;2) 隱形話(huà)題,這種話(huà)題通常隱含在用戶(hù)所發(fā)表的微博信息中,沒(méi)有用特殊符號(hào)以示區(qū)分,這樣的話(huà),對(duì)于同一話(huà)題,用戶(hù)有可能使用了不同的關(guān)鍵字進(jìn)行描述。因此,絕大多數(shù)的基于微博文本的話(huà)題檢測(cè)都是針對(duì)隱形話(huà)題所展開(kāi)的,并取得了一定的進(jìn)展。其中話(huà)題檢測(cè)的挖掘算法目前大致可以分為以下幾類(lèi)。

3.1 利用分類(lèi)聚類(lèi)的方法挖掘出熱點(diǎn)話(huà)題

Sakaki等人[17]通過(guò)監(jiān)控Twitter中用戶(hù)tweets的更新來(lái)實(shí)時(shí)進(jìn)行地震監(jiān)控與預(yù)測(cè)。首先對(duì)目標(biāo)話(huà)題進(jìn)行分析,提取目標(biāo)話(huà)題的特征屬性,諸如關(guān)鍵字,然后利用機(jī)器學(xué)習(xí)中的貝葉斯決策方法,對(duì)所有Twitter用戶(hù)的tweets進(jìn)行分類(lèi),最后根據(jù)分析出的結(jié)果計(jì)算出目標(biāo)話(huà)題的信息。在實(shí)際的實(shí)驗(yàn)過(guò)程中,研究人員檢測(cè)出這種方法具有較好的實(shí)時(shí)性,檢測(cè)地震發(fā)生的成功率達(dá)到了80%。利用普適計(jì)算中普遍使用的過(guò)濾方法,結(jié)合基于概率的時(shí)空模型定位,將發(fā)布有關(guān)微博信息的用戶(hù)看做是一個(gè)個(gè)數(shù)據(jù)傳感器,這樣不僅能夠運(yùn)用這種方法檢測(cè)到有關(guān)地震的實(shí)時(shí)話(huà)題,并且能夠通過(guò)分析其中的內(nèi)容較為準(zhǔn)確的定位到地震發(fā)生地,更好地為公眾服務(wù)。

鄭斐然等[18]在研究中將短文本中的詞頻和增長(zhǎng)速度結(jié)合起來(lái)考慮,構(gòu)造出了復(fù)合權(quán)值,用以在判斷中進(jìn)行量化。利用上下文相關(guān)度模型支撐增量式聚類(lèi)算法構(gòu)造話(huà)題,比語(yǔ)義相似度模型更適用于在話(huà)題檢測(cè)中。

O’Connor等[19]采用基于文本的采樣與聚類(lèi)技術(shù),通過(guò)標(biāo)記化和語(yǔ)法過(guò)濾、評(píng)分和篩選候選主題詞、合并相似主題、聚合近似重復(fù)的信息等4個(gè)步驟對(duì)與檢索詞相關(guān)的話(huà)題進(jìn)行歸納,通過(guò)檢索的詞語(yǔ),返回每一個(gè)與該詞語(yǔ)相關(guān)聯(lián)的主題,從而達(dá)到話(huà)題提取的效果。

3.2 傳統(tǒng)話(huà)題模型——潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型

LDA是貝葉斯模型的一種變形,他在層次貝葉斯模型的基礎(chǔ)上,將Dirichlet先驗(yàn)分布引入到文檔-詞匯這一層,將傳統(tǒng)的pLSA結(jié)構(gòu)通用化,降低了模型自身隨著預(yù)料的增大而增大。眾多研究人員在LDA模型的基礎(chǔ)上,結(jié)合微博自身的特點(diǎn)建立了基于微博環(huán)境的話(huà)題提取模型進(jìn)行熱點(diǎn)話(huà)題的分析與提取。

Ramage等[20]構(gòu)造了一個(gè)半監(jiān)督學(xué)習(xí)Labeled LDA模型,將Twitter微博文本映射到substance、style、status和social characteristics 4個(gè)潛在維,并綜合上述分析結(jié)果個(gè)性化用戶(hù)需求。

Zhao[21]等人提出Twitter-LDA模型,該模型基于LDA模型,并運(yùn)用其非監(jiān)督的特點(diǎn),將信息的傳播分為傳播速度和傳播內(nèi)容兩個(gè)維度,通過(guò)與紐約時(shí)報(bào)數(shù)據(jù)進(jìn)行對(duì)比,認(rèn)為T(mén)witter擁有更強(qiáng)的信息傳播力。

3.3 基于微博內(nèi)容的自動(dòng)消息總結(jié)

Inouye等人[22]在Sharifi[23]的研究基礎(chǔ)上,針對(duì)單個(gè)句子在總結(jié)微博熱點(diǎn)話(huà)題時(shí)承載量不足的缺點(diǎn),提出了一種利用多個(gè)簡(jiǎn)單句來(lái)概括微博上熱點(diǎn)話(huà)題的方法,使得可以更加迅速準(zhǔn)確地發(fā)現(xiàn)微博中的熱點(diǎn)話(huà)題,并能為用戶(hù)所理解。

3.4 基于影響力的微博信息挖掘

有學(xué)者研究表明,相對(duì)于從海量微博數(shù)據(jù)中挖掘微博熱點(diǎn)話(huà)題,此方法可以大大提高挖掘的速度和精度。

Weng等人[24]以Twitter 為研究對(duì)象,從主題相似性的角度,將Twitter中用戶(hù)影響力與網(wǎng)頁(yè)中競(jìng)價(jià)排名相類(lèi)比,提出TwitterRank 排序算法。該算法主要借鑒了PageRank的基本思想,是PageRank 的一種擴(kuò)展。在排序的同時(shí)考慮到微博的結(jié)構(gòu)信息,以及用戶(hù)話(huà)題結(jié)構(gòu),從而提取出Twitter環(huán)境中與該主題相關(guān)聯(lián)的核心人物,并在此基礎(chǔ)上對(duì)具有較大影響力的用戶(hù)微博信息進(jìn)行分析挖掘。

3.5 基于情感分析的話(huà)題熱點(diǎn)發(fā)現(xiàn)

針對(duì)用戶(hù)群情感波動(dòng),獲取觀點(diǎn)信息,由此反映社會(huì)群體對(duì)話(huà)題的發(fā)現(xiàn)。

劉志明等人[25]基于機(jī)器學(xué)習(xí)算法提出了一種有關(guān)中文微博的根據(jù)情感分類(lèi)的實(shí)證研究。其中涉及了3種不同的機(jī)器學(xué)習(xí)算法。在特征值的計(jì)算以及特征項(xiàng)權(quán)衡的過(guò)程中,也分別運(yùn)用了3種不同的算法。

楊亮等[26]在研究中提出了一種面向事實(shí)文本挖掘的熱點(diǎn)話(huà)題勘測(cè)方法,針對(duì)熱點(diǎn)話(huà)題的出現(xiàn)后隨之而來(lái)的用戶(hù)微博中表達(dá)情感類(lèi)的詞語(yǔ)量的增加,提出了情感分布語(yǔ)言模型。通過(guò)分析相鄰時(shí)間段該模型間的差異,實(shí)現(xiàn)話(huà)題的檢測(cè)發(fā)現(xiàn)。

Li等[27]提出運(yùn)用合作在線(xiàn)學(xué)習(xí)的算法對(duì)主客觀微博進(jìn)行學(xué)習(xí)分類(lèi),一方面對(duì)每個(gè)獨(dú)立的用戶(hù)微博數(shù)據(jù)信息進(jìn)行學(xué)習(xí),另一方面整合多個(gè)用戶(hù)的微博數(shù)據(jù),并將個(gè)體語(yǔ)言習(xí)慣所存在的規(guī)律性考慮進(jìn)去,豐富多用戶(hù)環(huán)境下特征判斷方法。

4 存在問(wèn)題和未來(lái)研究方向

目前,學(xué)術(shù)界針對(duì)微博已經(jīng)展開(kāi)了比較廣泛的研究,但由于微博語(yǔ)義難以管理以及信息量的疏松,微博,特別是中文微博的研究結(jié)果尚不能令人滿(mǎn)意。當(dāng)前,微博數(shù)據(jù)挖掘與分析領(lǐng)域仍然存在如下的問(wèn)題與挑戰(zhàn)。

4.1 微博信息領(lǐng)域合理分區(qū)

文章第2節(jié)提到微博文本相對(duì)于傳統(tǒng)媒體文本的差別性,微博追求信息快速傳播,很多文字松散、內(nèi)容不清晰的信息在網(wǎng)絡(luò)上向受眾進(jìn)行傳播。這種大容量的未經(jīng)組織和控制的信息肆意增長(zhǎng)會(huì)導(dǎo)致有效信息很容易被淹沒(méi),造成微博信息分析處理過(guò)程中高昂的提取成本。針對(duì)這一問(wèn)題,可以針對(duì)不同的領(lǐng)域、不同的專(zhuān)業(yè)方向?qū)⑽⒉┢脚_(tái)進(jìn)行合理分區(qū),將微博未來(lái)的發(fā)展引領(lǐng)向多元化的方向,從而部分解決內(nèi)容太過(guò)稀疏、噪音過(guò)大的問(wèn)題。

4.2 中文微博語(yǔ)義分析和觀點(diǎn)挖掘

微博作為新興的大眾媒體,由大眾產(chǎn)生,實(shí)時(shí)發(fā)布并匯聚在一起。然而,由于缺乏統(tǒng)一的規(guī)范,很難在大量的用戶(hù)信息和微博文本數(shù)據(jù)中建立起語(yǔ)義關(guān)系的層次結(jié)構(gòu)。在通過(guò)微博信息來(lái)對(duì)熱點(diǎn)事件的發(fā)展進(jìn)行追蹤的時(shí)候,缺乏規(guī)范的語(yǔ)義層次結(jié)構(gòu)會(huì)使大眾對(duì)于熱點(diǎn)事件整體觀點(diǎn)的歸納產(chǎn)生偏差,并且給從整體角度上獲取大眾輿論導(dǎo)向帶來(lái)較大的困難。在另一方面,中文領(lǐng)域微博的分析與研究還處于起步階段。由于中文與英文在表達(dá)方式以及語(yǔ)言結(jié)構(gòu)方面的差異,導(dǎo)致了國(guó)外先進(jìn)的語(yǔ)義分析以及觀點(diǎn)挖掘的方法并不能直接運(yùn)用在中文微博領(lǐng)域的觀點(diǎn)挖掘中。因此,基于中文微博的語(yǔ)義分析和意見(jiàn)挖掘的研究就顯得尤其重要。為了解決這一問(wèn)題,需要充分結(jié)合中文微博自身語(yǔ)義特點(diǎn),結(jié)合中文情感挖掘技術(shù),運(yùn)用現(xiàn)有成熟的自然語(yǔ)義分析方法,將微博社會(huì)網(wǎng)絡(luò)中所存在的語(yǔ)義信息和隱含觀點(diǎn)挖掘出來(lái),從而提出基于中文微博語(yǔ)義分析和觀點(diǎn)挖掘的研究方法。

4.3 垃圾微博發(fā)現(xiàn)和過(guò)濾

在目前的中文微博平臺(tái)上,存在著大量惡意且無(wú)價(jià)值的僵尸用戶(hù)。這些用戶(hù)的存在以及所傳播的微博信息對(duì)進(jìn)行微博信息分析與挖掘產(chǎn)生了很大的影響。由于微博平臺(tái)與一般網(wǎng)頁(yè)結(jié)構(gòu)的差異性,傳統(tǒng)的識(shí)別垃圾網(wǎng)站的方法并不能直接運(yùn)用在微博平臺(tái)上,目前仍舊依賴(lài)人工識(shí)別的方法來(lái)過(guò)濾掉無(wú)用的垃圾信息。因此,如果能夠?qū)崿F(xiàn)自動(dòng)鑒別垃圾用戶(hù)與垃圾信息,將大大提高海量微博數(shù)據(jù)分析的效率。

4.4 微博實(shí)時(shí)信息分析

微博會(huì)隨時(shí)更新的特點(diǎn)帶來(lái)微博數(shù)據(jù)的高實(shí)時(shí)性及海量性,已有的信息分析與檢索技術(shù)并不能很好地應(yīng)用到熱點(diǎn)事件乃至突發(fā)事件的檢測(cè)與趨勢(shì)跟蹤中。困難在于,微博信息是迅速并且實(shí)時(shí)更新的。如何將現(xiàn)有的主題分析方法有效地融入微博平臺(tái),在分析的同時(shí)融入實(shí)時(shí)更新的數(shù)據(jù),提出快速有效的微博突發(fā)事件檢測(cè)方法,從而快速地查找出所需要的信息來(lái)幫助用戶(hù)。所以微博信息的實(shí)時(shí)性也是目前需要解決的問(wèn)題之一。

5 結(jié) 語(yǔ)

近年來(lái)隨著微博的興起,產(chǎn)生出微博信息中話(huà)題檢測(cè)挖掘方面的若干研究,論文綜述了微博文本與傳統(tǒng)文本在話(huà)題檢測(cè)以及分析等方面的差異性,總結(jié)了目前在話(huà)題檢測(cè)方面的一些相關(guān)研究成果,并對(duì)當(dāng)下現(xiàn)存問(wèn)題以及未來(lái)研究方向進(jìn)行了分析。

需要指出的是,相關(guān)的一些研究是基于假定微博文本信息相互獨(dú)立的前提下進(jìn)行的,沒(méi)有考慮到微博文本所具有的話(huà)題線(xiàn)索性,即沒(méi)有很好地利用到微博信息中所具有的“對(duì)話(huà)”功能。另外,較國(guó)內(nèi)微博而言,Twitter興起較早,因此,目前學(xué)者對(duì)Twitter的研究較多。中文微博的研究仍舊處于初始階段,有很多問(wèn)題有待解決。由于文化的差異,中西方在語(yǔ)言結(jié)構(gòu)和詞匯表示方法上有著較大的區(qū)別,這些也突出了研究中文微博領(lǐng)域分析方法的必要性與重要性。

新浪微博為開(kāi)發(fā)者所開(kāi)放的API接口,為研究中文微博平臺(tái)提供了一個(gè)很好的機(jī)會(huì)。如何在國(guó)外成熟的微博話(huà)題檢測(cè)成果上,融合中文自然語(yǔ)義與中文微博環(huán)境的特點(diǎn),設(shè)計(jì)出更好的中文微博研究模型,提出挖掘中文微博中所蘊(yùn)含話(huà)題信息的改進(jìn)方法,并投入話(huà)題檢測(cè)以及趨勢(shì)預(yù)測(cè)方面的應(yīng)用中,亦是當(dāng)下急需研究的問(wèn)題。

[1] 文坤梅,徐帥,李瑞軒,等.微博及中文微博信息處理研究綜述[J].中文信息學(xué)報(bào),2013,26(6):27-37

[2] 廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2011,51(10):1300-1305

[3] 張劍峰.微博主觀性發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D].蘇州:蘇州大學(xué),2012

[4] 蔣盛益,麥智凱,龐觀松,等.微博信息挖掘技術(shù)研究綜述[J].圖書(shū)情報(bào)工作,2012,56(17):136-142

[5] 馬彬,洪宇,陸劍江,等.基于線(xiàn)索樹(shù)雙層聚類(lèi)的微博話(huà)題檢測(cè)[J].中文信息學(xué)報(bào),2012,26(6):121-128

[6] Bryant D, Moulton V. Neighbor-net: an Agglomerative Method for the Construction of Phylogenetic Networks[J]. Molecular Biology and Evolution, 2004,21(2):255-265

[7] Charikar M, Chekuri C, Feder T, et al. Incremental Clustering and Dynamic Information Retrieval[C]// Proceedings of the Twenty-ninth Annual ACM Symposium on Theory of Computing. ACM, 1997: 626-635

[8] Corpet F. Multiple Sequence Alignment with Hierarchical Clustering[J].Nucleic Acids Research, 1988, 16(22): 10881-10890

[9] Steyvers M, Griffiths T. Probabilistic Topic Models[J].Handbook of Latent Semantic Analysis, 2007,427(7): 424-440

[10] Yamron J, Knecht S, Van Mulbregt P. Dragon’s Tracking and Detection Systems for the TDT2000 Evaluation[C]//Proceedings of Topic Detection and Tracking Workshop. 2000:75-80

[11] 周剛,鄒鴻程,熊小兵,等.MB-SinglePass:基于組合相似度的微博話(huà)題檢測(cè)[J].計(jì)算機(jī)科學(xué),2012,39(10): 198-202

[12] Singhal A. Modern Information Retrieval: A Brief Overview[J]. IEEE Data Eng. Bull., 2001,24(4):35-43

[13] Saad Y. Iterative Methods for Sparse Linear Systems[M]. Siam, 2003:52-64

[14] Rogers D J, Tanimoto T T. A Computer Program for Classifying Plants[J]. Science,1960,132(3434):1115-1118

[15] Brants T, Chen F, Farahat A. A System for New Event Detection[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2003:330-337

[16] 路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類(lèi)的微博客中新聞話(huà)題的發(fā)現(xiàn)[J].模式識(shí)別與人工智能,2012,25(3):382-387

[17] Sakaki T, Okazaki M, Matsuo Y. Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors[C]//Proceedings of the 19th International Conference on World Wide Web. ACM, 2010:851-860

[18] 鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話(huà)題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1):138-141

[19] O’Connor B, Krieger M, Ahn D. Tweet Motif: Exploratory Search and Topic Summarization for Twitter[C]// ICWSM,2010:120-126

[20] Ramage D, Dumais S, Liebling D. Characterizing Microblogs with Topic Models[C]//International AAAI Conference on Weblogs and Social Media. 2010,5(4):130-137

[21] Zhao W, Jiang J, Weng J, et al. Comparing Twitter and Traditional Media Using Topic Models[J]. Advances in Information Retrieval, 2011(2):338-349

[22] Inouye D. Multiple Post Microblog Summarization [J]. REU Research Final Report, 2010(1):34-40

[23] Sharifi B P. Automatic Microblog Classification and Summarization[D]. Colorado: University of Colorado, 2010

[24] Weng J, Lim E P, Jiang J, et al. Twitterrank: Finding Topic-sensitive Influential Twitterers[C]// Proceedings of the Third ACM International Conference on Web Search and Data Mining. ACM, 2010: 261-270

[25] 劉魯,劉志明.基于機(jī)器學(xué)習(xí)的中文微博情感分類(lèi)實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1-4

[26] 楊亮,林原,林鴻飛.基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2012,26(1):84-90

[27] Li G, Hoi S C, Chang K, et al. Micro-blogging Sentiment Detection by Collaborative Online Learning[C]// Data Mining (ICDM), 2010 IEEE 10th International Conference on IEEE, 2010:893-898

猜你喜歡
博文文本用戶(hù)
第一次掙錢(qián)
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
誰(shuí)和誰(shuí)好
關(guān)注用戶(hù)
關(guān)注用戶(hù)
關(guān)注用戶(hù)
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
如何獲取一億海外用戶(hù)
上虞市| 随州市| 富川| 云安县| 洛隆县| 甘谷县| 永年县| 五家渠市| 山阳县| 治县。| 凤阳县| 册亨县| 三台县| 遂川县| 榆林市| 顺昌县| 周至县| 保定市| 文成县| 洪湖市| 洪雅县| 紫云| 奎屯市| 台北市| 鄂伦春自治旗| 白朗县| 石屏县| 金昌市| 文山县| 忻城县| 项城市| 宁阳县| 商河县| 巫山县| 安乡县| 大洼县| 类乌齐县| 繁昌县| 峨眉山市| 星子县| 西林县|