国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡(luò)社交媒體的子話題檢測(cè)技術(shù)綜述

2020-06-20 12:00理姍姍楊文忠王麗花
計(jì)算機(jī)應(yīng)用 2020年6期
關(guān)鍵詞:聚類社交算法

理姍姍,楊文忠,王 婷,王麗花

(1.新疆大學(xué)軟件學(xué)院,烏魯木齊 830046;2.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046;3.社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國(guó)家工程實(shí)驗(yàn)室(中國(guó)電子科學(xué)研究院),烏魯木齊 830000)

(?通信作者電子郵箱ywz_xy@163.com)

0 引言

隨著互聯(lián)網(wǎng)媒體技術(shù)的飛速發(fā)展,眾多社交媒體平臺(tái)隨之興起,例如新浪微博、推特等平臺(tái),這些網(wǎng)絡(luò)平臺(tái)反映了社會(huì)、政治、經(jīng)濟(jì)和文化等各領(lǐng)域的熱點(diǎn)話題,成為繼廣播、電視之后最普遍的信息傳輸方式。其中很多平臺(tái)都有話題專欄合集,但一般只停留在對(duì)話題檢測(cè)這一層面,卻忽略了話題下更細(xì)粒度、更深層次、更全角度、更多側(cè)面的內(nèi)涵。作為隨話題檢測(cè)的發(fā)展演變而生的一個(gè)新的研究方向,子話題檢測(cè)旨在解決上述不合理問(wèn)題,進(jìn)一步分析同一話題下的組成結(jié)構(gòu)、演化過(guò)程和內(nèi)部關(guān)系。在內(nèi)容上,它有利于全面分析某個(gè)話題所包含的不同內(nèi)容及其關(guān)系;在結(jié)構(gòu)上,它有利于建立話題的演化模型,研究發(fā)展趨勢(shì),更加清晰地掌握網(wǎng)絡(luò)中話題信息的構(gòu)成情況。自孕育期(1997—2006 年)之后,子話題檢測(cè)技術(shù)經(jīng)歷了概念提出期(2007—2009 年)、受到關(guān)注期(2010—2012 年)和興起與發(fā)展時(shí)期(2013 年以后),在不同階段具有不同的發(fā)展動(dòng)因及發(fā)展結(jié)果。

20 世紀(jì)90 年代,隨著計(jì)算機(jī)軟件、硬件的發(fā)展及互聯(lián)網(wǎng)技術(shù)的完善,輿情監(jiān)控部門(mén)將信息來(lái)源轉(zhuǎn)向網(wǎng)絡(luò),與傳統(tǒng)媒體(電視、廣播、報(bào)紙、雜志等)相比,網(wǎng)絡(luò)社交媒體的內(nèi)容具有規(guī)模龐大、形式多樣、傳播迅速等特點(diǎn),使得收集并組織相關(guān)信息變得愈發(fā)困難,話題檢測(cè)的需求由此而生,其概念源于話題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)項(xiàng)目[1],此時(shí)機(jī)器學(xué)習(xí)(Machine Learning,ML)已成為新的學(xué)科并應(yīng)用于數(shù)據(jù)分析與挖掘,從而為子話題檢測(cè)的孕育產(chǎn)生打下基礎(chǔ)。進(jìn)入21 世紀(jì)之后,互聯(lián)網(wǎng)中社交媒體逐漸豐富,話題檢測(cè)技術(shù)取得了長(zhǎng)足的進(jìn)步,互聯(lián)網(wǎng)輿情及信息安全領(lǐng)域的應(yīng)用需求也隨之不斷發(fā)展,一些學(xué)者為全面了解話題各個(gè)方面,開(kāi)始對(duì)話題進(jìn)行細(xì)粒度探索,“話題層次”“子話題”等概念被提出(在國(guó)外,Nallapati 等[2]首次給出在新聞話題內(nèi)進(jìn)行事件檢測(cè)與關(guān)系發(fā)現(xiàn)的概念;在國(guó)內(nèi),李軍等[3]率先提出“子話題”的概念),并采用聚類、主題模型等技術(shù)進(jìn)行子話題檢測(cè)。

進(jìn)入2010 年以后,眾多社交媒體平臺(tái)涌現(xiàn),話題檢測(cè)成為研究熱點(diǎn),此時(shí)子話題檢測(cè)相關(guān)研究也隨之進(jìn)入研究者的視線并受到關(guān)注,機(jī)器學(xué)習(xí)、人工智能學(xué)術(shù)活動(dòng)空前活躍,自然語(yǔ)言處理技術(shù)初步完善。研究者們利用統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)等手段分析數(shù)據(jù)進(jìn)行子話題檢測(cè),除初始技術(shù)外,分類、基于圖模型的方法、基于突發(fā)狀況的方法等技術(shù)也很普遍。自2012 年進(jìn)入大數(shù)據(jù)時(shí)代以來(lái),數(shù)據(jù)挖掘、自然語(yǔ)言處理、多媒體學(xué)習(xí)等相關(guān)領(lǐng)域不斷發(fā)展,話題檢測(cè)得到深入研究并取得了豐碩成果,但隨著網(wǎng)絡(luò)社交媒體平臺(tái)中信息日益變化,它面對(duì)著更新的挑戰(zhàn):實(shí)時(shí)獲取熱點(diǎn)話題不同方面的內(nèi)容、全面掌握網(wǎng)絡(luò)輿情趨勢(shì)等需求空前旺盛,對(duì)話題檢測(cè)及演化分析的要求也不斷提高?,F(xiàn)有的話題粒度及層次已無(wú)法滿足多方面的需求,因此子話題檢測(cè)技術(shù)進(jìn)入了興起與發(fā)展階段,研究者們不斷探索創(chuàng)新,提出了基于多模態(tài)的方法、基于多種技術(shù)結(jié)合的方法等技術(shù)進(jìn)行子話題檢測(cè)。

目前,對(duì)有關(guān)社交媒體子話題的檢測(cè)技術(shù)并沒(méi)有系統(tǒng)的闡述和介紹。已有的國(guó)內(nèi)外相關(guān)綜述性文獻(xiàn),如文獻(xiàn)[4-9]僅涉及對(duì)話題檢測(cè)技術(shù)進(jìn)行總結(jié),只完成了話題檢測(cè)層面綜述性工作,而對(duì)于話題下子話題的概念沒(méi)有統(tǒng)一的定義,對(duì)子話題檢測(cè)相關(guān)技術(shù)也沒(méi)有全面的分類說(shuō)明。故本文概括當(dāng)前研究中子話題相關(guān)概念,將網(wǎng)絡(luò)社交媒體子話題檢測(cè)技術(shù)分為基于突發(fā)狀況的技術(shù)、基于分類的技術(shù)、基于聚類的技術(shù)、基于主題模型的技術(shù)、基于結(jié)構(gòu)圖的技術(shù)、基于多模態(tài)特征的技術(shù)和其他檢測(cè)技術(shù),逐類給出了詳細(xì)介紹,并進(jìn)行總結(jié)和比較;同時(shí),將子話題檢測(cè)方式按實(shí)時(shí)性要求分為在線檢測(cè)和離線檢測(cè),對(duì)二者作出對(duì)比并列舉通用技術(shù)及不同方式的常用技術(shù);最后,提出了當(dāng)前研究的不足及對(duì)未來(lái)發(fā)展的展望。

1 研究背景及相關(guān)概念

1.1 研究背景

當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)增長(zhǎng)飛快。截至2019 年6 月,我國(guó)網(wǎng)民規(guī)模達(dá)8.54億人,較2018年年底增長(zhǎng)2 598萬(wàn)人;互聯(lián)網(wǎng)普及率達(dá)61.2%,較2018 年年底提升了1.6 個(gè)百分點(diǎn)[10]。越來(lái)越多的人將互聯(lián)網(wǎng)視為獲取知識(shí)、傳遞信息、發(fā)表評(píng)論和交流看法的最佳媒介,通過(guò)各類社交媒體平臺(tái),人們可以在網(wǎng)絡(luò)上實(shí)時(shí)獲取新聞資訊和各種相關(guān)報(bào)道,發(fā)表相應(yīng)的評(píng)論來(lái)對(duì)自己感興趣的內(nèi)容提出見(jiàn)解,并由此形成層出不窮的種種話題。隨著用戶競(jìng)相參與,話題的熱度在不斷飆升,其相關(guān)信息的數(shù)量也在激增。

網(wǎng)絡(luò)社交媒體中的大多數(shù)內(nèi)容都是由用戶自發(fā)創(chuàng)造的,包括文字、圖片、音頻和視頻等多種表現(xiàn)形式。針對(duì)這些數(shù)據(jù),傳統(tǒng)的話題檢測(cè)多把話題當(dāng)作一個(gè)整體,往往忽略了話題下子話題的存在及子話題關(guān)系演變的刻畫(huà)。同一個(gè)話題下的數(shù)據(jù)是復(fù)雜多樣的,包含很多隱藏內(nèi)容,且可能含有多個(gè)聯(lián)系緊密、相似性很高的子話題,如何更有效地從海量數(shù)據(jù)中找到用戶感興趣的話題,并挖掘相關(guān)話題下的子話題,幫助用戶全面準(zhǔn)確地了解話題詳細(xì)內(nèi)容及演化的各個(gè)方面,是研究領(lǐng)域內(nèi)一個(gè)新的難題。

1.2 相關(guān)概念

話題、事件、子話題和子事件這幾個(gè)術(shù)語(yǔ)將貫穿全文。在最初研究階段,“話題”和“事件”含義相同[11],一個(gè)“話題”指由某些原因、條件引起,發(fā)生在特定時(shí)間、地點(diǎn),涉及特定的參與者,且可能產(chǎn)生一些必然后果的一個(gè)事件。對(duì)于“子話題”這一術(shù)語(yǔ),在國(guó)內(nèi)已有的研究中使用的比較多,例如文獻(xiàn)[3,12-13]等,而在國(guó)外通常以“子事件”來(lái)進(jìn)行描述,但實(shí)質(zhì)上是表達(dá)同一概念,例如文獻(xiàn)[14-16]等。下面對(duì)國(guó)內(nèi)外研究中所提出的相關(guān)概念加以陳述和總結(jié)。

1.2.1 話題檢測(cè)和追蹤相關(guān)概念

話題檢測(cè)和追蹤(TDT)是美國(guó)國(guó)防高級(jí)研究計(jì)劃局(Defense Advanced Research Projects Agency,DARPA)于1996年開(kāi)展的研究項(xiàng)目,其目標(biāo)為實(shí)現(xiàn)按話題查找、組織和利用來(lái)自多種新聞媒體的多語(yǔ)言信息[2],包括新聞報(bào)道的切分、新事件識(shí)別、報(bào)道關(guān)系識(shí)別、話題識(shí)別、話題跟蹤和層次話題檢測(cè)等子任務(wù)[17]。其中的“話題”概念不再等同于信息檢索中的“主題”,并非某一個(gè)“領(lǐng)域”,而是表示一個(gè)相對(duì)具體的“事件”[12]。某些情況下“話題”與“事件”可以通用,不作嚴(yán)格的區(qū)分[18]。為了區(qū)別于語(yǔ)言學(xué)上的概念,TDT 評(píng)測(cè)會(huì)議對(duì)相關(guān)要素進(jìn)行了定義[19],陳述如下:

1)話題(topic):由一個(gè)種子事件或活動(dòng),和全部與之直接關(guān)聯(lián)的后續(xù)事件或活動(dòng)構(gòu)成。

2)報(bào)道(story):新聞片斷,包含兩個(gè)以上獨(dú)立陳述某個(gè)事件的子句,與話題關(guān)系緊密。

3)事件(event):由特定原因、條件引起,發(fā)生在某些特殊時(shí)間、地點(diǎn),并可能伴隨特定后果的特例。

1.2.2 子話題檢測(cè)相關(guān)概念

互聯(lián)網(wǎng)社交媒體信息的話題內(nèi)容具有多元性、演化性等特點(diǎn),大多數(shù)關(guān)于話題檢測(cè)的研究?jī)H集中于靜態(tài)地識(shí)別信息數(shù)據(jù)中存在的話題,卻忽略了一個(gè)主話題下可能存在的子話題層次,或是忽略了隨著時(shí)間的推移話題內(nèi)容可能產(chǎn)生的擴(kuò)充和演變。目前中外相關(guān)領(lǐng)域?qū)ψ釉掝}的研究中,對(duì)“子話題”或是“子事件”的概念沒(méi)有一個(gè)統(tǒng)一的定義,下面描述幾種具有代表性的定義。

在中文領(lǐng)域,李軍等[3]定義“子話題”是話題內(nèi)一組相關(guān)事件或活動(dòng)的集合。洪宇等[5]定義“話題”由一個(gè)種子事件以及后續(xù)直接相關(guān)的事件或活動(dòng)組成,“子話題”是針對(duì)其中某一事件的相關(guān)描述,“事件”則定義為發(fā)生于特定時(shí)間和特定地點(diǎn)的事情。呂楠等[20]定義“子話題”為話題的一個(gè)方面:話題T在i時(shí)刻的狀態(tài)Ti由若干個(gè)子話題組成,記為T(mén)i={T1i,T2i,…,Tni},每個(gè)子話題Tji代表話題在i時(shí)刻的某一個(gè)方面。程葳等[21]提出了“子話題”概念:關(guān)于同一事件或活動(dòng)的相似報(bào)道集合稱為“子話題”;一個(gè)子話題可以包含多篇報(bào)道,但唯一從屬于一個(gè)話題;一個(gè)話題可以包含多個(gè)子話題。王?。?2]定義“話題”由一個(gè)種子子話題和其他相關(guān)子話題構(gòu)成,認(rèn)為“子話題”等同于“子事件”。代翔等[13]把“話題”“子話題”“事件”劃為三個(gè)層次,定義“子話題”作為銜接“話題”與“事件”的橋梁,能夠相對(duì)清晰地呈現(xiàn)某一類具體事情。

在國(guó)外研究領(lǐng)域,Nolasco 等[14]定義“事件”是受時(shí)間和相關(guān)位置限制的一個(gè)重要事情,“子事件”是通過(guò)組合關(guān)聯(lián)關(guān)系與另一個(gè)事件關(guān)聯(lián)的事件,事件包括兩個(gè)或多個(gè)子事件。Srijith 等[23]在文獻(xiàn)中給出“子話題”的定義為:子報(bào)道檢測(cè)將與同一現(xiàn)實(shí)事件相關(guān)的推文分成與不同子事件相關(guān)的類,與這些子事件相關(guān)的討論話題稱為子話題。Abhik 等[24]提出:“子事件”是在某特定事件中按時(shí)間或位置分隔的較小事件。Panem 等[25]在文獻(xiàn)中定義“話題”與現(xiàn)實(shí)世界中的重大事件相關(guān),“子話題”則是此類事件細(xì)粒度的一個(gè)方面。Wu等[26]定義“子事件”是由事件的演變產(chǎn)生的,假設(shè)存在關(guān)系rel,若關(guān)系rel(事件,事件*)為真,則表示“事件*”是“事件”的子事件。

2 子話題檢測(cè)技術(shù)

本文概括了常用的網(wǎng)絡(luò)社交媒體子話題檢測(cè)技術(shù),將其分為基于突發(fā)狀況的技術(shù)、基于分類的技術(shù)、基于聚類的技術(shù)、基于主題模型的技術(shù)、基于結(jié)構(gòu)圖的技術(shù)、基于多模態(tài)特征的技術(shù)和其他檢測(cè)技術(shù)七大類別,并做出總結(jié)和對(duì)比。子話題檢測(cè)技術(shù)分類如圖1所示。

圖1 子話題檢測(cè)技術(shù)的分類Fig.1 Classification of sub-topic detection technologies

2.1 基于突發(fā)狀況的技術(shù)

基于突發(fā)狀況的檢測(cè)方法是用于社交媒體平臺(tái)子話題檢測(cè)的一種常見(jiàn)技術(shù),最初被應(yīng)用于突發(fā)事件檢測(cè),后被應(yīng)用至話題檢測(cè)領(lǐng)域,并不斷深入探索,現(xiàn)在也被用于進(jìn)行子話題檢測(cè)。該方法有兩種思路,即基于增加的方法和基于異常值的方法,研究者們首先提出了基于增加的方法,隨后針對(duì)其存在的不足提出了基于異常值的改進(jìn)思路。

2.1.1 基于增加的方法

基于增加的方法其基本思想為:新發(fā)生事件迅速吸引了人們的注意,使得社交媒體中與之相關(guān)的發(fā)文和討論內(nèi)容突然增加,因此在子話題的檢測(cè)中可以考慮評(píng)論發(fā)布數(shù)量或相關(guān)詞匯頻率的增加。在外文領(lǐng)域早期的研究中,研究者們通過(guò)比較當(dāng)前時(shí)間片推文數(shù)據(jù)量與前一時(shí)刻的數(shù)據(jù)量,認(rèn)為若當(dāng)前時(shí)間片數(shù)據(jù)量突然增加,這一現(xiàn)象可能反映一個(gè)重要子話題的產(chǎn)生,從而來(lái)識(shí)別自然災(zāi)害[27]、政治事務(wù)[28]和體育賽事[29]等話題中的子話題。

2.1.2 基于異常值的方法

基于增加的方法可能會(huì)出現(xiàn)漏檢錯(cuò)誤:在網(wǎng)絡(luò)社交媒體中,由于不同的用戶對(duì)話題的關(guān)注點(diǎn)和關(guān)注度均不相同,即使發(fā)生了子事件,可能僅有部分用戶參與討論,其數(shù)據(jù)量并未大幅增加,此時(shí)基于增加的方法就無(wú)法檢測(cè)出實(shí)際存在的部分子話題。基于異常值的方法觀察相關(guān)話題下當(dāng)前時(shí)間片與所有歷史時(shí)間片的推文數(shù)據(jù)量并統(tǒng)計(jì)比較,認(rèn)為與常規(guī)數(shù)據(jù)相比,當(dāng)前推文速率是一個(gè)異常值時(shí),就產(chǎn)生了子話題。

Chen 等[30]使用推特流數(shù)據(jù)在線檢測(cè)子事件,使用卡爾曼濾波器、高斯過(guò)程和概率主成分分析三種統(tǒng)計(jì)方法,將子事件識(shí)別過(guò)程定義為異常檢測(cè)問(wèn)題。Zubiaga 等[31]對(duì)足球賽事實(shí)時(shí)總結(jié)時(shí),將當(dāng)前的發(fā)文速率與歷史所有發(fā)文速率進(jìn)行比較,采取基于異常值的方法進(jìn)行子事件的檢測(cè)。實(shí)驗(yàn)結(jié)果證明,該方法平均覆蓋了84%的子事件和100%的關(guān)鍵子事件類型。與基于增加的方法相比,其優(yōu)點(diǎn)是考慮到特定話題有特定的受眾,且在推文速率保持不變時(shí)也能檢測(cè)到賽事中存在的連續(xù)子事件。

2.2 基于分類的技術(shù)

分類是一種有監(jiān)督的學(xué)習(xí)方法,其任務(wù)是在預(yù)先給定的類別標(biāo)記集合下,根據(jù)文本內(nèi)容判定它的類別[32]?;诜诸惖淖釉掝}檢測(cè)算法用分類器來(lái)判斷文檔是否屬于特定子話題,基本思想是按照某種規(guī)則給樣本貼標(biāo)簽,通過(guò)學(xué)習(xí)得到分類器,再對(duì)未知類別的樣本進(jìn)行區(qū)分歸類。常用的分類算法有決策樹(shù)算法、貝葉斯算法、神經(jīng)網(wǎng)絡(luò)算法、邏輯回歸算法、支持向量機(jī)等。

Sakaki 等[33]提出了一種監(jiān)控推文和檢測(cè)目標(biāo)事件的算法,基于推文中的時(shí)間、空間特征(關(guān)鍵字、單詞數(shù)量以及上下文等)來(lái)設(shè)計(jì)推文分類器,可以估計(jì)災(zāi)難事件位置的中心和軌跡。Badgett 等[34]提出了一種自動(dòng)提取子事件的兩階段方法:在第一個(gè)階段用一個(gè)引導(dǎo)人工神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別可能包含子事件短語(yǔ)的句子;在第二階段識(shí)別出符合預(yù)定連詞模式的短語(yǔ),完成子事件提取。Bekoulis 等[35]利用推特流的時(shí)間順序并考慮其序列性質(zhì),將社交媒體流中的子事件檢測(cè)問(wèn)題構(gòu)造為序列標(biāo)記任務(wù),本質(zhì)上是對(duì)線性序列中每個(gè)元素根據(jù)上下文內(nèi)容進(jìn)行分類的問(wèn)題。Chierichetti 等[36]使用一個(gè)邏輯回歸分類器,以推文和轉(zhuǎn)發(fā)率為特征進(jìn)行研究完成子事件檢測(cè);隨后Araki 等[37]對(duì)其進(jìn)行了改進(jìn),提出了一個(gè)多分類邏輯回歸模型,并使用一組豐富的特征識(shí)別子事件及確定子事件的關(guān)系。Aldawsari 等[38]在2019 年提出通過(guò)有監(jiān)督的邏輯回歸模型來(lái)自動(dòng)識(shí)別子事件,并融入了一些語(yǔ)言和敘事特征,以及少量的特征修改。

為訓(xùn)練一個(gè)無(wú)偏的子事件分類器,需要豐富的先驗(yàn)知識(shí),必須提供大量的樣本,并斷定所有的待分類樣本都一定對(duì)應(yīng)一個(gè)類別。但這并不符合實(shí)際要求,尤其是面對(duì)海量數(shù)據(jù)時(shí),若想通過(guò)數(shù)據(jù)預(yù)處理來(lái)滿足分類算法的要求,代價(jià)會(huì)很大,此時(shí)可以考慮使用聚類算法。

2.3 基于聚類的技術(shù)

聚類是一種非常重要的非監(jiān)督學(xué)習(xí)技術(shù),其任務(wù)是按照某種標(biāo)準(zhǔn)或數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,將目標(biāo)樣本分成若干個(gè)簇,保證每個(gè)簇內(nèi)的樣本相似性盡可能大,且不同簇間的樣本相似度盡可能小。聚類技術(shù)被廣泛應(yīng)用于數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等領(lǐng)域,且在子話題檢測(cè)領(lǐng)域的最初階段就被納入采用。隨著子話題檢測(cè)研究的發(fā)展不斷完善,常見(jiàn)的聚類算法有基于劃分的聚類算法、基于增量式的聚類算法、基于層次的聚類算法和基于密度的聚類算法等。

張小明等[39]通過(guò)引入子話題的方法提高話題檢測(cè)的準(zhǔn)確率,使用基于增量聚類的算法進(jìn)行自動(dòng)話題檢測(cè),實(shí)驗(yàn)表明該方法的召回率為0.80、準(zhǔn)確率為0.84、F1值為0.84,能迅速檢測(cè)話題,且以較小的誤差(小于10%)檢測(cè)出話題數(shù)量。代翔等[13]為解決主題建模分類結(jié)果粒度過(guò)粗的問(wèn)題,在主題建模之后通過(guò)層次聚類算法對(duì)話題下的文本進(jìn)行二次聚類,得到話題下的子話題,通過(guò)實(shí)驗(yàn)表明,與Single-Pass 算法和K-means 聚類算法相比,基于層次聚類得到的結(jié)果更具有真實(shí)性。

2.4 基于主題模型的技術(shù)

在子話題檢測(cè)領(lǐng)域,早期的研究中多使用向量空間模型(Vector Space Model,VSM),但其在語(yǔ)義探索和表示上有許多欠缺之處,因此研究者們提出了潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)模型。隨后,引入概率統(tǒng)計(jì)方法對(duì)其改進(jìn),提出了概率潛在語(yǔ)義分析(Probabilitistic Latent Semantic Analysis,PLSA)模型。但是PLSA 模型并非完整的概率生成模型,針對(duì)這一不足,相關(guān)領(lǐng)域?qū)<覀冇痔岢隽搜赜脧V泛的文檔主題生成LDA(Latent Dirichlet Allocation)模型,LDA 模型是統(tǒng)計(jì)主題模型的典型代表,在文本建模上具有獨(dú)特的優(yōu)越之處,因此已成為自然語(yǔ)言處理領(lǐng)域內(nèi)新的研究熱點(diǎn)。

2.4.1 基于向量空間模型的方法

向量空間模型(VSM)是用空間向量表示文本信息的數(shù)學(xué)模型,可通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性,其最常用的詞權(quán)重設(shè)置方法是詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)賦權(quán)。向量空間模型在文本檢索、信息過(guò)濾、信息提取、文件索引、分類、聚類等問(wèn)題中都得到了廣泛應(yīng)用。

歲甲午十月,我年當(dāng)五十。知命猶未能,知非正其日。堂中伐大鼓,笙竽張四壁。大兒捧兕觥,小兒列瑤席。諸婦玉面妝,諸孫亦林立。拜跪不可數(shù),彩衣紛如織。各各介眉?jí)?,深杯幾盈百。九微奪明月,滿座皆佳客。頌祝吐奇葩,珠璣已成襲。人生遇歡會(huì),歡會(huì)莫此極。我心慘不樂(lè),欲泣不成泣。酸風(fēng)射眼來(lái),思今倍感昔。[9]272

由于同一話題內(nèi)的事件往往非常相似,導(dǎo)致話題內(nèi)的事件檢測(cè)精確度較差。為了克服這一缺陷,張闊等[40]使用向量空間模型,根據(jù)詞頻賦權(quán),用層次聚類算法挖掘每個(gè)事件的核心詞元,利用核心詞元完成話題內(nèi)事件檢測(cè)與關(guān)系發(fā)現(xiàn)。針對(duì)在新聞話題中報(bào)道突發(fā)、熱點(diǎn)相似且子話題層次豐富的現(xiàn)象,周學(xué)廣等[41]提出了基于依存連接權(quán)VSM 的子話題檢測(cè)與跟蹤方法,使用關(guān)聯(lián)詞鄰接圖方法改進(jìn)VSM,引入詞語(yǔ)之間的連接權(quán)值,通過(guò)依存樹(shù)分析構(gòu)造有向節(jié)點(diǎn),在外部引入領(lǐng)域命名實(shí)體詞典并放大相應(yīng)權(quán)值,從而完成子話題檢測(cè)與跟蹤。該方法能迅速地在特定領(lǐng)域信息范圍中檢測(cè)熱點(diǎn)話題,但需要外在的領(lǐng)域詞典,因而應(yīng)用場(chǎng)景過(guò)于局限。

2.4.2 基于PLSA及其改進(jìn)方法

向量空間模型應(yīng)用十分普遍,但其沒(méi)有能力探究隱藏在字、詞背后的涵義,無(wú)法處理一詞多義和一義多詞問(wèn)題,而潛在語(yǔ)義分析(LSA)方法的引入能減輕類似的問(wèn)題。LSA 基于奇異值分解(Singular Value Decomposition,SVD),能將高維度的詞匯-文檔共現(xiàn)矩陣映射到低維度的潛在語(yǔ)義空間,使得表面毫不相關(guān)的詞體現(xiàn)出深層次的聯(lián)系[42],但LSA 缺乏嚴(yán)謹(jǐn)?shù)臄?shù)理統(tǒng)計(jì)基礎(chǔ),而且SVD非常耗時(shí)。

為此Hofmann[43-44]提出了基于概率統(tǒng)計(jì)的PLSA 模型,并用期望最大化算法(Expectation-Maximization algorithm,EM)學(xué)習(xí)模型參數(shù),通過(guò)一個(gè)生成模型來(lái)為L(zhǎng)SA 賦予了概率意義上的解釋。該模型假設(shè):每一篇文檔都包含一系列潛在話題,文檔中每一個(gè)單詞都不是憑空產(chǎn)生,而是在這些潛在話題的指引下通過(guò)一定概率生成的。圖2 為PLSA 模型,其中:d、Z、W分別表示文檔、主題和詞語(yǔ);M和N分別表示文檔數(shù)和詞數(shù)。

通過(guò)在傳統(tǒng)的PLSA基礎(chǔ)上引入背景語(yǔ)言模型,能降低背景詞對(duì)子話題的干擾[45],周楠等[46]在此基礎(chǔ)上發(fā)現(xiàn)子話題關(guān)鍵詞,結(jié)合外部知識(shí)庫(kù)生成事件子話題的標(biāo)簽。通過(guò)實(shí)驗(yàn)表明,該算法相較K-means和LDA 等方法具有更好的性能,通過(guò)其生成的子話題標(biāo)簽可以發(fā)現(xiàn)事件共性,反映子話題熱度的趨勢(shì),比傳統(tǒng)方法具有更好的準(zhǔn)確性和概括性。該算法在發(fā)現(xiàn)子話題時(shí),能有效克服同一話題下文檔的相似性問(wèn)題,但是采用監(jiān)督的方法生成子話題標(biāo)簽,當(dāng)處理龐大的數(shù)據(jù)量時(shí)可能面臨計(jì)算量巨大、計(jì)算復(fù)雜度高、時(shí)間開(kāi)銷大等問(wèn)題。

圖2 PLSA模型Fig.2 PLSA model

PLSA 作為L(zhǎng)SA 的變形,具有更堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)及易于利用的數(shù)據(jù)生成模型,可用于信息檢索和自然語(yǔ)言處理等許多領(lǐng)域。但是PLSA 并非完備的概率模型,當(dāng)文檔數(shù)量增加時(shí),PLSA模型也會(huì)線性增加,變得十分龐大;其中EM算法反復(fù)迭代,計(jì)算開(kāi)銷很大。為了克服PLSA 的不足,領(lǐng)域?qū)<覀冇痔岢隽艘恍┢渌闹黝}模型,其中包括應(yīng)用最為廣泛的LDA 主題模型。

2.4.3 基于LDA及其改進(jìn)方法

LDA 由Blei等[47]在PLSA 的基礎(chǔ)上提出,是一個(gè)完整的概率生成模型。圖3表示LDA模型,其中:θ代表文本-主題概率分布,φ代表主題-詞概率分布,α和β分別表示θ和φ的超參數(shù),W表示詞語(yǔ),M、N和K分別表示文本數(shù)、詞數(shù)和主題數(shù)。

圖3 LDA模型Fig.3 LDA model

LDA主題建模是大批量文本數(shù)據(jù)中進(jìn)行話題檢測(cè)最有效的方法之一,但也存在一定局限性,例如結(jié)果過(guò)于籠統(tǒng)、可讀性差等。為解決上述問(wèn)題,研究者們對(duì)LDA 模型做出了改進(jìn)。Huang等[49]率先探討了詞分配對(duì)LDA 檢測(cè)話題能力的影響。Ge 等[50]提出了基于關(guān)鍵詞的LDA(Key Phrase LDA,KPLDA)模型的中文新聞熱點(diǎn)子話題發(fā)現(xiàn)和推薦方法,采用關(guān)鍵短語(yǔ)代替獨(dú)立詞作為特征,基于KPLDA 模型對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,得到主題短語(yǔ)分布,通過(guò)聚類完成子話題發(fā)現(xiàn)。實(shí)驗(yàn)證明:KPLDA 訓(xùn)練時(shí)間消耗多于KPLDA,但KPLDA 模型的熱點(diǎn)子話題發(fā)現(xiàn)質(zhì)量和準(zhǔn)確性均優(yōu)于LDA。蘇婧瓊等[51]針對(duì)LDA 建模結(jié)果較泛化及傳統(tǒng)相似度計(jì)算方法語(yǔ)義性欠缺、無(wú)法精確區(qū)分各個(gè)子話題的問(wèn)題,提出了一種基于LDA 和誘導(dǎo)劃分(Derived Partition,DP)的子話題劃分方法,采用LDA 對(duì)文檔集建模,綜合考慮全覆蓋模型在表征文檔時(shí)的描述能力,使用誘導(dǎo)劃分實(shí)現(xiàn)子話題劃分。該方法對(duì)子話題劃分的效果很好,但誘導(dǎo)劃分的時(shí)間復(fù)雜度和空間復(fù)雜度都很高。李湘東等[52]提出一種基于LDA 和知網(wǎng)語(yǔ)義詞典(HowNet)相結(jié)合的多粒度子話題劃分方法,用LDA 模型對(duì)不同源的新聞集進(jìn)行初劃分,結(jié)合HowNet 來(lái)計(jì)算新聞文檔之間的相似度,通過(guò)增量聚類算法實(shí)現(xiàn)子話題劃分。

胡艷麗等[53]基于在線主題模型(Online LDA,OLDA)利用先驗(yàn)知識(shí)抽取網(wǎng)絡(luò)信息中隱含的子話題,定義子話題演化類型,根據(jù)語(yǔ)義相似度和時(shí)序關(guān)系建立子話題關(guān)聯(lián)。Srijith等[23]提出分層主題模型HDP(Hierarchical Dirichlet Process),能實(shí)時(shí)準(zhǔn)確檢測(cè)話題下多數(shù)子話題,非常適合子話題檢測(cè)任務(wù)。李靜遠(yuǎn)等[54]提出了抑制背景噪聲的LDA 子話題挖掘算法,預(yù)先抽取專題文檔集合的共同背景知識(shí),有效解決了共同背景下專題文章集合的子話題挖掘難題。Banu 等[55]提出了一種前景動(dòng)態(tài)主題建模方法,提取噪聲內(nèi)容并從語(yǔ)料庫(kù)中提取前景推文,在其上構(gòu)建模型,通過(guò)避免噪聲數(shù)據(jù)檢測(cè)子話題,隨時(shí)間的推移抽取生成子話題的摘要。

2.4.4 各種主題模型的比較

對(duì)各類主題模型的比較如表1所示。

表1 不同主題模型比較Tab.1 Comparison of different topic models

2.5 基于結(jié)構(gòu)圖的技術(shù)

隨著子話題研究的深入,研究者們發(fā)現(xiàn)傳統(tǒng)的文本表示方法將詞語(yǔ)單獨(dú)考慮,缺少結(jié)構(gòu)化信息,隨后有專家提出使用結(jié)構(gòu)圖的方法來(lái)表示社交媒體信息:圖的點(diǎn)代表詞,邊表示詞與詞之間的語(yǔ)義關(guān)系,通過(guò)構(gòu)建圖來(lái)識(shí)別文本信息的關(guān)聯(lián)關(guān)系,完成話題及子話題的檢測(cè)。

Liu等[56]構(gòu)建了話題相關(guān)的事件結(jié)構(gòu)圖,通過(guò)對(duì)事件圖劃分形成子話題。Katragadda 等[57]使用時(shí)間演化圖從推特?cái)?shù)據(jù)流中檢測(cè)子事件,定義了用于識(shí)別兩個(gè)圖簇關(guān)系的度量,并引入事件生命周期模型來(lái)映射所識(shí)別的關(guān)系來(lái)檢測(cè)子事件。Meladianos 等[58-59]在推文數(shù)據(jù)集中檢測(cè)演化事件中的子事件,將較短時(shí)間間隔內(nèi)連續(xù)的推文表示為一個(gè)加權(quán)的單詞圖,使用圖退化的概念來(lái)識(shí)別子事件,實(shí)驗(yàn)證明基于結(jié)構(gòu)圖的方法可以有效地捕捉子事件。

2.6 基于多模態(tài)特征的技術(shù)

2.6.1 基于單文本數(shù)據(jù)特征的方法

王巍[22]根據(jù)搜索引擎的某個(gè)話題結(jié)果進(jìn)行子話題劃分,提出了基于關(guān)鍵詞和基于時(shí)間信息的兩種子話題聚類方法。但是在基于關(guān)鍵詞的劃分方法中并未分析子話題的內(nèi)容特征;在基于時(shí)間信息的劃分方法中并未考慮相同時(shí)間可能涌現(xiàn)多個(gè)子話題的情況。為此,仲兆滿等[60]提出融合內(nèi)容和時(shí)間特征對(duì)中文新聞子話題聚類的方法,重點(diǎn)分析了子話題內(nèi)容特征的表現(xiàn)規(guī)律,研究了子話題特征詞的權(quán)重計(jì)算和降維方法。

Abhik 等[24]通過(guò)使用社交媒體數(shù)據(jù)的多個(gè)特征分兩步進(jìn)行子事件檢測(cè):首先,將每個(gè)特征單獨(dú)考慮,形成聚類并對(duì)其賦權(quán);然后,將所形成的聚類解以主加權(quán)方式組合,得到最終的聚類結(jié)果。張瑞琦[61]將整合去重后的關(guān)鍵特征映射到話題空間上形成初始話題;然后,對(duì)初始話題進(jìn)行聚類得到子話題,并進(jìn)行子話題關(guān)鍵特征的抽取。

2.6.2 基于多模態(tài)數(shù)據(jù)特征的方法

除文本數(shù)據(jù)以外,網(wǎng)絡(luò)社交媒體中圖像、音頻或視頻形式的數(shù)據(jù)也蘊(yùn)含大量信息,在進(jìn)行子話題檢測(cè)時(shí)值得納入考慮。Pohl 等[62-64]對(duì)社交媒體中的文本、圖像、視頻等多模態(tài)數(shù)據(jù),采取聚類算法識(shí)別與危機(jī)相關(guān)的子事件,證明了對(duì)多模態(tài)數(shù)據(jù)使用聚類技術(shù)檢測(cè)子事件的可行性。

多用戶網(wǎng)絡(luò)社交媒體平臺(tái)信息中存在數(shù)據(jù)異構(gòu)和時(shí)間不同步等問(wèn)題,因此跨媒體庫(kù)的子事件檢測(cè)任務(wù)準(zhǔn)確率不高。Zaharieva 等[65]提出多用戶圖像集中的媒體同步與子事件檢測(cè),利用上下文中時(shí)間、位置信息以及圖像內(nèi)容來(lái)挖掘多模態(tài)數(shù)據(jù)集,研究在數(shù)據(jù)未同步情況下使用聚類算法檢測(cè)子事件的可行性。Qian 等[66]提出一種基于社交媒體的事件匯總方法,使用用戶文本圖像共同聚類的方法,從多種媒體類型(用戶、文本和圖像)的微博中共同發(fā)現(xiàn)子事件,通過(guò)實(shí)驗(yàn)證明,與單一文本聚類方法相比,該方法具有優(yōu)越性。

2.7 其他檢測(cè)技術(shù)

上述方法并不互相獨(dú)立,為提升子話題檢測(cè)的準(zhǔn)確率和實(shí)用性,許多研究者對(duì)各種方法進(jìn)行探索、結(jié)合與改進(jìn),提出了一些諸如結(jié)合在線和離線的方法、結(jié)合概率論和數(shù)理統(tǒng)計(jì)的方法、結(jié)合有監(jiān)督和無(wú)監(jiān)督的方法等其他檢測(cè)方法。

Panem 等[67]結(jié)合離線方法和在線方法,提出了基于推特子話題檢測(cè)的實(shí)體實(shí)時(shí)跟蹤方法,探索了基于語(yǔ)義和基于概念空間表示來(lái)解決動(dòng)態(tài)聚類問(wèn)題的方法。在離線階段,通過(guò)訓(xùn)練數(shù)據(jù)獲得種子集群,然后在在線階段使用種子集群來(lái)對(duì)推文進(jìn)行集群測(cè)試,定期清理團(tuán)簇以保持其純度,從而提高子話題檢測(cè)的準(zhǔn)確性,保證系統(tǒng)的高效性和實(shí)用性。

另一些研究者引入概率論和數(shù)理統(tǒng)計(jì)的方法進(jìn)行子話題檢測(cè),魏明川等[68]提出一種基于吸收馬爾可夫鏈的子話題發(fā)現(xiàn)方法,該方法將聚類生成的話題關(guān)鍵詞組合生成子話題,用吸收馬爾可夫鏈對(duì)子話題進(jìn)行吸收衍化,重排序生成最終子話題。實(shí)驗(yàn)結(jié)果表明,該方法能同時(shí)保證生成子話題的重要性和多樣性。Khurdiya 等[69]使用條件隨機(jī)場(chǎng)模型從推文中識(shí)別、提取和構(gòu)建圍繞大型熱點(diǎn)事件的小型子事件結(jié)構(gòu)圖。

針對(duì)話題檢測(cè)多停留在二維平面集合操作,而忽略了話題及子話題可能存在的層次關(guān)系問(wèn)題,韓冰等[70]結(jié)合生物學(xué)知識(shí),引入覓食基礎(chǔ)上改進(jìn)的蟻群算法,通過(guò)改進(jìn)相似度度量方法以及狀態(tài)轉(zhuǎn)換函數(shù)來(lái)改進(jìn)現(xiàn)有的蟻群算法,并利用改進(jìn)的蟻群聚類算法實(shí)現(xiàn)新聞話題的子話題自動(dòng)劃分。

Chen 等[71]結(jié)合有監(jiān)督和無(wú)監(jiān)督技術(shù),首先提出了用于子事件檢測(cè)的無(wú)監(jiān)督深度神經(jīng)網(wǎng)絡(luò),使用一種新的編碼器-存儲(chǔ)器-解碼器框架進(jìn)行社交媒體子事件檢測(cè),該模型以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí),通過(guò)為每條推文選擇最合適的子事件表示來(lái)完成子事件檢測(cè),從而最大限度提高文本重建概率。

3 子話題檢測(cè)方式

在社交媒體子話題檢測(cè)的任務(wù)中,本文按照對(duì)實(shí)時(shí)性的要求將其分為離線檢測(cè)和在線檢測(cè)兩種方式。話題檢測(cè)最初是應(yīng)用在離線的靜態(tài)文本上的,在進(jìn)行子話題檢測(cè)時(shí),離線檢測(cè)是指先將相關(guān)數(shù)據(jù)獲取到本地,隨后再對(duì)其進(jìn)行處理和檢測(cè)。隨著社交媒體的發(fā)展,更多用戶希望不僅能檢索歷史事件,還能實(shí)時(shí)獲取最新的熱點(diǎn)事件和焦點(diǎn)話題,同時(shí)進(jìn)一步了解相關(guān)話題下的不同子話題,這產(chǎn)生了在線子話題檢測(cè)的應(yīng)用需求。離線檢測(cè)和在線檢測(cè)兩種方式的通用技術(shù)包括基于聚類的方法、基于主題模型的方法、基于結(jié)構(gòu)圖的方法等,但面向不同場(chǎng)景,二者所采用的技術(shù)也有不同,在3.1 節(jié)和3.2節(jié)中對(duì)它們分別作詳細(xì)介紹,其對(duì)比如表2所示。

表2 兩種子話題檢測(cè)方式對(duì)比Tab.2 Comparison of two sub-topic detection methods

3.1 在線子話題檢測(cè)

社交媒體的信息具有實(shí)時(shí)性、更迭迅速的特點(diǎn)。在線子話題檢測(cè)常用的技術(shù)主要是基于突發(fā)狀況的方法,常使用無(wú)監(jiān)督或半監(jiān)督學(xué)習(xí)方法檢測(cè)數(shù)據(jù)的顯著變化。此外,還有一些研究者使用滑動(dòng)窗口技術(shù)對(duì)在線數(shù)據(jù)流處理的方法、基于聚類的方法、基于主題模型的方法、基于結(jié)構(gòu)圖的方法等技術(shù)來(lái)完成在線子話題檢測(cè)任務(wù)。

程葳等[21]針對(duì)互聯(lián)網(wǎng)新聞的特點(diǎn)提出了在線話題檢測(cè)算法,提出子話題概念,建立具有子話題層和話題層的雙層檢測(cè)結(jié)構(gòu)和基于滑動(dòng)窗口的跟蹤策略,解決信息冗余、議題發(fā)散和話題漂移等問(wèn)題,實(shí)驗(yàn)表明該方法的最小錯(cuò)誤代價(jià)為0.138 8,遠(yuǎn)低于傳統(tǒng)single-pass 算法的0.371 9。Saravanou等[72]提出一種對(duì)通用文本流以在線方式進(jìn)行子話題檢測(cè)和描述的方法DeLi(Detection and deLineation),結(jié)合社交網(wǎng)絡(luò)的結(jié)構(gòu)與內(nèi)容屬性,通過(guò)跟蹤用戶節(jié)點(diǎn)和內(nèi)容節(jié)點(diǎn)的連通圖檢測(cè)事件和子事件,并選擇最中心的內(nèi)容節(jié)點(diǎn)來(lái)表示這些子事件,實(shí)驗(yàn)表示該方法在精度(0.15)、召回率(0.49)、F-Score(0.22)和運(yùn)行時(shí)間(139 s)上都表現(xiàn)優(yōu)越。Tokarchuk 等[73]通過(guò)實(shí)時(shí)微博監(jiān)控框架進(jìn)行子事件檢測(cè):首先,使用自適應(yīng)微博爬蟲(chóng)爬取數(shù)據(jù);然后,采用可以實(shí)時(shí)完成的流劃分方法,通過(guò)突發(fā)檢測(cè)算法來(lái)分析時(shí)間特征;最后,從每個(gè)劃分的流中提取內(nèi)容特征并重新組合以提供子事件的最終概括。實(shí)驗(yàn)證明該框架能更全面準(zhǔn)確地識(shí)別子事件,在召回率(44.44%)和精確度(9.57%)上均有良好的表現(xiàn)。

Gon?alves 等[74]模擬在線子話題檢測(cè)的實(shí)驗(yàn),比較Kmeans、非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)、LDA 和動(dòng)態(tài)主題模型(Dynamic Topic Model,DTM)幾個(gè)算法的性能,把歸一化互信息(Normalized Mutual Information,NMI)、調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)和歸一化折損累積增益(Normalized Discounted Cummulative Gain,NDCG)@10 作為評(píng)估指標(biāo),并得出結(jié)論:NMF 為最優(yōu)聚類方法(0.740,0.421,0.576 7);其次是K-means 算法,其中使用余弦距離的K-means 方法(0.726,0.387,0.577 1)優(yōu)于使用JS 散度(Jensen-Shannon divergence)的K-Means 方法(0.736,0.406,0.577 1);由于缺乏文本元素和訓(xùn)練模型的文檔,LDA(0.613,0.228,0.442 6)和DTM(0.658,0.267,0.468 8)表現(xiàn)較差。

3.2 離線子話題檢測(cè)

通常網(wǎng)絡(luò)社交媒體平臺(tái)中的話題具有生命周期,且同一話題在熱度降低以后隔一段時(shí)間可能隨其他話題再次被提起,因此話題和子話題可能階段性地分布在不同時(shí)間段的社交媒體數(shù)據(jù)中,且每次出現(xiàn)都伴隨著大量的相關(guān)信息?;谶@種特性,在線子話題檢測(cè)往往只能局限地識(shí)別出當(dāng)前的子事件,而不能檢測(cè)出構(gòu)成話題的全部子話題內(nèi)容以及話題演化的過(guò)程。因此在沒(méi)有時(shí)效性和及時(shí)性的要求時(shí),為提高檢測(cè)準(zhǔn)確率,全面而具體地反映話題及子話題的內(nèi)容和演化歷程,當(dāng)前大多數(shù)的子話題檢測(cè)均采用離線的處理方式進(jìn)行。

在離線處理中,數(shù)據(jù)是已知的,可以統(tǒng)計(jì)從最近幾個(gè)月到一兩年甚至更久的已有信息,進(jìn)行數(shù)據(jù)的建模和歷史信息的統(tǒng)計(jì)分析。通過(guò)相關(guān)的數(shù)據(jù)元信息(例如地理位置、文本內(nèi)容、關(guān)鍵詞等),可以對(duì)話題的局部或全局做出明確的認(rèn)知。離線子話題檢測(cè)方式以存儲(chǔ)在本地的離線數(shù)據(jù)為基礎(chǔ),結(jié)合機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、文本分析等進(jìn)行子話題的檢測(cè),常用技術(shù)有基于聚類的方法、基于主題模型的方法,也可以采用基于分類的方法、基于特征的方法、基于結(jié)構(gòu)圖的方法等。

4 結(jié)語(yǔ)

通過(guò)對(duì)以上研究成果的分析,本文得出結(jié)論:將多個(gè)不同子話題作為同一話題下的縱向挖掘深入拓展,通常能更為有效地描述某一話題的不同側(cè)面,反映同一事件中不同子事件的發(fā)酵和演化過(guò)程,以便全面掌握全局信息。當(dāng)前,對(duì)于社交媒體平臺(tái)中子話題檢測(cè)研究已有了一些初步進(jìn)展,但還存在以下幾個(gè)方面的問(wèn)題。

1)話題檢測(cè)粒度過(guò)于粗糙:對(duì)話題檢測(cè)的研究較多,而針對(duì)某一特定話題下的子話題檢測(cè)研究較少。當(dāng)前的研究多是把話題當(dāng)成一個(gè)整體,而忽略了內(nèi)部結(jié)構(gòu)和其聯(lián)系,欠缺對(duì)子話題層次的深入細(xì)化。

2)同一話題下子話題之間的相似性:在子話題檢測(cè)任務(wù)中,各個(gè)子話題同屬于一個(gè)主話題,擁有相同的背景,因而具有很強(qiáng)的相似性,當(dāng)前普通的話題挖掘方法對(duì)于具有相同背景的子話題數(shù)據(jù)集合檢測(cè)效果不好,檢測(cè)結(jié)果區(qū)分度受限。

3)在線檢測(cè)技術(shù)的不足:網(wǎng)絡(luò)社交媒體的用戶規(guī)模和信息量持續(xù)增長(zhǎng),相應(yīng)產(chǎn)生實(shí)時(shí)變化的數(shù)據(jù)流和海量的數(shù)據(jù)集,以在線方式快速準(zhǔn)確檢測(cè)子話題仍值得關(guān)注。

4)文本特征選擇問(wèn)題:社交媒體平臺(tái)中的數(shù)據(jù)多為短文本,存在特征稀疏性問(wèn)題,需要充分挖掘短文本中更多特征及重要性關(guān)系,提高處理效率和結(jié)果的準(zhǔn)確率。

5)數(shù)據(jù)多模態(tài)問(wèn)題:當(dāng)前子話題檢測(cè)研究主要圍繞文本數(shù)據(jù),但網(wǎng)絡(luò)社交媒體中圖像、音頻或視頻等形式的數(shù)據(jù)也蘊(yùn)含大量信息,在子話題檢測(cè)任務(wù)中能發(fā)揮重要作用。

6)跨平臺(tái)檢測(cè)問(wèn)題:大部分子話題檢測(cè)研究都是針對(duì)某一平臺(tái)的單源數(shù)據(jù)?,F(xiàn)階段網(wǎng)絡(luò)中各社交平臺(tái)相互緊密關(guān)聯(lián)(例如可以將知乎中的帖子分享至微博),話題傳播途徑也全面覆蓋多種平臺(tái)。因此,子話題檢測(cè)過(guò)程中應(yīng)增加更多的數(shù)據(jù)來(lái)源,以便全面反映網(wǎng)絡(luò)中的話題及子話題內(nèi)容。

7)子話題的呈現(xiàn)問(wèn)題:當(dāng)前廣泛應(yīng)用的各類方法(例如聚類、主題模型)檢測(cè)出的話題一般用無(wú)序的詞語(yǔ)或短語(yǔ)表示,語(yǔ)義理解性較差。所以,提供語(yǔ)義清晰、邏輯通順的高質(zhì)量子話題呈現(xiàn)成為備受關(guān)注的一個(gè)用戶需求,可以考慮結(jié)合領(lǐng)域詞匯集或外部知識(shí)庫(kù)擴(kuò)充主題詞,或抽取相關(guān)語(yǔ)句進(jìn)行描述,抑或是利用可視化技術(shù)實(shí)現(xiàn)直觀呈現(xiàn)。

8)評(píng)估指標(biāo)問(wèn)題:在話題檢測(cè)中常用準(zhǔn)確率、召回率和F值等作為評(píng)估指標(biāo),許多學(xué)者將其借鑒用于子話題檢測(cè)任務(wù)中,雖能一定程度衡量系統(tǒng)的準(zhǔn)確性,但仍有局限。而針對(duì)不同的子話題檢測(cè)方法,相應(yīng)地也涌現(xiàn)出不同的評(píng)估方法和指標(biāo),如聚類方法常用NMI、ARI 作為評(píng)價(jià)指標(biāo),基于主題模型的方法常用困惑度作為評(píng)價(jià)指標(biāo)等,這些指標(biāo)在一定程度上完成了對(duì)不同方法的評(píng)估與比較,但是目前還沒(méi)有一個(gè)可以普遍適用的完整而成熟的評(píng)估系統(tǒng)。

猜你喜歡
聚類社交算法
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
社交牛人癥該怎么治
哪種算法簡(jiǎn)便
聰明人 往往很少社交
一種改進(jìn)K-means聚類的近鄰傳播最大最小距離算法
AR-Grams:一種應(yīng)用于網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)的文本聚類方法
社交距離
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
根據(jù)問(wèn)題 確定算法
肥西县| 威远县| 锡林郭勒盟| 蒙自县| 东阿县| 民和| 潼关县| 牡丹江市| 襄汾县| 惠州市| 霍城县| 正阳县| 特克斯县| 会泽县| 临泽县| 克什克腾旗| 新丰县| 宁明县| 榕江县| 南溪县| 思南县| 大理市| 大渡口区| 桂林市| 南通市| 宁河县| 镇巴县| 兴山县| 淳安县| 临夏市| 望江县| 奉节县| 彭阳县| 平乐县| 天等县| 沾益县| 平罗县| 佳木斯市| 邳州市| 大连市| 黄浦区|