国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙向量模型的自適應(yīng)微博話題追蹤方法

2019-06-06 05:46:34郭文忠
關(guān)鍵詞:特征選擇雙向閾值

黃 暢,郭文忠,郭 昆

(福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350116) (福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福州 350116) (空間數(shù)據(jù)挖掘與信息共享教育部重點(diǎn)實(shí)驗(yàn)室,福州 350116)

1 引 言

微博作為社交媒體的代表受到了大眾的廣泛關(guān)注,每天都會產(chǎn)生海量的數(shù)據(jù)信息.微博用戶往往更加關(guān)注熱點(diǎn)話題的進(jìn)展,從而,微博的實(shí)時信息流中,用戶對于話題的動態(tài)更新有著迫切的需求.話題跟蹤技術(shù)作為話題檢測與跟蹤技術(shù)[1]的子任務(wù)之一,為互聯(lián)網(wǎng)的信息過載[2]問題提供了良好的解決途徑.話題跟蹤技術(shù),主要是對已知的某話題進(jìn)行后續(xù)文本的持續(xù)跟蹤,為用戶提取話題的演化過程,對用戶個性化推薦[3]的生成、觀點(diǎn)的總結(jié)以及突發(fā)事件應(yīng)急監(jiān)測[4]等實(shí)際應(yīng)用都有著重要的指導(dǎo)作用.

目前,微博話題追蹤存在特征稀疏、話題漂移,微博向量化導(dǎo)致微博部分信息丟失等問題.針對特征稀疏問題,已提出多種擴(kuò)展特征的方法[5-8];為了應(yīng)對話題漂移問題,反饋迭代、詞概率等方法[9,10]被提出;針對微博向量化問題,通常采用VSM或者詞嵌入向量化方法[11,12],保留微博的新詞或者語義信息.但仍存在微博向量化后丟失了微博語義或者忽略了微博中的新詞,以及無法完全克服話題漂移等不足.

針對上述問題,本文提出基于雙向量模型的自適應(yīng)微博話題追蹤方法(Self-Adaptive method based on Double-Vector model for microblog Topic Tracking,簡稱為SADV-TT).

本文的主要貢獻(xiàn)如下:

1)提出雙向量模型表示話題和微博,采用詞嵌入的方式保留了文本的語義特性,同時利用VSM向量化的方式保留新詞信息;

2)引入時間屬性,提出一種自適應(yīng)學(xué)習(xí)相似度閾值的策略,降低話題相關(guān)微博的漏檢率,提高話題追蹤算法的性能;

3)在話題追蹤過程中動態(tài)更新話題模型,應(yīng)對話題演化過程中的話題漂移,降低話題相關(guān)微博的漏檢率和誤檢率.

2 相關(guān)工作

微博話題追蹤方法總體可以分為基于分類的方法和基于查詢向量的方法[13].

基于分類的方法是利用大量已知話題的微博語料訓(xùn)練分類器,實(shí)現(xiàn)對后續(xù)文檔的分類.Lin J等[14]利用 hashtag 作為標(biāo)簽,為每個關(guān)注的話題訓(xùn)練一個語言模型,利用這些語言模型追蹤 Twitter 數(shù)據(jù)流中感興趣的話題.馮軍軍等[15]通過構(gòu)建樸素貝葉斯網(wǎng)絡(luò)模型,實(shí)現(xiàn)話題的追蹤.唐孝軍[16]采用隨機(jī)森林分類器實(shí)現(xiàn)話題追蹤.付鵬等[11]利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建話題追蹤模型,追蹤后續(xù)的熱點(diǎn)話題微博.基于分類的話題追蹤方法實(shí)現(xiàn)簡單,但是依賴于初始樣本訓(xùn)練,通常在話題產(chǎn)生的初始階段,沒有足夠的可用于訓(xùn)練的初始樣本,過少的訓(xùn)練樣本會造成分類器的泛化能力嚴(yán)重降低,以至于話題追蹤效果不佳.

目前使用較多的是基于查詢向量的方法.基于查詢向量的方法是根據(jù)先驗(yàn)數(shù)據(jù)集構(gòu)建一個查詢向量,然后計(jì)算后續(xù)微博與該查詢向量的相似度,并根據(jù)相似度閾值進(jìn)行判決,從而完成話題追蹤.針對基于查詢向量的方法通常只計(jì)算文本特征形式上的相似度,忽略了微博之間的語義信息,導(dǎo)致大量“語義相近、形式不同”的微博被漏檢.張佳明等[13]提出一種基于詞向量的微博事件追蹤方法,將話題和微博分別用特征詞表示,通過特征詞之間的語義相似度,表示話題與微博間語義相似度,進(jìn)而降低話題微博的漏檢率和誤檢率.為了應(yīng)對話題漂移現(xiàn)象,Zheng Yan等[12]提出利用反饋報(bào)道來補(bǔ)充話題模型進(jìn)行增量學(xué)習(xí)的自適應(yīng)話題跟蹤方法.王慧[17]在改進(jìn)原始向量空間模型的基礎(chǔ)上,提出基于K-means 聚類的微博自適應(yīng)話題追蹤方法,在追蹤話題的同時動態(tài)更新話題模型,減小話題漂移的速度.武軍娜[18]提出一種新的包含靜態(tài)和動態(tài)兩部分的話題模型來實(shí)現(xiàn)話題的自適應(yīng)跟蹤,在話題追蹤過程中話題模型的靜態(tài)部分保持不變,動態(tài)部分動態(tài)更新來應(yīng)對話題漂移問題.上述方法通過結(jié)合文本的語義信息或者動態(tài)更新話題模型的策略來提高話題追蹤的性能,但是未考慮到話題追蹤過程中相似度閾值設(shè)置偏大會導(dǎo)致漏檢率偏大,相似度閾值設(shè)置偏小會造成誤檢率偏大,以及不同的話題模型相似度閾值不一定相同等問題,因此相似度閾值也應(yīng)隨話題模型的演化自適應(yīng)學(xué)習(xí).

針對上述問題,本文提出了基于雙向量模型的自適應(yīng)微博話題追蹤方法.首先采用雙向量模型表示話題和微博;其次,計(jì)算話題與微博的相似度,即計(jì)算話題雙向量模型與微博雙向量模型的余弦相似度.然后,自適應(yīng)學(xué)習(xí)相似度閾值并將話題和微博的相似度與相似度閾值進(jìn)行比較,判定微博是否為話題相關(guān)微博.最后,自適應(yīng)更新話題模型,以應(yīng)對話題漂移問題.

3 基于雙向量模型的自適應(yīng)微博話題追蹤方法

3.1 SADV-TT的基本流程

SADV-TT方法主要包括以下幾個步驟:

1)構(gòu)建話題雙向量模型和微博雙向量模型;

2)計(jì)算話題與微博的相似度;

3)相似度閾值的自適應(yīng)學(xué)習(xí)和閾值比較;

4)話題模型更新.

話題追蹤具體流程如圖1所示.

圖1 話題追蹤方法流程圖Fig.1 Flow chart of topic tracking method

3.2 雙向量模型構(gòu)建

3.2.1 雙向量模型構(gòu)建的基本過程

雙向量模型指將文本用詞嵌入和VSM兩種方法分別向量化,生成兩個向量.

首先對文本進(jìn)行特征選擇,利用特征及其對應(yīng)的權(quán)重值表示文本.特征選擇采用基于BTM[19]主題模型的特征選擇方法或者基于TFIDF的特征選擇方法.基于BTM主題模型的特征選擇方法,使用BTM主題模型挖掘文本中潛在的主題詞分布,選擇概率分布高的m個詞以及對應(yīng)的歸一化后的概率分布值,作為文本特征表示文本.基于TFIDF的特征選擇方法,采用TFIDF算法從文本中抽取TFIDF值大的m個詞以及對應(yīng)的歸一化后的TFIDF值為特征權(quán)重來表示文本.TFIDF值的計(jì)算公式如公式(1)所示:

TFIDFw=tfw×lg(M/Mw+0.01)

(1)

其中,TFIDFw表示詞w的TFIDF值,tfw表示詞w在當(dāng)前文本中的出現(xiàn)次數(shù),M表示總文本數(shù)目,Mw表示含有詞w的文本數(shù).

文本特征集V的具體表示形式如公式(2)所示:

V={f1:ratef1,f2:ratef2,…,fm:ratefm}

(2)

其中,m表示特征詞個數(shù),fi表示文本的第i個特征詞,ratefi指特征詞fi的權(quán)重.

其次,采用VSM向量化方法和詞嵌入向量化方法將文本特征集分別表示成向量.VSM向量化方法保留文本中的新詞,忽略了文本的語義特性,而詞嵌入向量化方法保留了文本特征詞的語義信息,對詞語的表達(dá)更加準(zhǔn)確,但是微博文本中存在大量的新詞,無法從預(yù)先訓(xùn)練的詞向量表中獲取相應(yīng)的詞向量,生成的向量忽略了新詞在文本中的作用.綜合考慮VSM向量化方法對新詞有較好的處理能力以及詞嵌入向量化方法存在的語義優(yōu)勢,將文本同時采用VSM和詞嵌入兩種方式向量化.因此,雙向量模型由Word2Vec向量和VSM向量組成.本文采用2013年Mikolov Tomas[20]提出的Word2Vec中的Skip-gram模型在中文微博數(shù)據(jù)集上訓(xùn)練獲得詞向量.

Word2Vec向量是指將文本利用其特征詞的詞向量轉(zhuǎn)化成的向量.將文本表示成文本中最有代表性的m個特征詞的詞向量與其特征權(quán)重相乘的和,如公式(4)所示.

k={k1,k2,…,kn}

(3)

(4)

其中,k表示文本向量,n表示向量維度,ki表示向量k第i維的值,m表示文本特征數(shù)目,wij代表該文本中第j個特征詞的詞向量第i維的值,ratej表示第j個特征詞的特征權(quán)重.

VSM向量即將文本采用向量空間模型的方式表示成向量.一個特征表示成向量中的一維,在向量中的值等于特征詞的特征權(quán)重.

3.2.2 話題雙向量模型和微博雙向量模型構(gòu)建

在SADV-TT方法中,話題雙向量模型包括初始話題雙向量模型和追蹤過程中的話題雙向量模型兩種.初始話題雙向量模型首先從話題相關(guān)微博中隨機(jī)選擇x條作為初始話題微博,然后采用基于BTM主題模型的特征選擇方法選擇特征生成初始話題模型,并采用VSM向量化方法和詞嵌入向量化方法將話題特征分別表示成向量,構(gòu)建雙向量模型.追蹤過程中的話題雙向量模型直接對話題模型中的話題特征采用VSM向量化方法和詞嵌入向量化方法向量化,構(gòu)建雙向量模型.

微博雙向量模型先采用基于TFIDF特征選擇方法選擇特征,然后將微博特征集向量化,構(gòu)建雙向量模型.

3.3 微博與話題的相似度計(jì)算

話題與微博的相關(guān)性用話題與微博的相似度來表示,相似度越大,相關(guān)性越大.微博與話題之間的相似度用微博雙向量模型和話題雙向量模型的相似度來表示.

雙向量模型中含有VSM向量和Word2Vec向量.雙向量模型之間的相似度等于兩個模型中的Word2Vec向量的余弦相似度和VSM向量的余弦相似度的平均值,余弦相似度的計(jì)算方法如公式(5)所示:

(5)

其中,Simkd表示向量k和向量d的余弦相似度,ki表示向量k第i維上的值,di表示向量d第i維上的值.

話題與微博的相似度計(jì)算方法如公式(6)所示:

(6)

其中Sim表示話題與微博的相似度,simvsm表示雙向量模型中的VSM向量之間的相似度,simword2vec表示雙向量模型中的Word2Vec向量之間的相似度.

3.4 相似度閾值自適應(yīng)學(xué)習(xí)

SADV-TT方法中的相似度閾值分為相似度最低閾值ε和反饋閾值δ.反饋閾值用于挑選與話題高度相關(guān)的微博作為反饋微博,更新話題模型.而相似度最低閾值是微博屬于話題的最小邊界,反饋閾值大于最低閾值.因此,如果微博與話題的相似度大于反饋閾值,則微博與話題高度相關(guān),將其加入反饋微博集,用于生成新的話題模型.如果微博與話題的相似度大于最低閾值,則判定微博為話題相關(guān)微博.反之,如果微博與話題的相似度不大于最低閾值,則將微博判定為話題不相關(guān)微博.

一般而言,由于話題之間的差異,每個話題的相似度閾值也存在差異.因此,相似度閾值ε和δ均采用自適應(yīng)學(xué)習(xí)的方式生成.對于每一個話題的初始反饋閾值,用初始話題與初始話題相關(guān)微博的相似度的平均值表示.而追蹤過程中反饋閾值則與前s個時隙的反饋微博與話題的相似度的平均值相關(guān),時間間隔越近相關(guān)性越強(qiáng).閾值ε和δ的計(jì)算如公式(7)-公式(8)所示.

(7)

εt=δt-C

(8)

其中,t表示第t個時隙,δt表示第t時隙的反饋閾值,feedsimi表示第i個時隙的反饋微博與話題相似度的平均值,εt表示第t時隙的最小閾值,C表示話題容忍度,最低閾值與反饋閾值相關(guān),其值等于反饋閾值減話題容忍度C.

3.5 話題模型更新

為了有效應(yīng)對話題追蹤過程中產(chǎn)生的話題漂移問題,動態(tài)更新話題模型成為話題追蹤必不可少的步驟.一般來說,話題追蹤過程中,話題模型與上一個時隙的相關(guān)微博具有較大的相關(guān)性,通過從上一個時隙的反饋微博中提取話題特征生成動態(tài)話題模型.如果話題模型僅由動態(tài)話題模型來決定,會使與原話題相關(guān)的微博被漏檢,可以通過保留初始話題模型的部分特征來克服.因此,在SADV-TT方法中,新話題模型由初始話題模型和動態(tài)話題模型以及原話題模型共同構(gòu)建.話題模型構(gòu)建步驟:

1)構(gòu)建初始話題模型.利用基于BTM主題模型的特征選擇方法從初始話題微博集中選擇話題特征生成初始話題模型;

2)構(gòu)建動態(tài)話題模型.采用基于BTM主題模型的特征選擇方法從反饋微博集中選擇話題特征,生成動態(tài)話題模型;

3)更新話題模型.原話題模型加入初始話題模型和動態(tài)話題模型的特征,如果原話題模型中已經(jīng)存在某個特征,用三個模型中該特征的最大權(quán)重值更新原話題模型特征的權(quán)重值.接著將原話題模型的特征按權(quán)重值降序排列,選擇靠前的T個特征及其權(quán)重值作為新話題模型更新原話題模型.

為了提高話題追蹤方法的效率,SADV-TT的話題模型更新設(shè)置了時間條件和反饋微博數(shù)閾值feed.如果只要有反饋微博加入就更新話題,則會使話題更新次數(shù)過于頻繁,影響追蹤效率.并且,如果該時隙內(nèi)加入的反饋微博數(shù)太少,則可能是噪音微博,所以不更新話題.因此,一個時隙結(jié)束后,如果新加入的反饋微博數(shù)大于feed,則更新話題.否則,不更新話題.一般來說,20個特征即可以表示一個話題,所以T取20.

3.6 復(fù)雜度分析

設(shè)初始話題微博數(shù)為x,BTM模型迭代次數(shù)k.每個時隙的微博共有M條.一條微博中文字符個數(shù)w.t表示第t個時隙,s表示相關(guān)時隙個數(shù).

首先分析SADV-TT方法的時間復(fù)雜度.在話題和微博表示中,初始話題生成的時間復(fù)雜度為O(xkw2),微博特征生成的時間復(fù)雜度為O(Mw).因此話題和微博表示的時間復(fù)雜度為O(xkw2+Mw)=O(w(xkw+M))).話題與微博向量化的時間復(fù)雜度為O(Mw).話題與微博的余弦相似度計(jì)算時間復(fù)雜度為O(Mw).閾值自適應(yīng)學(xué)習(xí)的時間復(fù)雜度為O(s),話題模型更新的時間復(fù)雜度為O(Mkw2).綜上所述,總的時間復(fù)雜度為O(w(xkw+M))+Mw+Mw+s+Mkw2),在存在大量微博數(shù)據(jù)的情況下,一般有s<

接下來分析SADV-TT的空間復(fù)雜度.微博存儲需要存儲空間O(M);在話題和微博表示中,話題生成需要存儲空間O(xw2),話題和微博特征存儲需要O((M+ 1)w),話題和微博表示總的空間復(fù)雜度為O(xw2+(M+ 1)w);在話題與微博向量化中,存儲話題向量和微博向量需要O(2Mw);在相似度閾值自適應(yīng)學(xué)習(xí)中,需要存儲微博與話題的歷史平均相似度需要O(t)的存儲空間.在話題模型更新中,空間復(fù)雜度為O(2Mw).綜上所述,SADV-TT方法總的空間復(fù)雜度為O(M+(xw2+(M+ 1)w)+2Mw+t+2Mw).在存在大量微博數(shù)據(jù)的情況下,一般有w<=140<

4 實(shí) 驗(yàn)

4.1 度量標(biāo)準(zhǔn)

實(shí)驗(yàn)選取漏檢率、誤檢率和歸一化跟蹤代價作為微博話題追蹤的性能評測指標(biāo)[21],其計(jì)算方式具體如公式(11)所示.

(9)

(10)

(11)

其中,Pmiss為漏檢率,PFA為誤檢率,Missnum是與話題相關(guān)的微博被判斷為與話題不相關(guān)的微博總數(shù),TotalY為與話題相關(guān)的微博總數(shù),Faultnum是與話題不相關(guān)的微博被判斷為與話題相關(guān)的微博總數(shù),TotalN為與話題不相關(guān)的微博總數(shù).Cmiss和CFA分別是系統(tǒng)漏檢和誤檢的條件概率,Ptarget和Pnon-target是先驗(yàn)?zāi)繕?biāo)概率(Pnon-target= 1 -Ptarget).在實(shí)際測評中:Cmiss=1.0,CFA=0.1,Ptarget=0.02,Pnon-target=0.98,(CDet)norm的數(shù)值越小,則表明系統(tǒng)的性能越好.

4.2 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)采用八爪魚軟件隨機(jī)抓取從2018年1月1日至2018年1月30日共計(jì)30000多條微博,構(gòu)成本實(shí)驗(yàn)原始數(shù)據(jù).從原始數(shù)據(jù)中抽取3個話題進(jìn)行跟蹤,共包括1386條話題相關(guān)微博,話題名稱分別為MH370、酒駕以及慶熙大學(xué)鄭容和,每個話題的具體微博數(shù)目如表1所示.除上述3個話題以外其余數(shù)據(jù)均作為反例.實(shí)驗(yàn)以天為單位進(jìn)行時隙劃分.

表1 實(shí)驗(yàn)數(shù)據(jù)集
Table 1 Experimental data set

話題數(shù)量MH370211酒駕912慶熙大學(xué)鄭容和263

4.3 實(shí)驗(yàn)和結(jié)果

在本節(jié)中,通過實(shí)驗(yàn)來驗(yàn)證SADV-TT方法的可行性和高效性.第1個實(shí)驗(yàn)是參數(shù)實(shí)驗(yàn),通過實(shí)驗(yàn)確定話題相似度閾值中的容忍度C以及反饋微博閾值feed的取值.第2個實(shí)驗(yàn)是為了驗(yàn)證話題和微博采用雙向量模型表示在話題追蹤中的有效性.第3個實(shí)驗(yàn)是為了驗(yàn)證自適應(yīng)相似度閾值學(xué)習(xí)策略以及話題模型更新策略的可行性,第4個實(shí)驗(yàn)是為了檢驗(yàn)SADV-TT話題追蹤方法的應(yīng)用性能.

4.3.1參數(shù)實(shí)驗(yàn)

為了避免參數(shù)選擇的偶然性,參數(shù)實(shí)驗(yàn)從反例數(shù)據(jù)集中再隨機(jī)選擇7個話題總共10個話題微博組成待追蹤數(shù)據(jù)集,剩余微博數(shù)據(jù)作為反例.

最小閾值的參數(shù)容忍度C的選擇會影響話題追蹤的效果,如果C值設(shè)置過大,會增大誤檢率,如果C值設(shè)置過小,則會導(dǎo)致漏檢率增大,因此需要進(jìn)行參數(shù)實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如圖2所示.

圖2 參數(shù)C實(shí)驗(yàn)結(jié)果Fig.2 Parameter experiment results of C

由圖2可知,每個話題的(CDet)norm指標(biāo)均隨著C值增大先緩慢減小后快速增大,最終趨近于一個固定常數(shù).同時,可以發(fā)現(xiàn)當(dāng)話題容忍度C處于0.25和0.3時,話題的(CDet)norm指標(biāo)較小且較穩(wěn)定,因此接下來的實(shí)驗(yàn)中,取話題容忍度參數(shù)C=0.3.

為了驗(yàn)證反饋微博閾值feed是否會影響話題追蹤的性能,對參數(shù)feed進(jìn)行實(shí)驗(yàn).feed參數(shù)從區(qū)間[1,10]以1為步長取值進(jìn)行實(shí)驗(yàn).圖3給出feed參數(shù)的實(shí)驗(yàn)結(jié)果.

由圖3可以看出,進(jìn)行實(shí)驗(yàn)的話題中有些話題的(CDet)norm指標(biāo)隨參數(shù)feed的取值不同有變化,而所有話題的(CDet)norm指標(biāo)在feed大于6時幾乎保持穩(wěn)定.因此接下來的實(shí)驗(yàn)中,反饋微博閾值參數(shù)feed取值為10.

4.3.2話題模型表示方案的對比實(shí)驗(yàn)

為了測試雙向量模型表示方法在話題追蹤中的有效性,對SADV-TT方法中的話題和微博向量化步驟進(jìn)行改造,形成不同的話題追蹤方法:采用基于TFIDF特征選擇方法的雙向量模型的方法稱為TFIDF-TT方法;采用基于BTM主題模型進(jìn)行特征選擇并采用詞嵌入的方式向量化話題和微博的方法稱Vector-TT方法;采用基于BTM主題模型提取特征然后采用VSM方法向量化話題和微博的方法稱為VSM-TT方法;采用基于BTM主題模型特征選擇方法的雙向量模型的方法稱為DoubleVector-TT方法.在相同實(shí)驗(yàn)數(shù)據(jù)下將DoubleVector-TT方法與TFIDF-TT方法、Vector-TT方法以及VSM-TT方法進(jìn)行比較,以驗(yàn)證雙向量模型表示方法的可行性.相似度閾值參數(shù)設(shè)置:TFIDF-TT=0.2,Vector-TT=0.45,VSM-TT=0.04,DoubleVector-TT=0.2.表2給出的是4種方法在3個話題上的平均漏檢率、平均誤檢率以及平均(CDet)norm指標(biāo).

圖3 feed參數(shù)實(shí)驗(yàn)結(jié)果Fig.3 Parameter experiment results of feed

表2 話題模型表示結(jié)果比較
Table 2 Topic model representation results compare

話題追蹤方法漏檢率誤檢率(CDet)normTFIDF-TT0.05880.02320.1724Vector-TT0.1264 0.0035 0.1433 VSM-TT0.1365 0.0096 0.1836 DoubleVector-TT0.0729 0.0122 0.1327

由表2可以看出,DoubleVector-TT方法 與TFIDF-TT方法相比,綜合指標(biāo)(CDet)norm下降了0.0397,主要原因是前者采用基于BTM主題模型的方法進(jìn)行特征選擇,BTM主題模型通過對詞對集進(jìn)行主題建模,結(jié)合了文本中詞共現(xiàn)屬性,克服了微博短文本的特征稀疏問題.而基于TFIDF的特征選擇方法會將每條微博中都出現(xiàn)的重要特征詞權(quán)重賦值為0,導(dǎo)致話題建模效果差,最終影響話題追蹤性能.因此,話題雙向量模型中的特征選擇方法采用基于BTM主題模型的方法.DoubleVector-TT方法與Vector-TT方法相比,平均誤檢率增加了0.0087,但是平均漏檢率降低了0.0535,最后,綜合指標(biāo)平均(CDet)norm指標(biāo)降低了0.0106.與VSM-TT方法相比,DoubleVector-TT方法平均誤檢率雖然犧牲了0.0026,但是平均漏檢率降低了0.0636,最后,綜合指標(biāo)平均(CDet)norm指標(biāo)也降低了0.0509.總體上來說,DoubleVector-TT方法優(yōu)于Vector-TT方法和VSM-TT方法,因此雙向量模型文本表示方法有助于提高話題追蹤的性能.

4.3.3相似度閾值自適應(yīng)學(xué)習(xí)及話題模型更新

本實(shí)驗(yàn)的目的是檢驗(yàn)相似度閾值自適應(yīng)學(xué)習(xí)策略以及話題模型更新策略的有效性.為了區(qū)分SADV-TT方法是否實(shí)現(xiàn)話題模型更新,將未實(shí)現(xiàn)話題模型更新步驟的SADV-TT方法簡稱為DV-ATTA方法.實(shí)驗(yàn)通過比較SADV-TT方法與DV-ATTA方法以及DoubelVector-TT方法在3個話題上的平均漏檢率、平均誤檢率以及平均(CDet)norm指標(biāo)來評估方法的優(yōu)劣,進(jìn)而檢驗(yàn)相似度閾值自適應(yīng)學(xué)習(xí)策略以及話題模型更新策略的有效性.其中DV-ATTA方法和SADV-TT方法的相關(guān)時隙設(shè)置為4.表3給出反饋閾值δ自適應(yīng)學(xué)習(xí)以及話題模型更新的實(shí)驗(yàn)結(jié)果.由于最低閾值僅與反饋閾值差一個常量C,表3也可以同時表示最低閾值的實(shí)驗(yàn)結(jié)果.

表3 自適應(yīng)學(xué)習(xí)相似度閾值和自適應(yīng)更新話題
實(shí)驗(yàn)結(jié)果
Table 3 Experimental results of adaptive learning similarity
thresholds and adaptive updating topic models

話題追蹤方法漏檢率誤檢率(CDet)normDoubleVector-TT0.0729 0.0122 0.1327 DV-ATTA0.0855 0.0050 0.1101 SADV-TT0.0825 0.0044 0.1041

由表3可知,DV-ATTA方法與DoubleVector-TT方法相比,平均(CDet)norm降低了0.0226.因此,動態(tài)學(xué)習(xí)話題相似度閾值的策略對話題追蹤的性能具有積極作用.相比DV-ATTA方法,SADV-TT方法的平均漏檢率、平均誤檢率以及綜合指標(biāo)平均(CDet)norm均有降低.因此,話題模型更新策略可以應(yīng)對話題追蹤過程中存在的話題漂移問題.

4.3.4話題追蹤應(yīng)用性能實(shí)驗(yàn)

本實(shí)驗(yàn)為了驗(yàn)證SADV-TT方法在話題追蹤中的應(yīng)用性能,將其與張佳明等[13]提出的方法(下文簡稱為ET-ATT方法),以及武軍娜[18]提出的Doublestate-ATT方法進(jìn)行對比.算法參數(shù)設(shè)置如下:ET-ATT方法中的初始話題關(guān)鍵詞個數(shù)和微博關(guān)鍵詞個數(shù)分別取8和7,相似度判決閾值取0.05;Doublestate-ATT方法中的反饋閾值和相關(guān)閾值分別取0.2和0.05,滑動文本窗長度取5.圖4給出SADV-TT與其他方法在話題追蹤應(yīng)用性能上比較的實(shí)驗(yàn)結(jié)果.

由圖4可知,從3個話題上的歸一化跟蹤代價指標(biāo)來看,SADV-TT方法最優(yōu),Doublestate-ATT次之,ET-ATT最差.主要原因是ET-ATT方法的話題模型和相似度閾值在話題追蹤過程中均不更新,追蹤過程中造成了嚴(yán)重的話題漂移問題,同時該方法采用特征詞的詞向量表示話題以及微博,保留了微博的語義信息,但忽略了微博中的新詞信息.Doublestate-ATT方法考慮了話題模型的動態(tài)更新,克服了話題模型不變性帶來的話題漂移問題,因此優(yōu)于ET-ATT方法,但是相似度閾值不變性也會導(dǎo)致話題漂移,同時,Doublestate-ATT采用TFIDF方法表示話題和微博,保留了新詞信息但忽略了語義信息.而SADV-TT方法在話題追蹤過程中動態(tài)更新話題模型的同時更新話題相似度閾值,在一定程度上克服了話題模型不變性和相似度閾值不變性帶來的話題漂移問題,而在話題和微博向量化表示方面,SADV-TT方法采用雙向量模型,保留語義信息的同時也保留了新詞信息,因此效果更優(yōu).

圖4 性能比較實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of performance comparison

為了更好地記錄話題的演化過程,每次更新話題模型時,SADV-TT方法從話題特征中提取3個權(quán)重值最大的特征詞表示話題.圖5給出3個話題的演化過程.

圖5 話題演化結(jié)果Fig.5 Topic evolution results

由圖5可以看出MH370、酒駕以及慶熙大學(xué)鄭容和這3個話題在2018年1月期間的演化過程.如酒駕話題,1月4日陳喬恩酒駕成為微博的熱門話題,1月24日梁漢文酒駕引起熱議,1月25日梁漢文對酒駕事件致歉.

為了驗(yàn)證SADV-TT方法的時間性能,將其與ET-ATT方法及Doublestate-ATT方法在不同的數(shù)據(jù)量上進(jìn)行對比實(shí)驗(yàn).結(jié)果如圖6所示.

圖6 時間性能比較實(shí)驗(yàn)結(jié)果Fig.6 Time performance of topic tracking methods

由圖6可以看出,ET-ATT方法和Doublestate-ATT方法的時間消耗隨著數(shù)據(jù)量的增加而增大.這主要是由于ET-ATT方法采用特征詞列表的形式表示微博和話題,通過特征詞之間的語義相似度,表示話題與微博間語義相似度.由于微博和話題均含有多個特征,假設(shè)話題關(guān)鍵詞有l(wèi)1個,微博關(guān)鍵詞有l(wèi)2個,一條微博就需要l1×l2次相似度計(jì)算,因此增加了算法的運(yùn)行時間.Doublestate-ATT方法每次有新的反饋微博加入時,馬上就動態(tài)更新話題模型并且新微博加入時需要在已追蹤的所有微博上計(jì)算詞的TFIDF值,因此隨著微博數(shù)量的增大,算法運(yùn)行時間快速增加.SADV-TT方法時間開銷小,并且呈平緩增長的趨勢.主要原因是SADV-TT方法將微博按照時隙劃分,微博表示時僅與單個時隙內(nèi)的微博相關(guān),減少了時間開銷.在相似度計(jì)算時,SADV-TT方法先將話題和微博采用雙向量模型轉(zhuǎn)成向量,再對話題雙向量模型和微博雙向量模型計(jì)算相似度,減少了相似度計(jì)算次數(shù).同時,SADV-TT方法中,話題模型的更新也是以時隙為單位.因此,SADV-TT方法相比ET-ATT和Doublestate-ATT這兩種方法,時間開銷大幅減小.

5 總 結(jié)

本文提出了一種基于雙向量模型的自適應(yīng)微博話題追蹤方法.首先采用組合詞嵌入和VSM方法的雙向量模型表示話題和微博,保留微博和話題的語義特性的同時解決了新詞問題.其次,自適應(yīng)學(xué)習(xí)相似度閾值,降低話題相關(guān)微博的漏檢率,提升追蹤算法的性能.最后,在追蹤過程中,自適應(yīng)更新話題模型,能夠有效地應(yīng)對話題發(fā)展過程所產(chǎn)生的漂移.在真實(shí)的微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:該方法能夠降低話題相關(guān)微博的漏檢率和誤檢率,最終降低話題跟蹤代價.下一步將在更大規(guī)模的語料上進(jìn)行實(shí)驗(yàn),測試基于雙向量模型的自適應(yīng)微博話題追蹤方法的話題追蹤性能.

猜你喜歡
特征選擇雙向閾值
雙向度的成長與自我實(shí)現(xiàn)
出版人(2022年11期)2022-11-15 04:30:18
小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
基于自適應(yīng)閾值和連通域的隧道裂縫提取
比值遙感蝕變信息提取及閾值確定(插圖)
河北遙感(2017年2期)2017-08-07 14:49:00
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
室內(nèi)表面平均氡析出率閾值探討
一種軟開關(guān)的交錯并聯(lián)Buck/Boost雙向DC/DC變換器
聯(lián)合互信息水下目標(biāo)特征選擇算法
一種工作頻率可變的雙向DC-DC變換器
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
大方县| 台州市| 义乌市| 孝义市| 米脂县| 称多县| 东海县| 永顺县| 石棉县| 梧州市| 福建省| 九台市| 离岛区| 黎川县| 新竹市| 合水县| 敦化市| 西昌市| 昌平区| 宁国市| 沁阳市| 吴堡县| 县级市| 沽源县| 大荔县| 余干县| 龙井市| 宁河县| 南投市| 噶尔县| 大新县| 进贤县| 澎湖县| 巢湖市| 海口市| 乌苏市| 新乡市| 汾西县| 当涂县| 松溪县| 嘉祥县|