王賢明,潘佳玲,胡智文
(1.溫州理工學(xué)院數(shù)據(jù)科學(xué)與人工智能學(xué)院,溫州 325035;2.浙江工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,杭州 310018)
在文本挖掘領(lǐng)域,文本聚類是一類常見而又重要的數(shù)據(jù)挖掘手段,同時(shí)也是很多其他挖掘操作的前置工作。顧名思義,聚類即按照某些特征和規(guī)則將整個(gè)數(shù)據(jù)集分成若干組的過程,各個(gè)組內(nèi)元素在某些特征方面具有較高的相似性,而組間元素則在這些特征方面具有較大的差異性,所得到的各個(gè)組即為一個(gè)聚類,也常稱之為“簇”。聚類作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,無需人工對(duì)數(shù)據(jù)進(jìn)行標(biāo)注和訓(xùn)練,自動(dòng)化程度高。目前已被廣泛應(yīng)用于計(jì)算機(jī)科學(xué)、情報(bào)學(xué)、社會(huì)學(xué)、生物學(xué)等多個(gè)領(lǐng)域。隨著互聯(lián)網(wǎng)的高速發(fā)展,文本聚類在Web數(shù)據(jù)處理相關(guān)方面應(yīng)用尤其廣泛,例如推薦系統(tǒng)、網(wǎng)絡(luò)輿情[1-2]、各類文本挖掘及相關(guān)應(yīng)用[3-5]。
在諸多Web相關(guān)研究領(lǐng)域中,網(wǎng)絡(luò)輿情研究近年來發(fā)展很快,是一個(gè)兼具實(shí)用價(jià)值和學(xué)術(shù)價(jià)值的綜合性研究領(lǐng)域,被學(xué)術(shù)界和政府管理部門重視,吸引了計(jì)算機(jī)科學(xué)、情報(bào)學(xué)、社會(huì)學(xué)、新聞學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科研究人員投入到相關(guān)研究中。在網(wǎng)絡(luò)輿情研究中,其中一個(gè)重要的研究方向即網(wǎng)絡(luò)輿情熱點(diǎn)的發(fā)現(xiàn)。由于網(wǎng)絡(luò)數(shù)據(jù)的海量性,導(dǎo)致網(wǎng)絡(luò)熱點(diǎn)的發(fā)現(xiàn)對(duì)聚類算法的實(shí)時(shí)性要求較高,計(jì)算資源消耗也大。不過正是由于網(wǎng)絡(luò)數(shù)據(jù)的海量性,一旦某個(gè)熱點(diǎn)產(chǎn)生后,圍繞該熱點(diǎn)的大量媒體數(shù)據(jù)將迅速發(fā)布并傳播開來,也就是說,由于相關(guān)熱點(diǎn)數(shù)據(jù)非常多,無需獲取其全部相關(guān)數(shù)據(jù),而只需要獲取其中一部分?jǐn)?shù)據(jù),且保證這部分?jǐn)?shù)據(jù)足夠“純”,即足夠分析出相關(guān)熱點(diǎn),這是一種典型的準(zhǔn)確率重要性遠(yuǎn)大于召回率的情況。然而目前鮮有專門針對(duì)這種情況的聚類算法。
文本聚類的研究歷史悠久,取得了豐碩的成果,相關(guān)聚類方法層出不窮。目前,較為知名的文本聚類方法如劃分聚類、層次聚類、基于密度的聚類[6-7]等。近年來,基于語義的聚類[8-11]和深度學(xué)習(xí)的聚類[12-13]逐漸受到關(guān)注,尤其以后者更為明顯。同時(shí)也有不少混合型方法或集成聚類方法[14-17]。此外,也有一些適用于特殊場(chǎng)合的聚類方法,例如目前針對(duì)短文本的聚類[18-20]也獲得了不少關(guān)注。
在上述方法中,基本都需要特征項(xiàng)或詞支撐,并且不同的特征或特征組合效果是不同的[21-22],因而決定了特征選擇[23-24]或降維[25-26]對(duì)聚類是一項(xiàng)重要的前置研究?jī)?nèi)容。對(duì)中文而言,往往離不開分詞的支持[27],相應(yīng)的分詞準(zhǔn)確性問題也隨之而來,最終也將影響聚類的速度、準(zhǔn)確率和召回率。
N-Gram是一種經(jīng)典的統(tǒng)計(jì)語言模型,目前已被廣泛使用于各種各樣的文本應(yīng)用場(chǎng)合[28-30]及非文本應(yīng)用場(chǎng)合[31]。由于N-Gram的特點(diǎn),因此可以應(yīng)用于文本相似度的計(jì)算[32-33]。文獻(xiàn)[34]提出了一種基于N-Gram相似度算法的文本聚類方法,該方法無需分詞支持,對(duì)語言也無要求,速度和準(zhǔn)確率可以方便地調(diào)控。其適用場(chǎng)景是:對(duì)準(zhǔn)確率和速度要求較高,但對(duì)召回率要求次之。典型的應(yīng)用如網(wǎng)絡(luò)輿情實(shí)時(shí)熱點(diǎn)發(fā)現(xiàn)。在輿情熱點(diǎn)發(fā)現(xiàn)過程中,對(duì)準(zhǔn)確率和速度要求是必然的;熱點(diǎn)分析要求有一定量的相關(guān)主題文檔即可進(jìn)行,并不要求識(shí)別得足夠全面,也就意味著對(duì)該聚類的召回率并無太高要求。不過該方法在聚類閾值相對(duì)較小時(shí),初始聚類結(jié)果較為“粗糙”,且準(zhǔn)確性也相對(duì)稍低,可能存在著將毫不相干的內(nèi)容聚到同一個(gè)類中的弊端。
文本聚類的評(píng)估較為困難,方法多樣。例如采用專家人工評(píng)估、熵(Entropy)評(píng)估、準(zhǔn)確率、召回率、F-score等,其中尤以準(zhǔn)確率、召回率最為普遍,它們?cè)u(píng)估的是每個(gè)單獨(dú)的聚類,且一般都盡量在這兩者間取得平衡。
由于在輿情熱點(diǎn)分析類似的應(yīng)用過程中,往往會(huì)同時(shí)得到多個(gè)聚類,并且在該評(píng)估過程中,準(zhǔn)確率的重要性遠(yuǎn)高于召回率。本文基于實(shí)際需要和便利性,擬從當(dāng)前的聚類評(píng)價(jià)指標(biāo)構(gòu)建綜合性的評(píng)估指標(biāo)。
本文方法優(yōu)勢(shì)及創(chuàng)新點(diǎn)如下:
(1)相較于常規(guī)聚類方法,本文方法由于是基于NGram,避免了很多聚類方法中的分詞、特征提取等操作,同時(shí)具備語言無關(guān)性,而且也可以輕松地通過調(diào)整閾值實(shí)現(xiàn)對(duì)聚類速度、聚類精細(xì)程度等的調(diào)控。
(2)本文方法所得初始聚類的“內(nèi)聚性”強(qiáng),相應(yīng)的,各個(gè)初始聚類的準(zhǔn)確率高。因而最終聚類往往準(zhǔn)確率也較高。
(3)定義了適合本文聚類方法的綜合評(píng)估指標(biāo)。
設(shè)原始文檔集個(gè)數(shù)為k,每個(gè)文檔集對(duì)應(yīng)一個(gè)主題,文檔集分別記為D1={d11,d21,…,dn11},D2=。實(shí)驗(yàn)文檔集為上述文檔集的并集,在不必區(qū)分或者無法區(qū)分文檔的歸屬時(shí),可將文檔集記為:D'={d'1,d'2,…,d'n},其中,為文檔集中的文檔數(shù)。聚類過程中,文檔相似度采用文獻(xiàn)[32]中方法計(jì)算,相似度閾值為T,即若文檔相似度值不低于該值,則將這些文檔歸屬到一個(gè)類中。聚類中文檔數(shù)閾值為C,即若某個(gè)初始聚類中的文檔數(shù)不低于該值,則認(rèn)定該初始聚類為一個(gè)有效聚類,否則舍棄。
聚類的主要流程如下圖1所示。
圖1 聚類過程
其中,上述flag變量既可以用于記錄初始聚類完畢時(shí)所得的聚類數(shù),也可以用作各聚類的序號(hào)。S=Sim(di,dj)是文檔di和dj的相似度值,范圍為[0,100]。聚類完畢,根據(jù)flag值即可知所獲得的初始聚類個(gè)數(shù),且每個(gè)初始聚類中最少元素個(gè)數(shù)為C。此處的初始聚類是指經(jīng)過上述方法聚類后的直接聚類結(jié)果,以便和最終的聚類區(qū)分開。
經(jīng)由上述方法聚類后,所得初始聚類結(jié)果可以直接用于類似網(wǎng)絡(luò)熱點(diǎn)識(shí)別之類的應(yīng)用場(chǎng)景。倘若需將其聚類應(yīng)用到其他更為廣泛的聚類場(chǎng)合,則需要對(duì)上述初始聚類結(jié)果執(zhí)行合并處理。所謂合并處理,即對(duì)各個(gè)初始聚類進(jìn)行二次聚類。二次聚類可以通過兩種方式進(jìn)行。第一種是準(zhǔn)確性更好的方式,即將各個(gè)初始聚類視為一個(gè)整體來對(duì)待,例如計(jì)算各個(gè)初始聚類中文檔集的頻繁項(xiàng)集,該頻繁項(xiàng)集對(duì)應(yīng)于該初始聚類,然后利用頻繁項(xiàng)集的方法[35]即可完成初始聚類的合并,亦即完成最終聚類。第二種是一種快捷的方式,即以各個(gè)初始聚類中的最長(zhǎng)文檔作為該聚類的代表文檔,并對(duì)各個(gè)代表文檔進(jìn)行聚類計(jì)算。若代表文檔聚為一類,則意味著其對(duì)應(yīng)的初始聚類可以合并為一個(gè)大的聚類。一般情況下,采用第二種方式也可以取得較為滿意的結(jié)果。由于聚類的合并可以采用多種常規(guī)的聚類方法,因此不再贅述。
為了便于比較,本文采用與文獻(xiàn)[34]相同的實(shí)驗(yàn)數(shù)據(jù)、相似度計(jì)算參數(shù)和實(shí)驗(yàn)方案,其中文獻(xiàn)[34]中方法記為DRGrams,本文方法記為AR-Grams。
(1)聚類閾值與初始聚類數(shù)的關(guān)系
初始聚類數(shù)是利用AR-Grams進(jìn)行聚類后的直接聚類結(jié)果,亦即未進(jìn)行聚類合并之前的聚類情況。相關(guān)實(shí)驗(yàn)結(jié)果如下圖2所示。
圖2 初始聚類數(shù)與閾值的關(guān)系
從圖2可見,當(dāng)閾值較小時(shí),獲得的初始聚類較少,隨著閾值的增大,所得初始聚類逐漸增多,當(dāng)閾值增大到一定范圍時(shí)(對(duì)本例是[11,15]),聚類數(shù)呈現(xiàn)基本穩(wěn)定的狀態(tài),但當(dāng)閾值增到足夠大時(shí),聚類數(shù)開始逐漸下降。
呈現(xiàn)上述現(xiàn)象的原因在于:當(dāng)閾值較小時(shí),閾值對(duì)不同聚類元素的辨識(shí)度有限,且相對(duì)較容易受到因采用隨機(jī)n-Grams相似度計(jì)算中的隨機(jī)性影響,因而更容易將本不該隸屬于一個(gè)類中的文檔聚到一起,從而最終獲得的聚類較少,容易推斷,此時(shí)的準(zhǔn)確率也應(yīng)該相對(duì)較低。當(dāng)閾值逐漸增大時(shí),閾值的辨識(shí)度逐漸增大,各文檔更容易被歸屬到其應(yīng)該的聚類中,因而聚類相對(duì)更為準(zhǔn)確,聚類數(shù)也就更多,這正是聚類數(shù)增多的原因。當(dāng)閾值增大到一定范圍時(shí),此時(shí)可以較為準(zhǔn)確地劃分各個(gè)文檔的類別歸屬,并且由于此時(shí)聚到同類中的文檔確實(shí)是存在相當(dāng)程度的重復(fù),因而在閾值不是足夠大時(shí),一定程度的閾值變化是不會(huì)有太大影響的。這正是聚類數(shù)存在一段相對(duì)穩(wěn)定區(qū)間的原因。并且,此階段各個(gè)聚類的大小相對(duì)更大,同時(shí)各個(gè)聚類的準(zhǔn)確率基本維持在100%,該階段正是適合于用作類似于網(wǎng)絡(luò)熱點(diǎn)分析相關(guān)研究或應(yīng)用的時(shí)機(jī)。隨著閾值的繼續(xù)增大,只有幾乎完全相同的文檔才會(huì)被聚到一個(gè)類當(dāng)中,不過完全相同的文檔數(shù)畢竟有限,因而此時(shí)獲得的聚類數(shù)將開始逐漸降低。需要交代的是,此時(shí)得到的初始聚類其實(shí)較多,不過只是有些聚類太小,即元素?cái)?shù)在閾值C之下,因而被過濾掉了,留下的有效初始聚類數(shù)在減少。
另外,對(duì)比AR-Grams和DR-Grams,可以發(fā)現(xiàn)兩者隨著閾值的變化趨勢(shì)相同,但在不同的閾值階段上,具體聚類數(shù)有所差異。在低閾值時(shí),AR-Grams獲得的聚類相對(duì)更多,最為重要原因就在于AR-Grams在低閾值下聚類更為精細(xì),不像DR-Grams聚類結(jié)果那么粗糙,因而獲得的聚類數(shù)更多,相應(yīng)的,整體上各聚類更小。但隨著閾值的增大,閾值已能夠準(zhǔn)確地進(jìn)行聚類而不至出錯(cuò),因而兩種聚類方法在高閾值時(shí)的表現(xiàn)基本相同。
此外,當(dāng)初始聚類數(shù)趨于穩(wěn)定時(shí),意味著此時(shí)所對(duì)應(yīng)的閾值T為較好的選擇。根據(jù)這一特征,可以實(shí)現(xiàn)聚類過程中聚類閾值T的自動(dòng)化確定。
(2)聚類閾值與準(zhǔn)確率、召回率及F-score的關(guān)系
準(zhǔn)確率是經(jīng)典的聚類評(píng)估指標(biāo),AR-Grams聚類準(zhǔn)確率結(jié)果如下圖3所示。
圖3 聚類閾值與準(zhǔn)確率的關(guān)系
與DR-Grams聚類一樣,閾值越小,各文檔歸屬出錯(cuò)的可能性越大;閾值越大,各文檔歸屬出錯(cuò)的可能性越小,聚類閾值對(duì)聚類結(jié)果起著決定性作用。對(duì)比AR-Grams和DRGrams結(jié)果可見,兩種方法所得結(jié)果的變化趨勢(shì)相同,即準(zhǔn)確率隨著聚類閾值的增大而增大,直至為100%。并且在閾值T=11時(shí),準(zhǔn)確率已經(jīng)接近100%,當(dāng)閾值T≥15時(shí),準(zhǔn)確率幾乎已為100%。故從聚類準(zhǔn)確率來看,聚類閾值在AR-Grams和DR-Grams下具備同樣的作用。在AR-Grams聚類下,相似度閾值范圍可初步確定在區(qū)間[11,17]。
針對(duì)各個(gè)單一數(shù)據(jù)集而言,在圖中,“饅頭”的準(zhǔn)確率明顯低于其他數(shù)據(jù)集,原因在于文檔集D中的最小可聚類文檔來自于“饅頭”數(shù)據(jù)集,在AR-Grams聚類下,該文檔將首先成為聚類標(biāo)志文檔,并將獲得最多的與其他文檔進(jìn)行相似度計(jì)算的機(jī)會(huì),因而也將納入更多的文檔到該類中,這就是“饅頭”的最低準(zhǔn)確率的根本性原因。這一點(diǎn),是ARGrams和DR-Grams的共同特性,即較先的可聚類標(biāo)志文檔所在的聚類往往具備較低的準(zhǔn)確率。不過隨著閾值的增大,該情況逐漸被改善。
與DR-Grams相比,AR-Grams聚類在低閾值(T≤9)時(shí)準(zhǔn)確率提高了11.9%,在整體上則提高了4.5%。由此可見,AR-Grams在低閾值下的改進(jìn)效果明顯。原因正如前文所述,低閾值下的DR-Grams聚類結(jié)果較為粗糙,而ARGrams結(jié)果則較為精細(xì),精細(xì)的聚類結(jié)果其準(zhǔn)確率必然高得多。實(shí)驗(yàn)結(jié)果顯示AR-Grams下的聚類準(zhǔn)確性整體高于DR-Grams,高閾值下的結(jié)果相當(dāng),因而可以認(rèn)為AR-Grams優(yōu)于DR-Grams。
聚類評(píng)價(jià)的另外一個(gè)重要指標(biāo)為召回率,AR-Grams聚類閾值與召回率關(guān)系的結(jié)果如下圖4所示。
圖4 聚類閾值與召回率的關(guān)系
對(duì)比兩種方法的召回率曲線可知,兩種方法下聚類閾值和召回率存在相同的關(guān)系,即隨著聚類閾值的增大,召回率呈現(xiàn)先增后降的態(tài)勢(shì),并且最佳聚類閾值范圍為[9,11]。
和DR-Grams一樣,在聚類閾值較小時(shí)(T≤9),閾值作用歸結(jié)為“類間糾錯(cuò)”,即閾值的增大,將逐漸減少文檔被歸屬錯(cuò)誤的可能性。但當(dāng)T逐漸增大時(shí)(T>11),文檔的歸屬已基本完全正確,正如圖3中所示,T=11時(shí)的準(zhǔn)確率已基本為100%,因而此后的閾值作用將主要體現(xiàn)為把各個(gè)聚類劃分為更為精細(xì)的、且準(zhǔn)確率依然保持為100%的更多小聚類,亦即“類內(nèi)細(xì)分”的作用。類內(nèi)的細(xì)分一方面將會(huì)獲得更多稍小的聚類,同時(shí)又將使得較多過小的聚類被閾值C過濾或者一些單一的文件不被歸屬到任意聚類中,這正是召回率曲線下降的原因。
與DR-Grams相比,AR-Grams在低閾值下的召回率提高了9.1%,在整體上則提高了2.9%??梢姳疚姆椒ㄔ诘烷撝禃r(shí)的改進(jìn)作用明顯。
綜合性的評(píng)價(jià)指標(biāo)F-score曲線如下圖5所示。
圖5 聚類閾值與F-score的關(guān)系
由圖5可見,在整體上,F(xiàn)-score曲線的升降趨勢(shì)與召回率一致,即先升后降。這一點(diǎn)與DR-Grams聚類一樣。但具體值方面,本文方法的F-scoce在低閾值時(shí)提高了10.2%,在整體上則提高了3.5%。這主要?dú)w功于AR-Grams的精細(xì)特性,在造就更多精細(xì)聚類的同時(shí),提高了聚類效果。
(3)聚類閾值和覆蓋率的關(guān)系
整體覆蓋率Ca和正確覆蓋率Cr實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 聚類閾值與覆蓋率的關(guān)系
由圖6可見:整體文檔覆蓋率隨著聚類閾值的增加呈現(xiàn)單調(diào)遞減趨勢(shì),正確文檔覆蓋率則呈現(xiàn)先升后降的趨勢(shì)。顯然,隨著聚類閾值的增大,文檔將更難以聚到一起,或者難以聚成較大的類。由于各個(gè)聚類對(duì)納入該類文檔的限制更為嚴(yán)格,這將導(dǎo)致越來越多的文檔成為獨(dú)立于任何聚類的個(gè)體文檔,或者由于所含文檔過少而無法被認(rèn)定為有效聚類,在宏觀上即呈現(xiàn)為整體文檔覆蓋率的持續(xù)下降。對(duì)正確文檔覆蓋率而言,則與上述情形有所不同。在閾值較小時(shí),雖然絕大多數(shù)的文檔都被歸屬到相關(guān)聚類中,但是正如前文所述,低閾值時(shí)的歸屬錯(cuò)誤率極高,這一問題隨著閾值的增大將逐漸緩解(即低閾值時(shí)閾值呈現(xiàn)為“類間糾錯(cuò)”功能),這正是正確文檔覆蓋率在開始階段呈現(xiàn)增長(zhǎng)趨勢(shì)的原因。在閾值較大時(shí),由于閾值的“類內(nèi)細(xì)分”作用,諸多大類被分割為多個(gè)細(xì)小的聚類甚至一些獨(dú)立的文檔,在該過程中,越來越多的獨(dú)立文檔和極其細(xì)小的聚類被排除在有效聚類之外,宏觀上即呈現(xiàn)為正確文檔覆蓋率的緩慢下降。這在另一個(gè)側(cè)面再次印證了前文所論述的閾值的兩種典型作用。當(dāng)閾值增大到一定程度時(shí),閾值已具備充分的辨識(shí)能力,可確保被歸屬到同一個(gè)類中的文檔在實(shí)際上也的確是同類文檔,此即當(dāng)閾值較大時(shí),兩條曲線基本重合的原因。
和DR-Grams相比,本文方法的正確覆蓋率提高了9.2%,在整體上則提高了3.0%,可見本文方法的主要效果表現(xiàn)在低閾值時(shí)對(duì)正確覆蓋率的提升上,主要原因與前文的聚類準(zhǔn)確率相同,不再贅述。
(4)AR-Grams聚類特性及應(yīng)用場(chǎng)景解釋
AR-Grams聚類方法的特性可總結(jié)為:高準(zhǔn)確率、低召回率、聚類精度和速度易于調(diào)控。該方法可通過調(diào)整相似度計(jì)算中N-Gram的數(shù)目及各項(xiàng)閾值來實(shí)現(xiàn)聚類精度和速度的調(diào)控,故決定了其可用于實(shí)時(shí)性較高的場(chǎng)合也可用于精度要求較高的場(chǎng)合,但并不能用于召回率較高的場(chǎng)合。另外由于該方法可以獲取多個(gè)準(zhǔn)確率高的聚類,通過其中的較大聚類即可完成類似網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)之類的應(yīng)用需求。這主要是由于在實(shí)際情況下,網(wǎng)絡(luò)熱點(diǎn)一旦產(chǎn)生,雖然圍繞著一個(gè)熱點(diǎn)話題的數(shù)據(jù)往往涉及多個(gè)方面,但其中往往存在著大量由于轉(zhuǎn)載或其他原因而導(dǎo)致有較大重復(fù)率的文檔。只要能把這些重復(fù)率較高的文檔識(shí)別出來,就足以分析出相關(guān)熱點(diǎn),而并不需要識(shí)別出該熱點(diǎn)所有相關(guān)數(shù)據(jù),這正是本文聚類方法具有實(shí)用價(jià)值的客觀支撐條件。本文聚類方法并不適用于類似于文獻(xiàn)[36]中的藝術(shù)類數(shù)據(jù)聚類(包含音樂、舞蹈、書畫等數(shù)據(jù))。從本實(shí)驗(yàn)的初步聚類結(jié)果來看(即在不進(jìn)行聚類合并條件下的聚類結(jié)果),雖然聚類數(shù)較多,但其中較大的聚類卻并不多,在實(shí)際進(jìn)行網(wǎng)絡(luò)熱點(diǎn)分析時(shí),只需利用其中的幾個(gè)較大聚類即可實(shí)現(xiàn)。另外,由于實(shí)現(xiàn)海量網(wǎng)絡(luò)數(shù)據(jù)中熱點(diǎn)的識(shí)別只需要能夠取得其中一個(gè)較大的且準(zhǔn)確率高的聚類即可,至于該類中元素是多一些還是少一些,都不會(huì)影響熱點(diǎn)分析結(jié)果,這就決定了雖然本文方法仍然是基于閾值進(jìn)行聚類的,但是卻對(duì)閾值要求卻很低,只需要閾值較大,例如在0.5以上,但不要高于0.9即可。
另外,雖然采用本文方法時(shí),取較小的閾值能夠獲得較少的聚類,不過由于此時(shí)各聚類中包含了一定數(shù)量的歸屬錯(cuò)誤的文檔,這些對(duì)熱點(diǎn)分析不利,故低閾值并不適合于進(jìn)行熱點(diǎn)分析。
本文提出的AR-Grams的文本聚類方法,具有語言無關(guān)性、高準(zhǔn)確率、低召回率、聚類精度和速度易于調(diào)控等特點(diǎn),相較于常規(guī)聚類方法,省卻了繁瑣的特征提取等操作,同時(shí)也避免了DR-Grams聚類可能導(dǎo)致的將毫不相干的文檔聚到一個(gè)類中的缺陷,從而提高了低閾值下的準(zhǔn)確率,因而也提高了F-score,相應(yīng)的也提高了聚類的正確覆蓋率。這使得AR-Grams能在更廣的閾值范圍內(nèi)應(yīng)用于網(wǎng)絡(luò)話題檢測(cè)或者網(wǎng)絡(luò)熱點(diǎn)識(shí)別等場(chǎng)合。不過,在極低閾值時(shí)的聚類效果仍有待進(jìn)行更為深入的研究。