国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

應(yīng)用hLDA進(jìn)行多文檔主題建模關(guān)鍵因素研究

2013-04-23 06:16劉詠彬
中文信息學(xué)報(bào) 2013年6期
關(guān)鍵詞:語(yǔ)料文檔建模

衡 偉,于 佳,李 蕾,劉詠彬

(北京郵電大學(xué) 計(jì)算機(jī)學(xué)院 智能科學(xué)技術(shù)中心,北京 100876)

1 引言

為了從數(shù)據(jù)中學(xué)習(xí)層次信息,Blei等人[1]提出了基于nCRP的層次潛在狄利克雷分配(以下簡(jiǎn)稱hLDA)非參模型。模擬數(shù)據(jù)和JACM語(yǔ)料的實(shí)驗(yàn)評(píng)估證明了其具有非常好的效果[2]。Asli和Dilek等人[3]采用交叉驗(yàn)證的方法對(duì)hLDA進(jìn)行英文多文檔摘要建模,效果顯著。劉等[4]利用hLDA進(jìn)行中文多文檔聚類和摘要的研究,亦取得了非常好的效果。

但hLDA的建模效果卻因語(yǔ)料和應(yīng)用建模者的不同而差異巨大。雖然在Blei的論文中提出了無(wú)監(jiān)督的、針對(duì)先驗(yàn)超參的MH抽樣方法[5],在迭代盡可能多的條件下,理論上可以實(shí)現(xiàn)完備的后驗(yàn)推理[6]。但是,實(shí)際應(yīng)用中資源有限,我們無(wú)法保證進(jìn)行足夠多次的迭代,且不同的語(yǔ)料特征以及建模需求使得迭代次數(shù)具有很大的不確定性;加之吉布斯后驗(yàn)推理算法是一種隨機(jī)算法,每次迭代穩(wěn)定的狀態(tài)都不同[7];再者,應(yīng)用中對(duì)最優(yōu)樹結(jié)構(gòu)的評(píng)估方法也有較大的不確定性。一定程度上需要通過(guò)多次局部最優(yōu)的結(jié)果來(lái)逼近全局最優(yōu)。Blei僅僅給出了模型參數(shù)本身[2],卻沒(méi)有詳細(xì)的分析參數(shù)選擇過(guò)程。同樣Asli和Dilek的交叉檢驗(yàn)尋找模型參數(shù)方法則過(guò)多的限制了模型的泛化效果。本文通過(guò)統(tǒng)一分析框架,采用理論分析與實(shí)驗(yàn)相結(jié)合的方式,對(duì)應(yīng)用hLDA到多文檔主題建模任務(wù)中的關(guān)鍵影響因素進(jìn)行深入研究,試圖尋找優(yōu)化的建模策略、建模流程以及有效的參數(shù)配置方法,能在有限資源、有限迭代、語(yǔ)料多變的情況下,盡可能讓建模結(jié)果更好地逼近全局最優(yōu),從而為hLDA實(shí)現(xiàn)高效的層次主題建模提供有益的參考。

文章結(jié)構(gòu)安排如下: 第2節(jié)介紹統(tǒng)一分析框架,從貝葉斯線索和范圍線索兩個(gè)角度分析多種影響因子,同時(shí)簡(jiǎn)要介紹了實(shí)驗(yàn)?zāi)K;第3節(jié)針對(duì) hLDA 模型文檔生成過(guò)程的超參進(jìn)行分析和實(shí)驗(yàn);第4節(jié)給出了吉布斯抽樣算法后驗(yàn)推理的關(guān)鍵影響因素;第5節(jié)針對(duì)影響建模的全局因子進(jìn)行了分析;第6節(jié)給出一個(gè)經(jīng)驗(yàn)型優(yōu)化建模流程,并結(jié)合最新的ACL MultiLing 2013多語(yǔ)言多文檔摘要數(shù)據(jù)進(jìn)行建模效果實(shí)驗(yàn)與效果評(píng)估。

2 統(tǒng)一分析框架及實(shí)驗(yàn)?zāi)K

2.1 統(tǒng)一分析框架

如圖1所示,黑色矩形虛線表示范圍線索,在虛線框之外是一些全局的建模影響因子,如抽樣與否、樹的深度、語(yǔ)料的大小,詞匯量等特征。虛線內(nèi)部是貝葉斯線索的影響因子,如狄利克雷(Dirichlet*為了與Blei論文中表示一致,后面我們將使用Dir()表示。())分布超參η、 GEM分布超參m, π、nCRP過(guò)程超參γ*此處表示同Blei hlda算法包[http://www.cs.princeton.edu/~blei/topicmodeling.html]中參數(shù)命名。。黑色橢圓形實(shí)線是貝葉斯過(guò)程: 黑色有向?qū)嵕€箭頭所示為基于先驗(yàn)的文檔生成過(guò)程。逆向的黑色虛線箭頭即貝葉斯后驗(yàn)推理: 從語(yǔ)料出發(fā)*忽略了預(yù)處理到生成文檔到詞的過(guò)程,圖中的Doc, Wd,n也應(yīng)該有相應(yīng)的黑色虛線表示。,選擇路徑Cd和詞Wd,n,獲得最優(yōu)樹結(jié)構(gòu)。

圖1 統(tǒng)一分析框架

從圖1的統(tǒng)一分析框架,我們能夠窺見hLDA模型算法的全貌,從而有利于深入分析建模影響因子。后面三節(jié)便是以這兩個(gè)線索為綱展開的,并結(jié)合具體的實(shí)驗(yàn)分析,為此,我們對(duì)用于建模分析的實(shí)驗(yàn)系統(tǒng)做一個(gè)較為全面的介紹。

2.2 實(shí)驗(yàn)系統(tǒng)介紹

2.2.1 實(shí)驗(yàn)系統(tǒng)框架

實(shí)驗(yàn)系統(tǒng)由三個(gè)模塊組成: 預(yù)處理、hLDA建模、結(jié)果分析評(píng)估。如圖2所示。預(yù)處理模塊對(duì)語(yǔ)料進(jìn)行分句、分詞、生成詞表、統(tǒng)計(jì)詞頻特征等。生成hLDA建模輸入文件,同時(shí)為hLDA超參選擇提供分析依據(jù)。hLDA建模是核心模塊, 其設(shè)置文件中的超參選擇是建模的重點(diǎn),主要依據(jù)語(yǔ)料本身的特征分析以及對(duì)于建模結(jié)果分析的反饋。結(jié)果分析評(píng)估模塊是實(shí)驗(yàn)分析的基礎(chǔ),從而驗(yàn)證各個(gè)建模影響因素。

圖2 試驗(yàn)系統(tǒng)框架圖

2.2.2 實(shí)驗(yàn)語(yǔ)料來(lái)源

實(shí)驗(yàn)語(yǔ)料來(lái)源于兩部分: 其一收集了國(guó)內(nèi)門戶網(wǎng)站新聞報(bào)道,共十個(gè)話題,每個(gè)話題10篇相關(guān)報(bào)道,即Portal News。便于圖表敘述,給出了英文縮寫,如甘肅校車事故(SBAG),伊朗制裁(IRSA)等。其二是ACL MultiLing 2013多語(yǔ)言多文檔摘要評(píng)測(cè)發(fā)布的數(shù)據(jù),也由十個(gè)話題,每個(gè)話題下10篇新聞組成: 如印度洋海嘯(M000),倫敦爆炸案(M001)等。

3 文檔生成過(guò)程

3.1 嵌套中國(guó)餐館過(guò)程nCRP

nCRP是hLDA的核心,屬于貝葉斯非參建模家族,近些年在層次主題建模領(lǐng)域受到了廣泛的關(guān)注[8-10]。nCRP構(gòu)造了一個(gè)樹狀層次結(jié)構(gòu)先驗(yàn),超參γ決定先驗(yàn)樹結(jié)構(gòu)的形狀,即每個(gè)文檔每一層的路徑選擇。稱之為嵌套中國(guó)餐館過(guò)程是因?yàn)楸举|(zhì)上它只是對(duì)于每一層都使用中國(guó)餐館模型(即CRP)進(jìn)行路徑選擇。

3.1.1 中國(guó)餐館過(guò)程CRP

CRP可被簡(jiǎn)單表述為如何從以下等式的條件概率函數(shù)中選擇一個(gè)樣本所屬的類別聚簇,見式(1)。

(1)

其中,N表示已有的樣本數(shù),CN+1表示新來(lái)的樣本,K表示目前的樣本類別數(shù),nk表示第k個(gè)樣本類別所含有的樣本數(shù)目,n表示所有nk所組成的集合向量??梢钥闯觯骋粋€(gè)類別上的樣本越多,則新抽樣本屬于該類別的概率越大。最終聚簇?cái)?shù)的期望如式(2)所示。

在給定γ的情況下,占用聚簇?cái)?shù)的期望隨著樣本數(shù)n呈指數(shù)增長(zhǎng),因此,可以通過(guò)分析文檔數(shù)目和期望的聚簇?cái)?shù)來(lái)反向估計(jì)γ的范圍。這在實(shí)際的分析nCRP超參的過(guò)程中亦具有較高的參考意義。

3.1.2 nCRP及γ值實(shí)驗(yàn)分析

CRP是一個(gè)在整型離散空間上的隨機(jī)過(guò)程,nCRP同樣是一個(gè)隨機(jī)過(guò)程,但不是在一維的整型空間,而是在樹的深度維度上的整型向量空間。因此,當(dāng)假設(shè)每個(gè)聚簇上有一個(gè)潛在主題變量βk時(shí),某一條聚簇路徑上也有一個(gè)潛在向量<β0,kβ…,kβl,k>。nCRP過(guò)程指定了文檔所屬的潛在向量聚簇。對(duì)于三層樹結(jié)構(gòu),nCRP過(guò)程相當(dāng)于在一個(gè)三維整型空間中去選擇聚簇,每個(gè)樣本則是三維空間中的某一個(gè)點(diǎn)。

如表1所示,實(shí)驗(yàn)分析在同一個(gè)話題語(yǔ)料*ACL MultiLing 2013中文語(yǔ)料下的M004話題。下,γ值所引起的聚簇?cái)?shù)(即路徑數(shù))的變化。

表1 GAMMA值對(duì)聚簇?cái)?shù)和詞層分配影響

當(dāng)γ=0.2時(shí),前段主要路徑聚集,而路徑數(shù)卻相應(yīng)的減少。隨著γ值從1.0變化到8.0,各聚簇分布逐漸趨向平均,且路徑數(shù)也在相應(yīng)增加。各層詞分配在隨機(jī)抽樣允許的變動(dòng)范圍內(nèi),比例基本不變。從原理上分析,如式(1)所示,γ值增大使得選擇新聚簇的可能性增加,在總文檔數(shù)不變時(shí),原本過(guò)于聚集的簇傾向于分散,產(chǎn)生更多新聚簇。而第三層詞的分配是隨著γ的增大而減少,而最后的路徑數(shù)卻呈現(xiàn)增多的趨勢(shì),其原因便在于,γ增大的過(guò)程中,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)各個(gè)層次聚簇?cái)?shù)都相應(yīng)的增加,由式(2)可知,文檔數(shù)越大,詞數(shù)越多的情況,聚簇的增加越快,因此相對(duì)而言,根節(jié)點(diǎn)增加的要比葉子節(jié)點(diǎn)快,為了滿足這樣的先驗(yàn)假設(shè),后驗(yàn)詞分配便逐漸的從葉子往根聚集,從而導(dǎo)致葉子節(jié)點(diǎn)詞的減少。

3.2 折棒構(gòu)造

折棒構(gòu)造是狄利克雷過(guò)程(以下簡(jiǎn)稱DP過(guò)程)的另一種構(gòu)造方式,側(cè)重于以最終分布為中心的構(gòu)造。每次折棒,都會(huì)通過(guò)Beta分布得到最終分布比例的一部分,而CRP每次抽樣只是對(duì)最終分布比例的一次更新,隨著抽樣次數(shù)的增加進(jìn)而愈加接近最終分布。關(guān)于折棒過(guò)程更為詳細(xì)的敘述,很多論文中皆可參考[3-4,8,10]。既然CRP和折棒過(guò)程都是DP過(guò)程的不同構(gòu)造方式,對(duì)于CRP的理論分析同樣適用于折棒過(guò)程,如最終聚簇的期望等。

3.2.1 參數(shù)m和π實(shí)驗(yàn)分析

參數(shù)m控制著從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的分配比例,而π則指定該分配比例的嚴(yán)格程度,但相對(duì)m,其影響要小。實(shí)驗(yàn)首先從Portal News語(yǔ)料中隨機(jī)選取兩篇,分析m從0.25到0.75變化時(shí)詞的分配。如圖3所示,上下各三個(gè)餅狀比例圖,分別表示一個(gè)主題在不同的m值條件下,樹中各層詞分配比例。餅狀圖中的黑色部分表示第三層葉子節(jié)點(diǎn)所占詞的比例,白色部分表示中間層詞所占據(jù)的比例,而灰色部分則表示根節(jié)點(diǎn)詞所占的比例。

圖3 不同m下,三層樹結(jié)構(gòu)時(shí)詞的分配比例

從第一行三個(gè)餅狀圖的比例變化可以看出,隨著m值的變大,葉子節(jié)點(diǎn)中詞的比例明顯增加,而根節(jié)點(diǎn)中詞所占的比例則在減少。第二行雖然不同語(yǔ)料差異使得各層詞的比例不完全相同,但是這種趨勢(shì)也非常顯著??梢酝茰y(cè),m越大,文檔中的詞越向葉子節(jié)點(diǎn)聚集,越傾向于較為具體的主題,反之亦然。

接著圖3的分析,利用ACL MultiLing 2013中前五個(gè)主題的語(yǔ)料,分析確定m值情況下,詞分配比例的穩(wěn)定性。如表2所示,隨著m從0.25增加到0.75的過(guò)程中,level0層的分配比例在逐漸減小,level2層的比例在逐漸增加。從原理上來(lái)看,折棒構(gòu)造過(guò)程中m、π的先驗(yàn)影響效果比較明顯,尤其在樹的層數(shù)小、主題下文檔數(shù)較少時(shí),貝葉斯后驗(yàn)解釋受先驗(yàn)的影響較大。因此,在應(yīng)用建模時(shí)可以根據(jù)期望的主題層次分布和抽象具體詞的比例來(lái)確定m值的范圍。以此類推,結(jié)合CRP中的理論分析和實(shí)驗(yàn)評(píng)估,我們可以給出一個(gè)經(jīng)驗(yàn)化的比例范圍,從而有利于我們所期望的更為精確的m值控制。

接著前面在nCRP試驗(yàn)中的分析, 當(dāng)γ產(chǎn)生較大變化時(shí),對(duì)于路徑樹和聚簇比例的變化有一定的影響, 但是各個(gè)層次詞的分配比例受到γ參數(shù)的影響較小。這在一定程度上為我們細(xì)化γ和m參數(shù)對(duì)樹結(jié)構(gòu)的調(diào)節(jié)范圍提供了可能。

表2 不同語(yǔ)料數(shù)據(jù)時(shí),確定m值下各詞層分配的穩(wěn)定性

3.3 狄利克雷分布和DP過(guò)程

狄利克雷分布決定了每個(gè)節(jié)點(diǎn)上主題先驗(yàn)βk。文檔生成過(guò)程中,首先假設(shè)一個(gè)無(wú)限深度和無(wú)限寬度的樹結(jié)構(gòu),樹中的每一個(gè)節(jié)點(diǎn)以超參η生成一個(gè)主題,以此進(jìn)行嵌套中國(guó)餐館過(guò)程和折棒過(guò)程的構(gòu)造。兩種構(gòu)造卻已經(jīng)不僅僅是由樣本數(shù)N和先驗(yàn)超參γ或m、π控制,在單純的整型空間上的聚簇劃分。因?yàn)槊總€(gè)節(jié)點(diǎn)都有了實(shí)際意義,即主題βk。于是這兩種過(guò)程都變成了在潛在主題變量下的混合模型。我們首先分析DP的形式化定義以及DP的兩種構(gòu)造過(guò)程,以此為切入點(diǎn)來(lái)分析狄利克雷分布所確定的主題和這兩個(gè)構(gòu)造過(guò)程的關(guān)系。

3.3.1 從DP的角度分析文檔生成過(guò)程

DP是一種隨機(jī)概率測(cè)量在一個(gè)可測(cè)量空間上的分布[11]。在生成主題節(jié)點(diǎn)值空間的Dir()分布的基礎(chǔ)上,分別把nCRP和GEM的構(gòu)造過(guò)程理解成為一種DP過(guò)程。對(duì)于nCRP而言:

式(3)中,L表示的是嵌套的層數(shù)向量所構(gòu)成的分布矩陣,對(duì)于每一層通過(guò)CRP過(guò)程,得到一個(gè)比例分布,結(jié)合層數(shù)得到這樣一個(gè)矩陣結(jié)構(gòu)。接下來(lái)對(duì)一篇文檔從L矩陣中的第一行開始一直到結(jié)束,逐步選擇相應(yīng)的基分布值,即β向量,其向量長(zhǎng)度等于嵌套的次數(shù),也即樹的深度。Categorical(K)分布表示從某一有K個(gè)結(jié)果的隨機(jī)事件中抽樣。這便是通過(guò)嵌套CRP方式構(gòu)造一個(gè)DP過(guò)程。而式(4)中,則是直接從DP定義的概率測(cè)量的角度來(lái)生成。好處在于能夠直接清晰的分析出狄利克雷分布作為基分布在整個(gè)nCRP過(guò)程中的作用。而對(duì)于GEM而言,其基分布則是前面nCRP所形成的β向量的分布,然后對(duì)于向量的維度即同樣樹的深度L,進(jìn)行折棒構(gòu)造,如式(5),(6)所示。

從以上的分析我們不難理解,對(duì)于基分布狄利克雷而言,nCRP過(guò)程類似于一種對(duì)每一層取值空間進(jìn)行了擴(kuò)展組合,然后在一個(gè)高維的更大的空間內(nèi)進(jìn)行向量選擇,在此基礎(chǔ)上,GEM分布再對(duì)已選的向量進(jìn)行每一維度上的概率選擇,從而產(chǎn)生相應(yīng)的詞。

3.3.2 參數(shù)η實(shí)驗(yàn)

如表3所示,我們分析在葉子節(jié)點(diǎn)上的η值(其余兩層值分別為5.2/0.025)變化時(shí),相應(yīng)的主題路徑以及各節(jié)點(diǎn)上文檔和詞的變化。

表3 η對(duì)樹結(jié)構(gòu)的影響

其中,第一列是葉子節(jié)點(diǎn)上的η值,第二列是從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)總的詞分配,第三列是總的路徑數(shù),剩下的五列表示最主要的五個(gè)路徑上文檔和詞分配。當(dāng)η為0.05和0.005時(shí),葉子節(jié)點(diǎn)的詞分別為582和564,在一定抽樣不確定性允許的情況下,詞數(shù)是相對(duì)穩(wěn)定的,葉子節(jié)點(diǎn)上總路徑數(shù)變多,各個(gè)路徑上文檔和詞的數(shù)量則變小。隨著葉子節(jié)點(diǎn)η的迅速變小,其詞由上往下流動(dòng),前面兩層的路徑數(shù)變小,下層的路徑數(shù)相對(duì)變多,嵌套的效果使得整體路徑數(shù)變小。因此η對(duì)于詞的分配、路徑數(shù)有很大影響。且往往在與GEM_MEAN(m)參數(shù)混合作用的情況下,這種影響會(huì)導(dǎo)致在實(shí)際建模中一些意想不到的問(wèn)題,最經(jīng)典的則是mode.levels文件的缺失。

4 后驗(yàn)推理

4.1 吉布斯抽樣

吉布斯(Gibbs)抽樣廣泛應(yīng)用于統(tǒng)計(jì)推理領(lǐng)域,尤其是貝葉斯后驗(yàn)推理。主要通過(guò)構(gòu)造一個(gè)蒙特卡羅馬爾科夫鏈?zhǔn)沟闷浞€(wěn)定狀態(tài)分布等于后驗(yàn)分布[2]。實(shí)際應(yīng)用中如何評(píng)估馬爾科夫鏈的收斂性往往決定著推理的效果。而迭代次數(shù)的設(shè)定對(duì)鏈的收斂有著很大的影響。

通過(guò)Gibbs抽樣算法,在無(wú)限次迭代達(dá)到收斂時(shí),可以實(shí)現(xiàn)對(duì)語(yǔ)料理想的建模。但正如我們?cè)诘?節(jié)所討論的,往往受限于實(shí)際應(yīng)用瓶頸。因此,在前面參數(shù)調(diào)節(jié)的基礎(chǔ)上,我們首先通過(guò)初始參數(shù)設(shè)定,對(duì)目標(biāo)語(yǔ)料形成了一個(gè)較為理想的層次分類,然后分析在增加迭代次數(shù)的條件下,各個(gè)層次主題的變化。在m和π參數(shù)不變的情況下(m=0.5, π=100),觀察迭代次數(shù)對(duì)詞層分配的影響,如表4所示。

表4 迭代次數(shù)對(duì)于詞層次分布的影響

在此迭代條件下,可以發(fā)現(xiàn)迭代次數(shù)對(duì)于詞分布影響很小,馬爾科夫鏈已經(jīng)達(dá)到穩(wěn)定的局部收斂狀態(tài),因此,我們可以從詞層的穩(wěn)定性上來(lái)判斷鏈的收斂情況。但是,對(duì)于不同特征的語(yǔ)料,不同迭代次數(shù)下迭代收斂和路徑數(shù)卻是不同的,如圖4所示。

圖4 不同迭代次數(shù)下路徑數(shù)比較

橫坐標(biāo)為話題,縱坐標(biāo)為最終的路徑數(shù)。在其他參數(shù)一定的情況下,迭代次數(shù)越大,得分最高的mode所形成的最優(yōu)路徑便會(huì)越逼近實(shí)際主題中的真實(shí)路徑。從圖4中可以看出,在考慮到隨機(jī)算法的不確定性影響的情況下,這種變化趨勢(shì)基本上是保持一致的。一般可以分為兩種情況,第一種如主題4,5,7,9,10,路徑數(shù)隨著迭代次數(shù)增加,成一致的變化趨勢(shì),說(shuō)明通常在給定語(yǔ)料大小條件下,隨著迭代次數(shù)的增加,最終路徑數(shù)會(huì)趨向于一致的狀態(tài)。而對(duì)于主題如1,2,3的路徑數(shù)則表明在目前迭代情況下,樹的路徑已經(jīng)趨向于一種較為穩(wěn)定的變化狀態(tài),這恰恰是我們抽樣最優(yōu)樹結(jié)構(gòu)的基礎(chǔ)。但也有較為不一致的情況,如主題8,由于其語(yǔ)料特征的差異使得在實(shí)驗(yàn)的10 000到100 000次的迭代范圍之內(nèi),路徑數(shù)不穩(wěn)定,并沒(méi)有達(dá)到一個(gè)較為穩(wěn)定的狀態(tài),因而三組實(shí)驗(yàn)時(shí)路徑數(shù)變化很大。

還有一種情況,在一定的迭代范圍內(nèi),路徑樹已經(jīng)趨向于穩(wěn)定狀態(tài),但可能陷入一種局部最優(yōu)的穩(wěn)定狀態(tài)。對(duì)此,我們不可能通過(guò)無(wú)限制的增加迭代次數(shù)來(lái)最優(yōu)化,通常通過(guò)多次重啟抽樣,或是改變抽樣中的隨機(jī)延遲值*詳情見Bleihlda算法包[http://www.cs.1rinQton.edu/~blei/topicmobdeling.html]中源碼實(shí)現(xiàn)。(SHUFFLE_LAG)或是抽樣延遲值(SAMPLE_LAG)。模型本身的超參很多,加之隨著文檔數(shù)的增加帶來(lái)鏈上變量的急速增長(zhǎng),隨機(jī)條件下通過(guò)有限的迭代,很難有較好的效果。因此,相比于這種概率隨機(jī)條件,啟發(fā)式的逼近調(diào)節(jié)效果往往更為顯著。

5 全局建模策略

5.1 樹的深度

深度假設(shè)是hLDA一個(gè)最基本的假設(shè),也反映了主題建模粒度的期望。我們給出了不同樹深度條件下,Portal News中的8個(gè)話題平均路徑數(shù)變化,如表5所示。

表5 不同深度情況下的平均路徑樹變化

隨著樹深度的增長(zhǎng),路徑數(shù)呈現(xiàn)快速增長(zhǎng)的趨勢(shì)。與其他超參對(duì)于路徑數(shù)的影響比較,其增長(zhǎng)趨勢(shì)是最快的。由此分析,在設(shè)定超參時(shí),樹的路徑樹是我們首先需要考慮的參數(shù)。結(jié)合原理分析,我們知道hLDA的核心是基于nCRP的先驗(yàn)樹結(jié)構(gòu),不管是對(duì)于文檔生成的路徑選擇還是每個(gè)節(jié)點(diǎn)的主題分配,首先需要對(duì)深度做假設(shè),樹越深則CRP的嵌套效果越明顯,GEM分布層次的后驗(yàn)性越強(qiáng)。同時(shí)主題層次越多,每次運(yùn)行的穩(wěn)定性越差。

5.2 超參抽樣與否

超參抽樣的目的是為了盡可能的減少手工設(shè)定超參對(duì)于最終文檔樹結(jié)構(gòu)的影響[12],使得實(shí)驗(yàn)結(jié)果來(lái)源于語(yǔ)料本身特征。但是抽樣也同樣存在一些缺點(diǎn),首先其限制了我們對(duì)于超參更為靈活的、目的性的調(diào)整;其次,從算法的效率考慮,抽樣情況下的時(shí)間復(fù)雜度要高出許多。抽樣超參的選擇主要集中在主題βk的超參η,詞分配超參m和π。我們從語(yǔ)料中隨機(jī)選擇四個(gè)主題,進(jìn)行抽樣影響因素的分析,如圖5所示。

圖5中分析了不抽樣,抽樣η(ETA),抽樣m,π(GEM)和兩者都抽樣時(shí),四個(gè)話題路徑數(shù)的變化。一方面對(duì)于不同的抽樣選擇, 四個(gè)話題最終的文檔路徑數(shù)變化趨勢(shì)是一致的,對(duì)于抽樣η和不抽樣η的情況,路徑數(shù)變化尤其的大,相比之下GEM參數(shù)的抽樣要小點(diǎn)。結(jié)合3.3.1節(jié)的分析,η是nCRP過(guò)程中的基分布,控制著節(jié)點(diǎn)的主題,最直接的反映了文檔的后驗(yàn)解釋。另一方面,在對(duì)其選擇抽樣時(shí),相比于GEM參數(shù)m的0-1的取值區(qū)間,其可以在整個(gè)實(shí)數(shù)范圍內(nèi)取值,因此隨機(jī)化的區(qū)間更大,在一定的迭代次數(shù)下,并不一定能保證逼近最優(yōu)值,因此對(duì)于整個(gè)路徑數(shù)的影響比GEM的變化更大。

圖5 不同超參的抽樣情況下的路徑樹變化

5.3 語(yǔ)料特征

如表6所示,仍然從Portal News語(yǔ)料中隨機(jī)選擇四個(gè)話題,統(tǒng)計(jì)每個(gè)話題下的句子數(shù)、總詞數(shù)、詞表大小,以及相應(yīng)的人工專家進(jìn)行主題摘要?dú)w納的主題數(shù)。

表6 語(yǔ)料大小與詞表統(tǒng)計(jì)

對(duì)表6中詞頻特征按照文檔中詞的出現(xiàn)順序進(jìn)行了統(tǒng)計(jì),以盡可能保證文檔中詞分布特點(diǎn)的同時(shí),保留住其出現(xiàn)的上下文特征*主要是詞的前后關(guān)聯(lián)順序不變,有利于我們分析相同詞頻下相似詞的聚集。,如圖6所示。

圖6 四個(gè)話題詞頻分布特征

結(jié)合表6和圖6來(lái)分析語(yǔ)料特征因素對(duì)潛在主題數(shù)目的影響。如第二個(gè)IRSA話題,詞匯量、總詞數(shù)相對(duì)較少,占據(jù)詞匯量大部分的主題出現(xiàn)的便會(huì)少;再根據(jù)圖6中的詞頻分布情況,只有三個(gè)較為明顯的突出部分。與之作為對(duì)比的則可以看話題HCDH,首先句子數(shù)目,詞匯量以及詞表都比較大,但是我們發(fā)現(xiàn)其主題也比較少,結(jié)合詞頻特征,其詞頻高的也比較多,但為何主題數(shù)比像IRSA中的還要少,原因在于很多詞的詞頻都比較高,但是這些較高的詞頻往往同時(shí)出現(xiàn),且是關(guān)于某個(gè)特定的話題,即詞之間上下文相關(guān)度比較高。

6 建模流程及效果評(píng)估

6.1 經(jīng)驗(yàn)化建模流程

基于全局和局部因子的統(tǒng)一分析,本文給出一個(gè)實(shí)際建模應(yīng)用中的經(jīng)驗(yàn)化建模流程。

1) 產(chǎn)生hLDA模型的輸入文件以及分析語(yǔ)料中的特征信息。

做必要的預(yù)處理工作產(chǎn)生hLDA模型的輸入文件,同時(shí)分析語(yǔ)料的特征信息,如每個(gè)話題下文檔的大小、詞匯量、詞頻分布、關(guān)聯(lián)度等統(tǒng)計(jì)特征。

2) 評(píng)估待建模樹結(jié)構(gòu)的深度。

結(jié)合語(yǔ)料規(guī)模、高頻詞語(yǔ)義相似度,以及建模目標(biāo)等,來(lái)最終確定主題建模的深度。一般而言,樹的深度至少為三層,且樹層數(shù)越深,后驗(yàn)推理越復(fù)雜,所需的迭代次數(shù)也越多,在這最終得到最優(yōu)結(jié)果的穩(wěn)定性也越差。

3) 是否選擇抽樣超參。

后驗(yàn)推理的核心過(guò)程便是迭代最優(yōu)化,因此在足夠多次迭代下,往往抽樣是較好的選擇,但對(duì)于hLDA抽樣初始值的選擇還沒(méi)有較為成熟的算法指導(dǎo),對(duì)于一般建模者而言,隨機(jī)初始化抽樣往往不能取得較好的效果。經(jīng)驗(yàn)表明,一般在兩種情況下,我們采取抽樣超參的策略。首先, 在人工設(shè)定超參的情況下,如果建模這對(duì)于各個(gè)因素的影響不清楚。其二,對(duì)于運(yùn)行結(jié)果我們不滿意,可以通過(guò)抽樣來(lái)確定一個(gè)近似的范圍,其后在進(jìn)行人工設(shè)置。在抽樣超參時(shí)應(yīng)當(dāng)盡可能增加超參的迭代次數(shù)。

4) 每一層的主題參數(shù)η。

我們注意到如果η太大了(如η> 8.0),后驗(yàn)的節(jié)點(diǎn)聚集便會(huì)很大,相應(yīng)的路徑數(shù)便會(huì)變得非常少,反之亦然。同時(shí),我們還應(yīng)該考慮到最后馬爾科夫鏈的收斂性,對(duì)于η的先驗(yàn)評(píng)估應(yīng)該盡可能的與下面GEM參數(shù)的調(diào)節(jié)趨勢(shì)一致,否則可能導(dǎo)致在迭代次數(shù)內(nèi)評(píng)估最優(yōu)mode的失敗。

5) 路徑詞分配的m,π參數(shù)。

后驗(yàn)解釋傾向于把一般的詞放在根節(jié)點(diǎn),具體的詞在葉子節(jié)點(diǎn)。因此,根據(jù)樹的深度對(duì)m進(jìn)行設(shè)置,一般三層或四層的情況如圖3和表2中所示的那樣,0.75已經(jīng)是很大的值了,其將直接影響詞的層次分配和前面η參數(shù)的調(diào)節(jié)效果。

6) 非葉子層上的nCRP參數(shù)γ:

由公式(2)我們知道隨著語(yǔ)料數(shù)量大小的增加,每一層聚簇?cái)?shù)目的期望是呈現(xiàn)log增長(zhǎng)的趨勢(shì),同時(shí)在表1中我們給出了聚簇?cái)?shù)和γ之間的關(guān)系。我們可以再此基礎(chǔ)上相應(yīng)的較為準(zhǔn)確的評(píng)估γ的超參設(shè)置。

7) 樹結(jié)構(gòu)先驗(yàn)的參數(shù):

一個(gè)重要的參數(shù)便是SCALING_SHAPE,其直接影響著樹的形狀。通過(guò)對(duì)它的調(diào)節(jié)來(lái)對(duì)抽樣的效果進(jìn)行修正。參數(shù)SCALING_SCAL控制著樹的規(guī)模比例大小。通常我們?cè)趯?duì)其形狀先驗(yàn)預(yù)設(shè)的基礎(chǔ)上,再來(lái)調(diào)節(jié)它。

基于以上建模流程,我們參照2.2.1節(jié)的框架圖進(jìn)行具體語(yǔ)料超參的設(shè)置,順序建模和部分的循環(huán)修正,最終實(shí)現(xiàn)最優(yōu)效果。

6.2 實(shí)驗(yàn)及效果評(píng)估

我們對(duì)Portal News語(yǔ)料下的十個(gè)話題進(jìn)行了實(shí)驗(yàn),在三次修正后,對(duì)hLDA建模結(jié)果和人工總結(jié)的結(jié)果進(jìn)行了比較,實(shí)驗(yàn)中樹的層次為3,如表7 所示。

表7 建模結(jié)果與評(píng)估得分

續(xù)表

themelevel#1level#2hLDA#1hLDA#2scoreHCDH574.8104CQWF495.3105SBAG4106105GBAB684.8113LTFC6147.2125MACO476.784ROHN59794

其中分?jǐn)?shù)主要分為五個(gè)等級(jí),從1(差)到5(非常好)。從十個(gè)話題的實(shí)際建模效果來(lái)看,平均都在4(好)等級(jí)左右。接下來(lái)我們又選擇了ACL MultiLing 2013語(yǔ)料下的巴厘氣候會(huì)議(M004)話題,對(duì)比抽樣建模(10萬(wàn)次迭代)、隨機(jī)建模結(jié)果以及本文提出的基于分析框架下的建模,給出一個(gè)可視化的建模樹結(jié)構(gòu),每個(gè)樹節(jié)點(diǎn)就是一個(gè)主題,我們選取了每個(gè)主題上高頻詞來(lái)反映這個(gè)主題的特征,如果某個(gè)主題節(jié)點(diǎn)上詞數(shù)太少則為了樹結(jié)構(gòu)的展現(xiàn)效果,我們會(huì)用其父節(jié)點(diǎn)上的詞填充。

如圖7所示,整體上來(lái)看,兩者樹結(jié)構(gòu)顯得比較單一、少分支,這反映出了建模聚類結(jié)構(gòu)過(guò)分的聚集在前面主要路徑上,這不符合我們實(shí)際語(yǔ)料中子主題的特點(diǎn)。對(duì)于抽樣建模(左)情況下,中間層詞幾乎和其父節(jié)點(diǎn)一致,根據(jù)前面所說(shuō),其表示中間層次的詞分配極少,大部分詞集中在根節(jié)點(diǎn),這種抽樣結(jié)果顯然不能夠很好的解釋語(yǔ)料特點(diǎn)。對(duì)于隨機(jī)抽樣情況,雖然具有一定的層次樹結(jié)構(gòu),但是各層詞明顯缺乏主題意義上的聚集。

圖8則是經(jīng)驗(yàn)化建模流程指導(dǎo)下的層次樹結(jié)構(gòu)。如根節(jié)點(diǎn)展示了這個(gè)主題的一個(gè)概括性話題主旨,[巴厘]、[大會(huì)]、上關(guān)于[全球]氣體[排放量]的[協(xié)議]問(wèn)題。接下來(lái)在第二層的左邊第一個(gè)節(jié)點(diǎn)顯示的是各個(gè)參與國(guó)家[美國(guó)]、[聯(lián)合國(guó)]、[歐盟]等關(guān)于[溫室氣體]排放的談判。第二層左邊第二個(gè)節(jié)點(diǎn)顯示關(guān)于[同意]、[接受]大會(huì)上設(shè)定的一些[決議]等。如此分析接下來(lái)分別是美國(guó),聯(lián)合國(guó)其他國(guó)家關(guān)于京都議定書上結(jié)果的意見;關(guān)于溫室氣體排放引發(fā)的一系列討論;中國(guó)和一些發(fā)展中國(guó)家以及歐盟對(duì)線路圖的立場(chǎng)以及時(shí)間規(guī)劃等等。此處由于文檔形成的樹結(jié)構(gòu)很大,因此我們只選取了幾個(gè)主要的節(jié)點(diǎn)路徑上的主要的一些詞。同樣和人工總結(jié)的子主題進(jìn)行比較發(fā)現(xiàn),其效果是非常好的。

圖8 建模結(jié)果樹狀結(jié)構(gòu)圖

7 小結(jié)

我們針對(duì)在實(shí)際主題建模過(guò)程中的建模效果較差,也大多缺乏具體可依據(jù)的建模策略的問(wèn)題,提出了基于關(guān)鍵因素分析的統(tǒng)一分析建模框架,并在此框架基礎(chǔ)上,提出了一個(gè)統(tǒng)一的建模流程,實(shí)驗(yàn)表明取得了很好的效果。但我們也采用了人工評(píng)估的方法進(jìn)行建模效果的評(píng)估,這在一定程度上受個(gè)人主觀性所限。未來(lái)仍然有很多值得努力的方向,如關(guān)鍵因子啟發(fā)式的自調(diào)節(jié),如何自動(dòng)對(duì)建模結(jié)果進(jìn)行合理評(píng)估等。

[1] Blei D M, Griffiths T L, Jordan M I, et al. Hierarchical topic models and the nested Chinese restaurant process[M]. Advances in Neural Information Processing Systems 2004,(16): 106-114.

[2] Blei, D M, Griffiths, T L, Jordan, M I. The nested Chinese restaurant process and Bayesian nonparametric inference of topic hierarchies[J]. Journal of the ACM (jACM), 2010,57(2):1-30.

[3] Asli C, Dilek H. A hybrid hierarchical model for multi-document summarization[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010(7): 815-824.

[4] 劉平安. 基于HLDA模型的中文多文檔摘要技術(shù)研究[D].北京郵電大學(xué)碩士論文, 2012.

[5] Geman, Stuart, Donald Geman. Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on 1984(6): 721-741.

[6] Smith, Adrian FM, Gareth O. Roberts. Bayesian computation via the Gibbs sampler and related Markov chain Monte Carlo methods[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1993: 3-23.

[7] Blei D M. Probabilistic topic models[J].Communications of the ACM, 2012, 55(4): 77-84.

[8] Joon H K, Dong W K, Suin K, et al. Modeling topic hierarchies with the recursive Chinese restaurant process[C]//Proceedings of the 21st ACM international conference on information and knowledge management, ACM, New York,2012)(10): 783-792.

[9] Paisley J, Wang C, Blei D M, et al. Nested Hierarchical Dirichlet Processes[C]//Proceedings of arXiv preprint arXiv, 2012(5).

[10] Rodriguez Abel, Dunson D B. Nonparametric Bayesian models through probit stick-breaking processes[M]. Bayesian Analysis. 2011,6(1): 145-177.

[11] Ferguson Thomas S. A Bayesian analysis of some nonparametric problems[J]. The annals of statistics, 1973: 209-230.

[12] Bernardo José M, Adrian FM Smith. Bayesian theory[M]. Wiley, 2009.

猜你喜歡
語(yǔ)料文檔建模
淺談Matlab與Word文檔的應(yīng)用接口
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
有人一聲不吭向你扔了個(gè)文檔
聯(lián)想等效,拓展建模——以“帶電小球在等效場(chǎng)中做圓周運(yùn)動(dòng)”為例
基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
不對(duì)稱半橋變換器的建模與仿真
Word文檔 高效分合有高招
對(duì)外漢語(yǔ)教學(xué)領(lǐng)域可比語(yǔ)料庫(kù)的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語(yǔ)義標(biāo)注及應(yīng)用研究為例
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
德清县| 中牟县| 涪陵区| 平凉市| 蓬安县| 东台市| 江北区| 哈尔滨市| 黔西县| 吴桥县| 民县| 北海市| 九龙城区| 洪泽县| 南靖县| 安丘市| 安远县| 潍坊市| 秭归县| 卢氏县| 临清市| 静安区| 乐东| 当雄县| 西畴县| 洛宁县| 龙井市| 成安县| 西宁市| 兰考县| 承德市| 长沙市| 于田县| 象山县| 公安县| 敦煌市| 承德县| 乌海市| 工布江达县| 绵竹市| 琼中|