包啟明,裴志利,姜明洋,熊 露
(1.內(nèi)蒙古民族大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,內(nèi)蒙古 通遼 028043;2.內(nèi)蒙古民族大學(xué) 數(shù)理學(xué)院,內(nèi)蒙古 通遼 028043)
蒙醫(yī)藥是蒙古族人民世代與自然界、疾病作斗爭(zhēng)的經(jīng)驗(yàn)積累及總結(jié),是蒙古族文化的精粹,也是中華民族醫(yī)藥的重要組成部分。新中國(guó)成立后,由于黨和國(guó)家對(duì)蒙醫(yī)藥的重視,使之成為“四大民族醫(yī)藥”之一,是人類(lèi)歷史上的瑰寶,得到傳承及利用[1]。與其他民族醫(yī)藥研究相比[2],蒙醫(yī)藥研究存在一定的共性問(wèn)題,也有著自身發(fā)展特色,挖掘蒙醫(yī)藥的研究熱點(diǎn),對(duì)其發(fā)展具有很好的借鑒作用。
目前,在文本主題挖掘方面,使用最多的主題模型均是以隱含狄利克雷分布(Latent Dirichlet Alloca?tion,LDA)[3]模型為基礎(chǔ)擴(kuò)展的聚類(lèi)方法。隨著深度學(xué)習(xí)方法的推廣和普及,此類(lèi)方法在不同領(lǐng)域長(zhǎng)文本主題挖掘任務(wù)中得到了認(rèn)可[4]。與長(zhǎng)文本數(shù)據(jù)相比,短文本數(shù)據(jù)具有文檔長(zhǎng)度短、整體詞匯量大的特點(diǎn),這導(dǎo)致了文檔級(jí)別上稀疏的單詞共現(xiàn)模式。因此,基于單詞共現(xiàn)信息的經(jīng)典長(zhǎng)文本主題模型LDA通常難以從短文本集合中提取語(yǔ)義一致的主題。面對(duì)蒙醫(yī)藥短文本數(shù)據(jù),在LI等[5]提出波利亞罐子混合狄利克雷聚類(lèi)模型(General Pólya Urn Model Dirichlet Multinomial Mixture Model,GPU-DMM)的基礎(chǔ)上,構(gòu)建了一種基于背景主題的Background DMM(B-DMM)聚類(lèi)模型。
主題模型聚類(lèi)算法根據(jù)建模方法大概可以分為3類(lèi),分別是概率生成主題模型、基于矩陣分解的主題模型和基于神經(jīng)網(wǎng)絡(luò)的深度生成模型,其中,最常見(jiàn)的是概率生成主題模型。由于在建模的過(guò)程中需要生成建模概率圖模型以及生成過(guò)程,所以,這類(lèi)模型的可解釋性較強(qiáng),主題模型的發(fā)展也以此類(lèi)模型為主。此外,基于矩陣分解的((SVD[6],Singular Value Decomposition),(NMF[7],Non-negative Matrix Factor?ization)等方法)的主題模型在早期也曾受到廣泛的關(guān)注,該類(lèi)模型的建模方式相對(duì)簡(jiǎn)單直觀,方便對(duì)模型加入約束,求解過(guò)程上使用一些較成熟的數(shù)值求解方法使模型可以更快地收斂,但是該類(lèi)模型可解釋性不強(qiáng),比較難構(gòu)造復(fù)雜的模型,所以在深度神經(jīng)網(wǎng)絡(luò)得以發(fā)展后,該類(lèi)模型并沒(méi)有得到更進(jìn)一步關(guān)注。隨著深度神經(jīng)網(wǎng)絡(luò)的流行,近年來(lái)也出現(xiàn)了許多基于神經(jīng)網(wǎng)絡(luò)的深度生成主題模型(比如基于(VAE[8],Variational Auto-Encoder)和(GAN[9],Generative Adversarial Network)的主題模型)。該類(lèi)主題模型的可解釋性同樣不及概率主題模型,導(dǎo)致建模靈活性的折扣。
國(guó)內(nèi)已有研究者運(yùn)用主題模型在醫(yī)學(xué)領(lǐng)域進(jìn)行主題熱點(diǎn)分析研究,孫靜等[10]以醫(yī)學(xué)期刊文獻(xiàn)作為數(shù)據(jù),提出一種運(yùn)用詞共現(xiàn)方法,從中獲取到熱點(diǎn)主題并對(duì)其進(jìn)行可視化分析。該方法中以詞共現(xiàn)作為可視化分析指標(biāo),指數(shù)過(guò)于簡(jiǎn)單,導(dǎo)致主題詞和主題對(duì)文檔的貢獻(xiàn)度考慮不足。陳斯斯等[11]從PubMed數(shù)據(jù)庫(kù)中爬取8個(gè)生物醫(yī)學(xué)領(lǐng)域研究主題,作為醫(yī)學(xué)文獻(xiàn)主題新穎性探測(cè)的數(shù)據(jù),并對(duì)比分析。
短文本與長(zhǎng)文本相比,兩個(gè)單詞共同出現(xiàn)在一篇文章中的概率更低,單詞的共現(xiàn)性更為稀疏,導(dǎo)致了普通的主題模型并不能很好地應(yīng)用到短文本數(shù)據(jù)中。現(xiàn)有的緩解數(shù)據(jù)稀疏性問(wèn)題的方法大概可以分為2類(lèi),一種是利用外部知識(shí),比如利用知識(shí)庫(kù),或者在大規(guī)模數(shù)據(jù)上進(jìn)行詞嵌入技術(shù)[12],來(lái)作為單詞共現(xiàn)性不夠時(shí)的額外補(bǔ)充。另一種方法則是放松對(duì)生成過(guò)程的假設(shè),比如每篇短文檔只包含一個(gè)主題,文檔中的所有詞都是由該主題產(chǎn)生。再比如Biterm Topic Model(BTM)模型[13]強(qiáng)制假設(shè)相鄰兩個(gè)單詞是由同一個(gè)主題產(chǎn)生。對(duì)于蒙醫(yī)藥短文本數(shù)據(jù),基于矩陣的方法以及神經(jīng)網(wǎng)絡(luò)方法很難對(duì)其靈活建模,所以文中提出了一種新的基于概率模型的短文本主題模型。
GPU-DMM 是在DMM[14](Dirichlet Multinomial Mixture Model)模型的基礎(chǔ)上進(jìn)行改進(jìn)擴(kuò)展的。在給定一篇短文本后,GPU-DMM根據(jù)模型推導(dǎo)得到的條件概率采樣出一個(gè)主題賦給該文檔。如果當(dāng)前單詞是其主題下的高概率單詞,則GPU-DMM 模型會(huì)借助GPU[15](General Pólya Urn)的策略增強(qiáng)單詞的語(yǔ)義相似詞在該主題下的概率。GPU-DMM 模型與DMM擁有著相同的生成過(guò)程和貝葉斯網(wǎng)絡(luò)圖表示,此模型最主要的改進(jìn)是在模型求解的過(guò)程中加入了GPU 模型的促進(jìn)策略。因此,在GPU-DMM 模型的推導(dǎo)中,借鑒了DMM模型,同樣采用吉布斯采樣來(lái)對(duì)模型進(jìn)行求解,在采樣的過(guò)程中,使用詞向量作為一種外部知識(shí)通過(guò)GPU模型同步調(diào)整語(yǔ)義相似的單詞在同一主題下的出現(xiàn)概率,為本文的新算法提供了思路。
2.1 模型生成過(guò)程 在GPU-DMM模型的基礎(chǔ)上,文中提出的B-DMM模型利用外部知識(shí)以及優(yōu)化生成過(guò)程來(lái)克服蒙醫(yī)藥短文本數(shù)據(jù)中存在的單詞的稀疏性問(wèn)題。在GPU-DMM模型中,作者使用大規(guī)模外部數(shù)據(jù)上訓(xùn)練的詞向量作為一種外部知識(shí),但是并未考慮到訓(xùn)練數(shù)據(jù)自己的特性。筆者對(duì)此進(jìn)行了改進(jìn),首先,使用wiki等大型通用文本數(shù)據(jù)訓(xùn)練詞向量,在此基礎(chǔ)上,利用訓(xùn)練短文本數(shù)據(jù)進(jìn)行微調(diào),使詞向量同時(shí)編碼大規(guī)模外部文本數(shù)據(jù)以及訓(xùn)練數(shù)據(jù)語(yǔ)義特性。對(duì)于生成過(guò)程,筆者參考DMM模型的假設(shè):即對(duì)于每篇短文檔由于其文檔長(zhǎng)度較短,假設(shè)只存在一個(gè)主題,文檔中所有單詞都是由該主題產(chǎn)生的,該假設(shè)對(duì)于短文檔來(lái)說(shuō)有一定的合理性,但是文檔中可能會(huì)有部分單詞與文章主題的語(yǔ)義相關(guān)性并不是很大,如果簡(jiǎn)單地假設(shè)該部分單詞均為文章對(duì)應(yīng)主題產(chǎn)生的,會(huì)導(dǎo)致主題的語(yǔ)義一致性受損。所以B-DMM參考TwitterLDA模型對(duì)GPU-DMM模型的這一假設(shè)進(jìn)行了改進(jìn),即有一個(gè)背景主題負(fù)責(zé)生成與文檔主題語(yǔ)義相關(guān)性較弱的單詞。對(duì)于每篇短文檔只對(duì)應(yīng)一個(gè)有意義的主題,文檔中的每個(gè)單詞要么是這個(gè)有意義的主題產(chǎn)生的,要么是從一個(gè)背景主題產(chǎn)生的,其中,背景主題負(fù)責(zé)產(chǎn)生與語(yǔ)義主題無(wú)關(guān)的背景單詞。在求解的過(guò)程中,先利用詞向量來(lái)獲取單詞之間的相關(guān)性,使用了GPU模型在增強(qiáng)語(yǔ)義相關(guān)的單詞在同一主題下的一致性。即在采樣每個(gè)單詞在每個(gè)主題下出現(xiàn)頻率的時(shí)候,在更改該單詞在主題下出現(xiàn)的統(tǒng)計(jì)量的同時(shí),同步更改其語(yǔ)義相關(guān)單詞在主題下的統(tǒng)計(jì)量,其余部分與傳統(tǒng)的LDA主題模型基本類(lèi)似,均是計(jì)算每個(gè)隱變量的后驗(yàn)分布。
概率模型見(jiàn)圖1。每篇短文檔只關(guān)聯(lián)一個(gè)主題變量z,主題分布是從參數(shù)為θ的多項(xiàng)分布中產(chǎn)生的,而該分布先驗(yàn)分布為參數(shù)為α的狄利克雷分布。對(duì)于文檔中的每個(gè)單詞ω,都會(huì)存在一個(gè)二元變量y與之關(guān)聯(lián),若y=1,則說(shuō)明該單詞是由一個(gè)全局背景主題產(chǎn)生的,若y=0,則說(shuō)明該單詞是由一個(gè)普通語(yǔ)義主題產(chǎn)生的。二元變量y服從參數(shù)為ψ的Bernoulli分布,其先驗(yàn)分布為參數(shù)為γ的Beta分布。?k以及?B表示主題k或者全局背景主題B對(duì)應(yīng)的“主題-單詞”多項(xiàng)分布,其中,?k或者?B服從由參數(shù)為β的Dirichlet分布。
圖1 B-DMM主題模型圖形表示Fig.1 Graphical representation of the B-DMM theme model
2.2 參數(shù)求解過(guò)程 獲取單詞語(yǔ)義相關(guān)單詞集合:對(duì)于每個(gè)單詞ω,可以按照如下的方法獲取語(yǔ)義相關(guān)的單詞集合S(ω)。
V表示詞表集合,cos(ω,ω0)表示單詞的ω以及單詞ω0對(duì)應(yīng)詞向量的cosine相似度,PMI(ω,ω0)表示單詞ω以及單詞ω0的點(diǎn)互信息,其計(jì)算公式為:
其中,p(ω)表示單詞ω出現(xiàn)文檔頻率。
使用Gibbs Sampling對(duì)模型進(jìn)行迭代求解。
該模型使用Gibbs Sampling 對(duì)隱變量z以及y進(jìn)行采樣,在采樣過(guò)程收斂后,使用極大后驗(yàn)估計(jì)(MAP)進(jìn)行模型參數(shù)估計(jì)。參考GPU-DMM的采樣過(guò)程,當(dāng)單詞ω在主題t下的統(tǒng)計(jì)量增加1時(shí),與其語(yǔ)義相關(guān)單詞在主題t下的統(tǒng)計(jì)量增加cos(ω,ω0)。
主題隱變量采樣公式:
單詞背景詞指示變量:
其中,隨機(jī)變量以及隱變量的含義:dz表示文檔d的主題,z-d表示除了文檔d之外其他文檔的主題變量,ωd表示文檔d的所有單詞,yd表示文檔d中每個(gè)單詞的背景詞指示變量,nk,-d表示除了文檔d中的單詞主題k對(duì)應(yīng)的單詞數(shù)量,ndω表示單詞ω在文檔d中出現(xiàn)的次數(shù),y-d,i表示文檔d中第i個(gè)單詞的背景主題指示變量。
3.1 蒙醫(yī)藥文本數(shù)據(jù) 在中國(guó)知網(wǎng)CNKI《中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)》的文獻(xiàn)中檢索關(guān)鍵詞“蒙醫(yī)藥”“蒙醫(yī)”“蒙藥”,一共爬取了1 300篇文獻(xiàn)。經(jīng)過(guò)刪減重復(fù)文獻(xiàn)以及各種日?qǐng)?bào),最終得到859篇中文期刊論文的摘要作為文本數(shù)據(jù)。在對(duì)數(shù)據(jù)作處理時(shí),采用Python中的jieba庫(kù)對(duì)蒙醫(yī)藥文本進(jìn)行分詞,并結(jié)合百度停用詞去除語(yǔ)氣助詞、副詞、介詞、連接詞等。隨后,在構(gòu)建含有474個(gè)有關(guān)蒙醫(yī)藥詞匯的自定義詞典基礎(chǔ)上,對(duì)蒙醫(yī)藥文獻(xiàn)摘要進(jìn)行分詞和生成詞向量表示,并作為B-DMM的原始文本輸入。
3.2 實(shí)驗(yàn)設(shè)置 為了驗(yàn)證新算法在蒙醫(yī)藥文本中提取到更高質(zhì)量的主題,使用了4個(gè)在短文本主題模型領(lǐng)域中比較常用的模型作為對(duì)比模型,分別是LDA、DMM、GPU-DMM 以及BTM。下面將簡(jiǎn)要介紹每個(gè)短文本主題模型及相應(yīng)的參數(shù)設(shè)置:
(1)LDA:該模型假設(shè)每篇短文本都是從一個(gè)長(zhǎng)的偽文檔產(chǎn)生的,多篇短文檔可以隸屬于同一篇長(zhǎng)的偽文檔,隱式的增加單詞在偽文檔級(jí)別的單詞共現(xiàn)性。(2)BTM:該模型用潛在主題結(jié)構(gòu)對(duì)雙術(shù)語(yǔ)的生成進(jìn)行建模,而不是用潛在主題結(jié)構(gòu)對(duì)文檔的生成進(jìn)行建模。(3)DMM:該模型是假設(shè)每個(gè)文檔由單個(gè)主題構(gòu)成,當(dāng)文檔的主題確定之后,文檔內(nèi)部的詞語(yǔ)生成是相互獨(dú)立與所在位置無(wú)關(guān)。(4)GPU-DMM:該模型是通過(guò)引入詞嵌入方法,利用廣義波利亞罐模型來(lái)提高同一個(gè)主題下單詞的語(yǔ)義關(guān)系。
在實(shí)驗(yàn)中各主題模型“文檔-主題”分布的超參α均設(shè)置為50/K,“主題-單詞”分布的超參β均設(shè)置為0.01,最大的迭代次數(shù)Maxlteration設(shè)為1 500。
3.3 主題一致性評(píng)價(jià) 為了驗(yàn)證新模型的有效性,利用文獻(xiàn)[16]中提到的Umass 主題一致性方法作為對(duì)比任務(wù)的評(píng)價(jià)標(biāo)準(zhǔn)。該方法的基本原理是文檔并發(fā)計(jì)數(shù),訓(xùn)練數(shù)據(jù)集中提取單詞之間的相關(guān)信息,來(lái)計(jì)算主題的語(yǔ)義一致性。對(duì)于主題t,該方法的語(yǔ)義一致性可以量化為如下形式:
其中,M指的是主題t下概率值最大的前M個(gè)單詞,單詞ω出現(xiàn)的文檔頻數(shù)用D(ω)表示,單詞ωi與ωj共同出現(xiàn)的文檔頻數(shù)用G(ωi,ωj)表示。Umass方法在計(jì)算過(guò)程中不需要人工干預(yù)和大型外部文本的補(bǔ)充,計(jì)算速度相對(duì)較快。Umass值越大,語(yǔ)義一致性越高,反之越低。在對(duì)比實(shí)驗(yàn)中,設(shè)定蒙醫(yī)藥文本主題個(gè)數(shù)的取值范圍為{40,60,80},來(lái)測(cè)試不同語(yǔ)義粒度下模型的魯棒性。具體結(jié)果見(jiàn)表1。
表1 主題一致性的比較Tab.1 Comparison of theme consistency
主題模型的主題一致性結(jié)果如表1所示,從結(jié)果可以看出文中提出的B-DMM算法在K=40、60、80的情況下,在蒙醫(yī)藥文本數(shù)據(jù)上均優(yōu)于其他傳統(tǒng)的主題模型,一定程度上驗(yàn)證了其有效性。這表明所提出的背景主題模型B-DMM具有較高的語(yǔ)義一致性。
3.4 蒙醫(yī)藥文本主題詞可視化 對(duì)B-DMM主題模型提取出來(lái)的主題詞根據(jù)其所占有的貢獻(xiàn)度探討熱點(diǎn)主題,為了可以更直觀地顯示出來(lái),采用詞云圖的形式進(jìn)行展示,見(jiàn)圖2。對(duì)每個(gè)主題進(jìn)行分析,運(yùn)用余弦相似度計(jì)算每一個(gè)主題之間的語(yǔ)義距離,并將經(jīng)過(guò)B-DMM主題模型和主題詞嵌入表示的相鄰時(shí)間段的主題進(jìn)行主題演化對(duì)比分析。經(jīng)過(guò)對(duì)凸顯的關(guān)鍵詞分析,得到豆蔻、麝香、沉香、苦參、懸鉤子、芒硝、丁香等屬于蒙醫(yī)藥研究的藥材。高效液相色譜法(HPLC)、含量測(cè)定、化學(xué)成分、質(zhì)量標(biāo)準(zhǔn)薄層掃描法等屬于蒙醫(yī)藥研究的實(shí)驗(yàn)方法。
圖2 蒙醫(yī)藥文本熱點(diǎn)主題可視化Fig.2 Visualization of hot topics in Mongolian medicine texts
基于知網(wǎng)爬取到的859篇蒙醫(yī)藥文本數(shù)據(jù),引入外部知識(shí)和背景主題,結(jié)合GPU-DMM模型,完成了對(duì)蒙醫(yī)藥文本的主題挖掘。一方面,通過(guò)實(shí)驗(yàn)結(jié)果的比較,驗(yàn)證了B-DMM 主題模型算法在蒙醫(yī)藥學(xué)這一領(lǐng)域文本上的有效性和可行性,拓展了概率主題模型的應(yīng)用范圍。另一方面,通過(guò)對(duì)蒙醫(yī)藥文本的主題知識(shí)挖掘,不僅為其他類(lèi)似領(lǐng)域短文本的知識(shí)挖掘提供了方法上的借鑒,而且為針對(duì)蒙醫(yī)藥知識(shí)挖掘的探究奠定了堅(jiān)實(shí)的基礎(chǔ)。