孫 偉,劉文靜,葛麗閣,余 璇
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
每年公布的專利說(shuō)明書(shū)約100萬(wàn)件,并以每年9萬(wàn)件的速度遞增。目前專利文獻(xiàn)分類(lèi)主要以國(guó)際專利分類(lèi)法(IPC)作為分類(lèi)標(biāo)準(zhǔn),而使用IPC進(jìn)行檢索時(shí)需了解IPC分類(lèi)號(hào)對(duì)應(yīng)的位置和內(nèi)容。而面對(duì)數(shù)量如此龐大的專利文獻(xiàn),僅僅依靠人工方式對(duì)專利文獻(xiàn)進(jìn)行分類(lèi)已經(jīng)不能滿足文獻(xiàn)數(shù)量快速增長(zhǎng)的需求。因此,利用計(jì)算機(jī)對(duì)大量專利文獻(xiàn)進(jìn)行自動(dòng)分類(lèi)就顯得愈加重要。
近年來(lái),由于主題模型在文本分類(lèi)方面取得了極好的應(yīng)用效果,學(xué)者們結(jié)合專利文獻(xiàn)的特點(diǎn)開(kāi)展了主題模型在專利文獻(xiàn)分類(lèi)領(lǐng)域的研究工作。這些研究工作主要分為兩大類(lèi),一類(lèi)是利用專利關(guān)鍵詞、作者或單位等輔助信息的專利文獻(xiàn)分類(lèi)。黎楠等[1]在文檔-主題-詞模型的基礎(chǔ)上,利用每位發(fā)明人的專利數(shù)據(jù),提出了一種發(fā)明人興趣主題模型的方法,將標(biāo)準(zhǔn)三層LDA模型變?yōu)閷@麛?shù)據(jù)中的發(fā)明人-主題-詞的發(fā)明人興趣模型,實(shí)現(xiàn)發(fā)明人的主題發(fā)現(xiàn)。王博等[2]將主題模型應(yīng)用于專利文獻(xiàn)時(shí),利用專利機(jī)構(gòu)信息構(gòu)建LDA機(jī)構(gòu)-主題模型,對(duì)專利知識(shí)主體和客體聯(lián)合建模,實(shí)現(xiàn)專利主題和機(jī)構(gòu)之間的內(nèi)在關(guān)系分析。另一類(lèi)是基于專利內(nèi)容的專利文獻(xiàn)分類(lèi)。蔣健安等[3]改進(jìn)了無(wú)詞典分詞和權(quán)重計(jì)算,提出一種層次分類(lèi)方法,面向?qū)@墨I(xiàn)數(shù)據(jù)的文本自動(dòng)分類(lèi)系統(tǒng)做框架模型。專利文獻(xiàn)中出現(xiàn)的專業(yè)詞匯具有更優(yōu)的主題區(qū)分能力,學(xué)者們針對(duì)LDA模型的詞對(duì)主題分類(lèi)中的影響也開(kāi)展了相關(guān)研究。董元元等[4]提出LDA-σ方法,將“詞—主題”間互信息的標(biāo)準(zhǔn)差作為特征評(píng)估函數(shù)。張小平等[5]從LDA中代表主題的多數(shù)詞會(huì)被少量的高頻詞淹沒(méi)的問(wèn)題出發(fā),提出一種高斯函數(shù)對(duì)特征詞加權(quán)的改進(jìn)LDA模型。Ramage等[6]提出一種有監(jiān)督LDA模型,通過(guò)將文檔的所屬主題直接添加映射標(biāo)記來(lái)實(shí)現(xiàn)文檔主題的多標(biāo)記判定,但是其泛化能力較差。李湘東等[7]在點(diǎn)互信息(PMI)模型的基礎(chǔ)上,結(jié)合詞性、位置等要素修正特征詞的權(quán)重,并改進(jìn)LDA模型,以提高模型的分類(lèi)準(zhǔn)確率。
對(duì)于專利文獻(xiàn),專業(yè)詞匯相對(duì)普通詞具有更好的主題表達(dá)能力。文中將從專業(yè)文獻(xiàn)中詞的共現(xiàn)關(guān)系出發(fā),對(duì)專業(yè)詞匯進(jìn)行加權(quán)處理,提出一種新的有監(jiān)督LDA模型,以期在迭代效率和分類(lèi)準(zhǔn)確率方面有更優(yōu)的表現(xiàn)。
主題模型具有良好的文檔分類(lèi)能力,傳統(tǒng)的主題模型有LSA、PLSA和LDA[8]等。LDA模型采用詞袋(BOW)模型,原始語(yǔ)料庫(kù)通過(guò)分詞、去停用詞處理后,可以表示為三層生成式貝葉斯網(wǎng),依次為文獻(xiàn)集合層、主題層和詞層。
LDA模型是一種有向概率圖模型,如圖1所示。其中,θm表示文獻(xiàn)主題的概率分布,φk表示主題詞的概率分布,M表示專利文獻(xiàn)集的文獻(xiàn)個(gè)數(shù),K表示文獻(xiàn)集的主題數(shù),N表示每篇文獻(xiàn)的特征詞數(shù)。模型中含有超參數(shù)(α,β),其中α為每個(gè)文檔下主題的多項(xiàng)分布的狄利克雷先驗(yàn)參數(shù),β為每個(gè)主題下詞的多項(xiàng)分布的狄利克雷先驗(yàn)參數(shù)。
圖1 LDA模型有向概率圖
LDA模型隱含參數(shù)求解公式如下:
其中,i=(m,n)是一個(gè)二維下標(biāo),對(duì)應(yīng)第m篇文獻(xiàn)的第n個(gè)詞;i表示去除下標(biāo)為i的詞;表示第k個(gè)主題產(chǎn)生的詞中位置t的詞個(gè)數(shù);表示第m篇文檔中第k個(gè)主題產(chǎn)生的詞個(gè)數(shù)。
基于詞加權(quán)LDA模型的專利文獻(xiàn)分類(lèi)流程如下:
(1)對(duì)專利文本集進(jìn)行分詞、去停用詞等處理。
(2)針對(duì)專利文獻(xiàn)中專業(yè)詞匯與高頻詞對(duì)主題貢獻(xiàn)度的不同,利用KeyGraph算法抽取文獻(xiàn)中的關(guān)鍵詞,利用互信息函數(shù)計(jì)算關(guān)鍵詞的權(quán)重,建立專業(yè)詞字典存放關(guān)鍵詞及其對(duì)應(yīng)的權(quán)重值。
(3)構(gòu)造詞加權(quán)有監(jiān)督LDA主題模型,對(duì)專利文本進(jìn)行主題分類(lèi)。
文中采用向量空間模型,在專利文本預(yù)處理階段,首先使用python中的jieba庫(kù)實(shí)現(xiàn)文本分詞,該庫(kù)在全模式下對(duì)句子切分的精確度高,適合做文本分析。接下來(lái)刪除停用詞表(包括連詞、形容詞等與主題關(guān)系不大的高頻詞)中的詞,進(jìn)行粗降維。
由于LDA模型在進(jìn)行分類(lèi)時(shí),得到的主題詞分布會(huì)向高頻詞傾斜,使得主題表達(dá)能力強(qiáng)的低頻詞分配到各主題中的概率較低,而主題表達(dá)能力弱的高頻詞分配到各主題中的概率較高,降低了模型的主題分類(lèi)效果。因此文中先利用KeyGraph算法提取主題表達(dá)能力更好的關(guān)鍵詞,再根據(jù)互信息計(jì)算關(guān)鍵詞與文獻(xiàn)間的相關(guān)性值作為權(quán)重值。
2.2.1 基于KeyGraph的Key詞抽取
KeyGraph算法是日本學(xué)者Y.Oshawa[9]于1998年提出的,主旨基于建筑物結(jié)構(gòu)隱喻的索引思想,把圖分割成群,其中圖描述了一篇文檔中詞之間同時(shí)出現(xiàn)的關(guān)系,每個(gè)群集對(duì)應(yīng)一個(gè)思想基礎(chǔ)的概念,根據(jù)每個(gè)詞和它們?nèi)杭g的關(guān)系,采用統(tǒng)計(jì)方法得出排序最高的詞作為關(guān)鍵詞。這些關(guān)鍵詞并不都是高頻詞,還包含有與高頻詞共現(xiàn)的部分低頻詞。在專利文獻(xiàn)中,它們具有專業(yè)詞的特征。
KeyGraph算法抽取關(guān)鍵詞的過(guò)程如下:
(1)提取高頻詞。用統(tǒng)計(jì)方法提取出文獻(xiàn)中詞頻高于指定閾值(HF)的詞作為高頻詞,將選中的高頻詞作為圖中的頂點(diǎn),高頻詞集合用V表示:
V={w|w∈W∩w.times>HF}
(3)
(2)計(jì)算高頻詞間的關(guān)聯(lián)度。用統(tǒng)計(jì)方法計(jì)算兩個(gè)高頻詞在同一句子中的共現(xiàn)度,連接共現(xiàn)度高于指定閾值的兩個(gè)高頻詞,形成邊集合,此時(shí)圖中形成一個(gè)或多個(gè)島嶼。高頻詞間的共現(xiàn)度計(jì)算公式為:
(4)
(3)獲取關(guān)鍵詞。為了表明各個(gè)單詞對(duì)主題的影響大小,KeyGraph算法定義了一個(gè)計(jì)算函數(shù)key(w),其值在0到1之間。而為了計(jì)算該函數(shù),還定義了兩個(gè)輔助函數(shù):
(5)
(6)
(7)
其中,based(w,g)表示詞w和群g之間的同時(shí)出現(xiàn)關(guān)系,即w作為g中詞出現(xiàn)在同一句子中的次數(shù);neighbors(g)表示包含g中詞的句子中的詞個(gè)數(shù)。
基于此,函數(shù)key(w)的計(jì)算公式為:
(8)
依據(jù)key函數(shù),取W中最大的r個(gè)key值最高的詞形成高關(guān)鍵度詞集KF,r取經(jīng)驗(yàn)值。將高關(guān)鍵度詞集中未出現(xiàn)在圖中的詞作為新節(jié)點(diǎn)加入圖中。
(4)計(jì)算高key詞和高頻詞間的關(guān)聯(lián)度。
wj∈V
(9)
若base(wiwj)!=0,且圖中節(jié)點(diǎn)wi和wj間無(wú)邊,則將節(jié)點(diǎn)用虛線連接,得到文獻(xiàn)的KeyGraph圖。計(jì)算圖中與群相關(guān)的各節(jié)點(diǎn)base值,若該base值超過(guò)指定閾值,則該節(jié)點(diǎn)對(duì)應(yīng)的詞即為關(guān)鍵詞。
舉例:一篇專利文獻(xiàn)經(jīng)過(guò)分詞、去停用詞處理后形成的5個(gè)句子如下:
S1:{外科,器械}
S2:{外科,器械,位置,傳感器,系統(tǒng)}
S3:{位置,傳感器2,系統(tǒng),操作,聯(lián)接,外科,器械,可動(dòng),驅(qū)動(dòng),構(gòu)件,傳感器,元件}
S4:{位置2,傳感器3,操作,聯(lián)接,傳感器,元件2,構(gòu)造,感測(cè),傳感器,元件,位置}
S5:{外科2,器械2,位置6,傳感器9,系統(tǒng)1,位置,傳感器,傳感器,元件4,傳感器,元件,操作2,聯(lián)接2,外科,器械,可動(dòng),驅(qū)動(dòng),構(gòu)件,位置,傳感器,位置,傳感器,操作,聯(lián)接,傳感器,元件,位置,傳感器,構(gòu)造,感測(cè),傳感器,元件,位置}
文獻(xiàn)中單詞集對(duì)應(yīng)的編號(hào)及詞頻如下:
根據(jù)得到的詞頻,取閾值為2,則得到高頻詞集HF={1,2,3,4,5,6,7,8}。計(jì)算高頻詞間的關(guān)聯(lián)度,形成邊:
接下來(lái)將關(guān)聯(lián)度排序,取閾值為3,將高頻詞對(duì)應(yīng)的節(jié)點(diǎn)用實(shí)線連接起來(lái)形成邊,得到兩個(gè)群組,即g(1)={1,2,3,4,5,6,8},g(2)={7}。目標(biāo)是找出文獻(xiàn)中能表達(dá)文獻(xiàn)主題的專業(yè)詞匯,而非高頻詞,因此只需要計(jì)算非頻繁詞的key值。由式5可知,要計(jì)算非頻繁詞與高頻詞群間的關(guān)聯(lián)度,可以先求非頻繁詞與高頻群組中的每個(gè)高頻詞的關(guān)聯(lián)度,再對(duì)每個(gè)值累加求和。非頻繁詞與高頻群組中的每個(gè)高頻詞的關(guān)聯(lián)度如下:
最后,取閾值0.3,則{9,11,13}∈KF。如果base(wi,wj)!=0,則在wi和wj之間用虛線連接。至此,KeyGraph圖形成。
2.2.2 關(guān)鍵詞的權(quán)重值計(jì)算
為了表示專利中詞和文獻(xiàn)間的關(guān)系程度,文中使用點(diǎn)互信息[10](PMI)作為評(píng)價(jià)函數(shù)處理專利中關(guān)鍵詞的權(quán)重值。點(diǎn)互信息在信息論中用來(lái)衡量?jī)蓚€(gè)隨機(jī)變量之間的相關(guān)性。關(guān)鍵詞t和文獻(xiàn)pi的點(diǎn)互信息體現(xiàn)了關(guān)鍵詞和文獻(xiàn)相關(guān)聯(lián)的程度。若關(guān)鍵詞t在某些文獻(xiàn)中出現(xiàn)的概率很高,而在其他文獻(xiàn)中出現(xiàn)的概率偏低,那么它將獲得較高的點(diǎn)互信息值,計(jì)算公式為:
(10)
其中,p(t)表示關(guān)鍵詞t在整個(gè)訓(xùn)練文獻(xiàn)集中出現(xiàn)的詞頻概率;p(pi)表示訓(xùn)練文獻(xiàn)集中第pi篇專利與整個(gè)訓(xùn)練集文獻(xiàn)的詞頻比值;p(t,pi)表示第pi篇專利中含有關(guān)鍵詞t的概率。
在式10的基礎(chǔ)上關(guān)鍵詞的權(quán)重值計(jì)算公式為:
(11)
通過(guò)點(diǎn)互信息計(jì)算出關(guān)鍵詞的權(quán)重值,將關(guān)鍵詞對(duì)應(yīng)的文獻(xiàn)編號(hào)和權(quán)重值保存在專利詞字典中。
2.3.1 詞加權(quán)LDA模型
文中將KeyGraph算法與LDA模型相結(jié)合,提出一種新的詞加權(quán)有監(jiān)督LDA模型(簡(jiǎn)稱KG-PMI-LDA模型)。該模型通過(guò)KeyGraph算法選取文獻(xiàn)中的關(guān)鍵詞作為特征詞,并建立專業(yè)詞字典記錄各關(guān)鍵詞在各文檔中的權(quán)重值。進(jìn)而,利用該字典對(duì)特征詞加權(quán)和歸一化,實(shí)現(xiàn)對(duì)LDA模型的改進(jìn)。
提出的新模型與傳統(tǒng)LDA的不同之處在于,模型中word層根據(jù)KeyGraph算法標(biāo)記出了key詞與非key詞,設(shè)key詞與非key詞都是由相同的狄利克雷分布產(chǎn)生,但對(duì)應(yīng)產(chǎn)生的概率分布區(qū)別表示,從而有助于提高主題學(xué)習(xí)的正確性。KG-PMI-LDA模型的概率圖模型如圖2所示。
圖2 改進(jìn)后的LDA模型有向概率圖
假設(shè)每個(gè)主題k由一些特征詞構(gòu)成,w(k)=(w1,w2,…,ws),其中每個(gè)詞wi(i∈[1,s])的權(quán)重值由專業(yè)詞字典獲得。如果該詞為關(guān)鍵詞,權(quán)重值為字典中關(guān)鍵詞的權(quán)重值;否則,權(quán)重值為零。由此,可得權(quán)重向量:
各主題的詞概率分布的狄利克雷先驗(yàn)概率分布β修改為:β(k)=L(k)×β=(βl1(k),…,βls(k))T。
KG-PMI-LDA模型是一個(gè)生成式概率圖模型,其文本語(yǔ)料庫(kù)生成過(guò)程如下:
(1)對(duì)整個(gè)專利文獻(xiàn)集根據(jù)概率生成文獻(xiàn)主題分布:θm~Dir(α);
(2)對(duì)于每個(gè)主題z,根據(jù)概率生成主題特定的詞分布:φk|key~Dir(β),其中若為key詞,多項(xiàng)式分布向量表示為φkey,若為非key詞,多項(xiàng)式分布向量表示為φk;
(3)根據(jù)文獻(xiàn)中專利詞對(duì)照表得到文獻(xiàn)d的詞數(shù)目Nd,Nd服從泊松分布;
(4)對(duì)于文獻(xiàn)d中每一個(gè)詞wn的生成過(guò)程,即如4.1、4.2,迭代T次:
(4.1)對(duì)詞wn根據(jù)Multinomial(θm)確定主題z,若為非key詞,從θm的多項(xiàng)式分布Multinomial(θm)隨機(jī)選擇一個(gè)主題z,若為key詞,在θm的多項(xiàng)式分布Multinomial(θm)中,根據(jù)專利數(shù)據(jù)字典對(duì)key詞進(jìn)行權(quán)重處理后再隨機(jī)選擇一個(gè)主題z;
(4.2)從主題z的多項(xiàng)式條件概率分布Multinomial(φ)中選擇一個(gè)詞w。
上述過(guò)程迭代完成后,含有Nd個(gè)詞的文獻(xiàn)就相應(yīng)產(chǎn)生了。
2.3.2 模型的學(xué)習(xí)過(guò)程
假設(shè)模型中文檔d的第i個(gè)位置的詞的主題概率分布的Gibbs Sampling公式為:
其中,zi=k,k表示主題數(shù),Gibbs Sampling過(guò)程是一個(gè)從文檔到主題,再到詞的過(guò)程,其含義就是從文檔到詞,經(jīng)過(guò)主題zi(zi∈[1,k])的k條路徑中進(jìn)行采樣。
至此,基于專業(yè)詞字典得到該詞的權(quán)重weight(w)后,將其與LDA中主題的概率θm和詞的主題概率φz相結(jié)合,給不同的特征詞在不同主題下分配不同的權(quán)重,改變模型生成特征詞的概率,更新式1和式2:
(14)
再結(jié)合式13和式14提出一個(gè)新的吉布斯采樣公式進(jìn)行參數(shù)推導(dǎo),如下:
p(zi=k|z,weight(w))∞
(15)
這里,根據(jù)式13~15,將模型的學(xué)習(xí)過(guò)程描述如下:
輸入:專利文獻(xiàn)集、主題個(gè)數(shù)K、超參數(shù)
輸出:各詞所屬主題編號(hào)z
(1)隨機(jī)初始化:對(duì)專利文獻(xiàn)語(yǔ)料庫(kù)中的每個(gè)詞隨機(jī)地賦予一個(gè)主題編號(hào)z;
(2)重新掃描專利文獻(xiàn)語(yǔ)料庫(kù),對(duì)每個(gè)詞w:若w為key詞,則按照式15重新采樣它的topic,在語(yǔ)料中進(jìn)行更新;若w為非key詞,則按照式12重新采樣它的topic,在語(yǔ)料中進(jìn)行更新;
(3)重復(fù)語(yǔ)料庫(kù)的重新采樣過(guò)程直到Gibbs Sampling收斂,最后統(tǒng)計(jì)語(yǔ)料庫(kù)的topic-word頻率矩陣,該矩陣就是改進(jìn)后的LDA模型;
(4)根據(jù)式13和式14估計(jì)模型中的參數(shù)。
文中采用中國(guó)知網(wǎng)(www.cnki.net)上真實(shí)專利文獻(xiàn)作為實(shí)驗(yàn)材料。從某大學(xué)圖書(shū)館的中國(guó)知網(wǎng)的電子專利數(shù)據(jù)庫(kù)中,選取信息科技類(lèi)的9個(gè)專業(yè)類(lèi)別,分別為無(wú)線電子學(xué)、電信技術(shù)、計(jì)算機(jī)硬件技術(shù)、計(jì)算機(jī)軟件、互聯(lián)網(wǎng)技術(shù)、自動(dòng)化技術(shù)、廣播電視、機(jī)器學(xué)習(xí)、信息管理,采集的內(nèi)容為專利摘要和主權(quán)項(xiàng)。從9個(gè)專業(yè)中共采集7 023篇專利作為數(shù)據(jù)集。采用三折交叉實(shí)驗(yàn)法,平均從9個(gè)專業(yè)類(lèi)別中取4 682篇作為訓(xùn)練數(shù)據(jù),2 341篇作為測(cè)試數(shù)據(jù)。
實(shí)驗(yàn)所用PC機(jī)為T(mén)hinkpad A6-3400M,主頻為1.4 GHz。采用Python2.7基于提出的KeyGraph算法實(shí)現(xiàn)關(guān)鍵詞提取,具體的評(píng)估函數(shù)計(jì)算key詞對(duì)文獻(xiàn)的貢獻(xiàn)度建立數(shù)據(jù)字典,通過(guò)Python實(shí)現(xiàn)改進(jìn)后的專利文獻(xiàn)主題模型,利用WEKA工具對(duì)分類(lèi)的效果進(jìn)行評(píng)價(jià)。
將提出的基于KeyGraph算法的關(guān)鍵詞抽取方法抽取的關(guān)鍵詞、專利文獻(xiàn)中的高頻詞和基于TF-IDF方法進(jìn)行特征選擇進(jìn)行對(duì)比。實(shí)驗(yàn)采用的7 023篇專利中,KG-PMI-LDA模型選取出關(guān)鍵詞共80 545個(gè),利用互信息函數(shù)計(jì)算出的關(guān)鍵詞權(quán)重值中,有12 993個(gè)為負(fù)值,去除這部分關(guān)鍵詞,共計(jì)得到67 552個(gè)關(guān)鍵詞。其中,以鄭水欽等發(fā)表的文獻(xiàn)《一種測(cè)量高強(qiáng)度太赫茲時(shí)域光譜的裝置和方法》為例,對(duì)專利的摘要和主權(quán)項(xiàng)內(nèi)容做預(yù)處理后,根據(jù)詞頻、TF-IDF特征選擇和文中方法選取出的關(guān)鍵詞作對(duì)比,結(jié)果如表1所示。
表1 關(guān)鍵詞比較
從表1可以看出,僅僅根據(jù)詞頻得到的高頻詞如“述”、“所”、“用于”、“合”,與專利主題測(cè)量高強(qiáng)度太赫茲時(shí)域光譜關(guān)聯(lián)度很低,根據(jù)TF-IDF方法得到的關(guān)鍵詞中也有“述”、“太”、“參考”、“器”、“法”等對(duì)專利主題區(qū)分度不高的詞,而KG-PMI-LDA方法提取的關(guān)鍵詞,其中的“探測(cè)”、“合束”、“相位”、“赫茲”、“波形”、“信號(hào)”等更能代表該篇專利,可以作為代表該篇專利文獻(xiàn)的專業(yè)詞。
為驗(yàn)證KG-PMI-LDA模型在專利文獻(xiàn)分類(lèi)的有效性,將KG-PMI-LDA模型與傳統(tǒng)LDA模型、文獻(xiàn)[3]提出的LDA-k-optics模型和文獻(xiàn)[5]提出的LDA-σ模型進(jìn)行對(duì)比實(shí)驗(yàn)。分類(lèi)效果評(píng)估指標(biāo)使用文本分類(lèi)中常用的準(zhǔn)確率P(Precision)、F1值(F-measure)和召回率R(Recall)。KG-PMI-LDA模型采用Gibbs Sampling推理方法進(jìn)行參數(shù)估計(jì),模型中的參數(shù)設(shè)定為:K=9,α=0.01,β=0.01。實(shí)驗(yàn)選取迭代次數(shù)70至110次。KG-PMI-LDA模型、LDA模型、LDA-k-optics模型以及LDA-σ模型在相同迭代次數(shù)下,準(zhǔn)確率、F1值、召回率的對(duì)比如圖3所示。
(a)準(zhǔn)確率 (b)F1(c)召回率
圖3 實(shí)驗(yàn)結(jié)果比較
可以看出,針對(duì)專利文獻(xiàn)此類(lèi)專業(yè)性的文獻(xiàn)語(yǔ)料庫(kù),KG-PMI-LDA模型在準(zhǔn)確率、F1值與召回率三個(gè)指標(biāo)上都要好于其他三個(gè)模型。在分類(lèi)準(zhǔn)確率方面,KG-PMI-LDA模型較LDA模型、LDA-k-optics模型和LDA-σ模型平均提高了4.62%、3.74%和3.26%。在F1值方面,KG-PMI-LDA模型較LDA模型、LDA-k-optics模型和LDA-σ模型平均提高了4.48%、3.02%和2.18%。在召回率方面,KG-PMI-LDA模型較LDA模型、LDA-k-optic模型和LDA-σ模型平均提高了4.09%、2.38%和2.18%。這說(shuō)明KG-PMI-LDA模型通過(guò)KeyGraph算法選取出的關(guān)鍵詞多數(shù)并不是高頻的特征詞,但卻對(duì)專利文獻(xiàn)特征有更強(qiáng)的描述能力,其對(duì)分類(lèi)貢獻(xiàn)度較高,在Gibbs Sampling中對(duì)關(guān)鍵詞的加權(quán)和歸一化,避免了專業(yè)詞被高頻詞所淹沒(méi),使得該模型較傳統(tǒng)LDA模型、LDA-k-optics模型和LDA-σ模型有更高的分類(lèi)準(zhǔn)確性。同時(shí),從實(shí)驗(yàn)結(jié)果還可以看出,在達(dá)到相同分類(lèi)準(zhǔn)確率的前提下,KG-PMI-LDA模型較其他模型的迭代次數(shù)更少,即KG-PMI-LDA模型的迭代效率更高,可以更快地達(dá)到穩(wěn)定狀態(tài)并得到分類(lèi)的結(jié)果。以圖3(a)為例,KG-PMI-LDA模型與傳統(tǒng)LDA對(duì)比,準(zhǔn)確率達(dá)到69.4時(shí),傳統(tǒng)LDA需要進(jìn)行97次迭代過(guò)程,而KG-PMI-LDA模型只需迭代85次,較傳統(tǒng)LDA模型少12次;以圖3(b)為例,當(dāng)F1值達(dá)到68.5時(shí),傳統(tǒng)LDA需要進(jìn)行90次迭代,而KG-PMI-LDA模型只需迭代82次,迭代的次數(shù)少了8次。
KG-PMI-LDA模型通過(guò)關(guān)鍵詞權(quán)重的計(jì)算,提高了專利文獻(xiàn)特征詞的選取效果。選取迭代次數(shù)為90時(shí),比較傳統(tǒng)LDA模型和KG-PMI-LDA模型的準(zhǔn)確率、召回率、F1值,如表2所示。
表2 迭代90次的準(zhǔn)確率、召回率、F1值對(duì)比
從觀察分類(lèi)后的主題詞可見(jiàn),傳統(tǒng)LDA模型下的電信技術(shù)類(lèi)主題詞有“輸出、發(fā)送、通信、生成、本發(fā)明、獲取、相關(guān)、成、時(shí)間”等,其中“本發(fā)明、相關(guān)事件、目標(biāo)、成、時(shí)間”這些詞與主題類(lèi)關(guān)聯(lián)度并不大,說(shuō)明傳統(tǒng)LDA模型分類(lèi)中噪聲較大。KG-PMI-LDA模型下的電信技術(shù)類(lèi)主題詞有“赫茲、電極、溝、傅里葉、平方根、前綴、FFT、復(fù)數(shù)、尺寸、波導(dǎo)”等,上述所得到的詞更適合代表電信技術(shù)類(lèi)別的主題詞。這也體現(xiàn)了KeyGraph算法在特征詞選擇過(guò)程中,充分利用了專業(yè)詞與高頻詞的共現(xiàn)關(guān)系,通過(guò)對(duì)詞權(quán)重的調(diào)整,使得對(duì)主題類(lèi)貢獻(xiàn)度大的詞具有相對(duì)大的權(quán)重值。這樣,這些關(guān)鍵詞在主題模型迭代過(guò)程中能夠更快地涌現(xiàn)出來(lái),成為主題類(lèi)中的主題詞。詞權(quán)重的調(diào)整一定程度上增加了特征詞對(duì)主題的表述能力,從而提高文本的分類(lèi)準(zhǔn)確率。
根據(jù)專利文獻(xiàn)中專業(yè)詞匯更能表達(dá)文獻(xiàn)主題的特點(diǎn),通過(guò)KeyGraph算法和LDA主題模型的結(jié)合,提出一種適用于專利文獻(xiàn)主題分類(lèi)的改進(jìn)LDA模型。該模型通過(guò)提取出專利文獻(xiàn)中對(duì)主題貢獻(xiàn)度高的詞,作為“關(guān)鍵詞”,再利用點(diǎn)互信息函數(shù)計(jì)算出關(guān)鍵詞與對(duì)應(yīng)文獻(xiàn)的Key值,將其作為關(guān)鍵詞的權(quán)重值來(lái)影響采樣中的詞分布概率。將關(guān)鍵詞加權(quán)擴(kuò)展至LDA模型,定義有監(jiān)督LDA模型的概率圖模型,并改進(jìn)Gibbs Sampling公式。通過(guò)與傳統(tǒng)LDA模型和其他改進(jìn)LDA模型在真實(shí)專利語(yǔ)料庫(kù)上的對(duì)比實(shí)驗(yàn),驗(yàn)證了該方法在專利分類(lèi)中的有效性和準(zhǔn)確性。下一步將針對(duì)詞加權(quán)計(jì)算中的歸一化問(wèn)題進(jìn)行研究,實(shí)現(xiàn)模型迭代過(guò)程中的并行化,以提高模型的效率。