吐爾地·托合提, 艾克白爾·帕塔爾, 艾斯卡爾·艾木都拉
(新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)
文本分類中,先需要以某種粒度對文本進行切分,因為切分層次越高其分析代價也越高,因此常用以詞的級別切分文本,并用詞特征來形成文本模型。對于中文,因為詞之間沒有明顯的切分標記,因此需要特殊的分詞處理,這也是中文自然語言處理中的一個難點。與中文不同,英文詞間是以空格隔開,不需要特殊的分詞方法就可以將文本切分成單詞集合。維吾爾文與英文類似,也是一種拼音文字,詞與詞之間也是以空格隔開,因此,同樣以詞間自然分隔符進行詞切分,是到目前為止唯一的分詞方法。
針對以上情況,在中文統(tǒng)計分詞方法的先導作用下[4-6],我們提出了一種新的維吾爾文無監(jiān)督及無詞典語義分詞方法dme-TS,并把它用到維吾爾文文本分類中。dme-TS無需為它提供分詞詞典和人工分詞的指導信息,所需要的全部統(tǒng)計信息完全來自大規(guī)模生語料庫,無需人工介入。dme-TS的分詞依據(jù)是,將相鄰單詞之間的t-測試差(difference of t-test),互信息(mutual information)及鄰接對熵(entropy of adjacency)的線性融合作為一個組合統(tǒng)計量(dme)來度量相鄰單詞之間的關聯(lián)緊密程度,并將dme小于給定閾值的詞間位置確定為切分位置,從而提取語義具體獨立的單詞和多詞(二詞,三詞或四詞)結構的語義詞。
研究者們已有共識,以短語特征表征文本可以得到更好的分類效果,因為與單個的詞特征相比,短語特征包含更豐富的信息。文獻[7]的實驗結果表明,以n元法提取短語特征,n的取值不超過4時,分類效果最好。我們提取的特征也是長不超過4個單詞的語義詞,信息表達能力不如短語,但其語義表達能力比傳統(tǒng)分詞方法提取的抽象單詞特征更具體和獨立,而且其分析代價比短語提取方法更小。
dme-TS是我們最近的一項研究工作(一種無監(jiān)督及無詞典支持的維吾爾文語義分詞方法),本文的研究重點是這種分詞方法在維吾爾文分類中的應用及驗證其有效性。因此,我們分別用傳統(tǒng)方法和dme-TS來切分訓練文本和測試文本,再用被認為最好的有監(jiān)督特征選擇方法IG來選取最優(yōu)特征,觀察了最流行的三種分類算法NB,SVM和KNN在兩種特征集下的分類效果,并得到了我們期望的結果。
我們知道,對于一個獨立使用的語言單元,其內(nèi)部詞與詞(字與字)之間的結合程度應該是非常緊密的,而它與外部上下文的關聯(lián)應該是非常松散的,這種“緊密”或“松散”性可以用某種統(tǒng)計量來度量,而這個統(tǒng)計量也能夠非常容易地從大規(guī)模真實語料中獲取。
dme-TS中,從大規(guī)模生語料庫中自動獲取維吾爾文單詞Bigram及上下文語境信息,充分考慮維吾爾文單詞間結合規(guī)律的前提下,將相鄰單詞間的t-測試差、互信息及雙詞上下文鄰接對熵的線性融合作為組合統(tǒng)計量dme來度量相鄰單詞之間的結合程度,并在dme小于給定閾值的詞間位置插入一個切分標記“|”。這樣,完全不考慮詞間空格,切分出文本中語義具體的單詞特征和語義獨立完整的語義詞特征。
根據(jù)互信息原理,在以空格隔開的維吾爾文有序詞串A B中,單詞A,B之間的互信息定義如式(1)所示。
其中,P(A,B)為詞串A B在語料庫中出現(xiàn)的概率,P(A)為單詞A出現(xiàn)的概率,P(B)為單詞B出現(xiàn)的概率。 如果mi(A,B)≥0,則A B間是強關聯(lián)的;如果mi(A,B)≈0,則A B間是弱關聯(lián)的;如果mi(A,B)<0,則A B間是互斥的。隨著mi(A,B)的增加,緊密程度也增加,當mi(A,B)大于給定的一個閾值Tmi時,可以認為A B是不可分割的。
從式(1)看出,互信息反應了相鄰單詞A B之間的靜態(tài)結合能力,而不考慮它們的上下文,因此僅依靠互信息這個絕對度量,有時也會出現(xiàn)判斷錯誤。
Church等首次引入t-測試,以度量一個英文單詞A與其它任意兩個單詞x和y的結合緊密程度[8]。根據(jù)定義,維吾爾文單詞串xAy的t-測試值計算如式(2)所示。
其中p(y|A)和p(A|x)分別是單詞串A y和x A的Bi-gram概率,σ2(P(y|A))和σ2(P(A|x))分別是二者的方差。由式(2)可以看出,如tx,y(A)>0,則A與后繼y結合的強度大于與前趨x結合的強度,此時A應與x分開,而與y要連。如tx,y(A)<0, 則A與前趨x結合的強度大于與后繼y結合的強度, 此時A應與y分開,而要與x連。如tx,y(A)=0,則A與其前趨和后繼的結合強度相等,無法判斷A跟哪個要連或分開。
t-測試是基于字的統(tǒng)計量,而不是基于字間位置,因此為了能夠在中文分詞中直接用來計算相鄰字間連斷概率,清華大學孫茂松教授等人提出了t-測試差的概念[4]。
根據(jù)定義,對于維吾爾文單詞串x A B y,相鄰單詞A,B之間的t-測試差值計算如式(3)所示。
當dts(A,B)>Tdts(Tdts為閾值)時,A B的單詞間位置更傾向于連,反之傾向于斷。與互信息不同,t-測試差反映的是相鄰單詞之間的動態(tài)結合能力,因為它綜合考慮一個單詞的上下文結合趨向,因此總的切分正確率比互信息好。
信息熵是判斷一個語言單元對于上下文語言環(huán)境的獨立性及完整性的有效度量。如文獻[9]提出的新詞識別方法中,計算一個詞串的左鄰接熵和右鄰接熵,當左右鄰接熵大于一個閾值是,認為該詞串是一個獨立語言單元,并將該詞串提取為一個新詞,否則將它舍去。我們將以上思路引入到本文研究中,但我們發(fā)現(xiàn)以左右鄰接熵判斷詞間位置,就無法整體獲取三詞語義詞。例如,判斷三詞關聯(lián)模式A B C中的A和 B間的位置時,詞對A B的左鄰接可能是變化多樣的,但右鄰接是確定不變的,也就是C。根據(jù)信息熵的定義,A B的右鄰接熵是0(最小值),因此將A B間的位置被錯誤地判斷為斷(B和C間位置也是被錯判為斷)。針對以上情況,如果我們將問題改成計算鄰接對熵及基于鄰接對熵的詞間位置連、斷判斷問題,那就適合文本的研究需求。
定義對維吾爾文有序單詞串x A B y(x和y是任何一個維吾爾文單詞),A B在文本中每次出現(xiàn)的左鄰接元素x和右鄰接元素y構成一個鄰接對
由計算公式得知,鄰接對熵的最小理論值為0(當c=1時),而最大理論值為log(m)(當c=m時)。如果ea(A,B)取值越大,表明詞串A B的語言環(huán)境變化多樣,是不依賴于上下文的語言單元。如果ea(A,B)取值越小,則表明A B的獨立性不強,很可能是一種偶然性組合。因此,當ea(A,B)>Tea(Tea為閾值)時,A B的單詞間位置更傾向于判斷為連,反之判斷為斷。
不管是互信息、t-測試差還是鄰接對熵,都是將詞在語言環(huán)境中某一方面的信息特征作為計算依據(jù),因此必然存在著一定的局限性。中文分詞中已有成功的案例表明,可將基本統(tǒng)計量加以組合從而各取所長[4-5]。除此之外,我們分別用互信息、t -測試差和鄰接對熵進行切分實驗,也發(fā)現(xiàn)將它們結合互補的較大的可行性。因此,我們將以上三個基本統(tǒng)計量進行線性疊加,融合成一個新的統(tǒng)計量dme,并完全根據(jù)dme來判斷詞間位置,從而得到了更準確的切分結果。
因為以上基本統(tǒng)計量取值范圍相差較大,因此我們用與文獻[4]相同的方法,先對各統(tǒng)計量進行歸一化處理,然后進行線性疊加。三者疊加的dme計算如式(5)所示。
其中λ和γ的值經(jīng)實驗測定, 發(fā)現(xiàn)λ=0.35,γ=0.30時的切分準確率最高。
分詞時,計算待處理文本中各相鄰單詞(詞干)之間的dme值,如dme(A,B)>Tdme(Tdme=0),則保留他們之間的關聯(lián)性,否則以分隔符(本文用“|”)將它們隔開(圖1)。
圖1 以dme-TS切分的一個例子
可以看出,如用傳統(tǒng)的切分方法來切分,就把圖1中的維吾爾文句子切分成語義不完整的8個詞特征,但dme-TS的輸出是5個特征,而且都是語義具體而獨立的語言單元。本算法開放測試中的切分準確率達到了88.21%。
本文用新疆大學智能信息處理重點實驗室提供的維吾爾文分類文本集進行分類實驗和分析,共含6類(01經(jīng)濟,02體育,03政治,04教育,05法制,06健康)3 000篇文本(每類500篇)。
為了對本文提出方法進行有效的評估,我們設計了兩個實驗。
實驗1 用傳統(tǒng)方法對整個文本集進行分詞并用停用詞表去除停用詞,再用性能最好的有監(jiān)督特征選擇方法IG來評估特征詞的重要度。然后從經(jīng)過排序的特征序列中遞增地選取N個(N的增量為100)特征組成一個特征子集,并將其作為最流行的三種分類器NB,SVM和K-NN的輸入,觀察分類準確率。
實驗2 用dme-TS對整個文本集進行分詞,然后用實驗1同樣的方法進行分類實驗,觀察用語義詞特征表征文本時的分類準確率。
分別用傳統(tǒng)分詞方法和我們的dme-TS對文本集進行切分,得到了兩種原始特征集,如表1所示。
表1 兩種切分方法對應的原始特征集
可以看出,用dme-TS分詞的特征維數(shù)是傳統(tǒng)分詞獲取的特征維數(shù)的62.3%(特征空間降維率為37.6%),其中32%左右的特征是二詞、三詞和四詞語義詞,它們比單詞更能表達具體而獨立的語義。因此,從這樣的原始特征集中選取少量的最優(yōu)特征來表征文本,這對分類算法性能的提高會有很大的幫助。
為了驗證語義詞特征提取在維吾爾文文本分類中的有效性,我們用開發(fā)工具Visual C# 2010,分別實現(xiàn)了三種最流行的分類器NB,KNN和SVM,并在以上兩種特征集上進行分類實驗。在評價分類器的性能時,我們將5次5-fold交叉驗證運行結果的分類準確性的平均值作為最終的分類準確性。經(jīng)過試驗確定KNN的K值為11。在兩種特征集下不同N值的三種分類器分類效果如圖2~4所示。
圖2 兩種特征集的NB分類效果
圖3 兩種特征集的KNN分類效果
圖4 兩種特征集的SVM分類效果
很容易看出,每一個學習算法對于兩種特征集的分類效果有明顯區(qū)別。表2給出了三種算法對于兩種特征集的最佳特征子集的特征個數(shù)和對應的最高分類準確率。
從表2中可以看出,相對于單詞特征,用更少的語義詞特征表征文本時,得到了更準確的分類結果。
表2 最佳特征子集及分類性能
這是因為,用IG打分并放在特征序列前面的特征都是具有代表性和富含信息的重要特征,我們又發(fā)現(xiàn)其中大部分是多詞語義詞。這就充分說明了語義詞特征提取在維吾爾文文本分類中是有效的。
文本分類中,特征提取的粒度和特征詞條的語義獨立性會決定被形成文本模型的質(zhì)量,這也是影響分類器性能的主要因素。針對維吾爾文傳統(tǒng)分詞及基于詞特征的文本模型對維吾爾文文本分類的影響,本文提出一種語義詞特征提取方法,并用三種流行的分類算法進行分類實驗。實驗結果表明,用語義詞作為特征表征文本時,不僅縮小原始特征空間的維度,還可以用少量特征來形成易于理解的,緊湊而泛化能力更強的文本模型,因此明顯提高了分類準確率。
[1] 阿力木江·艾沙,吐爾根·依布拉音,艾山·吾買爾, 馬爾哈巴·艾力.基于機器學習的維吾爾文文本分類研究[J].計算機工程與應用,2011,36 (7):110-112.
[2] 徐峻嶺,周毓明,陳林,徐寶文. 基于互信息的無監(jiān)督特征選擇[J].計算機研究與發(fā)展,2012,49(2):372-382.
[3] 孟春艷.用于文本分類和文本聚類的特征抽取方法的研究[J].微計算機信息,2009,25(3):149-150.
[4] 孫茂松, 肖明, 鄒嘉彥. 基于無指導學習策略的無詞表條件下的漢語自動分詞[J].計算機學報, 2004, 27(6) : 736-742.
[5] 王思力,王斌.基于雙字耦合度的中文分詞交叉歧義處理方法[J].中文信息學報, 2007,21(5):14-17.
[6] 費洪曉,康松林,朱小娟,謝文彪.基于詞頻統(tǒng)計的中文分詞的研究[J].計算機工程與應用,2005,30(7):67-69.
[7] Furnkranz J.A Study Using N-gram Features for Text Categorization[R].Technical Report:TR-98-30,http://www.ai.univie.ac.at/cgi-bin/tr-online?number+98-30,1998.
[8] Church K W, Gale W, Hanks P, Hindle D. Using statistics in lexical analysis[C]//Proceedings of the Zernik U. ed.. Lexical Acquisition: Exploiting On-line Resources to Build a Lexicon. Hillsdale NJ :Law rence Erlbaum Associates,1991: 115-164.
[9] 賀敏,龔才春,張華平,程學旗.一種基于大規(guī)模語料的新詞識別方法[J]. 計算機工程與應用,2007,43(21): 157-159.