屈軍
(臺山磐石電視大學,廣東臺山529200)
基于增量的貝葉斯算法在網(wǎng)頁文本中的應用
屈軍
(臺山磐石電視大學,廣東臺山529200)
如今文本自動分類技術發(fā)展已較為成熟,中文網(wǎng)頁的分類也是自動分類技術的應用之一.分類精度依賴于分類算法,貝葉斯算法在網(wǎng)頁分類中有很廣泛的使用,但它需要大量且已標記的訓練集,而獲得大量帶有類別標注的樣本代價很高.本文以中文網(wǎng)頁信息增量式的學習作為研究對象,利用網(wǎng)頁已驗信息處理訓練集增量問題,提出一種改進的增量式的貝葉斯分類算法,研究利用未標記的中文網(wǎng)頁來提高分類器的性能,并進行相關實驗對比和評價.
增量學習;貝葉斯;TFID;文本自動分類;網(wǎng)頁
能否從海量的網(wǎng)頁中迅速、準確的搜索用戶感興趣的信息是對網(wǎng)頁分類技術的挑戰(zhàn).如今,網(wǎng)頁分類相關技術的研究正逐漸成為繼文本分類之后機器學習領域的研究熱點.雖然文本分類技術已經(jīng)在中文網(wǎng)頁分類中使用,但網(wǎng)頁分類中的問題相對文本分類更加難以處理,因為網(wǎng)頁格式多樣化,除純文本以外,還有其它一些內容對分類有影響.貝葉斯分類器對網(wǎng)頁的分類通過對訓練集的樣本進行學習,訓練集的樣本數(shù)量要求盡可能大的,并且要對樣本進行標記,樣本的標記是需要通過人工來完成,工作量大而且容易出錯.因此,本文研究訓練集的中文網(wǎng)頁樣本在沒有標記的情況下,通過分類器的進行增量學習,從而提高分類器的分類效果,并結合TFIDF算法設計了一個的增量式貝葉斯分類系統(tǒng),并進行相關實驗對比和評價.
2.1 貝葉斯條件概率公式
隨著計算機技術的日益成熟,使用機器來模擬人類學習活動學科-機器學習,成為研究的熱點之一.機器學習是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學問.貝葉斯理論在機器學習研究領域就以其獨特的性能成為注目的焦點,比如具有概率表達能力的豐富性、知識表達形式不確定性、綜合先驗知識的增量學習特性等,所以貝葉斯理論占有相當重要的地位在機器學習研究領域中.假設概率計算的方法是貝葉斯理論的核心內容,數(shù)據(jù)本身和不同數(shù)據(jù)的概率是在基于假設的先驗概率和給定假設下的前提下完成的.貝葉斯理論提供的理論架構是其他算法研究和應用的依據(jù),對于概率的直接操作和定量多個假設的置信度的算法提供了基礎.在貝葉斯理論中,學習和推理都是以概率的規(guī)則來實現(xiàn),使用概率地表示所有形式的不確定性.貝葉斯學習的結果表示為隨機變量的概率分布,它可以解釋為我們對不同可能性的信任程度.貝葉斯公式表示為如下形式其中,h代表假設,而D代表看到的數(shù)據(jù)集.P(h|D)為給定集D時假設h成立的概率(后驗概率),P(h),P(D)為先驗知識,而P(D|h)為在給定假設下觀察到數(shù)據(jù)集D的概率,此為先驗概率,可用統(tǒng)計的方法得到.
2.2 分類算法TFIDF介紹
TFIDF是常用的文本分類中算法,它采用的是空間向量模型,特征詞需要通過分詞系統(tǒng)取得,每個特征詞作為一個特征項,特征項的參數(shù)是tk,文檔用向量表示為…,xin),wik是賦予特征項tk(1≤k≤n,n表示文檔中特征項的總數(shù))的數(shù)值,wik的值反映特征項tk對文本的重要程度,稱為特征項的權重,即:wik=tfik*idfkidfk=log(N/dfk+1),詞頻tfik指某個特征項tk在文檔di中出現(xiàn)的次數(shù),文檔頻率dfk指整個文檔集合中,包含特征項tk的文檔個數(shù),idfk是特征項tk反比文檔頻率,N代表訓練集文本的數(shù)量.TFIDF算法通過對同屬一類的所有文本中的向量進行疊加,得到每一個類Cj(Cj∈C,C是一個集合,代表分類文檔的類別)的特征向量.利用TFIDF分類器測試文本所屬的類別時,通過計算該篇文本的向量和每個類特征向量的相似度距離,相似度距離最大的類向量所屬的第j類就是被測試文本的類別.計算公式如下:
TFIDF算法作為一種有監(jiān)督學習的分類算法,訓練集的規(guī)模和樣本的選擇對算法有明顯的影響,對于己標記的文檔的訓練集,增加訓練集的規(guī)模,TFIDF算法的分類精度明顯提高.
2.3 改進的貝葉斯分類增量算法
改進的增量式訓練分類算法的提出前題是:(1)保證現(xiàn)在分類處理的精度;(2)訓練集的規(guī)模盡可能要??;(3)已被標記的訓練集.該算法的特點是通過利用兩種不同的分類算法,增量式地訓練未標記文檔.這兩種算法采用文本分類中較為典型的樸素貝葉斯(簡稱NB)和TFIDF算法,由基于概率模型的樸素貝葉斯負責計算文檔后驗概率,由基于向量空間模型TFIDF方法負責計算文檔向量和類向量的相似度.由于TFIDF算法不需要樸素貝葉斯算法所需要的貝葉斯前提假設,因此利用TFIDF分類器聯(lián)合樸素貝葉斯分類器進行增量訓練,能更好地降低樸素貝葉斯假設條件帶來的影響.
增量貝葉斯分類算法步驟如下:
假設L為已分類數(shù)據(jù)集;U為未分類數(shù)據(jù)集;L0為改變后的已分類的數(shù)據(jù)集;U0為改變后的未分類的數(shù)據(jù)集.
step1:令L0=L;U0=U;
step2:if(U0),則:
①用L0對NB和TFIDF分類器進行訓練;
②用NB分類器判斷U0中每個文檔的類別,做標記;③用TFIDF分類器判斷U0中每個文檔的類別,做標記;④取每個相同類別中的文檔的交集(即利用NB和TFIDF分類器進行投票);⑤若交集為空,goto step3⑥在每一個交集中,根據(jù)文檔的相似度,對文檔進行排列,作為評分標準,從中選取m個評分高的文檔,加入L0中;⑦令加入L0中的文檔數(shù)為T,L0=L0+T;U0=U0-T;goto step2;step3:以L0為訓練集進行訓練并對測試集進行測試,評價.算法中的m值從實驗經(jīng)驗得出.從以上算法可以看出,結合TFIDF算法的NB分類器(以下簡稱T_N分類器),充分利用了未標記數(shù)據(jù)來補充訓練集,即訓練算法采用的是增量訓練,利用兩種分類算法建立內嵌的分類器協(xié)同合作地訓練未分類文檔,逐次用內嵌分類器判別未知文檔的類別并增量地加入到已標記訓練集中,達到增加訓練集的目的.
3.1 語料庫選擇
(1)采用中科院成熟語料庫,該語料庫是經(jīng)過人工分類好的平衡語料庫,包括十個類別:環(huán)境、計算機、交通、教育、經(jīng)濟、軍事、體育、醫(yī)藥、藝術、政治.(2)從人民網(wǎng)抓取中文網(wǎng)頁3265個,根據(jù)其從屬類別進行人工分類,分為八個類別:教育、游戲、飲食、體育、娛樂、科技、旅游、軍事.
3.2 實驗
實驗①:NB分類器和T_N分類器分類準確率的比較.經(jīng)過分類測試,得到如下實驗結果,見圖1.
圖1 分類性能對比圖
從實驗結果中得出T_N在分類性能上比NB有一定的提高,在初始訓練集較小的情況下,也可以得到不錯的分類準確率,隨著訓練集文本數(shù)的提高,分類性能雖有提高,但起伏不大,這表明增量集對分類性能起到較大的作用;而NB分類性能整體比T_N分類器差,而且對訓練集大小比較敏感,隨著訓練集文本數(shù)的遞增,性能曲線起伏較大,在訓練集文本數(shù)少的情況下,分類性能明顯降低.這說明,未標記的數(shù)據(jù)集在分類中對分類性能起到較大的作用.實驗①:觀察算法迭中增量集對分類性能的提高所作的貢獻.在T_N分類器中,每經(jīng)過兩次迭代,就對測試集進行測試評價.經(jīng)過分類測試,得到如下實驗結果,見圖2.
圖2 分類器迭代過程中的準確率
從準確率的分布情況,我們可以看到,T_N分類器在經(jīng)過每次迭代后所增加的訓練樣本都起到一定的作用,這進一步說明我們所設計的分類系統(tǒng)在每一次的增量學習中都能夠提高分類器的性能.
總的來說,針對海量的中文網(wǎng)頁自動分類問題,貝葉斯分類算法充分利用了先驗信息的特性,是增量學習中的最佳選擇模型,結合TFIDF算法的貝葉斯分類器實驗證明確實能發(fā)揮其優(yōu)點,可以解決獲得大量已標記文本的問題,實驗結果表明增量式訓練算法具有較高的分類準確度.
〔1〕蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展.軟件學報,2006,17(9).
〔2〕余芳.一個基于樸素貝葉斯方法的WEB文本分類系統(tǒng):WebCAT.計算機工程與應用,2004(13).
〔3〕劉青,何政.結合EM算法的樸素貝葉斯方法在中文網(wǎng)頁分類上的應用.計算機工程與科學,2005,27(7).
TP391.1
A
1673-260X(2013)07-0023-02