摘 要:文本分類在文本預(yù)處理中占據(jù)著重要的地位,針對文本分類過程中輸入數(shù)據(jù)維數(shù)高,導(dǎo)致特征提取,分類器選擇困難等問題,提出一種基于稀疏自動(dòng)編碼器與集成學(xué)習(xí)的文本分類算法。該算法首先通過稀疏自動(dòng)編碼器進(jìn)行輸入數(shù)據(jù)的特征表示,然后利用極限學(xué)習(xí)機(jī)作為基分類器進(jìn)行文本分類,最后通過Adaboost集成學(xué)習(xí)方法將基分類器組合成為分類效果更好的集成分類器。實(shí)驗(yàn)結(jié)果表明,該方法可以有效提高文本分類的準(zhǔn)確度。
關(guān)鍵詞:極限學(xué)習(xí)機(jī);稀疏自動(dòng)編碼器;集成學(xué)習(xí);文本分類
1 概述
隨著現(xiàn)代社會的發(fā)展,互聯(lián)網(wǎng)成為了人們獲取文本信息的重要手段。然而網(wǎng)上的信息雜亂無章,使得人們很難快速而準(zhǔn)確的獲得所需要的文本信息。因此如何有效的對文本進(jìn)行分類,幫助用戶找到所需的信息成為當(dāng)代信息技術(shù)領(lǐng)域的一個(gè)重要課題[1]。
本文提出利用深度學(xué)習(xí)中的稀疏自動(dòng)編碼器自動(dòng)選取文本的特征,然后利用極限學(xué)習(xí)機(jī)作為基分類器進(jìn)行文本的分類,最后結(jié)合Adaboost集成學(xué)習(xí)方法將極限學(xué)習(xí)機(jī)作為基分類器組合成一個(gè)效果更好的分類器。實(shí)驗(yàn)結(jié)果表明,該算法在文本分類方面,可以有效地提高文本分類的準(zhǔn)確性。
2 相關(guān)理論基礎(chǔ)
2.1 稀疏自動(dòng)編碼器
稀疏自動(dòng)編碼器(sparse auto encoder,SAE)是利用人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)構(gòu)造而成的網(wǎng)絡(luò)。稀疏自動(dòng)編碼器的訓(xùn)練過程分為兩個(gè)步:第一步是預(yù)訓(xùn)練,即先利用無監(jiān)督的方法將SAE的輸入層和隱含層全部初始化,然后再利用逐層貪心訓(xùn)練算法確定網(wǎng)絡(luò)的參數(shù)。第二步是微調(diào),其思想是整個(gè)網(wǎng)絡(luò)視為一個(gè)整體,用有監(jiān)督學(xué)習(xí)的方法優(yōu)化整個(gè)網(wǎng)絡(luò)的參數(shù),由于SAE訓(xùn)練過程的復(fù)雜性,具體過程可參考文獻(xiàn)[2]。
2.2 極限學(xué)習(xí)機(jī)
針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程時(shí)間漫長,優(yōu)化困難等缺點(diǎn),新加坡南洋理工大學(xué)的黃廣斌教授提出了一種全新的單隱層前饋神經(jīng)網(wǎng)絡(luò)-極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[3],該網(wǎng)絡(luò)能夠以極快的學(xué)習(xí)速度達(dá)到較好的泛化性能,從而解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度緩慢的限制。該網(wǎng)絡(luò)主要由輸入層,隱藏層和輸出層組成,其中隱藏層的神經(jīng)元通過激活函數(shù)把輸入的數(shù)據(jù)進(jìn)行變換,然后把變換后的數(shù)據(jù)輸出到輸出層,在網(wǎng)絡(luò)中輸入層和隱藏層的權(quán)值是隨機(jī)設(shè)置的,只有隱藏層到輸出層的權(quán)值需要求解,因此加快了網(wǎng)絡(luò)的學(xué)習(xí)速度。
2.3 Adaboost分類器
由于單個(gè)分類器通常無法滿足分類任務(wù)的要求,因此需要通過集成學(xué)習(xí)來構(gòu)建并結(jié)合多個(gè)分類器來完成分類任務(wù),這其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。該算法的核心思想是先從初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的變現(xiàn)對訓(xùn)練樣本分布進(jìn)行調(diào)整,使得先前基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)收到更多關(guān)注,然后基于調(diào)整后的樣本分布來訓(xùn)練下一個(gè)基學(xué)習(xí)器;如此重復(fù)進(jìn)行,直到基學(xué)習(xí)器數(shù)目達(dá)到指定的值,最終將這幾個(gè)基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合。Adaboost是一種迭代算法,具體訓(xùn)練過程可參考南京大學(xué)周志華教授編寫的機(jī)器學(xué)習(xí)課本中關(guān)于Adaboost算法的章節(jié)。
3 SEA文本分類算法
在本文中,結(jié)合稀疏編碼器,極限學(xué)習(xí)機(jī)與Adaboost這三種機(jī)器學(xué)習(xí)方法提出SEA文本分類算法,該算法的工作流程如圖1所示。
該分類算法的第一步為輸入,輸入的是經(jīng)過了向量化表示的文本,但沒有經(jīng)過任何的手工特征提取。第二步是利用SAE算法對數(shù)據(jù)的重建能力自動(dòng)選擇文本的特征,用SAE算法選擇的文本特征可以有效地復(fù)原原始文本信息。第三步是利用ELM分類器作為該算法的基分類器,ELM作為第四步中的基分類器參與訓(xùn)練,最后一步是輸出該文本屬于哪一類。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集與評價(jià)指標(biāo)
本文選用的分類文本數(shù)據(jù)來源于新聞數(shù)據(jù)集[5],該數(shù)據(jù)集復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系李榮陸提供,數(shù)據(jù)集標(biāo)注比較規(guī)范,規(guī)模適中,適合于進(jìn)行文本分類的仿真實(shí)驗(yàn)。
在文本分類中常用的評價(jià)指標(biāo)有準(zhǔn)確率P(Precision)和召回率R(Recall),公式如下:
P=M/(M+N),R=M/(M+T)
其中,M為正確分類到該類的文本數(shù),N為錯(cuò)分到該類中的文本數(shù),T為屬于該類確誤分為別類的文本數(shù)。
4.2 實(shí)驗(yàn)結(jié)果
為驗(yàn)證本文提出的SEA文本分類模型,需要將文本數(shù)據(jù)集進(jìn)行預(yù)處理,對于SEA模型來說,就是進(jìn)行文本分詞。本實(shí)驗(yàn)文本分詞采用的是NLPIR漢語分詞系統(tǒng),其主要功能包括中文分詞,詞性標(biāo)注,命名實(shí)體識別,用戶字典功能等,是國內(nèi)比較成熟,用戶較多的中文文本分詞系統(tǒng)。經(jīng)過文本預(yù)處理后,按照本文提出的SEA文本分類模型進(jìn)行實(shí)驗(yàn),并和幾種經(jīng)典的分類算法做對比。在本實(shí)驗(yàn)中Adaboost集成學(xué)習(xí)算法中基分類器的個(gè)數(shù)設(shè)置為10個(gè),基分類器ELM中隱藏層的個(gè)數(shù)設(shè)置為輸入層的0.75倍,稀疏自動(dòng)編碼器中隱藏層數(shù)設(shè)置為4,實(shí)驗(yàn)結(jié)果如表1和表2所示。
從表1和表2可以看出隨著文本數(shù)量的增加,SEA模型的分類準(zhǔn)確率和召回率逐漸提高,這是由于在訓(xùn)練數(shù)據(jù)集較小時(shí),稀疏編碼器對自動(dòng)提取的文本特征變現(xiàn)地不是很理想,容易造成SEA分類模型產(chǎn)生過擬合現(xiàn)象,從而影響分類準(zhǔn)確率和召回率。SVM算法在訓(xùn)練數(shù)據(jù)集比較小時(shí),變現(xiàn)良好,這是由于在訓(xùn)練數(shù)據(jù)較少時(shí),可以較容易地找到分類超平面,在數(shù)據(jù)量變大時(shí),由于計(jì)算量的增大,使得計(jì)算量變大,導(dǎo)致計(jì)算得到的超平面效果不好,使得分類準(zhǔn)確率和召回率不斷下降。BP和ELM算法都隨著訓(xùn)練數(shù)據(jù)的增大,其分類準(zhǔn)確率和召回率在不斷變大,這是由于隨著訓(xùn)練數(shù)據(jù)的增大,BP和ELM可以更有效的提取輸入數(shù)據(jù)的特征,但ELM算法相比BP算法變現(xiàn)得更好,這是由于BP算法可能無法收斂到最優(yōu)值,導(dǎo)致分類算法的準(zhǔn)確率下降。
綜上所述,本文提出的SEA文本分類模型可以有效的提高文本分類的準(zhǔn)確率和召回率,尤其是隨著訓(xùn)練數(shù)據(jù)集的不斷增大。
5 結(jié)束語
文本分類在文本處理中占據(jù)著重要的地位,其分類的好壞直接影響著后續(xù)的文本處理,如何有效地對文本分類是一個(gè)重要的研究課題。本文結(jié)合稀疏自動(dòng)編碼器,極限學(xué)習(xí)機(jī)與Adaboost集成學(xué)習(xí)方法提出SEA文本分類方法,實(shí)驗(yàn)結(jié)果表明該分類方法可以有效將文本分類過程中的特征提取和分類器結(jié)合在一起,從而提高了分類結(jié)果的準(zhǔn)確性。
參考文獻(xiàn)
[1]秦勝君,盧志平.稀疏自動(dòng)編碼器在文本分類中的應(yīng)用研究[J].科學(xué)技術(shù)與工程,2013,13(31):9422-9426.
[2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.
[3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.
[4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.
[5]http://www.nlpir.org/?action-viewnews-itemid-103.
作者簡介:楊洪余,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘與文本處理。