陳 宇,許莉薇
(東北林業(yè)大學(xué) 信息與計算機工程學(xué)院,黑龍江 哈爾濱 150040)
基于優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)的不均衡林業(yè)信息文本分類算法
陳 宇,許莉薇
(東北林業(yè)大學(xué) 信息與計算機工程學(xué)院,黑龍江 哈爾濱 150040)
為解決不均衡林業(yè)信息文本分類中少數(shù)類分類正確率低問題,提出了一種基于優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)的不均衡林業(yè)信息文本分類算法。在闡述優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)算法原理的基礎(chǔ)上,提取不均衡林業(yè)信息文本特征矩陣訓(xùn)練分類器的各項參數(shù),實現(xiàn)對不均衡林業(yè)信息文本的精準與快速分類。實驗結(jié)果表明該算法對少數(shù)類辨識準確率高,優(yōu)于神經(jīng)網(wǎng)絡(luò)分類法以及SVM算法、模糊神經(jīng)網(wǎng)絡(luò)算法,為不均衡林業(yè)信息文本的分類提供了新思路。
不均衡文本分類算法;不均衡林業(yè)信息文本分類;優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò);分類器
林業(yè)信息文本分類是文本分類的分支,是對林業(yè)類樣本進行分類。文本分類的過程,需要結(jié)合算法構(gòu)造分類模型,對模型進行訓(xùn)練學(xué)習(xí),用于分類。文本分類可以歸納為以下步驟:預(yù)處理,提取文本特征向量,構(gòu)造文本特征矩陣,形成分類器,分類結(jié)果測評。
文本分類技術(shù)在國外的研究起步較早,并且發(fā)展迅速,現(xiàn)階段已經(jīng)比較完善。我國文本分類技術(shù)的研究起步晚,早期主要是對國外先進技術(shù)進行引用,并且在初始算法上進行優(yōu)化,隨著我國對文本分類技術(shù)研究的逐步深入,現(xiàn)階段的主要研究目標轉(zhuǎn)向為如何提高不均衡樣本分類的正確率。常用在文本分類算法的算法主要包括BP神經(jīng)網(wǎng)絡(luò)[1]、決策樹[2-3]等。
由于林業(yè)信息文本分類的研究非常少,所有提高林業(yè)信息文本分類的準確率,成為一個研究的熱點,互聯(lián)網(wǎng)提供的信息越來越多,對人們有用的只是一部分,信息的選擇成為一個重要的研究內(nèi)容,文本分類技術(shù)產(chǎn)生了。不均衡數(shù)據(jù)的分類對于醫(yī)療診斷、網(wǎng)絡(luò)非法網(wǎng)頁監(jiān)測、詐騙監(jiān)測、企業(yè)破產(chǎn)監(jiān)測等方面有重要的研究意義,上述應(yīng)用可以看出,提高少數(shù)類分類的正確率有重要意義。通過兩種方式解決問題[4]:其一,樣本層面處理:分為過抽樣和欠抽樣;其二,算法層面的處理:選用適于不均衡樣本分類的算法,常用算法有SVM的改進算法,KNN算法等。
文中提出了一種基于優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)的不均衡林業(yè)信息文本分類的算法:先使用ICTCLAS系統(tǒng)對文本進行預(yù)處理;然后使用TFIDF公式計算林業(yè)信息文本分詞的特征值,構(gòu)造特征矩陣;由于矩陣維數(shù)較大,之后對特征矩陣降維;最后,構(gòu)造優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)分類器,對分類器訓(xùn)練,利用分類器進行林業(yè)信息文本的識別。通過大量實驗論證該算法已達到預(yù)期目的,少數(shù)類分類正確率高。由于不均衡文本的特殊性,不能僅僅通過全局精度或者誤差率來評價分類器的好壞,因此引入幾何平均正確率公式來綜合衡量分類器性能,該算法分類正確率明顯高于神經(jīng)網(wǎng)絡(luò)、支持向量機、模糊神經(jīng)網(wǎng)絡(luò)算法,為不均衡林業(yè)信息文本分類開拓了新思路。
由于網(wǎng)絡(luò)上沒有成型的林業(yè)信息文本庫,因此,手動建立林業(yè)信息文本庫,在網(wǎng)絡(luò)上搜索大量的資料進行匯總和整合,總結(jié)出5類文本:花、樹木、蟲、土壤、水類文本,同樣本文研究的算法也適用于別的類型的林業(yè)信息文本,本研究選取的實驗樣本如圖1、圖2所示(下圖為經(jīng)過分詞和去停用詞之后的林業(yè)信息文本文件):
不同類別的樣本含有一些典型的特征詞,通過這些特征詞對林業(yè)信息樣本進行區(qū)分。通過上圖也能看出每類林業(yè)信息的典型文本特征,比如花類文本中,典型特征詞有花、花蕊、花柄、花萼、花被等專業(yè)性術(shù)語,專業(yè)性的文章對于花的描述都會包含這些基本的詞語;對于樹木類文本,含有的關(guān)鍵特征詞包括樹、樹干、樹枝、樹枝等。蟲類、土壤類、水類文本含有的典型特征詞也同理。
特征詞的提取是通過ICTCLAS系統(tǒng),利用其開源代碼將其界面可視化,對初始文本進行去停用詞、去噪聲,得到的詞就是實驗所需的林業(yè)信息文本特征詞,然后使用下文介紹的TF-IDF公式計算特征詞的權(quán)值,構(gòu)成林業(yè)信息文本特征矩陣,矩陣維數(shù)過多需降維,對降維之后的特征矩陣使用本文研究的算法進行實驗。
圖1 花類樣本Fig.1 Samples of fl owers
圖2 樹木類樣本Fig.2 Samples of trees
設(shè)不均衡林業(yè)信息文本總共有n個特征,構(gòu)成n維向量空間,不均衡林業(yè)信息樣本d被表示成n維的特征向量:
在(1)式中,Ti為n個分詞中的一個,Wi(d)代表Ti在不均衡林業(yè)信息文本d中的權(quán)值,不均衡林業(yè)信息文本分詞的權(quán)值計算公式利用TF-IDF表示為[5]:
式(2)中,Wi(d)代表Ti的權(quán)值,TF(ti)是Ti在d中出現(xiàn)的次數(shù),N表示樣本總數(shù),ni是出現(xiàn)Ti的不均衡林業(yè)信息樣本的個數(shù),L的取值情況由實驗確定,一般取值為0.01。
由于不均衡林業(yè)信息文本特征矩陣的維數(shù)較大,因此對分類算法執(zhí)行效率會有較大影響,為了提高分類器運行的效率,對提取到的不均衡林業(yè)信息文本的特征矩陣進行降維處理,處理過程使用主成分分析算法[6],算法原理描述如下:
有n個樣本,每個不均衡林業(yè)信息樣本有p項指標:X1,X2…,Xp,得到初始特征矩陣為:
在(3)式中:
綜合指標向量X是p個向量X1,X2…,Xp作線性組合:
即為:
系數(shù)a1i=(a1i,a2i,…,api)的約束條件:
特征矩陣的協(xié)方差矩陣是S=(sij)p×p:
(7)式中:
得到S的特征值λ1≥λ2≥…≥λn>0與對應(yīng)單位向量:
X的第i個主成分為Fi=a′iX,i=1,2,…,p
主成分的獲得依據(jù)貢獻率αi和累積貢獻率G(r):
在本研究實驗過程,使用累積貢獻率達到99%的主成分,則n個不均衡林業(yè)信息文本在所選r個主成分的得分:
不均衡林業(yè)信息文本分類常用的方法有BP神經(jīng)網(wǎng)絡(luò)、支持向量機和模糊神經(jīng)網(wǎng)絡(luò)等,少數(shù)類分類正確率較低。基于優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)分類算法實驗效果佳,對少數(shù)類分類的正確率有較大提高。
模糊神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)和模糊系統(tǒng)的統(tǒng)一,將學(xué)習(xí)、聯(lián)想、識別、自適應(yīng)及模糊信息處理聯(lián)系在一起[7]。模糊神經(jīng)網(wǎng)絡(luò)是全部或部分采用模糊神經(jīng)元所構(gòu)成的神經(jīng)網(wǎng)絡(luò)系統(tǒng)[8-10],邏輯結(jié)構(gòu)表示如圖3:
圖3 模糊神經(jīng)網(wǎng)絡(luò)邏輯結(jié)構(gòu)Fig.3 Logical structure of fuzzy neural network
在圖4中,一層的神經(jīng)元和輸入變量相連,二層和三層對使用度計算,四層為清晰化運算層[11-12]。
圖4 模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Fuzzy neural network structure
設(shè)Aij是輸入論域U上的模糊集,表達式如下:
式(13)中,xj代表輸入變量Aij∈[0,1]
i=1,2,…,R,j=1,2,…,m,m個輸入變量。R條模糊規(guī)則aij和cij代表輸入隸屬函數(shù)中心和寬度。
規(guī)則前件隸屬函數(shù)[13-15]:
模糊設(shè)計網(wǎng)絡(luò)的輸出:
式(15)中,Bi為規(guī)則后件。
優(yōu)化L-M模糊神經(jīng)網(wǎng)絡(luò)算法對模糊神經(jīng)網(wǎng)絡(luò)算法的改進如下:
優(yōu)化模糊基函數(shù),規(guī)則后件:
式(16)中,bi和di分別表示輸出隸屬函數(shù)的中心和寬度。
定義平均輸出隸屬度函數(shù)為:
定義平均輸出隸屬度模糊基函數(shù)為:
采用單值中心反模糊化法得到網(wǎng)絡(luò)的輸出:
對訓(xùn)練參數(shù)使用Levenberg-Marquardt算法和一階梯度下降算法進行調(diào)整,上述模型假設(shè)四層之間的連接權(quán)為1,所以,調(diào)整參數(shù)aij,bi,aij,di
使用一階梯度下降法調(diào)整參數(shù)aij,cij,dij,本研究里論述參數(shù)aij計算過程,一階梯度下降法得:
根 據(jù) 式(17)、(18)、(19)、(21),代入式(22),得到aij調(diào)整值為:
其中,E為誤差函數(shù),yout和y分別表示網(wǎng)絡(luò)的實際輸出和期望輸出,η學(xué)習(xí)速率,cij和di計算過程一樣。
bi的調(diào)整,使用Levenberg-Marquardt算法調(diào)整,如下:
設(shè)第k次訓(xùn)練,網(wǎng)絡(luò)實際輸出值勤為:
令B(k)=[b1(k),b2(k), …,bi(k),bR(k)]T,F(xiàn)=[f1f2,…,fi,…,fR],(23)式可以表示成:
假設(shè)在k+1次,網(wǎng)絡(luò)輸出收斂到期望值y,表達式如下:
式(26)中,B(k+1)=[b1(k+1)…bi(k+1)…bR(k+1)]T。
兩式相減得到:
對(26)公式使用最小二乘法得到:
式(28)中,為使得(FTF)的逆存在,在(FTF)矩陣中加入對角陣μI,μ是正數(shù),I為單位矩陣。
優(yōu)化的B(k+1)計算公式為:
其中,η1為學(xué)習(xí)速率。
優(yōu)化L-M模糊神經(jīng)網(wǎng)絡(luò)算法評估
為了綜合分析分類器的性能,引入以下參數(shù)計算公式。
少數(shù)類樣本的正確率,TP表示少數(shù)類劃分至少數(shù)類的個數(shù),F(xiàn)N指分類過程少數(shù)類劃分至多數(shù)類的個數(shù):
多數(shù)類樣本正確率,TN指多數(shù)類劃分至多數(shù)類的個數(shù),F(xiàn)P指分類過程多數(shù)類劃分至少數(shù)類個數(shù):
少數(shù)類查準率:
幾何平均正確率G-mean:
少數(shù)類的F-measure:
搜集林業(yè)信息資料,建立不均衡林業(yè)信息文本庫。不均衡林業(yè)信息樣本實驗的選取為5個類別:花、樹木、蟲、土壤、水,技術(shù)角度的不均衡數(shù)據(jù)指的是在不同類之間展現(xiàn)出不等分布的樣本集,因此選取花類、蟲類、土壤類3類樣本為多數(shù)類,各選1 000個樣本;樹木類、水類兩類為少數(shù)類樣本選200訓(xùn)練,即訓(xùn)練樣本總共3 400組。測試樣本每類選100個,即測試樣本總共500組。
獲得的訓(xùn)練樣本特征矩陣維數(shù)為3 400×1 281維,測試樣本矩陣維數(shù)為500×1 281,訓(xùn)練樣本與測試樣本特征矩陣降維后分別形成新的特征矩陣維數(shù)為3 400×238維、500×238維。使用神經(jīng)網(wǎng)絡(luò)、支持向量機、模糊神經(jīng)網(wǎng)絡(luò)和優(yōu)化L-M模糊神經(jīng)網(wǎng)絡(luò)4種方法分類。訓(xùn)練與測試樣本相同為前提條件,分類結(jié)果如下圖所示(橫坐標代表樣本數(shù)目,縱坐標表示正確率下降值)。
圖5顯示,4種方法進行分類時,隨著測試樣本的增多,正確率變化的趨勢,前3種方法正確率下降最快的是SVM,只有OLM-FNN算法正確率沒有變化趨勢。
圖5 4種分類算法對不均衡林業(yè)信息文本分類正確率下降Fig.5 Accuracy decline for four algorithms of uneven forestry information text classif i cation
表1是所有樣本正確率的比較:
表1 不均衡林業(yè)信息文本分類算法結(jié)果比較Table 1 Comparison results of classification algorithm of uneven forestry information text classification
為了評價不同分類器對不均衡數(shù)據(jù)分類的綜合性能,將數(shù)據(jù)分為兩大類,多數(shù)類樣本(花、蟲、土壤)和少數(shù)類樣本(樹、水),計算分類器的幾何平均正確率和少數(shù)類的F-measure,綜合比較4種分類器分類效果,先獲取測試樣本集的混合矩陣見表2:
表2 4種分類算法的測試樣本集的混合矩陣Table 2 Test sample set's mixing matrix of four classification algorithms
下圖6所示,隨著樣本的增加,多數(shù)類和少數(shù)類正確率的變化趨勢圖,OLM-FNN的少數(shù)類隨著樣本的增加正確率沒有變化并且始終保持在100%,BP、SVM、FNN隨著樣本增加,Sensitivity減少即少數(shù)類分類的正確率呈現(xiàn)遞減趨勢見圖7,4種分類器對多數(shù)類的分類效果均比較好。
圖6 多數(shù)類少數(shù)類正確率變化Fig.6 Accuracy changes of minority and majority classes
圖7 四種分類算法F-measure變化趨勢Fig.7 F-meaure change trends of four kinds of classif i cation algorithm
F-measure曲線與少數(shù)類的查全率和查準率正相關(guān),只有當兩個指標都具有較大值時,F(xiàn)-measure曲線上的點才能對應(yīng)較高的值。
表3中,G指標與多數(shù)類和少數(shù)類分類正確情況均有關(guān),G值是隨著Sensitivity和Specif i city的值的增加在[0,1]區(qū)間內(nèi)單增,F(xiàn)-measure也是一種常用的不均衡樣本分類問題的評價指標,該指標綜合考慮了少數(shù)類樣本的查全率和查準率,因此任何一個值都會影響到該指標的大小,只有在查全率和查準率均衡的情況下才能最大化,該指標能綜合體現(xiàn)出分類器對多數(shù)類和少數(shù)類的分類效果,但更側(cè)重體現(xiàn)少數(shù)類的分類效果。綜上所述,基于優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)的分類算法分類性能較好,多數(shù)類少數(shù)類分類正確率均衡,模糊神經(jīng)網(wǎng)絡(luò)次之,支持向量機和BP神經(jīng)網(wǎng)絡(luò)對少數(shù)類分類性能差,因此綜合衡量指標F-measure較小。
實驗結(jié)果表明,基于OLM-FNN的不均衡林業(yè)信息文本分類算法能夠?qū)崿F(xiàn)對五類不均衡林業(yè)信息文本精準與快速的分類,尤其對少數(shù)類樹木類和水類文本分類正確率明顯高于BP、SVM和FNN算法。
表3 4種分類算法綜合效果Table 3 Integrated effects of four classification algorithms
本研究提出的基于OLM-FNN的不均衡林業(yè)信息文本分類算法,根據(jù)提取的特征矩陣訓(xùn)練分類器,得到OLM-FNN分類器各項參數(shù)進行不均衡林業(yè)信息文本測試。實驗表明,基于優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)算法適用于不均衡林業(yè)信息文本的分類,少數(shù)類分類正確率明顯高于BP、SVM和FNN算法,為不均衡林業(yè)信息文本分類提供了新算法。
[1] 李永亮,林 輝,孫 華,等. 基于BP神經(jīng)網(wǎng)絡(luò)的森林樹種分類研究[J].中南林業(yè)科技大學(xué)學(xué)報, 2010,30(11):43-46.
[2] 陳 利,林 輝,孫 華,等. 基于決策樹分類的森林信息提取研究[J].中南林業(yè)科技大學(xué)學(xué)報,2013,33(1):46-51.
[3] 孫 華,林 輝,莫登奎,等. 面向?qū)ο蟮臎Q策樹分類技術(shù)[J].中南林業(yè)科技大學(xué)學(xué)報, 2007,27(4):39-43.
[4] 謝娜娜,房 斌,吳 磊.不均衡數(shù)據(jù)集上文本分類方法研究[J].計算機工程與應(yīng)用,2012,6(1):1-4.
[5] 段江麗.基于SVM的文本分類系統(tǒng)中特征選擇與權(quán)重計算算法的研究[D].太原:太原理工大學(xué),2011.
[6] 臧 卓,林 輝,楊敏華. ICA與PCA在高光譜數(shù)據(jù)降維分類中的對比研究[J].中南林業(yè)科技大學(xué)學(xué)報, 2011,31(11):18-22.
[7] 張 凱,錢 鋒,劉漫丹.模糊神經(jīng)網(wǎng)絡(luò)技術(shù)綜述[J].信息與控制,2003,32(5):431-435.
[8] Takagi H.Fusion technology of fuzzy theory and neural networkssurvey and future direction [A].Pro.Int.Conf.on Fuzzy Logic and Neural Networks[C].1990:13-26.
[9] 邱興興. 基于模糊邏輯和神經(jīng)網(wǎng)絡(luò)的文本分類方法[D].南昌:南昌大學(xué),2007.
[10] 鞠初旭. 模糊神經(jīng)網(wǎng)絡(luò)的研究及應(yīng)用[D].電子科技大學(xué),2009:30-32.
[11] 劉瑞蘭,蘇宏業(yè),褚 健. 基于改進模糊神經(jīng)網(wǎng)絡(luò)的軟測量建模方法[J]. 信息與控制, 2003,32(4):367-370.
[12] Jang S R. Adaptive-networks-based fuzzy inference system [A].IEEE Trans.On Syetem[C].Man and Cybernetics, 1993, 23(3):665-685.
[13] Rubanov,N.S.The layer-wise method and the back propagation hybrid approach to learning a feed forward neural network[A].IEEE Trans.Nerual Networks[C].2000.1(2):295-305.
[14] Zhang Y.Q.,KandelA. Compensatory neuron fuzzy systems with fast learning algorithms [A].IEEE Trans.on Neural Networks[C].1998,9(1):83-105.
[15] 賀 勇,諸克軍,郭湘海,等.一種模糊神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)確定方法[J].計算機應(yīng)用研究,2007,24(3):247-249.
Uneven forestry information text classif i cation algorithm based on optimization LM fuzzy neural network
CHEN Yu, XU Li-wei
(School of Information and Computer Sciences, Northeast Forestry University, Harbin 150040, Heilongjiang, China)
In order to deal with the problem of low categorization accuracy of minority class of the uneven forestry information text classification algorithm, the uneven forestry information text classification algorithm was puts forward based on optimization LM fuzzy neural network (OLM-FNN). On the basis of expounding the principle of optimization LM fuzzy neural network (FNN), the parameters feature matrix training classif i er of uneven forestry information text to of LM fuzzy neural network were extracted, thus realizing accurate and fast classif i cation to uneven forestry information text. The experimental results show that the algorithm had higher classif i cation accuracy of minority class than that of neural network and support vector machine (SVM) and fuzzy neural network. The algorithm provides new ideas for studying on uneven forestry information text classif i cation algorithm.
im-balanced text classif i cation algorithm; uneven forestry information text classif i cation; optimization LM fuzzy neural network; classif i er
S757.3
A
1673-923X(2015)04-0027-06
10.14067/j.cnki.1673-923x.2015.04.005
2013-11-14
國家948項目(2011-4-04);中央高?;究蒲袠I(yè)務(wù)費專項資金項目(DL12CB02);黑龍江省教育廳科學(xué)技術(shù)研究項目(12513016);黑龍江省博士后基金;黑龍江省自然科學(xué)基金項目(F201347);哈爾濱市科技創(chuàng)新人才專項資金項目(2013RFQXJ100)
陳 宇,副教授,博士后,碩士生導(dǎo)師;E-mail:xuliwei475273608@163.com
陳 宇,許莉薇.基于優(yōu)化LM模糊神經(jīng)網(wǎng)絡(luò)的不均衡林業(yè)信息文本分類算法[J].中南林業(yè)科技大學(xué)學(xué)報,2015,35(4):27-32,59.
[本文編校:文鳳鳴]