周云成, 許童羽, 鄧寒冰
(沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,遼寧沈陽 100866
我國在農(nóng)業(yè)信息化發(fā)展過程中建設(shè)了大量的農(nóng)業(yè)信息網(wǎng)站,這些網(wǎng)站能夠為用戶提供農(nóng)業(yè)資訊、技術(shù)等多種類型的信息服務(wù)。但是,由于“最后一公里”和“信息不對稱”等問題[1],嚴(yán)重影響了這些實際服務(wù)的效果。隨著移動互聯(lián)網(wǎng)的發(fā)展,通過從網(wǎng)站自動抓取農(nóng)業(yè)信息,再個性化地推送到移動用戶端可能成為未來農(nóng)業(yè)信息服務(wù)的主要模式之一。其中,對農(nóng)業(yè)文本信息進(jìn)行良好的分類組織是重要的環(huán)節(jié)。
樸素貝葉斯(naive Bayes,簡稱NB)是一種常用于分類決策的機(jī)器學(xué)習(xí)方法。NB算法簡單且性能優(yōu)異[2],是文本分類的主要方法之一。袁方等通過人工方式,從標(biāo)題、摘要及關(guān)鍵詞中提取出類別核心詞,采用NB方法對中文文本進(jìn)行分類,并融合類別核心詞的重要程度,提高了分類效果[3]。萬狄飛等結(jié)合NB和遺傳算法,對2類文本進(jìn)行分類,以期提高不可靠區(qū)間的分類效果[4]。金展等采用樸素貝葉斯方法,結(jié)合支持向量機(jī)實現(xiàn)垃圾短信的過濾[5]。周國強(qiáng)等采用基于類別選擇的方法選取特征詞,研究了NB分類器分類朝鮮語文本的可行性[6]。王晶晶等使用NB方法,在用戶名和微博文本的基礎(chǔ)上對用戶性別進(jìn)行判斷,取得了較高的識別率[7]。王青松等用短語而非詞條作為貝葉斯分類的特征項,用于中文垃圾郵件的過濾,結(jié)果表明,以短語為特征項的過濾效果優(yōu)于以詞條為單位的過濾效果[8]?;ヂ?lián)網(wǎng)數(shù)據(jù)正呈幾何級數(shù)增長,針對大數(shù)據(jù)文本的訓(xùn)練和分類,張琳等探討了在Hadoop云計算環(huán)境下基于樸素貝葉斯算法的文本分類器并行化的方法[9-10]。
文本分類的高維特征會影響分類器的訓(xùn)練和識別性能,通過特征降維可解決該問題,特征篩選是常用的降維方法[2]。特征篩選借助于評價函數(shù)對候選特征進(jìn)行排序,然后選擇若干個評分高的項組成特征向量。互信息[11]、χ2(Chi-square,簡稱CHI)統(tǒng)計量、信息增益[12]、文檔頻率等都可以作為評價函數(shù)使用。χ2統(tǒng)計方法時間復(fù)雜度低、易于理解,常用于作為特征選取的評價函數(shù)[13~15]。
目前,針對農(nóng)業(yè)文本進(jìn)行分類的研究相對較少,標(biāo)準(zhǔn)的農(nóng)業(yè)語料庫相對缺乏。本研究從經(jīng)過良好分類的農(nóng)業(yè)信息網(wǎng)站獲取文檔,通過凈化、分詞等預(yù)處理構(gòu)建農(nóng)業(yè)語料庫,提出1種結(jié)合樸素貝葉斯和CHI值特征詞選取的農(nóng)業(yè)文本分類方法,重點(diǎn)研究特征詞數(shù)量、訓(xùn)練樣本數(shù)等對分類識別率的影響,并探討用標(biāo)題進(jìn)行網(wǎng)頁文本分類的可行性。
對于樣本空間D中的任意文本Di,它屬于類型集合C中的某個類型Cj的概率為P(Cj|Di),則將文本Di劃分為某種類型的問題可轉(zhuǎn)變?yōu)閷ふ易畲蟾怕蕟栴}max[P(Cj|Di)]。尋找max[P(Cj|Di)]的關(guān)鍵是針對每種類型分別計算出P(Cj|Di)。根據(jù)貝葉斯準(zhǔn)則,P(Cj|Di)可通過下式進(jìn)行計算:
(1)
式中:P(Di|Cj)表示類型Cj中出現(xiàn)文本Di的先驗概率;P(Cj)表示類型Cj的先驗概率;P(Di)表示文本Di的先驗概率。
對于給定樣本空間,P(Di)為常數(shù),因此可以通過尋找max[P(Di|Cj)P(Cj)]來代替尋找最大后驗概率P(Cj|Di)。只要分別計算出先驗概率P(Di|Cj)和P(Cj),問題即可得到求解。在樣本空間D中,每個文本Di的類型為已知。設(shè)樣本數(shù)量為N、類型為Cj的文本數(shù)量為rj,則有P(Cj)=rj/N。
文本的分類可由文本中出現(xiàn)的關(guān)鍵詞條決定,稱為特征詞。設(shè)由w1,w2,…,wn構(gòu)成樣本空間D的特征詞表,則農(nóng)業(yè)文本Di可用1個n維特征詞向量Di=[w1,w2,…,wn]表示,此時P(Di|Cj)的計算可表示為P(w1,w2,…,wn|Cj)。假設(shè)所有特征詞都互相獨(dú)立,則有:
(2)
式中:P(wk|Cj)表示特征詞wk在類型Cj中出現(xiàn)的先驗概率,也表示特征詞wk通過類型Cj產(chǎn)生的概率。
P(wk|Cj)的計算可通過P(wk|Cj)=q/a完成,其中:q表示樣本空間D包含的Cj類型的文本中特征詞wk出現(xiàn)的次數(shù);a表示Cj類型的文本中所有特征詞出現(xiàn)的總次數(shù)。針對每種類型Cj和特征詞wk都可計算出P(wk|Cj)。
當(dāng)特征詞項和樣本數(shù)量很大時,P(wk|Cj)通常為很小的浮點(diǎn)數(shù),則在計算P(w1|Cj)P(w2|Cj)…P(wn|Cj)乘積時可能由于舍入誤差得到數(shù)字0。對于函數(shù)f(x),與其自然對數(shù)ln[f(x)]有相似的變化規(guī)律。因此,可通過如下公式避免該問題:
(3)
式(3)可轉(zhuǎn)換為式(4):
(4)
式中:ln[P(Di)]為常數(shù)項。
只要訓(xùn)練樣本和特征詞選擇合理,通過基于樸素貝葉斯的學(xué)習(xí)方法可從訓(xùn)練樣本中學(xué)習(xí)到足夠的知識,用于對未知類型的文本進(jìn)行分類,P(Cj)和P(wk|Cj)即這種知識的表示形式。
對于任何未知類型的文本dx,首先將其表示為n維向量dx=[wck],k=1,2,…,n。其中:wck表示特征詞wk在文檔dx中出現(xiàn)的次數(shù),然后根據(jù)機(jī)器學(xué)習(xí)所獲知識P(Cj)和P(wk|Cj)來計算P(Cj|dx),計算方法可表示為下式:
(5)
由于ln[P(dx)]為常數(shù)項,對計算結(jié)果的比較不產(chǎn)生作用,因此從式(5)中移除了該項的計算。分別對每種類型的Cj計算ln[P(Cj|dx)],其中計算結(jié)果最大的max[ln(P(Cj|dx)]對應(yīng)的類型即為文本dx可能的分類。
農(nóng)業(yè)文本樣本D中包含大量詞條(稱為候選詞條),但部分詞條對分類貢獻(xiàn)很小,因此需要從大量候選詞條中選擇特征詞,構(gòu)成分類所用的特征詞表。通過選擇特征詞,可大大降低特征詞向量的維數(shù),提高計算速度[13]。本研究采用基于CHI值統(tǒng)計量的特征詞提取方法。
(6)
式中:f1表示訓(xùn)練樣本中包含特征詞wk且屬于類型Cj的文本數(shù);f2表示包含wk但不屬于Cj的文本數(shù);f3表示屬于Cj但不包含wk的文本數(shù);f4表示既不是Cj類型又不包含wk的文本數(shù);f=f1+f2+f3+f4,表示訓(xùn)練樣本的文本數(shù)。
可以針對每種文本類型Cj計算各個候選詞條的CHI,然后按照CHI值的大小排序,并選擇CHI值大的若干詞條作為類型Cj的特征詞集。再合并每種文本類型的特征詞集構(gòu)成并集,并將該并集作為農(nóng)業(yè)文本分類的特征詞表。
大部分農(nóng)業(yè)信息網(wǎng)站都按照板塊對網(wǎng)頁進(jìn)行了較好的手工分類。本研究的訓(xùn)練樣本采集自互聯(lián)網(wǎng)上的農(nóng)業(yè)信息網(wǎng)站,選取農(nóng)業(yè)信息網(wǎng)站中常見的4種網(wǎng)頁類型作為分類的目標(biāo)類型,分別是農(nóng)業(yè)資訊、農(nóng)業(yè)技術(shù)、農(nóng)產(chǎn)品市場行情和農(nóng)產(chǎn)品供求信息。利用開源組織Apache的爬蟲工具Nutch對農(nóng)業(yè)信息網(wǎng)站的不同類型網(wǎng)頁進(jìn)行定向抓取。Nutch在網(wǎng)頁抓取過程中能夠?qū)⒕W(wǎng)頁中的HTML標(biāo)記及相關(guān)成分脫去,留下純文本的文檔數(shù)據(jù)。為方便對被抓取文檔的進(jìn)一步處理,通過Nutch的solrindex命令將所抓取的不同類型文檔在Apache的開源搜索引擎Solr的不同核(core)中重建全文索引。每個網(wǎng)頁在Solr中對應(yīng)1個結(jié)構(gòu)化文檔(document),該文檔的結(jié)構(gòu)通常可用如式(7)所示的多元組進(jìn)行描述:
document=(domain,host,url,id,title,content,…)。
(7)
式中:domain、host、url分別表示網(wǎng)頁的域名、主機(jī)名、統(tǒng)一資源定位符(URL);id為文檔在Solr中的標(biāo)志,通常與url相同;title為網(wǎng)頁的標(biāo)題;content為脫去HTML相關(guān)標(biāo)記的純文本數(shù)據(jù)。
通過瀏覽器構(gòu)造查詢條件與Solr交互,可以從Solr中查詢指定類型的文檔集合,并將其導(dǎo)出為XML格式的文件,導(dǎo)出時只保留每個文檔(document)的標(biāo)題(title)和內(nèi)容(content)。通過編寫程序代碼將導(dǎo)出的各個類型的XML文件導(dǎo)入SQL Server數(shù)據(jù)庫表(pagedocs)中,其表結(jié)構(gòu)可用式(8)的三元組描述:
pagedocs=(title,content,type)。
(8)
式中:type表示文檔的類型。
每個網(wǎng)頁除了包含其所要表達(dá)的主旨內(nèi)容之外,還有一些附加信息,如廣告、網(wǎng)站導(dǎo)航、描述、腳注等。由于網(wǎng)頁文檔結(jié)構(gòu)設(shè)計具有非常大的隨意性,通過直接分析網(wǎng)頁結(jié)構(gòu)解析出網(wǎng)頁主旨內(nèi)容是非常困難的。本研究采用手動凈化的方式對pagedocs的content進(jìn)行文本凈化,以去除content中除主旨內(nèi)容之外的附加信息。
分詞是實現(xiàn)文本段落到詞條的轉(zhuǎn)換過程。本研究選用Lucene中的中文分詞工具包smartcn對文本進(jìn)行分詞。Lucene是Apache管理下的重要全文索引項目,該項目采用Java實現(xiàn)。smartcn工具包能夠?qū)χ形幕蛑杏⒒炫盼谋具M(jìn)行分詞。在將文本轉(zhuǎn)換成詞條集合的過程中,需要完成分詞、去除附加詞等一系列處理過程。Lucene是通過類模塊Analyzer來組織這一過程的。本研究在Analyzer的基礎(chǔ)上派生了1個新的分析類CustomSmartCnAnalyzer,該類按照圖1所示的處理流程實現(xiàn)文本到詞條集合的轉(zhuǎn)換。
HMMChineseTokenizer是smartcn包中的分詞器,該分詞器在詞典基礎(chǔ)上使用隱馬爾科夫模型對文本進(jìn)行分詞。經(jīng)HMMChineseTokenizer分詞后形成的詞條集合是一種初始集合,該集合中可能會存在對文本分類不起作用甚至是干擾分類的元素。因此該初始集合還需要進(jìn)行過濾。LowerCaseFilter及接下來的多個過濾器是Lucene分析包中提供的過濾工具。LowerCaseFilter將初始集合中的英文詞條全部轉(zhuǎn)換成小寫格式,避免農(nóng)業(yè)文本中可能出現(xiàn)的英文詞條因大小寫不同而被看作不同的詞條。中英文都存在著修飾句子結(jié)構(gòu)的輔助詞,如中文的“了”和英文的“a”,這些輔助詞對農(nóng)業(yè)文本的分類沒有作用,同時如果輔助詞是文本中的高頻詞,還會干擾分類。因此需要從詞條集合中移除這些輔助詞,這些輔助詞稱為停用詞。StopFilter過濾器可根據(jù)為其配置的停用詞表從輸入詞條集合中過濾掉出現(xiàn)在停用詞表中的詞條。本研究為StopFilter配置的停用詞表參考了ranks.nl發(fā)布的中英文停用詞表[16],并包含中文標(biāo)點(diǎn)符號和常見特殊符號。農(nóng)業(yè)文本中還可能會出現(xiàn)各種數(shù)字,這些數(shù)字多變,含義也各有不同,不能簡單地將其歸為一類。如果在詞條集合中包含數(shù)字,會增加統(tǒng)計樣本的數(shù)量,從而增加計算復(fù)雜度。通常伴隨著數(shù)字的詞條反映了數(shù)字的基本含義,因此詞條集合中的數(shù)字詞條可以移除。首先用DecimalDigitFilter過濾器將任意的Unicode數(shù)字轉(zhuǎn)換成拉丁數(shù)字,然后過濾器PatternReplaceFilter通過使用正則表達(dá)式“^(-?\d+)(\.\d+)?$”,濾掉詞條集合中的數(shù)字。
利用該分詞方法對pagedocs中的每個文檔的content和title分別進(jìn)行分詞,形成2個詞條集,詞條之間用空白符分隔,并分別存入2個文本文件,每個文檔對應(yīng)1行,每行最后添加該文檔對應(yīng)的分類。將分詞后形成的2個文本文件作為本研究后續(xù)試驗的語料庫。
采用Python實現(xiàn)了基于樸素貝葉斯的文本分類器和基于CHI值的特征詞選擇程序。在Lucene基礎(chǔ)上,采用Java語言實現(xiàn)了中文文本分詞和預(yù)處理程序。按照前文所述的樣本獲取方法分別從中國農(nóng)業(yè)信息網(wǎng)、三農(nóng)信息網(wǎng)和中國惠農(nóng)網(wǎng)等抓取網(wǎng)頁4 002份,其中農(nóng)業(yè)資訊類(設(shè)為C1)1 046份、農(nóng)業(yè)技術(shù)類(設(shè)為C2)1 068份、市場行情類(設(shè)為C3)849份、供求信息類(設(shè)為C4)1 039份。采用手動方式對網(wǎng)頁進(jìn)行了必要的凈化。用中文文本分詞和預(yù)處理工具對凈化后的網(wǎng)頁文本進(jìn)行分詞、過濾停用詞和數(shù)字,生成了content和title 2個語料庫。按照如下步驟進(jìn)行多個農(nóng)業(yè)文本分類試驗:
步驟1:從語料庫中隨機(jī)選擇一定比例的樣本作為試驗材料;
步驟2:從試驗材料中隨機(jī)選擇80%的文本作為訓(xùn)練集,余下的文本作為測試集,即采用留存交叉驗證方法來計算文本分類器的識別準(zhǔn)確率;
步驟3:使用特征詞選擇程序從訓(xùn)練集中為每類文本類型選擇一定比例(設(shè)為L)的詞條作為特征詞集,各個特征詞集求并,構(gòu)成分類用特征詞表;
步驟4:以特征詞表、訓(xùn)練集、測試集作為文本分類器的輸入,分類器通過特征詞表和訓(xùn)練集獲取知識,并對測試集進(jìn)行類型識別,然后輸出對測試集的識別結(jié)果和識別的準(zhǔn)確率(測試集中被正確識別的文本數(shù)占測試集文本數(shù)的比例);
步驟5:采用留存交叉驗證的方法重復(fù)步驟2~4若干次(設(shè)為TC),求平均識別準(zhǔn)確率p。
4.2.1 特征詞分析 以content語料庫中的全部文本為試驗材料,由其構(gòu)成的詞集包括22 858個非重復(fù)候選詞條。用特征詞選擇程序分別為content語料庫中的每種類型文本(C1~C4)計算每個候選詞條的CHI值,并按其降序排序。表1是文本類型C1~C4的前10個特征詞。
表1 每種類型文本的前10個特征詞
從表1可以看出,針對語料庫中每種類型的農(nóng)業(yè)文本,其CHI值排在前10的特征詞沒有出現(xiàn)交集。設(shè)CWj為文本類型Cj的按CHI值大小排序的候選詞集,CWj=[wjk],j=1,2,3,4;k=1,2,…,n,n為候選詞條數(shù),Ujl為CWj的前l(fā)個元素構(gòu)成的子集,即類型Cj的特征詞集。根據(jù)U1l∩U2l∩U3l∩U4l=?,可求出表示無交集的特征詞集的最大元素數(shù)量l,經(jīng)計算本次試驗對應(yīng)的l=167,此處稱Uj167=>Ujm為Cj的無交集特征詞集。設(shè)dj為試驗材料中Cj類型的1個文本對應(yīng)的詞向量,do為其他類型的1個文本詞向量,若Ujm∩dj≠?或Ujm∩do≠?,則稱Ujm覆蓋文檔dj或do,覆蓋dj文本的數(shù)量占Cj文本數(shù)量的比例稱為覆蓋率。分別為每個Ujm計算其對該類型文本的覆蓋率和其他類型文本的覆蓋率,計算結(jié)果見表2。
表2 Ujm對文本的覆蓋率
從表2可以看出,每個無交集特征詞集Ujm對Cj類型文本的覆蓋率都要明顯高于對其他類型文本的覆蓋率,說明Ujm在Cj類型的文本中出現(xiàn)的概率更高。因此,content語料庫中這4種類型的文本是可分的。
4.2.2 特征詞數(shù)量對識別率的影響 按照前文試驗方法,在步驟1中將content語料庫中的全部文本作為試驗材料,在步驟3中分別為每種文本類型Cj從CWj中選取不同比例的詞條作為其特征詞集Ujl(L分別取0.1%、0.2%、0.5%、1%、2%、5%、10%、20%、30%、40%、50%、100%),將各個Ujl求并的結(jié)果作為特征詞表,通過10次(TC=10)留存交叉驗證求平均識別準(zhǔn)確率p。按特征詞選擇比例L進(jìn)行多次文本分類識別試驗。表3是對測試集和測試集中各類型文本的識別結(jié)果。
表3 特征詞選擇數(shù)量對識別率的影響
由表3可以看出,通過結(jié)合樸素貝葉斯和基于CHI值的特征詞選取方法,能夠很好地對語料庫中的4種農(nóng)業(yè)文本進(jìn)行分類識別。從4種類型文本的按CHI值大小排序的候選詞集CWj中選擇較小比例的詞條構(gòu)成特征詞表,就能達(dá)到很高的測試集分類識別率,測試集中各文本類型C1~C4的識別率也都在93%以上。表3數(shù)據(jù)表明,隨著候選詞集選擇比例的增加,特征詞表的元素數(shù)增加,但測試集及各類型文本識別率的變化并不明顯,這說明文本的分類主要由其高CHI值的少量特征詞條決定。另一方面從表3也可以看出,隨著候選詞集選擇比例的增加,文本識別率略有升高,說明按CHI值增加特征詞表元素的數(shù)量并不會對文本識別率造成負(fù)面影響。
4.2.3 訓(xùn)練樣本數(shù)量對識別率的影響 以content語料庫為分析對象,在步驟1中,從語料庫中分別隨機(jī)選擇5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的文本作為試驗材料,在步驟3中,將訓(xùn)練集對應(yīng)的全部候選詞條作為特征詞表(即L=100%),步驟4同樣采用10次留存交叉驗證計算平均識別率。按照從語料庫中選擇試驗材料的不同比例進(jìn)行多次學(xué)習(xí)和文本分類識別試驗。圖2是對測試集中的文本進(jìn)行識別的結(jié)果。
圖2的試驗結(jié)果表明,訓(xùn)練樣本數(shù)量對文本的識別率具有一定影響。當(dāng)訓(xùn)練集樣本數(shù)量達(dá)到600篇以上時,測試集中的文本被正確分類的概率達(dá)到95%以上,當(dāng)再持續(xù)增加訓(xùn)練集樣本數(shù)量時,測試集的識別率沒有明顯變化。訓(xùn)練樣本數(shù)量對測試集中農(nóng)業(yè)資訊類(圖2中C1)文本的識別率具有較大影響,隨著訓(xùn)練樣本數(shù)量的增加,農(nóng)業(yè)資訊類文本被正確分類的概率也逐漸提高,當(dāng)訓(xùn)練集中農(nóng)業(yè)資訊類文本超過500個時,它們被正確分類的概率可達(dá)到95%。這是因為農(nóng)業(yè)資訊類文本通常涉及較多領(lǐng)域,分類器需要從更多的訓(xùn)練樣本中獲取知識。市場行情類(C3)和供求信息類(C4)在不同的訓(xùn)練樣本數(shù)下均具有較高的識別率。因為C3或C4類型的文本,其文體通常比較相似,所用詞條相對比較集中。
4.2.4 利用網(wǎng)頁標(biāo)題識別文本類型 從網(wǎng)頁中提取出文本只需要對html文檔的元素標(biāo)記進(jìn)行解析即可,但直接提取出的文本會包含一些除網(wǎng)頁主題之外的附加信息,這些附加信息會對文本類型的識別產(chǎn)生干擾,甚至完全改變網(wǎng)頁的主題。因此,在對網(wǎng)頁文本進(jìn)行分類之前需要對其進(jìn)行必要的凈化。然而,自動化的凈化方法很難實現(xiàn),這影響了對網(wǎng)頁文本的分類。通常網(wǎng)頁的title標(biāo)記會描述一個網(wǎng)頁的標(biāo)題,該標(biāo)題通常是網(wǎng)頁主題的高度凝練。網(wǎng)頁的標(biāo)題相對于網(wǎng)頁的主旨文本來說,更易于提取。如果利用網(wǎng)頁標(biāo)題進(jìn)行網(wǎng)頁分類是可行的,將更利于網(wǎng)頁分類。
按前文試驗方法,以title語料庫為分析對象。在步驟1中,分別隨機(jī)選擇語料庫中5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的文本作為試驗材料。網(wǎng)頁的標(biāo)題文本相對較短,由其構(gòu)成的title語料庫包含5 248個非重復(fù)候選詞條,數(shù)量較少,因此在步驟3中,將訓(xùn)練集的全部候選詞條作為特征詞表,即L=100%。采用10次留存交叉驗證計算平均識別率。
從試驗結(jié)果可以看出,當(dāng)訓(xùn)練樣本數(shù)超過600個時,對測試集進(jìn)行分類的識別率可以達(dá)到95%左右(圖3),這說明采用網(wǎng)頁標(biāo)題對采集自網(wǎng)絡(luò)的文本進(jìn)行分類是可行的。其中,農(nóng)業(yè)資訊類(C1)的識別率較低,但當(dāng)訓(xùn)練樣本中農(nóng)業(yè)資訊類文本達(dá)到150個以上時,C1被正確識別的概率仍在85%以上。另外,利用網(wǎng)頁標(biāo)題,農(nóng)業(yè)技術(shù)類(C2)、市場行情類(C3)和供求信息類(C4)都有非常高的識別率。
本研究采用樸素貝葉斯方法對農(nóng)業(yè)文本進(jìn)行分類,同時通過詞條的CHI值計算來選擇分類過程中所使用的特征詞表,并用Python實現(xiàn)了文本分類器和特征詞選擇程序。利用Nutch從多個農(nóng)業(yè)信息網(wǎng)站采集了已被良好分類的4種網(wǎng)頁,通過對網(wǎng)頁進(jìn)行重建索引、手動文本凈化等預(yù)處理形成純凈農(nóng)業(yè)文檔,在Lucene的中文分詞工具包smartcn基礎(chǔ)上,通過Java實現(xiàn)了分詞工具,對農(nóng)業(yè)文本進(jìn)行分詞處理,創(chuàng)建了涵蓋農(nóng)業(yè)咨詢、農(nóng)業(yè)技術(shù)、市場行情、供求信息的農(nóng)業(yè)文本語料庫。在該語料庫的基礎(chǔ)上,利用文本分類器和特征詞選擇程序進(jìn)行了多種文本分類試驗。
結(jié)果表明,通過結(jié)合樸素貝葉斯和基于CHI值的特征詞選取方法能夠很好地對農(nóng)業(yè)文本進(jìn)行分類,識別率較高;文本分類的正確率主要由CHI值較高的少量特征詞條決定,但按CHI值降序增加特征詞條的數(shù)量不會對文本識別率造成負(fù)面影響;訓(xùn)練樣本數(shù)量對文本分類的正確率具有一定影響,為了達(dá)到較高的識別率,訓(xùn)練樣本需要達(dá)到一定數(shù)量,然后持續(xù)增加樣本量,對識別率沒有明顯貢獻(xiàn);利用網(wǎng)頁標(biāo)題對采集自網(wǎng)絡(luò)的農(nóng)業(yè)文本進(jìn)行分類是可行的。