国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林的藏文文本分類

2019-03-04 11:05包晗西熱旦增郭龍銀尚慧杰
電腦知識(shí)與技術(shù) 2019年34期
關(guān)鍵詞:文本分類隨機(jī)森林藏文

包晗 西熱旦增 郭龍銀 尚慧杰

摘要:針對(duì)藏文文本及其語法和詞法結(jié)構(gòu),采用條件隨機(jī)場進(jìn)行分詞,利用人工統(tǒng)計(jì)和標(biāo)注進(jìn)行停用詞詞典建立,然后采用tf-idf的詞向量空間,予以權(quán)重計(jì)算,最后采用隨機(jī)森林算法構(gòu)建分類器,進(jìn)行文本分類。并使用查全率、查準(zhǔn)率和F1值三種評(píng)價(jià)函數(shù)與邏輯回歸、多項(xiàng)式樸素貝葉斯、支持向量機(jī)三種算法相比,結(jié)果顯示,隨機(jī)森林算法在高維特征的藏文文本分類上優(yōu)于其他分類器。

關(guān)鍵詞:藏文;條件隨機(jī)場;TF-IDF;隨機(jī)森林;文本分類

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)34-0178-03

隨著藏語言在互聯(lián)網(wǎng)的傳播,藏語語言信息數(shù)據(jù)及資源呈現(xiàn)海量特征,而研究藏文文本分類可有效管理和利用這些海量信息。其中,文本分類(textcategorization,簡稱TC)技術(shù)是信息檢索和文本挖掘的重要基礎(chǔ),其中主要任務(wù)時(shí)在預(yù)先給定的類別標(biāo)記(label)集合下,根據(jù)文本內(nèi)容判定它的類別1。藏文文本分類目前還處于統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)的過渡階段,尤其是在藏文文本數(shù)據(jù)語料不龐大和標(biāo)注程度深度不夠的前提下,隨機(jī)森林(Random Forest)算法能夠處理高維特征的輸入樣本,且不需要降維處理。

1 藏文文本分詞

藏文自動(dòng)分詞可以看作是計(jì)算機(jī)自動(dòng)辨識(shí)藏文文本字符流中的詞,并在詞與詞之間加入明顯的詞切分標(biāo)記符的過程2目前,已有多種分類方法,例如:最大匹配算法3、基于格助詞和接續(xù)特征的書面藏語自動(dòng)分詞-等,在比較多種分詞方法后,確定以洛桑嘎登的基于知識(shí)融合的條件隨機(jī)場s進(jìn)行藏文分詞。

x為音節(jié),ξ為閾值,第一種為黏著詞、歧義詞等音節(jié)組合規(guī)則庫建立,第二種為人名、地名、非藏文字符等固定音節(jié)規(guī)則庫。最后統(tǒng)計(jì)和人工篩選出最終的庫的元素,將閾值極高的元素在分詞之間先行篩除,其余元素在分詞中將閾值與條件隨機(jī)場輸出比較。

2 tf-idf特征提取

2.1 文本向量空間模型

向量空間模型(VSM)6由哈佛大學(xué)的G Salton提出,是基于統(tǒng)計(jì)的代數(shù)模型。文本向量空間模型(TVSM)則是擬定一個(gè)向量空間概念,將文本中的每一個(gè)詞轉(zhuǎn)換為空間的不同維度,文本的表達(dá)與向量之和相似,形成一個(gè)在高維度上的帶方向的點(diǎn),而一個(gè)詞的權(quán)重即是該點(diǎn)在對(duì)應(yīng)維度上的絕對(duì)值。一個(gè)文本的表達(dá)式為:

在文本向量空間模型中,單個(gè)文本的維度一般在百維至千維以上,高緯度的文本所包含的內(nèi)容更為豐富,詞與詞之間的聯(lián)系也更為緊密,允許文本分類的種類更為多且層次更深。

2.2 tf-idf特征提取

Trf-idf(Term-frequency times inverse document-frequenry)詞頻乘以逆文本頻率,公式:

tf(t,d)為詞頻函數(shù),表示某個(gè)藏文詞在一個(gè)文本中出現(xiàn)的次數(shù),他和文本越相關(guān),則在文本中出現(xiàn)的次數(shù)越多。但在大型語料庫中,一些許多特定的詞出現(xiàn)的頻率極高,例如藏語中的連接詞等,他們不具有分類特征,會(huì)影響分類器的判斷,我們應(yīng)當(dāng)在構(gòu)建詞頻矩陣前排除。

idf(t)為逆文本頻率函數(shù),表示某個(gè)藏文詞在某文本類別的影響頻率,即該詞在某個(gè)類別出現(xiàn)的頻率越高而在其他類別出現(xiàn)的頻率越低,則該詞對(duì)某類別的分類影響程度越高,公式6:

其中n是語料集中所有文本數(shù),d (t)是語料集中擁有t維度的所有文本數(shù)。

Ridge回歸,使用Frobenius范數(shù),將單文本中所有的tf-idf值進(jìn)行回歸,最終將所有文本轉(zhuǎn)換為多維浮點(diǎn)數(shù)矩陣,公式為:

3 隨機(jī)森林分類器

3.1 決策樹

決策樹是將文本中的詞作為節(jié)點(diǎn),計(jì)算該詞加上所有父節(jié)點(diǎn)構(gòu)成的詞序列對(duì)某一類別的分類誤差率,設(shè)立閾值,根據(jù)閾值判別產(chǎn)生不同的子節(jié)點(diǎn),循環(huán)此過程,直到閾值為0或無子序列。決策樹主要分三個(gè)步驟:特征選擇、決策樹生成、剪枝。

特征選擇,本文采用CART算法來進(jìn)行特征選擇,CART(Classification And Regression Tree)。是Breiman等人在1984年提出的,是一種二分決策樹,它判別規(guī)則是要么為某一類,要么就是其他類,它使用基尼系數(shù)(Gini)來對(duì)二叉樹的節(jié)點(diǎn)進(jìn)行選擇。Gini系數(shù)的公式:

決策樹生成,即決策過程,根節(jié)點(diǎn)為特定的詞序列,即只有一個(gè)詞,該詞在所有詞中分類誤差率最好,對(duì)某一個(gè)類別概率最大。隨后的子節(jié)點(diǎn)依據(jù)上一個(gè)判定劃分成左右兩個(gè)子樹,若基尼系數(shù)不為零或者詞序列無子序列則停止決策,若不為零且不唯一,則在可能的類別里繼續(xù)決策。具體決策樹如圖1所示(該決策樹僅演示所用,取少量數(shù)據(jù)構(gòu)建的部分子樹)。

剪枝,裁剪決策樹的一些子樹并將該子樹作為葉節(jié)點(diǎn)。決策樹有時(shí)會(huì)根據(jù)所有訓(xùn)練樣本的形成一個(gè)非常龐大的決策樹,在訓(xùn)練樣本上準(zhǔn)確率很高而對(duì)于測(cè)試樣本準(zhǔn)確率往往不理想,形成過擬合現(xiàn)象。過擬合現(xiàn)象的解決方式需要人工的觀察和調(diào)試,觀察和控制每一層決策樹大小,設(shè)置最小葉節(jié)點(diǎn)的樣本個(gè)數(shù),調(diào)整葉節(jié)點(diǎn)的最小權(quán)重等等。

3.2 隨機(jī)森林

隨機(jī)森林( RandomForest),是在bagging算法8基礎(chǔ)上更進(jìn)一步。

bagging算法是從所有文本中重采樣出n個(gè)文本構(gòu)建分類器,然后重復(fù)m次此過程獲得m個(gè)分類器最后根據(jù)這m個(gè)分類器的投票結(jié)果決定文本屬于哪一類。隨機(jī)森林不需要交叉驗(yàn)證,步驟如下:

其中I(.)是示性函數(shù),avk表示取平均值,邊際函數(shù)表示了在正確分類Y之下X的得票數(shù)目超過其他錯(cuò)誤分類的最大得票數(shù)目的程度。邊際函數(shù)可有效地展示隨機(jī)森林的決策樹組合效果,此外還可以根據(jù)邊際函數(shù)進(jìn)行決策樹的n文本個(gè)數(shù)的調(diào)整,決策樹中詞數(shù)的調(diào)整以及分類的組合方式。

4 實(shí)驗(yàn)結(jié)果

本文的數(shù)據(jù)集的文本總數(shù)為12090篇,共分為10個(gè)類。分別為:藝術(shù)、文化、教育、歷史、哲學(xué)、科技、體育、政治、經(jīng)濟(jì)、自然。文本分布如圖2:

本文為了快速比較四種算法的效果,采用scikit_learn7的skleam. naive_bayes. MultinomiaINB, sklearn. linear_model. Logisti-cRegression,sklearn.svm作為多項(xiàng)式貝葉斯算法、邏輯回歸算法、支持向量機(jī)算法的分類器。根據(jù)精度值(precisionscore),召回值(recallscore),fl值(fl score)對(duì)比效果,如圖3所示。

結(jié)果顯示隨機(jī)森林分類器的效果要優(yōu)于其他分類器。

5 結(jié)束語

本文從分詞到最終的文本預(yù)測(cè),完成了基于隨機(jī)森林的藏文文本分類的全部任務(wù)。實(shí)驗(yàn)結(jié)果顯示文本分類效果良好,且相比于多項(xiàng)式貝葉斯、邏輯回歸、支持向量機(jī)效果更為優(yōu)秀。但進(jìn)步空間仍然很大,1)應(yīng)該擴(kuò)充語料庫為大型語料庫進(jìn)而再做測(cè)試,在大型語料庫上單一的統(tǒng)計(jì)算法分類器不能很好地滿足分類需求,要構(gòu)建多種算法加權(quán)預(yù)測(cè)。2)分類效果上還有上升空間,且目前深度學(xué)習(xí)研究前景更好,我們應(yīng)該將統(tǒng)計(jì)算法與神經(jīng)網(wǎng)絡(luò)相互融合,從而提高分類效果。

參考文獻(xiàn):

[1]蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006(9):1848-1859.

[2]茂松,鄒嘉彥.漢語自動(dòng)分詞研究評(píng)述[J]當(dāng)代語言學(xué),2001,3(1):22-23.

[3]羅秉芬,江荻.藏文計(jì)算機(jī)自動(dòng)分詞的基本規(guī)則[C]//中國少數(shù)民族語言文字現(xiàn)代化文集.北京:民族出版社,1999.

[4]陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[J].語言文字應(yīng)用,2003(1):75-82.

[5]洛桑嘎登,楊媛媛,趙小兵.基于知識(shí)融合的CRFs藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2015,29(6):213-219。

[6] Salton G,Wang A,Yang C S.A vector space model for automat-ic indexing[J]. Communication of the ACM, 1975, 18(11):613-620.

[7] https://scikit-leam.org/stable.

[8] Breiman J. Bagging predictors[J]. Machine Learning, 1996, 24(2):123 -140.

【通聯(lián)編輯:唐一東】

收稿日期:2019-08-15

基金項(xiàng)目:2018年大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“基于隨機(jī)森林的藏文文本分類”(項(xiàng)目編號(hào):2018XCX045)

作者簡介:包晗(1998-),男,浙江麗水人,本科;通信作者:西熱旦增(1989-),男,西藏那曲人;郭龍銀(1997-),男,江西九江人,本科,主要研究方向?yàn)樽匀徽Z言處理;尚慧杰(1996-),女,河南周口人,本科。

猜你喜歡
文本分類隨機(jī)森林藏文
西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
藏文音節(jié)字的頻次統(tǒng)計(jì)
現(xiàn)代語境下的藏文報(bào)刊
杭锦后旗| 青海省| 呼玛县| 通道| 广南县| 江山市| 保德县| 胶州市| 维西| 江都市| 潜山县| 连城县| 洛阳市| 开平市| 新邵县| 商河县| 东乡县| 杭州市| 裕民县| 宝兴县| 孙吴县| 古浪县| 三穗县| 建德市| 怀安县| 得荣县| 寿阳县| 西畴县| 黄骅市| 新昌县| 民丰县| 九台市| 项城市| 天全县| 林周县| 金昌市| 禄劝| 玛纳斯县| 南开区| 芒康县| 彭泽县|