劉同娟 姜珊
摘要:隨著互聯(lián)網(wǎng)的普及,人們利用網(wǎng)絡(luò)自由地發(fā)表言論。面對(duì)海量增長(zhǎng)的網(wǎng)絡(luò)評(píng)論,有效、準(zhǔn)確地對(duì)其分類具有重要的實(shí)際意義。在隨機(jī)森林基于決策樹(shù)進(jìn)行分類的基礎(chǔ)上,在分類、迭代、投票過(guò)程中引進(jìn)誤差函數(shù)。誤差函數(shù)在全局判斷過(guò)程中的作用是增加單個(gè)決策樹(shù)在分類過(guò)程中的受重視度,提升整個(gè)隨機(jī)森林模型的準(zhǔn)確性,有效降低誤差。
關(guān)鍵詞:隨機(jī)森林;決策樹(shù);誤差函數(shù);全局判斷
中圖分類號(hào):TP311 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)13-0023-03
Abstract: With the popularity of the Internet, people use the Internet to express their opinions freely. Faced with massive growth of Internet comment, it is of great practical significance to classify them effectively and accurately. In this paper, error function is introduced in the process of classification, iteration and voting based on decision tree classification of stochastic forests. The function of error function in the process of global judgment is to increase the importance of a single decision tree in the process of classification, improve the accuracy of the whole Stochastic Forest model, and effectively reduce the error.
Key words: random forest; decision tree; error function; global judgment
隨著互聯(lián)網(wǎng)的迅速普及和發(fā)展,出現(xiàn)了越來(lái)越多的網(wǎng)上用戶。人們利用網(wǎng)絡(luò)自由地發(fā)表言論。網(wǎng)絡(luò)上的言論內(nèi)容復(fù)雜、多樣,數(shù)量龐大。不少非法分子利用網(wǎng)絡(luò)監(jiān)管的漏洞,發(fā)布大量廣告信息、詐騙信息、色情迷信、黃色暴力等不健康的言論 [1] 。本文將上述類別的評(píng)論統(tǒng)稱為無(wú)效評(píng)論。
由于網(wǎng)絡(luò)環(huán)境的復(fù)雜性,不法分子常利用網(wǎng)絡(luò)監(jiān)管的漏洞發(fā)布無(wú)效評(píng)論引導(dǎo)輿情走向、傳遞錯(cuò)誤的價(jià)值觀[2]。唯有從根源入手,抑制無(wú)效評(píng)論的發(fā)布,才是解決問(wèn)題的最好辦法。唯有此,才能幫助用戶更好地實(shí)現(xiàn)言論自由,維護(hù)網(wǎng)絡(luò)的正常運(yùn)營(yíng),營(yíng)造安全的網(wǎng)絡(luò)空間。
本文以微博評(píng)論文本作為主要研究對(duì)象,在隨機(jī)森林分類方法對(duì)短文本進(jìn)行識(shí)別和分類的基礎(chǔ)上,主要利用改進(jìn)后的V-隨機(jī)森林算法對(duì)其進(jìn)行識(shí)別判斷。本文中提到的V-隨機(jī)森林算法,彌補(bǔ)了單一分類器結(jié)果的單一性和多分類器對(duì)結(jié)果的誤導(dǎo)影響,可以充分發(fā)揮各分類器的優(yōu)勢(shì)。
1 理論研究
1.1 Bagging方法
Bagging方法[3],又稱自助聚集方法、套袋法,是一種從訓(xùn)練集中隨機(jī)抽取部分樣本生成決策樹(shù)的方法。Bagging將決策樹(shù)組裝形成隨機(jī)森林,是將已有的分類或者回歸算法通過(guò)一定方式組合起來(lái),形成一個(gè)性能更加強(qiáng)大的分類器。通過(guò)組合可以將弱分類器轉(zhuǎn)變形成強(qiáng)分類器,更準(zhǔn)確地說(shuō)這是一種分類算法的組裝方法。
Bagging算法的過(guò)程如下:
1) 從原始樣本集中抽取訓(xùn)練集。每輪從原始樣本集中使用bootstrap[4]重采樣的方法,抽取n個(gè)訓(xùn)練樣本,共進(jìn)行k輪抽取,得到k個(gè)訓(xùn)練集,訓(xùn)練集間相互獨(dú)立。
2) 建立模型。根據(jù)需要分析的問(wèn)題,選擇合適的算法模型(例如決策樹(shù)、感知器、回歸法等),每一個(gè)訓(xùn)練集得到一個(gè)模型,共有k個(gè)訓(xùn)練集,獲得k個(gè)模型。
3) 獲取結(jié)果。根據(jù)解決問(wèn)題的不同有不同獲取結(jié)果的方式。對(duì)于分類問(wèn)題,將獲得到的k個(gè)模型采用投票的方式得到分類結(jié)果;對(duì)于回歸問(wèn)題,計(jì)算上述模型的均值作為最后的結(jié)果。
1.2 隨機(jī)森林
隨機(jī)森林(Random Forest,RF)[5]是以決策樹(shù)為基礎(chǔ)分類器的集成分類算法,是目前較為流行的數(shù)據(jù)分析工具。其可分析的領(lǐng)域較為廣泛,其中包括腦磁共振圖像分類[6]、電力系統(tǒng)短期負(fù)荷預(yù)測(cè)[7] 、洪水風(fēng)險(xiǎn)評(píng)價(jià)[8]等。
用隨機(jī)森林模型識(shí)別無(wú)效評(píng)論時(shí),其結(jié)果是由n棵決策樹(shù)的分類結(jié)果以簡(jiǎn)單投票的方法共同進(jìn)行表決決定的,以“少數(shù)服從多數(shù)”的原則表決得到最終的分類結(jié)果。這樣獲取到的分類判別結(jié)果不只是單純依賴于某一棵分類樹(shù)?;诖?,隨機(jī)森林比單純決策樹(shù)的識(shí)別準(zhǔn)確性要高。
對(duì)于給定的數(shù)據(jù)集M,假設(shè)需要迭代的次數(shù)為N,隨機(jī)森林的算法步驟如下:
1.3 V-隨機(jī)森林
雖然隨機(jī)森林具有消除了過(guò)度擬合、分類性能好、分類性能好、應(yīng)用廣泛的優(yōu)點(diǎn)。但是面對(duì)像微博評(píng)論這樣,正負(fù)數(shù)據(jù)不平衡、數(shù)據(jù)噪聲大的問(wèn)題,隨機(jī)森林的分類效果明也存在兩重隨機(jī)性,從而影響分類性能和準(zhǔn)確性。針對(duì)正負(fù)數(shù)據(jù)不平衡的問(wèn)題,改進(jìn)后的隨機(jī)森林算法(V-隨機(jī)森林算法)的解決辦法是影響訓(xùn)練數(shù)據(jù)集的分布抽取。即在訓(xùn)練集階段賦予其一定的權(quán)值,在訓(xùn)練集迭代生成決策樹(shù)階段,不斷更新訓(xùn)練樣本的權(quán)值,權(quán)值代表樣本數(shù)據(jù)受重視的程度。不斷加大被錯(cuò)分樣本的權(quán)值,使被錯(cuò)分的樣本在下一輪迭代中具備更高的關(guān)注度。在投票階段,樣本的最終的分類結(jié)果由各分類器加權(quán)投票結(jié)果決定。這樣在一定程度上避免了訓(xùn)練集樣本不平衡帶來(lái)的影響,提升準(zhǔn)確率。
2 微博無(wú)效評(píng)論識(shí)別過(guò)程
2.1 預(yù)處理
微博評(píng)論數(shù)據(jù)本身是來(lái)自于網(wǎng)絡(luò),故文本數(shù)據(jù)存在不規(guī)范性、用詞偏于口語(yǔ)化、內(nèi)容表達(dá)不完善、錯(cuò)別字、用詞網(wǎng)絡(luò)化等問(wèn)題。上述問(wèn)題都導(dǎo)致數(shù)據(jù)噪聲大,從而影響模型的識(shí)別準(zhǔn)確率。
對(duì)微博評(píng)論進(jìn)行預(yù)處理,在一定程度上規(guī)范文本數(shù)據(jù)的規(guī)范性,從而降低數(shù)據(jù)噪音。預(yù)處理主要包括錯(cuò)別字糾正、字母大小寫(xiě)統(tǒng)一轉(zhuǎn)換、繁體字轉(zhuǎn)為簡(jiǎn)體、去除無(wú)效符號(hào)。
2.2 特征值提取
微博評(píng)論在內(nèi)容方面提取的特征值主要包括:“評(píng)論長(zhǎng)度”“電話號(hào)碼、網(wǎng)址、價(jià)格、日期類信息”“特殊符號(hào)比例”“無(wú)效關(guān)鍵詞”。
一條微博評(píng)論的文字一般在50個(gè)詞左右,無(wú)效評(píng)論的傳播者為了達(dá)到傳播某些內(nèi)容的目的,字?jǐn)?shù)上會(huì)盡可能得多。因此,無(wú)效評(píng)論長(zhǎng)度一般較長(zhǎng),有效提取評(píng)論的長(zhǎng)度有助于提升無(wú)效評(píng)論的識(shí)別。
廣告推銷類、色情服務(wù)類、詐騙類的評(píng)論中一般都具有某些特定性、顯著性的特征,如聯(lián)系方式、網(wǎng)址鏈接、商品價(jià)格、銀行賬號(hào)、日期等特殊信息。
部分無(wú)效評(píng)論為了可以不被系統(tǒng)識(shí)別出來(lái),從而避免被過(guò)濾掉,會(huì)增加大量無(wú)效的符號(hào)。在識(shí)別無(wú)效評(píng)論中,其是具備明顯特征的。
無(wú)效評(píng)論主要包括廣告營(yíng)銷、詐騙信息、色情迷信、黃色暴力等方面。在分類過(guò)程中,將無(wú)效評(píng)論劃分成不同類別,根據(jù)每個(gè)類別提取相應(yīng)的特征值作為無(wú)效關(guān)鍵詞。
2.3 識(shí)別過(guò)程
基于V-隨機(jī)森林算法的微博無(wú)效評(píng)論分類模型如圖(2)。
3 總結(jié)
傳統(tǒng)的隨機(jī)森林是由若干個(gè)獨(dú)立同分布的決策樹(shù)構(gòu)成的,結(jié)果是由決策樹(shù)簡(jiǎn)單投票表決的。但是由于每棵決策樹(shù)的分類能力和準(zhǔn)確率不同,會(huì)導(dǎo)致該分類器的性能下降。本文在原有隨機(jī)森林的基礎(chǔ)上,改進(jìn)的V-隨機(jī)森林算法通過(guò)設(shè)置權(quán)重,在迭代過(guò)程中不斷更新,且最后的投票結(jié)果也是由加權(quán)投票決定的。改進(jìn)的V-隨機(jī)森林算法在理論上具備更好的識(shí)別率和分類性能,該算法具有一定的研究和實(shí)用價(jià)值。
參考文獻(xiàn):
[1] 許鑫,章成志,李雯靜.國(guó)內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 情報(bào)理論與實(shí)踐, 2009, 32(3): 115-120.
[2] 彭輝, 姚頡靖.我國(guó)政府應(yīng)對(duì)網(wǎng)絡(luò)輿情的現(xiàn)狀及對(duì)策研究——基于33件網(wǎng)絡(luò)輿情典型案例分析 [J]. 北京交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2014, 13(3): 102-109.
[3] Breiman L, Friedman J, Olshen R, al et. Classification and RegressionTrees [M]. New York : Chapman&Hall, 1984.
[4] Efron B, Tibshirani R J. An introductin to the bootstrap[J]. Journal of Great Lakes Research, 1993, 20(1):1-6.
[5] Thongkam J, Xu G, Zhang Y. AdaBoost algorithm with random forests for predicting breast cancer survivability[C]. In:IEEE International Joint Conference on Neural Networks. IEEE, 2008:3062-3069
[6] 詹曙,姚堯,高賀. 基于隨機(jī)森林的腦磁共振圖像分類[J].電子測(cè)量與儀器學(xué)報(bào),2013,27(11):1067-1072.
[7] 吳瀟雨,和敬涵,張沛,等.基于灰色投影改進(jìn)隨機(jī)森林算法的電力系統(tǒng)短期負(fù)荷預(yù)測(cè)[J].電力系統(tǒng)自動(dòng)化,2015,39(12):50-55.
[8] 賴成光,陳曉宏,趙仕威,王兆禮,吳旭樹(shù).基于隨機(jī)森林的洪災(zāi)風(fēng)險(xiǎn)評(píng)價(jià)模型及其應(yīng)用[J].水利學(xué)報(bào),2015,46(1):58-66.
[9] 尚文倩,黃厚寬,劉玉玲,等. 文本分類中基于基尼指數(shù)的特征選擇算法研究[J]. 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,2006,43(10): 1688-1694.
【通聯(lián)編輯:李雅琪】