国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于不平衡文本分類的改進(jìn)Stacking模型*

2021-09-15 08:35趙禮峰
關(guān)鍵詞:分類器樣本分類

蔣 瑤 趙禮峰

(南京郵電大學(xué)理學(xué)院 南京 210023)

1 引言

如今,我們生活在一個(gè)信息驅(qū)動(dòng)的時(shí)代,人們不僅從社會(huì)、生活的環(huán)境中獲得信息,更多的信息來自于網(wǎng)絡(luò)這片海洋里[1]。隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們慢慢傾向于在網(wǎng)絡(luò)上闡述觀點(diǎn)和表達(dá)情感,從網(wǎng)絡(luò)上的言論中獲取信息。以臉書(Facebook)、微博、微信等為代表的社交平臺(tái)和以亞馬遜、淘寶為代表的電子商務(wù)平臺(tái)上的評(píng)論迅速增多,所蘊(yùn)含的信息量也非常多。從大量評(píng)論中挖掘出其蘊(yùn)含的態(tài)度或情緒信息是迫切需要的,因?yàn)閺囊粋€(gè)商品的評(píng)價(jià)中,賣家和買家可以做出決策;在各大網(wǎng)站上的評(píng)論有助于政府的輿情監(jiān)控。

文本分類就是從文本中獲取信息,進(jìn)而對(duì)信息進(jìn)行分析處理,挖掘出更為重要的知識(shí)。文本分類分為兩個(gè)部分:特征工程和分類器,特征工程是將數(shù)據(jù)變?yōu)樾畔⒌倪^程,是最為耗時(shí)耗力的,卻又相當(dāng)重要的過程[2]。DF(詞頻)、CHI(卡方檢驗(yàn))、IG(信息增益)、ECE(期望交叉熵)等常常被用來作為特征選擇的依據(jù)[3]。Bao Guo等[4]運(yùn)用TF-IDF將文本分詞后向量化作為文本的特征進(jìn)行分類。牛玉霞[5]對(duì)特征選擇算法IG進(jìn)行改進(jìn),并與DF進(jìn)行了結(jié)合,提取了更為重要的特征用以文本分類,提高了文本分類的精度。文本分類的另一部分分類器是將信息變?yōu)橹R(shí),即我們所想得到的結(jié)果,前人對(duì)文本分類采用的分類器算法不斷更新,使得文本分類的預(yù)測效果越來越好。Peixin Liu等[6]將樸素貝葉斯(Na?ve Bayesian)作為分類器對(duì)短文本進(jìn)行分類取得了很好的效果。盧興[7]使用支持向量機(jī)對(duì)中文短文進(jìn)行分類,并證明了其有效性。

本文根據(jù)網(wǎng)購評(píng)論數(shù)據(jù)預(yù)測購物體驗(yàn)的積極與消極傾向,由于積極評(píng)論的數(shù)量遠(yuǎn)遠(yuǎn)多于消極評(píng)論,而消極評(píng)論對(duì)商家的決策過程更為重要,所以識(shí)別少樣本(消極傾向)的工作更為重要。為適應(yīng)此數(shù)據(jù)高維不平衡特征,采用TF-IDF特征提取方法,在算法上提出融合隨機(jī)森林和邏輯回歸的Stacking算法,通過對(duì)比,文本分類的效果有所提高。

2 相關(guān)技術(shù)

2.1 TF-IDF(詞頻-逆文檔頻率)

TF-IDF是一種統(tǒng)計(jì)方法,它的計(jì)算公式為TF(詞頻)×IDF(逆文檔頻率),它的含義是如果一個(gè)詞在某段文本中出現(xiàn)的頻率越多,而在所有的文本中出現(xiàn)的頻率越少,則這個(gè)詞的tfidf權(quán)值越大,就越能代表這個(gè)文本[8]。

1)TF(詞頻)是指某個(gè)詞在所有的文本中出現(xiàn)的頻率:2)IDF(逆文檔頻率)即文檔頻率的倒數(shù),表示在每個(gè)文本中經(jīng)常出現(xiàn)的詞對(duì)所有文本的影響反而會(huì)?。?]:

2.2 隨機(jī)森林(Random Forests)

隨機(jī)森林是Bagging集成算法的一個(gè)擴(kuò)展,它是以決策樹為基分類器來構(gòu)建Bagging集成的,并且在集成的過程中引入了隨機(jī)屬性選擇,即每個(gè)屬性都有被選擇加入訓(xùn)練過程中,保證了基學(xué)習(xí)器的多樣性,提高了模型最終的泛化性能[10]。

隨機(jī)森林最終的決策結(jié)果由所有基分類器決策樹的分類結(jié)果的組合得出,如圖1所示。對(duì)于分類問題,選用投票法來決定,對(duì)每個(gè)決策樹的分類結(jié)果進(jìn)行統(tǒng)計(jì)投票,少數(shù)服從多數(shù);對(duì)于回歸問題,則取決策樹分類結(jié)果的平均值作為隨機(jī)森林的結(jié)果[11]。

圖1 隨機(jī)森林示意圖

隨機(jī)森林的優(yōu)點(diǎn)如下。

1)它能夠處理高維度數(shù)據(jù),并且不用進(jìn)行特征選擇這項(xiàng)耗時(shí)耗力的工程;

2)它容易做并行化處理,且速度比較快;

3)最重要的一點(diǎn),隨機(jī)森林在處理不平衡數(shù)據(jù)集的問題上,可以平衡由數(shù)據(jù)集帶來的誤差[12]。

2.3 Stacking集成算法

Stacking是將多個(gè)不同的機(jī)器學(xué)習(xí)器結(jié)合在一起的一種集成算法,與投票法集成不同的是,Stacking將基學(xué)習(xí)器叫做初級(jí)學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器叫做次級(jí)學(xué)習(xí)器[13]。實(shí)現(xiàn)Stacking的過程如下。

1)劃分?jǐn)?shù)據(jù)集D來訓(xùn)練初級(jí)學(xué)習(xí)器h1,h2,h3…;

2)用訓(xùn)練出來的若干個(gè)初級(jí)學(xué)習(xí)器對(duì)D上的測試集分別進(jìn)行預(yù)測,將所有預(yù)測結(jié)果結(jié)合在一起,作為次級(jí)訓(xùn)練集,訓(xùn)練次級(jí)學(xué)習(xí)器[14];

3)對(duì)最初劃分的需要預(yù)測的數(shù)據(jù)集用每個(gè)初級(jí)學(xué)習(xí)器進(jìn)行預(yù)測,然后將預(yù)測的所有結(jié)果取平均,再用次級(jí)訓(xùn)練器對(duì)處理后的預(yù)測結(jié)果再預(yù)測,得到最后的結(jié)果[15]。

3 基于不平衡數(shù)據(jù)的改進(jìn)Stacking模型

3.1 不平衡數(shù)據(jù)處理方法

在二分類試驗(yàn)中,一般把所關(guān)注的一類樣本,即少數(shù)類樣本視為正類,另一類則認(rèn)為是負(fù)類。當(dāng)正類的樣本數(shù)量遠(yuǎn)小于負(fù)類的樣本數(shù)量時(shí),這種情況下的數(shù)據(jù)稱為不平衡數(shù)據(jù)。

不平衡數(shù)據(jù)通常通過采樣方法來改變數(shù)據(jù)分布,以減少數(shù)據(jù)的不平衡度。采樣方法有過采樣和欠采樣,即提升少類樣本數(shù)或減少多類樣本數(shù),從而增大正類特征對(duì)分類器的影響,但若只是復(fù)制樣本的過采樣,易導(dǎo)致模型過擬合;只是對(duì)負(fù)類樣本進(jìn)行欠采樣,模型的泛化能力會(huì)降低[16]。

故本文不局限于數(shù)據(jù)采樣方法,而是結(jié)合采樣方法,并在算法層面上做出改進(jìn)。

3.2 融合隨機(jī)森林和邏輯回歸的改進(jìn)Stacking模型

每次從負(fù)類樣本中不放回抽取一定比例的樣本,保留所有正類樣本,合并成一個(gè)訓(xùn)練集,依次訓(xùn)練隨機(jī)森林模型。具體步驟:分別從負(fù)類中隨機(jī)抽取與正類一樣多、數(shù)量為正類5倍、10倍、16倍和25倍的數(shù)據(jù),與所有正類樣本構(gòu)成一個(gè)訓(xùn)練集,依次迭代訓(xùn)練五個(gè)隨機(jī)森林。

抽樣倍數(shù)不同可以得到不同參數(shù)的分類器,保證了分類器的多樣性,將得到的五個(gè)隨機(jī)森林作為初級(jí)分類器??紤]TFIDF的高維稀疏性,選擇邏輯回歸分類器作為次級(jí)分類器。圖2展示了改進(jìn)Stacking模型的一部分。

圖2 改進(jìn)Stacking模型

4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

本 文 數(shù) 據(jù) 集 來 自Kaggle(http://www.kaggle.com)上提供的Amazon電子商務(wù)平臺(tái)的購物評(píng)論。該數(shù)據(jù)集包括67992條評(píng)論和評(píng)分(1級(jí)~5級(jí)),筆者將1、2等級(jí)視為消極評(píng)論,其他視為非消極評(píng)論。數(shù)據(jù)集信息如表1所示。

表1 數(shù)據(jù)集信息

由表1可知,數(shù)據(jù)存在高度不平衡,將1、2等級(jí)的消極評(píng)論視為正類,其他等級(jí)的視為負(fù)類,正類與負(fù)類的比值達(dá)到1∶26以上。

4.1 數(shù)據(jù)清洗

本文數(shù)據(jù)集中的評(píng)論為英文評(píng)論,對(duì)于英文文本的處理包括HTML字符轉(zhuǎn)換、解碼數(shù)據(jù)、移除Stop word、移除標(biāo)點(diǎn)符號(hào)、移除表情符、拆分黏在一起的詞、去除URL等[17]。

4.2 特征提取

文本數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),機(jī)器往往是不能對(duì)這種數(shù)據(jù)進(jìn)行運(yùn)算分析的,一般要轉(zhuǎn)換成機(jī)器能分析的結(jié)構(gòu)化數(shù)據(jù),故將文本數(shù)據(jù)特征進(jìn)行向量化[18]。在文本分類中,詞向量是一種常用的文本表示方法[19]。詞條權(quán)重的計(jì)算往往需要考慮:

1)如果一個(gè)詞在一篇文檔中出現(xiàn)的頻率越多,則對(duì)文本識(shí)別的貢獻(xiàn)越大;

2)如果一個(gè)詞在所有文檔中出現(xiàn)的次數(shù)越少,則它對(duì)于不同文檔的區(qū)分能力越強(qiáng)[20]。

TFIDF綜合考慮到了這兩點(diǎn)。本文將評(píng)論中所有的詞放入tfidf的詞庫中,然后計(jì)算tfidf值作為詞條權(quán)重,將文本數(shù)據(jù)轉(zhuǎn)換為詞向量,從而進(jìn)行分類器的訓(xùn)練[21]。

4.3 評(píng)價(jià)指標(biāo)

在大多數(shù)研究中,通常用混淆矩陣來評(píng)價(jià)一個(gè)模型分類的好壞,筆者根據(jù)本文數(shù)據(jù)集高維不平衡的特征,選擇召回率(Recall)、精確率(Precision)、F1測度值(F1-Measure)和G-mean作為最終結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)[22],因?yàn)檫@種數(shù)據(jù)特征的分類準(zhǔn)確率一般會(huì)很高,而其他指標(biāo)卻不佳,所以不能選擇準(zhǔn)確率作為評(píng)價(jià)本文數(shù)據(jù)集的指標(biāo)。下面基于表2計(jì)算召回率、精確率、F1值和G-mean[23]。

表2 混淆矩陣

4)G-mean在不平衡數(shù)據(jù)分類的評(píng)價(jià)中使用較廣,它同時(shí)考慮了召回率和特異率,綜合評(píng)估了算法性能,計(jì)算公式如下:

4.4 實(shí)驗(yàn)結(jié)果

本文的抽樣比例為8∶2。由于本文主要目標(biāo)是提高正類樣本的分類效果,且結(jié)果表明在正類樣本預(yù)測效果提高的同時(shí),負(fù)類樣本分類效果依舊表現(xiàn)優(yōu)異。負(fù)類樣本的分類效果對(duì)本文研究不具有參考價(jià)值,所以表3只給出了單個(gè)隨機(jī)森林和Stacking模型的對(duì)正類預(yù)測的評(píng)價(jià)指標(biāo)的匯總。

表3 單個(gè)隨機(jī)森林和Stacking模型結(jié)果比較

由表3可以看出,Stacking模型的各項(xiàng)指標(biāo)都要優(yōu)于單個(gè)隨機(jī)森林模型。一般情況下,召回率提高的同時(shí)必然會(huì)損失一部分精確率,但本文所選擇的模型在召回率提高的同時(shí)保證了精確率,說明此模型對(duì)高維不平衡數(shù)據(jù)預(yù)測是有效的。

并且筆者將此模型的預(yù)測效果與當(dāng)前文本分類主流算法RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的預(yù)測效果進(jìn)行了比較,發(fā)現(xiàn)其準(zhǔn)確率達(dá)到了97.88%,而RNN的準(zhǔn)確率為97.58%,且此模型比RNN的運(yùn)行用時(shí)更短,這進(jìn)一步說明了本文提出的改進(jìn)Stacking模型能夠有效提高不平衡文本分類的分類效率。

5 結(jié)語

為提高消極評(píng)論的分類效果,本文提出了一種基于欠采樣的隨機(jī)森林Stacking模型,該模型充分適應(yīng)本文數(shù)據(jù)集高維不平衡特征,構(gòu)造不同倍數(shù)的欠采樣得到多個(gè)不同的基分類器,根據(jù)Stacking集成隨機(jī)森林和邏輯回歸,對(duì)測試集進(jìn)行預(yù)測,對(duì)單個(gè)隨機(jī)森林和改進(jìn)Stacking模型預(yù)測分類結(jié)果進(jìn)行了對(duì)比,并與深度學(xué)習(xí)RNN算法的分類結(jié)果和分類速度進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)Stacking模型能夠提高高維不平衡評(píng)論數(shù)據(jù)的分類效果,充分驗(yàn)證了本模型的有效性。

猜你喜歡
分類器樣本分類
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴(kuò)增分類
學(xué)貫中西(6):闡述ML分類器的工作流程
基于樸素Bayes組合的簡易集成分類器①
規(guī)劃·樣本
按需分類
教你一招:數(shù)的分類
說說分類那些事
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機(jī)集成算法
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
給塑料分分類吧
湘西| 阜新市| 阿瓦提县| 邳州市| 府谷县| 繁昌县| 正宁县| 哈尔滨市| 周至县| 牡丹江市| 株洲市| 同仁县| 克东县| 阜阳市| 无棣县| 桐梓县| 柯坪县| 辽中县| 镶黄旗| 方正县| 定州市| 乌兰浩特市| 安达市| 突泉县| 成都市| 建始县| 汉沽区| 靖边县| 威海市| 麟游县| 克什克腾旗| 临夏县| 菏泽市| 金川县| 精河县| 安吉县| 商南县| 搜索| 武威市| 浑源县| 台北市|