国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于PCA的文本特征混合選擇方法

2019-10-21 01:06:10張揚(yáng)武李國(guó)和王立梅趙晶明
關(guān)鍵詞:特征選擇子集分類器

張揚(yáng)武 李國(guó)和 王立梅 宗 恒 趙晶明

1(中國(guó)石油大學(xué)(北京)地球物理與信息工程學(xué)院 北京 102200)2(中國(guó)政法大學(xué)法治信息管理學(xué)院 北京 102200)3(中國(guó)石油大學(xué)(北京)石油數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室 北京 102200)

0 引 言

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)量快速增長(zhǎng),數(shù)據(jù)共享越來(lái)越豐富。截至到2017年3月,全世界網(wǎng)民數(shù)量達(dá)到37億[1]。過(guò)去的幾年中,網(wǎng)絡(luò)為人們創(chuàng)造了各種便利條件。進(jìn)入大數(shù)據(jù)時(shí)代,信息傳播從單一類型逐漸過(guò)渡到復(fù)合類型,不僅是難以控制,而且也很難確定和捕捉到。一些機(jī)構(gòu)開(kāi)始為公司提供信息跟蹤服務(wù),關(guān)注特別領(lǐng)域的話題跟蹤的主要工作就是對(duì)評(píng)價(jià)文本進(jìn)行分類,分類方法有基于規(guī)則的和基于統(tǒng)計(jì)的。基于規(guī)則的方法是按照已有的語(yǔ)法規(guī)則來(lái)學(xué)習(xí)一些情感詞,在已知情感詞的極性基礎(chǔ)上加入句法分析,提取情感詞所描述的屬性[2]?;谝?guī)則的分類方法在理解能力、先驗(yàn)知識(shí)和遷移能力這些方面不具備優(yōu)勢(shì),理解能力并不是依賴語(yǔ)法就能完成的,同一個(gè)詞在不同領(lǐng)域中的含義也是不一樣的,遷移能力明顯達(dá)不到人類的水平[3]。近年來(lái),逐漸采用機(jī)器學(xué)習(xí)方法來(lái)進(jìn)行文本分類,這是一類基于統(tǒng)計(jì)的方法。機(jī)器學(xué)習(xí)通過(guò)從數(shù)據(jù)中學(xué)習(xí)模型和經(jīng)驗(yàn),讓用戶獲得一個(gè)更接近事實(shí)和客觀的洞察力和解釋結(jié)果[4]。用于學(xué)習(xí)的文檔集稱為語(yǔ)料集,通常分成訓(xùn)練集和測(cè)試集兩部分。訓(xùn)練集包括那些已經(jīng)標(biāo)記好類別的文檔,而測(cè)試集是為了驗(yàn)證模型性能,包括那些未標(biāo)記的文檔。通過(guò)機(jī)器學(xué)習(xí)模型,將標(biāo)記好的文本輸入到模型進(jìn)行訓(xùn)練,獲得穩(wěn)定的分類器。然后在訓(xùn)練好的機(jī)器學(xué)習(xí)模型上,為未標(biāo)記的文本準(zhǔn)確地確定一個(gè)類別。文本自動(dòng)分類技術(shù)是在給定的分類體系下,對(duì)未知類別的文本根據(jù)其特征自動(dòng)判定其類別歸屬的過(guò)程。因此,在自然語(yǔ)言處理、信息檢索、郵件分類、話題跟蹤和數(shù)字圖書(shū)館等方面有著廣泛的應(yīng)用前景[5]。隨著大數(shù)據(jù)時(shí)代的到來(lái),特征降維在文本分類領(lǐng)域中具有非常重要的意義,也是主要挑戰(zhàn)之一。

1 相關(guān)工作

文本分類包括三個(gè)過(guò)程:特征選擇、特征抽取和文本分類[6]。特征選擇后的特征是原來(lái)特征的一個(gè)子集,而特征抽取后的新特征是原來(lái)特征的一個(gè)映射。文本數(shù)據(jù)經(jīng)常包含一些非常頻繁出現(xiàn)的詞語(yǔ),以及一些很少出現(xiàn)的術(shù)語(yǔ)[7]。最為廣泛使用的文本模型是詞袋模型(BoW),完全忽略了文檔中詞語(yǔ)的順序,只考慮單詞是否出現(xiàn)以及出現(xiàn)的次數(shù)。向量空間模型(Vector Space Model, VSM) 把文本表示成高維特征空間中的一個(gè)行向量,向量中的每一維度表示在詞典中的對(duì)應(yīng)詞的權(quán)重,即特征詞的詞頻(tf)[5]。高維的文本用權(quán)重的形式來(lái)表示,文本向量空間采用這種方法將文本集變成詞典中相應(yīng)的詞的權(quán)重矩陣[8]。最初,特征詞的權(quán)重用詞頻來(lái)表示,后來(lái)綜合使用詞頻和逆向文檔頻率(Inverse Document Frequency, IDF)來(lái)表示特征詞權(quán)值,即TF-IDF[9-10]。向量空間模型將文本內(nèi)容處理轉(zhuǎn)換為向量空間中的向量計(jì)算,用向量空間的相似度來(lái)表示文本的語(yǔ)義相似度,簡(jiǎn)單直觀,易于理解[11]。在文本預(yù)處理中,可以發(fā)現(xiàn)文本向量空間具有特征維度高和矩陣稀疏特點(diǎn)。這不僅帶來(lái)分類的時(shí)間開(kāi)銷過(guò)大,還會(huì)導(dǎo)致維數(shù)災(zāi)難問(wèn)題。因此,對(duì)特征進(jìn)行降維顯得十分重要[12-13]。提供給分類器的輸入特征應(yīng)該是與類別相關(guān)的,以減少執(zhí)行時(shí)間并提高準(zhǔn)確性[14-15]。目前存在特征選擇和特征抽取兩種方法對(duì)特征進(jìn)行降維[16]。特征選擇的目標(biāo)是為分類器提供沒(méi)有不相關(guān)和冗余特征的數(shù)據(jù),許多特征選擇算法通過(guò)使用特征排名度量作為主要或輔助機(jī)制來(lái)選擇特征。信息增益(IG)是廣泛使用的度量,用于確定機(jī)器學(xué)習(xí)領(lǐng)域中的分類任務(wù)的特征熵[17],而信息增益率是在同樣特征均勻度下的信息增益,避免特征取值過(guò)于分散而帶來(lái)的無(wú)效信息增益,這是一種特征選擇方法。它通過(guò)包含或刪除特征詞來(lái)估計(jì)文檔類別而決定特征所含的分類信息[18]。主成分分析(PCA)是一種建立在統(tǒng)計(jì)技術(shù)基礎(chǔ)上的降維方法,旨在最小化原始數(shù)據(jù)中的方差損失。作為一種特征抽取方法,PCA通過(guò)最大化離差將高維向量空間中的數(shù)據(jù)投影到低維向量空間中去[19],可以被視為用于特征抽取的有效技術(shù),適用于各種各樣的數(shù)據(jù)。

2 基本方法

2.1 信息增益率

信息增益率采用熵度量原理[20]。用E(L)表示樣本集L被分為2個(gè)類別的不確定性,類別有正類和負(fù)類。E(L)值越大,表示將某個(gè)樣本劃分為正類或負(fù)類的不確定性越高:

(1)

式中:pc取值有p1和p2,以及其他。p1為樣本集L中屬于類別1的概率,p2為樣本集L中屬于類別2的概率。|L|為樣本集L的樣本個(gè)數(shù),也就是m。L1為類別1上的樣本子集,L2為類別2上的樣本子集,即|L1|+|L2|+…+|LC|=m。樣本集按照屬性進(jìn)行劃分,E(L,vi)表示按屬性vi劃分樣本集L導(dǎo)致的期望熵:

浸米階段完成后,需進(jìn)行沖洗,防止米漿水夾在米粒間,蒸煮時(shí)容易成糊狀。蒸煮時(shí)傳統(tǒng)設(shè)備有蒸飯甑,可利用的機(jī)械設(shè)備有絞龍、立式蒸飯機(jī)、瀝水裝置等。

(2)

式中:Values(vi)為屬性vi上的所有取值的集合,Lvr為L(zhǎng)中按照屬性vi取值為r的樣本構(gòu)成的子集,|Lvr|為樣本子集Lvr的樣本個(gè)數(shù)。SplitInfo(L,vi)表示按屬性vi劃分樣本集的廣度和均勻度:

(3)

信息增益用Gain(L,vi)表示,用以衡量樣本集L按照屬性vi劃分樣本空間后的信息熵的下降:

要想解決碳會(huì)計(jì)信息披露中存在的問(wèn)題,就要規(guī)范披露內(nèi)容,建立完善的披露體系,推動(dòng)其朝著實(shí)用性、科學(xué)性和客觀性方向發(fā)展,也需要全體社會(huì)成員共同努力。針對(duì)目前披露中存在的問(wèn)題,提出以下幾點(diǎn)建議。

Gain(L,vi)=E(L)-E(L,vi)

(4)

信息增益率用GainRatio(L,vi)來(lái)表示,用以反映信息增益Gain(L,vi)和屬性vi的均勻度的比值:

由于σm+1=0,σm+2=0,…,σn=0,根據(jù)式(32)推導(dǎo)出:

用VT右乘式(24)兩邊,得到:

(5)

2.2 主成分分析

PCA是一種通過(guò)正交變換將存在相關(guān)性的高維度向量轉(zhuǎn)換成一組線性無(wú)關(guān)的低維度向量的數(shù)學(xué)方法[17]。PCA在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差陣變換成對(duì)角矩陣。用xi表示原始向量空間中的第i個(gè)樣本的文本向量,原始特征空間維度為n,xij為詞典中對(duì)應(yīng)詞j的特征值。

(6)

對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換,先求均值和方差:

(7)

(8)

(9)

PCA尋求最大方差的投影方向,設(shè)最大方差的投影方向?yàn)関的單位列向量,目標(biāo)函數(shù)為:

(10)

vT為v的轉(zhuǎn)置矩陣,滿足下列約束條件:

vTv=1

(11)

如果特征初選子集TFIDF的行數(shù)大于列數(shù),即m>n,Z投影到V上:

后面房里傳來(lái)她奶奶的叫喚,臘枝回了?。坷鞘赫业絻??我的淚水應(yīng)聲漫出,簌簌往下掉,滴在大女兒的臉上。我把她放回?fù)u籃,起身到婆婆房里。我說(shuō),媽您莫著急,我們還要找的,一定給您找到!婆婆說(shuō),我不著急。我等著你們把狼剩兒找回呢!我還要看到他成房立戶,生兒抱子!

(12)

其中:

(13)

求偏導(dǎo)數(shù)得出:

|Cov-λI|=0

(14)

由式(13)和式(14)式可以看出,最大投影方向是協(xié)方差矩陣的最大特征值所對(duì)應(yīng)的特征向量。協(xié)方差矩陣Cov為n×m的方陣, 如果m

點(diǎn)撥:本題難點(diǎn)在于需要把用含m代數(shù)式表示P,F(xiàn)點(diǎn)的縱坐標(biāo),進(jìn)一步表示線段PF的長(zhǎng),將四邊形PEDF成為平行四邊形轉(zhuǎn)化為PF=DE。由于設(shè)置了3個(gè)小練,做例2時(shí)只需將小練三個(gè)問(wèn)題拼接在一起即可完成。

Rank(Cov)=m

(15)

其特征向量數(shù)量為m,特征值數(shù)量為m,且滿足:

λ1≥λ2≥…≥λm≥0

(16)

Vm=[v1v2…vm]

(17)

顯然,將樣本投影到λ1對(duì)應(yīng)的特征向量方向v1后的方差最大,投影到v2方向后方差次之,依次減小。從分類間隔角度來(lái)看,在向量空間中進(jìn)行樣本劃分依據(jù)同類間樣本間隔小而異類間樣本間隔大。因此,投影到第一主成分(特征值最大的特征向量)方向上的方差最大,反映了經(jīng)過(guò)主成分特征抽取后信息量損失最小[21]。

3 混合特征選擇模型

實(shí)際上,用于文本分類的詞語(yǔ)非常多,并且在文本向量空間上構(gòu)造的原始特征空間具有相對(duì)較高的維度,可以高達(dá)數(shù)萬(wàn)個(gè)維度。 因此,減少文本分類的數(shù)據(jù)維度是必不可少的[22]。根據(jù)信息增益率和主成分分析方法,分為3個(gè)步驟進(jìn)行降維。第一步:進(jìn)行數(shù)據(jù)預(yù)處理,在分詞后統(tǒng)計(jì)詞頻,去掉停止詞,將文本表示成文本向量。第二步:計(jì)算每個(gè)詞語(yǔ)(即每列)的信息增益率,按降序排序,選擇那些大于閾值的特征詞用來(lái)構(gòu)造特征初選子集。第三步:采用主成分分析對(duì)特征初選子集進(jìn)行數(shù)學(xué)轉(zhuǎn)換,將其映射到低維空間,構(gòu)造特征再選子集。

《政府會(huì)計(jì)制度》將《高等學(xué)校會(huì)計(jì)制度》中“存貨”科目分解為“在途物品”“庫(kù)存物品”“加工物品”三個(gè)科目,“長(zhǎng)期投資”科目分解為“長(zhǎng)期股權(quán)投資”和“長(zhǎng)期債券投資”兩個(gè)科目,“應(yīng)繳稅費(fèi)”科目分解為“應(yīng)交增值稅”“其他應(yīng)交稅費(fèi)”兩個(gè)科目。

3.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理的任務(wù)是采用TF方法將文本表示成文本向量,包括消除標(biāo)點(diǎn)符號(hào)、去除停止詞和統(tǒng)計(jì)詞頻。TF的基本思想是詞語(yǔ)的重要性與它在文檔中出現(xiàn)的次數(shù)成正比,與詞語(yǔ)出現(xiàn)的次序無(wú)關(guān)。在python語(yǔ)言的工具中有一些函數(shù)可以用來(lái)進(jìn)行文本語(yǔ)料的預(yù)處理,例如tokenize函數(shù)可以進(jìn)行去掉標(biāo)點(diǎn)符號(hào)進(jìn)行分詞,stemmed可以去掉停止詞,counter可以統(tǒng)計(jì)詞頻。經(jīng)過(guò)預(yù)處理之后,TF的文本向量矩陣表示成:

(18)

式中:v是詞典中詞語(yǔ)總數(shù),m是語(yǔ)料集中的文本總數(shù),wij是第i篇文檔中第j詞的統(tǒng)計(jì)詞頻。文本類別標(biāo)簽是Y:

(19)

第二,制定了完善的法律法規(guī)體系。西方發(fā)達(dá)國(guó)家十分注重契約精神,而契約精神的基礎(chǔ)必須有完善的法律作為保障。PPP模式成功運(yùn)作的前提條件就是有完善的法律作支撐,這僅保障了合作雙方的權(quán)益,也避免了各種政策變化帶來(lái)的風(fēng)險(xiǎn),使PPP模式能夠得到健康運(yùn)行。

3.2 特征初選子集

根據(jù)式(1)-式(5),依次計(jì)算W中每一列的信息增益率。每個(gè)詞語(yǔ)對(duì)應(yīng)的信息增益率如下:

[rig1,rig2,…,rigi,…,rigv]

(20)

式中:rigi是第i個(gè)詞語(yǔ)(即第i列)的信息增益率,信息增益率越低說(shuō)明該詞語(yǔ)在分類作用上越低。設(shè)置閾值,將低于閾值的列從矩陣中刪除,剩余的列構(gòu)成特征初選子集Wf,并按照信息增益率大小降序排列:

(21)

特征初選子集中的值wfij是詞頻統(tǒng)計(jì)值,沒(méi)有考慮該詞在第i篇文檔之外出現(xiàn)的情況。假設(shè)一種極端情況,如果該詞在每一篇文檔中都出現(xiàn),它的分類作用應(yīng)該等于無(wú)。因此,考慮到逆向文檔頻率對(duì)文本向量值的影響。TF-IDF的基本思想是詞語(yǔ)的重要性與它在文檔中出現(xiàn)的次數(shù)成正比,與此同時(shí),還與其在語(yǔ)料庫(kù)其他文檔中出現(xiàn)的頻率成反比。在python語(yǔ)言的工具包中,內(nèi)建函數(shù)TfidfVectorizer可以用來(lái)將文本表示成TF-IDF值的文本向量:

(22)

原始文本特征空間v是詞典中單詞總數(shù),經(jīng)過(guò)第一次降維的特征出現(xiàn)子集的維數(shù)是n,減少的維度是v-n。

3.3 特征再選子集

特征初選子集TFIDF是一個(gè)m×n的樣本空間,依據(jù)式(7)-式(9),將矩陣TFIDF進(jìn)行z標(biāo)準(zhǔn)化操作,即Z=zscore(TFIDF),對(duì)數(shù)據(jù)進(jìn)行修正以滿足均值和標(biāo)準(zhǔn)差要求。

定義1Cov是具有n階的對(duì)稱協(xié)方差矩陣,并且存在n個(gè)單位列向量的正交矩陣V,即:

(23)

正交矩陣V由對(duì)應(yīng)于主對(duì)角線上的特征值的特征向量組成。三角矩陣用Λ表示,并且在等式的兩邊左乘V,根據(jù)式(13),得到如下等式:

(24)

為了能夠保證高中化學(xué)分層教學(xué)能夠發(fā)揮出應(yīng)有的作用,不斷地提升高中化學(xué)教學(xué)水平以及學(xué)生的化學(xué)綜合能力,相關(guān)的教職人員在實(shí)際教學(xué)的過(guò)程當(dāng)中必須要對(duì)教學(xué)目標(biāo)進(jìn)行準(zhǔn)確的分層處理。只有在明確的教學(xué)目標(biāo)下,相關(guān)的高中化學(xué)教職人員才能夠順利的開(kāi)展分層教學(xué),進(jìn)而實(shí)現(xiàn)既定教學(xué)目標(biāo)。

(25)

定義2存在m×m的正交矩陣U能夠滿足:

UT·U=I

(26)

式中:I是單位矩陣。三角矩陣Λ的對(duì)角元素是非負(fù)實(shí)數(shù),因此,可以分解為:

(27)

同時(shí),三角矩陣Λ的秩為m,且λm+1=0,λm+2=0,…,λn=0,因此,根據(jù)式(27),S可以擴(kuò)展為n×n的矩陣:

(28)

根據(jù)式(25)-式(27),可以推導(dǎo)出:

(29)

將式(25)的左邊代入式(29),得到:

Z=U·S·VT

(30)

構(gòu)造拉格朗日乘子式:

如果特征初選子集TFIDF的行數(shù)小于列數(shù),即m

Z·V=U·S

(31)

當(dāng)前,田園綜合體的建設(shè)是解決城鄉(xiāng)二元矛盾,推動(dòng)鄉(xiāng)村振興戰(zhàn)略的重要?jiǎng)?chuàng)新和具體實(shí)踐。充分利用現(xiàn)有的農(nóng)業(yè)資源,借助“農(nóng)業(yè)+互聯(lián)網(wǎng)”,統(tǒng)籌兼顧,實(shí)現(xiàn)多元化、全面性協(xié)調(diào)發(fā)展。充分調(diào)動(dòng)農(nóng)民的參與積極性,以解決“三農(nóng)”為主要目標(biāo),堅(jiān)持以科技創(chuàng)新為核心,不斷優(yōu)化升級(jí)產(chǎn)業(yè)結(jié)構(gòu),大力推動(dòng)田園綜合體的發(fā)展,實(shí)現(xiàn)產(chǎn)品及產(chǎn)業(yè)的更好發(fā)展,進(jìn)一步帶動(dòng)鄉(xiāng)村經(jīng)濟(jì)的增長(zhǎng),讓生活環(huán)境優(yōu)美,農(nóng)民增收致富,建設(shè)一個(gè)要素齊全、功能多樣、穩(wěn)健可持續(xù)的田園綜合體。

ZT·U=(U·S·VT)T·U=V·ST=V·S

(32)

因此,TFIDF既可以在列向量方向取得降維也可以通過(guò)行向量方向,這取決于特征數(shù)量和樣本數(shù)量的大小關(guān)系。換言之,第二次降維的幅度為|m-n|。

根據(jù)式(23)中的三角矩陣的特征值降序排列,特征值λ1對(duì)應(yīng)特征向量v1,特征值λ2對(duì)應(yīng)特征向量v2,…,特征值λn對(duì)應(yīng)特征向量vn。由這些特征向量構(gòu)成正交投影矩陣V:

(3)提高業(yè)務(wù)水平。要想快速實(shí)現(xiàn)以上兩點(diǎn)的管理機(jī)制,就必須加強(qiáng)學(xué)校資產(chǎn)管理人員和各部門資產(chǎn)管理人員的日常培訓(xùn)工作,使其提升互聯(lián)網(wǎng)意識(shí)及信息化管理技術(shù)水平,從而使管理工作高效進(jìn)行。

V=[v1v2…vmvm+1…vn]

(33)

根據(jù)式(28),假設(shè)m

(34)

我把眼光移到楊校長(zhǎng)身后的墻上。墻上掛著世界地圖和中國(guó)地圖。我知道楊校長(zhǎng)是胸懷世界的,可眼前的世界真是太小了,五大洲四大洋加在一起,也不過(guò)就那么兩尺來(lái)寬。

在獨(dú)立學(xué)院設(shè)立商務(wù)英語(yǔ)專業(yè)是可行的,并且有非常美好的前景,但是,專業(yè)的建設(shè)任重而道遠(yuǎn),必須做好長(zhǎng)遠(yuǎn)規(guī)劃。首先,必須重視師資隊(duì)伍建設(shè),提高教師待遇,鼓勵(lì)教師從事商務(wù)英語(yǔ)教學(xué)等相關(guān)領(lǐng)域的研究。其次,要在實(shí)踐中發(fā)現(xiàn)問(wèn)題和解決問(wèn)題,通過(guò)優(yōu)化課程設(shè)置和教學(xué)方法等手段不斷提高教學(xué)水平和人才培養(yǎng)質(zhì)量,逐步創(chuàng)建一套適合自己的理論體系來(lái)指導(dǎo)和推動(dòng)商務(wù)英語(yǔ)專業(yè)的建設(shè)。最后,作為近幾年剛剛誕生的新專業(yè),還需要政府部門政策和財(cái)力的支持,各高校之間也應(yīng)該增進(jìn)交流,總結(jié)和推廣成功的辦學(xué)經(jīng)驗(yàn),不斷提高商務(wù)英語(yǔ)專業(yè)的建設(shè)水平,為商務(wù)英語(yǔ)專業(yè)取得更大發(fā)展打下堅(jiān)實(shí)基礎(chǔ)。

V·S=[σ1v1,σ2v2,…,σmvm]=Z·Vm

(35)

定義3主成分矩陣是TFIDF的標(biāo)準(zhǔn)化矩陣Z在特征向量V上的投影,稱為矩陣PC:

油管修復(fù)工藝及質(zhì)量現(xiàn)狀研究………………………………………………………………………………于愛(ài)云,王玉鵬(1.11)

式中:yi是類別1,2,…,|C|之一。

PC=Z·Vm=[pc1,pc2,…,pcm]

(36)

一般情況下,詞典中的詞語(yǔ)數(shù)量數(shù)萬(wàn)以上,語(yǔ)料庫(kù)中的文本數(shù)量也是成千上萬(wàn),將特征初選子集TFIDF投影到Vm上構(gòu)成特征再選子集,這種映射實(shí)現(xiàn)了降維。

3.4 混合選擇模型

混合特征選擇模型包括三個(gè)部分。首先是預(yù)處理模塊,其次是特征初選模塊(PFS),然后是特征再選模塊(SFS)。模型結(jié)構(gòu)如圖1所示。

圖1 混合特征選擇模型

Preprocessing模塊的輸入是語(yǔ)料庫(kù),對(duì)文本進(jìn)行分詞和去掉停止詞之后,統(tǒng)計(jì)詞頻,該模塊輸出為矩陣W。PFS模塊是特征初選模塊,對(duì)詞頻矩陣W的每列計(jì)算信息增益率,選擇那些信息增益率大于閾值的列來(lái)構(gòu)成特征初選子集,然后根據(jù)TF-IDF思想計(jì)算特征初選子集的賦值,該模塊輸出為矩陣TFIDF。SFS模塊是特征再選模塊,將輸入的TFIDF映射為在主成分向量上的投影矩陣,即Z(TFIDE)·Vm。

m個(gè)主成分[pc1,pc2,…,pcm]構(gòu)成特征再選矩陣,其中,第一主成分pc1的離差最大,第二主成分pc2的離差次之,依此類推。特征再選矩陣PC被輸入到分類器進(jìn)行訓(xùn)練。

4 實(shí)驗(yàn)分析

4.1 語(yǔ)料集

20 NewsGroup語(yǔ)料庫(kù)是機(jī)器學(xué)習(xí)中的標(biāo)準(zhǔn)數(shù)據(jù)集,涵蓋來(lái)自20個(gè)不同新聞組的18 828個(gè)文檔。 為了具有普遍性和可重復(fù)性,實(shí)驗(yàn)選擇20 NewsGroup作為文本集[23]。將近20 000篇文檔被平均分為20個(gè)不同組,有些新聞組具有相似的共同的大主題,例如,rec.autos和rec.autos都具有運(yùn)動(dòng)類主題。

很顯然,訓(xùn)練集中的文本大主題是否具有相關(guān)性對(duì)模型的分類結(jié)果具有很大影響,因此,實(shí)驗(yàn)設(shè)計(jì)兩組文本集:DatasetCats1和DatasetCats2,如表1所示。DatasetCats1都具有與體育有關(guān)的主題內(nèi)容,經(jīng)過(guò)python自然語(yǔ)言工具包預(yù)處理后,共有30 466個(gè)詞語(yǔ)和3 979篇文檔,2 389篇文檔用于訓(xùn)練,1 590篇文檔用于測(cè)試驗(yàn)證。DatasetCats2具有不同的主題內(nèi)容,經(jīng)過(guò)python自然語(yǔ)言工具包預(yù)處理后,共有36 712個(gè)詞語(yǔ)和3 936篇文檔,2 363篇文檔用于訓(xùn)練,1 573篇文檔用于測(cè)試驗(yàn)證。

根據(jù)Chemeor中的數(shù)學(xué)模型,結(jié)合室內(nèi)實(shí)驗(yàn)結(jié)果,得到模擬用的化學(xué)驅(qū)參數(shù),主要包括聚合物粘度參數(shù)、聚合物及表面活性劑吸附參數(shù)和注入體系相對(duì)滲透率參數(shù)。

表1 DatasetCats1和DatasetCats1

4.2 實(shí)驗(yàn)結(jié)果

效果評(píng)估函數(shù)根據(jù)混淆矩陣計(jì)算分類器的準(zhǔn)確率、召回率和F1度量。其中,準(zhǔn)確率衡量標(biāo)記為正類的樣本中實(shí)際為正類的百分比,反映了當(dāng)一個(gè)樣本被判定為正類時(shí),實(shí)際為正類的概率。召回率反映了正確識(shí)別的正類數(shù)量在實(shí)際正類數(shù)量中的比例。F1度量是一種準(zhǔn)確率和召回率調(diào)和均值,它賦予準(zhǔn)確率和召回率相等的權(quán)重。

一般常用的文本分類器有支持向量機(jī)(Support Vector Machine, SVM)和樸素貝葉斯。(Naive Bayes, NB)支持向量機(jī)通過(guò)尋求最大分類間隔,實(shí)現(xiàn)結(jié)構(gòu)化風(fēng)險(xiǎn)最小來(lái)提高分類模型學(xué)習(xí)和泛化能力[24]。樸素貝葉斯分類器是一系列簡(jiǎn)單的概率分類器,根據(jù)貝葉斯概率原理,基于在特征之間具有很強(qiáng)的獨(dú)立性假設(shè)之上,其模型包括多項(xiàng)式模型和伯努利模型[25-26],多項(xiàng)式樸素貝葉斯通過(guò)后驗(yàn)概率進(jìn)行文本分類,容易實(shí)現(xiàn),運(yùn)行速度快。實(shí)驗(yàn)選擇支持向量機(jī)和多項(xiàng)式樸素貝葉斯作為分類器用以比較分類性能。

實(shí)驗(yàn)分為兩步:

第一步,將數(shù)據(jù)集DatasetCats1和DatasetCats2直接輸入給分類器進(jìn)行訓(xùn)練,在數(shù)據(jù)集DatasetCats1上的分類性能如表2所示,在數(shù)據(jù)集DatasetCats2上的分類性能如表3所示。

表2 DatasetCats1直接輸入分類器的分類性能(相似主題)

表3 DatasetCats2直接輸入分類器的分類性能(不同主題)

從表2和表3的平均分類性能數(shù)值中可以看出,在DatasetCats1(相似主題)數(shù)據(jù)集上,兩個(gè)分類器的分類性能相當(dāng),在DatasetCats2(不同主題)數(shù)據(jù)集上,SVM分類器好于NB分類器。

第二步,在數(shù)據(jù)集DatasetCats1和DatasetCats2經(jīng)過(guò)混合特征選擇后,再輸入給分類器進(jìn)行訓(xùn)練。將數(shù)據(jù)集DatasetCats1分為DatasetCats1_train訓(xùn)練集和DatasetCats1_test測(cè)試集。DatasetCats1_train訓(xùn)練集的文本向量矩陣為2 389×30 466,維數(shù)為30 466,在特征初選模塊PFS中,計(jì)算它們的信息增益率,選擇其中的6 702列,重新按照TF-IDF計(jì)算文本向量,構(gòu)造特征初選子集DatasetCats1_train_PFS,該矩陣為2 389×6 702。根據(jù)式(33)和式(36),將DatasetCats1_train_PFS矩陣投影到主成分空間[v1v2…v2 389],構(gòu)造特征再選子集DatasetCats1_train_SFS,該矩陣為2 389×2 389。然后將其輸入到NB分類器和SVM分類器進(jìn)行訓(xùn)練。DatasetCats1_test測(cè)試集為1 590×30 466,選擇上述索引的6702列,構(gòu)造DatasetCats1_test_PFS,該矩陣為1 590×6 702。將DatasetCats1_ test _PFS矩陣投影到主成分空間[v1v2…v2 389],構(gòu)造DatasetCats1_test_SFS,該矩陣為1 590×2 389,用訓(xùn)練好的分類器預(yù)測(cè)測(cè)試文本向量,分類結(jié)果如表4。通過(guò)兩次降維,維度減少了92%。

表4 DatasetCats1混合特征選擇后的分類性能(相似主題)

將數(shù)據(jù)集DatasetCats2分為DatasetCats2_train訓(xùn)練集和DatasetCats2_test測(cè)試集。DatasetCats2_train訓(xùn)練集的文本向量矩陣為2 363×36 712,維數(shù)為36 712,在特征初選模塊PFS中,選擇其中的6 903列,構(gòu)造特征初選子集DatasetCats2_train_PFS,該矩陣為2 363×6 903。將DatasetCats2_train_PFS矩陣投影到主成分空間[v1v2…v2 363],構(gòu)造特征再選子集DatasetCats2_train_SFS,該矩陣為2 363×2 363。然后將其輸入到NB分類器和SVM分類器進(jìn)行訓(xùn)練。DatasetCats2_test測(cè)試集為1 573×36 712,選擇上述索引的6 903列,構(gòu)造DatasetCats2_test_PFS,該矩陣為1 573×6 903。將DatasetCats2_ test _PFS矩陣投影到主成分空間[v1v2…v2 363],構(gòu)造DatasetCats2_test_SFS,該矩陣為1 573×2 363,用訓(xùn)練好的分類器預(yù)測(cè)測(cè)試文本向量,分類結(jié)果如表5所示。通過(guò)兩次降維,維度減少了94%。

表5 DatasetCats2混合特征選擇后的分類性能(不同主題)

對(duì)比表2和表4,在相似主題的數(shù)據(jù)集上,對(duì)于直接輸入文本向量和經(jīng)過(guò)混合特征選擇,NB分類器的平均準(zhǔn)確率都為0.96;SVM分類器的平均準(zhǔn)確率,前者為0.96,后者為0.97。兩個(gè)分類器的平均準(zhǔn)確率提升大約0.5%。

對(duì)比表3和表5,在不同主題的數(shù)據(jù)集上,對(duì)于直接輸入文本向量和經(jīng)過(guò)混合特征選擇, NB分類器的平均準(zhǔn)確率,前者為0.93,后者為0.94; SVM分類器的平均準(zhǔn)確率,前者為0.96,后者為0.97。兩個(gè)分類器的平均準(zhǔn)確率提升大約1%?;旌咸卣鬟x擇方法在兩個(gè)數(shù)據(jù)集上的分類性能如圖2所示。

圖2 平均準(zhǔn)確率

5 結(jié) 語(yǔ)

為了有效降低特征空間維度,基于PCA的混合特征選擇方法將信息增益率和主成分分析方法結(jié)合起來(lái),通過(guò)將特征初選子集映射到主成分空間,實(shí)現(xiàn)二次降維。實(shí)驗(yàn)結(jié)果表明,在相似主題數(shù)據(jù)集上采用該方法的降維效果達(dá)到92%,平均準(zhǔn)確率提升大約0.5%;而在不同主題數(shù)據(jù)集上的降維效果達(dá)到94%,平均準(zhǔn)確率提升大約1%。在大數(shù)據(jù)時(shí)代,對(duì)于高維與稀疏的文本集,混合特征選擇方法不但滿足了特征降維需求,大大減少了計(jì)算開(kāi)銷,而且也提高了分類性能。此外,實(shí)驗(yàn)選擇的文本數(shù)據(jù)集存在一定的主題相關(guān)度,實(shí)驗(yàn)結(jié)果也表明主題分布對(duì)特征降維與分類性能有影響,這將是下一步開(kāi)展的研究方向。

猜你喜歡
特征選擇子集分類器
由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
關(guān)于奇數(shù)階二元子集的分離序列
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
聯(lián)合互信息水下目標(biāo)特征選擇算法
每一次愛(ài)情都只是愛(ài)情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
胶南市| 九寨沟县| 招远市| 白玉县| 株洲市| 孙吴县| 二手房| 福鼎市| 改则县| 偃师市| 河曲县| 新蔡县| 体育| 科技| 大埔区| 临猗县| 额敏县| 溧阳市| 五大连池市| 湘乡市| 无为县| 静安区| 杂多县| 全州县| 南充市| 西峡县| 外汇| 寻乌县| 石泉县| 青州市| 南充市| 扶余县| 邵阳市| 宕昌县| 绥中县| 应城市| 昌都县| 房山区| 若羌县| 乐都县| 昭觉县|