国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

集成學(xué)習(xí)在短文本分類中的應(yīng)用研究

2019-04-28 12:24:23王國薇黃浩周剛胡英
現(xiàn)代電子技術(shù) 2019年24期
關(guān)鍵詞:集成學(xué)習(xí)機器學(xué)習(xí)深度學(xué)習(xí)

王國薇 黃浩 周剛 胡英

摘要:為了進一步提高基于深度神經(jīng)網(wǎng)絡(luò)短文本分類性能,提出將集成學(xué)習(xí)方法應(yīng)用于5種不同的神經(jīng)網(wǎng)絡(luò)文本分類器,即卷積神經(jīng)網(wǎng)絡(luò)、雙向長短時記憶網(wǎng)絡(luò)、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)、分層注意力機制神經(jīng)網(wǎng)絡(luò),分別對兩種集成學(xué)習(xí)方法( Bagging,Stacking)進行了測試。實驗結(jié)果表明:將多個神經(jīng)網(wǎng)絡(luò)短文本分類器進行集成的分類性能要優(yōu)于單一文本分類模型:進一步兩兩集成的實驗驗證了單個模型對短文本分類性能的貢獻率。

關(guān)鍵詞:短文本分類;機器學(xué)習(xí);深度學(xué)習(xí);集成學(xué)習(xí);Bagging;Stacking

中圖分類號:TN911.1-34;TP391

文獻標識碼:A

文章編號:1004-373X( 2019)24-0140-06

0 引言

近年來隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)用戶的數(shù)量呈現(xiàn)出爆發(fā)式的增長。越來越多的網(wǎng)絡(luò)用戶喜歡在新浪微博、今日頭條等社交平臺上發(fā)表短文本形式的言論。這些短文本包含天氣、政治、經(jīng)濟、文化、對電影的評價等,對這些短文本進行分類從而提取出有用的信息,更好地為網(wǎng)絡(luò)用戶服務(wù)成為了關(guān)鍵。文本分類是用計算機對文本集(其他實體或物件)按照一定的分類體系或標準進行自動分類標記。短文本由于受字數(shù)的限制,有效信息少、特征難提取等因素與長文本分類相比難度更大。

傳統(tǒng)的機器學(xué)習(xí)文本分類方法主要包括潛在狄利克雷分布( Latent Dirichlet Allocation.LDA)[1]、K-最近鄰法(K - Nearest Neighbor,KNN)[2]、支持向量機(SupportVector Machine,SVM)[3]等。這些方法目前較為成熟,但分類效果嚴重依賴于所構(gòu)建特征的質(zhì)量和模型參數(shù)的調(diào)優(yōu),整個過程非常耗時[4]。隨著神經(jīng)網(wǎng)絡(luò)在圖像識別和語音識別領(lǐng)域取得的巨大成功,越來越多的學(xué)者把神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用到自然語言處理領(lǐng)域。文獻[5]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在句子分類上。文獻[6]將循環(huán)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合應(yīng)用在文本分類上。文獻[7]將分層注意力機制應(yīng)用在文本分類上。文獻[8]將字符級的卷積神經(jīng)網(wǎng)絡(luò)用于文本分類上。在單一模型的短文本分類上,上述幾種方法由于模型復(fù)雜度高,研究較為成熟,已經(jīng)取得了不錯的成果,但效果提升空間有限。本文提出采用結(jié)合多種最優(yōu)短文本分類模型的集成學(xué)習(xí)方法來提高短文本分類的效果。集成學(xué)習(xí)[9]是將多個分類器進行組合從而獲得更優(yōu)性能的機器學(xué)習(xí)方法。目前廣為通用的集成方法包括文獻[10]提出基于Bag-glng的概率神經(jīng)網(wǎng)絡(luò)集成分類算法,該方法比傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)和決策樹分類方法效果更好;文獻[11]提出的隨機森林(Random Forest,RF)算法,綜合利用多個決策樹進行分類;文獻[12]提出基于Stacking的組合分類方法,組合了樸素貝葉斯、最大熵、支持向量機和隨機梯度下降線性分類方法對中文情感分類進行研究,實驗結(jié)果表明該方法能獲得比基分類器結(jié)果更佳的分類效果。

上述實驗表明集成學(xué)習(xí)可以通過集成多個模型來提升任務(wù)指標。文獻[9]曾指出集成方法比單個學(xué)習(xí)器效果顯著的三個主要原因:一是學(xué)習(xí)任務(wù)的假設(shè)空間一般很大,使用單個學(xué)習(xí)器通常不能學(xué)習(xí)到足夠的信息;二是弱學(xué)習(xí)器的學(xué)習(xí)過程可能存在缺陷;三是單個學(xué)習(xí)器學(xué)習(xí)到的假設(shè)空間可能并不真實,而通過結(jié)合多個學(xué)習(xí)器可以盡可能學(xué)習(xí)到真實的假設(shè)空間。

在集成學(xué)習(xí)方法中,為保證組合分類器取得比單個分類器更好的分類效果[13],在構(gòu)造過程中需要遵循兩個原則:一是組合分類器中的各個基分類器產(chǎn)生的錯誤是不相關(guān)的;二是各個基分類器的分類效果至少要比隨機預(yù)測的效果好。因此本文采用當(dāng)下較為流行的幾種短文本分類方法作為基分類器,即卷積神經(jīng)網(wǎng)絡(luò)( Convolu-tional Neural Networks,CNN)、雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long Short Term Memory Networks. Bi -LSTM)、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional - Long ShortTerm Memory Networks,C-LSTM)、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)( Recurrent - Convolutional Neural Networks)、分層注意力機制神經(jīng)網(wǎng)絡(luò)( Hierarchical Attention Networks,HAN)。這5種方法有著各自擅長的領(lǐng)域,它們在處理同一文本集時所產(chǎn)生的預(yù)測效果具有相對獨立的特性,滿足了錯誤不相關(guān)且優(yōu)于隨機預(yù)測原則。因此本文將集成學(xué)習(xí)應(yīng)用于這5種不同神經(jīng)網(wǎng)絡(luò)文本分類模型。

1 基分類器短文本分類方法

1.1 卷積神經(jīng)網(wǎng)絡(luò)

文獻[5]提出用CNN進行短文本分類,CNN可以很好地提取出文本的局部特征。CNN由輸入層、卷積層、池化層和輸出層構(gòu)成,通過反向傳播算法進行參數(shù)優(yōu)化。相鄰兩層之間只有部分節(jié)點相連。相比于全連接神經(jīng)網(wǎng)絡(luò)的參數(shù),它的參數(shù)大大減少,便于模型的訓(xùn)練。

1.2 雙向長短時記憶網(wǎng)絡(luò)

文獻[14]提出用Bi-LSTM進行文本分類,即當(dāng)前的狀態(tài)不僅僅與之前的句子有關(guān)系,還可能與之后的句子有關(guān)系。Bi-LSTM就是同時采用兩個LSTM沿著序列的兩個方向進行掃描,用來捕獲文檔所包含的所有重要信息。

1.3 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)

文獻[6]提出用循環(huán)卷積網(wǎng)絡(luò)的方法進行文本分類。使用該模型進行文本分類時首先利用雙向循環(huán)網(wǎng)絡(luò)對所有詞進行上下文向量表示,然后將上下文向量及當(dāng)前詞的詞向量組合成當(dāng)前詞的表示,最后利用最大池技術(shù)提取重要的上下文信息得到文本表示,利用文本表示進行文本分類。

循環(huán)卷積神經(jīng)網(wǎng)絡(luò)能夠較多地保留文本的詞序信息[15],捕獲長距離的文本依賴關(guān)系,精確刻畫詞的語義。

1.4 卷積循環(huán)神經(jīng)網(wǎng)絡(luò)

結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點,文獻[16]提出用C-LSTM模型進行文本分類。C-LSTM利用CNN提取出短語的特征,再送入到LSTM網(wǎng)絡(luò)獲取句子的特征。

卷積循環(huán)神經(jīng)網(wǎng)絡(luò)既能獲取短語、句子的局部特征也能獲取全文中的時態(tài)句子語義。

1.5 分層注意力機制

文獻[7]提出用注意力機制模型進行文本分類。注意力機制( Attention Mechanisms)是自然語言處理領(lǐng)域一種常用的建模長時間記憶機制,能夠直觀地給出每個詞對結(jié)果的貢獻。Attention的實現(xiàn)是通過保留GRU編碼器對輸入序列的中間輸出結(jié)果,然后訓(xùn)練一個模型來對這些輸入進行選擇性的學(xué)習(xí)并且在模型輸出時將輸出序列與之進行關(guān)聯(lián)。

2 集成學(xué)習(xí)方法

集成學(xué)習(xí)(Ensemble Leaming)也被稱為多分類器系統(tǒng)( Multi-classifier System)[17]。其主要思想是先通過一定的規(guī)則生成多個基學(xué)習(xí)器,再采用某種集成策略進行組合,最后綜合判斷輸出結(jié)果。

基學(xué)習(xí)器一般有兩種選擇:第一種稱為同質(zhì)學(xué)習(xí)器( Homogeneous),即所有的學(xué)習(xí)器都是一個種類的;第二種稱為異質(zhì)學(xué)習(xí)器( Heterogeneous),即所有的學(xué)習(xí)器不全是一個種類。常見的結(jié)合策略有平均法、投票法、學(xué)習(xí)法。本文使用常見的Bagging和Stacking兩種流行的集成學(xué)習(xí)方法。

2.1 基于Bagging的集成學(xué)習(xí)方法

Bagging集成學(xué)習(xí)方法是Bootstrap Aggregating的縮寫。1996年,Breima提出Bagging方法[9]。Bagging方法框架結(jié)構(gòu)圖如圖1所示。

對于給定的包含m個樣本訓(xùn)練集,采用有放回的隨機抽取,抽取出T個含有m個樣本的訓(xùn)練集,初始訓(xùn)練集中樣本在整個迭代過程中可能出現(xiàn)多次,也可能不出現(xiàn),每輪迭代用于訓(xùn)練的樣本之間互相獨立。然后基于每個采樣集訓(xùn)練出一個基學(xué)習(xí)器,再將這些基學(xué)習(xí)器進行結(jié)合。一般而言,在基學(xué)習(xí)器性能相差較大時宜采用加權(quán)平均法,如果每個個體學(xué)習(xí)器有一個權(quán)值w,則最終預(yù)測為:

實驗中基學(xué)習(xí)器分別為:CNN,RNN,CRNN,RCNN,HAN。由于這幾種基分類器性能相近,故本文選用平均法作為結(jié)合策略。

2.2 基于Stacking的組合分類方法

基于Stacking的組合分類器方法是目前比較主流的組合分類方法[18]。Wolpert最早提出了Stacking思想,介紹了Stacking是一種估計和修正偏差的工具,可以用來減少模型的泛化誤差[19]。其后Beriman使用交叉驗證,大大提高了訓(xùn)練的效率[9]。Stacking框架結(jié)構(gòu)圖如圖2所示。

Stacking方法由樣本訓(xùn)練集m利用Ⅳ種算法L1、L2…,LN處理所得。樣本訓(xùn)練集m包含實例集m i=(xi,yi),其中,xi為特征向量矩陣,yi為其所對應(yīng)的標簽。在第一階段,基學(xué)習(xí)器C1,C2?!?,CN由各個分類算法訓(xùn)練產(chǎn)生,即Ci=Li(m)。在下一階段則將基學(xué)習(xí)器預(yù)測的結(jié)果拼接起來作為元特征,輸入一個新的分類算法再次學(xué)習(xí)出一個分類器,該分類器即為元分類器。實驗中選用N=5,基學(xué)習(xí)器分別為:CNN,RNN,CRNN,RCNN,HAN,元分類器為Logistic Regression。

在訓(xùn)練時,使用k -fold交叉驗證法產(chǎn)生元分類器的訓(xùn)練集,即將訓(xùn)練實例分成大小相等的k份,其中一份用作驗證集合,其余k一1份用作對Ⅳ個分類器的訓(xùn)練集合。本文中k=5,即5-flod交叉驗證法進行訓(xùn)練。

3 實驗分析與比較

3.1 實驗數(shù)據(jù)及評價指標

為了驗證本文方法的有效性,實驗數(shù)據(jù)為Kaggle中Machine Learning Homework 4- Text Sentiment Classifi-cation的20萬條訓(xùn)練數(shù)據(jù)用于消極和積極兩種情感分類,每條句子進行了消極/積極情感標注。訓(xùn)練集,驗證集和測試集按照8:1:1的比例劃分。為了驗證實驗結(jié)果的泛化性,又采用文獻[5]提供的電影評論MR數(shù)據(jù)集進行測試。MR數(shù)據(jù)集有10 662條句子,為用戶對該電影積極和消極的評論兩類。

實驗中,使用準確率( Precision)作為評價標準。定義如下:

Ac=分類正確的文本數(shù)/總的文本數(shù) ×100%

(3)

3.2 詞嵌入向量的生成

首先對數(shù)據(jù)進行預(yù)處理,對全英文單詞中字母重復(fù)的最大次數(shù)超過2次的進行清除,然后使用word2vec工具生成用于訓(xùn)練詞向量的語料庫。對短文本進行詞向量的訓(xùn)練,每個單詞Wi。用訓(xùn)練好的詞向量表示,如下:

Wi=(w1,w2,…,wk)

(4)式中:k表示通過word2vec訓(xùn)練后形成詞向量的維度;w1表示詞向量中第i維度上的權(quán)重。句子S可以用單詞級聯(lián)進行表示:

式中:“0”為級聯(lián)操作符;Ⅳ表示該句子中單詞的個數(shù)。同理文本把相應(yīng)的句子串聯(lián)在一起如下:

式中,m表示文本T中句子的個數(shù)。

由此可得句子的矩陣表示,該矩陣將作為各個模型的輸人數(shù)據(jù)。實驗中詞向量的維度設(shè)為200。

3.3 損失函數(shù)

文本使用最大熵損失函數(shù),損失函數(shù)為:式中:N為訓(xùn)練樣本數(shù);c為數(shù)據(jù)集包含的類別數(shù);pi為第i個類別的概率。這里使用時序后向傳播(Back Prop-agation Through Time,BPTT)來對網(wǎng)絡(luò)進行訓(xùn)練。

3.4 模型方法與環(huán)境配置

本文的實驗環(huán)境:操作系統(tǒng)Ubuntu 16.04,內(nèi)存128 GB,CPU為兩顆Xeon2630V4,GPU為GTX1080TI。深度學(xué)習(xí)開發(fā)環(huán)境為Python 3.6.4+Tensorflow l.5.0。

訓(xùn)練中的所有權(quán)重隨機初始化為標準差為0.1的正態(tài)分布隨機數(shù),偏置項初始化為0.1。在實驗中,采用Momentum優(yōu)化方法來訓(xùn)練模型,丟棄率為0.3,學(xué)習(xí)率為0.1,學(xué)習(xí)率衰減系數(shù)為0.9,最小學(xué)習(xí)率為0.005,早停止(Early Stop)為30,詞向量維度為200,批訓(xùn)練樣本數(shù)為128。各模型中的參數(shù)如表1所示。Bagging集成方法如第3.1節(jié)中介紹。Stacking集成方法如第3.2節(jié)中介紹。

3.5 實驗結(jié)果與分析

3.5.1 詞嵌入方式

本文主要目的在于進一步提高基于深度神經(jīng)網(wǎng)絡(luò)短文本分類的性能。文獻[5]中CNN模型數(shù)據(jù)有四種不同方式的詞向量輸入:

1)所有的詞向量都是隨機初始化的,同時當(dāng)作訓(xùn)練過程中優(yōu)化的參數(shù)(rand);

2)所有的詞向量直接使用word2vec工具得到結(jié)果,并且是固定不變的(static);

3)所有的詞向量直接使用word2vec工具得到結(jié)果,在訓(xùn)練的模型中也當(dāng)作可優(yōu)化的參數(shù)( non-static);

4)將static和non-static結(jié)合(multichannel)。

利用上述4種方式分別進行測試,結(jié)果如表2所示。

從表2看出,CNN-non-static的準確率為0.816 9優(yōu)于其他模型,因此選用CNN-non-static模型來進行下面的實驗。

3.5.2 集成學(xué)習(xí)的有效性

根據(jù)上述的實驗設(shè)計,主要實驗結(jié)果如表3所示?;鶎W(xué)習(xí)器中RCNN的效果最優(yōu),準確率為0.823 0。將集成學(xué)習(xí)應(yīng)用于這5種神經(jīng)網(wǎng)絡(luò)文本分類方法后,可以看出Bagging方法的準確率為0.829 8,相比最優(yōu)的基分類器RCNN,準確率提高了0.83%;Stacking方法的準確率為0.823 8,相比基分類器實驗準確率提高了0.10%。

為了進一步驗證實驗的泛化性,將訓(xùn)練好的模型在MR數(shù)據(jù)集上進行測試,結(jié)果如表4所示。從表中可以看出,單一模型中,RNN的準確率最高為0.585 4。Bag-glng方法的準確率為0.586 5,相比最優(yōu)基分類器RNN準確率提高了0.1 8%,Stacking方法準確率為0.593 4,相比基分類器將實驗準確率提高了1.37%。

兩種方法集成后的準確率相比基分類器均有不同程度的提高,驗證了集成學(xué)習(xí)方法的有效性。在Kaggle數(shù)據(jù)上Bagging方法準確率的提升較為明顯,在外部數(shù)據(jù)上Stacking分類準確率的提升較為明顯,說明Stack-ing具有較好的泛化性能。

3.5.3 基學(xué)習(xí)器的貢獻率

為了進一步驗證基分類器在集成學(xué)習(xí)中的貢獻率,將這些方法進行兩兩集成,對每一個基分類器與其他4種基分類器集成的準確率進行求均值。Bagging方法的結(jié)果如表5所示。Stacking方法的結(jié)果如表6所示。

從表5中看出,在Kaggle數(shù)據(jù)上CNN與其他4種基分類器集成的準確率均值最低,僅為0.810 7。其中RNN與其他4種基分類器集成的準確率均值最高為0.828 7,且優(yōu)于5種方法一起集成的準確率。在外部數(shù)據(jù)MR中CNN與其他4種基模型進行集成的準確率均值為0.576 6,也低于其他4種模型。RCNN與其他4種模型集成準確率的均值為0.588 7,優(yōu)于其他4種模型,且優(yōu)于5種方法一起集成的準確率。

從表6可以看出,在Kaggle數(shù)據(jù)上HAN與其他4種模型集成的準確率均值最低為0.821 4,RCNN與其他4種模型集成的準確率為0.828 2,優(yōu)于其他4種模型,且優(yōu)于5種方法一起集成的準確率。在外部數(shù)據(jù)MR上,RCNN和HAN與其他4種方法集成的準確率為0.587 2,低于其他3種模型。CRNN與其他4種模型集成的準確率均值為0.589 8,優(yōu)于其他模型。

從表5、表6可以看出,在Bagging方法中,RNN在Kaggle數(shù)據(jù)上的貢獻率最大,RCNN在MR數(shù)據(jù)集上貢獻率最大;在Stacking方法中,RCNN在Kaggle數(shù)據(jù)上的貢獻率最大,CRNN在MR數(shù)據(jù)上的貢獻率最大。

4 結(jié)語

在兩種數(shù)據(jù)集上,本文使用Bagging和Stacking的方法與目前較為成熟的CNN,RNN,CRNN,RCNN,HAN文本分類實驗結(jié)果相比,證實了該方法的有效性,并討論了模型的貢獻率。未來的工作考慮將其他不同的集成學(xué)習(xí)方法,如Boosting算法等,用于短文本分類,進一步提高實驗的準確率。

參考文獻

[1] PAVLINEK M. PODGORELEC V.Text classification methodbased on self-training and LDA topic models [J]. Expert sys-tems with applications, 2017. 80: 83-93.

[2] BIJALWAN V. KUMARI P,PASCUAL J,et al.KNN basedmachine learning approach for text and document mining [J].International journal of datahase theory&application, 2014,7(1): 67-80.

[3]高超,許翰林.基于支持向量機的不均衡文本分類方法[J]現(xiàn)代電子技術(shù),2018,41(15):183-186.

GAO Chao, XU Hanlin. Unbalanced text classification methodbased on support vector machine [J]. Modern electronics tech-nique, 2018, 41(15): 183-186.

[4]蔡慧蘋.基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D],重慶:西南大學(xué),2016.

CAI Huiping. Research of short - text classification methodbased on convolution neural network [D]. Chongqing: South-west University.2016.

[5] KIM Y.Convolutional neural networks for sentence classifica-tion[C]//Proceedings of 2014 conference on empirical methodsin natural language. Doha: EMNLP, 2014: 1746-1751.

[6] LAI Siwei. XU Liheng, LIU Kang, et al.Recurrent convolu-tional neural networks for text classification[C]//Proceedingsof Conference of the Association for the Advancement of Artifi-cial Intelligence.[S.1.]:AAAl. 2015: 135-142.

[7] YANG Z,YANG D, DYER C, et al.Hierarchical attentionnetworks for document classification[C]//Conference of theNorth American Chapter of the Association for ComputationalLinguistics: Human Language Technologies. San Diego Califor-nia: ACL. 2017: 1480-1489.

[8] ZHANG X. ZHAO J,LECUN Y.Character-level convolutionalnetworks for text classification [J]. Neural informational process-ing systems, 2015(1):649-657.

[9] DIETTERICH T G.Ensemble methods in machine learning [C]//,International Workshop on Multiple Classifier Systems. Berlin:Springer, 2000: 1-15.

[10]蔣蕓,陳娜,明利特,等.基于Bagging的概率神經(jīng)網(wǎng)絡(luò)集成分類算法[J]計算機科學(xué),2013,40(5):242-246.

JIANG Yun. CHEN Na. MING Lite.eC al.Bagging-basedprobabilistic neural network ensemble classification algorithm[J].Computer science,201 3,40(5):242—246.

[11]BREIMAN L.Random forests,machine learnin9 45[J].Jour—nal of clinical microbiology,2001,2:199—228.

[12]李壽山,黃居仁.基于Stacking組合分類方法的中文情感分類研究[J],中文信息學(xué)報,2010,24(5):56—62.

LI Shoushan,HUANG Juren.Chinese setiment classificationbased on stacking combination method[J].JournaI“Chineseinformatio“processi“g,20lO,24(5):56—62.

[13]何躍,趙書朋,何黎.基于情感知識和機器學(xué)習(xí)算法的組合微文情感傾向分類研究[J]情報雜志,2018(5):193—198.

HE Yue,ZHAO Shupeng,HE Li.Micro—text emotional ten一dentious cIassification based on combination of emotion knowl—edge and machine—Ieaming algorithrm[J].JournaI of intelli—gence,2018(5):193—198.

[14]萬圣賢,蘭艷艷,郭嘉豐,等.用于文本分類的局部化雙向長短時記憶[J]中文信息學(xué)報,2叭7,31(3):62—68.

WAN Shengxian,LAN Yanyan,GUO Jiafeng,et al.Local bi—directional long short term memory for text classification[J].Journa1 0f Chinese information processing,2017,31(3):62— 68.

[15]徐立恒,劉康,趙軍,等.一種基于循環(huán)卷積網(wǎng)絡(luò)的文本分類方法:CNl04572892A[P]2015一07一l3.

XU Liheng,LIU Kang,ZHAO Jun,et al.Recurrent Convolu—tionaI

Neural

Networks

for

Text

Classification:CNl04572892A[P].2015一07—13.

[16]ZHOU C,SUN C,LIU Z,et al.A C—LSTM neural networkfor text classification[J].Computer science,2015,1(4):39— 44.

[17]周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

ZHOU Zhihua.Machine learning[M].Beijing:Tsinghua Uni—versity Press,2016.

[18]DzEROSKI S,之ENKO B.Is combining classifiers with stack—ing better than selecting the best one?[J].Machine Iearning,2004,54(3):255—273.

[19]WOLPERT D H Stacked generalization[J]Neural networks,1992,5(2):241—259.

作者簡介:王國薇(1994-),女,河南商丘人,碩士,研究領(lǐng)域為自然語言處理、文本分類。

黃浩(1976-),男,新疆烏魯木齊人,博士,教授,研究領(lǐng)域為語音識別、多媒體人機交互技術(shù)。

周 剛(1981-),男,新疆烏魯木齊人,博士,副教授,研究領(lǐng)域為機器學(xué)習(xí)與模式識別。

胡英(1975-),女,新疆烏魯木齊人,博士,講師,研究領(lǐng)域為語音及聲信號處理。

猜你喜歡
集成學(xué)習(xí)機器學(xué)習(xí)深度學(xué)習(xí)
基于稀疏編碼器與集成學(xué)習(xí)的文本分類
基于屬性權(quán)重的Bagging回歸算法研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
基于支持向量機的金融數(shù)據(jù)分析研究
邹城市| 郧西县| 冕宁县| 西城区| 万源市| 寿阳县| 绵阳市| 永清县| 德州市| 鹤庆县| 葵青区| 修水县| 蒙山县| 墨脱县| 迭部县| 礼泉县| 平利县| 板桥市| 华宁县| 彭山县| 眉山市| 新郑市| 枞阳县| 凤城市| 莎车县| 固始县| 房产| 施甸县| 阳高县| 合山市| 辽中县| 墨竹工卡县| 鄂州市| 松溪县| 钦州市| 韩城市| 阿勒泰市| 闽侯县| 长岭县| 三河市| 永登县|