国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合改進(jìn)主動學(xué)習(xí)的SVD-CNN彈幕文本分類算法

2019-07-31 12:14邱寧佳叢琳周思丞王鵬李巖芳
計算機(jī)應(yīng)用 2019年3期
關(guān)鍵詞:文本分類卷積神經(jīng)網(wǎng)絡(luò)主動學(xué)習(xí)

邱寧佳 叢琳 周思丞 王鵬 李巖芳

摘 要:為解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型使用池化層進(jìn)行文本特征降維會損失較多文本語義信息的問題,提出一種基于奇異值分解(SVD)算法的卷積神經(jīng)網(wǎng)絡(luò)模型(SVD-CNN)。首先,采用改進(jìn)的基于密度中心點(diǎn)采樣的主動學(xué)習(xí)算法(DBC-AL)選擇對分類模型貢獻(xiàn)率較高的樣本進(jìn)行標(biāo)注,以低標(biāo)注代價獲得高質(zhì)量模型訓(xùn)練集;然后,結(jié)合SVD算法建立SVD-CNN彈幕文本分類模型,使用奇異值分解的方法代替?zhèn)鹘y(tǒng)CNN模型池化層進(jìn)行特征提取和降維,并在此基礎(chǔ)上完成彈幕文本分類任務(wù);最后,使用改進(jìn)的梯度下降算法(PSGD)對模型參數(shù)進(jìn)行優(yōu)化。為了驗(yàn)證改進(jìn)算法的有效性,使用多種彈幕數(shù)據(jù)樣本集,對提出的模型與常用的文本分類模型進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法能夠更好地保留文本語義特征,保證訓(xùn)練過程的穩(wěn)定性并提高了模型的收斂速度,在不同的彈幕文本上較傳統(tǒng)算法具有更好的分類性能。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);奇異值分解;主動學(xué)習(xí);梯度下降;文本分類

中圖分類號: TP391.1; TP18

文獻(xiàn)標(biāo)志碼:A

文章編號:1001-9081(2019)03-0644-07

Abstract: For the loss of much semantic information in dimension reduction of text features when using pooling layer of the traditional Convolutional Network (CNN) model, a Convolutional Neural Network model based on Singular Value Decomposition algorithm (SVD-CNN) was proposed. Firstly, an improved Active Learning algorithm based on Density Center point sampling (DC-AL) was used to tag samples contributing a lot to the classification model, obtaining a high-quality model training set at a low tagging cost. Secondly, an SVD-CNN barrage text classification model was established by combining SVD algorithm, and SVD was used to replace the traditional CNN model pooling layer for feature extraction and dimension reduction, then the barrage text classification task was completed on these bases. Finally, the model parameters were optimized by using Partial Sampling Gradient Descent algorithm (PSGD). In order to verify the effectiveness of the improved algorithm, multiple barrage data sample sets were used in the comparison experiments between the proposed model and the common text classification model. The experimental results show that the improved algorithm can better preserve semantic features of the text, ensure the stability of training process and improve the convergence speed of the model. In summary, the proposed algorithm has better classification performance than traditional algorithms on multiple barrage texts.

Key words: Convolutional Nerual Network (CNN); Singular Value Decompostion (SVD); Active Learning (AL); gradient descent; text classification

0 引言

國內(nèi)外研究者使用有監(jiān)督的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類,這種監(jiān)督型檢測方法需要大量已標(biāo)記數(shù)據(jù),人工標(biāo)注大量數(shù)據(jù)耗時耗力,因而難以實(shí)施。針對已有方法存在的問題,譚侃等[1]提出一種基于雙層采樣主動學(xué)習(xí)方法,用樣本不確定性、代表性和多樣性來評估未標(biāo)記樣本的價值,使用排序和聚類相結(jié)合的雙層采樣算法對未標(biāo)記的樣本進(jìn)行篩選,使用少量有標(biāo)簽樣本達(dá)到與有監(jiān)督學(xué)習(xí)接近的檢測效果。徐海龍等[2]提出一種基于 委員會投票選擇算法(Query By Committee,QBC)的支持向量機(jī)(Support Vector Machine,SVM)主動學(xué)習(xí)算法,將改進(jìn)的QBC與加權(quán)SVM有機(jī)結(jié)合并應(yīng)用于SVM訓(xùn)練學(xué)習(xí)中,有效地減少了樣本分布不均衡對主動學(xué)習(xí)性能的影響。姚拓中等[3]將Boosting思想應(yīng)用到多視角主動學(xué)習(xí)框架中,通過將歷史上各次查詢得到的分類假設(shè)進(jìn)行加權(quán)式投票來實(shí)現(xiàn)每次查詢后分類假設(shè)的強(qiáng)化,相比于傳統(tǒng)單視角主動學(xué)習(xí)算法能夠更快地完成收斂并達(dá)到較高的場景分類準(zhǔn)確性。Li等[4]提出了結(jié)合半監(jiān)督的主動學(xué)習(xí)方法,將主動學(xué)習(xí)過程產(chǎn)生的價值樣本用來加速分類器的訓(xùn)練,和偽標(biāo)簽一起輔助分類器進(jìn)行高效的分類。Wan等[5]提出了基于主動學(xué)習(xí)的偽標(biāo)簽校驗(yàn)框架,極大地提高了半監(jiān)督學(xué)習(xí)中偽標(biāo)簽的置信度。Wang等[6]提出了主動學(xué)習(xí)與聚類相結(jié)合的偽標(biāo)簽校驗(yàn)的方法,進(jìn)一步提高了偽標(biāo)簽的置信度。Samiappan等[7]提出了Co-Training與主動學(xué)習(xí)算法進(jìn)行組合的半監(jiān)督算法,緩解了Self-Training中容易產(chǎn)生的數(shù)據(jù)傾斜問題而導(dǎo)致的分類器持續(xù)惡化的情況。上述主動學(xué)習(xí)采樣方法普遍面臨以下問題:1)基于概率型的采樣算法不適用句子型文本。2)只考慮分類結(jié)果最明確的樣本,這種樣本對當(dāng)前分類器影響較小,并不能提高模型的泛化能力。本文提出基于密度中心點(diǎn)采樣的主動學(xué)習(xí)算法,根據(jù)樣本間的可連接性不斷擴(kuò)展聚類簇,選擇每個類別中與密度中心相似度最高與最低的樣本進(jìn)行標(biāo)注,實(shí)現(xiàn)采樣的多樣性,從而適用于大規(guī)模未標(biāo)注句子級彈幕樣本,使用極少量的標(biāo)簽樣本訓(xùn)練初始分類器,迭代選擇信息量最大的未標(biāo)記彈幕樣本加入訓(xùn)練集,以此提高分類器的分類性能,完成彈幕文本分類任務(wù)。

隨著深度學(xué)習(xí)的發(fā)展,越來越多的深度學(xué)習(xí)模型被應(yīng)用于短文本分類任務(wù)中,魏超等[8]提出基于自編碼網(wǎng)絡(luò)的短文本流形表示方法實(shí)現(xiàn)文本特征的非線性降維,可以更好地以非稀疏形式更準(zhǔn)確地描述短文本特征信息,提升提高分類效率。謝金寶等[9]提出一種基于語義理解的多元特征融合中文文本分類模型,通過嵌入層的各個通路提取不同層次的文本特征,比神經(jīng)網(wǎng)絡(luò)模型(Conveolutional Neural Network,CNN)與長短期記憶網(wǎng)絡(luò)模型(Long Short-Term Memory,LSTM)的文本分類精度提升了8%。孫松濤等[10]使用CNN模型將句子中的詞向量合成為句子向量,并作為特征訓(xùn)練多標(biāo)簽分類器完成分類任務(wù),取得了較好的分類效果。Kalchbrenner等[11]提出DCNN模型,在不依賴句法解析樹的條件下,利用動態(tài)k-max pooling提取全局特征,取得了良好的分類效果。Kim[12]采用多通道卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行有監(jiān)督學(xué)習(xí),將詞矢量作為輸入特征,可以在不同大小的窗口內(nèi)進(jìn)行語義合成操作,完成文本分類任務(wù)。鄭嘯等[13]結(jié)合CNN和LSTM模型的特點(diǎn),提出了卷積記憶神經(jīng)網(wǎng)絡(luò)模型(Convolutional Memory Neural Network,CMNN),相比傳統(tǒng)方法,該模型避免了具體任務(wù)的特征工程設(shè)計。Hsu等[14]將CNN與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)有機(jī)結(jié)合,從語義層面對sentense進(jìn)行分類,取得良好的分類效果。Yin等[15]提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),并將該網(wǎng)絡(luò)用在句子對建模任務(wù)中,證明了注意力機(jī)制和CNN結(jié)合的有效性。上述方法使用傳統(tǒng)CNN模型對文本進(jìn)行特征提取和分類,但池化操作在進(jìn)行特征提取和降維時會損失較多的文本語義信息,從而導(dǎo)致分類精度下降。本文使用奇異值分解算法代替池化層的特征提取與降維工作,將奇異值較高的特征作為主要特征來代替原有目標(biāo)矩陣的表達(dá),更好地保存句子原有的語義結(jié)構(gòu),提升分類模型的精度。

1 相關(guān)研究

1.1 主動學(xué)習(xí)算法概述

主動學(xué)習(xí)算法是為了解決現(xiàn)實(shí)中標(biāo)簽數(shù)據(jù)不足、標(biāo)注數(shù)據(jù)耗時耗力的問題而提出的。該算法能夠從未標(biāo)記樣例中挑選部分價值量高的樣例,標(biāo)注后補(bǔ)充到已標(biāo)記樣例集中來提高分類器和精度,降低領(lǐng)域?qū)<业墓ぷ髁?。如何高效地選出具有高分類貢獻(xiàn)度的未標(biāo)記樣本進(jìn)行標(biāo)注并補(bǔ)充到已有訓(xùn)練集中,逐步提高分類器精度與魯棒性是主動學(xué)習(xí)亟待解決的問題。

主動學(xué)習(xí)根據(jù)選擇未標(biāo)記樣本方式的不同,可以分為成員查詢綜合主動學(xué)習(xí)、基于流的主動學(xué)習(xí)和基于池的主動學(xué)習(xí)。其中,基于委員會的主動學(xué)習(xí)是當(dāng)前應(yīng)用最廣泛的采樣策略。根據(jù)選擇未標(biāo)記樣例的標(biāo)準(zhǔn)不同,基于池的采樣策略又可分為:不確定性的采樣策略、基于版本空間縮減的采樣策略、基于模型改變期望的采樣策略以及基于誤差縮減的采樣策略。

1.2 卷積神經(jīng)網(wǎng)絡(luò)文本分類

近年來,CNN模型在文本分類任務(wù)上取得了很好的實(shí)用效果。CNN模型首先根據(jù)輸入文本和詞向量構(gòu)建輸入矩陣,然后通過卷積和池化操作,篩選和組合詞的分布式信息。其模型結(jié)構(gòu)如圖1所示,在這樣一個網(wǎng)絡(luò)中,輸入層表示的是由每個詞的分布式向量組成的句子矩陣;卷積層使用若干個卷積核對于局部的詞向量矩陣進(jìn)行卷積運(yùn)算;池化層使用最大池化策略把卷積的結(jié)果轉(zhuǎn)換為一組特征向量;基于前兩層運(yùn)算得到的特征向量,使用Softmax函數(shù)進(jìn)行分類。

2 CNN分類模型改進(jìn)算法

2.1 主動學(xué)習(xí)算法的改進(jìn)

大多數(shù)傳統(tǒng)的主動學(xué)習(xí)算法使用基于概率的啟發(fā)式方法,這種方法建立在樣例的后驗(yàn)概率分布基礎(chǔ)之上,用信息熵較大的樣本訓(xùn)練分類模型。這種基于概率的信息熵計算方法并不適用于句子級彈幕文本,所以本文在原有主動學(xué)習(xí)算法的思想基礎(chǔ)上,提出一種基于密度中心點(diǎn)的主動學(xué)習(xí)采樣算法,通過比對句向量間相似度與設(shè)定最小密度閾值對樣本進(jìn)行劃分,根據(jù)閾值的約束條件來選擇價值高的樣本標(biāo)注,提高增強(qiáng)了樣本選擇算法的魯棒性。

2.1.1 基于相似度的密度聚類算法

傳統(tǒng)的密度聚類算法是基于樣本間距離的考察,本文針對句向量的空間分布提出向量間的相似度閾值來刻畫樣本類型的貼近程度,設(shè)計基于相似度的密度聚類算法,設(shè)置相似度與最小密度閾值,聚類核心步驟如下。

1)首先利用分詞工具進(jìn)行彈幕句子樣本分詞,將句子以詞為單位形成一個詞向量序列,如式(1)所示:

然后使用Word2vec模型將每一個詞映射為一個多維的連續(xù)值詞向量序列,最后利用LSTM算法,將詞向量序列結(jié)合文本語序信息生成語義向量,公式表達(dá)如下:

3)從步驟1)中篩選出符合步驟2)中條件的點(diǎn),加入到核心對象集合Ω中,如式(7)所示:

4)在核心對象集合中隨機(jī)選取一個點(diǎn)α,找出由它密度可達(dá)的所有樣本,生成第一個聚類簇B1。

5)將B1中包含的核心對象從Ω中去除,再從更新后的Ω中隨機(jī)選取一個核心對象,作為種子來生成下一個聚類簇,反復(fù)迭代上述步驟,直至Ω為空。

2.1.2 主動學(xué)習(xí)采樣策略

普通的主動學(xué)習(xí)采樣策略,存在采樣單一、采樣偏置的問題。結(jié)合樣本在特征空間中的分布結(jié)構(gòu),本文提出一種帶約束條件的主動學(xué)習(xí)采樣策略對未標(biāo)記樣本進(jìn)行篩選,以聚類簇為單位,計算聚類中心點(diǎn)與其他樣本間的相似度,其中相似度最高與最低的樣本最能代表整個聚類簇的分布狀態(tài),依據(jù)上述方法可以在樣本的信息性和預(yù)測標(biāo)號的準(zhǔn)確性兩者之間獲得較好的平衡,選出最有價值的彈幕樣本給專家標(biāo)注。核心步驟如下。

2.2 SVD-CNN模型

在自然語言領(lǐng)域,傳統(tǒng)的CNN使用池化層對文本進(jìn)行采樣降維工作,該操作只是簡單地從前一維FeatureMap中提取了最大值,并不關(guān)心特征的分布狀態(tài),從而導(dǎo)致特征的位置信息丟失,文本語義發(fā)生變化的問題。本文使用奇異值分解算法(Singular Value Decomposition,SVD)代替池化層的特征提取工作,根據(jù)奇異值的大小選取矩陣的主要特征。奇異值往往對應(yīng)著矩陣中隱含的重要信息,每個目標(biāo)矩陣都可以表示為一系列秩為1的特征矩陣之和,而奇異值則表征了這些特征矩陣對于目標(biāo)矩陣的權(quán)重,因此奇異值較高的特征能夠作為主要特征來代替原有目標(biāo)矩陣的表達(dá)。如式(11)所示:

本文在傳統(tǒng)CNN分類模型基礎(chǔ)上設(shè)計了基于奇異值分解算法的卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network based on Singular Value Decomposition, SVD-CNN),利用SVD算法良好的數(shù)值穩(wěn)定性和幾何不變性完成對矩陣的主要特征提取和降維,較好地保留文本語義信息的完整性,整個模型體系如圖2所示。

1)輸入層。

模型的輸入為一個n×m的句子矩陣,矩陣的每一行代表句子中每個詞對應(yīng)的向量,行數(shù)n代表句子的詞數(shù),列數(shù)m為向量的維數(shù)。

2)卷積層。

采用列數(shù)與行數(shù)相同的卷積矩陣窗口h∈Rn×m,為了獲取不同類別的語義特征,采用多個不同尺寸(h)的卷積窗口與原矩陣進(jìn)行卷積運(yùn)算,得到卷積語義特征Fi,如式(12)所示:

3)奇異值分解層。

對特征矩陣Fi進(jìn)行奇異值分解運(yùn)算,降維后的特征矩陣記為A,如式(13)所示:

3 彈幕分類解決方案的構(gòu)建

3.1 彈幕分類模型優(yōu)化算法

考慮到深度學(xué)習(xí)模型是較復(fù)雜的非線性結(jié)構(gòu),在這種非凸問題上往往很難直接求解,所以本文采用梯度下降算法對模型參數(shù)進(jìn)行優(yōu)化以得到全局最優(yōu)解。

兼顧隨機(jī)梯度下降算法(Stochastic Gradient Descent, SGD)的隨機(jī)性,本文設(shè)計一種通過選取數(shù)據(jù)相關(guān)性較高的樣本來形成批量數(shù)據(jù)訓(xùn)練集的梯度下降算法(Partial Sampling Gradient Descent, PSGD),該算法在保證訓(xùn)練過程穩(wěn)定性的同時,提高模型的學(xué)習(xí)速度,使模型更快速地收斂,參數(shù)更新公式如式(17)所示:

考慮到隨機(jī)選取訓(xùn)練樣本的不確定性可能會導(dǎo)致目標(biāo)函數(shù)值出現(xiàn)震蕩的現(xiàn)象,本文從模型正確預(yù)測出的數(shù)據(jù)集中隨機(jī)抽取10%樣本,結(jié)合所有錯誤預(yù)測的樣本,形成新的訓(xùn)練集來訓(xùn)練模型,具體算法描述如下:

算法2 PSGD梯度下降算法。

輸入:全樣本訓(xùn)練集U,誤差函數(shù)loss和迭代終止閾值p,學(xué)習(xí)率ε,初始參數(shù)θ;

輸出:更新后的參數(shù)θ。

3.2 模型描述

本文使用改進(jìn)的主動學(xué)習(xí)采樣策略,從未標(biāo)注彈幕樣本集中根據(jù)算法1設(shè)定的規(guī)則挑選少量彈幕樣本,交由人工標(biāo)注,使用標(biāo)注好的彈幕樣本訓(xùn)練SVD-CNN分類模型,為了能夠較好保存句子的語義信息,模型使用SVD算法代替池化層來完成特征提取與特征降維,將得到的主要特征進(jìn)行信息融合,并輸入到Softmax函數(shù)中完成分類任務(wù)。整體結(jié)構(gòu)如圖3所示。

在數(shù)據(jù)預(yù)處理階段,首先對彈幕樣本進(jìn)行數(shù)據(jù)清洗,然后利用分詞工具與Word2vec模型將每一個詞映射為一個多維的連續(xù)值詞向量序列,最后利用LSTM模型將詞向量序列結(jié)合文本語序信息生成語義向量。

使用算法1中的方法,將句向量樣本根據(jù)相似度閾值和最小密度樣本數(shù)進(jìn)行聚類,對每個密度中心點(diǎn)相似度臨界值進(jìn)行采樣,得到最能代表每個聚類簇的整體樣本分布狀態(tài),將樣本交由專家標(biāo)注,以此提高訓(xùn)練樣本集的代表性和廣泛性。

為了獲取不同的語義特征,采用不同尺寸的卷積窗口與原矩陣進(jìn)行卷積運(yùn)算,得到卷積語義特征Fi,對特征矩陣Fi進(jìn)行奇異值分解運(yùn)算,根據(jù)設(shè)定的閾值選擇前k個奇異值與其對應(yīng)的標(biāo)準(zhǔn)正交基,構(gòu)建原矩陣A的k秩近似矩陣,將多個Ak矩陣的融合S,通過Softmax函數(shù)計算得到樣本屬于各個類的概率分布,如式(17)所示:

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)與參數(shù)設(shè)置

本文針對三個方面對改進(jìn)算法的有效性進(jìn)行驗(yàn)證。第一,通過模型不同的分類準(zhǔn)確率,對比傳統(tǒng)采樣算法和DBC-AL算法的模型迭代次數(shù),驗(yàn)證后者具有更高的效率;第二,使用本文提出的SVD-CNN模型對彈幕文本分類,同時考慮詞向量維度和數(shù)據(jù)集泛化能力來驗(yàn)證其分類性能;第三,使用改進(jìn)后的梯度下降算法對模型進(jìn)行優(yōu)化,通過收斂速度和模型訓(xùn)練速度來驗(yàn)證優(yōu)化算法的有效性。

本文通過爬蟲技術(shù)在不同視頻網(wǎng)站分別爬取彈幕文本,根據(jù)視頻類別形成不同的數(shù)據(jù)集進(jìn)行對照實(shí)驗(yàn),對本文提出的算法進(jìn)行性能評估。詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計如表1所示。

本文在實(shí)驗(yàn)中選擇不同尺寸的卷積核對輸入的句子矩陣進(jìn)行卷積操作,結(jié)合設(shè)定的閾值選取特征,使用奇異值分解算法完成矩陣的特征降維和特征提取,具體參數(shù)設(shè)置如表2所示。

4.2 算法性能驗(yàn)證

實(shí)驗(yàn)1 主動學(xué)習(xí)采樣算法性能驗(yàn)證。

通過算法1中的方法對表1中的彈幕樣本進(jìn)行采樣,為了驗(yàn)證該算法對短文本語句向量在減少人工標(biāo)注上所起到的作用,比較在模型達(dá)到同一分類準(zhǔn)確率時,不同采樣算法所需的迭代次數(shù)。實(shí)驗(yàn)選擇QBC算法、隨機(jī)采樣算法、基于最優(yōu)標(biāo)號和次優(yōu)標(biāo)號的(Best vs Second-Best,BvSB)[16]算法作為對照算法,使用CNN分類模型,實(shí)驗(yàn)結(jié)果如圖4所示。

從圖4可以看出,在分類器識別精度為60%時,模型的分類正確率較低,除隨機(jī)采樣算法外,其余3種分類算法使用采樣所需的迭代次數(shù)沒有明顯差距。隨著分類精度從70%逐漸提升到90%時,隨機(jī)采樣和信息熵采樣算法所需迭代次數(shù)有著明顯的升高,而DBC-AL算法和BvSB算法相對較為穩(wěn)定。由于BvSB算法只考慮樣本分類可能性最大的類別,因此相對前兩種算法來說采樣次數(shù)較少,但該算法忽略其他對樣本的分類結(jié)果影響較小的類別,導(dǎo)致該算法采集的樣本所含的信息量較少,相對于本文提出的DBC-AL算法需要更多的迭代次數(shù),這說明了隨著模型精度的提高,前三種傳統(tǒng)的采樣算法收集到的樣本信息對于模型收斂提供的幫助越來越少,而DBC-AL算法根據(jù)樣本間的相似度進(jìn)行聚類,對每個聚類簇采集到對分類模型來說最有價值的樣本,從而體現(xiàn)了DBC-AL算法在句向量中采樣的優(yōu)越性。

實(shí)驗(yàn)2 模型分類性能對比。

本文采用SVM算法、傳統(tǒng)CNN模型、不加池化層的CNN模型、多通道卷積神經(jīng)網(wǎng)絡(luò)(Multi-Channel Convolution Neural Network, MCCNN)模型[17]和本文提出的SVD-CNN模型進(jìn)行分類正確率對比實(shí)驗(yàn)以驗(yàn)證SVD-CNN模型的有效性??紤]到不同數(shù)據(jù)集可能引起分類模型精度變化的問題,使用表1中3個數(shù)據(jù)集分別進(jìn)行模型分類性能對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示。

從圖5可以看出,SVM模型最高取得了78.9%的分類正確率,說明SVM模型在多分類問題上精度較低。CNN的分類正確率受數(shù)據(jù)集影響波動較大,在BiliBili彈幕數(shù)據(jù)集上的分類精度降低到76.6%,相比不加池化層的CNN模型分類正確率略有下降,這說明傳統(tǒng)CNN模型的池化層并不能對自然語言的文本特征進(jìn)行有效提取。由于MCCNN模型采用多通道的特征提取方式,將不同的特征信息結(jié)合形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,使得模型的分類效果優(yōu)于前兩種模型,最高分類精度達(dá)到了87.6%,而本文提出的SVD-CNN模型相比前三個數(shù)據(jù)集上取得了最好的彈幕分類效果,其中在愛奇藝彈幕數(shù)據(jù)集上的分類精度最高達(dá)到了89.2%,相對于傳統(tǒng)使用池化層的CNN模型和MCCNN模型,分別提高了7.3%和1.6%,說明本文提出的對文本語義矩陣使用奇異值分解算法進(jìn)行降維和特征提取的方法,更好地保留了文本語義特征,進(jìn)而提高了模型分類精度,充分驗(yàn)證了SVD-CNN模型在處理文本語義分類上對特征信息選擇的有效性。

實(shí)驗(yàn)3 句向量維度實(shí)驗(yàn)。

考慮到句向量維度會影響文本語義信息的表征,從而影響最終的分類結(jié)果,本文利用CNN模型、MCCNN模型和SVD-CNN模型在BiliBili彈幕數(shù)據(jù)集上使用不同維度的句向量進(jìn)行對比實(shí)驗(yàn),分析句向量維度對分類結(jié)果的影響,實(shí)驗(yàn)結(jié)果如表3所示。

從表3中可以看出,當(dāng)句向量的維度增加到50,三種模型的分類精度都有著不同程度的提高,這說明隨著句向量維度的增加,文本語義的特征表達(dá)能力在逐漸提高。當(dāng)維度繼續(xù)增加時,語句特征分布會變得更為稀疏,CNN模型與MCCNN模型使用池化層會忽略較多的文本語義特征,致使分類效果降低。本文使用SVD算法代替池化層進(jìn)行特征提取,在語句特征分布較為稀疏的情況下仍然可以保留較多的文本語義特征,當(dāng)詞向量維度增加到180以上時,模型的分類精度仍處于平穩(wěn)狀態(tài),充分驗(yàn)證了SVD-CNN在彈幕文本語義特征提取上的高效性。

實(shí)驗(yàn)4 彈幕分類模型優(yōu)化算法。

為了驗(yàn)證本文PSGD算法的訓(xùn)練穩(wěn)定性與訓(xùn)練速度,選擇批量梯度下降算法(Batch Gradient Descent,BGD),SGD算法,小批量梯度下降算法(Mini-Batch Gradient Descent,MBGD)和本文提出的PSGD算法設(shè)計兩組對照實(shí)驗(yàn)來檢驗(yàn)算法性能,使用表1中BiliBili彈幕數(shù)據(jù)集共10000條,設(shè)置迭代閾值為2500次,設(shè)計實(shí)驗(yàn)對比模型訓(xùn)練時誤差變化率,驗(yàn)證PSGD算法的穩(wěn)定性,如圖6所示;設(shè)計實(shí)驗(yàn)對比模型分類精度隨時間的變化率,驗(yàn)證PSGD算法具有較低的時間復(fù)雜度,如圖7所示。

由實(shí)驗(yàn)結(jié)果可以看出,隨著迭代次數(shù)的增加,使用BGD算法進(jìn)行優(yōu)化的模型誤差逐漸減小,訓(xùn)練過程比較平穩(wěn),模型分類精度較高,但由于該算法采用全樣本訓(xùn)練的方式,導(dǎo)致模型訓(xùn)練時間長,模型訓(xùn)練速度慢;SGD算法每次隨機(jī)選取樣本進(jìn)行訓(xùn)練,訓(xùn)練時間較短,但相對于BGD算法存在的噪聲較多,導(dǎo)致每次迭代并沒有向著整體最優(yōu)化方向進(jìn)行,因此SGD的訓(xùn)練過程穩(wěn)定性較差,模型易陷入局部最優(yōu)點(diǎn),致使分類精度降低;MBGD算法每次迭代使用部分樣本更新模型參數(shù),相對于SGD算法訓(xùn)練過程比較穩(wěn)定,訓(xùn)練時間較短,模型分類精度介于BGD算法與SGD算法之間;由于本文提出的PSGD算法將模型分類錯誤的樣本引入到訓(xùn)練集中,相對于MBGD算法的隨機(jī)性訓(xùn)練集包含更多的信息,所以可以使模型訓(xùn)練時間更短,訓(xùn)練過程更穩(wěn)定,模型分類精度更高,從而驗(yàn)證了PSGD算法的有效性。

5 結(jié)語

本文提出一種基于密度中心點(diǎn)采樣的主動學(xué)習(xí)算法,利用樣本間的相似度將樣本進(jìn)行聚類,并在每一個聚類簇中,按照設(shè)定的規(guī)則選擇最具有價值的樣本進(jìn)行人工標(biāo)注,減少人工標(biāo)注的工作量;提出SVD-CNN模型,使用SVD算法代替?zhèn)鹘y(tǒng)CNN模型的池化層,更好地保留了文本語義特征,從而提高模型的分類精度;使用改進(jìn)的PSGD算法選取信息量較大的訓(xùn)練樣本對模型進(jìn)行優(yōu)化,在保證訓(xùn)練過程穩(wěn)定性的同時提高了模型的訓(xùn)練速度。通過對比不同主動學(xué)習(xí)采樣算法性能實(shí)驗(yàn)表明,DBC-AL算法比傳統(tǒng)的主動學(xué)習(xí)采樣算法采集到的樣本信息量更高,對模型的分類貢獻(xiàn)更多;對比多種數(shù)據(jù)集和不同句向量維度下分類模型的分類精度可以看出,SVD-CNN模型能夠提取到更多的文本語義特征,具有較高的分類準(zhǔn)確率;對比不同模型優(yōu)化算法的訓(xùn)練誤差與訓(xùn)練時間,PSGD算法具有良好的穩(wěn)定性,模型收斂速度更快,總體訓(xùn)練效果優(yōu)于其他算法。在主動學(xué)習(xí)采樣的規(guī)則條件中,采樣的閾值是通過經(jīng)驗(yàn)選取,可能并不是最優(yōu)的,如何根據(jù)數(shù)據(jù)集及當(dāng)前分類模型來對該閾值進(jìn)行自適應(yīng)的調(diào)整是下一步工作中需要考慮的重要問題。

參考文獻(xiàn) (References)

[1] 譚侃,高旻,李文濤,等.基于雙層采樣主動學(xué)習(xí)的社交網(wǎng)絡(luò)虛假用戶檢測方法[J].自動化學(xué)報,2017,43(3):448-461.(TAN K, GAO M, LI W T, et al. Two-layer sampling active learning algorithm for social spammer detection [J]. Acta Automatica Sinica, 2017, 43(3): 448-461.)

[2] 徐海龍,別曉峰,馮卉,等.一種基于 QBC 的 SVM 主動學(xué)習(xí)算法[J].系統(tǒng)工程與電子技術(shù),2015,37(12):2865-2871.(XU H L, BIE X F, FENG H, et al. Active learning algorithm for SVM based on QBC [J]. Systems Engineering and Electronics, 2015, 37(12): 2865-2871.)

猜你喜歡
文本分類卷積神經(jīng)網(wǎng)絡(luò)主動學(xué)習(xí)
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
高中生物教學(xué)中學(xué)生主動學(xué)習(xí)策略研究
數(shù)字電路課程的翻轉(zhuǎn)課堂教學(xué)及調(diào)研
基于蟻群智能算法的研究文本分類
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
試論高中生物教學(xué)中學(xué)生主動學(xué)習(xí)的措施
《個人理財》教學(xué)中,發(fā)揮學(xué)生主體地位的路徑研究
丰都县| 井陉县| 东山县| 荥阳市| 临汾市| 新田县| 敖汉旗| 绥德县| 陈巴尔虎旗| 新宾| 江山市| 柘城县| 达州市| 疏附县| 文化| 潜山县| 铜山县| 鲁山县| 万山特区| 贡山| 泽州县| 关岭| 贵南县| 定襄县| 乌鲁木齐市| 康平县| 泽州县| 碌曲县| 扎囊县| 炎陵县| 乌鲁木齐市| 宜宾市| 海兴县| 定陶县| 荣昌县| 石楼县| 永和县| 宿州市| 宁波市| 白城市| 闻喜县|