国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于序列卷積網(wǎng)絡(luò)的Twitter情感分類

2020-05-22 12:32:54孫盼盼李大舟于廣寶張奧南
計算機工程與設(shè)計 2020年5期
關(guān)鍵詞:殘差卷積向量

高 巍,孫盼盼,李大舟,張 宇,于廣寶,張奧南

(沈陽化工大學 計算機科學與技術(shù)學院,遼寧 沈陽 110142)

0 引 言

Twitter是全球互聯(lián)網(wǎng)訪問量最大的十大網(wǎng)站之一,允許用戶隨時發(fā)布自己的最新動態(tài)和想法,成為熱點輿情產(chǎn)生、傳播的重要源地。對Twitter情感分析,有助于研究者及時了解輿情信息[1]。由于Twitter內(nèi)容有別于傳統(tǒng)文本,其內(nèi)容通常不遵循語法句法特性,特征向量稀疏、上下文語境依賴性強。所以,傳統(tǒng)分類方法(比如KNN、貝葉斯、最大熵方法和支持向量機(SVM)等)對Twitter短文本進行分類無法達到較高的準確度[2-4]。近年來,深度學習在處理文本分類問題中得到廣泛應(yīng)用[5-8]。其中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)被視為處理文本等序列性問題的默認配置,但利用RNN存在梯度消失和爆炸等問題。雖然RNN中的長短時記憶(LSTM)[9,10]利用門控裝置解決文本分類問題,具有更強的記憶能力,但也無法記得全部歷史信息。這使得很多研究者將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用到文本處理等序列建模問題中[11-14],卷積神經(jīng)網(wǎng)絡(luò)具有善于獲取局部敏感信息、特征提取速度快、參數(shù)少、網(wǎng)絡(luò)結(jié)構(gòu)簡單等特點?;谝陨蠁栴},本文提出一種基于序列卷積神經(jīng)網(wǎng)絡(luò)的分類模型。利用該模型對Twitter文本數(shù)據(jù)進行情感分類可以學習文本的靜態(tài)特征,獲取臨近單詞間的關(guān)聯(lián)信息,有效提高了分類的準確性。

1 序列卷積網(wǎng)絡(luò)

序列卷積網(wǎng)絡(luò)是在時間卷積網(wǎng)絡(luò)(TCN)思想的基礎(chǔ)上[15],將一維因果卷積和擴張卷積結(jié)合作為神經(jīng)網(wǎng)絡(luò)的卷積層,每次卷積對數(shù)據(jù)進行批標準化以克服神經(jīng)網(wǎng)絡(luò)層數(shù)加深導致的模型難以訓練問題,然后使用PReLU函數(shù)對其進行激活,并利用殘差模塊在每兩個這樣的卷積層與恒等映射中堆疊起一個深度網(wǎng)絡(luò),使用卷積層代替最后的全連接層,構(gòu)建完整的全卷積神經(jīng)網(wǎng)絡(luò)。

1.1 因果卷積

為了用卷積網(wǎng)絡(luò)的思想解決時序性問題,本文提出的序列卷積模型應(yīng)用了因果卷積[16]。因果卷積只能對過去時間的輸入進行運算,即因果卷積的輸出僅與當前(t時間點)與過去(0到t-1時間點)的輸入有關(guān),不涉及到未來(t+1時間點)的信息。根據(jù)一個已知序列出現(xiàn)的先后順序判斷未來的t+1時間點上什么出現(xiàn)的可能性更高,設(shè)定輸入序列為x0,x1,x2,…,xt,t時間點的輸出為Yt,那么就有

Yt=f(x0,x1,x2…xt)

(1)

在訓練過程中,所有過去時間步的卷積預測可以并行化,因為它們的輸入和標注真值都是已知的,所以這相對于循環(huán)神經(jīng)網(wǎng)絡(luò)在訓練上有非常大的優(yōu)勢。

1.2 擴張卷積

由于使用因果卷積需要非常多的層級數(shù)或較大的卷積核來擴寬感受野,而構(gòu)建長期記憶就必須要較大的感受野,而擴寬感受野就會增加計算量。此外,如果將一般卷積運算的步幅增大也可以增加感受野,但當卷積步幅大于1時就會起到降采樣的效果,這樣輸出序列的長度會減小。為了在不影響輸出序列并且不加大計算量的情況下擴展感受野,本文提出的序列卷積網(wǎng)絡(luò)使用擴張卷積[17]增加數(shù)個量級的感受野。擴張卷積在保持輸入不變的情況下,向卷積核中添加值為零的權(quán)重,從而增加觀察序列長度,以指數(shù)速度擴大感受野且不會降低特征的大小。形式上,對于一維的輸入序列x∈Rn和卷積核f∶{0,…k-1}→R,對序列中元素s的擴張卷積運算F可以定義為

(2)

其中,d為擴張系數(shù)、k為卷積核大小,s-d·i表示采用上層哪一個單元。擴張系數(shù)控制兩個卷積核之間插入多少零值,當d=1時,空洞卷積就會降為一般的卷積運算。較大的擴張系數(shù)使輸出神經(jīng)元表征更大范圍的輸入,有效擴寬感受野。

擴張卷積感受野指數(shù)級計算的公式如下:記F0,F1,…Fn-1∶Z2→R為離散函數(shù),k0,k1,…kn-2∶Ω→R是離散的3*3filters,采用指數(shù)增長擴張的filters后

Fi+1=Fi*2ikifori=0,1,2,…,n-2

(3)

定義Fi+1中的元素p的感受野為:F0中可以改變Fi+1(p) 值的元素集Fi+1中p的感受野的大小即為這些元素集的數(shù)目。由此可見Fi+1中各元素的感受野大小為

(2i+2-1)*(2i+2-1)

(4)

即,感受野為指數(shù)增長的平方。

一般在使用擴張卷積時,深度將隨著網(wǎng)絡(luò)深度i的增加而指數(shù)級地增加。這可以確保卷積核在有效歷史信息中覆蓋更多的輸入序列,同樣也可以確保使用深度網(wǎng)絡(luò)能產(chǎn)生很長的有效歷史信息。因果卷積結(jié)合擴張卷積的效果如圖1所示(擴張系數(shù)d=1,2,4,8,卷積核大小k=2,感受野能覆蓋輸入序列中的所有值)。

圖1 因果卷積結(jié)合擴張卷積效果

如圖1所示,序列卷積網(wǎng)絡(luò)的一維卷積的卷積核大小為2,第一層使用的dilation為1,即常規(guī)的卷積運算。而后面層級的擴張大小依次加大,常規(guī)卷積只能從右到左觀察到5個輸入數(shù)據(jù),而擴張卷積可以觀察到所有16個輸入數(shù)據(jù)。

1.3 殘差模塊

由于序列卷積網(wǎng)絡(luò)的感受野取決于網(wǎng)絡(luò)深度n、卷積核大k和擴張系數(shù)d,因此更深的網(wǎng)絡(luò)需要更強的穩(wěn)定性。為此本文使用殘差模塊來加深卷積網(wǎng)絡(luò)。殘差模塊使用全等映射直接將前一層輸出傳到后面,使數(shù)據(jù)流可以跨層流動。標準殘差模塊結(jié)構(gòu)如圖2所示。假設(shè)神經(jīng)網(wǎng)絡(luò)的輸入x,期望輸出為H(x),輸出結(jié)果利用殘差模塊直接把輸入x傳到輸出,則有

H(x)=Activation(x+F(x))

(5)

殘差模塊能夠有效消除因為層數(shù)增加導致的訓練集上誤差增大的現(xiàn)象。由圖2可以看出,殘差模塊的輸出結(jié)合了輸入信息與殘差內(nèi)部運算的信息,這種殘差連接可以表示深層網(wǎng)絡(luò)的準確度至少不能低于淺層網(wǎng)絡(luò)。

圖2 標準殘差模塊結(jié)構(gòu)

序列卷積在每個殘差模塊內(nèi)使用兩層擴張和因果卷積,由于序列卷積的殘差模塊內(nèi)輸入與輸出有不同的維度,因此使用額外的1×1卷積來確保F(x)與x間對應(yīng)像素相加有相同的維度。

1.4 批標準化

序列卷積網(wǎng)絡(luò)利用殘差模塊堆疊起一個深度網(wǎng)絡(luò),隨著神經(jīng)網(wǎng)絡(luò)層數(shù)加深,在訓練過程中,每個隱藏層都會面臨輸入變化較大難以訓練的問題。批標準化是對于每個隱藏層神經(jīng)元,把逐漸向取值區(qū)間極限飽和區(qū)靠攏的輸入分布強制拉回到均值為0方差為1的較標準的正態(tài)分布,使非線性變換函數(shù)的輸入值落入對輸入比較敏感的區(qū)域,以此使梯度一直都能保持比較大的狀態(tài),提高神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)整效率,加快收斂速度。

假設(shè)每個batch輸入為x=[x0,x1,x2,…,xn] (其中每個xi都是一個樣本,n是batch_size)假如在第一個隱藏層后加入批標準化層,那么第一層輸出h1的計算過程就被替換為如下:

(1)矩陣x先經(jīng)過Wh1的線性變化后得到S1;

(6)

(7)

(8)

(但S2多數(shù)會被限制在正態(tài)分布以下,使網(wǎng)絡(luò)表達能力下降,為解決這個問題引入?yún)?shù):γ,β,它們的值通過訓練網(wǎng)絡(luò)自己學習獲得。)

(3)將S2乘以γ調(diào)整參數(shù)大小,再加上β增加偏移后得到S3

S3=γ·S2+β

(9)

(4)S3經(jīng)過激活函數(shù)后得到h1。

應(yīng)用批標準化后序列卷積網(wǎng)絡(luò)的殘差模塊結(jié)構(gòu)如圖3所示。

圖3 序列卷積殘差模塊

1.5 全卷積網(wǎng)絡(luò)

傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)使用全連接層將特征映射為固定長度的向量,這相當于對卷積抽取的高級特征進行線性組合而最終實現(xiàn)分類,但它的局限性在于只能對整張圖像或整段序列做分類處理。此外,低層卷積的感受野較小,對特征的位置變化不敏感,而高層卷積的感受野非常大,對特征的變化過于敏感而容易丟失一些細節(jié)。為了改善這種局限性以實現(xiàn)密集型的分類預測,本文提出的序列卷積網(wǎng)絡(luò)將傳統(tǒng)CNN最后幾個全連接層替換為卷積層。全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)[18]是從抽象的特征中恢復出每個像素所屬的類別。與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不同,全卷積可以接受任意長度的輸入,然后用反卷積層對最后一個卷積層進行上采樣, 使它的大小與輸入相同,從而對每個像素都產(chǎn)生一個預測,同時保留了原始輸入空間信息。在特定層記Xij為在坐標(i,j)的數(shù)據(jù)向量,在下一層輸出Yij的計算公式如下

Yij=fks({Xsi+δi,sj+δj} 0≤δi,δj

(10)

其中,k為卷積核尺寸,s是步長或下采樣因素,fks決定了層的類型。當卷積核尺寸和步長遵從轉(zhuǎn)換規(guī)則,這個函數(shù)被表述為如下

fks°gk′s′=(f°g)k′+(k-1)s′,ss′

(11)

使用全卷積的序列卷積網(wǎng)絡(luò)可以產(chǎn)生和輸入序列等長的輸出序列,且每一個隱藏層可以通過Padding保持和輸出層等長。這使序列卷積網(wǎng)絡(luò)可以感受整個輸入序列的信息,構(gòu)建長期記憶。

2 實驗與分析

2.1 實驗環(huán)境

本文實驗環(huán)境見表1。

表1 實驗環(huán)境

2.2 實驗數(shù)據(jù)

數(shù)據(jù)集一為CrowdFlower提供的名為“社交媒體中的災(zāi)難”數(shù)據(jù)集,收集者們查看了超過10 000條具有類似“著火”、“隔離”、“混亂”等搜索關(guān)鍵詞的Twitter,然后標記這個Twitter是否和災(zāi)難事件有關(guān)(與之相反的是一些玩笑、電影點評或是一些非災(zāi)難性的事件)。該數(shù)據(jù)集包括4672條與災(zāi)難相關(guān)數(shù)據(jù)集,6186條與災(zāi)難無關(guān)數(shù)據(jù)集。

數(shù)據(jù)集二為Abdul Fatir 提供的Twitter情感分析數(shù)據(jù)集。該數(shù)據(jù)集將Twitter情感分為正向和負向兩類,其中負向情感Twitter6892條、正向情感Twitter5699條。

數(shù)據(jù)集三來源于斯坦福大學提供的“Sentiment140”數(shù)據(jù)集,該數(shù)據(jù)集包含1 600 000條Twitter。這些推文被標注了標簽(0=負面,2=中性,4=正面)。

在文本預處理過程中,分別對數(shù)據(jù)集進行編碼解析處理、清除http:形式鏈接及@內(nèi)容、清除www.形式鏈接、轉(zhuǎn)化為小寫、處理否定詞、清除數(shù)字及特殊符號,然后將每個數(shù)據(jù)集的80%作為訓練集,20%作為測試集,將其利用Word2Vec模型訓練得到100維的詞向量。

2.3 實驗參數(shù)

實驗參數(shù)的選取直接影響實驗結(jié)果,表2、表3、表4分列出了SVM分類算法、CNN、序列卷積網(wǎng)絡(luò)中的參數(shù)值。

SVM的參數(shù)比較了核函數(shù)linear、poly、sigmod,最大迭代次數(shù)默認無限制(-1),誤差精度選取默認值,為了提高泛化能力,懲罰系數(shù)的大小對比了0.1和1,最終發(fā)現(xiàn)詞向量100維線性核函數(shù)的懲罰系數(shù)為0.1時模型分類準確率最高。

表2 SVM參數(shù)

表3 CNN參數(shù)

表4 序列卷積參數(shù)

通過固定參數(shù)的方法,分別比較了滑動窗口大小3、4、5、6、7,滑動窗口數(shù)量40,80,120,dropout值0.3,0.5,0.6,L2正則項λ為3,5,7對實驗結(jié)果的影響,經(jīng)過比較,參數(shù)取表2中的值時CNN模型取得了較好的分類效果。

為了比較序列卷積神經(jīng)網(wǎng)絡(luò)與其它模型的分類效果,序列卷積的參數(shù)盡可能保持與CNN相同,并添加4個殘差模塊,空洞系數(shù)設(shè)為2的指數(shù)次冪。具體參數(shù)見表4。

2.4 實驗結(jié)果及分析

由于詞向量表示方法的不同直接影響序列卷積網(wǎng)絡(luò)分類準確性,所以本文先對向量表示方法進行實驗,以獲取最優(yōu)向量表示方法,然后再應(yīng)用最優(yōu)向量表示方法對數(shù)據(jù)進行向量表示,最后用序列卷積網(wǎng)絡(luò)對向量表示后的數(shù)據(jù)進行分類研究。為驗證本文應(yīng)用的 Word2Vec詞向量模型和序列卷積分類模型的具有更好的性能,分別將Word2Vec詞向量與詞袋、TF-IDF進行對比,將序列卷積網(wǎng)絡(luò)模型與CNN模型、傳統(tǒng)機器學習SVM模型進行對比實驗。

首先,本文分別用詞袋、TF-IDF及Word2Vec詞向量模型對數(shù)據(jù)集一向量表示,均選用SVM模型作為分類模型,且SVM在3次實驗中參數(shù)均為表2中的值。圖4、圖5 分別給出了詞袋、TF-IDF及Word2Vec詞向量模型對數(shù)據(jù)向量表示后用SVM分類后的單詞重要性變化圖和混淆矩陣,圖4和圖5由python的數(shù)據(jù)可視化庫matplotlib繪制而成,其中圖4是將SVM模型預測時使用的系數(shù)進行提取和排序得到的。

圖4 單詞重要性

圖5 混淆矩陣

由圖4單詞重要性對比發(fā)現(xiàn)使用詞袋詞向量模型,分類器能正確地找出一些特征(單詞earthquake,fire等),但很顯然在一些地點的詞上出現(xiàn)了過擬合(單詞hiroshima),這些詞出現(xiàn)的頻率非常高,卻只會對預測提供噪聲。使用能解釋詞頻的TF-IDF向量模型,被選出的單詞看起來更相關(guān),同樣的,使用Word2Vec能找出更高度相關(guān)詞語而且可以考慮上下文語義。此外,由混淆矩陣可以看出使用Word2Vec詞向量模型的準確率略高于TF-IDF,并且由于Word2Vec具有結(jié)合上下文語義的能力,所以本文選用Word2Vec詞向量模型。然后,利用Word2Vec詞向量模型將數(shù)據(jù)集轉(zhuǎn)化為對應(yīng)的詞向量,然后分別使用傳統(tǒng)機器學習SVM、卷積神經(jīng)網(wǎng)絡(luò)CNN、序列卷積網(wǎng)絡(luò)模型進行分類,其中各分類算法的參數(shù)見表2-表4。

本文針對3個數(shù)據(jù)集分別實驗,并且3個數(shù)據(jù)集中實驗參數(shù)保持完全相同,數(shù)據(jù)集一的損失趨勢變化用python的數(shù)據(jù)可視化庫matplotlib繪制成圖6,對3個數(shù)據(jù)集分別實驗后準確率見表5。

圖6 loss損失變化

對比loss損失變化圖發(fā)現(xiàn),序列卷積神經(jīng)網(wǎng)絡(luò)的loss值下降到穩(wěn)定值的速度比卷積神經(jīng)網(wǎng)絡(luò)下降到穩(wěn)定值的速度快,并且最終loss值的穩(wěn)定值相對較低,表明序列卷積模型取得較好收斂效果。

表5 不同分類模型實驗結(jié)果對比

如表5所列,本文所提出的序列卷積網(wǎng)絡(luò)應(yīng)用在數(shù)據(jù)集一上準確率比傳統(tǒng)用于分類的機器學習算法SVM模型[15]的分類準確率上提升了12.74%,比CNN模型[16]分類準確率提升5.89%。相似的,在數(shù)據(jù)集二和數(shù)據(jù)集三中,序列卷積神經(jīng)網(wǎng)絡(luò)準確率也高于其它模型。序列卷積網(wǎng)絡(luò)結(jié)合一維全卷積與因果卷積兩種結(jié)構(gòu),利用殘差模塊和擴張卷積來構(gòu)建長期依賴關(guān)系,取得了較好的分類準確率。實驗發(fā)現(xiàn)本文所提序列卷積神經(jīng)網(wǎng)絡(luò)模型有效提高了Twitter文本分類的準確率。

3 結(jié)束語

本文提出序列卷積神經(jīng)網(wǎng)絡(luò)分類模型,該模型將一維全卷積和因果卷積結(jié)合而轉(zhuǎn)化為適合序列性數(shù)據(jù)的模型,利用殘差模塊和空洞卷積來構(gòu)建長期依賴關(guān)系。將本文所提出的序列卷積與CNN模型、SVM模型進行對比實驗,序列卷積模型分類準確率明顯優(yōu)于其它模型。此外本文將此模型應(yīng)用于不同的數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明序列卷積模型在不同Twitter數(shù)據(jù)集分類準確率上均優(yōu)于對比的模型,有效提升了Twitter文本分類的準確率。然而本文并未研究序列卷積模型應(yīng)用于其它類型文本數(shù)據(jù)上的效果,未來將研究序列卷積網(wǎng)絡(luò)對其它數(shù)據(jù)分類準確率的影響。

猜你喜歡
殘差卷積向量
基于雙向GRU與殘差擬合的車輛跟馳建模
向量的分解
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
聚焦“向量與三角”創(chuàng)新題
基于殘差學習的自適應(yīng)無人機目標跟蹤算法
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
自動化學報(2019年6期)2019-07-23 01:18:32
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
南宫市| 瓦房店市| 桃园县| 嘉兴市| 尖扎县| 深圳市| 博野县| 渑池县| 建昌县| 浪卡子县| 津市市| 凤山市| 金湖县| 东乡县| 鄂托克前旗| 高台县| 郎溪县| 云和县| 庆安县| 锡林浩特市| 敦化市| 漳州市| 吉林省| 维西| 石屏县| 荔波县| 岳西县| 景宁| 柯坪县| 陆川县| 三门峡市| 嘉善县| 绿春县| 都昌县| 资中县| 拉孜县| 文水县| 禄丰县| 筠连县| 潜江市| 夏津县|