牛伯浩
寧夏大學信息工程學院,寧夏銀川 750021
近年來,語言模型中,從前經(jīng)典的N-gram模型應用比較常見,因其易于實現(xiàn)的特性而使很多科研人員對其的研究充滿濃厚的興趣。研究發(fā)現(xiàn),這種方法其實存在著數(shù)據(jù)稀疏與缺乏長距離語言約束的問題。隨著深度神經(jīng)網(wǎng)絡方法的興起,越來越多的深度網(wǎng)絡變得流行起來。因此,為了解決這些問題,獲得長距離信息,基于循環(huán)神經(jīng)網(wǎng)絡(RNN) 語言模型被發(fā)掘出來[1];但是,由于循環(huán)神經(jīng)網(wǎng)絡自身的局限性,在取得長距離的信息時可能會出現(xiàn)梯度下降或者梯度消失的問題。因此,為了應對這一系列的問題,本文在前人的循環(huán)神經(jīng)網(wǎng)絡語言模型的研究的基礎上,使用長短時記憶神經(jīng)網(wǎng)絡(LSTM) 來嘗試改進其預測能力,希望在大詞匯連續(xù)語言文本識別預測過程中有一定程度的改善。所謂智能預測,就是體現(xiàn)在循環(huán)神經(jīng)網(wǎng)絡能夠很好地對自然語言進行預測,為了確保精度,提高文本智能預測的準確率,我們的實驗主要是借助于長短時記憶神經(jīng)網(wǎng)絡 (LSTM) 來實現(xiàn)。
循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks , RNN) ,也稱遞歸神經(jīng)網(wǎng)絡[1],其最主要的特征就是共享權值W,循環(huán)神經(jīng)網(wǎng)絡模型的基本結構如圖1所示。
圖1 觀測系統(tǒng)示意圖
如圖1所示,就是RNN網(wǎng)絡的基本結構圖。
輸出層:
隱藏層:
式 (1)是輸出層的計算公式,式中,x—輸入單元,標記為{X0, X1,…,Xt…},其中Xt代表 t 時刻的輸入;s—隱含單元,標記為{S0,S1,…,St,…}。
RNN最主要的特征就是體現(xiàn)在隱藏層這邊,也可以把隱藏層看作整個網(wǎng)絡的一個記憶單元。因此,整個網(wǎng)絡模型的應用主要是充分利用了這一特點。在經(jīng)過一系列的實驗之后,我們發(fā)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡在自然語言處理上取得了很好的結果,尤其像詞向量表達、語句合法性檢查、詞性標注等方面,表現(xiàn)更加突出。
循環(huán)神經(jīng)網(wǎng)絡(RNN) 的算法稱之為BPTT,包括前向傳播和反向傳播[3]。整個模型的訓練主要是對參數(shù)的訓練,因為每一層的參數(shù)U、V、W都是共享的,因此我們可以假設整個模型每一層的任務都是相同的。這樣可以提高我們整個模型的效率。而整個模型的關鍵就是隱藏層,對于隱藏層的訓練在這里是尤為重要的。
前向傳播主要就是一個參數(shù)前向傳遞的過程,在這個過程中,既有時間上的前后傳遞,同時還有一個共享的權重,主要由以下兩個公式體現(xiàn):
循環(huán)神經(jīng)網(wǎng)絡能夠根據(jù)具有相關性語義的輸入進行預測輸出結果,我們充分利用了循環(huán)神經(jīng)網(wǎng)絡的這一特點,實現(xiàn)基于此網(wǎng)絡設計實驗來實現(xiàn)對文本進行預測。由于循環(huán)神經(jīng)網(wǎng)絡的預測結果和人的判斷具有一定的相關性,因此,我們就借助此網(wǎng)絡實現(xiàn)語言文本的智能預測。由于單純的遞歸網(wǎng)絡在實際處理問題的過程中并不能達到一個很好地效果,就像一個容易忘記事情的老人,所謂梯度消失,就可以比作是老人忘記事情,這達不到智能預測的要求。為了確保精度,我們嘗試了很多方法進行改進,其中一個有明顯效果的就是增加網(wǎng)絡層數(shù),很顯然,網(wǎng)絡層數(shù)的增加,預測的準確度有所提升,但是在訓練的時候,耗時也比較大,那么這時候就需要一個新的方法來平衡精度和效率。這時,雙向循環(huán)神經(jīng)網(wǎng)絡就應運而生了。其基本原理示意圖如圖2所示。所謂“雙向”就是在原來網(wǎng)絡模型的基礎上,我們又加了一個共享權值W。很顯然,兩個共享權值肯定會比一個共享權值的效果好。兩個權值一個參與正向計算,一個參與反向計算。更進一步地提高了性能。因此我們的循環(huán)神經(jīng)網(wǎng)絡又有了一個新的階段性的進步。隨著人們對性能的要求越來越高,新的模型又不斷出現(xiàn),比如長短時記憶神經(jīng)網(wǎng)絡(LSTM) 。
圖2 雙向RNN 示意圖
在實驗的過程中,為了提高智能文本預測的性能,首先嘗試了加深循環(huán)神經(jīng)網(wǎng)絡的層數(shù),效果確實有了一定的提高,接著,又嘗試使用雙向循環(huán)神經(jīng)網(wǎng)絡,以及改進的循環(huán)神經(jīng)網(wǎng)絡如(LSTM) 。最終我們?yōu)榱诉_到比較好的智能文本預測效果,選擇和(LSTM) 網(wǎng)絡相結合,以達到相對較好的效果。因為我們的智能文本預測效果主要是借助于 (LSTM) 網(wǎng)絡來實現(xiàn),因此接下來將對(LSTM) 網(wǎng)絡進行重點介紹。
由圖3可知, 基于 LSTM (long short term memory, LSTM) 結構的神經(jīng)網(wǎng)絡語言模型和遞歸神經(jīng)網(wǎng)絡也叫作循環(huán)神經(jīng)網(wǎng)絡的語言模型原理一致,區(qū)別最大的地方在于隱藏層引入了 LSTM 結構單元。可以說是RNN的一個改進。
圖3 LSTM 結構單元圖示
輸入門 (input gate):一個Sigmoid層,觀察ht-1和xt,對于元胞狀態(tài)ct-1中的每一個元素,輸出一個0~1之間的數(shù)。具體數(shù)字的大小代表我們對輸入元素的的保留程度,如果是1表示“我們將該輸入信息完全保留”,如果是0表示放棄該信息。
遺忘門(forget gate):我們網(wǎng)絡處理之后將數(shù)據(jù)傳到Sigmoid層,在這里我們主要完成的任務是我們要更新哪些信息,然后將信息傳遞到tanh層,在這里我們主要是根據(jù)判斷產生新的候選值(結果在(-1,1) 范圍)。
輸出門(output gate) :我們將處理之后的結果傳遞到這一層,并輸出。
在復雜語言場景中,有用信息的間隔有大有小、長短不一,RNN在實際的操作中可能會遇到各種問題,比如梯度消失和梯度下降[3]。長短時記憶網(wǎng)絡的設計就是為了解決這個問題,而循環(huán)神經(jīng)網(wǎng)絡被成功應用的關鍵就是LSTM。在很多的任務上,采用LSTM結構的循環(huán)神經(jīng)網(wǎng)絡比標準的循環(huán)神經(jīng)網(wǎng)絡表現(xiàn)更好[4]。因此我們接下來的文本智能預測實驗主要是借助于LSTM來實現(xiàn)。
語言模型的目的是為了計算一個句子的出現(xiàn)概率。我們先后在deep循環(huán)神經(jīng)網(wǎng)絡以及雙向循環(huán)神經(jīng)網(wǎng)絡,接著是長短時記憶神經(jīng)網(wǎng)絡(LSTM) 進行實驗,最后發(fā)現(xiàn)在LSTM網(wǎng)絡的實驗效果相對更好一些,具體是:給出一個單詞序列, 然后根據(jù)前面的單詞來預測接下來的最有可能的結果。在這里把句子看成是單詞的序列,于是語言模型需要計算的就是p(w1,w2,w3,…,wn) 。利用語言模型,可以確定哪個單詞序列的可能性更大,或者給定若干個單詞,可以預測下一個最可能出現(xiàn)的詞語。本實驗中用TensorFlow訓練各類神經(jīng)網(wǎng)絡語言模型:前向神經(jīng)網(wǎng)絡語言模型、循環(huán)神經(jīng)網(wǎng)絡語言模型以及基于LSTM 結構的神經(jīng)網(wǎng)絡語言模型。神經(jīng)網(wǎng)絡語言模型迭代次數(shù)均為2。從輸出可以看出,在迭代開始時perplexity值為10003.783,這基本相當于從1萬個單詞中隨機選擇下一個單詞。而在訓練結束后,在訓練數(shù)據(jù)上的perplexity值降低到了179.420。這表明通過訓練過程,將選擇下一個單詞的范圍從1萬個減小到了大約180個。通過調整LSTM隱藏層的節(jié)點個數(shù)和大小以及訓練迭代的輪數(shù)還可以將perplexity值降到更低。
在文本預測系統(tǒng)中,我們提供的具有的上下文相關性的語料,也就是輸入。本文基于LSTM語言模型,研究了這種模型對語言模型的預測功能。實驗表明:基于LSTM結構的深度神經(jīng)網(wǎng)絡語言模型性能與之前相比有一定的提高,能夠完成對文本信息的篩選,實現(xiàn)文本智能預測的功能。
[1] 文娟.統(tǒng)計語言模型的研究與應用[D].北京:北京郵電大學,2009.
[2] 周長建,司震宇,刑金閣 , 等.基于 Deep Learning 網(wǎng)絡安全態(tài)勢感知建模方法研究 [J]. 東北農業(yè)大學學報,2013, 44(5):144-149.
[3] MIKOLOV T,KOMBRINK S,DEORAS A,et al.RNNLM-Recurrent neural network language modeling toolkit[C]/ / Proceeding of the 2011 ASRU Workshop.Waikoloa,Hawaii: Institute of Electrical and Electronic Engineers,2011: 196-201.
[4] 司玉景.遞歸神經(jīng)網(wǎng)絡在電話語音識別系統(tǒng)中的研究與應用[D].北京:中國科學院大學,2014.
[5] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.