循環(huán)神經(jīng)網(wǎng)絡實現(xiàn)文本智能預測

2018-06-15 02:08牛伯浩

智能城市 2018年10期

牛伯浩

寧夏大學信息工程學院，寧夏銀川 750021

近年來，語言模型中，從前經(jīng)典的N-gram模型應用比較常見，因其易于實現(xiàn)的特性而使很多科研人員對其的研究充滿濃厚的興趣。研究發(fā)現(xiàn)，這種方法其實存在著數(shù)據(jù)稀疏與缺乏長距離語言約束的問題。隨著深度神經(jīng)網(wǎng)絡方法的興起，越來越多的深度網(wǎng)絡變得流行起來。因此，為了解決這些問題，獲得長距離信息，基于循環(huán)神經(jīng)網(wǎng)絡（RNN）語言模型被發(fā)掘出來[1]；但是，由于循環(huán)神經(jīng)網(wǎng)絡自身的局限性，在取得長距離的信息時可能會出現(xiàn)梯度下降或者梯度消失的問題。因此，為了應對這一系列的問題，本文在前人的循環(huán)神經(jīng)網(wǎng)絡語言模型的研究的基礎上，使用長短時記憶神經(jīng)網(wǎng)絡（LSTM）來嘗試改進其預測能力，希望在大詞匯連續(xù)語言文本識別預測過程中有一定程度的改善。所謂智能預測，就是體現(xiàn)在循環(huán)神經(jīng)網(wǎng)絡能夠很好地對自然語言進行預測，為了確保精度，提高文本智能預測的準確率，我們的實驗主要是借助于長短時記憶神經(jīng)網(wǎng)絡（LSTM）來實現(xiàn)。

1 基于 RNN 的實現(xiàn)

循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Networks ， RNN），也稱遞歸神經(jīng)網(wǎng)絡[1]，其最主要的特征就是共享權值W，循環(huán)神經(jīng)網(wǎng)絡模型的基本結構如圖1所示。

圖1 觀測系統(tǒng)示意圖

如圖1所示，就是RNN網(wǎng)絡的基本結構圖。

輸出層：

隱藏層：

式（1）是輸出層的計算公式，式中，x—輸入單元，標記為{X0， X1，…，Xt…}，其中Xt代表 t 時刻的輸入；s—隱含單元，標記為{S0，S1，…，St，…}。

RNN最主要的特征就是體現(xiàn)在隱藏層這邊，也可以把隱藏層看作整個網(wǎng)絡的一個記憶單元。因此，整個網(wǎng)絡模型的應用主要是充分利用了這一特點。在經(jīng)過一系列的實驗之后，我們發(fā)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡在自然語言處理上取得了很好的結果，尤其像詞向量表達、語句合法性檢查、詞性標注等方面，表現(xiàn)更加突出。

循環(huán)神經(jīng)網(wǎng)絡（RNN）的算法稱之為BPTT，包括前向傳播和反向傳播[3]。整個模型的訓練主要是對參數(shù)的訓練，因為每一層的參數(shù)U、V、W都是共享的，因此我們可以假設整個模型每一層的任務都是相同的。這樣可以提高我們整個模型的效率。而整個模型的關鍵就是隱藏層，對于隱藏層的訓練在這里是尤為重要的。

前向傳播主要就是一個參數(shù)前向傳遞的過程，在這個過程中，既有時間上的前后傳遞，同時還有一個共享的權重，主要由以下兩個公式體現(xiàn)：

循環(huán)神經(jīng)網(wǎng)絡能夠根據(jù)具有相關性語義的輸入進行預測輸出結果，我們充分利用了循環(huán)神經(jīng)網(wǎng)絡的這一特點，實現(xiàn)基于此網(wǎng)絡設計實驗來實現(xiàn)對文本進行預測。由于循環(huán)神經(jīng)網(wǎng)絡的預測結果和人的判斷具有一定的相關性，因此，我們就借助此網(wǎng)絡實現(xiàn)語言文本的智能預測。由于單純的遞歸網(wǎng)絡在實際處理問題的過程中并不能達到一個很好地效果，就像一個容易忘記事情的老人，所謂梯度消失，就可以比作是老人忘記事情，這達不到智能預測的要求。為了確保精度，我們嘗試了很多方法進行改進，其中一個有明顯效果的就是增加網(wǎng)絡層數(shù)，很顯然，網(wǎng)絡層數(shù)的增加，預測的準確度有所提升，但是在訓練的時候，耗時也比較大，那么這時候就需要一個新的方法來平衡精度和效率。這時，雙向循環(huán)神經(jīng)網(wǎng)絡就應運而生了。其基本原理示意圖如圖2所示。所謂“雙向”就是在原來網(wǎng)絡模型的基礎上，我們又加了一個共享權值W。很顯然，兩個共享權值肯定會比一個共享權值的效果好。兩個權值一個參與正向計算，一個參與反向計算。更進一步地提高了性能。因此我們的循環(huán)神經(jīng)網(wǎng)絡又有了一個新的階段性的進步。隨著人們對性能的要求越來越高，新的模型又不斷出現(xiàn)，比如長短時記憶神經(jīng)網(wǎng)絡（LSTM）。

圖2 雙向RNN 示意圖

在實驗的過程中，為了提高智能文本預測的性能，首先嘗試了加深循環(huán)神經(jīng)網(wǎng)絡的層數(shù)，效果確實有了一定的提高，接著，又嘗試使用雙向循環(huán)神經(jīng)網(wǎng)絡，以及改進的循環(huán)神經(jīng)網(wǎng)絡如(LSTM) 。最終我們?yōu)榱诉_到比較好的智能文本預測效果，選擇和(LSTM) 網(wǎng)絡相結合，以達到相對較好的效果。因為我們的智能文本預測效果主要是借助于 (LSTM) 網(wǎng)絡來實現(xiàn)，因此接下來將對(LSTM) 網(wǎng)絡進行重點介紹。

2 LSTM神經(jīng)網(wǎng)絡語言模型

由圖3可知, 基于 LSTM （long short term memory, LSTM）結構的神經(jīng)網(wǎng)絡語言模型和遞歸神經(jīng)網(wǎng)絡也叫作循環(huán)神經(jīng)網(wǎng)絡的語言模型原理一致，區(qū)別最大的地方在于隱藏層引入了 LSTM 結構單元。可以說是RNN的一個改進。

圖3 LSTM 結構單元圖示

輸入門（input gate）：一個Sigmoid層，觀察ht-1和xt，對于元胞狀態(tài)ct-1中的每一個元素，輸出一個0～1之間的數(shù)。具體數(shù)字的大小代表我們對輸入元素的的保留程度，如果是1表示“我們將該輸入信息完全保留”，如果是0表示放棄該信息。

遺忘門（forget gate）：我們網(wǎng)絡處理之后將數(shù)據(jù)傳到Sigmoid層，在這里我們主要完成的任務是我們要更新哪些信息，然后將信息傳遞到tanh層，在這里我們主要是根據(jù)判斷產生新的候選值（結果在（-1,1）范圍）。

輸出門（output gate）：我們將處理之后的結果傳遞到這一層，并輸出。

在復雜語言場景中，有用信息的間隔有大有小、長短不一，RNN在實際的操作中可能會遇到各種問題，比如梯度消失和梯度下降[3]。長短時記憶網(wǎng)絡的設計就是為了解決這個問題，而循環(huán)神經(jīng)網(wǎng)絡被成功應用的關鍵就是LSTM。在很多的任務上，采用LSTM結構的循環(huán)神經(jīng)網(wǎng)絡比標準的循環(huán)神經(jīng)網(wǎng)絡表現(xiàn)更好[4]。因此我們接下來的文本智能預測實驗主要是借助于LSTM來實現(xiàn)。

3 實驗設計及分析

語言模型的目的是為了計算一個句子的出現(xiàn)概率。我們先后在deep循環(huán)神經(jīng)網(wǎng)絡以及雙向循環(huán)神經(jīng)網(wǎng)絡，接著是長短時記憶神經(jīng)網(wǎng)絡（LSTM）進行實驗，最后發(fā)現(xiàn)在LSTM網(wǎng)絡的實驗效果相對更好一些，具體是：給出一個單詞序列，然后根據(jù)前面的單詞來預測接下來的最有可能的結果。在這里把句子看成是單詞的序列，于是語言模型需要計算的就是p（w1,w2,w3,…,wn）。利用語言模型，可以確定哪個單詞序列的可能性更大，或者給定若干個單詞，可以預測下一個最可能出現(xiàn)的詞語。本實驗中用TensorFlow訓練各類神經(jīng)網(wǎng)絡語言模型：前向神經(jīng)網(wǎng)絡語言模型、循環(huán)神經(jīng)網(wǎng)絡語言模型以及基于LSTM 結構的神經(jīng)網(wǎng)絡語言模型。神經(jīng)網(wǎng)絡語言模型迭代次數(shù)均為2。從輸出可以看出，在迭代開始時perplexity值為10003.783，這基本相當于從1萬個單詞中隨機選擇下一個單詞。而在訓練結束后，在訓練數(shù)據(jù)上的perplexity值降低到了179.420。這表明通過訓練過程，將選擇下一個單詞的范圍從1萬個減小到了大約180個。通過調整LSTM隱藏層的節(jié)點個數(shù)和大小以及訓練迭代的輪數(shù)還可以將perplexity值降到更低。

4 結語

在文本預測系統(tǒng)中，我們提供的具有的上下文相關性的語料，也就是輸入。本文基于LSTM語言模型，研究了這種模型對語言模型的預測功能。實驗表明：基于LSTM結構的深度神經(jīng)網(wǎng)絡語言模型性能與之前相比有一定的提高，能夠完成對文本信息的篩選，實現(xiàn)文本智能預測的功能。

[1] 文娟.統(tǒng)計語言模型的研究與應用[D].北京：北京郵電大學，2009．

[2] 周長建，司震宇，刑金閣 , 等.基于 Deep Learning 網(wǎng)絡安全態(tài)勢感知建模方法研究 [J]. 東北農業(yè)大學學報，2013, 44(5)：144-149.

[3] MIKOLOV T，KOMBRINK S，DEORAS A，et al．RNNLM-Recurrent neural network language modeling toolkit[C]/ / Proceeding of the 2011 ASRU Workshop．Waikoloa，Hawaii： Institute of Electrical and Electronic Engineers，2011： 196-201．

[4] 司玉景．遞歸神經(jīng)網(wǎng)絡在電話語音識別系統(tǒng)中的研究與應用[D].北京：中國科學院大學，2014．

[5] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

循環(huán)神經(jīng)網(wǎng)絡實現(xiàn)文本智能預測

1 基于 RNN 的實現(xiàn)

2 LSTM神經(jīng)網(wǎng)絡語言模型

3 實驗設計及分析

4 結語