国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字符的遞歸神經(jīng)網(wǎng)絡(luò)在中文語言模型中的研究與實現(xiàn)

2018-10-21 10:52伍逸凡朱龍嬌石俊萍
現(xiàn)代信息科技 2018年8期
關(guān)鍵詞:自然語言處理

伍逸凡 朱龍嬌 石俊萍

摘 要:本文通過對基于字符的長短記憶遞歸神經(jīng)網(wǎng)絡(luò)的研究與實現(xiàn),探究了其在自然語言模型中的應(yīng)用,并選用了小說《挪威的森林》對遞歸神經(jīng)網(wǎng)絡(luò)進行了訓(xùn)練與文本生成,總結(jié)了不足之處,探討了未來應(yīng)該解決的問題與研究方向。研究結(jié)果表明遞歸神經(jīng)網(wǎng)絡(luò)僅能學(xué)會字與字或詞與詞之間在表面的連接或變化關(guān)系,而自然語言不僅僅是文字表面的異同,更多的是字里行間中情感或思維上的變化,這些是一組序列數(shù)據(jù)所不能表達的。因此,未來自然語言模型應(yīng)更加注重對于文字間情感和思維的學(xué)習(xí),構(gòu)建更接近自然語言的模型。

關(guān)鍵詞:長短記憶單元;遞歸神經(jīng)網(wǎng)絡(luò);自然語言處理;字詞嵌入

中圖分類號:TP391.1;TP183 文獻標識碼:A 文章編號:2096-4706(2018)08-0012-03

Abstract:Through the research and implementation of character-based recursive neural networks of long and short memory,this essay explored its application in natural language models,and selected the novel Forest in Norway to train recurrent neural networks and generate the corresponding text. Summed up the shortcomings,discussed the problems and research directions that should be solved in the future. The research results show that the recurrent neural network can only learn the connection or change relations between word and words or words on the surface,and the natural language is not only the similarities and differences between the surface of the words,but also more changes in emotions or thoughts between lines. These are a group of sequence data far from being able to express,so in the future natural language models should pay more attention to the study of sentiment and thinking between words to build a model that is closer to natural language.

Keywords:long short term memory unit;recursive neural network;natural language processing;word embedding

0 引 言

自然語言是人類智慧的結(jié)晶,而自然語言處理(Nature Language Processing)是嘗試通過計算機技術(shù)結(jié)合概率論與數(shù)理統(tǒng)計等數(shù)學(xué)方法,讓計算機理解或生成自然語言的技術(shù)。近年來,自然語言處理技術(shù)隨著時代的進步逐漸興起,并迅速發(fā)展,讓計算機正確有效地理解和處理人類自然語言,并進一步實現(xiàn)與人類的對話,已成為當今具有巨大挑戰(zhàn)性的難題。

隨著時代的變遷與技術(shù)的發(fā)展,在自然語言處理中,詞匯的表征由最先的One-hot編碼發(fā)展為如今的詞嵌入編碼,詞嵌入將詞匯嵌入到一個低緯而緊湊的向量空間中,大大加強了詞匯間的聯(lián)系;文本的處理由最先的N-Grams模型發(fā)展為如今的遞歸神經(jīng)網(wǎng)絡(luò)模型,遞歸神經(jīng)網(wǎng)絡(luò)通過神經(jīng)元在時序上的連接,成功捕獲了文本長短期的順序依賴關(guān)系;而后由Jürgen Schmidhuber等人提出的長短記憶遞歸神經(jīng)網(wǎng)絡(luò),即LSTM網(wǎng)絡(luò),通過在網(wǎng)絡(luò)中引用一種叫做記憶單元的特殊結(jié)構(gòu),成功解決了遞歸神經(jīng)網(wǎng)絡(luò)中信息在傳遞過程中的梯度消失問題。隨后研究者們將這些成果結(jié)合,并運用于各項領(lǐng)域,如語言翻譯、語音識別、自然語言處理和時間序列分析等,均取得了良好的效果。本文將主要討論LSTM網(wǎng)絡(luò)在中文語言模型中的研究與實現(xiàn)。

1 遞歸神經(jīng)網(wǎng)絡(luò)

遞歸神經(jīng)網(wǎng)絡(luò)(RNN,Recursive Neural Network)是一種專門解決序列問題的人工神經(jīng)網(wǎng)絡(luò)。它通過將神經(jīng)運算單元在時序上堆疊,同時記憶歷史信息,向后傳播并預(yù)測,通過反向傳播算法,讓神經(jīng)網(wǎng)絡(luò)逼近時序數(shù)據(jù)在前后邏輯上的映射關(guān)系。

本文以LSTM單元,即長短記憶單元,作為基本遞歸神經(jīng)運算單元。LSTM單元包括輸入門、忘記門、更新門和輸出門,它們將共同決定歷史信息的去留,以實現(xiàn)歷史信息的長期記憶,它的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

設(shè)t時刻的數(shù)據(jù)為xt,則有:

2 自然語言模型的構(gòu)建

為了使算法能處理語言文字信息,首先需要將文本信息進行統(tǒng)一編碼,我們將選用Embedding的方式進行編碼。Embedding即嵌入,它是一種通過機器學(xué)習(xí)的方法將各字符嵌入到一個低緯向量空間的算法,比起One Hot編碼,Embedding將使字符向量更加稠密,而且可以使字符之間的相關(guān)性得以體現(xiàn)。這樣一來,文本信息便可被抽象為一段編碼序列。設(shè)某個句子的One Hot編碼序列為:

首先經(jīng)過一個Embedding層,將向量編碼為字向量的形式,設(shè)經(jīng)過Embedding層后的序列為:

Embedding層的字符嵌入向量通過Skip-Gram模型訓(xùn)練得到。為了加強字符的表達效果,在Embedding層后增加了三層全連接層,以修正線性單元ReLu作為激活函數(shù),ReLu(x)=max(0,x)。同時為了加強網(wǎng)絡(luò)的映射能力以及學(xué)習(xí)能力,使用了雙層LSTM結(jié)構(gòu),在輸出層也增加了三層全連接層,以反正切函數(shù)作為激活函數(shù),。

為了表示方便,將在一個LSTM單元中完成運算,即公式(1)~(6),綜合表示為complstm,以ht作為輸出,即ht=complstm(xt)。

優(yōu)化目標即找到一組參數(shù),使yt盡可能與下一個詞,即ot+1相等。選用交叉熵損失函數(shù)作為神經(jīng)網(wǎng)絡(luò)的目標函數(shù):

其中,w代表所有的詞語或字符;t代表某個句子中的所有詞語或字符;corpus代表整個預(yù)料。

整體網(wǎng)絡(luò)結(jié)構(gòu),即建模步驟如圖2所示。

3 模型的訓(xùn)練與結(jié)果分析

3.1 研究對象的選取

選用日本作家村上春樹的長篇小說《挪威的森林》作為網(wǎng)絡(luò)的學(xué)習(xí)預(yù)料。該故事主要講述了主角糾纏在情緒不穩(wěn)定且患有精神疾病的直子和開朗活潑的小林綠子之間展開的自我成長旅程的故事。

3.2 模型的訓(xùn)練

設(shè)置初始學(xué)習(xí)率ε0為0.001,按指數(shù)衰減,公式為:。其中i為當前迭代次數(shù),k為衰減周期,β為衰減系數(shù)。取β=0.95,k=100,即每迭代100次,學(xué)習(xí)率衰減為先前的0.95倍??偣步?jīng)過10000次訓(xùn)練,每次迭代送入語料中256句長度為64個字符的句子進行訓(xùn)練,訓(xùn)練過程中的交叉熵損失曲線變化如圖3所示。

3.3 模型結(jié)果分析

利用訓(xùn)練好的模型,隨機生成一段約500字的文本,如下:

我此:『我說話,他也是不能見解了。我說:『你有什么都不認為怎么樣?”

“是呀!你知道?!卑⒕G說。“你的腦上就不喜歡莫本的人。真的!”直子說?!爸皇俏也幌矚g的?!?/p>

“是呀!我不知道!”我說。

“不過!我不能說:”

我們走著停進,像著一種東西袋喝酒。

“你是吧?渡邊,我的腦袋就有這種地方呀!”直子問道?!耙驗槟銈兌际莻€年間了。我現(xiàn)在做,你會常常在你的人,你也很想一起子的?!蔽艺f。

“我也不會這么做?”我說。

阿綠從床袋中探下聽里,又重起阿綠似?!拔也恢赖摹!蔽倚赐曇?。

“我會常打開始的事?!卑⒕G說。

“你不會見你家看了。你們不能去跟他嗎?”玲子說。

“是呀!你不知道嗎?渡邊,你們也不會再做,還是有自己一樣?!卑⒕G說。

“是呀!你知道自己的意思。我們也不能這么去呀!我們的話一次不能?”

“你可以說的。雖然我這些愛了,不知道,這里到東西就會去吃飯了?!卑⒕G說。“不過你,她們就能去你?!?/p>

“可能,她們就能不會見,我是我不喜歡地做,還是你一樣的話不行?我不要常去?!蔽艺f?!安贿^,你會常把這種事,而且真是我一直子做的?!?/p>

“我們?nèi)サ模俊背醵粗?。然后我們就像想了起來了。我一直在他一個人把新宿啡的收費吃了一次。我們穿著我旁邊。在我自己不知道的,我也覺得自己的話。如果順利也許這么單。一切一個人,我只要告決硬子的事的。我想我的?!彼f?!安皇??”

從中可以看到,在語法上已經(jīng)學(xué)會了要用引號將說的話引起來,然后或前或后會有個說話人;同時在某些語氣詞后學(xué)會了使用標點,比如“呀”后面接感嘆號,“嗎”后面接問號等,但在語義上還存在很多問題,句子表述以及上下文聯(lián)系有些含糊不清。

4 結(jié) 論

遞歸神經(jīng)網(wǎng)絡(luò)在序列數(shù)據(jù)的學(xué)習(xí)上確實有很大的優(yōu)勢,能從序列數(shù)據(jù)中找到序列之間的變化規(guī)律與趨勢。對于自然語言來說,它不僅僅是簡單的序列數(shù)據(jù)變化,而是夾雜了機器所不能理解的情感和思維等。

將文本數(shù)據(jù)序列化,從本質(zhì)上是一個降維的過程,是將一段夾雜著復(fù)雜情感和思維邏輯的內(nèi)容降維成一段低維的序列數(shù)據(jù),然后送入神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),而數(shù)據(jù)的降維必定是一個信息丟失的過程,只是丟失的程度不同,甚至有些數(shù)據(jù)在降維后必定會丟失大量信息,自然語言就是其中的一種,這是因為它太過復(fù)雜。換句話說,神經(jīng)網(wǎng)絡(luò)能學(xué)到的也就只是這段被大大壓縮過的文本信息,即它永遠無法理解語言本身的內(nèi)涵。

綜上所述,自然語言處理不能僅僅從字符之間或是詞語之間來考慮它們表面的關(guān)系,更應(yīng)從詞語或是字符的內(nèi)在出發(fā),嘗試量化這些字符或是詞語在情感上的變化,以及一些思維邏輯上的因果關(guān)系,構(gòu)建深層次、多結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,從而得到更好的自然語言模型。

參考文獻:

[1] 彭程.基于遞歸神經(jīng)網(wǎng)絡(luò)的中文自然語言處理技術(shù)研究 [D].南京:東南大學(xué),2014.

[2] 李長亮.基于神經(jīng)網(wǎng)絡(luò)的自然語言處理研究 [D].北京:中國科學(xué)院大學(xué),2015.

[3] 梁天新,楊小平,王良,等.記憶神經(jīng)網(wǎng)絡(luò)的研究與發(fā)展 [J].軟件學(xué)報,2017,28(11):2905-2924.

[4] 張曉.基于LSTM神經(jīng)網(wǎng)絡(luò)的中文語義解析技術(shù)研究 [D].南京:東南大學(xué),2017.

[5] 吳稟雅,魏苗.從深度學(xué)習(xí)回顧自然語言處理詞嵌入方法 [J].電腦知識與技術(shù),2016,12(36):184-185.

[6] Liu P,Qiu X,Huang X. Learning context-sensitive word embeddings with neural tensor skip-gram model [C]//International Conference on Artificial Intelligence. AAAI Press,2015:1284-1290.

[7] 張鈸,張鈴.人工神經(jīng)網(wǎng)絡(luò)的設(shè)計方法 [J].清華大學(xué)學(xué)報(自然科學(xué)版),1998(S1):4-7.

作者簡介:伍逸凡(1996.11-),男,漢族,湖南人,本科。研究方向:深度學(xué)習(xí);石俊萍(1974.10-),女,苗族,湖南花垣人,副教授,碩士研究生。研究方向:大數(shù)據(jù)分析與處理。

猜你喜歡
自然語言處理
基于LSTM自動編碼機的短文本聚類方法
自然語言處理與司法案例
國外基于知識庫的問答系統(tǒng)相關(guān)研究進展及其啟示
基于依存句法的實體關(guān)系抽取
基于組合分類算法的源代碼注釋質(zhì)量評估方法
面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
詞向量的語義學(xué)規(guī)范化
漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
玉门市| 广安市| 永济市| 友谊县| 棋牌| 汝州市| 丰原市| 沾益县| 阜阳市| 亚东县| 万荣县| 东平县| 徐闻县| 晋城| 仙游县| 太康县| 资中县| 大英县| 承德市| 固阳县| 海原县| 年辖:市辖区| 滦南县| 宜兰县| 彭州市| 济宁市| 宁安市| 边坝县| 桃源县| 丰镇市| 盐亭县| 搜索| 乐清市| 南雄市| 南溪县| 玉树县| 余姚市| 开封县| 开化县| 新昌县| 杭州市|