国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向自然語言處理的深度學(xué)習(xí)

2018-02-25 14:27薛亞非
電子技術(shù)與軟件工程 2018年12期
關(guān)鍵詞:自然語言處理機器學(xué)習(xí)深度學(xué)習(xí)

薛亞非

摘要 近年來,在語音和圖像處理領(lǐng)域中,對于深度學(xué)習(xí)的研究現(xiàn)已取得突出成就,但在自然語言處理領(lǐng)域中,還尚未取得重大突破?;诖?,文章主要從學(xué)習(xí)定義、應(yīng)用動機、基本框架等方面入手,對深度學(xué)習(xí)進行了全方位介紹,同時還對面向自然語言處理的深度學(xué)習(xí)進行了深入研究。

【關(guān)鍵詞】自然語言處理 深度學(xué)習(xí) 自動編碼器 神經(jīng)網(wǎng)絡(luò) 機器學(xué)習(xí)

所謂“深度學(xué)習(xí)”,即通過深層神經(jīng)網(wǎng)絡(luò)的建立,對人體大腦機制進行模擬,并分析文本、語音、圖像等數(shù)據(jù)。在現(xiàn)階段的機器學(xué)習(xí)研究中,深度學(xué)習(xí)是一個重點熱議的話題。在傳統(tǒng)機器學(xué)習(xí)工作中,其質(zhì)量和效果與輸入特征和人工設(shè)計數(shù)據(jù)息息相關(guān),而機器學(xué)習(xí)的方法只是對學(xué)習(xí)權(quán)重加以優(yōu)化,從而輸出最優(yōu)學(xué)習(xí)結(jié)果。而深度學(xué)習(xí)可自動完成特征提取和數(shù)據(jù)表示工作,并提倡通過學(xué)習(xí)來提取出不同維度和不同水平的有效表示,從而不斷提升對數(shù)據(jù)的解釋能力。從認知科學(xué)的角度分析,深度學(xué)習(xí)的思路與人們的學(xué)習(xí)機理十分契合,本文主要研究了面向自然語言處理的深度學(xué)習(xí)。

1 深度學(xué)習(xí)概述

1.1 深度結(jié)構(gòu)

相比于以往的淺層學(xué)習(xí),深度學(xué)習(xí)在具體實踐的過程中,對模型的深度具有較高要求,基本上均要求具備3層以上隱層節(jié)點,甚至是可以達到10層,從而可形成多層非線性映射結(jié)構(gòu),為復(fù)雜函數(shù)的逼近提供了便利條件。另外,深度學(xué)習(xí)十分重視特征學(xué)習(xí),通過非監(jiān)督預(yù)訓(xùn)練的方式,改變原始樣本的特征,形成一個全新的特征空間,這種新特征更加有助于預(yù)測和分類的實現(xiàn)。另外,生成性預(yù)訓(xùn)練,也可有效防止由于網(wǎng)絡(luò)函數(shù)表達能力而導(dǎo)致的擬合問題。

在深度學(xué)習(xí)中,關(guān)于“深度”,其主要是來源于流圖的屬性表示,而流圖可對輸入、輸出過程中涵蓋的相關(guān)計算進行表示,經(jīng)過節(jié)點計算,原始輸入產(chǎn)生的結(jié)果,可被作為下一節(jié)點的輸入,以此類推。

將深度結(jié)構(gòu)作為一種因子分解,隨機狀態(tài)下選取的函數(shù),通常很難通過網(wǎng)絡(luò)結(jié)構(gòu)進行表示,但相比于淺層結(jié)構(gòu)。深度結(jié)構(gòu)表示的有效性更高。相關(guān)人員預(yù)測,在這些不能用淺層結(jié)構(gòu)表示而可以用深層次結(jié)構(gòu)表示的函數(shù)中,極有可能存在某種結(jié)構(gòu),能夠通過深層結(jié)構(gòu)進行泛化表示。

1.2 應(yīng)用動機

將待處理問題中的對象通過特征進行表示,是應(yīng)用任務(wù)的首要工作。在對文本分類進行處理的過程中,人們經(jīng)常會通過詞結(jié)合特征對文檔進行表示和描述,之后通過各種各樣的分類算法完成分類。而在處理圖像任務(wù)的過程中,最常見的便是通過像素集合特征的方式來表示圖像,不同的特征對最后的結(jié)果也會產(chǎn)生不同的影響。因此,人們在解決實際問題的過程中,選擇恰當(dāng)、合理的特征至關(guān)重要。

在很多訓(xùn)練任務(wù)中,如本文、圖像、語音等等,以圖像識別為例,圖像的像素是最初的原始輸入,其他的相鄰的像素可以一同構(gòu)成線條,而由線條的結(jié)合又可形成紋理,最后形成圖像。而通過局部的圖像還能構(gòu)成一個完整的物體。通過整個過程不難看出,淺層特征和原始輸入之間的關(guān)聯(lián)和很容易找到,在此前提下,借助中間層的相關(guān)特征,能夠獲得高層特征和原始輸入之間的關(guān)系。

以往的機器學(xué)習(xí)方式,對于特征表示的依賴性較強,自動組織信息和抽取信息的能力較弱,通過人工選擇,雖然能夠借助人類的經(jīng)驗知識和智慧來彌補這一不足和缺陷,但若想達到深入理解問題的層次,相關(guān)研究人員仍需花費大量的時間和精力。而這也在很大程度上限制了機器學(xué)習(xí)向智能化學(xué)習(xí)的方向發(fā)展,因此,從能夠觀察到的感官數(shù)據(jù)中,解釋或者是識別相關(guān)特征,逐漸擺脫選擇人工特征的局限性,也逐漸成為了深度學(xué)習(xí)過程中的重要思想。從某種意義上來看,能夠具備自動化學(xué)習(xí)功能的學(xué)習(xí)方式,均可被納入深度學(xué)習(xí)范疇。

1.3 首要任務(wù)

對于深度學(xué)習(xí)而言,其首要任務(wù)是找尋一種簡單、便捷的算法,能夠?qū)Υ鉀Q問題進行分層表示,通過特征的變換.將原始樣本的特征逐漸轉(zhuǎn)變換到一個全新的特征空間,如此便可更加方便的借助特征,來完成預(yù)測和分類任務(wù)。由此也凸顯了表示學(xué)習(xí)和特征學(xué)習(xí)的重要性,這一思想與傳統(tǒng)的機器學(xué)習(xí)方式相一致,但差異在于,深度學(xué)習(xí)可自動的提取特征,但以往的機器學(xué)習(xí),對于人工分析的依賴性較強。自動化程度較低。深度學(xué)習(xí)會學(xué)習(xí)數(shù)據(jù)的變換形式,在預(yù)測器或者分類器構(gòu)建的過程中,更加容易獲取價值信息。

2 面向自然語言處理的深度學(xué)習(xí)研究及其應(yīng)用

在語音和圖像領(lǐng)域中,對于深度學(xué)習(xí)的研究現(xiàn)己取得顯著成就。但在自然語言處理領(lǐng)域中,還未取得重大進展,不同于圖像,語言產(chǎn)生于人的大腦,經(jīng)過一系列的加工和處理之后形成符號系統(tǒng),在自然語言領(lǐng)域中,人工神經(jīng)網(wǎng)絡(luò)對人腦結(jié)構(gòu)的模仿具有突出優(yōu)勢,但現(xiàn)實卻并非如此。最近幾十年來,自然語言的處理基本都是以統(tǒng)計模型為主,而人工神經(jīng)網(wǎng)絡(luò)作為一種傳統(tǒng)的統(tǒng)計方式,卻并未在自然語言處理領(lǐng)域中得到相應(yīng)的重視。

2.1 深度學(xué)習(xí)的可用性研究

2.1.1 特征表示學(xué)習(xí)需求

在自然語言處理任務(wù)中,首要工作便是對對象的表現(xiàn)形式進行處理,為了能夠更加精準的描述和表示對象,一般會選擇一些特征,如在處理文本的過程中,經(jīng)常會使用詞集合對文檔進行表示,結(jié)合傳統(tǒng)手工方式的抽取特征,不僅浪費時間和精力,且整個過程也比較缺乏嚴謹性,完備性不足。另外,處理領(lǐng)域和處理任務(wù)的不同,特征提取也要重復(fù)的進行,難以實現(xiàn)共享。而深度學(xué)習(xí)主要就是為了解決上述問題而產(chǎn)生,即要實現(xiàn)自動化的從數(shù)據(jù)中獲取特征的目標。

2.1.2 無監(jiān)督特征和權(quán)重學(xué)習(xí)需求

目前,很多效果顯著的自然語言處理任務(wù)和學(xué)習(xí)方式,均是比較依賴于標注數(shù)據(jù),在此情況下,有監(jiān)督學(xué)習(xí)方式和標志語料庫逐漸成為重要的主流手段。但在實踐應(yīng)用過程中,若想從自然語言中大量存在的標注數(shù)據(jù)中獲取或挖掘價值信息,就一定要提升對無監(jiān)督方法的重視程度。而深度學(xué)習(xí)便是通過該方式完成了預(yù)訓(xùn)練任務(wù),并提供出了恰當(dāng)?shù)挠?xùn)練模型。

2.1.3 學(xué)習(xí)多層分類表示需求

研究表明,大腦結(jié)構(gòu)可輔助人們完成學(xué)習(xí),其屬于一種多層的皮質(zhì)層,不同的皮質(zhì)層,其所對應(yīng)的學(xué)習(xí)表示結(jié)構(gòu)各不相同。表示越抽象,便越能夠交叉支持具體任務(wù)處理,因此,一定要充分的利用好學(xué)習(xí)模型,并要盡可能多的抽取其中的價值表示形式,通過深度學(xué)習(xí)能夠很好的完成上述目標。

另外,人類的自然語言具有一定的遞歸屬性。例如,自然語言中的句子,一般是由短語、字詞等共同組成,而深度學(xué)習(xí)確可為其提供了一種較為便捷的遞歸操作,同時可充分滿足自然語言遞歸組合的實際需求,如遞歸神經(jīng)網(wǎng)絡(luò)。

2.1.4 硬件及技術(shù)支撐平臺

深度學(xué)習(xí)機構(gòu)是由很多的神經(jīng)網(wǎng)絡(luò)節(jié)點共同構(gòu)成,其在進行預(yù)訓(xùn)練的過程中,一般需要得到高性能計算機的輔助和支持。隨著科學(xué)技術(shù)的不斷發(fā)展,目前,能夠提供高性能計算機的平臺逐漸成熟,具體如圖像處理單元、多核計算等等。提供算法支持技術(shù)也獲得了快速發(fā)展,如Auto-encoders、RBM等等。與此同時,自然語言處理的預(yù)演算法和模型也得到了優(yōu)化,其性能得到了顯著改善。隨著軟硬件技術(shù)的不斷發(fā)展,均為面向自然語言處理的深度學(xué)習(xí)研究提供了良好環(huán)境。

2.2 面向自然語言處理的深度學(xué)習(xí)研究模型

若想實現(xiàn)深度學(xué)習(xí)在自然語言處理領(lǐng)域中的有效應(yīng)用,首先要解決以下問題,

(1)應(yīng)用領(lǐng)域內(nèi)的原始特征表示;

(2)要選擇恰當(dāng)、合理的深度學(xué)習(xí)算法。

前者隸屬于數(shù)數(shù)據(jù)表示的范疇,而后者則是隸屬于深度學(xué)習(xí)結(jié)構(gòu)的范疇,即深度學(xué)習(xí)模型。例如,在處理圖像的過程中,在選擇原始特征表示時,一般會以圖像像素矩陣為主。而在處理于語音任務(wù)的過程中,則通常會優(yōu)先選擇基本語音單位,最為典型的便是音素。同時,還應(yīng)對深度學(xué)習(xí)框架加以明確。

結(jié)合上述可知,深度學(xué)習(xí)的主要任務(wù)是特征學(xué)習(xí),而從本質(zhì)上來看,這種學(xué)習(xí)模型實則是屬于一種基于原始特征的輸入,經(jīng)過多層非線性處理,對復(fù)雜的特征表示方式進行學(xué)習(xí)。如果能夠與特定的領(lǐng)域任務(wù)進行結(jié)合,則深度學(xué)習(xí)一般可借助自動學(xué)習(xí)的特征表示,對新型分類器進行構(gòu)建,同時還可自動生成工具,從而完成更多領(lǐng)域的任務(wù)。例如,在逐層訓(xùn)練中,自動編碼器構(gòu)建屬于最核心、最關(guān)鍵的部分,在構(gòu)建深度學(xué)習(xí)模型的過程中,自動編碼器發(fā)揮著神經(jīng)網(wǎng)絡(luò)的作用和功能。

2.2.1 無監(jiān)督構(gòu)建自動把編碼器

在確定了原始輸入之后,第一層為訓(xùn)練模型,在整個模型中扮演著認知結(jié)構(gòu)的角色,可對原始輸入進行編碼,從而形成初級特征。為了對編碼之后特征的等價抽象表示進行驗證,并沒有丟失過多信息,一般情況下會引入一個相對應(yīng)的解碼器,通過其實現(xiàn)與原始數(shù)據(jù)輸入的比較驗證,而驗證之后的結(jié)果誤差就是代價函數(shù),可將其應(yīng)用于解碼器和編碼器的訓(xùn)練中。在達到訓(xùn)練目標之后,所確定的參數(shù)神經(jīng)網(wǎng)絡(luò)編碼器便是第一層模型,由此也可獲取原始數(shù)據(jù)的抽象表示。完成上述操作之后,需將神經(jīng)網(wǎng)絡(luò)編碼器參數(shù)進行固定,將抽象輸入當(dāng)做輸入,重復(fù)上述操作,以此類推,便可獲取第二、三層的模型,直到滿足訓(xùn)練的要求為止。

2.2.2 有監(jiān)督訓(xùn)練分類器

通過上述操作能夠獲得自動編碼器,且原始輸入信號也有很多表達特征,而這些特征便可用來表示原始輸入信號。但目前,自動編碼器,還不具備分類功能,為了彌補這一缺陷和不足,一般可在自動編碼器的最高層增加分類器。調(diào)整參數(shù)的方式包括:對最高層分類器參數(shù)進行調(diào)整;結(jié)合標簽樣本,對所有自動編碼器參數(shù)進行調(diào)整。深度學(xué)習(xí)模型的存在局部最優(yōu)解,通過逐層初始化的方式,可對深層模型進行調(diào)整,使其達最佳優(yōu)解位置,從而為最優(yōu)效果提供保障。而淺層模型對于人工經(jīng)驗的依賴性較強,而這也是其局限所在,模型自身只是一種預(yù)測和分類工具。因此,在淺層模型系統(tǒng)中,模型的好壞并不能起到?jīng)Q定性的作用,選取特征的好壞才是重點。相關(guān)人員在對上述問題進行研究的過程中,不僅要全面深刻的了解任務(wù)領(lǐng)域的相關(guān)問題,同時還需要花費大量的時間和精力對實驗進行反復(fù)探索。實質(zhì)上,逐層初始化模型也是特征學(xué)習(xí)的過程中,借助隱蔽層,對原始輸入進行抽象表示,并對數(shù)據(jù)結(jié)構(gòu)進行學(xué)習(xí),尋找有效特征,從而不斷提升分類問題的精確性,在得到有效特征之后,也就完成了模型的整體訓(xùn)練

面向自然語言處理的深度學(xué)習(xí)研究,也應(yīng)重點考慮上述相關(guān)問題,在應(yīng)用領(lǐng)域內(nèi)的原始特征表示問題上,包括此詞向量空間、向量空間模型、詞貸模型等表示方式。在深度學(xué)習(xí)算法的問題上,一般要結(jié)合語言的實際特征,來選擇一種合理的深度學(xué)習(xí)模型。人類的自然語言具有一定的遞歸屬性。例如,自然語言中的句子,一般是由短語、字詞等共同組成,因此,這種遞歸屬性也是自然語言所具備的特征。基于該特性的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)模型、遞歸神經(jīng)網(wǎng)絡(luò)模型以及循環(huán)神經(jīng)網(wǎng)絡(luò)模型等等。

綜合衡量了上述問題之后,在自然語言處理領(lǐng)域中的深度學(xué)習(xí)方式如下:

(1)在深度學(xué)習(xí)模型構(gòu)建過程中,通過原始特征的應(yīng)用,對端對端系統(tǒng)進行構(gòu)建,從而逐步完成處理任務(wù)。

(2)在現(xiàn)有模型的基礎(chǔ)上,將完成訓(xùn)練的原始特征作為輔助特征并進行實踐應(yīng)用。

在方法一中,較為奠定的代表是SENNA系統(tǒng),以多層一維卷積神經(jīng)網(wǎng)絡(luò)和向量方法為基礎(chǔ)和前提,逐步完成了命名實體識別、語塊切分、詞性標注等相關(guān)工作任務(wù)。類似的工作還包括Socher,即以遞歸神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)完成語法分析、情感分析等多項工作。在第二種方法中,較為典型的如Turian,即將詞向量加入最優(yōu)系統(tǒng)中,從而不斷提升短語識別和命名實體識別的精準性和效率性。

3 結(jié)束語

綜上所述,不同于圖像處理,自然語言分層抽象并不突出,深度學(xué)習(xí)在自然語言處理領(lǐng)域中所選取的特征表示,目前以Wordembedding機制為主,實踐過程中還存在著一定問題,但總而言之,深度學(xué)習(xí)為自然語言處理提供了全新的嘗試,可行性較高,如此也使得語言和任務(wù)之間的泛化遷移變得更加容易。

參考文獻

[1]林奕歐,雷航,李曉瑜等,自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J].電子科技大學(xué)學(xué)報,2017,464: 45-963.

[2]昝紅英,朱學(xué)鋒,面向自然語言處理的漢語虛詞研究與廣義虛詞知識庫構(gòu)建[J].當(dāng)代語言學(xué),2014,4265:124-135.

[3]鞏捷甫,面向語文作文自動評閱的修辭手法識別系統(tǒng)的設(shè)計與實現(xiàn)[J].哈爾濱工業(yè)大學(xué),2016,45: 63-362.

[4]陳致鵬,面向小學(xué)生閱讀理解題型的智能解題系統(tǒng)研究與實現(xiàn)[J]哈爾濱工業(yè)大學(xué),2016,74-455.

[5]郭鵬.深度卷積神經(jīng)網(wǎng)絡(luò)及其在手寫體漢字識別中的應(yīng)用研究[J],四川師范大學(xué),20164,45: 88-654.

猜你喜歡
自然語言處理機器學(xué)習(xí)深度學(xué)習(xí)
基于組合分類算法的源代碼注釋質(zhì)量評估方法
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究