(中安興坤(杭州)科技有限公司,浙江杭州市,311121) 吳 凱
(江蘇電子信息職業(yè)學院,江蘇淮安市,223000) 楊新志
機器學習的領域有很多,深度學習作為研究領域中的一個新的研究方向,在近幾年中,深度學習在圖像識別與檢索、語言信息處理等、語音識別等方面表現(xiàn)顯著。建立模型來模擬人類大腦的神經(jīng)連接結構是深度學習應用的發(fā)展基礎,在處理圖像、聲音和文本這些信號時,通過多個變換階段分層對數(shù)據(jù)特征進行描述,進而給出數(shù)據(jù)的解釋。[1]
深度機器學習分為有監(jiān)督學習和無監(jiān)督學習,不管哪種學習方式[2],都是機器學習在模仿人類對于事物的認識中來的。例如常見的卷積神經(jīng)網(wǎng)絡就屬于監(jiān)督學習方法,生成對抗網(wǎng)絡(GAN)就是一種無監(jiān)督學習方法。典型的深度學習模型有卷積神經(jīng)網(wǎng)絡、深度置信網(wǎng)絡和堆棧自編碼網(wǎng)絡模型等,下面對這些模型進行描述。
Yann Lecun最早將CNN用于手寫數(shù)字識別,這一應用引起了巨大反響。隨著卷積神經(jīng)網(wǎng)絡的發(fā)展,卷積神經(jīng)網(wǎng)絡現(xiàn)如今在語音識別、人臉識別、通用物體識別、運動分析、甚至腦電波方面都表現(xiàn)顯著,這也充分說明了人工智能與我們的生活更加緊密。卷積神經(jīng)網(wǎng)絡的構成部分,一是輸入層、二是由n 個卷積層和池化層的組合組成[2]。卷積神經(jīng)網(wǎng)絡中層間聯(lián)系和空域信息緊密聯(lián)系,圖像處理時,就會易于理解,并且它在自動提取圖像上表現(xiàn)顯著,因此如今多被應用于自動提取圖像方面,而且在自動提取圖像的顯著特征方面還表現(xiàn)了十分優(yōu)異的性能。
深度信任網(wǎng)絡學習模型最早2006 年提出,由Geoffrey Hinton 提出,目的就是可以讓整個神經(jīng)網(wǎng)絡按照最大概率來生成訓練數(shù)據(jù),這樣的操作它是通過訓練其神經(jīng)元間的權值來實現(xiàn)的,因此它是一種生成模型?,F(xiàn)如今它也被應用在人工智能領域,在識別特征、分類數(shù)據(jù)方面表現(xiàn)顯著。
生成對抗網(wǎng)絡模型是2014年提出的,屬于無監(jiān)督學習,與自動編碼器和回歸模型相比等其他無監(jiān)督學習方法來說,GANS更能充分擬合數(shù)據(jù),由于它對數(shù)據(jù)的擬合性好,因此在圖片生成、自然語言應用方面得到了廣泛的應用。
正則化深度費希爾映射方法是由wong 等人提出的,這種方法屬于一種新的特征提取方法,學習從樣本空間到特征空間的顯示映射是它的方法,當然這種方法是根據(jù)Fisher 準則來的,特征的區(qū)分度是根據(jù)Fisher 準則用深度結構神經(jīng)網(wǎng)絡來提高的。正則化因子被引入這種學習過程,因此學習能力過強帶來的過擬合問題在很大程度上被解決了。
非線性變換方法最早是由Raiko 等人提出,該變換方法使得學習MLP變得更容易,因為多層感知器網(wǎng)絡的每個隱神經(jīng)元的輸出具有零輸出和平均值上的零斜率[2]。非線性變換方法的應用領域有很多,例如圖像分類和學習圖像通常采用深度無監(jiān)督自編碼模型。非線性變換方法被應用于這種模型中進行圖像分類和學習圖像的實驗中,最后的結果表明這些變換對學習深度至少達到五個隱層的結構神經(jīng)網(wǎng)絡是有幫助的。
遷移學習算法最早是由Mesnil 等人研究出來的,學習表示的不同種類模型結構在無監(jiān)督學習場景中很多,遷移學習算法被應用于其中。五個學習任務通常采用被無監(jiān)督學習算法,遷移學習算法將不同結構的層堆棧應用在其中[2]。
深度學習被用于物體識別上,它在物體方面最重要的一個突破就是人臉識別[3]。每個人的臉都不一樣,表情、光線和姿態(tài)等因素是人臉識別的一個障礙,要學會如何降低表情、光線等對系統(tǒng)帶來的影響。我們知道表情等其他因素會引起身份的不同,就會導致產(chǎn)生類間變化,這兩種變化是極其復雜的,且無法識別,傳統(tǒng)的線性模型只能單一的判別人臉,但加入了深度學習后,人臉的特征表示就可以通過深度學習多層的非線性變換得到新的特征表示,這些特征保留了類間變化,而且深度學習算法可以很好的擬合數(shù)據(jù),因此在人臉識別方面取得了很好的效果。
深度學習在圖像處理上得到了廣泛應用,現(xiàn)如今最重要的目標就是在非常有限的設置內,通過算法處理更多數(shù)據(jù),如果我們考慮圖像理解,這是人工智能任務中最具體的任務之一,我們會意識到我們還沒有發(fā)現(xiàn)更多的視覺和語義概念學習算法,而這些概念是解釋大多數(shù)圖像所必需的。其他人工智能任務的情況類似。深度學習在圖像處理上通常是用深度信任網(wǎng)絡和堆棧自編碼網(wǎng)絡,這兩種方法通常被用于單個圖像識別,并且取得很好的效果,由于它現(xiàn)在已經(jīng)成功用于生成緊湊的圖像檢索表示形式,它在大型圖像檢索任務中也取得了很好效果,加入了深度學習的圖像識別系統(tǒng),提高了文字識別能力,大大節(jié)省時間。
系統(tǒng)辨識是根據(jù)系統(tǒng)的輸入輸出來確定系統(tǒng)的模型,傳統(tǒng)的系統(tǒng)辨識有著識別速度慢,正確率很低的問題,系統(tǒng)辨識的不足就是當遇到復雜的線性系統(tǒng)時,就難以用線性函數(shù)知識來建立,而此時神經(jīng)網(wǎng)絡具有擬合復雜線性函數(shù)的能力?,F(xiàn)在的系統(tǒng)辨識已經(jīng)深度神經(jīng)網(wǎng)絡的參數(shù)優(yōu)化了。系統(tǒng)參數(shù)辨識控制系統(tǒng)涉及深度學習通常是模糊控制系統(tǒng),其中的預測模型就是用深度學習來實現(xiàn)的。
深度學習算法在人工智能領域中被廣泛應用,它在圖像識別等都有了很大的進展,加入了深度學習算法的數(shù)據(jù)處理時間上減少了很多,并且在大規(guī)模破數(shù)據(jù)集下的應用都取得了很大的進展。但是深度學習依然有些不足,需要更進一步的研究。深度學習也有很多的模型,在很多時候,會出現(xiàn)一些模型規(guī)模很大的情況,通常模型的規(guī)模越大,訓練的精度就會越高。同時在訓練中參數(shù)的設置問題、模型規(guī)模的調整都可能會影響模型優(yōu)化,效率完全會被訓練時間所影響。因此在深度學習算法和深度學習模型中,要提高訓練精度和速度仍然是深度學習方向研究的內容之一。
目前多種模式分類問題都使用了深度學習,深度學習目前有很多工作需要研究,研究可行的訓練是深度學習的目標之一,并且還有探索新的特征提取模型,文章簡要介紹了深度學習的一些概況、算法、以及應用,未來深度學習肯定還是研究的熱點問題之一。