李春曉 尹振紅
【摘要】深度學習是機器學習研究中的一個嶄新的領域,它是通過模擬人類大腦的認知環(huán)節(jié),構造結構化模型來提取特征的。整個訓練過程只需要計算機的配合工作,無需人工參與就能夠得到我們想要的圖像識別效果。本文的主要研究方向是探究深度學習在圖像識別方面的應用。
【關鍵詞】深度學習;圖像識別;卷積神經(jīng)網(wǎng)絡;深度信念網(wǎng)絡
近年來,隨著社會的進步和科學技術的發(fā)展,深度學習已經(jīng)成為機器學習和人工智能研究的最新趨勢之一,并已成為當今社會最熱門的研究方向之一。深度學習的發(fā)展無論對計算機視覺領域還是對機器學習領域的研究都產(chǎn)生了巨大的影響。如今,新的深度學習技術正在不斷誕生。其對大眾的生活已經(jīng)產(chǎn)生了深遠的影響。本論文將通過研究深度學習在圖像識別方面的應用,探索其發(fā)展的內(nèi)涵。
1. 深度學習
1.1 深度學習原理
深度學習是機器學習的方法之一。其概念是由Hinton等人于2006年提出的,它起源于人類對于人工神經(jīng)網(wǎng)絡的研究。深度學習的原理簡單來說就是通過組合簡單的特征,形成其它更加復雜、抽象、無法明確限定的特征。它是一種基于對數(shù)據(jù)進行表征的學習方法。深度學習的具體學習過程可以理解為,計算機通過深度學習網(wǎng)絡層級之間的參數(shù)迭代更新,使訓練結果無限逼近真實值,從而達到訓練目標。學習的主要途徑就是通過梯度下降,在學習的過程中使用統(tǒng)計學知識進行算法優(yōu)化。目前,深度學習已在計算機視覺,自動控制,自然語言處理和自動駕駛等領域得到廣泛應用。
1.2 深度學習的發(fā)展
我們將機器學習的發(fā)展歷程大致分為兩個階段,一個是淺層學習階段另一個就是深度學習階段。由于淺層學習無法解決那些結構更加抽象、無法形式化描述的問題。因此,促進了我們對深度學習算法的探究。
深度學習的蓬勃發(fā)展,給很多領域諸帶來了積極影響。例如,對于卷積神經(jīng)網(wǎng)絡的應用,就對圖像識別技術的發(fā)展起到了促進的作用。此外,深度學習的引入也對提升語音識別的正確率做出巨大的貢獻。同時,它在車輛檢測、交通標志識別上也取得了重大成就,甚至在交通標志分類上超越了人類。
1.3 深度學習的展望
現(xiàn)如今深度學習飛速發(fā)展并被廣泛應用于各個領域,但是我們對于深度學習的研究仍處于發(fā)展階段,還存在許多問題需要我們進一步解決。比如在模型結構上,人腦是一個立體結構,它同時兼顧著平面層的分布以及縱向的排列,但是當前我們運用的網(wǎng)絡結構只有平面結構。因此為了進一步研究深度學習,我們勢必要找到一種更加空間化的模型結構。另外,我們希望能在提升訓練精度的情況下保持速度,但是由于深度學習的結構網(wǎng)絡復雜,模型結構層次多,在海量數(shù)據(jù)的影響下,訓練速度很容易受到影響。所以如何在保證訓練精度的前提下仍能提高速度,仍需要我們更深層的研究。
2. 圖像識別
2.1 圖像識別技術的發(fā)展
隨著科技的不斷進步以及人類社會活動的多元化發(fā)展,圖像識別技術的應用在我們的日常生活中愈加廣泛。例如,用于醫(yī)療上的細胞病理圖像識別;用于農(nóng)業(yè)上的農(nóng)作物病害圖像識別;用于交通管制上的交通標志圖像識別等等??傮w來說,我們的日常生活已經(jīng)離不開圖像識別技術的應用及發(fā)展。從現(xiàn)代科技發(fā)展角度來看,科技的飛速革新必然會給圖像識別技術提供更加全面的應用平臺,同樣的這也將給圖像識別技術提出更高、更嚴格的要求。
2.2 圖像識別技術
在我們的日常生活中,從外界獲取信息的方式多種多樣。例如,感知氣味的嗅覺、聆聽聲音的聽覺、品嘗味道的味覺等等,但是在所有途徑中我們最常用到、最不能缺少的莫過于視覺。正常人的生活離不開行走、吃飯、閱讀等等,這些都要用到視覺。我們總說眼睛是“心靈之窗”,由此可以看出視覺對于我們的生活是多么的重要,它使我們的生命增添了色彩。而圖像則是記錄人類視覺信息的主要途徑,其在我們的發(fā)展中扮演了重要的角色。
圖像識別技術也就是圖像的模式識別技術,它的工作模式是對圖像信息進行模式化處理,建立模型、提取特征進而對圖像進行分析處理,根據(jù)圖像的特征信息進行識別和分類,最終達到我們想要的理想效果。
3. 基于深度學習的圖像識別技術實驗探究
3.1 AlexNet深度學習網(wǎng)絡
AlexNet深度學習網(wǎng)絡在整個深度學習網(wǎng)絡中使用了5個卷積層和3個全連接層,其可以進行1000類別的識別。不同于其它深度學習網(wǎng)絡,該深度學習網(wǎng)絡同時使用了深度學習網(wǎng)絡并行,將整個深度學習網(wǎng)絡劃分了兩路,分別在不同的GPU上面進行深度學習網(wǎng)絡訓練,然后進行梯度的匯總和更新操作,由于深度學習網(wǎng)絡的加深,該深度學習網(wǎng)絡在圖像識別任務中獲得了更高的識別精度。AlexNet深度學習網(wǎng)絡如圖所示:
3.2 實驗分析
3.2.1 實驗平臺介紹
電腦配置如下,處理器:Intel Core i5-3317,CPU主頻:1.70GHz,系統(tǒng)內(nèi)存:10GB,4核處理器。通過利用Python語言編程并使用TensorFlow作為研究的深度學習框架,在CPU上進行訓練和測試。
3.2.2 實驗過程及結果
該實驗對12500張包含貓狗的圖像進行圖像識別,這里的12500張圖像中10000張為訓練集,2500張為測試集,每張圖像進行相應的標注,0代表貓,1代表狗。利用Python語言,基于TensorFlow編程實現(xiàn)AlexNet深度學習網(wǎng)絡,先利用10000張圖像進行訓練,訓練完成后利用2500張圖像進行測試。
再用訓練出來的深度學習參數(shù)對2500張圖像進行識別,這2500張圖中有1250張貓和1250張狗的圖像,下表給出測試集的識別結果。
利用訓練后的深度學習數(shù)據(jù)對2500張圖像進行貓狗識別,2071張圖像被正確識別,識別率為82.84%。
3.2.3 實驗結果分析
利用深度學習方法對包含貓狗的圖像進行學習,之后對測試集圖像進行識別,識別率可以達到82.84%,說明本文使用的AlexNet深度學習網(wǎng)絡可以較好的對貓狗圖像進行識別。但是識別率不是很高,主要原因是訓練數(shù)據(jù)太少,可以通過擴大訓練集數(shù)據(jù)量,或者進一步改進深度學習算法提高識別的準確率。
4. 結語
同其它識別技術相比,文本識別技術對深度學習網(wǎng)絡的網(wǎng)絡層數(shù)需求相對較少,網(wǎng)絡所需要的計算資源也比較少,因此模型訓練的時間就會相對較短。當前,深度學習技術的發(fā)展將人工智能向前推進一大步,目前基于深度學習的應用已經(jīng)逐漸的在人們生活中嶄露頭角,各種智能化產(chǎn)品的出現(xiàn),極大的促進人類獲得更加優(yōu)質(zhì)的生活。但是目前的智能化技術仍然處在初級的智能化,我們?nèi)杂泻荛L的路要走,因此還需要繼續(xù)對深度學習技術進行研究,努力使得深度學習技術可以像人類一樣去識別判斷。如果真的有那么一天,人類才算真正的邁進了智能化時代。
參考文獻:
[1]周子焜.機器學習在圖像處理中的應用[J].電子制作,2018(18).
[2]李軼軒.基于深度學習的青光眼形態(tài)特征自動識別方法研究[D].北京工業(yè)大學,2018:1-75.
[3]王雨辰.基于深度學習的圖像識別與文字推薦系統(tǒng)的設計與實現(xiàn)[D].北京交通大學,2017:1-73.
[4]楊金鑫.基于深度學習的細胞圖像分割與識別算法研究[D].北京郵電大學,2017:1-45.
[5]Redom J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[J].Computer Science,2016.
[6]Szegedy C,Reed S,Erhan D,e tal.Scalable,High-Quality Object Detection[J].Computer Science,2015