国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的圖像分類分析研究

2019-04-25 17:15李翔宇孫曉慶
中國(guó)信息化 2019年4期
關(guān)鍵詞:卷積標(biāo)簽深度

李翔宇 孫曉慶

隨著科學(xué)發(fā)展,近年來,人工智能、深度學(xué)習(xí)蓬勃發(fā)展,在越來越多的領(lǐng)域中得到了廣泛運(yùn)用,人工智能是當(dāng)前的熱點(diǎn)話題,越來越多的行業(yè)正在對(duì)人工智能及其相關(guān)學(xué)科進(jìn)行研究。人工智能的一大特點(diǎn)就是自學(xué)習(xí)能力,即提供學(xué)習(xí)的數(shù)據(jù)越多,處理能力越強(qiáng),因此大數(shù)據(jù)處理是人工智能密不可分的一部分,深度學(xué)習(xí)作為人工智能的重要部分也具備同樣的特點(diǎn),而圖像則是一種重要的學(xué)習(xí)數(shù)據(jù)

圖像是對(duì)人類來說是一種直觀的表現(xiàn)方式,我們可以通過圖像獲取視覺的內(nèi)容,并且了解其含義,可是對(duì)計(jì)算機(jī)來說,它只能通過圖像得到對(duì)應(yīng)的數(shù)字矩陣,而通過矩陣來理解內(nèi)容有一定的難度。因此為了便于計(jì)算機(jī)理解圖像所表達(dá)的意義以及傳遞的思想,需要用到圖像分類來解析成計(jì)算機(jī)可以理解的內(nèi)容。簡(jiǎn)單的圖像分類包括為圖像打上一個(gè)具體的標(biāo)簽。復(fù)雜的圖像分類可以分析圖像內(nèi)容并以人類可以讀懂的語句來反饋。

一、深度學(xué)習(xí)類型

傳統(tǒng)分類圖像的方法主要通過圖像自身特性進(jìn)行分類,實(shí)質(zhì)是對(duì)圖像分類基于特征的學(xué)習(xí),其中重要的一步是特征提取。在此階段,運(yùn)用手動(dòng)設(shè)計(jì)的算法,對(duì)圖像的特定部分編碼,比如形狀、色彩、材質(zhì),用這些特征來評(píng)定圖像內(nèi)容。根據(jù)這些特征,進(jìn)而用于訓(xùn)練網(wǎng)絡(luò)及評(píng)估網(wǎng)絡(luò)。而基于深度學(xué)習(xí)的分類不同,由監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)及半監(jiān)督學(xué)習(xí)組成。深度學(xué)習(xí)分類與傳統(tǒng)分類的對(duì)比如圖1所示。監(jiān)督分類有個(gè)特點(diǎn)是要提前建立判別函數(shù)。監(jiān)督學(xué)習(xí)運(yùn)用較為廣泛的一類。先給定計(jì)算機(jī)訓(xùn)練數(shù)據(jù),創(chuàng)建一個(gè)訓(xùn)練集,此模型會(huì)對(duì)輸入給它的數(shù)據(jù)進(jìn)行預(yù)測(cè),如果發(fā)現(xiàn)預(yù)測(cè)不恰當(dāng)時(shí),要及時(shí)糾正。不斷迭代,直到達(dá)到某一個(gè)停止標(biāo)準(zhǔn),比如錯(cuò)誤率低于某個(gè)設(shè)定值,或者迭代次數(shù)超過某個(gè)設(shè)定值。常用方法包括K近鄰法、馬氏距離分類、最大似然法等。K近鄰法通常會(huì)計(jì)算兩個(gè)數(shù)據(jù)之間的歐式距離或者是曼哈頓距離,歐式距離如公式1所示,曼哈頓距離如公式2所示。

監(jiān)督分類方法主要有:均值、方法等。在圖像分類中,假設(shè)圖像的數(shù)據(jù)集涵蓋本身以及對(duì)應(yīng)的分類標(biāo)簽,此分類標(biāo)簽是訓(xùn)練計(jì)算機(jī)分類器,一旦分類器預(yù)測(cè)錯(cuò)誤,可以用相應(yīng)的方法來糾正。與監(jiān)督學(xué)習(xí)不同,非監(jiān)督學(xué)習(xí)沒有標(biāo)簽,而是特征向量。實(shí)際情況是我們可以比較容易地得到很多無標(biāo)簽數(shù)據(jù),假設(shè)可以根據(jù)無標(biāo)簽數(shù)據(jù)來學(xué)習(xí),則大量用于標(biāo)記標(biāo)簽數(shù)據(jù)的時(shí)間可以省下。典型的非監(jiān)督學(xué)習(xí)算法有PCA和K均值。還有各種算法可以應(yīng)用到神經(jīng)網(wǎng)絡(luò),如:Autoencoders、SOMs和Adaptive Resonance Theory。半監(jiān)督學(xué)習(xí)介于上述兩種方式之間,即一些數(shù)據(jù)帶有標(biāo)簽,而另一些則沒有。半監(jiān)督學(xué)習(xí)在計(jì)算機(jī)視覺中很有用處,可以先對(duì)一些數(shù)據(jù)貼上標(biāo)簽,進(jìn)而通過半監(jiān)督學(xué)習(xí)來給其它數(shù)據(jù)進(jìn)行標(biāo)簽?;谏疃葘W(xué)習(xí)的圖像分類主要有四個(gè)步驟,第一步:收集數(shù)據(jù)集。將大量圖像作為數(shù)據(jù)集,確定好要區(qū)分的種類,并做一些去噪,強(qiáng)化等初步處理。第二步:劃分?jǐn)?shù)據(jù)集,有了大量數(shù)據(jù)以后,將這些劃分為訓(xùn)練集和測(cè)試集兩部分,一些常用的數(shù)據(jù)劃分比例如圖2所示,可以根據(jù)實(shí)際情況選擇所要的比例,如無特殊要求,可以采用一些隨機(jī)分配算法。第三步:訓(xùn)練網(wǎng)絡(luò)。確定了訓(xùn)練集后,就可以將這部分?jǐn)?shù)據(jù)用來訓(xùn)練網(wǎng)絡(luò),可以采用梯度下降等方法進(jìn)行訓(xùn)練。第四步:評(píng)估,訓(xùn)練好網(wǎng)絡(luò)以后,就可以通過測(cè)試集來對(duì)網(wǎng)絡(luò)結(jié)果進(jìn)行評(píng)估。

最近幾年,隨著人工智能的興起,圖像分類的方法更偏向于機(jī)器學(xué)習(xí)。傳統(tǒng)機(jī)器學(xué)習(xí)方法 ,大部分使用的是淺層的結(jié)構(gòu),所處理的數(shù)據(jù)有限。一旦遇到有更廣泛意義的圖像數(shù)據(jù)時(shí),基于淺層結(jié)構(gòu)得到的特征很難完美地處理較為復(fù)雜的分類問題,一般會(huì)有表現(xiàn)性能和泛化能力不足的缺點(diǎn)。而深度學(xué)習(xí)在傳統(tǒng)機(jī)器學(xué)習(xí)基礎(chǔ)上更進(jìn)一步,可以處理海量圖像數(shù)據(jù),從中直接學(xué)習(xí)圖像的特征,并且對(duì)海量圖像數(shù)據(jù)進(jìn)行分類。深度學(xué)習(xí)的優(yōu)點(diǎn)在于特征學(xué)習(xí)以及深層結(jié)構(gòu),這兩點(diǎn)有利于提升分類的精度。特征學(xué)習(xí)可以從海量圖像中學(xué)習(xí)高級(jí)特征,也表達(dá)了數(shù)據(jù)內(nèi)在信息。深層結(jié)構(gòu)則會(huì)包括多層的隱層節(jié)點(diǎn),意味著可以運(yùn)用更多的非線性變換,大大增強(qiáng)擬合復(fù)雜模型的能力。本文主要介紹RBM、CNN、SAE這三種典型的深度學(xué)習(xí)方法。

(一)深度置信網(wǎng)絡(luò)

深度置信網(wǎng)絡(luò)RBM如圖3所示,是在受限玻爾茲曼機(jī)基礎(chǔ)上的發(fā)展而來,玻爾茲曼機(jī)BM屬于無監(jiān)督學(xué)習(xí),參數(shù)空間的各種情況都是根據(jù)能量函數(shù)對(duì)應(yīng)能量域中的能量。

RBM可以解析較為復(fù)雜的數(shù)據(jù),但是隨著今年來攝像頭等視覺采集設(shè)備越來越多,像素也越來越高清,總體來說,現(xiàn)在可以采集到的圖像數(shù)據(jù)比以往更多,特征更復(fù)雜,因此深度學(xué)習(xí)所要處理的數(shù)據(jù)也隨之越來越復(fù)雜,深度置信網(wǎng)絡(luò)處理這些復(fù)雜數(shù)據(jù),需要用到無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)相結(jié)合的辦法。在數(shù)據(jù)處理的每個(gè)階段都會(huì)得到圖像數(shù)據(jù)的特征,而下一階段會(huì)總結(jié)歸納前一階段所得特征信息,達(dá)到較好的識(shí)別水平。

(二)深度自編碼器

深度自編碼器SAE是對(duì)自動(dòng)編碼器AE進(jìn)行優(yōu)化發(fā)展。AE包括了編碼器及解碼器。自編碼器結(jié)構(gòu)如圖4所示。這兩者是圖像數(shù)據(jù)和特征空間的橋梁,編碼器把數(shù)據(jù)反應(yīng)到特征空間,解碼器進(jìn)行相反的操作,即把特征映射回圖像空間,從而對(duì)輸入數(shù)據(jù)進(jìn)行重新構(gòu)建。在輸入與特征空間之間轉(zhuǎn)化過程中可能會(huì)產(chǎn)生不同程度的誤差,在使用深度學(xué)習(xí)對(duì)圖像進(jìn)行處理的過程中,要注意對(duì)學(xué)習(xí)過程的誤差進(jìn)行處理和約束。AE有不同形式,只需改變或新增對(duì)應(yīng)的約束條件。

SAE則通過AE逐層疊加構(gòu)成,對(duì)得到的圖像數(shù)據(jù)進(jìn)行編碼、然后解碼特征,從而簡(jiǎn)化特征,通過自己的學(xué)習(xí)訓(xùn)練,對(duì)圖像數(shù)據(jù)進(jìn)行準(zhǔn)確分析,得到不同圖像數(shù)據(jù)之間的聯(lián)系,深度挖掘圖像信息,高效而快速地對(duì)圖像進(jìn)行分類。

(三)卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)生物視覺的處理過程,在此基礎(chǔ)上構(gòu)建多階段Hubel-Wiesel結(jié)構(gòu)。CNN的實(shí)質(zhì)是表現(xiàn)輸入到輸出的映射關(guān)系。在學(xué)習(xí)之前,輸入及輸出間不存在特定的數(shù)學(xué)模型,而CNN通過海量圖像數(shù)據(jù),學(xué)習(xí)輸入輸出間關(guān)系,訓(xùn)練卷積網(wǎng)絡(luò)來建立模型,卷積神經(jīng)網(wǎng)絡(luò)如圖5所示。

CNN的網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜,由具備不同用途的各個(gè)層組成,除了輸入輸出層,還有卷積、池化、全連接層,先從圖像中隨機(jī)挑出一部分局域來組成訓(xùn)練集,從小部分訓(xùn)練集中學(xué)習(xí)一些特征,接著把這些特征用于濾波器,同整個(gè)圖像進(jìn)行卷積運(yùn)算,得到原始圖像里隨機(jī)位置的特征。CNN結(jié)構(gòu)中,特征面數(shù)目隨著深度增加而增加。實(shí)際上,當(dāng)我們運(yùn)用深度學(xué)習(xí)對(duì)圖像分類時(shí),需要根據(jù)現(xiàn)實(shí)情況選擇神經(jīng)元個(gè)數(shù)和層數(shù),卷積層和池化層交替設(shè)置。假設(shè)選中圖像數(shù)據(jù)中連續(xù)的范圍作為池化區(qū)域,只對(duì)相同神經(jīng)元得到的卷積特征進(jìn)行池化,那么池化后的特征具有平移不變性。全連接層是經(jīng)過多個(gè)卷積、池化層后的一層。全連接層能夠?qū)η懊鎺讓拥臄?shù)據(jù)進(jìn)行整合,用適合的函數(shù)提升自身性能,到了輸出層,會(huì)對(duì)所得信息用諸如邏輯回歸(soft max regression)的方法進(jìn)行分類,需要注意選擇恰當(dāng)?shù)膿p失函數(shù)。卷積運(yùn)算公式如公式 3所示。其中i表示第i層參數(shù),X代表輸入,Y代表輸出,b代表偏置,W表示卷積核權(quán)重,x、y、z為三維矩陣值。f(x)表示所用的激活函數(shù),*為卷積符號(hào)。

對(duì)于深度學(xué)習(xí)劃分圖像類別的研究發(fā)展很迅速,新網(wǎng)絡(luò)結(jié)構(gòu)以及多網(wǎng)絡(luò)訓(xùn)練方法伴隨著新技術(shù)而生,在圖像識(shí)別領(lǐng)域的創(chuàng)新性及準(zhǔn)確率不斷提高。卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)的主要模型包括AlexNet、VGG、GoogleNet、ResNet等,技術(shù)持續(xù)優(yōu)化,網(wǎng)絡(luò)深度不斷加深,錯(cuò)誤率不斷降低。CNN經(jīng)過梯度反向傳播算法來對(duì)卷積核的參數(shù)進(jìn)行訓(xùn)練,這屬于有監(jiān)督學(xué)習(xí)算法。同一平面設(shè)置神經(jīng)元權(quán)值一致,可以對(duì)海量圖像數(shù)據(jù)并行的學(xué)習(xí)、高效處理圖像。

基于深度學(xué)習(xí)的圖像分類一些方面也會(huì)不可避免的產(chǎn)生一些問題比如算法問題、圖像問題以及應(yīng)用問題,CNN參數(shù)多,而且現(xiàn)在的設(shè)置是基于經(jīng)驗(yàn)及實(shí)踐,量化分析與研究是其存在的問題之一。需要進(jìn)一步規(guī)范圖像數(shù)據(jù)。此外,目前趨勢(shì)是網(wǎng)絡(luò)加深,卷積神經(jīng)網(wǎng)絡(luò)的效果更佳,有的甚至達(dá)幾千層網(wǎng)絡(luò),但這樣會(huì)帶來過擬合和耗時(shí)長(zhǎng)的缺點(diǎn),因此合理選擇網(wǎng)絡(luò)層數(shù)尤為重要。

二、結(jié)論和展望

本文首先介紹了深度學(xué)習(xí)和圖像處理的概念,對(duì)深度學(xué)習(xí)在圖像分類方面的研究現(xiàn)狀進(jìn)行了闡述,并且對(duì)各類深度學(xué)習(xí)方法進(jìn)行了分類,介紹了各個(gè)方法的優(yōu)點(diǎn),特性,并且分析了存在的問題。針對(duì)部分問題闡述了相應(yīng)的解決辦法和關(guān)鍵技術(shù)。最后總結(jié)了基于深度學(xué)習(xí)的圖像分類方法。

隨著社會(huì)的發(fā)展,人工智能越來越多的出現(xiàn)在我們的生活及工作之中,包括各種語音識(shí)別,圖像識(shí)別,自動(dòng)駕駛。同時(shí),越來越多的地方需要采集圖像,分析圖像,判斷圖像,可以說對(duì)圖像信息進(jìn)行分類處理將會(huì)在越來越廣泛的領(lǐng)域內(nèi)得到發(fā)展,而且對(duì)圖像的分類方法在原來的基礎(chǔ)上肯定會(huì)不斷發(fā)展,硬件設(shè)備將更加優(yōu)秀,軟件也會(huì)日趨完善,在各方面同時(shí)發(fā)展的條件下,對(duì)圖像的分類速度也會(huì)隨之不斷加快,正確率也能得到提升,處理效率也會(huì)不斷提高,因此圖像分類處理是一門熱點(diǎn)學(xué)科。目前來說,基于深度學(xué)習(xí)的圖像分類將在森林防火、軍事戰(zhàn)略、交通管理等方面蓬勃發(fā)展。在實(shí)時(shí)交通和無人駕駛等相關(guān)方面,也需要即時(shí)的圖像獲取及圖像分類?;谌蝿?wù)的端至端的卷積神經(jīng)網(wǎng)絡(luò)CNN的發(fā)展能幫助提升網(wǎng)絡(luò)實(shí)時(shí)性,也是發(fā)展的一大趨勢(shì)。同時(shí)需要在加快海量圖像訓(xùn)練速度以及提升相應(yīng)硬件設(shè)備速度等方面進(jìn)行研究。

猜你喜歡
卷積標(biāo)簽深度
四增四減 深度推進(jìn)
深度思考之不等式
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
基于全卷積神經(jīng)網(wǎng)絡(luò)的變壓器故障診斷
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
簡(jiǎn)約教學(xué) 深度學(xué)習(xí)
卷積神經(jīng)網(wǎng)絡(luò)概述
讓衣柜擺脫“雜亂無章”的標(biāo)簽
科學(xué)家的標(biāo)簽
科學(xué)家的標(biāo)簽
安丘市| 台州市| 南充市| 吉木乃县| 务川| 贵德县| 安西县| 遵化市| 大新县| 铅山县| 务川| 阿城市| 弥渡县| 兴山县| 墨竹工卡县| 织金县| 含山县| 文登市| 汕头市| 甘孜县| 都安| 庐江县| 佳木斯市| 衡东县| 普宁市| 兴山县| 巨野县| 阜新市| 佛坪县| 牟定县| 柯坪县| 临高县| 岱山县| 若羌县| 桐乡市| 盐源县| 奉化市| 平乐县| 天等县| 搜索| 克山县|