黃旭進(jìn),曹飛龍
(中國計(jì)量大學(xué) 理學(xué)院,浙江 杭州 310018)
隨著現(xiàn)代科學(xué)技術(shù)的不斷發(fā)展,現(xiàn)代社會(huì)的各個(gè)領(lǐng)域都得到了快速發(fā)展,尤其是以計(jì)算機(jī)和信息技術(shù)為代表的人工智能應(yīng)用領(lǐng)域更是這樣.在這些領(lǐng)域中,人工神經(jīng)網(wǎng)絡(luò)是最具有代表性的,它的發(fā)展給人類社會(huì)帶來了巨大的進(jìn)步.人工神經(jīng)網(wǎng)絡(luò)是一種旨在模擬人腦結(jié)構(gòu)及其功能的智能信息處理系統(tǒng)(被簡稱為神經(jīng)網(wǎng)絡(luò)),其主要有兩大功能: 一是通過存儲(chǔ)信息和學(xué)習(xí)規(guī)則進(jìn)行自適應(yīng)訓(xùn)練的記憶功能;二是通過對(duì)大量樣本對(duì)學(xué)習(xí)后提取蘊(yùn)含在其中的函數(shù)映射功能.早期的神經(jīng)網(wǎng)絡(luò)具有簡單的學(xué)習(xí)能力,一般只用于線性分類,如感知器(Perceptron)[1].隨后經(jīng)過許多科學(xué)家的努力和深入研究,神經(jīng)網(wǎng)絡(luò)由單層拓展到多層,特別是BP算法[2 -3](Back Propagation Algorithm)的誕生,給神經(jīng)網(wǎng)絡(luò)的發(fā)展注入了新能量,使得BP神經(jīng)網(wǎng)絡(luò)成為最廣泛的應(yīng)用[4-6].
神經(jīng)網(wǎng)絡(luò)已普遍應(yīng)用于信息處理、自動(dòng)化、工程、醫(yī)學(xué)、經(jīng)濟(jì)等諸多領(lǐng)域,其中信息處理中的圖像分類[7-8]是神經(jīng)網(wǎng)絡(luò)的重要研究內(nèi)容.圖像分類主要分為兩大步驟:圖像的特征提取和分類.圖像的特征提取有很多種方法,如主成分分析法[9-10](PCA)、線性判別分析法[11-12](LDA)、前向神經(jīng)網(wǎng)絡(luò)提取法[13-14](FNN)、多尺度法[15-17](MDA).因?yàn)樯窠?jīng)網(wǎng)絡(luò)具有良好的特征學(xué)習(xí)能力,可以根據(jù)確定的學(xué)習(xí)規(guī)則分析出樣本和輸出的內(nèi)在聯(lián)系,故其相對(duì)于上述另外三種方法在特征提取上具有很好的優(yōu)勢(shì).分類是在圖像提取特征的基礎(chǔ)上進(jìn)行的,根據(jù)提取的特征信息來確定它的類屬性.一般來說,特征提取原圖像信息越完整,分類效果就越好.
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)里,其輸入均是向量形式.特別是在利用神經(jīng)網(wǎng)絡(luò)作為分類器時(shí),一般是把圖像拉成列向量,這勢(shì)必破壞了圖像空間的原有信息.這一簡單的處理肯定會(huì)給分類效果帶來一定的影響,為了克服以上缺點(diǎn),Dai等人在文獻(xiàn)[18]提出了一種方法,即是通過左右投影向量將圖像的二維空間信息投影到一維上.這一過程的轉(zhuǎn)換避免了破壞圖像的空間結(jié)構(gòu),將矩陣圖像直接作為神經(jīng)網(wǎng)絡(luò)的輸入.又因?yàn)樗菃坞[層的,故稱之為單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò).通過與向量形式輸入的單隱層神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)對(duì)比,單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)取得了很好的效果.但是由于單隱層矩陣輸入神經(jīng)網(wǎng)絡(luò)的客觀局限性,它不能足夠好地表達(dá)樣本特征信息.基于多層神經(jīng)網(wǎng)絡(luò)具有更好的特征提取能力和泛化能力,本文在文獻(xiàn)[18]的基礎(chǔ)上提出了多層矩陣輸入的神經(jīng)網(wǎng)絡(luò)算法,并將此算法應(yīng)用于圖像分類中.通過實(shí)驗(yàn)對(duì)比,本文算法取得了良好的效果.
本文章節(jié)結(jié)構(gòu)如下:第一節(jié)介紹向量輸入和矩陣輸入的單隱層神經(jīng)網(wǎng)絡(luò).第二節(jié)提出多隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)反向傳播算法.第三節(jié)通過與向量輸入和單隱層矩陣輸入神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)對(duì)比,說明本文算法的優(yōu)越性;通過固定隱層節(jié)點(diǎn)數(shù)和固定隱層矩陣的大小探究本文算法的內(nèi)在關(guān)系.第四節(jié)給出本文結(jié)論.
在本節(jié)中,我們分別介紹向量形式輸入和矩陣輸入的單隱層前饋神經(jīng)網(wǎng)絡(luò).
單隱層前向神經(jīng)網(wǎng)絡(luò)的一般形式為
(1)
式(1)中x∈Rn是輸入向量,uj和bj分別是隱層的權(quán)重和偏置,βj和α是輸出層的權(quán)重和偏置,L是隱層的節(jié)點(diǎn)數(shù),σ是激活函數(shù).當(dāng)uj與bj滿足某種隨機(jī)分布,外權(quán)βj和通過最小二乘來確定時(shí),則我們稱該網(wǎng)絡(luò)為隨機(jī)權(quán)網(wǎng)絡(luò)[19-20].在文獻(xiàn)[21]中Igelnik和Pao已經(jīng)證明隨機(jī)權(quán)網(wǎng)絡(luò)的收斂性.當(dāng)uj,bj,βj和α用經(jīng)典的BP算法訓(xùn)練獲得時(shí),我們把式(1)稱為前向BP神經(jīng)網(wǎng)絡(luò)(FNN).
傳統(tǒng)上,神經(jīng)網(wǎng)絡(luò)的輸入是向量形式.如果將該網(wǎng)絡(luò)模型應(yīng)用于圖像處理,如圖像分類問題,我們必須要對(duì)樣本圖像進(jìn)行預(yù)處理,即把圖像拉成列向量作為網(wǎng)絡(luò)的輸入.這一簡單的處理勢(shì)必破壞像素與像素之間的關(guān)聯(lián)性,破壞了圖像的空間特征信息,勢(shì)必會(huì)影響圖像的分類效果.為了避免破壞圖像的空間結(jié)構(gòu),文獻(xiàn)[18]引進(jìn)了單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò),分別利用左投影向量uj和右投影向量vj把矩陣投影到一維上.因?yàn)樽笥彝队跋蛄渴墙?jīng)過BP算法反向更新學(xué)習(xí)的,所以保證了二維空間信息轉(zhuǎn)換到一維的合理性.該網(wǎng)絡(luò)的模型如下:
(2)
式(2)中X∈RM×N是輸入矩陣;uj=[uj1,…,ujm,…,ujM]T,vj=[v1j,…,vnj,…,vNj]T和bj分別是隱層的左右投影向量和偏置;M和N分別為輸入矩陣X的行數(shù)和列數(shù);βj=[β1j,…,βoj,…,βOj]T和α=[α1,…,αo,…,αO]T為輸出層的權(quán)重和偏置;L和O為隱層的節(jié)點(diǎn)數(shù)和輸出層的節(jié)點(diǎn)數(shù).
單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)從一定程度上解決了保持圖像空間結(jié)構(gòu)的問題.但是由于其客觀局限性,對(duì)于具有復(fù)雜信息的樣本,單隱層神經(jīng)網(wǎng)絡(luò)不能很好地學(xué)習(xí)到它的特征信息.根據(jù)深度學(xué)習(xí)的思想,多層神經(jīng)網(wǎng)絡(luò)具有更好的特征提取和泛化能力,為此我們把單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)拓展到多層矩陣輸入的神經(jīng)網(wǎng)絡(luò).即對(duì)于輸入樣本X,多層矩陣輸入的神經(jīng)網(wǎng)絡(luò)的映射f:RM×N→RK.
(5)
記
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
Δw(i)=γΔw(i-1)-(1-γ)η▽w,
(16)
w(i)=w(i-1)+Δw(i).
(17)
本文的所有實(shí)驗(yàn)都是在32 GB內(nèi)存和CPU E5-1620 @3.5 GHZ的WIN10系統(tǒng)下完成的,實(shí)驗(yàn)工具是Matlab2015b.為了避免隨機(jī)性,本文每個(gè)實(shí)驗(yàn)重復(fù)5遍,并取其平均值.
為了驗(yàn)證本文提出的算法的圖像分類能力,我們將對(duì)ORL、UMist、Yale和FERET人臉數(shù)據(jù)庫進(jìn)行分類實(shí)驗(yàn),如圖1,這些人臉數(shù)據(jù)庫廣泛被用于圖像分類中
?ORL人臉數(shù)據(jù)庫誕生于英國劍橋大學(xué)Olivetti實(shí)驗(yàn)室.該數(shù)據(jù)庫采集了40個(gè)不同年齡、不同性別和不同種族對(duì)象的圖像.每個(gè)對(duì)象有10張的圖像,其中圖像含有表情變化和光照變化等信息.可在http://www.cad.zju.edu.cn/home/dengcai下載.
?UMist人臉數(shù)據(jù)庫由20人共575張圖像組成.每個(gè)人具有不同角度、不同姿態(tài)的多幅圖像.其中不同角度的圖像主要是指從側(cè)面到正面連續(xù)拍攝的圖像.圖像大小為112×92,可在此鏈接http://www.cs.nyu.edu/~roweis/data.htm下載.
?Yale人臉數(shù)據(jù)庫由15位人員各自11張的灰度圖像組成,每位人員的圖像包含快樂、正常、悲傷、瞌睡、眨眼、驚訝等表情.
?FERET人臉數(shù)據(jù)庫是由美國國防部CTTP建立,目的是促進(jìn)人臉識(shí)別算法的研究和實(shí)用化.它包括了1 564人共14 126張圖像,每人的圖像均是在不同表情、光照和姿態(tài)采集的.資源共享在https://www.nist.gov/programs-projects/face-recognition-technology-feret網(wǎng)站.
在ORL數(shù)據(jù)庫中,我們隨機(jī)選取280張作為訓(xùn)練樣本,剩下的120張作為測(cè)試樣本.UMist數(shù)據(jù)庫,隨機(jī)選取65%作為訓(xùn)練樣本,35%作為測(cè)試樣本.在Yale數(shù)據(jù)庫中,每個(gè)人訓(xùn)練樣本與測(cè)試樣本的比值7∶4.因?yàn)镕ERET數(shù)據(jù)庫中的類數(shù)較多,我們隨機(jī)抽取50人的圖像進(jìn)行實(shí)驗(yàn),每人的訓(xùn)練樣本與測(cè)試樣本的比值為5∶2.在實(shí)驗(yàn)中,所有圖像都?xì)w一化到[0,1]之間.
圖1 不同數(shù)據(jù)庫的樣本Figure 1 Samples of Different Databases
第一步: 產(chǎn)生網(wǎng)絡(luò)模型并權(quán)值初始化,輸入γ、η、Iters、L和bsize.
第二步: 1)根據(jù)公式(3)計(jì)算每一訓(xùn)練樣本的輸出;2)用公式(8)~(15)計(jì)算梯度▽w,根據(jù)公式(16)~(17)更新w;重復(fù)第二步
第三步: 迭代停止,確定網(wǎng)絡(luò).
第四步: 輸入樣本測(cè)試.
為了驗(yàn)證本文提出的算法具有更好的分類能力,我們對(duì)四個(gè)數(shù)據(jù)庫分別作了三個(gè)不同的實(shí)驗(yàn).
實(shí)驗(yàn)3.2.1 本文算法與單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)(Dai)和以向量形式輸入的單隱層神經(jīng)網(wǎng)絡(luò)(vecInput)算法的對(duì)比,見圖2.
圖2 不同數(shù)據(jù)庫中三種模型算法的測(cè)試精度比較Figure 2 Comparison of testing accuracy of 3 model algorithms in different databases
圖3 第一隱層不同節(jié)點(diǎn)數(shù)的測(cè)試精度對(duì)比Figure 3 Testing comparison of different nodes in the first hidden layer
從圖2可以看出,在不同的數(shù)據(jù)庫中,本文的測(cè)試精度比單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)和單隱層向量輸入的神經(jīng)網(wǎng)絡(luò)算法都要高,具體也可以看表1. 單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)采用左右投影向量把二維信息轉(zhuǎn)換到一維上,沒有破壞圖像矩陣的空間信息.故其分類能力明顯比向量形式輸入的單隱層神經(jīng)網(wǎng)絡(luò)好.而本文提出的算法比單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)要好,說明本文提出的算法具有更好的特征提取能力.在UMist數(shù)據(jù)中,本文算法的分類效果相對(duì)于Dai[18]的網(wǎng)絡(luò)只是超了少許.原因是其數(shù)據(jù)庫中的圖像特征信息較少.而對(duì)于具有多種表情和姿態(tài)信息的FERET數(shù)據(jù)庫,本文算法的分類效果更明顯.說明對(duì)于具有復(fù)雜特征的樣本,多層矩陣輸入的神經(jīng)網(wǎng)絡(luò)具有更好的分類能力.
實(shí)驗(yàn)3.2.2 固定隱層矩陣大小(bsize),探索本文算法不同節(jié)點(diǎn)數(shù)(nodes)的分類能力.見圖3.本實(shí)驗(yàn)選取的節(jié)點(diǎn)數(shù)為100、150或200、300、400.通過圖3發(fā)現(xiàn),在一定范圍內(nèi),測(cè)試精度隨著隱層節(jié)點(diǎn)數(shù)的增加而增加.但也不是絕對(duì)的,如FERET數(shù)據(jù)庫,隨著隱層節(jié)點(diǎn)數(shù)的增加,它的測(cè)試精度反而下降了.原因是節(jié)點(diǎn)數(shù)過多,容易造成過擬合.
實(shí)驗(yàn)3.2.3 固定隱層節(jié)點(diǎn)數(shù)(nodes), 探索本文算法隱層矩陣大小(bsize)的分類能力.見圖4.
圖4 第二隱層矩陣不同大小的測(cè)試精度對(duì)比Figure 4 Testing comparison of different matrix sizes in the second hidden layer
本實(shí)驗(yàn)隱層矩陣大小為8、12、16、20.從圖4可發(fā)現(xiàn),隨著隱層矩陣變大,測(cè)試精度并沒有增加,而是穩(wěn)定在一定范圍內(nèi)變動(dòng).通過實(shí)驗(yàn)可以看出,UMist、Yale和FERET數(shù)據(jù)庫的隱層矩陣大小在bsize=8時(shí)取得了最好效果,表明隱層矩陣的設(shè)置不宜過大.
表1 多個(gè)數(shù)據(jù)庫中不同算法的測(cè)試精度比較
本文在單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出了多層矩陣輸入的神經(jīng)網(wǎng)絡(luò),并將此網(wǎng)絡(luò)應(yīng)用于圖像分類中.通過與單隱層矩陣輸入的神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)對(duì)比,驗(yàn)證了本文算法具有更高的識(shí)別率.通過固定隱層節(jié)點(diǎn)數(shù)或隱層矩陣大小,還探索了本文算法的內(nèi)在關(guān)系.
[1] ROSENBLATT F. The perceptron: A probabilistic model for information storage and organization in the brain[J].Psychologicalreview,1958,65(6):386-408.
[2] WERBOS P J. Generalization of backpropagation with application to a recurrent gas market model [J].NeuralNetworks, 1988, 1(4):339-356.
[3] OOYEN A V, NIENHUIS B. Improving the convergence of the back-propagation algorithm [J].NeuralNetworks, 1992, 5(3):465-471.
[4] ZHANG Y, PHILLIPS P, WANG S, et al. Fruit classification by biogeography-based optimization and feedforward neural network[J].ExpertSystemstheJournalofKnowledgeEngineering, 2016, 33(3):239-253.
[5] BROWN W M, GEDEON T D, GROVES D I, et al. Artificial neural networks: A new method for mineral prospectively mapping [J].AustralianJournalofEarthSciences, 2015, 47(4):757-770.
[6] 楊凱杰,章東平,楊力.深度學(xué)習(xí)的汽車駕駛員安全帶檢測(cè)[J].中國計(jì)量大學(xué)學(xué)報(bào),2017,28(3):326-333
YANG K J, ZHANG D P, YANEG L .Safety belt detection based on deep learning[J].JournalofChinaUniversityofMetrology, 2017,28(3):326-333.
[7] HANBURY A. A survey of methods for image annotation [J].JournalofVisualLanguagesandComputing, 2008, 19(5): 617-627.
[8] CHAN T H, JIA K, GAO S, et al. PCANet: A simple deep learning baseline for image classification?[J].IEEETransactionsonImageProcessingAPublicationoftheIEEESignalProcessingSociety, 2015, 24(12):5017-5032.
[9] KIRBY M, SIROVICH L. Application of the Karhunen-Loeve procedure for the characterization of human faces [J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2002, 12(1): 103-108.
[10] STONE J.PrincipalComponentAnalysisandFactorAnalysis[M]. Massachusetts:MIT Press,2004:129-135.
[11] OS A N. Face recognition using LDA-based algorithms [J].IEEETransactionsonNeuralNetworks, 2003, 14(1):195-200.
[12] ZHENG W S, LAI J H, YUEN P C.GA-fisher: A new LDA-based face recognition algorithm with selection of principal components [J].IEEETransactionsonSystemsMan&CyberneticsPartB, 2005, 35(5):1065-1078.
[13] KOTHARI S C,HEEKUCK O. Neural networks for pattern recognition [J].AdvancesinComputers,1993,37(1):119-166.
[14] RIPLEY B D. Pattern recognition and neural networks[J].Technomet-rics, 2008, 39(2):233-234.
[15] CHIEN J T, WU C C. Discriminant waveletfaces and nearest feature classifiers for face recognition [J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2002, 24(12):1644-1649.
[16] HUANG K, AVIYENTE S. Wavelet feature selection for image classification [J].IEEETransactionsonImageProcessing, 2008, 17(9):1709-1720.
[17] HU H. Variable lighting face recognition using discrete wavelet transform[J].PatternRecognitionLetters, 2011, 32(13):1526-1534.
[18] DAI K, ZHAO J, CAO F. A novel algorithm of extended neural networks for image recognition [J].EngineeringApplicationsofArtificialIntelligence, 2015, 42(C):57-66.
[19] SCHMIDT W F, KRAAIJVELD M A, DUIN R P W. Feedforward neural networks with random weights[C]//IAPRinternationalconferenceonpatternrecognition,conferenceB:Patternrecognitionmethodologyandsystems. New York: IEEE, 1992: 1-4.
[20] LU J, ZHAO J, CAO F. Extended feed forward neural networks with random weights for face recognition [J].Neurocomputing, 2014, 136(1):96-102.
[21] IGELNIK B,PAO Y H. Stochastic choice of basis functions in adaptive function approximation and the functional-link net [J].IEEETransactionsonNeuralNetworks, 1995, 6(6):1320-1329.