楊子涵
摘要
圖像在人們的信息獲取過(guò)程中發(fā)揮著重要的作用。視覺(jué)感官系統(tǒng)是人們獲取圖像所反映的信息的重要載體。近年來(lái),對(duì)于計(jì)算機(jī)視覺(jué)、圖像識(shí)別等方向的研究越來(lái)越受到各界學(xué)者的重視,相關(guān)的研究成果也層出不窮。人們對(duì)圖像內(nèi)容的認(rèn)知過(guò)程其實(shí)是人們對(duì)現(xiàn)有的知識(shí)經(jīng)驗(yàn)進(jìn)行應(yīng)用的過(guò)程,相比之下,利用計(jì)算機(jī)進(jìn)行圖像識(shí)別則是一個(gè)相對(duì)更加復(fù)雜的問(wèn)題,其核心問(wèn)題在于兩個(gè)方面,首先是對(duì)于圖像中主體內(nèi)容的識(shí)別與定位,其次是巨大的運(yùn)算量需要更加合適的識(shí)別算法。本文將主要對(duì)第二個(gè)問(wèn)題進(jìn)行討論,對(duì)基于灰度編碼的彩色圖像識(shí)別方法進(jìn)行了討論?;诨叶然幋a的彩色圖像識(shí)別方法可以有效降低圖片信息量并且保留大部分有效圖片信息,另一方Hamming網(wǎng)絡(luò)可以加快圖像識(shí)別速度。
【關(guān)鍵詞】計(jì)算機(jī)視覺(jué) 彩色圖像識(shí)別 灰度轉(zhuǎn)化編碼 Hamming網(wǎng)絡(luò)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們對(duì)于計(jì)算機(jī)的應(yīng)用愈加廣泛。其中計(jì)算機(jī)視覺(jué)是近年來(lái)研究的重要熱點(diǎn)之一,因?yàn)槠渚哂袕V泛的應(yīng)用場(chǎng)景,如圖像識(shí)別、視頻識(shí)別,以及VR建模等。計(jì)算機(jī)視覺(jué)技術(shù)的核心是基于人體視覺(jué)感官系統(tǒng)的,視覺(jué)感官系統(tǒng)在人們的日常生活中發(fā)揮著重要的作用。圖像認(rèn)知是人們獲取信息的重要途徑。出于圖像認(rèn)知的需要,人們開(kāi)始利用計(jì)算機(jī)技術(shù)模擬自身認(rèn)識(shí)圖像和理解圖像的能力。其中基于計(jì)算機(jī)視覺(jué)的彩色圖像識(shí)別技術(shù)主要有兩個(gè)步驟,首先是將彩色圖像進(jìn)行灰度轉(zhuǎn)化,將冗余的色度信息正則化成單一的灰度信息,可以在保留大部分圖片信息的基礎(chǔ)上降低圖片運(yùn)算量;第二步是將圖片主體信息進(jìn)行識(shí)別和定位,識(shí)別問(wèn)題往往是分類問(wèn)題,分類算法的研究目標(biāo)則是提高識(shí)別準(zhǔn)確率并減少運(yùn)算時(shí)間?;诨叶然幋a的彩色圖像識(shí)別方法的研究工作的開(kāi)展,可以為人工神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展提供一定的保障。
1 圖像識(shí)別的簡(jiǎn)要概述
1.1 主要組成
圖像是一種重要的信息來(lái)源,人類獲取的信息大約75%來(lái)自視覺(jué)。圖像識(shí)別技術(shù)是指借助計(jì)算機(jī)技術(shù)將待識(shí)別對(duì)象分配至各自的模式類別之中。圖像識(shí)別技術(shù)應(yīng)用場(chǎng)景廣泛,除了對(duì)彩色圖片中內(nèi)容進(jìn)行識(shí)別和分類外,圖像識(shí)別還可以應(yīng)用到文字識(shí)別之中。文字識(shí)別主要指的是對(duì)數(shù)字與符號(hào)的識(shí)別,如印刷體文字識(shí)別與手寫體文字識(shí)別。另一方面,圖像識(shí)別技術(shù)可以應(yīng)用于圖片的時(shí)序序列,即視頻識(shí)別,對(duì)關(guān)鍵幀的定位現(xiàn)在成為了重要的計(jì)算機(jī)視覺(jué)研究方向之一。
圖像往往可以帶給人們一種語(yǔ)言文字難以達(dá)到的直觀感覺(jué)。一般情況下,圖像可以分為直觀視覺(jué)圖像和間接轉(zhuǎn)換圖像兩種類型,現(xiàn)實(shí)生活中常見(jiàn)的圖片和文字可以納入到直觀視覺(jué)圖像范疇之中,語(yǔ)言、聲音等內(nèi)容可以納入到間接轉(zhuǎn)換圖像之中。另外,根據(jù)顏色和灰度值等信息,人們可以將圖像分為二值圖像、灰度圖像、索引圖像和真彩色RGB圖像等多種圖像。
1.2 常用技術(shù)
圖像數(shù)字化技術(shù)、圖像存儲(chǔ)技術(shù)和圖像識(shí)別技術(shù)是圖像領(lǐng)域或者計(jì)算機(jī)視覺(jué)領(lǐng)域中的常用技術(shù)。圖像數(shù)字化技術(shù)具有將圖像模擬信號(hào)采樣為數(shù)字圖像的作用,從而便于編輯和計(jì)算。圖像存儲(chǔ)技術(shù)建立在圖像編碼技術(shù)基礎(chǔ)之上,有效的無(wú)損壓縮或有損壓縮,可以使使圖像體積縮小,從而方便存儲(chǔ)于傳輸。圖像識(shí)別技術(shù)則是指通過(guò)主成分分析(PCA)和神經(jīng)網(wǎng)絡(luò)(NT)等算法,識(shí)別、分類圖片信息的技術(shù),目前該技術(shù)與機(jī)器學(xué)習(xí)的發(fā)展息息相關(guān)。
2 顏色空間
2.1 RGB顏色空間
作為最常見(jiàn)的顏色空間,RGB是指通過(guò)紅(Red)、綠(Green)、藍(lán)(Blue)三原色對(duì)圖像顏色進(jìn)行描述,通過(guò)對(duì)三種不同顏色的疊加,RGB顏色空間展現(xiàn)出不同顏色顯示。根據(jù)人眼識(shí)別到的顏色,RGB三個(gè)顏色信道分別分為256個(gè)等級(jí),即[0,255],共計(jì)16777216種顏色組合。
2.2 HSI顏色空間
HIS是由色度(Hue)、飽和度(Saturation)和亮度(Intensity)組成。色度定義了顏色的屬性和波長(zhǎng),飽和度定義了顏色的深淺,而亮度定義了顏色的強(qiáng)度。由于人對(duì)亮度的敏感程度高于對(duì)色度的明暗程度,故而相比RGB,HIS顏色空間更符合人們描述和解釋顏色的方式,也更適用于人的視覺(jué)系統(tǒng)。
在彩色圖像處理中,常見(jiàn)的做法之一就是顏色空間的轉(zhuǎn)換,下列公式即為RGB向HSI坐標(biāo)轉(zhuǎn)換的公式。
3 彩色圖像灰度化
3.1 經(jīng)驗(yàn)公式
彩色圖像承載的信息是充足,但往往也存在著冗余,圖像中許多關(guān)鍵信息即使失去了顏色,也可以被正確的表達(dá)出,喪失一些色彩的完整性不意味著關(guān)鍵信息的丟失。另一方面,從理論上講一個(gè)彩色像素點(diǎn)需要24位字節(jié)來(lái)表示,而灰度圖像只需要8位,如果可以在保證圖像關(guān)鍵信息不丟失的情況下,將彩色圖像轉(zhuǎn)化為灰度圖像,那么將有2/3的圖像尺寸會(huì)被減少,這就意味著每張圖像將占用更小的存儲(chǔ)空間以及擁有更快速的處理速度。
這種將彩色圖像轉(zhuǎn)化為灰度圖像的有損壓縮方式主要基于三個(gè)基礎(chǔ)。首先,灰度圖像需要保留原有彩色圖像的重要特征;其次,圖像的主要壓縮成分應(yīng)該是原有彩色圖像中冗余信息的部分,而并非關(guān)鍵信息部分;第三灰度圖像中的圖像信息主要是由像素點(diǎn)量度決定。
基于圖像灰度化原理和大量實(shí)驗(yàn)經(jīng)驗(yàn),RGB顏色空間下的彩色圖像灰度化經(jīng)驗(yàn)公式為Y=0.2998+0.5876+0.114B,其中Y表示圖像的亮度信息,取值[0,255]共256個(gè)等級(jí)。由公式可以明顯得出,彩色圖像的灰度化是個(gè)不可逆過(guò)程,即僅知灰度圖像信息是無(wú)法將其還原成彩色圖像的。
3.2 LAB模型
除此之外,RGB圖像向灰度的轉(zhuǎn)變可以通過(guò)LAB模型,LAB模型在灰度轉(zhuǎn)化過(guò)程中發(fā)揮著轉(zhuǎn)化中介的作用。所謂的LAB色彩空間是國(guó)際照明委員會(huì)制定的一種色彩模式,其中L表示的內(nèi)容為亮度、A表示的內(nèi)容為紅色至綠色的范圍;B表示的內(nèi)容為黃色至藍(lán)色的范圍。LAB顏色空間擁有著寬闊的色域和豐富的色彩,它不僅包含了RGB的所有色域,還能表現(xiàn)出更多的色彩。通常來(lái)說(shuō),人的肉眼能感知的所有色彩,都可以通過(guò)LAB模型表現(xiàn)出來(lái)。同時(shí),在實(shí)際應(yīng)用過(guò)程中表現(xiàn)出來(lái)的不依賴設(shè)備的色彩特性的優(yōu)勢(shì),也是灰度轉(zhuǎn)換以LAB為轉(zhuǎn)換中介的主要原因。
通過(guò)LAB模型將RGB圖像灰度化主要分為五個(gè)步驟,首先是將RGB圖像轉(zhuǎn)換成三刺激值XYZ;再將XYZ轉(zhuǎn)化為L(zhǎng)AB模型;在LAB模型中將A,B兩元素歸零,只保留L的值;將此時(shí)的LAB模型返回成RGB模型并生成一個(gè)等值的RGB灰階;最后根據(jù)該灰階生成相應(yīng)的灰度K。
其中r,g,b為彩色圖像的三個(gè)通道,取值為[0,255],gamma函數(shù)不唯一,主要是用于對(duì)圖像進(jìn)行非線性色調(diào)編輯,目的是調(diào)高圖像對(duì)比度。之后利用轉(zhuǎn)換矩陣進(jìn)行XYZ轉(zhuǎn)換,其中轉(zhuǎn)換矩陣通常為
其中X0,Y0,Z0的默認(rèn)值分別為95.047,100.0,108.883。
在不同的RGB空間,所用的灰階計(jì)算公式不同,常見(jiàn)的RGB空間有簡(jiǎn)化sRGB,Adobe RGB,Apple RGB等。
圖1展示的是RGB顏色空間下經(jīng)各方法處理后的灰度譜,通過(guò)圖片我們可以發(fā)現(xiàn)經(jīng)驗(yàn)公式帶來(lái)的灰度化會(huì)導(dǎo)致顏色在純色部分相對(duì)較暗混色部分相對(duì)較涼,而LAB模型下的灰度化更加均勻,更加貼近人類視覺(jué)。
現(xiàn)階段圖像灰度化轉(zhuǎn)換已經(jīng)成為了圖像處理研究領(lǐng)域的基礎(chǔ)環(huán)節(jié),在圖像分割、圖像特征提取和模式識(shí)別等圖像處理工作開(kāi)始之前,人們通常需要將原始圖像轉(zhuǎn)化為灰度圖像。
4 Hamming網(wǎng)絡(luò)識(shí)別圖像
人工神經(jīng)網(wǎng)絡(luò),亦稱為神經(jīng)網(wǎng)絡(luò),是由大量處理單元廣泛互連而成的網(wǎng)絡(luò),是模擬人類實(shí)際神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)方法。目前常見(jiàn)的神經(jīng)網(wǎng)絡(luò)模型有幾十種,比如MP模型,Perceptron,自適應(yīng)線性元件網(wǎng)絡(luò),Hopfield,Hamming等。其中MP模型是一種將神經(jīng)元視為二值開(kāi)關(guān)元件的邏輯神經(jīng)元模型,通過(guò)二值開(kāi)關(guān)元件的不同組合方式完成多種邏輯運(yùn)算;Perceptron網(wǎng)絡(luò)系統(tǒng)為感知機(jī)系統(tǒng);自適應(yīng)線性元件網(wǎng)絡(luò)系統(tǒng)為神經(jīng)元只有一個(gè)線性激活函數(shù)的神經(jīng)網(wǎng)絡(luò)模型;而Hopfield和Hamming較適于圖像的識(shí)別。Hamming網(wǎng)絡(luò)的結(jié)構(gòu)簡(jiǎn)單,并能識(shí)別帶有干擾信號(hào)的模式。而且對(duì)于同樣的輸入模式,Hamming網(wǎng)絡(luò)與Hopfield網(wǎng)絡(luò)相比,網(wǎng)絡(luò)內(nèi)的連接要少得多。Hamming網(wǎng)絡(luò)的另一個(gè)優(yōu)點(diǎn)是在識(shí)別時(shí)通常不會(huì)沒(méi)有結(jié)果,而Hopfield網(wǎng)絡(luò)卻常常會(huì)識(shí)別不出結(jié)果。鑒于Hamming網(wǎng)絡(luò)的諸多優(yōu)點(diǎn)和本文的灰度化編碼方式,本文采用Hamming網(wǎng)絡(luò)進(jìn)行彩色圖像識(shí)別。圖2所示的內(nèi)容為Hamming網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。
Hamming網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)層可以分為上、中、下三層,最下層為輸入層,中層為節(jié)點(diǎn)層,上層為輸出層。X1,X2,…,XN表示的內(nèi)容為輸入值,Y1,Y2,…,YN表示的內(nèi)容為輸出值。
Hamming網(wǎng)絡(luò)工作過(guò)程分為學(xué)習(xí)(訓(xùn)練)階段和識(shí)別階段,學(xué)習(xí)階段可以在用戶輸入所要識(shí)別的模式的全集以后,讓網(wǎng)絡(luò)認(rèn)識(shí)并記憶此類樣本。Hamming網(wǎng)絡(luò)的具體算法如下。假定圖像有N個(gè)像素點(diǎn),待識(shí)別圖像的數(shù)量為M,此時(shí)可以得出以下關(guān)系:
其中xij為輸入第j幅圖像時(shí),第i個(gè)節(jié)點(diǎn)的輸出值。在輸入未知值時(shí),我們計(jì)算
其中,xi為輸入未知模式時(shí)第i個(gè)節(jié)點(diǎn)的輸入值,Uj(0)表示第j個(gè)節(jié)點(diǎn)在。時(shí)刻的輸出值。之后將Uj(t+1)迭代計(jì)算至只有一個(gè)輸出值為正,即
迭代結(jié)束時(shí),如果Uj為正,則輸入的未知模式將被識(shí)別為第j個(gè)樣本模式。
Hamming網(wǎng)絡(luò)在識(shí)別未知輸入模式中發(fā)揮著重要的作用,因此基于Hamming網(wǎng)絡(luò)的Hamming碼同時(shí)可以應(yīng)用在自動(dòng)檢測(cè)及對(duì)計(jì)算機(jī)存儲(chǔ)或移動(dòng)數(shù)據(jù)過(guò)程中出現(xiàn)的現(xiàn)行錯(cuò)誤糾正中。自20世紀(jì)50年代以來(lái),Hamming碼在系統(tǒng)可靠性提升過(guò)程中得到了較為廣泛的應(yīng)用。從Hamming碼的特點(diǎn)來(lái)看,它也對(duì)奇偶校驗(yàn)位概念進(jìn)行了應(yīng)用。基于Hamming碼的系統(tǒng)可以通過(guò)在數(shù)據(jù)位后面增加一些位的方式,對(duì)數(shù)據(jù)的有效性進(jìn)行驗(yàn)證。在驗(yàn)證數(shù)據(jù)有效性的同時(shí),Hamming碼也可以在數(shù)據(jù)出錯(cuò)的情況下,對(duì)錯(cuò)誤位置進(jìn)行明確。
5 實(shí)驗(yàn)分析
圖3所示的內(nèi)容為圖像識(shí)別系統(tǒng)的用例視圖。
預(yù)處理階段和Hamming網(wǎng)絡(luò)工作階段是圖像識(shí)別系統(tǒng)中的兩大重要階段。預(yù)處理階段是人們借助CDI+技術(shù)對(duì)原始圖像進(jìn)行壓縮處理的階段。GDI+是基于C++類的面向?qū)ο蟮膽?yīng)用程序編程接口,主要任務(wù)是通過(guò)調(diào)用函數(shù)處理圖像信息。在壓縮處理工作完成以后,人們需要在保留有包含有色度信息的彩色圖像灰度化編碼的基礎(chǔ)上,對(duì)圖像進(jìn)行灰度化處理,并要在對(duì)圖像模糊處理結(jié)果進(jìn)行分析的基礎(chǔ)上,完成訓(xùn)練樣本的確定,以便借助Hamming網(wǎng)絡(luò)體系對(duì)樣本信息進(jìn)行識(shí)別。
5.1 建立彩色圖像數(shù)據(jù)庫(kù)
出于實(shí)驗(yàn)需要,實(shí)驗(yàn)過(guò)程中所使用的圖像均來(lái)源于人臉圖像識(shí)別信息庫(kù),實(shí)驗(yàn)過(guò)程中使用的最小的圖片為116X156的圖片,最大的圖片為201X311的圖片。圖4所示的內(nèi)容為實(shí)驗(yàn)過(guò)程中使用的樣張。
5.2 圖像預(yù)處理
圖像預(yù)處理環(huán)節(jié)主要分成三部分,圖像壓縮,圖像灰度化以及圖像平滑。如圖5所示,先將圖像通過(guò)GDI+中的函數(shù)進(jìn)行壓縮,統(tǒng)一成24X18的圖像集合。之后將壓縮好的圖像按照上文中介紹的灰度化方法進(jìn)行灰度化處理。最后利用9點(diǎn)平滑法和25點(diǎn)平滑法對(duì)灰度化后的圖像進(jìn)行模糊處理。9點(diǎn)平滑法是指以每個(gè)像素點(diǎn)為中心,建立3X3矩陣為平滑模板,以模板的平均灰度值代替原像素點(diǎn)的灰度值進(jìn)行模糊處理,同理,25點(diǎn)平滑法選用的平滑模板為5X5矩陣。
5.3 識(shí)別樣本
識(shí)別樣本的過(guò)程是根據(jù)兩個(gè)像素點(diǎn)之間的各個(gè)顏色分量的亮度差異對(duì)灰度化以后的圖像進(jìn)行模糊處理的過(guò)程。在Hamming網(wǎng)絡(luò)技術(shù)應(yīng)用于樣本識(shí)別以后,人們可以在對(duì)訓(xùn)練樣本進(jìn)行有效識(shí)別的基礎(chǔ)上,確定去除邊緣像素點(diǎn)以后的22X16灰度值矩陣。
5.4 實(shí)驗(yàn)結(jié)果
在對(duì)基于Hamming網(wǎng)絡(luò)的灰度值訓(xùn)練集識(shí)別率識(shí)別結(jié)果與傳統(tǒng)方法進(jìn)行分析時(shí)候,我們可以發(fā)現(xiàn),本文中所涉及到的識(shí)別方法的訓(xùn)練集識(shí)別率可以達(dá)到100%。在保證亮度不變的情況下,對(duì)圖片內(nèi)容進(jìn)行色度變換,此時(shí)原始樣本識(shí)別方法的錯(cuò)誤接受率達(dá)到了100%,本文中所論述的方法的錯(cuò)誤接受率為0%,這一實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所論述的結(jié)論。
6 結(jié)束語(yǔ)
彩色圖像的處理和識(shí)別的應(yīng)用場(chǎng)景廣泛,同時(shí)涵蓋了多個(gè)學(xué)科,一直以來(lái)是計(jì)算機(jī)領(lǐng)域研究的重點(diǎn)話題。本文結(jié)合了圖像灰度化和Hamming網(wǎng)絡(luò)理論,提出了彩色圖片的識(shí)別方法?;叶绒D(zhuǎn)化過(guò)程是RGB圖像向灰度圖像轉(zhuǎn)變的過(guò)程,其中LAB模式在灰度轉(zhuǎn)化過(guò)程中發(fā)揮著轉(zhuǎn)化中介的作用,灰度化可以有效地保留彩色圖片亮度信息從而減小圖像尺寸加快處理速度。除此之外,Hamming網(wǎng)絡(luò)可以在圖像識(shí)別中提供一個(gè)簡(jiǎn)單有效的識(shí)別模型,實(shí)驗(yàn)結(jié)果也證明,這種圖像識(shí)別方法可以有效的達(dá)到預(yù)期效果。不過(guò)這種彩色圖像識(shí)別方法還存在著一些局限性,當(dāng)利用上文提到的灰度化方法處理彩色圖片時(shí),彩色圖片的色彩信息會(huì)全部丟失,換言之,針對(duì)一些非輪廓識(shí)別或色彩識(shí)別問(wèn)題時(shí),這種灰度化處理就很難達(dá)到預(yù)期的效果,以及當(dāng)圖像尺寸不一致時(shí),識(shí)別難度也會(huì)大大提高。因此,穩(wěn)定且可在多種應(yīng)用場(chǎng)景下使用的彩色圖像識(shí)別方法,乃是我們研究一直努力的方向。
參考文獻(xiàn)
[1]賈永紅.數(shù)字圖像處理[M].武漢大學(xué)出版社,2003.
[2]賀煒.多維彩色圖像特征快速抽取方法仿真研究[J].計(jì)算機(jī)仿真,2017,34(02):389-392.
[3]王燦燦.視頻關(guān)鍵幀提取及人臉表情識(shí)別[D].濟(jì)南大學(xué),2014.
[4]LinanFeng,BirBhanu,JohnHeraty.A software system for automatedidentification and retrieval of mothimages based on wing attributes [J].Pattern Recognition,2016(51).
[5]MCCULLOCH,W.S.A logicalcalculus of ideas imminent innervous activity[J].Biol MathBiophys,1943(05).
[6]Rosenblatt F.The perceptron:Aprobabilistic model for informationstorage and organization in thebrain.[Ml.Neurocomputing:foundationsof research.MIT Press,1988:386-408.
[7]Widrow B,Hoff M E.Adaptive switchingcircuits[M].Neurocomputing:foundations of research.MIT Press,1988.
[8]HOPFIELD,J.J.Neural Computation ofDecision in Optimization Problems[J].Biological Cybernetics,1985,52.
[9]Chong C C,Jia J C.Assessments ofneural network classifier outputcodings using variability of Hammingdistance[J].Pattern RecognitionLetters,1996,17(08):811-818.
[10]LinanFeng,BirBhanu,JohnHeraty.A software system for automatedidentification and retrieval of mothimages based on wing attributes [J].Pattern Recognition,2016,51.
[11]人臉圖像識(shí)別庫(kù)[DB/OL].http://www.cbsr.ia.ac.cn/IrisDatabase.htm.