華驊
摘要:傳統(tǒng)詞袋模型僅僅是將圖像表示成視覺單詞的直方圖,并沒有考慮到物體的形狀信息,也沒有考慮到視覺特征的空間信息。因此將金字塔模型引入到詞袋模型中,建立金字塔詞袋模型,將金字塔詞袋模型與金字塔直方圖模型相結(jié)合,兩種信息相互補充,共同來來表征圖像;在分類器設(shè)計方面采用SVM進行分類。通過在 Caltech 101數(shù)據(jù)庫進行實驗,驗證了本文方法的有效性,實驗結(jié)果表明,該方法能夠大幅度提高圖像分類的性能。
關(guān)鍵詞:詞袋模型 視覺詞典 圖像分類 金字塔梯度直方圖
中圖分類號:TP391.41 文獻標(biāo)識碼:A 文章編號:1007-9416(2015)03-0000-00
1引言
近年來,圖像的數(shù)量激增和圖像識別、檢索和分類問題帶來了巨大的挑戰(zhàn)。如何獲取用戶信息需求和加工精度在龐大的數(shù)據(jù),在這一領(lǐng)域的最緊迫的問題。詞袋模型最初是應(yīng)用于文件處理,文件組合成一個關(guān)鍵字序列獨立,通過統(tǒng)計關(guān)鍵字出現(xiàn)在文檔頻率匹配。近年來,在計算機視覺領(lǐng)域的研究人員成功地移植模型的思想對圖像處理領(lǐng)域,詞袋模型(BoW,bag of words)的圖像庫看到書面文檔庫,將圖像作為一個文件。圖像的特征提取,使用“視覺語言”,它生成的視覺詞典,對每個圖像發(fā)生的頻度統(tǒng)計,完成詞袋的圖像描述。
袋模型忽略視覺詞之間的空間分布信息,使得作為二維數(shù)據(jù)的圖像丟失了大量空間信息,因此本文將金字塔模型引入到詞袋模型中,形成金字塔詞袋模型,利用金字塔詞袋模型表示圖像。同時結(jié)合金字塔梯度直方圖特征,構(gòu)成兩種具有互補特性的多級塔式結(jié)構(gòu)特征:PHOG 和 PBOW,并通過線性特征融合得到最終的特征表達(dá)。不僅考慮了圖像的形狀特征,這一特征,又考慮了圖像的局部分布的信息,一個塔的結(jié)構(gòu)和特征加權(quán)的融合可以更加完整,靈活的多分辨率圖像空間分解描述圖像特征信息,從而提高圖像分類的性能。此外,本文還結(jié)合視覺顯著性圖像分類,人類視覺的場景圖像分類,在視覺顯著性的視覺語言更吸引人們的注意力,因此影響更大的分類。在本文中,當(dāng)視覺詞匯直方圖表示圖像的圖像,根據(jù)每個視覺詞的權(quán)重的特征,然后根據(jù)圖像分類的加權(quán)直方圖。
2圖像的特征提取
圖像特征提取與描述是進行圖像分類的第一步。為了表征圖像的局部特征信息和形狀信息,本文采用PHOW 方法和PHOG 方法提取圖像特征。這兩種方法都通過圖像空間多分辨率分解形成多級塔式結(jié)構(gòu)表示;前者提取與描述圖像形狀特征信息,后者提取并描述圖像局部特征信息,兩者形成具有互補特性的特征表示集合。
2.1金字塔詞袋模型
2.1.1圖像的詞袋表示
詞袋模型的基本原理是文件作為一個完整的詞袋,忽略了單詞和語法之間的秩序,字模型,每個字都是獨立的包,不依賴于其他的話。詞袋模型需要一個字典包含了所有有意義的詞的建立,每個文檔可以表示為字典中的單詞直方圖。詞袋模型引入到圖像檢索領(lǐng)域,圖像被視為一個文件,大量的和定量的圖像轉(zhuǎn)換成一個有限數(shù)量的視覺單詞的地方特色,每個圖像被表示為這些視覺詞匯直方圖。袋的圖像分類和描述語言模型中的應(yīng)用,包括特征提取和詞典生成特征量化,訓(xùn)練分類器。如圖1所示。
(1)特征提取和描述。特征提取和描述的主要任務(wù)是從圖像中提取的具有代表性的局部特征,圖像描述。傳統(tǒng)的方法主要是利用圖像的SIFT描述符。本文主要采用密集采樣模式,固定大小的窗口,按照遍歷窗口的整個圖像的步驟,覆蓋區(qū)域的一個描述符的SIFT描述符來描述區(qū)域使用的特點。
(2)詞典生成。視覺詞典生成的本質(zhì)是適當(dāng)?shù)膭澐终麄€特征空間。將下降到特征向量的范圍在區(qū)間為相同的視覺詞同樣可以表達(dá)。主要采用k-均值聚類SIFT特征分為若干類,每類視覺單詞。所有的視覺詞形視覺詞典,視覺詞典的大小是視覺單詞的數(shù)量。
(3)訓(xùn)練分類器。支持向量機是較常用且實現(xiàn)較為簡單的分類器之一。其核心思想通過在特征空間中找最優(yōu)分類超平面,從而對空間中的不同特征進行分類。SVM求解最優(yōu)超平面問題可以等價于求解如下方程
(1)
約束條件為: , ,任意的 。其中 為與超平面的法向量, 為懲罰因子, 為松弛向量。本文主要采用SVM進行分類,選用徑向基核函數(shù)。2.1.2金字塔詞袋模型
傳統(tǒng)的詞袋模型忽略了圖像的空間位置特征,不利于圖像空間結(jié)構(gòu)特征的提取。在Grauman等人的金字塔匹配(Pyramid Match Kernel ,PMK)模型基礎(chǔ)之上, Lazebnik等人提出了空間金字塔匹配(Spatial Pyramid Matching, SPM)模型,該模型首先對局部特征量化,然后按不同的分辨率將圖像切分,并將每個圖像塊上獲得BOW特征并加權(quán)求和。
空間金字塔模型以 種不同的分辨率對圖像進行均勻分割,在第0層,圖像不被切分,其特征等價傳統(tǒng)的BOW。在第1層,圖像被切分為4塊,在每塊上獲取特征。在第 層,圖像被切分為 個塊,不同層上的特征被加上不同的權(quán)重。
2.2金字塔梯度直方圖模型
2.2.1HOG模型
梯 度 直 方 圖 (Histogram of Orientated Gradients,HOG)描述圖像的形狀信息是一種有效的方法。通過提取局部區(qū)域的邊緣或HOG梯度特征的分布,可以在物體邊緣的局部區(qū)域的一個很好的表征或梯度結(jié)構(gòu),和目標(biāo)的形狀特征。
具體方法是:(1)的圖像分割成小的連通區(qū)域,稱為細(xì)胞。(2)在一個單元格或集合的每個像素的邊緣梯度方向直方圖。(3)圖像的直方圖結(jié)合形成一個特征向量。
HOG特征是在一個密集的網(wǎng)格均勻間隔的電池單元的計算,考慮到圖像的空間分布,但沒有考慮到不同空間尺度的圖像,以分工分類性能的影響。
2.2.2金字塔梯度直方圖模型
面向綜合考慮圖像的空間分布的梯度直方圖,是描述圖像的形狀信息的一種有效方法,但沒有考慮到不同空間尺度的圖像分割的分類性能的影響。梯度方向直方圖(金字塔金字塔直方圖面向梯度,PHOG)[8 ]描述形成特征向量,表示在空間中的局部形狀的圖像對象的布局。利用空間四叉樹分解成圖像的多分辨率表示,通過連接從低分辨率高分辨率多梯度方向直方圖來描述圖像。= 3系列的一系列假設(shè),(= 0,1,2),梯度的方向分為8段,PHOG描述符是由3個梯度方向直方圖特征向量序列的形成。= 0是不是空間劃分,整個圖像為1元生豬,其尺寸為8;當(dāng)= 1圖像四二叉樹分類,將圖像劃分成4個矩形元生豬,8 x 4 = 32的尺寸;當(dāng)= 2圖像分解成16個矩形元生豬,尺寸為8 * 16 = 128,直方圖的最終形式是= 0,1,2,生豬直方圖序列,尺寸為8 + 32 + 128 = 168。利用直方圖的圖像的“能量”規(guī)范的特征向量,可以進一步消除光照變化的影響。PHOG示意圖如圖2所示。
2.3 Itti視覺顯著度模型
Itti根據(jù)人眼視覺系統(tǒng)特性,對圖像進行非均勻采樣,利用感受野特性形成、顏色、亮度、方向的關(guān)注圖,最后歸一化合并為顯著圖,算法流程如圖3所示。
模型中提取的特征包括,亮度、顏色和方向信息。其中亮度特征: ,
, , 分別表示輸入圖像的紅、綠、藍(lán)分量。顏色特征:定義 、 、 、
4個寬調(diào)諧的顏色通道作為顏色特征,紅色 、綠 色 、藍(lán) 色 、黃 色 。方向特征: Gabor小波在 , 4個方向上的分量。各特征的關(guān)注圖是通過圖像 區(qū)域中心 和周邊 的高斯差分DOG模型來模擬 “中心-外周”機制得到的,這種差分計算用符號“ ”表示,公式如下:
(2)
其中, , 分別表示中心 和周邊 的尺度因子。
亮度關(guān)注圖:
顏色關(guān)注圖:
方向關(guān)注圖:
其中, 、 分別表示紅綠色差和藍(lán)黃色差, 表示表示方向特征。
4基于視覺顯著度及金字塔模型的圖像分類
令 為原始圖像 的顯著圖,對圖像進行詞袋模型表示時,首先將圖像中的局部顯著特征量化為距離其最近的視覺單詞,并為這個視覺單詞進行加權(quán),權(quán)值如式(1)所示。
(3)
其中 為局部顯著特征在視覺顯著圖中的值。參數(shù) 為設(shè)定參數(shù)。對圖像進行直方圖統(tǒng)計師,根據(jù)該局部特征對應(yīng)位置的視覺顯著度對其進行加權(quán),更加符合人眼進行分類時原理。
5本文算法流程
訓(xùn)練過程:
(1)提取訓(xùn)練樣本,采用稠密采樣的方式提取圖片的SIFT特征。
(2)對上一步提取出的所有SIFT特征,采用K-means方式進行聚類,得到若干個聚
類中心矢量,即為視覺單詞。
(3)對每一幅訓(xùn)練圖中計算視覺顯著圖,并對每一幅圖像中的SIFT特征進行量化,
然后根據(jù)視覺顯著度計算每幅圖的金字塔視覺單詞加權(quán)直方圖,然后用直方圖表示訓(xùn)練圖像。對每一幅圖像計算邊緣幅值圖,并根據(jù)視覺顯著度計算每幅圖的金字塔加權(quán)梯度直方圖。
(4)每幅圖像都可以表示成PHOG 和 PHOW 特征的集合;而 PHOG 和 PHOW又各
有 種特征描述( =0,1 … -1), 。
(5)采用SVM對訓(xùn)練樣本進行訓(xùn)練。單獨訓(xùn)練每個類的分類模型.每類的訓(xùn)練樣本包
括正負(fù)樣本。正樣本為包含這類對象的圖像視覺單詞直方圖,負(fù)樣本隨機選取不包含這類對象的圖像視覺單詞直方圖。
分類過程:(1)將測試圖像,采用稠密采樣的方式提取圖片的SIFT特征,計算邊緣幅
值圖。(2)對測試圖像計算視覺顯著圖,并對測試圖像的SIFT特征進行量化,然后根據(jù)視覺顯著度計算計算測試圖像的視覺單詞加權(quán)直方圖;計算測試圖像的金字塔加權(quán)提督圖,將測試圖像同樣表示成PHOG 和 PHOW 特征的集合。(3)用訓(xùn)練好的SVM分類器進行分類,得到分類結(jié)果。
6實驗結(jié)果與分析
在這項研究中,們應(yīng)用了圖像分類和識別任務(wù)中較為經(jīng)典的數(shù)據(jù)庫Caltech101進行實驗驗證。Caltech101數(shù)據(jù)庫具有巨大的圖像數(shù)據(jù),圖像類型的特點,在對象類多樣性的變化,具有一定的代表性。圖像數(shù)據(jù)集分為101大類,共9146件物體的視覺形象,動物,車輛,鮮花和其他類別的對象,具有明顯的形態(tài)變化,每一類圖像的數(shù)量包含從40到80,每個圖像的像素尺寸300x200左右,屬于中等分辨率。
隨機選擇的10類實驗,然后選擇10,15,20,25幅圖像作為訓(xùn)練數(shù)據(jù),其余的作為測試數(shù)據(jù)。軟量化,接近一個數(shù)n = 10。所有的訓(xùn)練圖像提取稠密SIFT描述符,然后使用這些描述符結(jié)構(gòu)長度碼書500(使用K-means聚類,其中k = 1 000), =3。所有程序都在windows XP操作系統(tǒng),2 G 內(nèi)存,matlab 7.0 環(huán)境下運行。
從表中可以看出,隨著每類訓(xùn)練樣本數(shù)的增加,本文算法與傳統(tǒng)詞袋算法的分類性能都得到了提高。從總體上看,本文算法的分類準(zhǔn)確率高于傳統(tǒng)詞袋算法。
此外,針對金字塔層數(shù)選擇進行了分析,分別選取緊鄰個數(shù) =1,2,3,4進行分析。試驗結(jié)果表明,隨著層數(shù)的增長而增長。
7結(jié)語
本文金字塔模型引入到詞袋模型中,從而保持了局部特征的空間信息,同時與金字塔梯度直方圖模型相結(jié)合,兩種信息相互補充,共同來來表征圖像;此外本文受視覺顯著度的啟發(fā),認(rèn)為處于視覺顯著區(qū)域的視覺單詞對分類的結(jié)果更具影響力,提出了一種基于視覺顯著度的量化方式,算法根據(jù)視覺顯著度并對量化結(jié)果進行加權(quán),求取圖像的金字塔直方圖。在分類器設(shè)計方面采用SVM進行分類。通過在 Caltech 101數(shù)據(jù)庫進行實驗,驗證了本文方法的有效性,實驗結(jié)果表明,該方法能夠大幅度提高圖像分類的性能。實驗證明,本文算法可以提高圖像分類的準(zhǔn)確性,且與現(xiàn)有方法相比具有優(yōu)越性。
數(shù)字技術(shù)與應(yīng)用2015年3期