国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)構(gòu)化局部邊緣模式下的文檔圖像分類處理研究

2014-06-20 13:16:15邢方方
無(wú)線互聯(lián)科技 2014年3期

邢方方

摘 要:現(xiàn)代科學(xué)技術(shù)的快速發(fā)展,在一定程度上推動(dòng)了文檔圖像分類處理工作的進(jìn)步。結(jié)構(gòu)化的局部邊緣處理模式在文檔圖像處理工作方面得到了普遍的推廣,該算法能夠?qū)⑧徲蛑械目臻g分布結(jié)構(gòu)精確的描述出來(lái),提高了圖形文檔的區(qū)分能力。本文通過(guò)試驗(yàn)的方式和HOG進(jìn)行了對(duì)比,并對(duì)四種文檔類型特征進(jìn)行了分類,探究了結(jié)構(gòu)化局部邊緣模式下的文檔圖像分類處理。

關(guān)鍵詞:結(jié)構(gòu)化局部邊緣模式;文檔圖像;模式分類

目前,文檔圖像具有很多種模式形態(tài),其分類方法也多種多樣。在過(guò)去,人們比較常用的分類方法是光學(xué)字符識(shí)別系統(tǒng),該系統(tǒng)主要根據(jù)文本特征、結(jié)構(gòu)特征、混合特征三種方法對(duì)文檔進(jìn)行識(shí)別分類,但是該分類方法的分類速度比較慢,對(duì)所處理圖像解析度的要求比較高。因此,該方法逐漸被結(jié)構(gòu)化局部邊緣模式分類方法所替代。

1 結(jié)構(gòu)化局部邊緣模式下處理圖像分類的預(yù)備知識(shí)

文本管理工作主要包括:壓縮、管理、歸檔、文本分析等,在進(jìn)行文檔工作處理的時(shí)候,相對(duì)準(zhǔn)確的文檔類型信息能夠有效的提高文本檢索的速度以及工作人員的工作效率。文檔具有多種模式形態(tài),每種形態(tài)都有自己的獨(dú)特性以及形態(tài)之間的相似性。結(jié)構(gòu)化局部邊緣模式的使用,不僅可以實(shí)現(xiàn)對(duì)圖像分割模式的自由調(diào)節(jié),還能夠有效的提高文檔圖像特征提取的準(zhǔn)確性,在使用結(jié)構(gòu)化局部邊緣模式進(jìn)行文檔圖像特征提取的時(shí)候,采用的是圖像區(qū)塊之間重疊的方法,通過(guò)這種方式有效的確保圖像分割區(qū)域特征本身的連貫型性。

2 采用結(jié)構(gòu)化局部邊緣模式下,文檔圖像分類特征的提取

本文在對(duì)結(jié)構(gòu)化局部邊緣模式下文檔圖像分類處理的研究中,進(jìn)行分類對(duì)比采用的是HOG。結(jié)構(gòu)化局部邊緣系統(tǒng)通過(guò)LEP特征,根據(jù)圖像像素鄰域的邊緣方向進(jìn)行了相關(guān)的編碼。文檔圖像本身特征就比較明顯,例如影像圖片的像素?cái)?shù)值變化比較大;一般學(xué)術(shù)論文的格式比較規(guī)整且字?jǐn)?shù)比較多;灰度圖像之相似性比較大,沒(méi)有明顯的規(guī)律可循;表格文件的特征性比較明顯,橫線和豎線比較多;PPT幻燈片的圖像、文字等變化性比較明顯,但是在排版方面具有一定的規(guī)律可以遵循,為了方便結(jié)構(gòu)化局部邊緣模式在處理文檔圖像方面的研究工作,上述幾種圖像類型的邊緣信息都比較明顯。

3 結(jié)構(gòu)化局部邊緣模式和HOG的主要特征

3.1 模式分類框架

文中在進(jìn)行結(jié)構(gòu)化局部邊緣模式下,文檔圖像的分類處理研究中,還沒(méi)有形成一一個(gè)完整通用的基準(zhǔn)數(shù)據(jù)庫(kù)進(jìn)行相關(guān)的實(shí)驗(yàn)研究,并且受其它因素的限制也比較明顯。所以,本文在進(jìn)行處理研究的時(shí)候,通過(guò)綜合對(duì)比研究選取了含有5000張圖像并具有四種文檔圖像類別,每種類型都包含1250張圖像,類型包括:影像圖片、學(xué)術(shù)論文、PPT幻燈影片以及含有表格的文件。另外,在進(jìn)行文檔圖像處理研究時(shí),圖片都是隨機(jī)獲取的。

3.2 結(jié)構(gòu)化局部邊緣模式的特征描述

結(jié)構(gòu)化局部邊緣模式主要是利用計(jì)算機(jī)模擬技術(shù)對(duì)對(duì)視覺(jué)、圖像等進(jìn)行處理,在使用的過(guò)程中,根據(jù)圖片中重復(fù)出現(xiàn)的不同pixel,并將其按照不同的方向延伸成九宮格的形狀作為參考的重點(diǎn)。在模式計(jì)算的過(guò)程中,首先要獲取到原始的邊緣圖像,并建立一個(gè)3*3的鄰域窗口,在這一過(guò)程中,文本會(huì)被分為比較小的空間區(qū)塊,其計(jì)算方式為:結(jié)構(gòu)化局部邊緣模式(SLEP)=Ni/N,i=0,1,2,…31,其中結(jié)構(gòu)化邊緣模式的變化范圍是在0到31之間,Ni中的i代表的是pixel的數(shù)目,n代表的是piexl的總數(shù)目。

3.3 HOG的特征描述

HOG特征是目前人們比較常用的圖像特征提取方法,該方法在計(jì)算的時(shí)候選取的是320*256的圖像區(qū)域,在此基礎(chǔ)上,把區(qū)塊的大小劃分為32*32,其中九宮格的大小為16*16,將九宮格的每一格作為最基本地計(jì)算單元,然后進(jìn)行相關(guān)的串聯(lián)計(jì)算。方法步驟如下。第一,可以對(duì)圖像進(jìn)行卷積處理,目的是了解圖像中像素的梯度以及方向變化,一般將范圍值控制在[-1,0,1]或者是[1,0,-1]。第二,對(duì)每個(gè)格子進(jìn)行量化處理,角度量化的范圍值是[0,180],然后根據(jù)每個(gè)像素的模建立九維方向角直方圖。第三,把區(qū)塊內(nèi)部各格子之間的直方圖進(jìn)行串聯(lián)處理,然后組成36維直方圖的特征向量。第四,把所有的特征向量串聯(lián)在一起,就會(huì)形成最后的直方圖特征向量。

4 結(jié)構(gòu)化局部邊緣模式的處理分析

在對(duì)上述四種類型的圖像特征進(jìn)行信息提取研究以后,了解到在進(jìn)行圖像分析的過(guò)程中,圖像的解析度分別為:80*64,160*128,這組數(shù)據(jù)說(shuō)明和HOG相比,結(jié)構(gòu)化局部邊緣模式在運(yùn)用過(guò)程中性能效果比較好,分辨率也比較高。這說(shuō)明結(jié)構(gòu)化局部邊緣系統(tǒng)在不適用OCR系統(tǒng)的條件下,也具有高質(zhì)量的文檔圖像分辨率。當(dāng)圖像大小為80*64,文檔圖像的類別為影像照片以及規(guī)范化的學(xué)術(shù)論文的時(shí)候,SLEP測(cè)試效果要比HOG高0.1到1.6個(gè)百分點(diǎn),但是當(dāng)進(jìn)行表格文件處理的時(shí)候,百分點(diǎn)就會(huì)比HOG的百分點(diǎn)低,當(dāng)進(jìn)行PPT幻燈片測(cè)試的時(shí)候,百分點(diǎn)又會(huì)比HOG高,這表明,結(jié)構(gòu)化局部邊緣模式在文檔圖像處理的時(shí)候,使用整體效能比較高。當(dāng)圖像大小逐漸變大的時(shí)候,除表格文件的測(cè)試百分點(diǎn)比較低之外,其余也呈現(xiàn)逐漸增高的現(xiàn)象。上述研究表明,當(dāng)圖像文檔比較混亂的時(shí)候,梯度方向呈現(xiàn)混亂的狀態(tài),進(jìn)行文檔圖像、影片特征分類會(huì)比較方便,但是在進(jìn)行表格文檔處理的時(shí)候,使用HOG取得的效果會(huì)更加的明顯。

[參考文獻(xiàn)]

[1]康勤,邱開(kāi)金,肖國(guó)強(qiáng).基于塊邊緣模式的圖像內(nèi)容描述符[J].計(jì)算機(jī)科學(xué),2010(5).

[2]朱慶生,張敏.一種優(yōu)化的文檔圖像分割方法[J].計(jì)算機(jī)科學(xué),2009(4).

镇平县| 左权县| 西峡县| 筠连县| 无棣县| 开鲁县| 镇雄县| 陈巴尔虎旗| 南京市| 昌宁县| 象山县| 濮阳市| 汉中市| 丹东市| 怀化市| 仁化县| 长宁县| 千阳县| 大英县| 长岛县| 额尔古纳市| 晋中市| 库伦旗| 台东市| 麻江县| 柘荣县| 通道| 昌乐县| 河北省| 黄石市| 玉龙| 东台市| 长武县| 杭锦旗| 福建省| 日土县| 集贤县| 德化县| 大庆市| 福海县| 宾川县|