国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于層次匹配的維吾爾文關(guān)鍵詞圖像檢索

2022-12-30 07:51宋志平朱亞俐吾爾尼沙買買提徐學斌庫爾班吾布力
計算機工程與設(shè)計 2022年12期
關(guān)鍵詞:灰度文檔檢索

宋志平,朱亞俐,吾爾尼沙·買買提,徐學斌,2,庫爾班·吾布力,2+

(1.新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046;2.新疆大學 多語種信息技術(shù)重點實驗室,新疆 烏魯木齊 830046)

0 引 言

文檔圖像檢索方法分為基于光學字符識別[1](optical character recognition,OCR)的檢索和基于圖像特征的檢索,基于OCR的檢索方法高效快捷,但是檢索系統(tǒng)復(fù)雜,對手寫體文檔圖像及少數(shù)民族語言文檔圖像而言,目前無成熟的OCR系統(tǒng),而基于關(guān)鍵字的檢索方法它能快速確定所需信息的準確位置,無需進行字符識別、系統(tǒng)結(jié)構(gòu)簡單,能夠帶給用戶與OCR檢索幾乎相同的檢索體驗,是OCR系統(tǒng)的一種非常有效的互補方法。白淑霞等[2]將語言模型與詞袋模型(bag-of-visual-words,BoVW)的框架相結(jié)合,提出了一種基于LDA的主題模型,改進了蒙古文圖像關(guān)鍵詞檢索框架。魏宏喜等[3]建立了基于詞定位法的蒙古文圖像檢索系統(tǒng),關(guān)鍵詞圖像通過文字輪廓、投影特征和筆畫的交集來表達,最后將視覺特征集成到BOVW模型[4]中并用于檢索任務(wù)。周文杰[5]采用形態(tài)學梯度算法對維吾爾文文檔圖像進行切割,使用切分后的單詞圖像LBP紋理特征實現(xiàn)檢索。李靜靜等[6]在粗匹配階段采取模板匹配,之后將HOG特征用于精細匹配,最后利用SVM分類器對關(guān)鍵詞進行精確檢索。

基于層次匹配的維吾爾文關(guān)鍵詞檢索方法,首先對預(yù)處理后的文檔圖像進行單詞切分,生成單詞數(shù)據(jù)庫,并使用分塊灰度共生矩陣算法對單詞圖像庫進行淺層檢索,過濾掉部分無關(guān)單詞圖像后形成候選單詞庫;其次利用預(yù)先訓(xùn)練好的VGG16網(wǎng)絡(luò)特征提取器對淺層檢索回的候選單詞庫進行深層精確檢索,具體框架如圖1所示。

圖1 基于關(guān)鍵詞的文檔圖像檢索系統(tǒng)框架

1 基于維吾爾文單詞圖像檢索研究

1.1 圖像采集與預(yù)處理

由于在將紙質(zhì)書文本掃描成電子文檔圖像的過程中,由于環(huán)境設(shè)備等因素的影響,阻礙了圖像有效信息的提取。因此本文通過圖像預(yù)處理方法來增強圖像質(zhì)量,其中預(yù)處理操作包括灰度化(加權(quán)平均法)、噪聲去除(中值濾波)及傾斜校正(Hough)。預(yù)處理前后效果如圖2(a)、圖2(b)所示,經(jīng)過預(yù)處理后的圖像筆跡較之前更清楚,內(nèi)容結(jié)構(gòu)更易于識別,這說明經(jīng)過預(yù)處理后的圖像特征比灰度圖片更明顯。由于本文使用的數(shù)據(jù)集是純文本版面,因此采用徐學斌等[7]提出的基于聚類+連體段判別法完成對維吾爾文印刷體文檔圖像的單詞切分,效果如圖2(c)所示。

圖2 文檔圖像預(yù)處理

1.2 單詞圖像增廣

基于深度學習的探究需要大量的數(shù)據(jù)樣本來訓(xùn)練網(wǎng)絡(luò)[8,9]。但多數(shù)情況下是沒辦法得到足夠的數(shù)據(jù),因此數(shù)據(jù)增廣技術(shù)有利于深度學習模型的訓(xùn)練,同時數(shù)據(jù)增廣技術(shù)可以從已有的數(shù)據(jù)中獲得新的樣本,從而有效改善模型的表達能力[10]。維吾爾文單詞圖像方面的樣本數(shù)據(jù)較少,除了字體字號的變化外,沒有其它的數(shù)據(jù)樣本,因此本文采取數(shù)據(jù)增廣的方法,來提升單詞圖像樣本的多樣性。

本文通過對115張純文本維吾爾文文檔圖像進行單詞切分,形成單詞圖像總數(shù)為24 460張單詞數(shù)據(jù)庫,其詞匯量為1233,選取了其中詞頻最高的200個類,之后分別從每個類中選取10張單詞圖像對其采用旋轉(zhuǎn)、剪切、遮擋、加噪、模糊等幾何圖像變換方法,將其擴充為原來的10倍,并用于網(wǎng)絡(luò)模型的訓(xùn)練。之后在網(wǎng)絡(luò)訓(xùn)練中采用概率p=0.5進行在線數(shù)據(jù)增廣方法,來增加訓(xùn)練數(shù)據(jù)集樣本的多樣性,離線增廣部分效果如圖3所示。

圖3 單詞圖像增廣

2 特征提取

2.1 灰度共生矩陣

灰度共生矩陣(gray level co-occurrence matrix,GLCM)[11]是一種具有方向選擇性的特征統(tǒng)計方法。通過灰度空間特征對圖像在方向、相鄰區(qū)間、變化幅度等信息進行描述。其一般表示量是:能量、熵、對比度、相關(guān)性、紋理方差等6個主要特征量,對圖像灰度空間變化信息進行描述。本文主要采用能量、熵、對比度和相關(guān)性4個最具有代表性的紋理參數(shù)作為本文的紋理特征,具體計算如下:

(1)對比度,又稱慣性矩,它能測量圖片中的矩陣分布和局部變化,反應(yīng)圖中局部的紋理信息

(1)

(2)角二階矩,又稱能量,它能反映圖像灰度分布和紋理厚度

(2)

(3)熵,它表示了圖像的信息測度,圖像內(nèi)容的隨機性和圖像紋理的復(fù)雜性

(3)

(4)相關(guān)性,也稱為同質(zhì)性它被用于衡量灰度級在行或列方向上的相似性,因此該值反映了局部的灰度關(guān)聯(lián)值

(4)

其中,i為矩陣行數(shù),j為矩陣的列數(shù),P(i,j) 表示矩陣在i行j列處的值。μx,μy,σx,σy分別是Px和Py的均值和方差,Px是共生矩陣中每列元素之和,Py是共生矩陣每行元素之和。

2.2 改進的灰度共生矩陣

在圖像檢索中使用灰度共生矩陣特征參數(shù)時,通常選擇一個或多個特征參數(shù)來度量圖片的相似性。其次GLCM在進行紋理提取時,往往不考慮基元的形狀,不適合由大基元組成的紋理,會導(dǎo)致很多有價值的紋理信息被忽略。

為了突出圖像的中心位置,從而提高圖像檢索效率,本文在原有算法的基礎(chǔ)上改進了灰度共生矩陣算法[12]。首先將M×N大小的單詞圖像調(diào)整到N×N大小的圖像,然后再將圖像分成3×3共9個相同大小的子塊,之后計算每個子塊00、450、900、1350,4個方向的GLCM特征參數(shù)作為子塊的紋理特征,將提取到的各個子塊紋理特征進行串聯(lián)得到3×3×16=144維紋理特征代替原始的GLCM特征去表達圖像紋理信息,這樣能夠把較大的共生矩陣數(shù)組化為較小的共生矩陣數(shù)組,同時還可以避免出現(xiàn)過多的紋理特征被忽略的情況,能夠?qū)D像有效區(qū)域的紋理信息進行細致描述。

2.3 VGG16網(wǎng)絡(luò)

目前常用的深度網(wǎng)絡(luò)有AlexNet[13]、VGGNet[14]、GoogleNet[15]、ResNet[16];VGG16[17]網(wǎng)絡(luò)由13個卷積層5個池化層和3個全連接層構(gòu)成,3×3卷積核取代5×5卷積核提取更細致的圖像特征,其模型參數(shù)較少而且結(jié)構(gòu)簡單規(guī)整,并能更好進行特征提取;因此本文選取了VGG16作為特征提取網(wǎng)絡(luò)VGG16網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 VGG16網(wǎng)絡(luò)結(jié)構(gòu)

2.4 網(wǎng)絡(luò)遷移

遷移學習是指將模型通過源域?qū)W習的知識遷移運用到目標域中,即將以往的知識遷移到另一個新的領(lǐng)域中。劉詩琪[18]通過將深度學習與遷移學習結(jié)合提出tr-RCNN模型

結(jié)合RBM與CNN兩種模型有效解決了小樣本航拍圖像分類問題。劉嘉政[19]結(jié)合CNN和遷移學習用于花卉圖像識別,取得了很好的效果。由于維吾爾文單詞數(shù)據(jù)集屬于小樣本數(shù)據(jù)集,因此本文首先在源域Kannada語手寫體數(shù)據(jù)集上對VGG16網(wǎng)絡(luò)模型進行預(yù)訓(xùn)練至參數(shù)收斂,之后將訓(xùn)練參數(shù)作為目標域維吾爾文單詞數(shù)據(jù)集的初始化參數(shù),并對網(wǎng)絡(luò)模型參數(shù)進行微調(diào)(Finetune)至充分擬合,最后將全連接層的輸出作為單詞圖像的特征表示,如圖5所示。

圖5 VGG16網(wǎng)絡(luò)微調(diào)

2.5 相似性度量

本文采用余弦相似性算法來對圖像檢索的結(jié)果進行評估。余弦距離也稱為平行傾斜率。它計算倆矢量間的空間余弦,以測定倆矢量間的大小差。它的應(yīng)用范圍比較廣闊,能解決任意維度向量比較的問題。而對于圖像來說,圖像本身就是一個一個富含大量特征的載體,同時這些特征又有著很高很復(fù)雜的維度空間,和別的算法不同的是,余弦相似性算法[20]將數(shù)據(jù)映射為高維空間中的向量從方向上區(qū)分差異性,而不考慮空間位置等因素,圖6為余弦距離。

圖6 余弦距離

假設(shè)向量a1=[A11,A22,……,Ann] 和向量a2=[B11,B22,……,Bnn] 是兩個n維向量,那么向量a1與a2的夾角θ

的余弦計算公式為

(5)

3 實驗結(jié)果與分析

本文實驗在Windows10環(huán)境下展開,處理器型號為Intel Core I5-8300,運行內(nèi)存8 GB,具體程序是在python3.7開發(fā)環(huán)境下編程調(diào)試,并借助OpenCV-3.4.2.16開發(fā)平臺實現(xiàn)。文檔圖像數(shù)據(jù)庫源于《馬列主義經(jīng)典著作選編》維吾爾語版,為模擬不同的辦公環(huán)境,采用不同的打印機將紙質(zhì)書籍掃成文檔圖像,建立了1000張文檔圖像,隨機選取了115張文檔圖像并切分成24 460張單詞圖像庫,并在其中選取10個具有豐富意義的關(guān)鍵詞圖像作為查詢關(guān)鍵詞圖像,并在數(shù)據(jù)庫中進行檢索實驗。檢索性能的評價指標有準確率(precision)、召回率(recall)、F值,指標計算公式如下:

TP(true positive):檢索為關(guān)鍵詞;實際也為關(guān)鍵詞;

FP(false positive):檢索為關(guān)鍵詞;實際是非關(guān)鍵詞;

TN(true negative):未被檢索到的關(guān)鍵詞;實際是非關(guān)鍵詞;

FN(false negative):未被檢索到的關(guān)鍵詞;實際是關(guān)鍵詞

precision=TP/(TP+FP)*100%

(6)

recall=TP/(TP+FN)*100%

(7)

F=precision*recall*2/(precision+recall)

(8)

3.1 基于灰度共生矩陣的淺層檢索實驗

本文首先在維吾爾文單詞數(shù)據(jù)集上,評估了灰度共生矩陣算法在維吾爾文文檔數(shù)據(jù)集上的性能。表1展示了原始灰度共生矩陣算法的檢索性能,其中準確率平均值為39.04%,召回率的平均值為48.29%,F(xiàn)值平均值為42.27%。第5個查詢關(guān)鍵詞的檢索準確率在這10個關(guān)鍵詞圖像中效果最好為55.81%。表示共檢索到43個單詞圖像其中目標關(guān)鍵詞包含24個。準確率最差的是第1個查詢關(guān)鍵詞,為25.39%,即共檢索回63個單詞圖像,其中正確單詞圖像為16個。而第9個單詞圖像召回率在這10個查詢詞中最好,為66.00%,表示共標注50個關(guān)鍵詞圖像,其中33個被召回。第3個查詢關(guān)鍵詞圖像召回率最低,為32.14%。即共標記56處關(guān)鍵詞圖像,其中召回18處。

表1 基于灰度共生矩陣的關(guān)鍵詞圖像檢索實驗

表2中數(shù)據(jù)為分塊后的灰度共生矩陣算法的檢索結(jié)果,其檢索平均準確率為39.90%,而這些正確的關(guān)鍵詞圖像,占所標注關(guān)鍵詞圖像總個數(shù)的87.72%,F(xiàn)值平均值為52.49%。其中第5個關(guān)鍵詞準確率在這10個查詢關(guān)鍵詞中最高,為60.00%,即表示共檢索回70個單詞圖像,其中目標關(guān)鍵詞包含42個。相反也有準確率較差的關(guān)鍵詞,第6個關(guān)鍵詞準確率在這10個詞中最差,為12.82%,即共檢索到312個單詞圖像,其中目標關(guān)鍵詞圖像包含40個。召回率效果最好的是第2個關(guān)鍵詞,為100%,代表標注關(guān)鍵詞圖像全部召回,而召回率最差的是第5個關(guān)鍵詞,為75.00%,即標注56個目標關(guān)鍵詞圖像其中成功召回42個目標關(guān)鍵詞圖像。

表2 基于改進的灰度共生矩陣淺層檢索結(jié)果

由表1和表2結(jié)果可以得出,采用分塊后的灰度共生矩陣算法相較于原始的灰度共生矩陣算法在準確率和召回率上都有大幅提升。但無論是改進前還是改進后的特征,其準確率都普遍偏低且其波動較大,召回率都偏高且波動較小。經(jīng)分析得出灰度共生矩陣算法中僅簡單利用了圖像的像素紋理信息對單詞圖像進行快速篩選, 以保證盡可能多的目標關(guān)鍵詞被召回。然而并未提取到圖像更深層次特征去表征圖像間細微的差別,僅僅對數(shù)據(jù)庫中一些不相關(guān)的單詞圖像和切分錯誤的單詞圖像進行過濾,以保證盡可能多的召回目標單詞圖像。

3.2 基于VGG16網(wǎng)絡(luò)的深層檢索實驗

本節(jié)第一組實驗是在沒有淺層檢索的基礎(chǔ)上,只用VGG16卷積神經(jīng)網(wǎng)絡(luò)特征在維吾爾文關(guān)鍵詞圖像數(shù)據(jù)庫進行檢索。其結(jié)果見表3:準確率平均值為70.29%,召回率平均值為57.98%,F(xiàn)值平均值為60.37%。第5個關(guān)鍵詞的準確率最好達到92.85%,即表示共檢索回28個單詞圖像其中26個檢索正確,而第10個關(guān)鍵詞準確率最低,為40.00%,表示共檢索回100個單詞圖像其中正確檢索回40個關(guān)鍵詞圖像;對于召回率而言第9、第10這2個關(guān)鍵詞效果最好均達到80%以上,即代表標注關(guān)鍵詞圖像大部分都被召回。

在這一部分,使用VGG16網(wǎng)絡(luò)特征進行關(guān)鍵詞檢索,準確率普遍較高,其原因是由于網(wǎng)絡(luò)根據(jù)大量的數(shù)據(jù)樣本可以學習到更深層的內(nèi)在特征表示,對圖像內(nèi)容的表達更準確,而其召回率普遍較低,經(jīng)分析發(fā)現(xiàn),雖然我們通過了數(shù)據(jù)增廣來增加圖像數(shù)據(jù)的多樣性,但只是對原有數(shù)據(jù)集進行改變,本質(zhì)上對數(shù)據(jù)特征多樣性變化不夠,從而導(dǎo)致網(wǎng)絡(luò)模型不能很好學習到維吾爾文單詞特有的紋理輪廓等特征信息,難免會檢索回與目標查詢詞無關(guān)的圖片。由此可以看出單一特征的檢索效果都不盡如人意,無法從不同角度衡量圖像;但對不同特征進行融合可以很好的解決這一問題,因此本文在灰度共生矩陣淺層檢索的基礎(chǔ)上,采用VGG16網(wǎng)絡(luò)特征對淺層檢索回的候選單詞圖像庫進行二次精確檢索,實驗效果見表4。表4中的數(shù)據(jù)是在結(jié)合分塊灰度共生矩陣,與卷積神經(jīng)網(wǎng)絡(luò)在維吾爾文關(guān)鍵詞圖像二次檢索的結(jié)果。其中準確率平均值為94.15%,召回率平均值為82.03%,F(xiàn)值平均值為86.80%。從表4結(jié)果中可以看出第5、第9、第10這3個查詢關(guān)鍵詞的準確率均達到100%,即表示檢索回的單詞圖像均為目標關(guān)鍵詞圖像;對于召回率而言,第2個關(guān)鍵詞召回率為100%,表示標注關(guān)鍵詞圖像全部召回;與表2淺層檢索結(jié)果相比其準確率平均值提升了54.25%,召回率方面降低5.69%,與表3結(jié)果相比平均準確率和召回率分別提高23.86%和24.05%。

表3 基于VGG16的關(guān)鍵詞檢索結(jié)果

表4 基于分塊灰度共生矩陣+VGG16的關(guān)鍵詞深層檢索結(jié)果

從表4結(jié)果可以總結(jié)出,采用層次匹配的檢索方法將分塊灰度共生矩陣與卷積神經(jīng)網(wǎng)絡(luò)特征進行分層次融合,在提取到圖像更深層次空間域特征的同時,兼顧到圖像底層紋理信息。與表2淺層檢索結(jié)果相比通過損失較小的召回率的情況下極大提高了檢索的準確率,其結(jié)果明顯優(yōu)于表2和表3單一特征的檢索效果。顯然通過將圖像底層特征與高層空間域特征有效的結(jié)合可以更全面地表達關(guān)鍵詞圖像信息進一步提高了檢索性能;同時驗證了本文方法在維吾爾文文檔圖像檢索中的有效性。

3.3 與現(xiàn)有方法對比

為進一步驗證本文提出方法的性能,和已有的Hu+MBLBP+OSVM[5]和模板匹配+HOG+OSVM[6]維吾爾文關(guān)鍵詞檢索方法作比較,3種方法的準確率、召回率和F值等對比情況見表5。由表5可知本文方法檢索平均準確率為94.15%,平均召回率為82.03%。相較于Hu+MBLBP+OSVM關(guān)鍵詞檢索方法,本文方法在準確率上提升了7.45%,召回率提升了3.73%,而相較于模板匹配+HOG+OSVM關(guān)鍵詞檢索方法,本文方法在準確率上提高了2.41%,在召回率上提升了2.72%??梢钥闯鱿噍^于前兩種基于經(jīng)典特征與SVM的檢索方法,本文方法在準確率、召回率上均有明顯提升。

表5 基于維吾爾文關(guān)鍵詞圖像檢索結(jié)果對比

4 結(jié)束語

本文針對傳統(tǒng)圖像特征在維吾爾文文檔圖像上檢索效果不理想等問題,提出結(jié)合灰度共生矩陣與卷積神經(jīng)網(wǎng)絡(luò)的維吾爾文關(guān)鍵詞圖像層次檢索方法,通過將傳統(tǒng)手工特征與深層空間域特征進行分層次融合,在淺層檢索召回率略有損失的情況下極大提高關(guān)鍵詞圖像檢索的準確率,同時隨著對關(guān)鍵詞檢索研究的深入,基于關(guān)鍵詞的維吾爾文文檔圖像檢索已然成為一個極具挑戰(zhàn)的研究熱點,尤其是關(guān)鍵詞圖像特征選取的研究,因此下一步工作將更加深入分析維吾爾文單詞圖像特點,尋找新的特征進行融合進而提高系統(tǒng)檢索性能。

其次,本文的研究主要是建立在印刷體的維吾爾文純文本文檔圖像上,而現(xiàn)實中的文檔圖像還包含表格、圖片等信息,因此,需增加具有復(fù)雜布局的文檔圖像以及手寫體的文檔圖像,同時單詞切分方法也有待改進,實驗中的測試關(guān)鍵詞數(shù)目以及文檔圖像規(guī)模還會繼續(xù)擴大,降低偶然因素對檢索結(jié)果的影響。

猜你喜歡
灰度文檔檢索
采用改進導(dǎo)重法的拓撲結(jié)構(gòu)灰度單元過濾技術(shù)
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個文檔
Bp-MRI灰度直方圖在鑒別移行帶前列腺癌與良性前列腺增生中的應(yīng)用價值
Arduino小車巡線程序的灰度閾值優(yōu)化方案
瑞典專利數(shù)據(jù)庫的檢索技巧
在IEEE 數(shù)據(jù)庫中檢索的一點經(jīng)驗
一種基于Python的音樂檢索方法的研究
Word文檔 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
张家界市| 库尔勒市| 修水县| 西盟| 民勤县| 铜川市| 南漳县| 灵丘县| 新邵县| 潞城市| 济源市| 乌兰察布市| 民丰县| 安远县| 泽库县| 颍上县| 黄冈市| 池州市| 怀宁县| 安远县| 鄢陵县| 宜丰县| 界首市| 奈曼旗| 抚松县| 佛教| 临高县| 辉南县| 息烽县| 保康县| 中卫市| 徐州市| 武胜县| 文水县| 新营市| 福清市| 罗平县| 西乌珠穆沁旗| 罗源县| 泗阳县| 望奎县|