常治國
(中國人民大學(xué) 北京市 100872)
隨著基于深度學(xué)習(xí)的圖像識別技術(shù)的應(yīng)用普及,手寫體OCR識別被廣泛用于小學(xué)生作業(yè)的識別與自動判卷上。通常小學(xué)生使用田字格本做漢字抄寫作業(yè),使用4 線英語練習(xí)本做英語抄寫作業(yè)。然而作業(yè)本背景網(wǎng)格線的存在導(dǎo)致手寫體OCR 識別難上加難,因?yàn)榈准y疊的存在加大了神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)的方差,輸入數(shù)據(jù)的方差越大,所需的網(wǎng)絡(luò)模型也就越大越復(fù)雜,相應(yīng)的模型訓(xùn)練難度與預(yù)測的算力需求都同步增加,因此,減小數(shù)據(jù)輸入方差是值得嘗試的方法。小學(xué)生作業(yè)練習(xí)本的網(wǎng)格線通常包含橫線、豎線或斜線,使用顏色為綠色、紅色或黑色,如圖英語四線抄寫本和漢字米字格抄寫本均帶網(wǎng)格底紋??瞻孜臋n無筆跡的情況下,使用經(jīng)典的Hough 變換直線檢測算法即可準(zhǔn)確的從文檔掃描的二值化圖像中檢測出這些背景網(wǎng)格線。然而實(shí)際應(yīng)用時圖像采集方式往往是相機(jī)拍攝而不是掃描儀掃描,作業(yè)本存在頁面翹曲的情況,另外相機(jī)拍攝不可避免有視角傾斜的問題,這些因素導(dǎo)致橫平豎直的網(wǎng)格線成像后退化為曲線。此外,筆跡覆蓋在網(wǎng)格線之上,網(wǎng)格線會被分割成長短不一的大小線段,因此單純的基于黑白圖像幾何特征難以精確分割出所有的網(wǎng)格線。本文通過經(jīng)典圖像處理算法,基于k-means聚類算法,充分利用圖像的亮度信息、色彩信息、對象的幾何空間分布特征,以較小的計算代價實(shí)現(xiàn)了從帶網(wǎng)格底紋文檔圖像中提取筆跡內(nèi)容,剔除背景噪聲與網(wǎng)格線內(nèi)容。
通常情況下,小學(xué)生抄寫文檔包含3 種主顏色,即紙張顏色、網(wǎng)格線顏色,以及筆跡顏色,結(jié)合網(wǎng)格線的幾何特征,本文提出一種幾何特征疊加顏色特征的網(wǎng)格線剔除方法,具體步驟為:
(1)對輸入的彩色圖像Ic進(jìn)行unsharp mask 操作,以突出淺色的網(wǎng)格線。當(dāng)相機(jī)離焦或者光照過強(qiáng)、過弱的情況下拍照都會導(dǎo)致網(wǎng)格線弱化,但并不會完全消失,unsharp mask 操作屬于一種圖像邊緣增強(qiáng)方法,能有效增強(qiáng)圖像中的細(xì)線條對象,減弱光照不均勻以及鏡頭離焦模糊的影像。增強(qiáng)后的圖像為Ie,將Ie變換為灰度圖像得到Ig。
(2)基于局域自適應(yīng)二值化算法(localadaptivethresholding, DOI: https://doi.org/10.1007/978-0-387-73003-5_506)對灰度圖像Ig進(jìn)行二值化得到二值圖像Ib,0 像素為背景,非零像素為包含網(wǎng)格線和筆跡的部分。局域自適應(yīng)二值化算法能很好的適應(yīng)亮度漸變的圖像,能在全局范圍內(nèi)有效分離背景色和前景色(前景色包括網(wǎng)格線與筆跡)。
(3)對二值圖像Ib進(jìn)行形態(tài)學(xué)膨脹(dilate)操作得到膨脹后的二值圖像Id,膨脹操作使得筆跡和網(wǎng)格線邊緣擴(kuò)充而覆蓋到背景像素區(qū)域,這樣方便后續(xù)步驟選擇筆跡和網(wǎng)格線附近的背景像素而不是全部像素參與k-means 聚類算法,對Id與Ib進(jìn)行按位異或(bitwisexor)操作得到的二值圖像作為掩摸mask,用mask 對Ic進(jìn)行像素選擇即可得到與筆跡和網(wǎng)格線相鄰的背景像素,膨脹操作的強(qiáng)度越大,選擇到的背景像素越多。
(4)以二值圖像Id為掩模mask 選擇彩色圖像Ic的像素,選中的像素包含了網(wǎng)格線、筆跡以及背景,使用K=3 的k-means 聚類算法對選中的彩色像素進(jìn)行聚類,得到3 簇像素,在3 簇像素中,中心值亮度最大的為背景,兩外兩簇像素為網(wǎng)格底紋像素和筆跡像素。
(5)由于網(wǎng)格底紋在整個文檔內(nèi)周期性重復(fù),分布均勻,空間分布離散度小,而筆跡在整個文檔范圍內(nèi)更大相比較而言分布更為隨機(jī),相應(yīng)的空間分布離散度大,因此剩下的2 簇像素可依據(jù)各自的像素空間分布離散度統(tǒng)計量進(jìn)行類別判定,即對2 簇像素各自生成掩模mask 二值圖像,分別計算2 個mask 二值圖像的空間分布離散度,離散度小的二值圖像對應(yīng)的像素簇為網(wǎng)格底紋,另一簇像素即為筆跡。
至此我們將背景、網(wǎng)格線、筆跡成功分割,即實(shí)現(xiàn)了本文的從帶網(wǎng)格線底紋圖像中提取筆跡內(nèi)容的目標(biāo)。
將二值圖像劃分為R 行C 列無縫拼接且尺寸相等的格子,格子的水平邊長大于網(wǎng)格的水平方向重復(fù)周期,格子的垂直邊長大于網(wǎng)格的垂直方向重復(fù)周期。統(tǒng)計每個格子內(nèi)的非0 像素個數(shù)N(r,c),0 ≤r k-means 聚類算法的結(jié)果對初始中心點(diǎn)的選擇非常敏感,初始中心點(diǎn)選擇不當(dāng)容易導(dǎo)致聚類結(jié)果陷入局部最優(yōu)。本文充分利用輸入文檔圖像的顏色分布與空域結(jié)構(gòu)先驗(yàn)知識,優(yōu)化選擇聚類初始中心點(diǎn)。本文3 個k-means 初始中心點(diǎn)的選取方法: (1)將待聚類的像素集合由RGB色彩空間轉(zhuǎn)為HSV色彩空間,此舉目的是減小3 個顏色分量之間的相關(guān)性,提高不同類別對象像素之間的顏色空間距離。(參考文獻(xiàn):2005,圖像圖形學(xué)報,彩色圖像分割方法綜述,文章編號:1006-8961(2005)01-0001-10)。 (2)選擇二值圖像Id前景色邊界像素對應(yīng)的彩色像素(來自彩色圖像Ic)的均值作為第一初始中心點(diǎn)C1(h1,s1,v1),代表背景像素簇。這是因?yàn)镮d中網(wǎng)格線和筆劃的邊緣像素已經(jīng)被擴(kuò)散到背景區(qū)域,因此C1離真實(shí)的背景像素顏色中心點(diǎn)不遠(yuǎn),作為初始中心點(diǎn)是穩(wěn)定。 (3)統(tǒng)計HSV 三維色彩空間內(nèi)的像素分布密度,某種顏色附近的像素越多,對應(yīng)的三維色彩空間的密度值越大,這里說的密度值與灰度圖像的直方圖概念對等。如果要精確統(tǒng)計每種顏色的像素密度,8bit 彩色空間總共產(chǎn)生224個密度值,為了減小存儲空間的占用,本文采用近似的密度計算方法,具體來說,將三維色彩空間劃分為連續(xù)等體積的小立方塊顏色空間,對每個小立方塊顏色空間,計數(shù)落入其中的像素個數(shù)作為一個密度值采樣D(i,j,k),總共得到m*n*p 個密度值,0 ≤i 圖1a 為輸入的彩色圖,圖1b 為輸入彩色圖的HSV 色彩空間3D 散點(diǎn)圖,從3D 散點(diǎn)圖中可以直觀的看到網(wǎng)格線像素簇(偏紅色)與筆跡像素簇(偏藍(lán)色)的分布各自集中且互相保持了顯著的距離。需要注意的是本文僅選取了筆跡與網(wǎng)格線附近的背景像素參與聚類,因?yàn)?D 空間上的相鄰導(dǎo)致它們的顏色也必然是連續(xù)漸變的,即白色漸變到偏紅色,以及白色漸變到偏藍(lán)色,也就是圖1b中“背景顏色中心值”箭頭所指部分。此外,我們還應(yīng)觀察到“背景顏色中心值”下方亮度明顯小于背景色的部分存在偏紅色像素和偏藍(lán)色像素平滑過渡融合的情況,這是因?yàn)閺膱D像2D 結(jié)構(gòu)上看,藍(lán)色的筆跡一定比例部分覆蓋或鄰接于偏紅色的網(wǎng)格線,筆跡和網(wǎng)格線的疊加和鄰接處自然會形成一種混色效果。以上分析表明彩色空間的3D 散點(diǎn)圖能直觀明了的呈現(xiàn)彩色圖像的像素顏色分布特征,對k-means 聚類算法的k 參數(shù)選擇起到直接的指導(dǎo)作用。如果丟棄顏色信息而僅使用亮度信息進(jìn)行目標(biāo)分割,則本身在顏色空間中涇渭分明的兩簇像素會混合在一起,必然難以將它們有效分割。本文的實(shí)驗(yàn)結(jié)果有效證實(shí)了這個推斷。 圖1:輸入彩色圖與HSV 色彩空間3D 散點(diǎn)圖 本文選取傳統(tǒng)的“彩色圖像轉(zhuǎn)灰度圖像,再對灰度圖像二值化”的方法做對比實(shí)驗(yàn)。圖2 為圖1a 彩色圖像變?yōu)榛叶葓D像后,再分別用閾值threshold=150、140、130、120 對其進(jìn)行二值化的結(jié)果,從結(jié)果中可以看出,當(dāng)筆跡完整保留時(threshold=140)網(wǎng)格底紋也被保留了,當(dāng)網(wǎng)格底紋被濾掉時(threshold=120)筆跡也被丟失了,因此僅憑調(diào)節(jié)閾值是很難將網(wǎng)格底紋與筆跡分割開。這個結(jié)果與圖1b 是相吻合的,顯而易見垂直V 軸的平面不能將偏紅色的像素簇和偏藍(lán)色的像素簇分隔開。 圖2:多閾值二值化分割結(jié)果對比 圖3 為本文方法實(shí)驗(yàn)結(jié)果,其中a 為圖1 進(jìn)行unsharpmask 增強(qiáng)之后的結(jié)果,b 為將a 轉(zhuǎn)換為灰度圖像后再進(jìn)行局域自適應(yīng)二值化的結(jié)果,c 為本文方法提取的筆跡結(jié)果,d 為筆跡結(jié)果疊加在輸入彩色圖像上的效果,對比圖3c 與圖2 以及圖3b,本文方法的優(yōu)勢是顯而易見的。 圖3:本文算法主要步驟輸出結(jié)果 圖4a 為k-means 聚類結(jié)果疊加在輸入圖像上的效果,綠色像素為背景,紅色像素為網(wǎng)格,藍(lán)色像素為筆跡,可以看到筆跡像素和網(wǎng)格線像素均被背景像素包圍,然而絕大部分米字格的斜線像素被聚類到背景簇了,這是因?yàn)榫W(wǎng)格斜線由小點(diǎn)組成且顏色比較淡,在圖1b 散點(diǎn)圖中的上部分,離背景色的中心值更近,因而被聚類到背景色簇了,但這并不影響筆跡像素被正確的簇為一類。圖4b是與圖1b 同源的3D 散點(diǎn)圖,區(qū)別在于點(diǎn)的顏色不是取自像素的值,而是像素聚類后的標(biāo)簽對應(yīng)的顏色,3D 散點(diǎn)圖直觀的展示了色彩空間里的聚類結(jié)果,這個結(jié)果與前文對圖1b 的分析結(jié)果是相吻合的。 圖4:聚類結(jié)果原圖疊加效果與3D 散點(diǎn)圖效果 本實(shí)驗(yàn)使用python 編程語言調(diào)用opencv 庫與numpy 庫完成,為方便讀者復(fù)現(xiàn)本實(shí)驗(yàn)結(jié)果,源代碼與測試圖片可于開源庫獲取,網(wǎng)址https://www.gitee.com/changzhiguo/stroke。 (1)整個算法的決策路徑充分利用了圖像的亮度信息、色彩信息、對象的幾何空間分布特征,相比傳統(tǒng)的僅使用亮度信息或僅使用色彩信息,決策的精度更高。 (2)k-means 聚類算法的輸入剔除了大部分的背景像素,僅保留了與網(wǎng)格線和筆跡鄰接的背景像素,均衡了輸入樣本的比例,提高了分類的精確度,同時因?yàn)閰⑴c分類的像素大幅減少,有效減少了k-means 分類算法的計算量。k-menas 算法的復(fù)雜度為O(nkt),其中n 為參與分類的像素個數(shù),k 為分類數(shù),t 為迭代數(shù),由于k和t 取值較小,減小n 能顯著降低計算量。 (3)使用統(tǒng)計量C1、C2、C3作為k-means 聚類算法的初始中心點(diǎn),能保證算法找到全局最優(yōu)值,同時減小了算法所需迭代的次數(shù)。 (4)利用網(wǎng)格線的周期性結(jié)構(gòu)特性,基于二值圖像的空間分布離散度統(tǒng)計量來區(qū)分聚類結(jié)果中的網(wǎng)格線與筆跡。 本方法的不足:本方法僅適用于文檔筆跡顏色與網(wǎng)格線顏色不同、且筆記顏色為單一顏色的情形。對于黑色網(wǎng)格線上的黑色書寫內(nèi)容的識別,直接采用端到端的識別方案更為合適。4 k-means初始中心點(diǎn)選擇方法
5 實(shí)驗(yàn)結(jié)果
6 本文方法的創(chuàng)新點(diǎn)