基于彩色圖像分割的帶網(wǎng)格底紋文檔筆跡提取方法

2021-11-03 06:43常治國

電子技術(shù)與軟件工程 2021年18期

常治國

（中國人民大學(xué) 北京市 100872）

1 問題分析

隨著基于深度學(xué)習(xí)的圖像識別技術(shù)的應(yīng)用普及，手寫體OCR識別被廣泛用于小學(xué)生作業(yè)的識別與自動判卷上。通常小學(xué)生使用田字格本做漢字抄寫作業(yè)，使用4 線英語練習(xí)本做英語抄寫作業(yè)。然而作業(yè)本背景網(wǎng)格線的存在導(dǎo)致手寫體OCR 識別難上加難，因?yàn)榈准y疊的存在加大了神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)的方差，輸入數(shù)據(jù)的方差越大，所需的網(wǎng)絡(luò)模型也就越大越復(fù)雜，相應(yīng)的模型訓(xùn)練難度與預(yù)測的算力需求都同步增加，因此，減小數(shù)據(jù)輸入方差是值得嘗試的方法。小學(xué)生作業(yè)練習(xí)本的網(wǎng)格線通常包含橫線、豎線或斜線，使用顏色為綠色、紅色或黑色，如圖英語四線抄寫本和漢字米字格抄寫本均帶網(wǎng)格底紋?？瞻孜臋n無筆跡的情況下，使用經(jīng)典的Hough 變換直線檢測算法即可準(zhǔn)確的從文檔掃描的二值化圖像中檢測出這些背景網(wǎng)格線。然而實(shí)際應(yīng)用時圖像采集方式往往是相機(jī)拍攝而不是掃描儀掃描，作業(yè)本存在頁面翹曲的情況，另外相機(jī)拍攝不可避免有視角傾斜的問題，這些因素導(dǎo)致橫平豎直的網(wǎng)格線成像后退化為曲線。此外，筆跡覆蓋在網(wǎng)格線之上，網(wǎng)格線會被分割成長短不一的大小線段，因此單純的基于黑白圖像幾何特征難以精確分割出所有的網(wǎng)格線。本文通過經(jīng)典圖像處理算法，基于k-means聚類算法，充分利用圖像的亮度信息、色彩信息、對象的幾何空間分布特征，以較小的計算代價實(shí)現(xiàn)了從帶網(wǎng)格底紋文檔圖像中提取筆跡內(nèi)容，剔除背景噪聲與網(wǎng)格線內(nèi)容。

2 本文方法

通常情況下，小學(xué)生抄寫文檔包含3 種主顏色，即紙張顏色、網(wǎng)格線顏色，以及筆跡顏色，結(jié)合網(wǎng)格線的幾何特征，本文提出一種幾何特征疊加顏色特征的網(wǎng)格線剔除方法，具體步驟為：

（1）對輸入的彩色圖像Ic進(jìn)行unsharp mask 操作，以突出淺色的網(wǎng)格線。當(dāng)相機(jī)離焦或者光照過強(qiáng)、過弱的情況下拍照都會導(dǎo)致網(wǎng)格線弱化，但并不會完全消失，unsharp mask 操作屬于一種圖像邊緣增強(qiáng)方法，能有效增強(qiáng)圖像中的細(xì)線條對象，減弱光照不均勻以及鏡頭離焦模糊的影像。增強(qiáng)后的圖像為Ie，將Ie變換為灰度圖像得到Ig。

（2）基于局域自適應(yīng)二值化算法（localadaptivethresholding, DOI: https://doi.org/10.1007/978-0-387-73003-5_506）對灰度圖像Ig進(jìn)行二值化得到二值圖像Ib，0 像素為背景，非零像素為包含網(wǎng)格線和筆跡的部分。局域自適應(yīng)二值化算法能很好的適應(yīng)亮度漸變的圖像，能在全局范圍內(nèi)有效分離背景色和前景色（前景色包括網(wǎng)格線與筆跡）。

（3）對二值圖像Ib進(jìn)行形態(tài)學(xué)膨脹（dilate）操作得到膨脹后的二值圖像Id，膨脹操作使得筆跡和網(wǎng)格線邊緣擴(kuò)充而覆蓋到背景像素區(qū)域，這樣方便后續(xù)步驟選擇筆跡和網(wǎng)格線附近的背景像素而不是全部像素參與k-means 聚類算法，對Id與Ib進(jìn)行按位異或（bitwisexor）操作得到的二值圖像作為掩摸mask，用mask 對Ic進(jìn)行像素選擇即可得到與筆跡和網(wǎng)格線相鄰的背景像素，膨脹操作的強(qiáng)度越大，選擇到的背景像素越多。

（4）以二值圖像Id為掩模mask 選擇彩色圖像Ic的像素，選中的像素包含了網(wǎng)格線、筆跡以及背景，使用K=3 的k-means 聚類算法對選中的彩色像素進(jìn)行聚類，得到3 簇像素，在3 簇像素中，中心值亮度最大的為背景，兩外兩簇像素為網(wǎng)格底紋像素和筆跡像素。

（5）由于網(wǎng)格底紋在整個文檔內(nèi)周期性重復(fù)，分布均勻，空間分布離散度小，而筆跡在整個文檔范圍內(nèi)更大相比較而言分布更為隨機(jī)，相應(yīng)的空間分布離散度大，因此剩下的2 簇像素可依據(jù)各自的像素空間分布離散度統(tǒng)計量進(jìn)行類別判定，即對2 簇像素各自生成掩模mask 二值圖像，分別計算2 個mask 二值圖像的空間分布離散度，離散度小的二值圖像對應(yīng)的像素簇為網(wǎng)格底紋，另一簇像素即為筆跡。

至此我們將背景、網(wǎng)格線、筆跡成功分割，即實(shí)現(xiàn)了本文的從帶網(wǎng)格線底紋圖像中提取筆跡內(nèi)容的目標(biāo)。

3 二值圖像空間分布離散度計算方法

將二值圖像劃分為R 行C 列無縫拼接且尺寸相等的格子，格子的水平邊長大于網(wǎng)格的水平方向重復(fù)周期，格子的垂直邊長大于網(wǎng)格的垂直方向重復(fù)周期。統(tǒng)計每個格子內(nèi)的非0 像素個數(shù)N(r,c)，0 ≤r

4 k-means初始中心點(diǎn)選擇方法

k-means 聚類算法的結(jié)果對初始中心點(diǎn)的選擇非常敏感，初始中心點(diǎn)選擇不當(dāng)容易導(dǎo)致聚類結(jié)果陷入局部最優(yōu)。本文充分利用輸入文檔圖像的顏色分布與空域結(jié)構(gòu)先驗(yàn)知識，優(yōu)化選擇聚類初始中心點(diǎn)。本文3 個k-means 初始中心點(diǎn)的選取方法：

（1）將待聚類的像素集合由RGB色彩空間轉(zhuǎn)為HSV色彩空間，此舉目的是減小3 個顏色分量之間的相關(guān)性，提高不同類別對象像素之間的顏色空間距離。（參考文獻(xiàn)：2005，圖像圖形學(xué)報，彩色圖像分割方法綜述，文章編號：1006-8961(2005)01-0001-10）。

（2）選擇二值圖像Id前景色邊界像素對應(yīng)的彩色像素（來自彩色圖像Ic）的均值作為第一初始中心點(diǎn)C1(h1,s1,v1)，代表背景像素簇。這是因?yàn)镮d中網(wǎng)格線和筆劃的邊緣像素已經(jīng)被擴(kuò)散到背景區(qū)域，因此C1離真實(shí)的背景像素顏色中心點(diǎn)不遠(yuǎn)，作為初始中心點(diǎn)是穩(wěn)定。

（3）統(tǒng)計HSV 三維色彩空間內(nèi)的像素分布密度，某種顏色附近的像素越多，對應(yīng)的三維色彩空間的密度值越大，這里說的密度值與灰度圖像的直方圖概念對等。如果要精確統(tǒng)計每種顏色的像素密度，8bit 彩色空間總共產(chǎn)生224個密度值，為了減小存儲空間的占用，本文采用近似的密度計算方法，具體來說，將三維色彩空間劃分為連續(xù)等體積的小立方塊顏色空間，對每個小立方塊顏色空間，計數(shù)落入其中的像素個數(shù)作為一個密度值采樣D(i,j,k)，總共得到m*n*p 個密度值，0 ≤i

圖1a 為輸入的彩色圖，圖1b 為輸入彩色圖的HSV 色彩空間3D 散點(diǎn)圖，從3D 散點(diǎn)圖中可以直觀的看到網(wǎng)格線像素簇（偏紅色）與筆跡像素簇（偏藍(lán)色）的分布各自集中且互相保持了顯著的距離。需要注意的是本文僅選取了筆跡與網(wǎng)格線附近的背景像素參與聚類，因?yàn)?D 空間上的相鄰導(dǎo)致它們的顏色也必然是連續(xù)漸變的，即白色漸變到偏紅色，以及白色漸變到偏藍(lán)色，也就是圖1b中“背景顏色中心值”箭頭所指部分。此外，我們還應(yīng)觀察到“背景顏色中心值”下方亮度明顯小于背景色的部分存在偏紅色像素和偏藍(lán)色像素平滑過渡融合的情況，這是因?yàn)閺膱D像2D 結(jié)構(gòu)上看，藍(lán)色的筆跡一定比例部分覆蓋或鄰接于偏紅色的網(wǎng)格線，筆跡和網(wǎng)格線的疊加和鄰接處自然會形成一種混色效果。以上分析表明彩色空間的3D 散點(diǎn)圖能直觀明了的呈現(xiàn)彩色圖像的像素顏色分布特征，對k-means 聚類算法的k 參數(shù)選擇起到直接的指導(dǎo)作用。如果丟棄顏色信息而僅使用亮度信息進(jìn)行目標(biāo)分割，則本身在顏色空間中涇渭分明的兩簇像素會混合在一起，必然難以將它們有效分割。本文的實(shí)驗(yàn)結(jié)果有效證實(shí)了這個推斷。

圖1：輸入彩色圖與HSV 色彩空間3D 散點(diǎn)圖

5 實(shí)驗(yàn)結(jié)果

本文選取傳統(tǒng)的“彩色圖像轉(zhuǎn)灰度圖像，再對灰度圖像二值化”的方法做對比實(shí)驗(yàn)。圖2 為圖1a 彩色圖像變?yōu)榛叶葓D像后，再分別用閾值threshold=150、140、130、120 對其進(jìn)行二值化的結(jié)果，從結(jié)果中可以看出，當(dāng)筆跡完整保留時（threshold=140）網(wǎng)格底紋也被保留了，當(dāng)網(wǎng)格底紋被濾掉時（threshold=120）筆跡也被丟失了，因此僅憑調(diào)節(jié)閾值是很難將網(wǎng)格底紋與筆跡分割開。這個結(jié)果與圖1b 是相吻合的，顯而易見垂直V 軸的平面不能將偏紅色的像素簇和偏藍(lán)色的像素簇分隔開。

圖2：多閾值二值化分割結(jié)果對比

圖3 為本文方法實(shí)驗(yàn)結(jié)果，其中a 為圖1 進(jìn)行unsharpmask 增強(qiáng)之后的結(jié)果，b 為將a 轉(zhuǎn)換為灰度圖像后再進(jìn)行局域自適應(yīng)二值化的結(jié)果，c 為本文方法提取的筆跡結(jié)果，d 為筆跡結(jié)果疊加在輸入彩色圖像上的效果，對比圖3c 與圖2 以及圖3b，本文方法的優(yōu)勢是顯而易見的。

圖3：本文算法主要步驟輸出結(jié)果

圖4a 為k-means 聚類結(jié)果疊加在輸入圖像上的效果，綠色像素為背景，紅色像素為網(wǎng)格，藍(lán)色像素為筆跡，可以看到筆跡像素和網(wǎng)格線像素均被背景像素包圍，然而絕大部分米字格的斜線像素被聚類到背景簇了，這是因?yàn)榫W(wǎng)格斜線由小點(diǎn)組成且顏色比較淡，在圖1b 散點(diǎn)圖中的上部分，離背景色的中心值更近，因而被聚類到背景色簇了，但這并不影響筆跡像素被正確的簇為一類。圖4b是與圖1b 同源的3D 散點(diǎn)圖，區(qū)別在于點(diǎn)的顏色不是取自像素的值，而是像素聚類后的標(biāo)簽對應(yīng)的顏色，3D 散點(diǎn)圖直觀的展示了色彩空間里的聚類結(jié)果，這個結(jié)果與前文對圖1b 的分析結(jié)果是相吻合的。

圖4：聚類結(jié)果原圖疊加效果與3D 散點(diǎn)圖效果

本實(shí)驗(yàn)使用python 編程語言調(diào)用opencv 庫與numpy 庫完成，為方便讀者復(fù)現(xiàn)本實(shí)驗(yàn)結(jié)果，源代碼與測試圖片可于開源庫獲取，網(wǎng)址https://www.gitee.com/changzhiguo/stroke。

6 本文方法的創(chuàng)新點(diǎn)

（1）整個算法的決策路徑充分利用了圖像的亮度信息、色彩信息、對象的幾何空間分布特征，相比傳統(tǒng)的僅使用亮度信息或僅使用色彩信息，決策的精度更高。

（2）k-means 聚類算法的輸入剔除了大部分的背景像素，僅保留了與網(wǎng)格線和筆跡鄰接的背景像素，均衡了輸入樣本的比例，提高了分類的精確度，同時因?yàn)閰⑴c分類的像素大幅減少，有效減少了k-means 分類算法的計算量。k-menas 算法的復(fù)雜度為O(nkt)，其中n 為參與分類的像素個數(shù)，k 為分類數(shù)，t 為迭代數(shù)，由于k和t 取值較小，減小n 能顯著降低計算量。

（3）使用統(tǒng)計量C1、C2、C3作為k-means 聚類算法的初始中心點(diǎn)，能保證算法找到全局最優(yōu)值，同時減小了算法所需迭代的次數(shù)。

（4）利用網(wǎng)格線的周期性結(jié)構(gòu)特性，基于二值圖像的空間分布離散度統(tǒng)計量來區(qū)分聚類結(jié)果中的網(wǎng)格線與筆跡。

本方法的不足：本方法僅適用于文檔筆跡顏色與網(wǎng)格線顏色不同、且筆記顏色為單一顏色的情形。對于黑色網(wǎng)格線上的黑色書寫內(nèi)容的識別，直接采用端到端的識別方案更為合適。