孫繼周 王小雄 羅佳佳
摘 要: 針對(duì)錯(cuò)位圖書(shū)檢測(cè)技術(shù)的應(yīng)用,提出一種結(jié)合顏色及直線線段檢測(cè)(LSD)的圖書(shū)分割方法,以及基于索書(shū)標(biāo)簽的圖書(shū)識(shí)別方法,同時(shí)設(shè)計(jì)了相關(guān)的實(shí)現(xiàn)算法。在LSD方法的基礎(chǔ)上,根據(jù)在架圖書(shū)的擺放信息、顏色分割后的部分圖書(shū)標(biāo)簽、未分割圖書(shū)標(biāo)簽的邊界直線預(yù)測(cè)結(jié)果對(duì)未分割圖書(shū)進(jìn)行直線檢測(cè),增加了圖書(shū)分割的準(zhǔn)確率。將提出的檢測(cè)方法分別與其他直線檢測(cè)分割圖書(shū)方法,以及圖書(shū)識(shí)別方法進(jìn)行對(duì)比。通過(guò)定量和定性分析,證明提出的方法確實(shí)能夠得到更準(zhǔn)確、更可行的分割和識(shí)別結(jié)果。
關(guān)鍵詞: 圖書(shū)檢測(cè); 索書(shū)標(biāo)簽; 直線分割檢測(cè)器; 輪廓局域增長(zhǎng); 光學(xué)字符識(shí)別
中圖分類號(hào): TN911?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)05?0058?05
圖書(shū)館大量圖書(shū)的借閱及歸還時(shí)的不正確放置,造成圖書(shū)管理人員大量重復(fù)的工作,也給估算在館圖書(shū)量以及讀者查詢、借閱造成極大不便。圖像捕獲以及圖像處理設(shè)備的發(fā)展普及使得圖書(shū)館管理自動(dòng)化成為可能。近年來(lái),盡管人們對(duì)圖書(shū)的分割、識(shí)別進(jìn)行了較廣泛的研究,并提出了許多新穎的分割、識(shí)別算法[1],但是仍然很難得到準(zhǔn)確的分割、識(shí)別結(jié)果。斯坦福大學(xué)的David Chen等人給出圖書(shū)書(shū)庫(kù)管理系統(tǒng)[2],通過(guò)智能手機(jī)對(duì)書(shū)架上的圖書(shū)進(jìn)行采集圖像,經(jīng)過(guò)識(shí)別之后,通過(guò)互聯(lián)網(wǎng)或者圖書(shū)館的數(shù)據(jù)庫(kù),可以得到圖書(shū)的詳細(xì)信息,包括書(shū)名、作者、價(jià)格等。而方向感應(yīng)器以及高速網(wǎng)絡(luò)訪問(wèn)使得低成本的自動(dòng)跟蹤成為可能[3]。本文主要針對(duì)錯(cuò)位圖書(shū)檢測(cè)技術(shù)涉及到的圖書(shū)分割、圖書(shū)識(shí)別兩個(gè)方面進(jìn)行了深入的研究,并且針對(duì)其中的難點(diǎn)提出了切實(shí)有效的解決方法。
1 圖書(shū)分割
1.1 顏色分割
圖書(shū)館中的索書(shū)標(biāo)簽存在單一的背景和前景(索書(shū)號(hào)),如白色的背景和黑色的文字,而且噪聲少,如圖1所示。
由于索書(shū)標(biāo)簽一般在圖書(shū)的底部,因此將感興趣區(qū)域定義在原圖像的下半部分,故需要處理的圖像大小減少一半,減少了處理的時(shí)間和計(jì)算量。在這種情況下,利用特定的顏色可以快速定位同一幅圖像中所有索書(shū)標(biāo)簽的大致位置。但由于實(shí)際環(huán)境的復(fù)雜性,如光線變化,遮擋,智能手機(jī)攝像頭的限制,捕獲的圖像中出現(xiàn)圖書(shū)曝光過(guò)足,書(shū)架靠近地面的部分光線不足,索書(shū)標(biāo)簽的白色區(qū)域亮度不足,書(shū)脊上除了索書(shū)標(biāo)簽其他部分也存在白色區(qū)域等難題。
由于書(shū)脊整潔程度不一,光線變化,有些區(qū)域即使是同種顏色,經(jīng)過(guò)一段時(shí)間使用,也變化較大,二值化后的圖像存在面積小的噪聲點(diǎn)或區(qū)域,而圖書(shū)標(biāo)簽分割關(guān)注的感興趣區(qū)域是比這些噪聲面積大得多的背景是白色的標(biāo)簽,故可以利用圖像處理形態(tài)學(xué)中的腐蝕方法剔除這些噪聲[4],腐蝕核大小為5,得到的結(jié)果如圖2所示。
由圖2可以看出,書(shū)脊之間存在黑色的細(xì)縫,而這些細(xì)縫把大部分圖書(shū)分割開(kāi)來(lái)。再者在同一本書(shū)中索書(shū)標(biāo)簽與其他區(qū)域有明顯的分割區(qū)域,故可以通過(guò)連通區(qū)域分析,把大部分索書(shū)標(biāo)簽分別表示成單獨(dú)的連通區(qū)域。進(jìn)一步分析,書(shū)脊上的一些字形成的連通區(qū)域,相對(duì)索書(shū)標(biāo)簽小很多,因此可以通過(guò)限制連通區(qū)域的面積大小,去除一部分小的白色連通區(qū)域,實(shí)驗(yàn)中,取面積閾值為30 000像素點(diǎn),保留下的連通區(qū)域如圖3所示,不同的連通區(qū)域用不同的顏色表示,得到的連通區(qū)域個(gè)數(shù)為14。
1.2 基于LSD的圖書(shū)分割
經(jīng)過(guò)顏色分割的局域主要是白色的部分,而這些局域可能不包括書(shū)脊邊緣的直線,為了更好地檢測(cè)到書(shū)本邊緣的直線,這里增寬顏色分割后的各個(gè)局域,增寬的規(guī)則是向左向右分別延寬15像素,對(duì)在捕獲圖像中最左或者最右的局域,延長(zhǎng)的最大寬度是15像素與局域左右邊界到達(dá)相應(yīng)圖像邊界的差值兩者之間的最大值。
采用line segment detector檢測(cè)圖像中的直線??紤]到圖書(shū)館中的圖書(shū)一般豎直地?cái)[放著,即使有些傾斜,傾斜的角度也不大,定義候選直線的傾斜角度范圍為([3π8,][5π8])。圖像中書(shū)脊邊緣保持一個(gè)主方向角度,即MainAngle,實(shí)驗(yàn)中默認(rèn)的值為[π2,]并且傾斜角度在主方向角度一定的范圍內(nèi),在實(shí)驗(yàn)中,選擇在最左邊或者最右邊20像素的局域中的直線,這些直線中的兩個(gè)端點(diǎn)都在邊界20個(gè)像素的范圍內(nèi),再者另外一個(gè)條件是直線的傾斜角度與[π2]的差值要小于[π8,]則把這些符合條件的直線的傾斜角度定義為要進(jìn)行直線檢測(cè)局域的主方向角度。
得到主方向MainAngle之后,保留與主方向角度偏差[π16]的直線。書(shū)脊邊緣的直線相對(duì)書(shū)脊其他部分的直線如文字、圖形中的直線要長(zhǎng),即在圖像所占的比率大于某個(gè)閾值[2],通過(guò)實(shí)驗(yàn),定義候選直線占圖像高度的閾值為0.15。經(jīng)過(guò)上述規(guī)則可以得到書(shū)脊的邊緣直線。根據(jù)得到的直線,用數(shù)組lines6表示,再將圖書(shū)分割出來(lái)。圖書(shū)的邊緣存在多條直線,但都聚集在很小的區(qū)間而且直線的傾斜角度差不多,再者圖書(shū)的厚度一般大于圖書(shū)間的間隔,故利用這些先驗(yàn)知識(shí),采用算法1可以得到一組組包含圖書(shū)書(shū)脊的局域。
算法1:圖書(shū)分割
輸入:[xb=0;][xl=0;]idx=0;[xr=]Width(輸入圖像的寬度);
Vector
Vector
輸出:Vector
(1) 如果第一條直線與圖像最左邊的間隔大于70,則將Rect(0,0,[x1,]Height)輸出到Label中。[x1]為該直線左端點(diǎn)的[x]坐標(biāo)值。
(2) 依次在圖像中從左到右搜索未處理的直線,如果找到,則在該直線附近的20個(gè)像素搜索類似的直線,并把20個(gè)像素范圍內(nèi)最后的直線作為圖書(shū)起始的直線line1;如果未找到,則輸出Label結(jié)束。
(3) 從第(2)步得到的圖書(shū)起始直線,接著往右搜索類似的直線,如果未搜索到,則將Rect(line1.[x,]0,Width, Height)輸出到Label。
3 字符識(shí)別
形狀上下文是一種描述形狀的方式,可用來(lái)評(píng)估形狀的相似性?;镜乃枷胧侨≥喞闲螤畹膎個(gè)點(diǎn)。對(duì)形狀上的每個(gè)點(diǎn)[pi,]考慮n-1維向量,它們將[pi]和所有其他的點(diǎn)連接起來(lái)。這些向量的集合是對(duì)形狀上那個(gè)點(diǎn)一種豐富的描述。關(guān)鍵的思想是基于相對(duì)位置的分布是一種魯棒、簡(jiǎn)潔和有高度區(qū)別性的描述子。
支持向量機(jī)SVM根據(jù)有限的訓(xùn)練樣本仍然保證獨(dú)立測(cè)試集誤差保持在一個(gè)小的范圍。即由有限的樣本信息,在模型的學(xué)習(xí)能力和復(fù)雜性間尋求最佳契合點(diǎn),以獲得最優(yōu)的推廣能力。本文采用林智仁博士開(kāi)發(fā)的SVM軟件包LIBSVM按照相應(yīng)的格式對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化,對(duì)要處理的數(shù)據(jù)進(jìn)行縮放操作,使用核函數(shù)RBF,[Kx,y=e-rx-y2]使用交叉驗(yàn)證方法選擇最佳的參數(shù)[C]與[r;]使用LIBSVM的測(cè)試和訓(xùn)練文件格式如下:
其中
對(duì)數(shù)據(jù)集進(jìn)行縮放操作,一方面是為了避免特征值過(guò)小或過(guò)大;另外一方面是避免在訓(xùn)練時(shí)為了計(jì)算核函數(shù)而導(dǎo)致計(jì)算內(nèi)積的時(shí)候引起數(shù)值計(jì)算的困難。一般將數(shù)據(jù)縮放到[-1,1]或是[0,1]之間。進(jìn)而利用svmtrain對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,得到SVM訓(xùn)練模型,進(jìn)一步根據(jù)訓(xùn)練獲得的模型對(duì)未知數(shù)據(jù)集進(jìn)行預(yù)測(cè)。
4 實(shí)驗(yàn)結(jié)果與分析
為了評(píng)估圖書(shū)索書(shū)標(biāo)簽分割和識(shí)別的結(jié)果,實(shí)驗(yàn)采集了圖書(shū)書(shū)脊的樣本,并作為圖書(shū)分割和識(shí)別的數(shù)據(jù)集。采用Tesseract OCR引擎對(duì)僅僅包含字符和標(biāo)點(diǎn)符號(hào)的索書(shū)標(biāo)簽進(jìn)行識(shí)別[7]。一般來(lái)說(shuō),圖書(shū)標(biāo)簽第2行文字對(duì)圖書(shū)識(shí)別起到關(guān)鍵性的作用,如果第2行的文字被完整的識(shí)別,那么判斷該本書(shū)對(duì)應(yīng)圖書(shū)館數(shù)據(jù)庫(kù)中的哪本書(shū)也就容易得多。
如表1所示,實(shí)驗(yàn)中從567本圖書(shū)中正確地分割出554本圖書(shū),分割率為97.7%,超過(guò)結(jié)合顏色分割和Hough直線檢測(cè)的方法,分割率為89.77%。盡管如此,在圖書(shū)書(shū)脊分割中也有些失敗,原因是一些書(shū)脊太薄以致不能被檢測(cè)到或者曝光太足,書(shū)脊上的高亮造成在圖像中圖書(shū)的邊界區(qū)域直線根本不明顯。
在本系統(tǒng)中,平均一個(gè)索書(shū)標(biāo)簽有0.64個(gè)字符不能被識(shí)別,比UJI大學(xué)圖書(shū)館機(jī)器人索書(shū)標(biāo)簽識(shí)別的方法效果要好。為了更好地評(píng)估識(shí)別的結(jié)果,采用f?measure作為評(píng)估的方法,實(shí)驗(yàn)中,索書(shū)標(biāo)簽識(shí)別的結(jié)果為f?measure88.66%,準(zhǔn)確率為87.74%,召回率為89.59%。索書(shū)標(biāo)簽識(shí)別如圖5所示。
對(duì)于圖5(a),從左往右數(shù)第2本書(shū)及第6本書(shū)被識(shí)別為“TP391.4X3283”,“H6251.H3283”。第2本書(shū)由于字體的原因上端和下端都突出一部分,有點(diǎn)類似X,由于出現(xiàn)在局域的邊界受噪聲的干擾故識(shí)別為X。第6本書(shū)由于采集圖像時(shí),受第7本書(shū)的遮擋,“TP391.41”顯示不完全,故造成識(shí)別錯(cuò)誤。但是第2、第6本書(shū)第2行都識(shí)別正確,一般情況下同個(gè)書(shū)架同一行的圖書(shū)中索書(shū)標(biāo)簽第1行的文字都類似,第2行對(duì)識(shí)別的結(jié)果有較大作用,故該圖像中所有圖書(shū)都能被識(shí)別。
對(duì)于圖5(b),從右往左數(shù)第4本書(shū)被識(shí)別為“P391.41 3272”,其原因也是索書(shū)標(biāo)簽的貼法不正確,“T”這個(gè)字母不在書(shū)脊上,故這種情況只能在開(kāi)始貼索書(shū)標(biāo)簽的時(shí)候確保正確無(wú)誤,不過(guò)“T”字母的缺少并不影響該書(shū)被正確的識(shí)別。從右往左數(shù)第1本書(shū)因?yàn)椴东@圖像時(shí)沒(méi)有捕獲圖書(shū)標(biāo)簽,故為空。因此可認(rèn)為該圖像中所有的圖書(shū)都被正確識(shí)別。
對(duì)于圖5(c),從左到右第1本、第9本、第10本書(shū)都沒(méi)有被正確識(shí)別。原因是這三本書(shū)太薄,索書(shū)標(biāo)簽在這三本書(shū)的書(shū)脊上不能完全顯示,因此也就不能被OCR識(shí)別。針對(duì)該情況可以結(jié)合射頻識(shí)別技術(shù)來(lái)識(shí)別太薄的圖書(shū),以提高總的圖書(shū)識(shí)別率。
根據(jù)實(shí)驗(yàn)結(jié)果,可以得到基于索書(shū)標(biāo)簽的分割與識(shí)別在圖書(shū)館自動(dòng)化管理中有很大的用途,并且結(jié)合顏色分割與直線檢測(cè)的圖書(shū)分割,輪廓局域增長(zhǎng)而實(shí)現(xiàn)的索書(shū)標(biāo)簽的分割有效,而且更可行。在輪廓局域增長(zhǎng)中,通過(guò)實(shí)驗(yàn)也表明索書(shū)標(biāo)簽候選局域進(jìn)一步的優(yōu)化過(guò)程,能包含不完整、斷裂的字符輪廓,因此能將索書(shū)標(biāo)簽完整地分割出來(lái)。
5 結(jié) 論
本文深入研究了基于圖像識(shí)別的錯(cuò)位圖書(shū)識(shí)別技術(shù),主要包括圖書(shū)分割、標(biāo)簽分割、索書(shū)標(biāo)簽識(shí)別,錯(cuò)位圖書(shū)檢測(cè),并對(duì)其中涉及的技術(shù)和算法做了深入的闡述和調(diào)研。通過(guò)實(shí)驗(yàn)證明所提出方法的有效性與可行性。重點(diǎn)研究了基于顏色分割和直線線段檢測(cè)相結(jié)合的圖書(shū)分割方法,將本文提出的方法和其他圖書(shū)分割,索書(shū)標(biāo)簽識(shí)別的方法進(jìn)行對(duì)比,通過(guò)定量和定性的分析,證明了本文提出的方法能夠得到更準(zhǔn)確、更有效的實(shí)驗(yàn)結(jié)果。下一步針對(duì)圖書(shū)太薄,索書(shū)標(biāo)簽太舊、模糊不清的情況,結(jié)合射頻識(shí)別加以補(bǔ)充,將大大提高圖書(shū)識(shí)別的準(zhǔn)確率。
參考文獻(xiàn)
[1] 康志亮,許麗佳.基于小波的紅外圖像去噪算法研究[J].計(jì)算機(jī)仿真,2011,28(1):265?267.
[2] 游福成.數(shù)字圖像處理(Digital Image Processing)[M].北京:電子工業(yè)出版社,2011:67?68.
[3] 匡金駿,熊慶宇,柴毅.基于核稀疏分類與多尺度分塊旋轉(zhuǎn)擴(kuò)展的魯棒圖像識(shí)別[J].模式識(shí)別與人工智能,2013,26(2):129?135.
[4] 劉波,梅瑛,李瑞琴.基于TRIZ理論的圖書(shū)分揀機(jī)的設(shè)計(jì)研究[J].機(jī)械設(shè)計(jì)與制造,2013(2):23?25.
[5] CHEN D, TSAI S, HSU C H, et al. Mobile augmented reality for books on a shelf [C]// Proceedings of 2011 IEEE International Conference on Multimedia and Expo. 2011: 1?6.
[6] 孟鋼,賀杰,鮑莉,等.基于遙感圖像分塊直線特征檢測(cè)的機(jī)場(chǎng)跑道檢測(cè)方法[J].航空學(xué)報(bào),2014,35(7):1957?1965.
[7] 趙眾,常燦,陳磊.基于圖像識(shí)別技術(shù)的煙包封條缺陷檢測(cè)[J].北京工業(yè)大學(xué)學(xué)報(bào),2014,40(7):986?990.
[8] 張會(huì)敏,謝澤奇,張?jiān)讫?紅外圖像報(bào)警系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)測(cè)量與控制,2011,19(2):432?436.