黃曉明,高陳強(qiáng),田陽(yáng)陽(yáng)
(重慶郵電大學(xué)信號(hào)與信息處理重慶市重點(diǎn)實(shí)驗(yàn)室,重慶400065)
智能拍照手機(jī)的廣泛普及,使得人們獲取場(chǎng)景中高質(zhì)量的圖像變得十分便利?,F(xiàn)實(shí)中,自然場(chǎng)景的文本分布廣泛,如路標(biāo)、商店名稱、海報(bào)、招牌等。這些文本提供了有關(guān)場(chǎng)景的重要信息,是理解圖像內(nèi)容的重要線索。定位和識(shí)別場(chǎng)景中的文本能夠應(yīng)用于多種場(chǎng)合,如搜索引擎、翻譯或?qū)Ш街小W匀粓?chǎng)景中文本定位的難點(diǎn)在于場(chǎng)景的多樣性和文本的多樣性,不同的場(chǎng)景有不同的干擾,如窗戶、玻璃,樹(shù)木等,而文本可能存在光照不均、傾斜、污染、顏色,大小不同的情況。
當(dāng)前場(chǎng)景文本定位的方法可以粗略地分為3種。第1種是基于學(xué)習(xí)的,文獻(xiàn)[1-2]首先將圖像分割成一系列片段,然后提取片段的特征,如紋理、小波、梯度直方圖等,最后用一些常見(jiàn)的分類器,如支持向量機(jī),AdaBoost(adaptive boosting)將片段分為文本和非文本,最后將文本片段組成一個(gè)完整的文本?;趯W(xué)習(xí)的方法通常需要在多個(gè)尺度空間上進(jìn)行,所以運(yùn)算時(shí)間很長(zhǎng),并且學(xué)習(xí)很容易受訓(xùn)練樣本的限制;第2種是基于連通域,文獻(xiàn)[3]先將圖像灰度化,然后同時(shí)在灰度化和取反的圖像進(jìn)行二值化,之后再進(jìn)行連通域分析,最后根據(jù)連通域的位置關(guān)系將文本進(jìn)行定位。文獻(xiàn)[4]首先利用局部顏色散布分析,框出存在文字的區(qū)域,然后對(duì)文字的區(qū)域合并和篩選,最后定位出文本的區(qū)域?;谶B通域的方法雖然不需要學(xué)習(xí),但是存在較多參數(shù)和閾值的設(shè)定,并且有著經(jīng)驗(yàn)性,無(wú)法自適應(yīng)圖像的大小;第3種是兩者的結(jié)合,文獻(xiàn)[5]首先利用文本區(qū)域檢測(cè)器來(lái)估計(jì)文本的位置和尺度,并用二值化的方法將文本分割成一系列的候選文本,接著訓(xùn)練一個(gè)條件隨機(jī)場(chǎng)模型,然后利用這一模型將非文本區(qū)域?yàn)V除。雖然這一方法結(jié)合了前面2種方法的優(yōu)點(diǎn),但訓(xùn)練過(guò)程時(shí)間長(zhǎng),同時(shí),也存在參數(shù)較多的問(wèn)題。為此,我們提出了基于最大極值穩(wěn)定區(qū)域[6]、顏色聚類和視覺(jué)顯著性的自然場(chǎng)景文本定位的方法。
分析自然場(chǎng)景文本的特點(diǎn),發(fā)現(xiàn)文本內(nèi)部的灰度變化都比較小,而文本和背景的灰度對(duì)比度一般都很大,是屬于圖像中的極值穩(wěn)定區(qū)域。最大極值穩(wěn)定區(qū)域算法能夠提取出區(qū)域內(nèi)部灰度變化不明顯但和背景對(duì)比強(qiáng)烈的連通部分。另外從設(shè)置自然場(chǎng)景文本的目的考慮,自然場(chǎng)景文本區(qū)域大部分是為了引起人們的視覺(jué)注意,所以在顏色、紋理等方面和鄰域相比更加突出。而視覺(jué)顯著性能夠評(píng)估區(qū)域在視覺(jué)中的獨(dú)特性和稀缺性,可以利用來(lái)濾除非文本區(qū)域。
本文首先將彩色圖像轉(zhuǎn)換成灰度圖像,然后在灰度圖像上提取最大極值穩(wěn)定區(qū)域,將提取的區(qū)域二值化后得到候選的字符連通域。然而,最大極值穩(wěn)定區(qū)域缺少對(duì)圖像顏色信息的處理,這可能導(dǎo)致在提取時(shí)遺漏候選區(qū)域。為此,對(duì)原始的彩色圖像進(jìn)行聚類,再對(duì)聚類后圖像進(jìn)行二值化得到新的候選字符連通域,對(duì)于這2部分候選區(qū)域進(jìn)行非顯著性區(qū)域?yàn)V除以及先驗(yàn)信息的限制,最后將候選字符連成文本行。本文方法涉及文本連通域分析,不需要大量訓(xùn)練數(shù)據(jù)和漫長(zhǎng)的訓(xùn)練過(guò)程。而合理的顯著性區(qū)域提取方法的利用能夠有效地判定文本和非文本區(qū)域,所以不需要大量嚴(yán)格的先驗(yàn)信息。最后在公開(kāi)發(fā)表的ICDAR 2003[7]文本定位競(jìng)賽數(shù)據(jù)集上進(jìn)行測(cè)試,驗(yàn)證了本文方法的有效性。
本文提出的整個(gè)文本定位系統(tǒng)如圖1所示。為了充分利用場(chǎng)景文本中圖像的信息,系統(tǒng)利用2種方法進(jìn)行候選連通域的提取。首先,提取的是圖像的最大極值穩(wěn)定區(qū)域的二值化模板,然后對(duì)二值化模板進(jìn)行連通域的分析,得到候選的連通域。最大極值穩(wěn)定區(qū)域是在灰度圖像上提取,所以沒(méi)有利用彩色信息。而彩色信息在文本定位中有很重要的作用,經(jīng)觀察,文本中的顏色一般跟周圍背景對(duì)比很鮮明。因此,采用quick shift[8]進(jìn)行顏色聚類,同樣對(duì)聚類后的圖像二值化,然后,進(jìn)行連通域的分析,得到候選的連通域。對(duì)于得到的每個(gè)連通域計(jì)算其顯著性映射值,將其與整個(gè)圖像的顯著性均值進(jìn)行比較,超過(guò)一定閾值的連通域則保留。最后,依據(jù)文本的一些先驗(yàn)信息得到包圍文本區(qū)域的包圍盒。
圖1 系統(tǒng)結(jié)構(gòu)框圖Fig.1 Block diagram of system structure
最大極值穩(wěn)定區(qū)域(maximally stable extremal regions,MSER)是由Matas[6]等提出的一種仿射特征區(qū)域提取算法。MSER先將圖像轉(zhuǎn)換成灰度圖像,然后在一定的閾值下將圖像轉(zhuǎn)換成一系列的二值圖像,隨著亮度閾值的增加或者減少,區(qū)域不斷地出現(xiàn)、生長(zhǎng)和合并。2個(gè)不同閾值間的區(qū)域變化不超過(guò)一定閾值就能夠被認(rèn)為是穩(wěn)定的。MSER的數(shù)學(xué)定義:定義圖像I為區(qū)域D到灰度S的映射I:D∈Z2→s,其中,s滿足全序結(jié)構(gòu)。定義像素間的鄰接關(guān)系A(chǔ)?D×D。則圖像中的區(qū)域Q?D可定義為圖像上滿足連接關(guān)系的連通子集,即對(duì)于任意點(diǎn)p,q∈Q,有(1)式成立
(1)式中,ai∈Q,i=1,2,…,n。
定義Q邊界的?Q為
對(duì)于?p∈Q和?q∈?Q,有I(p)>I(q)成立,則稱Q為極大值區(qū)域,反之為極小值區(qū)域。對(duì)于一組相互嵌套的極值區(qū)域Q1,Q2,…,Qi-1,Qi,…。如果其面積變化率為
在i處取得局部最小值,則稱Qi為最大極值穩(wěn)定區(qū)域。
MSER能夠同時(shí)提取圖像中最大極值穩(wěn)定區(qū)域和最小極值穩(wěn)定區(qū)域,最小極值穩(wěn)定區(qū)域是在灰度圖像反轉(zhuǎn)后提取的。得到極值穩(wěn)定區(qū)域后,將穩(wěn)定區(qū)域賦值為1,將其余區(qū)域賦值為0,得到MSER的二值化模板。對(duì)二值化模板進(jìn)行連通域分析,就得到了候選的連通域。最大極值穩(wěn)定區(qū)域算法能夠提取跟背景亮度對(duì)比強(qiáng)烈的文本,但如果文本跟背景亮度相差不大或者圖像存在模糊時(shí),其效果會(huì)下降很多。MSER區(qū)域提取如圖2所示,圖2a背景和前景對(duì)比鮮明,MSER提取的效果很好,文本區(qū)域明顯。圖2c背景復(fù)雜,提取出的MSER區(qū)域?qū)⑽谋緟^(qū)域和背景混肴在一起。
最大極值穩(wěn)定區(qū)域只在灰度圖像上進(jìn)行處理,
(4)式中:yi(1)代表的是特征空間中點(diǎn)的下一個(gè)位置;Dij=d2(xi,xj)代表的是2點(diǎn)之間的距離;φ(.)是核函數(shù),一般選擇高斯核函數(shù);N是特征空間中點(diǎn)的個(gè)數(shù)。通過(guò)不斷移動(dòng),所有點(diǎn)連成了一顆樹(shù),再通過(guò)一定的閾值將樹(shù)分割成一個(gè)森林,這樣森林里的每棵樹(shù)就是一個(gè)聚類。特征空間是一個(gè)五維空間,包含轉(zhuǎn)換到Lab空間的3個(gè)顏色分量和2個(gè)空間信息。
本文首先采用quick shift算法對(duì)圖像進(jìn)行聚類。每個(gè)像素都有一個(gè)相對(duì)應(yīng)的類別標(biāo)簽,一般認(rèn)為圖像中整個(gè)字符區(qū)域都有相似的顏色。經(jīng)過(guò)聚類后,顏色的類別數(shù)大大減少了,從而增大了字符區(qū)域和背景的對(duì)比度。這樣,圖像灰度化后經(jīng)過(guò)類似MSER的處理,即對(duì)灰度圖進(jìn)行2次二值化處理,2次處理是為了獲得亮文本和暗文本。獲得聚類圖像的二值化結(jié)果之后,對(duì)它們進(jìn)行連通域分析,就得到文本區(qū)域的候選區(qū)。
基于顏色聚類的候選區(qū)域提取結(jié)果如圖3所示,從圖3中可以看出,經(jīng)聚類后如圖3a所示,將圖3a的結(jié)果經(jīng)過(guò)灰度化后,再將灰度范圍[0,255],用顏色藍(lán)到紅之間映射可以得到結(jié)果如圖3b所示(在彩色情況下顯示)。從圖3b可以看出,暗文本區(qū)域占據(jù)的是藍(lán)色區(qū)域,其對(duì)應(yīng)的背景占據(jù)的是紅色區(qū)域。亮文本區(qū)域占據(jù)的是紅色區(qū)域,而對(duì)應(yīng)背景占據(jù)的為黃色區(qū)域,于是設(shè)定閾值為灰度范圍中值。暗文本圖3c是將高于中值的區(qū)域賦值為1,低于中值的為0。亮文本圖3d則反之。
上面的2種方法能夠把大部分的文本檢測(cè)出來(lái),但是同時(shí)也引進(jìn)較多的非文本區(qū)域,另外我們也需要把單獨(dú)的字符連成文本詞,這樣有利于后續(xù)的處理。所以忽略了文本和背景間的顏色對(duì)比,但這一信息在文本定位中起重要作用,采用顏色聚類分析能夠和灰度圖像上提取的最大極值穩(wěn)定區(qū)域構(gòu)成互補(bǔ)。顏色聚類采用的算法是quick shift。
quick shift是由mean shift[9]改進(jìn)而來(lái)的。mean shift的思想是將數(shù)據(jù)點(diǎn)分配給隱含概率密度函數(shù)的某個(gè)模型。它的優(yōu)點(diǎn)是聚類的類別數(shù)不需要預(yù)先知道,并且聚類的結(jié)構(gòu)可以是任意的,它的缺點(diǎn)是計(jì)算復(fù)雜度太高。quick shift改進(jìn)了這一缺點(diǎn),它不需要使用梯度來(lái)尋找概率密度的模式,而僅僅是將每個(gè)點(diǎn)移動(dòng)到使概率密度增加的最近的點(diǎn)來(lái)獲得,公式為
圖3 基于顏色聚類的候選區(qū)提取Fig.3 Region extraction based on color cluster
對(duì)于較多非文本區(qū)域的問(wèn)題,從顯著性區(qū)域考慮:一方面,文本定位應(yīng)用一般是為場(chǎng)景字符識(shí)別做基礎(chǔ),于是當(dāng)我們拿著智能手機(jī)或者攝像機(jī)來(lái)獲取這些圖像時(shí),一般會(huì)對(duì)準(zhǔn)字符,以便使字符落在鏡頭里;另一方面,從人們?cè)O(shè)置場(chǎng)景文本目的出發(fā),場(chǎng)景中的文本集中于海報(bào)、廣告牌、店名、提示、警告等,所有這些都是為了引起人們的注意,所以,文本大部分是場(chǎng)景中的顯著區(qū)域。從這2個(gè)方面出發(fā),可以利用目前較好的顯著區(qū)域檢測(cè)方法來(lái)濾除非文本的連通區(qū)域。
為了將顯著性用于濾除非文本區(qū)域,首先要計(jì)算出整幅圖像的顯著性均值,在得到候選的連通域后,再計(jì)算連通域所包圍的原圖部分的顯著性均值。如果這部分均值大于整幅圖像的,那么就保留相應(yīng)的連通域,否則丟棄。整個(gè)過(guò)程如圖4所示。
這里的顯著性映射是將圖像抽樣成一些隨機(jī)的感興趣區(qū)域[10]。采用這種方法的理由主要是這一方法僅需要調(diào)節(jié)一個(gè)參數(shù),運(yùn)算時(shí)間中等,并且能夠在原圖上進(jìn)行操作。其流程如圖5所示,對(duì)于一幅圖像,第1步,用高斯濾波器進(jìn)行濾波并將三原色(red,green,blue,RGB)空間轉(zhuǎn)換成Lab空間;第2步,隨機(jī)生成n個(gè)窗口,對(duì)于每個(gè)窗口,計(jì)算出面積Area與灰度和sum的比,即
然后,依據(jù)(6)式計(jì)算窗口中每個(gè)像素Ii,j的顯著性映射
圖4 基于顯著性的區(qū)域?yàn)V除Fig.4 Region filter based on saliency
圖5 顯著性提取流程圖Fig.5 Flow of saliency extraction
第2步是在3個(gè)通道上分別進(jìn)行的,所以最后的顯著性映射要采用歐式距離把顏色空間的顯著值融合在一起。
此外,采用字符的先驗(yàn)信息如大小、長(zhǎng)寬的比例來(lái)濾除,但沒(méi)有像一般連通域分析方法那樣引入眾多參數(shù)來(lái)進(jìn)行濾除。有了前面的基礎(chǔ),我們可以僅僅用大小和長(zhǎng)寬比這2個(gè)先驗(yàn)信息來(lái)濾除。而字符連成文本詞,也沒(méi)有采用訓(xùn)練的方式獲取字符間的連接關(guān)系來(lái)得到文本詞,而是采用形態(tài)學(xué)的膨脹腐蝕來(lái)實(shí)現(xiàn)。顯著性濾除和文本行構(gòu)造如圖6所示,圖6a表示顯著性映射的灰度圖,同樣,將灰度范圍用顏色藍(lán)到紅進(jìn)行映射得到圖6b,從圖6b可以看出,文本區(qū)域?qū)儆诩t色區(qū)域,代表其顯著值高,而背景部分屬于藍(lán)色,代表其顯著值低。將圖3得到的亮暗文本經(jīng)過(guò)顯著性濾除后可以得到圖6c,對(duì)圖6c進(jìn)行水平方向膨脹,然后根據(jù)文本行的長(zhǎng)寬比進(jìn)行濾除可以得到圖6d。
圖6 顯著性濾除Fig.6 Filter based on saliency
為了驗(yàn)證本文方法的有效性,采用的是公開(kāi)發(fā)表的ICDAR 2003文本定位競(jìng)賽數(shù)據(jù)集[7]。該數(shù)據(jù)集包含2部分:一部分用來(lái)訓(xùn)練;另一部分用于測(cè)試。由于沒(méi)有采用學(xué)習(xí)的方式,我們利用測(cè)試部分的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。測(cè)試部分?jǐn)?shù)據(jù)包含251張來(lái)自不同場(chǎng)景,不同光照和不同像素大小的圖片。評(píng)價(jià)標(biāo)準(zhǔn)采用的是正確率和召回率,可以表示為
(8)式中:正確率p等于正確估計(jì)的目標(biāo)個(gè)數(shù)c除以總共估計(jì)的目標(biāo)總數(shù);召回率r為正確估計(jì)的目標(biāo)個(gè)數(shù)c 除以圖像中原有的目標(biāo)總數(shù)。因?yàn)槎ㄎ幌到y(tǒng)標(biāo)記的方框無(wú)法和人類標(biāo)記的一模一樣,所以為了使評(píng)價(jià)標(biāo)準(zhǔn)更加合理,ICDAR2003文本定位競(jìng)賽重新定義了正確率和召回率。首先,定義2個(gè)矩形(e1,e2)的重合度ma為2倍的交叉面積除以各自面積的和,即
(9)式中,a(e)是矩形e的面積。對(duì)于一系列的矩形E,某個(gè)矩形e與其的最佳匹配為
新的正確率和召回率可定義為
另外,綜合了正確率和召回率的f測(cè)量可定義為
表1列出不同算法在ICDAR2003數(shù)據(jù)集上的性能,文獻(xiàn)[11]是采用連通域分析的方法,文獻(xiàn)[11]中定義了6個(gè)不同類型的先驗(yàn)信息,如文本區(qū)域的大小、區(qū)域的交叉比例、區(qū)域輪廓梯度等來(lái)濾除非文本區(qū)域。有了顯著性的評(píng)估,本文僅采用2個(gè)更加合理的先驗(yàn)信息來(lái)濾除非文本,分別為文本區(qū)域的大小和高寬比,本文設(shè)定為
(14)—(15)式中:area代表文本連通域的大小;width代表圖像的寬度;height代表圖像的高度。
表1 文本定位算法評(píng)估Tab.1 Evaluation of text detection algorithm
文獻(xiàn)[2]是采用訓(xùn)練的方法,這一方法需要在多個(gè)尺度上對(duì)圖像進(jìn)行處理,而且必須預(yù)先有訓(xùn)練的樣本。本文方法能在原圖上進(jìn)行處理,無(wú)需訓(xùn)練的數(shù)據(jù)和流程。從表1可以看出,后4行是一些參加競(jìng)賽的算法。前2種方法也都是基于訓(xùn)練的,采用的分類器為支持向量機(jī),不同的是提取的特征,分別為邊緣特征和紋理特征。后面2種是基于連通域分析和先驗(yàn)信息濾除。從表1可以看出,本文算法正確率達(dá)到了68%,召回率為60%,優(yōu)于其他的算法。部分定位效果如圖7所示,分別選取了幾種不同的情況,分別為大字體、側(cè)面角度、草地干擾、一般情況以及窗戶干擾。從圖7可以看出,本文方法能夠有效地去除磚頭、草地、窗戶等影響。
圖7 一些文本定位的例子,文本區(qū)域由藍(lán)色標(biāo)記Fig.7 Some example results of text localization,and the localized text regions are marked in blue
最大極值穩(wěn)定區(qū)域?qū)τ趨^(qū)域的視點(diǎn)、尺度、光照的變化有較強(qiáng)的魯棒性,但是對(duì)于圖像模糊和灰度對(duì)比度不強(qiáng)烈的區(qū)域效果下降很多,這時(shí)通過(guò)對(duì)原圖進(jìn)行聚類,然后二值化,能夠進(jìn)一步將潛在的字符區(qū)域提取出來(lái)。而引入的非字符區(qū)域能夠通過(guò)顯著性和一些先驗(yàn)信息進(jìn)行有效地濾除。本文在公開(kāi)發(fā)表的ICDAR 2003文本定位競(jìng)賽數(shù)據(jù)集上進(jìn)行測(cè)試,驗(yàn)證了本文方法的有效性。
[1]LEE J J,LEE P H,LEE S W,et al.AdaBoost for Text Detection in Natural Scene[C]//CHAUDHURI B B.ICDAR.Los Alamitos:IEEE Computer Society,2011:429-434.
[2]GRZEGORZEK M,LI C,RASKATOW J,et al.Texture-Based Text Detection in Digital Images with Wavelet Features and Support Vector Machines[C]//BURDUK.Proceedings of the 8th International Conference on Computer Recognition Systems CORES 2013.Wroclaw:Springer International Publishing,2013:857-866.
[3]GATOS B,PRATIKAKIS I,KEPENE K,et al.Text detection in indoor/outdoor scene images[C]//Proc.First Workshop of Camera-based Document Analysis and Recognition.Seoul:IEEE Computer Society,2005:127-132.
[4]周慧燦,劉瓊,王耀南.基于顏色散布分析的自然場(chǎng)景文本定位[J].計(jì)算機(jī)工程,2010,36(8):197-199.
ZHOU Huican,LIU Qiong,WANG Yaonan.Text Location in Natural Scenes Based on Color Distribution Analysis[J].Computer Engineering,2010,36(8):197-199.
[5]PAN Y F,HOU X,LIU C L.A hybrid approach to detect and localize texts in natural scene images[J].Image Processing,IEEE Transactions on,2011,20(3):800-813.
[6]MATAS J,CHUM O,URBAN M,et al.Robust widebaseline stereo from maximally stable extremal regions[J].Image and vision computing,2004,22(10):761-767.
[7]LUCAS S M,PANARETOS A,SOSA L,et al.ICDAR 2003 robust reading competitions:entries,results,and future directions[J].International Journal of Document A-nalysis and Recognition(IJDAR),2005,7(2-3):105-122.
[8]VEDALDI A,SOATTO S.Quick shift and kernel methods for mode seeking[M].Berlin Heidelberg:Springer International Publishing,2008:705-718.
[9]COMANICIU D,MEER P.Mean shift:A robust approach toward feature space analysis[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002,24(5):603-619.
[10]VIKRAM T N,TSCHEREPANOW M,WREDE B.A saliency map based on sampling an image into random rectangular regions of interest[J].Pattern Recognition,2012,45(9):3114-3124.
[11]YI C,TIAN Y.Assistive text reading from complex background for blind persons[M].Berlin Heidelberg:Springer International Publishing,2012:15-28.