国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)EAST的場景文本檢測算法*

2021-10-08 13:55李玥束鑫常鋒
計算機(jī)與數(shù)字工程 2021年9期
關(guān)鍵詞:圖像算法特征

李玥束 鑫常鋒

(江蘇科技大學(xué)計算機(jī)學(xué)院 鎮(zhèn)江 212003)

1 引言

自然場景圖像中的文本包含著重要的信息,對圖片中的文字進(jìn)行檢測可以幫助人們理解不同的場景環(huán)境。如交通標(biāo)志上的文字信息能夠?yàn)樗緳C(jī)提供更加準(zhǔn)確的路況信息;商品包裝上的文字信息能夠準(zhǔn)確認(rèn)識商品的種類和生產(chǎn)日期。但某些自然場景中的字符具有方向傾斜、字體模糊等問題,快速準(zhǔn)確地在復(fù)雜背景中檢測文字仍面臨著巨大的挑戰(zhàn)。因此,國內(nèi)外學(xué)者通過大量的實(shí)驗(yàn)和研究,提出了許多自然場景文本檢測方法。

傳統(tǒng)的場景文字檢測方法主要依靠手工設(shè)計特征。Epshtein等[1]利用筆畫寬度變換(Stroke Width Transform,SWT)提取文本邊緣像素,得到候選文本區(qū)域;Neumann等[2]通過最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Region,MSER)算法搜索候選字符特征,然后根據(jù)自定義規(guī)則或分類器將提取的特征組合成單詞或者文字區(qū)域。這兩種方法效率相對較高,但在光照不均勻的情況下表現(xiàn)力較差。Louloudis等[3]利用文本行之間上下邊緣平行或?qū)ΨQ的性質(zhì),實(shí)現(xiàn)了對文本候選框的有效檢測。Meng等[4]提出了一種通過邊緣融合和邊緣分類兩個步驟提取自然場景文本的方法,通過邊緣檢測算法分割圖像,然后合并有相似筆劃寬度和顏色的邊緣,準(zhǔn)確率較高。但這些方法在精度和適應(yīng)性方面都落后于近年來出現(xiàn)的深度神經(jīng)網(wǎng)絡(luò)方法[5~7],特別是在處理低分辨率、幾何失真等具有挑戰(zhàn)性的場景時,圖片中的文本被復(fù)雜背景干擾,加大了文字檢測的難度。

基于深度學(xué)習(xí)框架的自然場景文本檢測方法大致分為三類[8~10]:第一類是基于局部文字的方法,第二類是基于單詞的方法,第三類是基于文本行的方法。Huang等[11]首先通過MSER算法找出候選字符,然后利用深度神經(jīng)網(wǎng)絡(luò)算法作為分類器篩選出最終文本行。Jaderberg等[12]借助滑動窗口掃描圖像,并使用卷積神經(jīng)網(wǎng)絡(luò)模型生成多尺度特征圖。Tian等[13]提出了一個創(chuàng)新性的模型——CTPN,通過結(jié)合CNN和RNN深度網(wǎng)絡(luò)提取特征,增強(qiáng)了文本行之間的聯(lián)系,提高了檢測精度,但是只能檢測水平方向的文本。由于普通卷積神經(jīng)網(wǎng)絡(luò)的感受野范圍是有限的,直接檢測較長的文本行具有較大的挑戰(zhàn)性,所以Shi和Bai等提出了SegLink[14]文字檢測算法。該方法首先檢測單詞或者文本行的局部區(qū)域,然后將這些局部區(qū)域連接起來形成完整的單詞或文本行。雖然大多數(shù)方法都能夠準(zhǔn)確地檢測到文本,但后續(xù)的處理方法復(fù)雜而緩慢,并且對感受野較長的文本效果不是很好。

本文針對以上問題,以現(xiàn)有的文字檢測算法EAST[15]為基礎(chǔ),對其存在的不足進(jìn)行分析與改進(jìn),設(shè)計了一種端到端的網(wǎng)絡(luò)模型,采用Resnet50[16]作為提取圖像特征的基礎(chǔ)網(wǎng)絡(luò),改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu),加入LSTM方法,增強(qiáng)了文本特征之間的聯(lián)系,優(yōu)化了原始EAST的訓(xùn)練方式,改進(jìn)了文本檢測算法的性能。

2 算法流程

本節(jié)詳細(xì)介紹了本文算法的執(zhí)行流程。1)標(biāo)記出輸入圖像的文本位置坐標(biāo)和文本內(nèi)容并存儲在文件中,接著對圖像的大小進(jìn)行隨機(jī)剪裁,去除部分與文本區(qū)域無關(guān)的位置;2)將圖像輸入以Resnet50為基礎(chǔ)網(wǎng)絡(luò)的EAST模型中,通過卷積提取出圖像文本特征,并使用特征金字塔結(jié)構(gòu)(Feature Pyramid Network,F(xiàn)PN)融合多尺度的特征圖;3)輸出圖像中文本區(qū)域可能出現(xiàn)的位置和分?jǐn)?shù),用四邊形標(biāo)注出候選框,并采用非極大值抑制(Non-Maximum Suppression,NMS)算法對候選文本框分?jǐn)?shù)進(jìn)行排序篩選,從而得到最終的文本候選框。文本檢測的總體框架如圖1所示。

圖1 文字檢測框架圖

3 基于改進(jìn)EAST模型的文字檢測

3.1 EAST算法介紹

傳統(tǒng)的文本檢測方法大多步驟較多,訓(xùn)練時間較長,并且需要對多個參數(shù)調(diào)優(yōu),這勢必會影響最終的文字檢測效果,而且非常耗時。EAST網(wǎng)絡(luò)結(jié)構(gòu)是一種高效準(zhǔn)確的場景文字檢測模型,該模型可以直接預(yù)測圖像中任意方向的文本,省去了不必要的中間步驟,能實(shí)時處理自然場景中的圖片,達(dá)到較好的檢測效果。但同時它也存在著一些缺點(diǎn),對于較長的文本,文字候選框定位會不完整。尤其是在中文場景中,EAST算法對連續(xù)出現(xiàn)的長文本進(jìn)行檢測時就會丟失文本行的兩端,而不能完整地檢測出文本行,如圖2所示。

圖2 EAST算法對長文檢測效果圖

3.2 改進(jìn)的EAST網(wǎng)絡(luò)模型

為提高EAST算法對長文本的檢測精度,本文對其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),使感受野增大,能夠準(zhǔn)確檢測出長文本。整個過程包括特征提取、特征融合以及生成分?jǐn)?shù)特征圖score map和幾何特征圖RBOX。網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。

圖3 改進(jìn)的EAST網(wǎng)絡(luò)結(jié)構(gòu)

1)特征提取層

在特征提取層,首先對輸入的圖片進(jìn)行文本信息標(biāo)注和隨機(jī)裁剪大小。當(dāng)文本區(qū)域較稀疏時,EAST模型可以很好地裁剪,并且保證文本行不會被切斷。但是當(dāng)文本行較長且密集時,EAST模型的裁剪區(qū)域只能保留部分文本,為了確保不切斷文本區(qū)域,將忽略部分長文本。本文改進(jìn)的EAST模型放寬了篩選條件,即可以切斷文本區(qū)域。首先確定要裁剪的區(qū)域,然后對落在該范圍內(nèi)的文本區(qū)域進(jìn)行采樣篩選,保留有兩個采樣點(diǎn)落在裁剪范圍內(nèi)的文本區(qū)域,這樣就可以保留大部分長文本。使用Resnet50網(wǎng)絡(luò)結(jié)構(gòu)提取圖像特征,提取的特征圖的大小分別為輸入圖像的1/32,1/16,1/8,1/4。

2)特征融合層

在特征融合層,首先融合提取到的文字圖像特征信息,融合公式如下:

其中g(shù)i表示待融合特征量,hi表示融合后的特征圖,運(yùn)算符[;]表示沿著通道軸線連接。

原始EAST網(wǎng)絡(luò)模型最后一個特征映射通過上采樣操作來增加感受野大小,雖然獲得了更多的圖像信息,但也增加了類之間的重疊,且易生成一些無效樣本,并且卷積網(wǎng)絡(luò)學(xué)習(xí)的只是感受野的空間信息。因?yàn)槲淖中蛄惺沁B續(xù)的,而長短時記憶LSTM方法可以增強(qiáng)特征序列的關(guān)聯(lián)性,利用上下文信息篩除重復(fù)或無效的樣本信息,提高模型的學(xué)習(xí)能力。因此改進(jìn)的EAST模型在融合階段加入了雙向長短時記憶(BLSTM)方法,即將兩個方向相反的LSTM相連。首先對模型最后一階段的特征圖進(jìn)行上采樣操作,然后為了減小計算量,使用1×1和3×3的卷積核對特征圖進(jìn)行卷積,接著與當(dāng)前特征圖連接合并,最后將特征序列輸入到一個雙向的LSTM中,所以最終的特征層將輸出更多更大尺寸的感受野,保留了更多的文本特征信息,使得檢測結(jié)果更具魯棒性。

3)輸出層

輸出層包含文本得分、文本框和旋轉(zhuǎn)角度θ。

3.3 損失函數(shù)

損失函數(shù)是用來對網(wǎng)絡(luò)模型進(jìn)行優(yōu)化的代價函數(shù)。函數(shù)值越小,模型性能就越優(yōu)越。所以本文算法的總損失函數(shù)公式如下所示:

其中Ls為文本框的得分損失,Lg為幾何圖的損失。λg表示損失權(quán)重。在實(shí)驗(yàn)中設(shè)置λg為1。

為了簡化訓(xùn)練過程,本文使用類平衡交叉熵[17]來計算得分通道損失,公式如下:

自然場景圖像中的文本大小差別很大,使用L1或L2損失函數(shù)會丟失一些長文本區(qū)域,從而影響最終結(jié)果。因此,本文的文本框回歸采用IOU損失函數(shù)[18],公式如下:

3.4 訓(xùn)練參數(shù)設(shè)置

本文使用Adam優(yōu)化算法在Ubuntu系統(tǒng)上進(jìn)行訓(xùn)練和測試。使用的顯卡為NVIDIA GTX 1080 Ti,內(nèi)存為8G,深度學(xué)習(xí)框架是Tensorflow。針對短文本檢測效果較好,長文本部分檢測不到的情況,改進(jìn)的EAST算法對訓(xùn)練圖像進(jìn)行旋轉(zhuǎn)操作,并調(diào)整圖像尺寸大小為256*256、384*384和512*512,先在小圖像訓(xùn)練,再將模型遷移到大圖像;訓(xùn)練批尺寸為24;初始學(xué)習(xí)率為1e-3,到1e-5停止。

4 實(shí)驗(yàn)結(jié)果與分析

為了評估該算法的性能,將所提出的算法與當(dāng)前先進(jìn)的檢測模型進(jìn)行了比較,測試數(shù)據(jù)為ICDAR2013[19]和ICDAR2015[20]。ICDAR 2013數(shù)據(jù)集共包含462張水平方向的文本圖像,其中訓(xùn)練圖像229張,測試圖像233張。而ICDAR2015數(shù)據(jù)集比ICDAR2013數(shù)據(jù)集更豐富多樣,并且支持多方向文本檢測,包括1000張訓(xùn)練圖像和500張測試圖像。本文分別從檢測率、準(zhǔn)確率和召回率三個指標(biāo)來分析算法的性能。實(shí)驗(yàn)結(jié)果如表1、表2所示。

表1 ICDAR2013數(shù)據(jù)集檢測結(jié)果對比

表2 ICDAR2015數(shù)據(jù)集檢測結(jié)果對比

如表1所示,本文算法在ICDAR2013數(shù)據(jù)集上的召回率、檢測率和準(zhǔn)確率分別為83.2%、88.2%和93.3%,與SegLink[14]方法相比,本文算法的準(zhǔn)確率提高了5.6%,檢測率提高了2.9%。與Pixel-Anchor[21]方法相比,本文算法雖然召回率降低了4.3%,但是準(zhǔn)確率卻提高了4%以上,并且本文算法的檢測速度高于Pixel-Anchor方法,因?yàn)镻ixel-Anchor方法采用八連通域,執(zhí)行搜索次數(shù)要八次,在一定程度上影響了網(wǎng)絡(luò)的執(zhí)行時間。與原始EAST算法相比,本文算法的召回率提升了0.5%,并且準(zhǔn)確率和檢測率也提高了0.7%左右。

如表2所示,SegLink方法和SSTD[22]方法在ICDAR2015數(shù)據(jù)集中的檢測率分別達(dá)到75.6%和76.9%,而本文算法對于ICDAR2015數(shù)據(jù)集的準(zhǔn)確率和檢測率均達(dá)到80%以上,明顯優(yōu)于SegLink方法和SSTD方法。與原始EAST算法相比,本文算法的召回率增加了5.4%,準(zhǔn)確率和檢測率都提高了5%左右。因?yàn)楸疚乃惴尤肓薒STM方法,減慢了文字序列的執(zhí)行速度,所以在執(zhí)行速度上不如原始EAST算法,但是從其他各項(xiàng)指標(biāo)值來看,本文算法性能更佳。

圖4是原始EAST模型和改進(jìn)后EAST模型對長文本的檢測效果圖,其中,圖4(a)為原始EAST模型對應(yīng)的檢測效果圖,圖4(b)為改進(jìn)后的EAST模型對應(yīng)的檢測效果圖。

圖4 檢測效果對比圖

由圖4(a)可以看到,對于圖片中的英文網(wǎng)址,原始EAST模型雖然也能夠完全檢測出英文字符,但是卻是用四個文本框標(biāo)記出文本位置的,并且圖片中的中文字符也只能檢測出部分區(qū)域,如字跡較淺的“洪福電子”和字體較小且連續(xù)出現(xiàn)的“消費(fèi)者保障”等區(qū)域。

由圖4(b)可以看到,改進(jìn)后的EAST模型只需一個文本框就可以完整標(biāo)記出英文文本的位置并且對于連續(xù)出現(xiàn)的中文字符也能夠標(biāo)記出大部分區(qū)域,但是對于較小的、字跡模糊的中文區(qū)域表現(xiàn)力還有些不足。

5 結(jié)語

本文提出了一種基于改進(jìn)EAST的自然場景文本檢測算法,采用Resnet50網(wǎng)絡(luò)提取圖像特征,并在EAST模型中加入了長短時記憶網(wǎng)絡(luò)LSTM,調(diào)整了訓(xùn)練過程,改善了網(wǎng)絡(luò)感受野的尺寸,均衡了特征樣本,使算法能夠快速準(zhǔn)確地檢測圖片中的文本。和經(jīng)典EAST算法以及目前流行的檢測算法相比,精度和性能上都有了顯著的提升,但是對于長文本的檢測還有一些不足,有的區(qū)域并不能完整檢測出來。后續(xù)工作中我們將進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),調(diào)整損失函數(shù)權(quán)重,并融合其他方法,使其能夠應(yīng)對日常更復(fù)雜的場景環(huán)境。

猜你喜歡
圖像算法特征
Travellng thg World Full—time for Rree
抓特征解方程組
不忠誠的四個特征
A、B兩點(diǎn)漂流記
學(xué)習(xí)算法的“三種境界”
算法框圖的補(bǔ)全
算法初步知識盤點(diǎn)
名人語錄的極簡圖像表達(dá)
一次函數(shù)圖像與性質(zhì)的重難點(diǎn)講析
趣味數(shù)獨(dú)等4則
新郑市| 揭阳市| 通城县| 政和县| 崇信县| 林州市| 徐州市| 揭阳市| 德令哈市| 濉溪县| 诏安县| 淄博市| 伊金霍洛旗| 宣威市| 宁波市| 缙云县| 顺昌县| 佳木斯市| 兴城市| 佛教| 绥德县| 石屏县| 竹山县| 平湖市| 花莲县| 镇平县| 陕西省| 青田县| 吴忠市| 登封市| 怀安县| 信宜市| 宁蒗| 鄂托克旗| 施秉县| 互助| 沧州市| 彭阳县| 西安市| 德江县| 大荔县|