国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CTPN在快遞單文字檢測中的應(yīng)用研究

2023-09-07 14:24:28李歡歡徐小云王紅蕾
科技資訊 2023年15期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

李歡歡 徐小云 王紅蕾

關(guān)鍵詞: 文字檢測 卷積神經(jīng)網(wǎng)絡(luò) 文本檢測網(wǎng)絡(luò) 區(qū)域候選網(wǎng)絡(luò)

中圖分類號: TM715 文獻標識碼: A 文章編號: 1672-3791(2023)15-0058-04

隨著物流業(yè)的快速發(fā)展,各快遞點的分揀、配發(fā)工作愈加繁重,且不同快遞公司快遞單設(shè)計樣式不統(tǒng)一。為提高快遞分揀人員的工作效率與快遞分配的準確性,提高信息統(tǒng)計效率和信息采集的通用性,需快速檢測并識別出各包裹上快遞單號的收寄人信息,并做出派件指引。為實現(xiàn)該需求,學術(shù)界通常運用光學字符識別(Optical Character Recognition,OCR)技術(shù)來進行文字的檢測和識別。在OCR 技術(shù)運用中,通常先進行文本檢測[1-5],然后在檢測的文本區(qū)域進行文本識別[6-7]??梢娢谋緳z測的準確性與魯棒性,將直接影響最終文本識別的準確率。

文本檢測技術(shù)被研究多年[8-10]。ZHANG H 等對自然場景下文本檢測方法給出了一個比較全面的綜述。以上研究表明:文字檢測技術(shù)可分為:基于圖像特征的傳統(tǒng)文本檢測技術(shù)與基于深度學習的文本檢測技術(shù)。傳統(tǒng)的文本檢測技術(shù)又可分為基于分類器的文本檢測方法與基于連通域的文本檢測方法。而基于深度學習的文本檢測技術(shù)是該領(lǐng)域的研究主流方向之一。此技術(shù)運用基于深度神經(jīng)網(wǎng)絡(luò)的模型對文本進行檢測,不僅對印刷體文本有很好的檢測效果,還能對更為復(fù)雜背景的文字具有較好的檢測效果。LIAO M、SHI B 等人提出了一種端到端的文本檢測方法,該方法在模型設(shè)計上主要基于SSD 模型并對其進行了優(yōu)化。TIAN Z等人認為文本和一般物體不同的是文本是由一個字符序列組成的,因而提出了一種將循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的文本檢測方法CTPN。循環(huán)神經(jīng)網(wǎng)絡(luò)用來對單個文本區(qū)域的連續(xù)性進行檢測,而卷積神經(jīng)網(wǎng)絡(luò)用語對單個文本區(qū)域的檢測。

本文運用CTPN 技術(shù)來進行物流快遞單上的文字檢測,實驗發(fā)現(xiàn)與傳統(tǒng)的方法相比,其具有更高的檢出率與穩(wěn)定性,可較好地應(yīng)用于快遞單場景下的文字檢測定位。

1 CTPN介紹

文本是一個由沒有顯著封閉界線的序列組成,它由字符、字母與文本區(qū)域等多個部分組合而成,各部分之間無明顯區(qū)分,文本行中的字符大小不一定相同,且文本中可能不存在一個明確的文本邊界。因此,文本檢測是一個需要正確檢測出文本行或整個文字區(qū)域的細粒度檢測任務(wù)。

本文運用的CTPN 檢測算法,是對Faster RCNN 算法的改進,能進行細粒度的文本檢測,可準確定位文本位置,同時引入了BLSTM 來獲取文字間的序列特征,它可以直接定位卷積層中的文本序列,利用共享計算機制,大大減少了計算量,提高了文本檢測的魯棒性。圖1 為CTPN 算法的網(wǎng)絡(luò)結(jié)構(gòu)。

CTPN 網(wǎng)絡(luò)模型要求圖片首先經(jīng)過VGG16 網(wǎng)絡(luò)模型的conv5 層,假設(shè)此時圖像大小為H×W,CTPN 網(wǎng)絡(luò)模型的構(gòu)建步驟如下。

(1)CTPN 網(wǎng)絡(luò)模型利用VGG16 的前5 層卷積層網(wǎng)絡(luò)去提取圖像特征,獲得大小為H?W? C 的conv5 特征圖,其中C 為特征圖的個數(shù)。

(2)對conv5 上獲取的特征圖,用3 ? 3 的滑動窗口進行密集的滑動,即每個點都結(jié)合該點3 ? 3 領(lǐng)域區(qū)域特征獲取一個長度為3 ? 3 的特征向量,輸出C ?H?W的特征圖,其中C 是特征圖個數(shù)。運算過程如圖1所示。

(3)將上述得到的C ?H?W特征圖進行矩陣形狀變換,將輸出大小變換為H?W? C。

(4)然后將數(shù)據(jù)以最大時間長度為W 且Batch 為H的數(shù)據(jù)流輸入到雙向LSTM 中,從而學習每一行的序列特征。雙向LSTM 的輸出特征為H?W? C,再通過矩陣形狀變換得到形狀C ?H?W的特征數(shù)據(jù),其中C是特征圖個數(shù);該特征包含了通過CNN 與LSTM 學習得到的空間特征和序列特征。

(5)LSTM 學習后的特征通過512 維的全連接層(FC),特征變?yōu)閃?H? 10 ? N(對于文字檢測區(qū)域位置N=4,對于檢測區(qū)域是否有文字N=2)。FC 層的每個點都配備K(K=10)個錨,錨的寬度為widths = 16,錨的高度為heights =[11162333486897139198283],如圖2 所示。

這樣做是為了:①保證在圖像x 方向上,錨能掩蓋輸入圖像中的每個點,且彼此互不重疊;②保證在圖像y 方向上能檢測出不同高度大小的文本目標。

(6)最后FC 層輸出的特征圖通過RPN(RegionProposal Network)網(wǎng)絡(luò)后得到輸出層信息,從而獲得候選文本區(qū)域。RPN 如圖3 所示。

RPN 網(wǎng)絡(luò)可分為兩個分支:①左分支可用于對錨的位置進行回歸,修正錨的中心y 坐標與高度(height);②右邊分支用于對錨進行分類:文本/非文本。

在RPN 得到的一系列候選文本區(qū)域后,運用文本線構(gòu)造算法將候選文本區(qū)域連接成一個文本檢測框。

輸出層輸出3 種結(jié)果,分別為垂直坐標(verticalcoordinate)合計2K 個、預(yù)測文本/非文本的評分(scores)合計2K個、邊緣細化(side-refinement)合計1K個。最后運用非極大值抑制(Non-Maximum Suppression,NMS)算法來濾除多余的文本框,從而得到最終輸出。

綜上所述,測試網(wǎng)絡(luò)結(jié)構(gòu)與網(wǎng)絡(luò)參數(shù)設(shè)置如圖4所示。

2 數(shù)據(jù)準備

2.1 數(shù)據(jù)采集

此實驗使用公開數(shù)據(jù)集ICDAR 2019Chinese 來進行文字檢測模型訓練,該數(shù)據(jù)集合計30 138 張圖片。同時收集某物流公司某快遞點的快遞單號1 000 張,作為驗證集,進行文字檢測驗證,用來驗證本文所使用算法的有效性與魯棒性。

2.2 數(shù)據(jù)預(yù)處理

本實驗的模型訓練部分,使用darknet 預(yù)訓練模型對收集的圖像數(shù)據(jù)集進行訓練,該模型要求對數(shù)據(jù)進行一定的預(yù)處理:(1)將圖片尺寸進行縮放;(2)將ICDAR 2019Chinese 數(shù)據(jù)集按7∶3 的比例拆分為訓練集與測試集兩個部分,用于模型訓練與測試;(3)按照darknet 所需的格式生成voc.name、voc.data。

3 實驗過程

此實驗在一臺搭配有NVIDIA M10 32 G 顯卡、24GB RAM 的計算機上進行,電腦使用Centos 7.3 操作系統(tǒng)。使用darknet 預(yù)訓練模型加載預(yù)訓練模型權(quán)重darknet53.conv.74,對生成的數(shù)據(jù)集進行訓練,設(shè)置迭代次數(shù)為5 萬次。訓練完成后,得到模型訓練參數(shù)。

4 實驗結(jié)果

本文使用得到的模型參數(shù),對實際的快遞單號進行檢測。實驗發(fā)現(xiàn),訓練得到的模型,對不同的快遞單,有較好的文字檢測效果,如圖5 所示。

5 結(jié)語

CTPN 算法在單一或復(fù)雜背景中的文字檢測效果優(yōu)良,且檢測速度極快。CTPN 算法引入了雙向LSTM神經(jīng)網(wǎng)絡(luò)來學習文本的序列特征,這有利于提升文本檢測效果。但雙向LSTM 神經(jīng)網(wǎng)絡(luò)在訓練時可能引起算法模型的梯度爆炸,故在訓練時需小心調(diào)整訓練參數(shù)。由文章中利用CTPN 技術(shù)對快遞單文字識別效果來看,CTPN 能夠滿足多種類、多樣式、非結(jié)構(gòu)化自然場景中的文字識別。

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)
基于深度神經(jīng)網(wǎng)絡(luò)的微表情識別
卷積神經(jīng)網(wǎng)絡(luò)中減少訓練樣本時間方法研究
卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
深度學習算法應(yīng)用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
深度學習技術(shù)下的中文微博情感的分析與研究
軟件(2016年5期)2016-08-30 06:27:49
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
原平市| 游戏| 静乐县| 弋阳县| 黄山市| 云林县| 恩平市| 高碑店市| 昌都县| 宝山区| 岳阳县| 女性| 商都县| 常熟市| 广饶县| 永善县| 阜新| 岳普湖县| 清河县| 宝坻区| 中阳县| 汾阳市| 霍州市| 博湖县| 万州区| 鹤山市| 德化县| 高淳县| 德庆县| 房产| 鄱阳县| 托克逊县| 宁乡县| 家居| 通山县| 仲巴县| 曲沃县| 拜泉县| 诸城市| 宁波市| 仪征市|