封 磊 李曉明
(太原科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院 太原 030024)
數(shù)字顯示儀表在工業(yè)生產(chǎn)管理與安全檢測中有著不可替代的作用。目前,對于大量存在的數(shù)顯儀表,主要的監(jiān)控管理方式還是由人工值守,不僅效率低下,而且錯誤率較高[1]。隨著人工智能在各行各業(yè)的普及,智能化,自動化的管理方式逐漸取代了人工管理的方式,工業(yè)生產(chǎn)自動化,也是未來發(fā)展的必然趨勢。針對以上問題,使用基于視覺的方法[2],對工業(yè)生產(chǎn)中的數(shù)顯儀表完成自動化識別,達到提高效率,提升準確率的目的。具體實現(xiàn)方法為使用高清的攝像頭實時拍攝數(shù)字儀表的顯示區(qū)域,根據(jù)提取的圖像信息,使用圖像識別算法完成圖像到文本的轉(zhuǎn)化與存儲。因此,對于圖像轉(zhuǎn)化為文本的識別算法研究至關(guān)重要,對工業(yè)生產(chǎn)中的數(shù)字儀表自動化監(jiān)測有著重要的作用和意義。
數(shù)字儀表識別的基本原理可以歸為字符識別[3],長期以來使用視覺技術(shù)對字符識別的研究一般分為三個步驟,分別是預(yù)處理,字符分割,字符識別。預(yù)處理過程通常包括字符區(qū)域定位[4],字符區(qū)域矯正[5~6],背景去模糊,二值化等操作;字符分割在預(yù)處理的基礎(chǔ)上,通常使用直方圖[7]或者連通域MSER[8]等方法,對后續(xù)識別的準確度影響較大;字符識別是文本識別的最重要步驟,常用的方法包括模板匹配法[9]和特征提取[10]加分類器的方法。但是,上述的方法在復(fù)雜冗長的預(yù)處理過程中,影響準確率的因素大大增加,例如背景復(fù)雜,分割不均勻等,都會造成最終的識別結(jié)果錯誤。人工智能的高速發(fā)展使得數(shù)字儀表識別有了新的解決方案?;谏疃葘W(xué)習(xí)的字符識別分為字符檢測與字符識別兩個步驟,省去了復(fù)雜的預(yù)處理步驟,極大提升了識別的準確率。
基于深度學(xué)習(xí)的字符檢測常分為兩部分,即先將文本信息與非文本信息分類,然后通過回歸的方法判定邊界框的位置和角度,Zhou 等[11]通過回歸距離標注數(shù)據(jù)(ground truth)的上下左右邊的距離和角度來確定文本邊框范圍,Tian等[12]通過回歸中心點的偏移和高度的尺度來確定文本邊框。但是,回歸由于計算的復(fù)雜度,在計算效率上低于分類。基于此,Deng 等[13]提出了一種只需要通過分類即可實現(xiàn)文本邊界框預(yù)測的方法Pixellink。
基于深度學(xué)習(xí)的字符識別主要依賴于卷積神經(jīng)網(wǎng)絡(luò)進行圖像中文本信息的特征提取,為了能夠獲得更高的精度,出現(xiàn)了更多深層次的神經(jīng)網(wǎng)絡(luò)。常用的方法有卷積神經(jīng)網(wǎng)絡(luò)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的方法。然而,深度卷積神經(jīng)網(wǎng)絡(luò)由于上采樣和池化層[14]的設(shè)計,存在內(nèi)部數(shù)據(jù)丟失,空間層級信息丟失和小物體信息丟失的特性。為了解決這些問題,Yu[15]等提出了空洞卷積(dilated convolution),與正常的卷積不同,空洞卷積引入了超參數(shù)“擴張率(dilation rate)”,該參數(shù)定義了卷積核處理數(shù)據(jù)時各值的間距,起到了擴大感受野同時捕獲多尺度特征信息的作用。
基于以上分析,為了解決數(shù)顯儀表自動化讀數(shù)問題,本文提出了一種結(jié)合空洞卷積和先驗閾值的數(shù)顯儀表識別方法。以變電站儀表為例,測試準確率達到99.3%以上。
本文所用方法為使用Pixellink 文本檢測方法完成文本信息的粗提取,結(jié)合文本信息先驗,完成對檢測框的微調(diào),對微調(diào)后的檢測框進行裁剪,最后將裁剪后的字符區(qū)域送入字符識別網(wǎng)絡(luò),完成對指針儀表的最終識別,完整的流程見圖1。
圖1 儀表識別整體流程
字符位置信息的提取對后續(xù)的字符識別有著直接影響,所以,提取到完整準確的文本框?qū)罄m(xù)的文本識別有著至關(guān)重要的作用。因此,本文采用Pixellink 文本檢測方法對儀表圖像進行字符檢測,如圖2。該方法首先通過將同一實例中的像素鏈接在一起進行分割。然后直接從分割結(jié)果中提取文本邊界框,無需進行位置回歸。
將深度學(xué)習(xí)字符識別模型用于樣本學(xué)習(xí),能夠從樣本中自主的提取特征,能夠適用于多種儀表,而且省去了復(fù)雜的流程,可以識別不定長的字符段,具有更好的魯棒性。
CRNN[16]是字符識別領(lǐng)域前沿的一種深度學(xué)習(xí)架構(gòu),該架構(gòu)包括三個階段,即CNN、BLSTM、CTC[17]。首先使用卷積神經(jīng)網(wǎng)絡(luò)進行文本字段的特征提取,將提取到的特征圖輸入循環(huán)神經(jīng)網(wǎng)絡(luò),經(jīng)過softmax 輸出后驗概率矩陣,最后經(jīng)過CTC 模塊的對齊,輸出完整的文本信息,這種方法無需進行字符分割即可完成字符識別。
本文構(gòu)建的字符識別網(wǎng)絡(luò),遵循CRNN 的整體構(gòu)架,使用在第4,5 殘差單元加入空洞卷積的ResNet-50[18]作 為 特 征 提 取 層,構(gòu) 造 完 成D-ResNet,如圖3 所示,結(jié)合BLSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)與CTC 完成儀表字符的最終識別,所提模型如圖4所示。
圖3 ResNet-50與D-ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)
圖4 字符識別網(wǎng)絡(luò)結(jié)構(gòu)
由于字符特點,由D-Resnet-50 網(wǎng)絡(luò)提取特征時,通過改變池化層步長,使得經(jīng)過特征提取后的輸出為H=1的向量。
本文實驗基于Pytorch 深度學(xué)習(xí)框架完成,數(shù)據(jù)來源為某變電站數(shù)字儀表,計算平臺為GTX2080Ti。采集數(shù)據(jù)時在數(shù)字儀表前架設(shè)攝像頭,將采集到的視頻按幀切分為圖像,然后進行數(shù)據(jù)篩選,去除拍攝不完整或圖像受損的數(shù)據(jù),最后構(gòu)建的數(shù)據(jù)集包括5000張數(shù)字儀表圖像,如圖5所示。
圖5 數(shù)字儀表數(shù)據(jù)集
在實際數(shù)據(jù)量偏少時,常常使用遷移學(xué)習(xí)的方法來緩解,通過使用在大型數(shù)據(jù)集上的預(yù)訓(xùn)練模型遷移到自身的網(wǎng)絡(luò)模型中。本文使用在ICDAR 2017 RCTW(Reading Chinest Text in the Wild)[19]上訓(xùn)練的預(yù)訓(xùn)練模型。該數(shù)據(jù)集主要是中文,共12263 張圖像,其中8034 作為訓(xùn)練集,4229 作為測試集,數(shù)據(jù)集絕大多數(shù)是相機拍的自然場景,一些是屏幕截圖;包含了大多數(shù)場景,如室外街道、室內(nèi)場景、手機截圖等。
數(shù)字儀表字符檢測加載Pixellink 在ICDAR 2017 RCTW 上預(yù)訓(xùn)練的字符檢測模型,對所收集的數(shù)據(jù)集進行訓(xùn)練,訓(xùn)練損失如圖6 所示,其中A為加載預(yù)訓(xùn)練模型,B為未加載預(yù)訓(xùn)練模型,圖7展示了儀表文本檢測。
圖6 文本檢測損失圖
圖7 儀表文本檢測結(jié)果
由表1 可見,加載預(yù)訓(xùn)練模型的Pixellink 在數(shù)字儀表數(shù)據(jù)集上達到了98.6%的準確率,且收斂更快,更有利于后續(xù)字符識別。
表1 數(shù)字儀表字符檢測對比
在數(shù)字儀表字符檢測后,根據(jù)字符檢測輸出的文本框位置,將文本信息切片,作為字符識別網(wǎng)絡(luò)的輸入。在實際構(gòu)建切片輸入時,由于依據(jù)字符框角的坐標裁剪,常有字符信息因為裁剪而受損。因此,在實際裁剪時,需要設(shè)置先驗閾值,在原檢測框坐標基礎(chǔ)上外擴X 像素點,保證字符裁剪準確完整,本文經(jīng)過實驗驗證,設(shè)置閾值X=5。圖8(a)為未設(shè)置閾值,圖8(b)為X=5。
圖8 設(shè)置閾值裁切對比
為了得到更好的訓(xùn)練效果,本文將識別網(wǎng)絡(luò)輸入圖片統(tǒng)一縮放為H1=32,W1=(W×32)/H),其中H1=32為縮放后的圖片高度,W1為縮放后的圖片寬度。
圖9 為D-CRNN 與CRNN 準確率對比圖,其中A 為D-CRNN,B 為CRNN,從 圖 中 可 以 看 出,D-CRNN 在準確率上明顯高于CRNN,且準確率較為平穩(wěn),波動幅度較小,相較于CRNN更穩(wěn)定。
圖9 準確率對比
將經(jīng)過預(yù)訓(xùn)練的Pixellink 與改進的CRNN 結(jié)合,完成數(shù)字儀表的自動化識別,實驗結(jié)果如圖10與表2所示。
表2 數(shù)字儀表準確率對比
圖10 數(shù)字儀表識別結(jié)果
為解決工業(yè)生產(chǎn)中數(shù)字儀表長期需要人工值守,浪費人力且準確率低等問題,本文基于先驗閾值與空洞卷積的思想,針對排版規(guī)則的工業(yè)數(shù)字儀表,提出了一種基于改進CRNN 的工業(yè)數(shù)字儀表自動化讀數(shù)方法,實現(xiàn)了對工業(yè)數(shù)字儀表的準確識別。其中,使用預(yù)訓(xùn)練模型的Pixellink 與改進CRNN的整體識別準確率達到了99.3%。下一步研究將在保證準確率的前提下,進一步提升識別速度。