結(jié)合空洞卷積和先驗閾值的數(shù)顯儀表識別*

2023-08-02 07:06:40李曉明

計算機與數(shù)字工程 2023年4期

封磊李曉明

（太原科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院太原 030024）

1 引言

數(shù)字顯示儀表在工業(yè)生產(chǎn)管理與安全檢測中有著不可替代的作用。目前，對于大量存在的數(shù)顯儀表，主要的監(jiān)控管理方式還是由人工值守，不僅效率低下，而且錯誤率較高［1］。隨著人工智能在各行各業(yè)的普及，智能化，自動化的管理方式逐漸取代了人工管理的方式，工業(yè)生產(chǎn)自動化，也是未來發(fā)展的必然趨勢。針對以上問題，使用基于視覺的方法［2］，對工業(yè)生產(chǎn)中的數(shù)顯儀表完成自動化識別，達到提高效率，提升準確率的目的。具體實現(xiàn)方法為使用高清的攝像頭實時拍攝數(shù)字儀表的顯示區(qū)域，根據(jù)提取的圖像信息，使用圖像識別算法完成圖像到文本的轉(zhuǎn)化與存儲。因此，對于圖像轉(zhuǎn)化為文本的識別算法研究至關(guān)重要，對工業(yè)生產(chǎn)中的數(shù)字儀表自動化監(jiān)測有著重要的作用和意義。

數(shù)字儀表識別的基本原理可以歸為字符識別［3］，長期以來使用視覺技術(shù)對字符識別的研究一般分為三個步驟，分別是預(yù)處理，字符分割，字符識別。預(yù)處理過程通常包括字符區(qū)域定位［4］，字符區(qū)域矯正［5～6］，背景去模糊，二值化等操作；字符分割在預(yù)處理的基礎(chǔ)上，通常使用直方圖［7］或者連通域MSER［8］等方法，對后續(xù)識別的準確度影響較大；字符識別是文本識別的最重要步驟，常用的方法包括模板匹配法［9］和特征提取［10］加分類器的方法。但是，上述的方法在復(fù)雜冗長的預(yù)處理過程中，影響準確率的因素大大增加，例如背景復(fù)雜，分割不均勻等，都會造成最終的識別結(jié)果錯誤。人工智能的高速發(fā)展使得數(shù)字儀表識別有了新的解決方案?；谏疃葘W(xué)習(xí)的字符識別分為字符檢測與字符識別兩個步驟，省去了復(fù)雜的預(yù)處理步驟，極大提升了識別的準確率。

基于深度學(xué)習(xí)的字符檢測常分為兩部分，即先將文本信息與非文本信息分類，然后通過回歸的方法判定邊界框的位置和角度，Zhou 等［11］通過回歸距離標注數(shù)據(jù)（ground truth）的上下左右邊的距離和角度來確定文本邊框范圍，Tian等［12］通過回歸中心點的偏移和高度的尺度來確定文本邊框。但是，回歸由于計算的復(fù)雜度，在計算效率上低于分類。基于此，Deng 等［13］提出了一種只需要通過分類即可實現(xiàn)文本邊界框預(yù)測的方法Pixellink。

基于深度學(xué)習(xí)的字符識別主要依賴于卷積神經(jīng)網(wǎng)絡(luò)進行圖像中文本信息的特征提取，為了能夠獲得更高的精度，出現(xiàn)了更多深層次的神經(jīng)網(wǎng)絡(luò)。常用的方法有卷積神經(jīng)網(wǎng)絡(luò)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的方法。然而，深度卷積神經(jīng)網(wǎng)絡(luò)由于上采樣和池化層［14］的設(shè)計，存在內(nèi)部數(shù)據(jù)丟失，空間層級信息丟失和小物體信息丟失的特性。為了解決這些問題，Yu［15］等提出了空洞卷積（dilated convolution），與正常的卷積不同，空洞卷積引入了超參數(shù)“擴張率（dilation rate）”，該參數(shù)定義了卷積核處理數(shù)據(jù)時各值的間距，起到了擴大感受野同時捕獲多尺度特征信息的作用。

基于以上分析，為了解決數(shù)顯儀表自動化讀數(shù)問題，本文提出了一種結(jié)合空洞卷積和先驗閾值的數(shù)顯儀表識別方法。以變電站儀表為例，測試準確率達到99.3%以上。

2 數(shù)字儀表識別模型

本文所用方法為使用Pixellink 文本檢測方法完成文本信息的粗提取，結(jié)合文本信息先驗，完成對檢測框的微調(diào)，對微調(diào)后的檢測框進行裁剪，最后將裁剪后的字符區(qū)域送入字符識別網(wǎng)絡(luò)，完成對指針儀表的最終識別，完整的流程見圖1。

圖1 儀表識別整體流程

2.1 字符檢測網(wǎng)絡(luò)

字符位置信息的提取對后續(xù)的字符識別有著直接影響，所以，提取到完整準確的文本框?qū)罄m(xù)的文本識別有著至關(guān)重要的作用。因此，本文采用Pixellink 文本檢測方法對儀表圖像進行字符檢測，如圖2。該方法首先通過將同一實例中的像素鏈接在一起進行分割。然后直接從分割結(jié)果中提取文本邊界框，無需進行位置回歸。

2.2 字符識別網(wǎng)絡(luò)

將深度學(xué)習(xí)字符識別模型用于樣本學(xué)習(xí)，能夠從樣本中自主的提取特征，能夠適用于多種儀表，而且省去了復(fù)雜的流程，可以識別不定長的字符段，具有更好的魯棒性。

CRNN［16］是字符識別領(lǐng)域前沿的一種深度學(xué)習(xí)架構(gòu)，該架構(gòu)包括三個階段，即CNN、BLSTM、CTC［17］。首先使用卷積神經(jīng)網(wǎng)絡(luò)進行文本字段的特征提取，將提取到的特征圖輸入循環(huán)神經(jīng)網(wǎng)絡(luò)，經(jīng)過softmax 輸出后驗概率矩陣，最后經(jīng)過CTC 模塊的對齊，輸出完整的文本信息，這種方法無需進行字符分割即可完成字符識別。

本文構(gòu)建的字符識別網(wǎng)絡(luò)，遵循CRNN 的整體構(gòu)架，使用在第4，5 殘差單元加入空洞卷積的ResNet-50［18］作為特征提取層，構(gòu) 造完成D-ResNet，如圖3 所示，結(jié)合BLSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)與CTC 完成儀表字符的最終識別，所提模型如圖4所示。

圖3 ResNet-50與D-ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)

圖4 字符識別網(wǎng)絡(luò)結(jié)構(gòu)

由于字符特點，由D-Resnet-50 網(wǎng)絡(luò)提取特征時，通過改變池化層步長，使得經(jīng)過特征提取后的輸出為H=1的向量。

3 實驗分析

本文實驗基于Pytorch 深度學(xué)習(xí)框架完成，數(shù)據(jù)來源為某變電站數(shù)字儀表，計算平臺為GTX2080Ti。采集數(shù)據(jù)時在數(shù)字儀表前架設(shè)攝像頭，將采集到的視頻按幀切分為圖像，然后進行數(shù)據(jù)篩選，去除拍攝不完整或圖像受損的數(shù)據(jù)，最后構(gòu)建的數(shù)據(jù)集包括5000張數(shù)字儀表圖像，如圖5所示。

圖5 數(shù)字儀表數(shù)據(jù)集

在實際數(shù)據(jù)量偏少時，常常使用遷移學(xué)習(xí)的方法來緩解，通過使用在大型數(shù)據(jù)集上的預(yù)訓(xùn)練模型遷移到自身的網(wǎng)絡(luò)模型中。本文使用在ICDAR 2017 RCTW（Reading Chinest Text in the Wild）［19］上訓(xùn)練的預(yù)訓(xùn)練模型。該數(shù)據(jù)集主要是中文，共12263 張圖像，其中8034 作為訓(xùn)練集，4229 作為測試集，數(shù)據(jù)集絕大多數(shù)是相機拍的自然場景，一些是屏幕截圖；包含了大多數(shù)場景，如室外街道、室內(nèi)場景、手機截圖等。

3.1 數(shù)字儀表字符檢測

數(shù)字儀表字符檢測加載Pixellink 在ICDAR 2017 RCTW 上預(yù)訓(xùn)練的字符檢測模型，對所收集的數(shù)據(jù)集進行訓(xùn)練，訓(xùn)練損失如圖6 所示，其中A為加載預(yù)訓(xùn)練模型，B為未加載預(yù)訓(xùn)練模型，圖7展示了儀表文本檢測。

圖6 文本檢測損失圖

圖7 儀表文本檢測結(jié)果

由表1 可見，加載預(yù)訓(xùn)練模型的Pixellink 在數(shù)字儀表數(shù)據(jù)集上達到了98.6%的準確率，且收斂更快，更有利于后續(xù)字符識別。

表1 數(shù)字儀表字符檢測對比

3.2 數(shù)字儀表字符識別

在數(shù)字儀表字符檢測后，根據(jù)字符檢測輸出的文本框位置，將文本信息切片，作為字符識別網(wǎng)絡(luò)的輸入。在實際構(gòu)建切片輸入時，由于依據(jù)字符框角的坐標裁剪，常有字符信息因為裁剪而受損。因此，在實際裁剪時，需要設(shè)置先驗閾值，在原檢測框坐標基礎(chǔ)上外擴X 像素點，保證字符裁剪準確完整，本文經(jīng)過實驗驗證，設(shè)置閾值X=5。圖8（a）為未設(shè)置閾值，圖8（b）為X=5。

圖8 設(shè)置閾值裁切對比

為了得到更好的訓(xùn)練效果，本文將識別網(wǎng)絡(luò)輸入圖片統(tǒng)一縮放為H1=32，W1=（W×32）/H），其中H1=32為縮放后的圖片高度，W1為縮放后的圖片寬度。

圖9 為D-CRNN 與CRNN 準確率對比圖，其中A 為D-CRNN，B 為CRNN，從圖中可以看出，D-CRNN 在準確率上明顯高于CRNN，且準確率較為平穩(wěn)，波動幅度較小，相較于CRNN更穩(wěn)定。

圖9 準確率對比

3.3 數(shù)字儀表識別

將經(jīng)過預(yù)訓(xùn)練的Pixellink 與改進的CRNN 結(jié)合，完成數(shù)字儀表的自動化識別，實驗結(jié)果如圖10與表2所示。

表2 數(shù)字儀表準確率對比

圖10 數(shù)字儀表識別結(jié)果

4 結(jié)語

為解決工業(yè)生產(chǎn)中數(shù)字儀表長期需要人工值守，浪費人力且準確率低等問題，本文基于先驗閾值與空洞卷積的思想，針對排版規(guī)則的工業(yè)數(shù)字儀表，提出了一種基于改進CRNN 的工業(yè)數(shù)字儀表自動化讀數(shù)方法，實現(xiàn)了對工業(yè)數(shù)字儀表的準確識別。其中，使用預(yù)訓(xùn)練模型的Pixellink 與改進CRNN的整體識別準確率達到了99.3%。下一步研究將在保證準確率的前提下，進一步提升識別速度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡