孫福明,高 嚴(yán),許 蕊,李明淵,魏曉鳴
基于貝塞爾曲線網(wǎng)絡(luò)的電表用電信息識別算法
孫福明1,高 嚴(yán)1,許 蕊1,李明淵1,魏曉鳴2
(1.大連民族大學(xué)信息與通信工程學(xué)院,遼寧 大連 116600;2.大連民族大學(xué)網(wǎng)絡(luò)中心,遼寧 大連 116600)
利用計算機視覺技術(shù)來快速、準(zhǔn)確地獲得用戶的用電信息對于電力部門具有重要意義。針對傳統(tǒng)算法精度低、速度慢等問題,提出了一種基于自適應(yīng)貝塞爾曲線網(wǎng)絡(luò)的用電信息識別算法。該框架集檢測、識別于一體,實現(xiàn)了端到端的文本定位和預(yù)測。檢測端結(jié)合了特征金字塔網(wǎng)絡(luò)和殘差網(wǎng)絡(luò),對輸入圖像進行特征提取,并通過四個控制點生成貝塞爾曲線,能更好地擬合文本框。識別端采用了卷積循環(huán)神經(jīng)網(wǎng)絡(luò),引入門控循環(huán)單元替代長短期記憶網(wǎng)絡(luò),再結(jié)合注意力機制對文本進行識別。最后在數(shù)據(jù)集上開展五組消融實驗,進行性能對比和評估分析。實驗結(jié)果顯示,該算法識別精度高達99.08%,且推理速度快,可被用于用電信息檢測與識別的實際應(yīng)用中。
機器視覺;自適應(yīng)貝塞爾曲線網(wǎng)絡(luò);電表;端到端;注意力機制
電表作為一種用電計量工具,在日常生活中發(fā)揮著重要作用。采用人工抄表方法來獲取傳統(tǒng)的沒有物聯(lián)網(wǎng)功能的電表,嚴(yán)重制約了電力企業(yè)的信息化服務(wù)水平。因此如何快速、準(zhǔn)確獲得此類用戶電表的用電信息對于電力企業(yè)具有重要意義。
計算機技術(shù)的發(fā)展推動了電力系統(tǒng)信息化,如智能抄表系統(tǒng)[1]、儲能系統(tǒng)[2]、競價交易[3]和電網(wǎng)巡檢[4]等?;谟嬎銠C技術(shù)的圖像信息檢測與識別方法,可分為兩類:基于人工設(shè)計特征的方法和基于深度學(xué)習(xí)特征的方法。基于人工設(shè)計特征的方法是先通過手工方式獲取圖像特征,再對文本信息進行檢測和識別,如文獻[5-6]采用二值化算法和形態(tài)學(xué)操作,結(jié)合電表示數(shù)的幾何特征定位,根據(jù)數(shù)字的筆畫特征進行識別。在光照充足時,這類方法具有較高的識別精度;而當(dāng)環(huán)境不理想時,它們的識別精度會變差。因此,基于手工設(shè)計特征的方法不但消耗了大量的人力和時間,而且訓(xùn)練時間也比較長,實際檢測效果也并不理想。
基于深度學(xué)習(xí)的方法,如文獻[7]以YOLO算法為基礎(chǔ)使用輕量級的YOLOv2-Tiny網(wǎng)絡(luò)快速定位電表示數(shù)區(qū)域,然后分別使用CR-NET[8]和卷積循環(huán)神經(jīng)網(wǎng)絡(luò)[9]兩種識別方法進行數(shù)字識別,它的識別準(zhǔn)確率達到89.5%;文獻[10]在此基礎(chǔ)上將網(wǎng)絡(luò)升級,提出了輕量級的YOLOv3-Tiny定位和識別網(wǎng)絡(luò)模型,計數(shù)器識別準(zhǔn)確率達到92.13%;文獻[11]同樣以YOLO為基礎(chǔ),采用多閾值軟切分方法進行識別,識別準(zhǔn)確率達到了93.61%;文獻[12]提出了ABCNet(Adaptive Bezier Curve Network),該網(wǎng)絡(luò)集檢測與識別于一體,檢測端結(jié)合了殘差網(wǎng)絡(luò)[13]和特征金字塔網(wǎng)絡(luò)[14]兩種思想,使用貝塞爾曲線擬合文本框;識別端則采用了基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network, CRNN)的輕量級識別算法,準(zhǔn)確率達到了93.56%。顯然,相比較于人工設(shè)計特征方法[5-6],深度學(xué)習(xí)方法[7-12]優(yōu)勢明顯,顯著提升了檢測速度和檢測精度。
本文針對電表用電信息開展智能檢測與識別研究,所提出的網(wǎng)絡(luò)框架檢測準(zhǔn)確率達到了99.86%,識別準(zhǔn)確率為99.08%。本文主要貢獻如下。
1) 在文本檢測方面,改進了特征提取網(wǎng)絡(luò),獲得了更豐富的全局語義。在上采樣過程中,先將前兩級提取的特征作為輸入,使高層的語義信息映射到每一級,與位置信息更好的融合,從而捕獲豐富的多尺度上下文信息。然后將四個特征圖以合并多個數(shù)組的方式連接起來,合成一個高級特征,這樣不僅改善了梯度消失和網(wǎng)絡(luò)退化問題,而且特征增強網(wǎng)絡(luò)使該算法具備檢測多尺度特征的能力。
2) 在文本識別方面,提出了基于改進CRNN的文本識別算法。首先,矯正網(wǎng)絡(luò)選用貝塞爾對齊網(wǎng)絡(luò),采樣網(wǎng)格不再受矩形框的條件限制,將采樣點線性索引后進行雙線性插值,實現(xiàn)圖像矯正和文本對齊。然后,在識別算法中引入門控循環(huán)單元[15](Gate Recurrent Unit, GRU)代替長短期記憶[16](Long Short Term Memory, LSTM)網(wǎng)絡(luò)對特征序列進行編碼,使用結(jié)合注意力機制算法[17]代替連續(xù)時序分類算法(Continuous Temporal Classification, CTC)對特征序列進行解碼,得到最終的識別結(jié)果。消融實驗表明:矯正網(wǎng)絡(luò)可以提升模型性能;GRU的引入可以提高模型精度、降低模型復(fù)雜度;注意力機制對識別效果有明顯提升。
3) 所提出的網(wǎng)絡(luò)框架集檢測與識別于一體,實現(xiàn)了端到端的文本定位和識別,具有網(wǎng)絡(luò)結(jié)構(gòu)簡單、推理速度快、識別精度高,對陰暗、強光、灰塵等復(fù)雜背景具有抗干擾能力等特點。
文本檢測算法可以分為4種類型:基于回歸的方法、基于分割的方法、基于腦神經(jīng)元(Giant Cerebral Neuron, GCN)的方法和基于混合的方法。為了檢測具有不同縱橫比且不規(guī)則形狀的文本,RRD[18]在SSD[19]的基礎(chǔ)上重新設(shè)定錨框,以適應(yīng)不規(guī)則形狀的文本,并減少縱橫比變化所帶來的誤差。Textboxes++[20]則是把卷積內(nèi)核和錨框機制進行修改,以檢測各種形狀的文本。這類算法的局限性在于錨框機制比較復(fù)雜。經(jīng)典的回歸算法CTPN (Connectionist Text Proposal Network)[21]的創(chuàng)新之處在于引入垂直錨框機制,將不同尺寸的文本簡化成多個固定寬度的候選框,能夠檢測多尺度多語言的文本。該類算法的不足之處在于檢測彎曲文本時精度不高。為了解決深度學(xué)習(xí)算法耗時長和彎曲文本檢測精度不高的問題,文獻[22]提出EAST算法,該算法在速度上獲得提升,能直接預(yù)測任意形狀文本,省去了候選方案、文本區(qū)域形成等交互步驟;文獻[23]提出了基于像素分割的漸進尺度擴展網(wǎng)絡(luò),使得該方法可以很好地適用于曲線文本以及區(qū)分距離較近的文本行。但基于分割算法容易受到分割精度和內(nèi)核數(shù)量的影響。文獻[24]提出采用基于頻譜的圖卷積網(wǎng)絡(luò)進行深度關(guān)系推理,適應(yīng)更復(fù)雜情況下任意形狀文本的檢測,但是該方法的泛化能力不理想。
第一種文字識別算法是連續(xù)時序分類算法[25],主要解決輸入序列和輸出序列對應(yīng)的問題,但是在進行去重操作時容易產(chǎn)生誤差,把原本相鄰的兩個相同字符識別成一個。CTC的升級版本GTC[26],是利用CTC進行監(jiān)督和引導(dǎo),并加入GCN圖卷積神經(jīng)網(wǎng)絡(luò)提高模型表達能力,但是前向后向算法實現(xiàn)比較復(fù)雜。第二種文字識別算法是基于注意力機制算法(Attention)[27],提供了一種代替RNN的新思路。文獻[28]在此基礎(chǔ)上提出了融合語句間相互影響的注意力方案。文獻[29]提出了一種基于CNN、RNN和注意力機制的神經(jīng)網(wǎng)絡(luò)模型[30],這類算法識別的準(zhǔn)確率高,但不足之處在于存儲需求和計算消耗較大。第三種文字識別算法是聚合交叉熵[31](Aggregation Cross-entropy, ACE),把每一個時間序列預(yù)測的概率進行聚合再歸一化,具有計算簡單、節(jié)省內(nèi)存的優(yōu)點。
ABCNet是一個可以實現(xiàn)端到端訓(xùn)練的網(wǎng)絡(luò)框架,不需要預(yù)定義錨設(shè)置,并且計算開銷小。它主要包含3個模塊:主干網(wǎng)絡(luò)、貝塞爾檢測網(wǎng)絡(luò)和基于注意力機制的識別模塊,整體結(jié)構(gòu)框架如圖1所示。它的主要步驟包括:首先構(gòu)建50層的殘差神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),用特征金字塔網(wǎng)絡(luò)[14]來提取輸入的圖像特征;然后通過基于貝塞爾曲線檢測算法的單階段無錨網(wǎng)絡(luò)[32]回歸坐標(biāo)點,通過坐標(biāo)點的參數(shù)信息將電表顯示屏中的文字信息框出;接著通過特征匹配算法,將區(qū)域內(nèi)文字特征進行對齊;最后通過一個輕量級的文字識別模型進行文本識別,并以圖像的形式輸出最終的可視化結(jié)果。
圖1 網(wǎng)絡(luò)整體結(jié)構(gòu)
骨干網(wǎng)絡(luò)結(jié)構(gòu)由殘差網(wǎng)絡(luò)構(gòu)成,如圖2所示。首先,利用殘差網(wǎng)絡(luò)提取特征,接著對特征進行融和,然后對文本的位置和語義進行預(yù)測。其中,卷積層每進行一級卷積之后,圖像特征尺寸變成上一級的一半,通道數(shù)變?yōu)樵瓉?倍。該殘差網(wǎng)絡(luò)有2種瓶頸結(jié)構(gòu):BTNK1和BTNK2。當(dāng)特征圖尺寸不相同時,使用BTNK1結(jié)構(gòu)進行連接;當(dāng)特征圖尺寸相同時,使用BTNK2結(jié)構(gòu)進行連接。并采用3*3卷積核進行濾波,減輕上采樣過程帶來的混疊影響。上采樣采用最近鄰插值,將特征圖尺寸擴大2倍。最后,將每一級生成的特征以合并多個數(shù)組的方式進行特征融合。
2.2.1貝塞爾曲線
圖3為電表用電信息的文本框示例,文本框邊界由8個控制點組成,包括4個頂點及兩條長邊上的4個三等分點。利用長邊上的4個控制點分別生成一條貝塞爾曲線。當(dāng)標(biāo)注點大于4個時,可以通過最小二乘法來獲取4個控制點的最優(yōu)參數(shù)組合,實現(xiàn)多邊形標(biāo)注的貝塞爾參數(shù)化。
2.2.2貝塞爾對齊
為了實現(xiàn)端到端訓(xùn)練,通常在連接識別網(wǎng)絡(luò)分支前進行一步預(yù)處理操作,即將候選文本區(qū)域的視覺特征對齊后輸出一個新的特征圖。特征對齊方法主要包括3種方法:感興趣區(qū)域?qū)R法、感興趣區(qū)域池化法[35]和文本對齊采樣法[36]。
圖2 骨干網(wǎng)絡(luò)結(jié)構(gòu)
圖3 文本框示例
為了減輕識別分支的負(fù)擔(dān),文本識別選用輕量級的網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)將提取出的圖像深度特征送入循環(huán),經(jīng)網(wǎng)絡(luò)預(yù)測每幀序列的標(biāo)簽分布,然后使用CTC進行解碼,將特征序列轉(zhuǎn)化為標(biāo)簽序列。改進的CRNN模型結(jié)構(gòu)如圖4所示。它引入門控循環(huán)單元代替長短期記憶網(wǎng)絡(luò),并使用基于注意力機制的解碼器代替CTC,這樣不僅可以降低網(wǎng)絡(luò)的復(fù)雜度,還可以提升網(wǎng)絡(luò)的性能。
圖4 改進的CRNN模型
2.3.1序列建模
經(jīng)過貝塞爾對齊處理的圖像已經(jīng)被調(diào)整成統(tǒng)一的高度和寬度,所以在構(gòu)建卷積特征提取網(wǎng)絡(luò)時,只選取卷積層、池化層和激活函數(shù)的疊加組合。輸入圖像特征可以比較完整地映射到隱藏層,因而可以舍棄全連接層。最終生成的卷積特征圖,可以用于提取特征序列。特征序列的劃分標(biāo)準(zhǔn)則是以列為單位,從左至右每一個像素點生成一個特征向量。也就是說,特征序列的長度就是特征圖的列長,特征序列的寬度則為固定數(shù)值,即一個像素點的大小。
假設(shè)一共輸入條特征序列,理論上每一條序列都會對應(yīng)一個標(biāo)簽,所以循環(huán)層發(fā)揮的主要作用就是對輸入的特征序列進行標(biāo)簽標(biāo)注和標(biāo)簽預(yù)測。一般采用tanh函數(shù)或者Logistic函數(shù)作為激活函數(shù),在進行反向傳播時極易發(fā)生梯度消失或者梯度爆炸現(xiàn)象,影響訓(xùn)練時網(wǎng)絡(luò)的權(quán)重參數(shù)。GRU與LSTM一樣都用于解決長期記憶和反向傳播中的梯度消失和梯度爆炸問題,主要通過引入重置門和更新門來修改循環(huán)神經(jīng)網(wǎng)絡(luò)中隱藏狀態(tài)的計算方式。
考慮到單向的GRU網(wǎng)絡(luò)只能通過一個方向來捕捉其上下文的信息,因此本文采用雙向GRU,從特征序列的兩個方向進行序列建模,然后再拼接得到一個更好的特征序列。雙向GRU網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。這樣的特殊設(shè)計不僅能夠緩解RNN的梯度消失或者梯度爆炸問題,而且可以更好地捕捉到序列上下文之間的內(nèi)部聯(lián)系。
圖5 雙向GRU結(jié)構(gòu)
2.3.2解碼網(wǎng)絡(luò)
解碼網(wǎng)絡(luò)是由引入了注意力機制的雙向GRU網(wǎng)絡(luò)構(gòu)成。它的核心思想是將序列建模所得的特征序列轉(zhuǎn)換為字符序列,得到識別的最終結(jié)果。注意力機制是一種模仿人類視覺注意力的算法,起初將其加入序列到序列模型[37]用于處理圖像中視覺特征對齊和詞嵌入,增強算法的可讀性。注意力處理機制如圖6所示。
圖6 注意力處理機制
這是一種隱式的語義模型,它可以幫助識別之前所學(xué)的語義信息。
為了驗證所提出的電表檢測與識別模型的有效性,在電表數(shù)據(jù)集上進行了5組消融實驗,分別是:(1) 選取近5年提出的文本檢測算法在公開數(shù)據(jù)集和自定義數(shù)據(jù)集上分別進行對比;(2) 探究殘差網(wǎng)絡(luò)的結(jié)構(gòu)和深度對模型的影響;(3) 對比不同Epoch對訓(xùn)練結(jié)果的影響;(4) 對比文本矯正網(wǎng)絡(luò)對識別準(zhǔn)確度的影響;(5) 對比CTC和ATTN兩種不同機制的識別準(zhǔn)確度。
實驗收集并使用2200張coco格式的低壓電表數(shù)據(jù)集。其中,2000張用于訓(xùn)練,剩余的200張用于測試,目標(biāo)區(qū)域為液晶屏的文字區(qū)域。在數(shù)據(jù)集的預(yù)處理階段,采用數(shù)據(jù)增強方法,選擇隨機尺度訓(xùn)練,最小訓(xùn)練尺寸在640~896隨機選取,最大訓(xùn)練尺寸小于1600;在確保文字部分不被裁剪的情況下進行0.1比例隨機尺度裁剪。該自定義的數(shù)據(jù)集具有通用性。
網(wǎng)絡(luò)在一個GTX 2080TiGPU顯卡上進行訓(xùn)練,訓(xùn)練批次為2。初始學(xué)習(xí)率為0.01,分別在迭代次數(shù)為160 000和220 000時乘以0.1,最大迭代次數(shù)為400 000,訓(xùn)練時長大約為1天。
3.3.1文本檢測算法
為了驗證模型對更復(fù)雜情況的魯棒性,選取近5年提出的5種文本檢測算法,在盡量保證公平公正的條件下進行對比實驗。評價指標(biāo)有準(zhǔn)確率、召回率和綜合評價指標(biāo)(值)。衡量檢測效果采用ICDAR 2015數(shù)據(jù)集和自定義的電表數(shù)據(jù)集。表1比較了本文算法和其他算法[20-23]。從表1中可以看出,本文算法在檢測精度上具有一定的優(yōu)越性,因此在后面的實驗中,選擇該算法對電表信息進行定位和預(yù)測。
表1 ICDAR2015和電表數(shù)據(jù)集的檢測結(jié)果比較
3.3.2殘差網(wǎng)絡(luò)結(jié)構(gòu)和深度對模型的影響
為了避免深度神經(jīng)網(wǎng)絡(luò)的梯度消失、梯度爆炸和網(wǎng)絡(luò)退化問題,選取殘差網(wǎng)絡(luò)作為特征提取的主干網(wǎng)絡(luò)。消融實驗選取ResNet34、ResNet50和 ResNet 101殘差網(wǎng)絡(luò)進行對比,實驗結(jié)果如表2所示,可以看出,ResNet50得益于BottleNeck結(jié)構(gòu)的特殊性,在參數(shù)量和精度之間取得了平衡。
3.3.3 Epoch對準(zhǔn)確率的影響
表3為Epoch對準(zhǔn)確率的影響??梢钥闯觯谙嗤臋?quán)重衰減作用下,模型在Epoch = 400,大于或等于0.5和0.75兩個標(biāo)準(zhǔn)下,訓(xùn)練結(jié)果都達到基本穩(wěn)定。
表2 不同深度殘差網(wǎng)絡(luò)的對比結(jié)果
表3 Epoch對準(zhǔn)確率的影響
3.3.4矯正網(wǎng)絡(luò)的有效性研究
為了驗證BezierAlign矯正網(wǎng)絡(luò)對識別性能所起的作用,分別使用帶有BAN網(wǎng)絡(luò)和沒有BAN網(wǎng)絡(luò)的模型在數(shù)據(jù)集上進行消融實驗,對比結(jié)果如表4所示??梢钥闯?,經(jīng)過矯正網(wǎng)絡(luò)處理的識別算法,不僅識別準(zhǔn)確率提升了一個百分點,而且在推理速度方面也沒有引入太多的額外消耗。由此可見,BAN對識別性能具有一定的提升作用。
表4 矯正網(wǎng)絡(luò)有效性的對比結(jié)果
3.3.5基于不同機制的識別準(zhǔn)確度分析
識別準(zhǔn)確度的實驗結(jié)果如表5所示。從表5中可知:GRU和LSTM的識別準(zhǔn)確率相差不大,GRU微微領(lǐng)先,且GRU模型大幅度減少了參數(shù)量、降低了耗時;引入注意力機制后,模型可以更好地獲取特征信息,準(zhǔn)確率提升了3.33%,在耗時、參數(shù)量和精度之間取得了平衡。
表5 不同機制的識別準(zhǔn)確度對比結(jié)果
兩種識別算法的可視化結(jié)果對比如圖7所示,輸出結(jié)果前面的數(shù)字代表在序列結(jié)果中預(yù)測正確的概率,數(shù)值越接近于1,表明可信度越高。其中,左側(cè)為CTC算法的檢測與識別結(jié)果,右側(cè)為本文提出的結(jié)合了注意力機制算法的檢測識別結(jié)果。通過對比可以看出,本文算法具有以下4點優(yōu)勢。
1) 本文所提出的算法,文字區(qū)域檢測的成功率更高,即便受圖片模糊、拍照時相機抖動等因素影響,也能成功定位目標(biāo)文本區(qū)域;相比之下,左圖漏檢了多個文字區(qū)域,如圖7(a)所示。
2) 受圖片模糊、劃痕、污漬、異物遮擋等因素影響時,Attention算法可將電表用電信息相對準(zhǔn)確地檢測并識別出來,且可信度很高,如圖7(b)所示。
3) 處理相鄰的兩個相同字符時,Attention算法可以避免CTC算法中去重操作所帶來的誤差,識別精度更高,如圖7(c)所示。
4) 處理5/6/8/等相似字符時,傳統(tǒng)的CTC算法在字符預(yù)測時,容易出錯,而結(jié)合Attention機制的識別算法錯誤率更低,如圖7(d)所示。
[1] 王鴻璽, 唐如意, 吳一敵, 等. 基于HPLC的智能抄表技術(shù)在客戶側(cè)泛在電力物聯(lián)網(wǎng)中的研究及應(yīng)用[J]. 電力系統(tǒng)保護與控制, 2020, 48(3): 92-98.
WANG Hongxi, TANG Ruyi, WU Yidi, et al. Research and application of smart meter reading technology based on HPLC in customer side universal power internet of things[J]. Power System Protection and Control, 2020, 48(3): 92-98.
[2] 孫立明, 楊博. 蓄電池/超導(dǎo)混合儲能系統(tǒng)非線性魯棒分?jǐn)?shù)階控制[J]. 電力系統(tǒng)保護與控制, 2020, 48(22): 76-83.
SUN Liming, YANG Bo. Nonlinear robust fractional order control of battery/SMES hybrid energy storage systems[J]. Power System Protection and Control, 2020, 48(22): 76-83.
[3] 何黎君, 程杉, 陳梓銘. 考慮交互功率控制和雙邊競價交易的多微電網(wǎng)雙層優(yōu)化調(diào)度[J]. 電力系統(tǒng)保護與控制, 2020, 48(11): 10-17.
HE Lijun, CHENG Shan, CHEN Ziming. A scheduling model of a multi-microgrid system based on bi-layer optimization with consideration of PCC power control and bilateral bidding[J]. Power System Protection and Control, 2020, 48(11): 10-17.
[4] HU Zhuangli, HE Tong, ZENG Yihui, et al. Fast image recognition of transmission tower based on big data[J]. Protection and Control of Modern Power Systems, 2018, 3(2): 149-158.
[5] ANIS A, KHALILUZZAMAN M, YAKUB M, et al. Digital electric meter reading recognition based on horizontal and vertical binary pattern[C] // 3rd International Conference on Electrical Information and Communication Technology (EICT), December 7-9, 2017, Khulna, Bangladesh: 1-6.
[6] ZHANG Yichen, YANG Xinxin, HONG Tao, et al. Digital meter recognition method based on topological features of image contour[C] // IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), June 5-7, 2019, Jeju, South Korea: 1-4.
[7] LAROCA R, BARROSO V A, DINIZ M A, et al. Convolutional neural networks for automatic meter reading[J]. Journal of Electronic Imaging, 2019, 28(1).
[8] SILVA S M, JUNG C R. Real-time Brazilian license plate detection and recognition using deep convolutional neural networks[C] // 2017 30th SIBGRAPI Conference on Graphics, Patterns and Images, October 17-20, 2017, Niteroi, Brazil: 55-62.
[9] SHI Baoguang, BAI Xiang, YAO Cong. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.
[10] 龔安, 張洋, 唐永紅. 基于YOLOv3網(wǎng)絡(luò)的電表示數(shù)識別方法[J]. 計算機系統(tǒng)應(yīng)用, 2020, 29(1): 196-202.
GONG An, ZHANG Yang, TANG Yonghong. Automatic reading method of electric energy meter based on YOLOv3[J]. Computer Systems & Applications, 2020, 29(1): 196-202.
[11] 厲建賓, 張旭東, 吳彬彬. 結(jié)合深度神經(jīng)網(wǎng)絡(luò)和多閾值軟切分的電表示數(shù)自動識別方法[J]. 計算機系統(tǒng)應(yīng)用, 2019, 39(1): 223-227.
LI Jianbin, ZHANG Xudong, WU Binbin. Automatic display number recognition method for electricity energy meter based on deep neural network and multi-threshold soft segmentation[J]. Journal of Computer Applications, 2019, 39(1): 223-227.
[12] HE Kaimng, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA: 770-778.
[13] LIN T Y, DOLLáR P, GIRSHICK R B, et al. Feature pyramid networks for object detection[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA: 936-944.
[14] HE Kaiming, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397.
[15] DEY R, SALEM F. Gate-variants of gated recurrent unit (GRU) neural networks[C] // IEEE 60th International Midwest Symposium on Circuits and Systems, August 6-9, 2017, Boston, MA, USA: 1597-1600.
[16] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[17] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: learning of attention mechanism for visual explanation[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA: 10697-10706.
[18] LIAO Minghui, ZHU Zhen, SHI Baoguang, et al. Rotation-sensitive regression for oriented scene text detection[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA: 5909-5918.
[19] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C] // European Conference on Computer Vision, October 8-16, 2016, Amsterdam, Holland: 21-37.
[20] LIAO Minghui, SHI Baoguang, BAI Xiang. TextBoxes++: a single-shot oriented scene text detector[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3676-3690.
[21] TIAN Zhi, HUANG Weilin, HE Tong, et al. Detecting text in natural image with connectionist text proposal network[C] // European Conference on Computer Vision, October 8-16, 2016, Amsterdam, Holland: 56-72.
[22] ZHOU Xinyu, YAO Cong, WEN He, et al. EAST: an efficient and accurate scene text detector[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition, July 22-25, 2017, Hawaii, USA: 2642-2651.
[23] LI Xiang, WANG Wenhai, HOU Wenbo, et al. Shape robust text detection with progressive scale expansion network[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 16-19, 2019, CA, USA: 9328-9337.
[24] ZHANG Shixue, ZHU Xiaobin, HOU Jiebo, et al. Deep relational reasoning graph network for arbitrary shape text detection[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 14-19, 2020, CA, USA: 9696-9705.
[25] GRAVES A, FERNáNDEZ S, GOMEZ F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C] // Proceedings of the 23rd International Conference on Machine Learning, June 25-29, 2006, PA, USA.
[26] HU Wenyang, CAI Xiaocong, HOU Jun, et al. GTC: guided training of CTC towards efficient and accurate scene text recognition[C] // Association for the Advancement of Artificial Intelligence, February 7-20, 2020, CA, USA.
[27] VASWANI A, SHAZEER NM, PARMAR N. Attention is all you need[J]. ArXiv, abs/1706.03762, 2017.
[28] YIN Wenpeng, SCHüTZE H, XIANG Bing, et al. ABCNN: attention-based convolutional neural network for modeling sentence[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 259-272.
[29] WOJNA Z, GORBAN A N, LEE D, et al. Attention-based extraction of structured information from street view imagery[C] // 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), November 13-15, 2017, Kyoto, Japan: 844-850.
[30] SMITH R, GU C, LEE D, et al. End-to-end interpretation of the French street name signs dataset[C] // European Conference on Computer Vision, Part I, LNCS 9913, October 8-16, 2016, Amsterdam, Holland: 411-426.
[31] XIE Zecheng, HUANG Yaoxiong, ZHU Yuanzhi, et al. Aggregation cross-entropy for sequence recognition[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 16-19, 2019, CA, USA: 6531-6540.
[32] TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS: fully convolutional one-stage object detection[C] // IEEE/CVF International Conference on Computer Vision, October 27-November 2, 2019, Seoul, Korea (South): 9626-9635.
[33] LIU Yuliang, CHEN Hao, SHEN Chunhua, et al. ABCNet: real-time scene text spotting with adaptive Bezier-curve network[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 14-19, 2020, CA, USA: 9806-9815.
[34] LORENTZ G G. Bernstein polynomials[M]. American Mathematical Soc., 2013.
[35] LI Hui, WANG Peng, SHEN Chunhua. Towards end-to-end text spotting with convolutional recurrent neural networks[C] // IEEE ?International Conference on Computer Vision, October 22-29, 2017, Venice, Italy: 5238-5246.
[36] HE Tong, TIAN Zhi, HUANG Weilin, et al. An end-to-end textspotter with explicit alignment and attention[C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-22, 2018, Salt Lake City, USA: 5020-5029.
[37] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C] // Neural Information Processing Systems, December 8-13, 2014, Montreal, Canada.
Recognition algorithm of electricity consumption information of an electric energy meter based on an adaptive Bezier curve network
SUN Fuming1, GAO Yan1, XU Rui1, LI Mingyuan1, WEI Xiaoming2
(1. School of Information and Communication Engineering, Dalian Minzu University, Dalian 116600, China;2. Network Center, Dalian Minzu University, Dalian 116600, China)
The power sector can collect user electricity information quickly and accurately using computer vision technology. Given the problems of low precision and slow speed of traditional algorithms, a recognition algorithm of electricity consumption information based on an adaptive Bezier curve network is proposed. The framework integrates detection and recognition, and realizes end-to-end text location and prediction. The detection end extracts the feature from the input image by combining a feature pyramid and residual networks, and generates a Bezier curve through four control points, which can better fit the text box. A convolutional recurrent neural network is adopted at the recognition end, and the gate recurrent unit is introduced to replace the long short-term memory network, and is then combined with the attention mechanism to recognize the text. Finally, five ablation experiments are carried out on the data set for performance comparison and evaluation analysis. The results show that the recognition accuracy of the algorithm is up to 99.08%, and the reasoning speed is fast. It can be used in the practical application of electricity consumption information detection and recognition.
machine vision; adaptive Bezier curve network; electric energy meter; end-to-end; attention mechanism
10.19783/j.cnki.pspc.211176
國家自然科學(xué)基金項目資助(61976042);興遼英才計劃項目資助(XLYC2007023)
This work is supported by the National Natural Science Foundation of China (No. 61976042).
2021-08-28;
2022-01-26
孫福明(1972—),男,博士,教授,研究生導(dǎo)師,研究方向為智能檢測與模式識別;E-mail:sunfuming@dlnu.edu.cn
高 嚴(yán)(1992—),男,碩士研究生,研究方向為智能檢測與模式識別;E-mail: 863450662@qq.com
魏曉鳴(1963—),男,通信作者,博士,教授,研究方向為人工智能與機器學(xué)習(xí)。E-mail: xmwei@dlnu.edu.cn
(編輯 許 威)