王 彬,徐士林,侯 偉
(襄陽(yáng)華潤(rùn)燃?xì)庥邢薰?湖北 襄陽(yáng) 441000)
攝像燃?xì)獗淼脑硎窃谄胀ㄈ細(xì)饣淼幕A(chǔ)上,通過(guò)加裝帶攝像頭模塊和通信模塊的卡扣來(lái)實(shí)現(xiàn)燃?xì)獗淼倪h(yuǎn)程感知。其中,光學(xué)字符識(shí)別算法(Optical Character Recognition,OCR)是攝像燃?xì)獗硌芯康暮诵膬?nèi)容,決定著攝像燃?xì)獗淼纳蠄?bào)準(zhǔn)確率。OCR的早期研究可以追溯到20世紀(jì)20年代和20世紀(jì)30年代,當(dāng)時(shí)研究人員開(kāi)始嘗試開(kāi)發(fā)機(jī)械設(shè)備來(lái)自動(dòng)識(shí)別印刷文本[1]。OCR技術(shù)經(jīng)歷了多個(gè)階段的發(fā)展,從早期的機(jī)械方法到基于光學(xué)的方法,再到數(shù)字圖像處理和深度學(xué)習(xí)方法。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的崛起,OCR技術(shù)迎來(lái)了重大突破。深度學(xué)習(xí)方法使OCR系統(tǒng)能夠更好地適應(yīng)不同字體、字號(hào)和手寫(xiě)風(fēng)格,大大提高了準(zhǔn)確性,并廣泛用于文檔掃描、數(shù)字化圖書(shū)館、自動(dòng)數(shù)據(jù)輸入等領(lǐng)域[2-5]。
在使用深度學(xué)習(xí)進(jìn)行數(shù)字字符識(shí)別方面,Lecun等[6]于1998年提出了基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字手寫(xiě)體識(shí)別系統(tǒng)LeNet-5,并創(chuàng)建了著名的手寫(xiě)數(shù)字圖像數(shù)據(jù)集MNIST,LeNet-5在MNIST數(shù)據(jù)上的準(zhǔn)確率達(dá)到了99.2%。此后,深度學(xué)習(xí)在圖像處理領(lǐng)域進(jìn)入高速發(fā)展期,2012年誕生的AlexNet是一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),相對(duì)于之前的LeNet-5來(lái)說(shuō)更深。它在ImageNet圖像分類(lèi)競(jìng)賽中取得了巨大成功,通過(guò)深層網(wǎng)絡(luò)和隨機(jī)裁剪等創(chuàng)新性方法,大幅提高了分類(lèi)準(zhǔn)確度[7]。2014年,VGG-Net在AlexNet的基礎(chǔ)上進(jìn)一步增加了網(wǎng)絡(luò)的深度,它以均勻的卷積層堆疊為特點(diǎn),使用小尺寸的卷積核和深層結(jié)構(gòu),提高了特征提取的性能[8]。2014年,GoogleNet引入了Inception模塊,這是一種結(jié)合不同尺寸的卷積核和池化操作的模塊。它通過(guò)多個(gè)分支的并行計(jì)算來(lái)提高特征表達(dá)能力,從而在ImageNet競(jìng)賽中獲得了顯著的成功[9-11]。2016年何凱明提出了殘差網(wǎng)絡(luò)ResNet。ResNet是一種革命性的網(wǎng)絡(luò)結(jié)構(gòu),引入了殘差學(xué)習(xí)機(jī)制,允許網(wǎng)絡(luò)通過(guò)跳躍連接學(xué)習(xí)殘差,從而解決了深度網(wǎng)絡(luò)中的梯度消失和退化問(wèn)題。ResNet可以訓(xùn)練更深的網(wǎng)絡(luò),提高了特征的表示能力[12-13]。
攝像燃?xì)獗碇饕獞?yīng)用在普通基表的遠(yuǎn)傳改造上。在這種場(chǎng)景下,由于基表所屬的廠商不同,字輪圖像存在顯著的差異。這些差異包括字符的大小、字符的類(lèi)型、字體的亮度和字符所在子區(qū)域的圖像結(jié)構(gòu)。其中,子區(qū)域的圖像結(jié)構(gòu)是否包含干擾行是影響模型準(zhǔn)確率的最主要因素(見(jiàn)圖1)。
圖1 不同基表廠商字符區(qū)域結(jié)構(gòu)上的差異
這些干擾行存在3個(gè)特征:(1)干擾行主要集中在上/下兩端;(2)干擾行主要體現(xiàn)為背景,即純白色或純黑色;(3)以行為計(jì)量單位,干擾行的像素標(biāo)準(zhǔn)差遠(yuǎn)低于數(shù)據(jù)行。因而,本文將行亮度標(biāo)準(zhǔn)差作為一個(gè)注意力機(jī)制引入識(shí)別模型。
如圖2所示,模型將字輪圖像統(tǒng)一為28×28的灰度圖像,將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)的第1卷積層中,經(jīng)過(guò)6個(gè)5×5卷積核計(jì)算后,生成6×24×24的特征向量圖;經(jīng)過(guò)第1池化層2×2最大下采樣后,生成6個(gè)12×12規(guī)模的特征向量圖。第2卷積層經(jīng)過(guò)12個(gè)5×5×6卷積核后,生成12×8×8的特征向量圖;經(jīng)過(guò)第2池化層的1×2最大下采樣后,生成12個(gè)規(guī)模為8×4的特征向量圖。
圖2 字符識(shí)別模型
計(jì)算字輪圖像每一行的最大類(lèi)間方差總計(jì)28個(gè)數(shù)據(jù)輸入,通過(guò)包含4個(gè)神經(jīng)元的隱藏層接入第2池化層的輸出向量,構(gòu)建1個(gè)392維的特征向量,后接入全連接層完成圖像的模式分類(lèi)。
最大類(lèi)間方差通過(guò)逐行計(jì)算的方式獲得。統(tǒng)計(jì)每行像素的最小灰度值qmin,最大灰度值qmax。遍歷[qmin,qmax]之間的每一個(gè)灰度水平vi。在灰度水平vi下,統(tǒng)計(jì)該行灰度值小于vi的像素點(diǎn)數(shù)量ω0,像素平均值μ0;統(tǒng)計(jì)該行灰度值大于等于vi的像素點(diǎn)數(shù)量ω1,像素平均值μ1,則在灰度水平vi下,類(lèi)間方差gi為:
gi=ω0ω1(μ0-μ1)2
(1)
行最大類(lèi)間方差
gotu=maxv(g)
(2)
第2池化層輸出的特征圖上,由于每行特征點(diǎn)的感受野為原圖像的3~4行數(shù)據(jù)規(guī)模,因而等同于將原圖像按行劃分為了8塊。將行的最大類(lèi)間方差引入模型,是為了給定每一特征塊的權(quán)重參考因子。這個(gè)模型是針對(duì)不同燃?xì)饣淼膱D像差異來(lái)設(shè)計(jì)的,從而在淺層網(wǎng)絡(luò)上擁有更好的泛化能力。
燃?xì)獗碜州唸D像的數(shù)字識(shí)別是一種分界線模糊的圖像分類(lèi)問(wèn)題。這是因?yàn)槿細(xì)獗碜州喌霓D(zhuǎn)動(dòng)是一個(gè)連續(xù)的過(guò)程,字輪的狀態(tài)既有可能出現(xiàn)完整字符的情況,也有可能出現(xiàn)半字符的情況。如圖3所示,左圖字符“5”和右圖字符“6”為完整字符,中間屬于字符“5”和字符“6”的半字符狀態(tài)。末位字輪有一定的概率處于完整字符與半字符之間的狀態(tài)。如果對(duì)于這種狀態(tài)不加以判別,模型收斂困難。
圖3 末位連續(xù)字輪圖像
(3)
其中,m為2個(gè)完整字符之間齒輪轉(zhuǎn)動(dòng)的總次數(shù);n為上一個(gè)完整字符后齒輪轉(zhuǎn)動(dòng)的總次數(shù)。以任意2張圖像作為輸入,隸屬度函數(shù)差作為標(biāo)簽,訓(xùn)練一個(gè)孿生網(wǎng)絡(luò)。在孿生網(wǎng)絡(luò)的調(diào)整下,完整字符和半字符的n維特征在歐氏空間上可分。
在訓(xùn)練階段模型輸入為2張圖像。狀態(tài)特征提取器用于分別提取2張字輪圖像的圖像特征,是一個(gè)淺層卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)(見(jiàn)圖4)。該淺層CNN的第1層為輸入層、第2層為卷積層A、第3層為池化層A、第4層為卷積層B、第5層為池化層B。度量計(jì)算為全連接層,拼接2個(gè)圖像的特征向量,輸出2張圖像的隸屬度函數(shù)差fout。
圖4 字符判別模型
定義一個(gè)隸屬度函數(shù)水平值λ(λ<0.4),將隸屬度函數(shù)xA<λ的全體圖像稱為第1水平截集,將(1-xA)<λ的全體圖像稱為第2水平截集,其余稱為第3水平截集。
訓(xùn)練分為2個(gè)階段,第1階段使用全體數(shù)據(jù)訓(xùn)練判別網(wǎng)絡(luò)。第2階段訓(xùn)練字符識(shí)別網(wǎng)絡(luò)。使用第1水平截集和第3水平截集訓(xùn)練字符識(shí)別模型1,由第2水平截集和第3水平截集訓(xùn)練字符識(shí)別模型2。第3水平截集同時(shí)放置在2個(gè)識(shí)別模型的訓(xùn)練集里以增加模型的泛化能力。
預(yù)測(cè)階段,首先使用判別網(wǎng)絡(luò)提取圖像特征,并與完整字符的標(biāo)準(zhǔn)特征做度量計(jì)算。然后,根據(jù)判別網(wǎng)絡(luò)的輸出fout與水平值λ的大小,判斷使用哪種識(shí)別網(wǎng)絡(luò)。若fout<λ,使用字符識(shí)別模型1;若fout>(1-λ),則使用判別模型2;介于其中則可使用任意模型。通過(guò)對(duì)數(shù)據(jù)集進(jìn)行模糊截?cái)?識(shí)別網(wǎng)絡(luò)得以收斂。
攝像燃?xì)獗碓谙尻?yáng)華潤(rùn)燃?xì)庥邢薰鹃_(kāi)展試點(diǎn)跟蹤。芯片使用低功耗MCU,STM32 M4的內(nèi)核,Nb-IoT通信。工作電壓3.3 V,工作電流小于100 mA,設(shè)備休眠時(shí)工作電流小于10 μA。設(shè)備同時(shí)上報(bào)圖像和表端識(shí)別讀數(shù)以方便比對(duì)準(zhǔn)確率。燃?xì)饣韥?lái)自海立、山城 、丹東等不同廠商。自2020年12月30日—2021年04月07日,剔除掉通信異常數(shù)據(jù),總共進(jìn)行了10 090次的表端識(shí)別,僅有1次識(shí)別錯(cuò)誤,識(shí)別準(zhǔn)確率大于99.99%。
在可預(yù)見(jiàn)的相當(dāng)一段時(shí)間內(nèi),傳統(tǒng)的機(jī)械字輪燃?xì)獗砣匀徽加邢喈?dāng)?shù)氖袌?chǎng)份額。攝像燃?xì)獗硪云涑杀镜土?、不?dòng)火作業(yè)、可追溯等優(yōu)點(diǎn)在舊表改造中起到重要的作用。本文提出的燃?xì)庾州喿R(shí)別模型,針對(duì)不同燃?xì)饣韽S商圖像結(jié)構(gòu)上的差異,引入了“行最大類(lèi)間方差”作為注意力機(jī)制;針對(duì)連續(xù)字輪的問(wèn)題,引入模糊數(shù)學(xué)隸屬度來(lái)作連續(xù)字輪圖像分類(lèi)。試點(diǎn)應(yīng)用結(jié)果表明,該模型可運(yùn)行在單片機(jī)等低功耗設(shè)備上,從而可以降低網(wǎng)絡(luò)負(fù)載和功耗,且識(shí)別準(zhǔn)確率大于99.99%。