丁宸煬 馬曉普 葉菁
摘? 要: 基于人工智能的卷積神經(jīng)網(wǎng)絡(luò)框架,對電表采用輪廓分析進行特征提取,實現(xiàn)0到9的電表數(shù)字識別。步驟是先通過設(shè)備拍攝電表讀數(shù),獲得圖像后對圖像進行灰度化和二值化處理,然后進行字符分割、圖像識別和相應(yīng)的特征值提取,最后識別出電表的讀數(shù)。
關(guān)鍵詞: 人工智能; 抄表; 卷積網(wǎng)絡(luò); 分割
中圖分類號:TP18? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)04-94-04
Design of artificial intelligence for remote meter reading
Ding Chenyang, Ma Xiaopu, Ye Jing
(School of software, Nanyang Normal University, Nanyang, Henan 473061, China)
Abstract: Based on the convolutional neural network framework of artificial intelligence, the contour analysis is used to extract the features of the meter, and digital recognition from 0 to 9 of the meter is realized. The step is to take the reading of the meter through the equipment, obtain the image, then grayscale processing and binary processing are carried out for the image, and carry out the character segmentation, image recognition and the corresponding feature value extraction, and finally recognize the reading of the meter.
Key words: artificial intelligence; meter reading; convolutional network; segmentation
0 引言
在我國,仍然有一些偏遠地區(qū)和落后地區(qū)在用著比較老式的電表。而為了統(tǒng)計每家每戶的電的使用情況,就會派遣大量的勞動力進行手動抄寫與記錄,投入巨大的人力物力。并且會因某些人為因素?zé)o法準確的抄寫電表度數(shù),出現(xiàn)讀錯和漏讀的情況,其投入成本也大大提升。同時,我國某些地方的水電站或者其他需要用到儀表的危險區(qū)域,也需要派遣相關(guān)的工作人員進行手動抄寫,增加了工作量和工作人員的生命危險,工作效率也低下。所以我們研究了基于人工智能的深度學(xué)習(xí)電表讀數(shù)識別軟件,希望能為一些人工抄取讀數(shù)比較困難或者在比較危險地域工作的人員提供一些技術(shù)手段。我們的研究在一些電表使用需求比較多的地方,還可以進行電表數(shù)據(jù)的實時監(jiān)控。
本設(shè)計通過基于深度學(xué)習(xí)將電表數(shù)字讀出,減少人力物力的投入,并且減輕抄表工作負擔(dān)和降低生命風(fēng)險,具備了一定的科學(xué)研究價值和應(yīng)用價值。
1 圖片切割處理
電表數(shù)字是連在一起的,需要進行分割,然后對單個數(shù)字進行識別處理。圖像分割,可以看作是通過圖像的某些特征或者某些特征的相關(guān)集合,例如灰度,顏色,紋理等等的相似性原則,從而對某些圖像的像素進行分類,把圖像的平面分成具有一些一致性的不重疊的區(qū)域。圖像分割的常用方法有基于閾值的分割方法[1],基于邊緣的分割方法,基于區(qū)域的分割方法,基于圖論的分割方法,基于能量泛函的分割方法等[2-4]。
閾值法的主要原理是通過圖像的灰度特征從而得到計算灰度相關(guān)閾值,然后把每一個像素的灰度值和規(guī)定好的閾值進行數(shù)值上的比較,并且通過相關(guān)的計算機語言算法把比較的結(jié)果放入到較合適的組中。足以可見,閾值的確定是關(guān)鍵,因為可以通過閾值將我們獲取的圖像進行合理切割。而如今在圖像切割問題上,有許多高效的切割方法為我們提供了有效的解決方案。比如邊緣法、區(qū)域法、圖論法、能量泛函法等等。
邊緣法指的是對灰度值的邊緣進行檢測,但是對噪聲比較敏感是一個不足點。當噪聲的頻率較大時,即使其幅值很小,也可能會導(dǎo)致錯誤的測試結(jié)果。所以我們通常需要結(jié)合濾波器一同使用。比較常見的有Sobel算子等。
區(qū)域法是通過相似性原則將我們所獲取的圖像區(qū)分為不同的模塊,通常會使用種子區(qū)域生長、區(qū)域分裂合并和分水嶺等方法。
圖論法是將圖像分割與圖的最小剪切問題進行融合。其實質(zhì)便是將特定的邊移除,將圖像分成為幾個子圖,從而完成對目標圖像的分割。因為每一個像素之間都會被賦予一個權(quán)值。由此可見,圖論法對目標的形狀并不敏感,有可能會出現(xiàn)運算時間過長的問題。
能量泛函法主要指的是基于活動輪廓模型的相關(guān)算法,其基本原理是通過連續(xù)曲線來表示所需的目標邊緣,而分割過程便是求解能量泛函的最小值的過程,可以使用歐拉方程來實現(xiàn)這個需求,當能量達到最小時其曲線位置就是我們目標輪廓所在。
圖像分割技術(shù)一直以來與信息領(lǐng)域的其他學(xué)科有著許許多多的內(nèi)在聯(lián)系,數(shù)學(xué)、人工智能、計算機等學(xué)科中新理論和新技術(shù)的出現(xiàn),蘊育出了許多結(jié)合特定理論的分割方法,例如基于小波分析的多尺度分割技術(shù)、基于人工神經(jīng)網(wǎng)絡(luò)的分割技術(shù)、基于隨機場理論的分割技術(shù)等,新的分割方法出現(xiàn),使得圖像分割的研究趨向?qū)嵱没⒅悄芑⒍鄻踊?/p>
我們采用了簡便的閾值法進行電表圖像分割。因電表表盤圖像每個像素點都是三色的。一般在這種三色RGB通道下,我們很難將我們所需要的數(shù)字和背景很好的區(qū)分出來,所以需要對電表表盤圖像進行一些相關(guān)的預(yù)處理,首先我們將每個像素的RGB值都用一個權(quán)值代表,該值一般被稱為灰度值。如果大于設(shè)定好的閾值就為黑色,反之為白色,我們在這里將閾值設(shè)置為160。我們可以用0或1來分別表示白與黑。為了更加方便理解,我們可以假設(shè)現(xiàn)有一張電表表盤圖像,背景的灰度值集中在200上下,而字符的灰度值集中在30左右,那么就可以規(guī)定一個中間值,如果這個像素點小于這個值我們不妨將其全部變成0,大于這個值的像素點全部設(shè)為1,如此一來就實現(xiàn)了簡單的分類。經(jīng)過上述處理,圖片已成為一個二進制矩陣,0是背景,1是字符(也可定義以0為字符,1為背景,具體根據(jù)研究需要),然后將每一列的1和0分別統(tǒng)計,根據(jù)每一列的二進制總和來切割字符。
2 卷積神經(jīng)網(wǎng)絡(luò)識別電表數(shù)字
深度學(xué)習(xí)常用架構(gòu)分為深度神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)等[5]。深度神經(jīng)網(wǎng)絡(luò)是基于感知機的擴展,有很多層或很多感知機的神經(jīng)網(wǎng)絡(luò)。英文名字叫multi-Layer perceptron或者deep neural network。初始的深度神經(jīng)網(wǎng)絡(luò)存在一些問題,采用的是全連接的形式,隱藏層可以用很多層,每相鄰的兩層之間是全連接的。導(dǎo)致出現(xiàn)數(shù)量巨大的權(quán)值參數(shù),容易過擬合。
隨著神經(jīng)網(wǎng)絡(luò)的加深,優(yōu)化函數(shù)易陷入局部最優(yōu)解,與真正的最優(yōu)解偏離太多,性能甚至不如淺層網(wǎng)絡(luò)。選用sigmoid來激活傳遞函數(shù),梯度會衰減,隨著層數(shù)的增加衰減累積,最后梯度基本為0。關(guān)于數(shù)值為1的元素,在舉行反向傳播梯度運算時,每傳送一層,梯度衰減為本來的1/4。梯度指數(shù)衰減后低層基本上接受不到有效的信息,進而無法對時間序列上的變化進行建模。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network),適合處理高維的大數(shù)據(jù)。因為不是全部的上下層神經(jīng)元都直接連接,而是通過卷積核進行操作。同一個卷積核在所有圖像內(nèi)是同享的,圖像經(jīng)過卷積操縱后仍然可保留原先的位置干系。對于圖像,若是沒有卷積操縱,學(xué)習(xí)的參數(shù)量將龐大無比。由于卷積神經(jīng)網(wǎng)絡(luò)縮小了參數(shù)的個數(shù)并突出了局部結(jié)構(gòu)的這個特點。每層神經(jīng)元的信號只可向上一層傳播,樣本的處置在各個時候獨立,于是卷積神經(jīng)網(wǎng)絡(luò)又被稱為前向神經(jīng)網(wǎng)絡(luò)。
基于深度學(xué)習(xí)框架的卷積神經(jīng)網(wǎng)絡(luò),包括卷積層,激活層,池化層,全連接層等。卷積層主要的功能是進行提取特征,我們通過卷積核進行特征提取與映射,在卷積層中它的內(nèi)部包含一個或者多個卷積核,同時,構(gòu)成卷積核的每一個元素都會同時對應(yīng)一個權(quán)重系數(shù)w和一個偏差量b,類似于一個前向傳播神經(jīng)網(wǎng)絡(luò)的神經(jīng)元。與此同時,卷積層中的每一個神經(jīng)元都與前一層中地方靠近區(qū)域的多個神經(jīng)元連接。最重要的是,區(qū)域的大小取決于卷積核的大小。在我們研習(xí)的過程中,卷積層包含卷積核大小、步長和填充三個元素,三者協(xié)同決定了卷積層輸出特征圖的大小。我們在對圖像特征提取的過程中,時常會使用按0填充或重復(fù)邊界值填充。由于卷積是一種線性的運算,所以我們需要增加一些非線性的映射,比如卷積層中包含激勵函數(shù)來幫助表達其復(fù)雜的特征。在這里要說明一點,激勵函數(shù)的操作通常在卷積層之后,但是激勵函數(shù)在一些預(yù)激活技術(shù)的算法中是位于卷積層之前使用的。
通過卷積層和激活層后,我們將使用池化層來進行下采樣,對切割后的電表表盤圖做一些稀疏處理,因為這樣可以減少一些數(shù)據(jù)運算量。在卷積層做特征提取后,輸出的特征圖會被傳送到池化層進行信息過濾和特征揀選。其中,池化層包含預(yù)設(shè)定好的池化函數(shù),預(yù)設(shè)定好的池化函數(shù)的功能是將特征圖中的單個點結(jié)果替換為它的相鄰區(qū)域的特征圖統(tǒng)計量。池化層選擇池化區(qū)域與卷積核掃描特征圖的過程一致,由池化大小、步長和填充控制三個元素共同來確定。在我們的小組學(xué)習(xí)中,學(xué)習(xí)到較于均值與極大池化,混合池化與隨機池化也具有正則化功能,這樣對避免卷積神經(jīng)網(wǎng)絡(luò)的過擬合有好處。
全連接層的作用是通常在卷積神經(jīng)網(wǎng)絡(luò)的尾部進行重新擬合,這樣的話就可以減少特征信息的損失。卷積神經(jīng)網(wǎng)絡(luò)中的全連接層與傳統(tǒng)前向傳播神經(jīng)網(wǎng)絡(luò)中的隱含層等同。全連接層正常情況下位于卷積神經(jīng)網(wǎng)絡(luò)隱含層的最后部分,且只向其他全連接層傳遞信號。相關(guān)的特征圖在全連接層中將失去空間拓撲結(jié)構(gòu),同時會被展開為向量與激勵函數(shù)。在學(xué)習(xí)中,我們明白了卷積神經(jīng)網(wǎng)絡(luò)中卷積層和池化層能對輸入數(shù)據(jù)進行一些特征提取,而全連接層的作用是對提取的特征進行非線性組合來獲得輸出,故我們不期望全連接層本身具有特征提取的功能,而是希望利用現(xiàn)有特征來完成本項目的學(xué)習(xí)目標。
3 實驗與結(jié)論
整理收集數(shù)據(jù)集,從生活中和互聯(lián)網(wǎng)上搜集,搜集到相關(guān)儀表數(shù)字圖片,圖片數(shù)字按照0-9共計10個數(shù)字分門別類進行保存和整理,每個數(shù)字大約有50張數(shù)據(jù)圖片,整個數(shù)據(jù)集共計500張,整理到一個文件夾,并制作成相關(guān)的數(shù)據(jù)集,以方便在后續(xù)的模型訓(xùn)練中使用和提取。電表圖片分割之后,將每一個字符的圖片分割出來并且制作好相應(yīng)的數(shù)據(jù)集后,就可以根據(jù)模板來判斷是哪個字符了。對制作的500張圖片的數(shù)據(jù)集不斷的糾正和優(yōu)化。然后,將制作好的0-9的數(shù)據(jù)集喂入卷積神經(jīng)網(wǎng)絡(luò),提取數(shù)字,經(jīng)過前向傳播,反向傳播等方法進行訓(xùn)練,并且得到相應(yīng)的訓(xùn)練模型,并通過一些相關(guān)的算法進行模型的準確率的調(diào)整和提升,檢驗相應(yīng)模型的準確率。經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,可以達到良好的準確率。最后將準備好的電表圖片喂入模型,進行測試,實驗證明,都可以識別出來。電表數(shù)字如圖1所示,灰度圖片如圖2所示。數(shù)字的識別效果如圖3所示。
基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)框架實現(xiàn)了對電表讀數(shù)識別,在排除干擾的基礎(chǔ)上,識別精度可以達到98%以上。但僅適用于要求不高的一些場景,對電表儀表數(shù)字圖片的清晰度有較高的要求。項目的成果可以為社會帶來很大的經(jīng)濟效益,我國國土遼闊,有很多地方交通不方便,抄表需要消耗巨大的人力物力,費時費力效率低,而我們通過遠程拍照就可以實時識別出電表讀數(shù),進而提高工作效率。抄表的工作人員不再需要一家一戶的上門登記,各方都得到了便利。
參考文獻(References):
[1] 舒紅平,蔣建民.基于灰度最優(yōu)閾值的圖像分割方法及應(yīng)用[J].重慶工商大學(xué)學(xué)報(自然科學(xué)版),2003.20(4):80-83
[2] 劉瑞林,謝芳,肖承文.基于小波變換圖像分割技術(shù)的電成像測井資料裂縫、孔洞面孔率提取方法[J].地球物理學(xué)報,2017.60(12):4945-4955
[3] 陳超,宣士斌,雷紅軒.基于狼群算法與二維最大熵的圖像分割[J].計算機工程,2018.1:233-237
[4] 張軍國,馮文釗,胡春鶴.無人機航拍林業(yè)蟲害圖像分割復(fù)合梯度分水嶺算法[J].農(nóng)業(yè)工程學(xué)報,2017.33(14):93-99
[5] 曾鋒,曾碧卿,韓旭麗.基于雙層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)的方面級情感分析[J].中文信息學(xué)報,2019.33(6).