陳紅梅 李晟 李玉曉
收稿日期:2023-03-20
基金項(xiàng)目:江西省教育廳科技研究項(xiàng)目(GJJ210816)
DOI:10.19850/j.cnki.2096-4706.2023.21.015
摘? 要:設(shè)計(jì)了基于STM32的手寫數(shù)字識別平臺,首先,利用MNIST數(shù)據(jù)集去訓(xùn)練和測試BP神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏重,在得到理想的訓(xùn)練結(jié)果后結(jié)束訓(xùn)練和測試;其次,利用C語言編寫識別模型并移植至STM32單片機(jī)硬件平臺;最后,利用STM32單片機(jī)硬件平臺上的可觸摸屏采集實(shí)時書寫的0~9中任意數(shù)字進(jìn)行實(shí)驗(yàn),利用串口打印識別結(jié)果并進(jìn)行統(tǒng)計(jì),實(shí)驗(yàn)結(jié)果表明,該平臺能夠準(zhǔn)確識別手寫數(shù)字。
關(guān)鍵詞:STM32單片機(jī);手寫數(shù)字識別;BP神經(jīng)網(wǎng)絡(luò);C語言
中圖分類號:TP391.4;TP274+.2;TP183 ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2023)21-0063-05
Design and Implementation of the Handwritten Digital Recognition Platform
Based on STM32
CHEN Hongmei, LI Sheng, LI Yuxiao
(School of Science, Jiangxi University of Science and Technology, Ganzhou? 341000, China)
Abstract: A handwritten digital recognition platform based on STM32 is designed. Firstly, the MNIST dataset is used to train and test the weights and biases of the BP neural network. After obtaining ideal training results, the training and testing are completed; secondly, the recognition model is written in C language and ported to the STM32 Single-Chip Microcomputer hardware platform. Finally, the touchable screen on the STM32 Single-Chip Microcomputer hardware platform is used to collect any number from 0 to 9 in real-time writing for experiments. Using serial port to print recognition results and perform statistics. The experimental results show that the platform can accurately recognize handwritten numbers.
Keywords: STM 32 Single-Chip Microcomputer; handwritten digital recognition; BP neural network; C language
0? 引? 言
手寫數(shù)字識別是處理當(dāng)代眾多數(shù)字信息的重要應(yīng)用之一,它可以用于計(jì)算機(jī)自動識別手寫阿拉伯?dāng)?shù)字,是光學(xué)字符識別(Optical Character Recognition, OCR)的一個分支[1]。該技術(shù)的研究目的是將大量的人書寫在紙張上的阿拉伯?dāng)?shù)字錄入到計(jì)算機(jī)中并且進(jìn)行處理,從而轉(zhuǎn)換為計(jì)算機(jī)中的數(shù)字,比如信件上面手寫的郵政編碼、公司內(nèi)部的各種報表和稅務(wù)系統(tǒng)中的眾多統(tǒng)計(jì)數(shù)據(jù)、銀行內(nèi)的各種票據(jù)上的手寫數(shù)字、試卷上的準(zhǔn)考證號、物流行業(yè)中手寫快遞單據(jù)等手寫數(shù)字的錄入[2]。并且隨著時間推移,世界信息化進(jìn)程的加快、經(jīng)濟(jì)的高速發(fā)展以及人們對自動化要求的日益提高,手寫數(shù)字識別的應(yīng)用需求越來越迫切[3]。
手寫數(shù)字識別方法大致可以分為基于統(tǒng)計(jì)特征分類的識別方法、基于結(jié)構(gòu)特征分類的識別方法和基于神經(jīng)網(wǎng)絡(luò)的識別方法三類[2]。第一類方法包括模板匹配法等;第二類方法則是需要盡量抽取數(shù)字骨架或者是輪廓特征的信息;第三種方法直接利用神經(jīng)網(wǎng)絡(luò)算法提取字符特征,然后達(dá)到識別字符的目的[4]。常見的手寫數(shù)字識別方法一般是將基于結(jié)構(gòu)的識別方法和模板匹配法兩相結(jié)合,但是此方法的可靠性和準(zhǔn)確性都有所欠缺[5]。近年來人工智能技術(shù)取得了巨大發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的識別方法具有可以同時處理各種相關(guān)信息、自行優(yōu)化組織、自動學(xué)習(xí)信息、識別速度快等優(yōu)點(diǎn),特別適用于手寫數(shù)字識別問題[6]。
STM32單片機(jī)是一款功能強(qiáng)大、價格相對較低、被廣泛使用的單片機(jī),它采用了ARM內(nèi)核和集成DSP處理器的設(shè)計(jì),配置了豐富的接口、完善的通信模塊以及很多其他功能組件,同時它還提供了多樣的開發(fā)資料和完備的開發(fā)工具,可以選擇的單片機(jī)型號種類非常多;除此之外,STM32單片機(jī)基本不需要額外的硬件擴(kuò)展就可以進(jìn)行開發(fā),功耗小,能夠支持長時間的高精度浮點(diǎn)運(yùn)算,并且具有較強(qiáng)的實(shí)時性,適合用于實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的運(yùn)算[7]。
綜上所述,本文提出一種基于STM32單片機(jī)的手寫數(shù)字識別平臺,該平臺包括了識別算法和基于STM32單片機(jī)的運(yùn)算處理硬件,能夠從手寫數(shù)字圖片中自主學(xué)習(xí)到有效特征并對數(shù)字進(jìn)行準(zhǔn)確識別。該平臺具有網(wǎng)絡(luò)結(jié)構(gòu)簡單、識別準(zhǔn)確率高的優(yōu)點(diǎn)。
1? 識別方法
1.1? BP神經(jīng)網(wǎng)絡(luò)原理
誤差反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)是一種反饋型學(xué)習(xí)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示,這個算法的學(xué)習(xí)過程可以分為正向傳播和反向傳播兩個階段。在神經(jīng)網(wǎng)絡(luò)的正向傳播過程中,輸入層接收來自外界的信息輸入到內(nèi)部的各個神經(jīng)元中,經(jīng)過線性變換后將其傳遞給中間層。中間層是內(nèi)部信息處理的層,根據(jù)不同的需求,中間層可以設(shè)計(jì)為單隱含層結(jié)構(gòu),亦可以設(shè)計(jì)為多隱含層結(jié)構(gòu),它們主要負(fù)責(zé)對輸入的信息進(jìn)行變換。最后一個隱含層會將處理好的信息傳遞至輸出層,輸出層再進(jìn)行信息處理后將結(jié)果輸出給外界。如果輸出值與實(shí)際值之間的誤差大于預(yù)先設(shè)定的誤差值,則網(wǎng)絡(luò)進(jìn)入誤差反向傳播階段。在神經(jīng)網(wǎng)絡(luò)的反向傳播過程中,誤差通過輸出層,根據(jù)誤差梯度下降對每一層的權(quán)重進(jìn)行修正,并且逐層反向傳播到中間層和輸入層。反向傳播完成后,繼續(xù)進(jìn)行正向傳播。通過一次又一次的迭代正向傳播和反向傳播,直到輸出的誤差在預(yù)先設(shè)定的誤差范圍內(nèi)或者是達(dá)到先前設(shè)定的最大迭代次數(shù),結(jié)束網(wǎng)絡(luò)的訓(xùn)練[8]。
BP神經(jīng)網(wǎng)絡(luò)的神經(jīng)元結(jié)構(gòu)如圖2所示。
其輸入與輸出關(guān)系如式(1)所示:
(1)
其中,Wi表示某層的第i個權(quán)重,Xi表示某層的第i個輸入數(shù)據(jù),b表示某層的偏置,a表示某層的輸入,n表示某層的輸入數(shù)據(jù)總數(shù),f (a)表示該層的激活函數(shù),y表示該層的輸出[9]。在反向傳播中需要對不理想的權(quán)重進(jìn)行調(diào)整,BP神經(jīng)網(wǎng)絡(luò)的核心任務(wù)是調(diào)整權(quán)重以達(dá)到降低誤差的目的。首先定義誤差函數(shù),假設(shè)輸入M組樣本,用X 1,X 2,…,X M來表示,第m組樣本作為輸入,它輸入網(wǎng)絡(luò)后得到輸出 ( j = 1,2,3,…,q),其第m組樣本的誤差Em如式(2)所示:
(2)
其中,q表示第m組的樣本數(shù), 表示第m組樣本中的第j個數(shù)據(jù)對應(yīng)的期望輸出, 表示第m樣本中的第j個數(shù)據(jù)對應(yīng)的網(wǎng)絡(luò)輸出。由式(2)可推得M組樣本的全局誤差E如式(3)所示:
(3)
對于不理想的權(quán)重采用梯度下降法去調(diào)整,從而使全局誤差E變小,其調(diào)整公式如式(4)所示:
(4)
式中η表示學(xué)習(xí)率, 表示第m組樣本中第j個數(shù)據(jù)對應(yīng)的權(quán)重[5]。網(wǎng)絡(luò)會不停進(jìn)行前向和反向傳播,直到全局誤差E在設(shè)定的閾值內(nèi)到達(dá)設(shè)置的最大學(xué)習(xí)次數(shù)才會停止傳播。
1.2? 搭建識別模型
本文提出的基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別模型由三部分構(gòu)成:輸入層、隱含層、輸出層,其模型結(jié)構(gòu)如圖3所示。本文采用MNIST數(shù)據(jù)集訓(xùn)練模型。MNIST數(shù)據(jù)集是一個適用于深度學(xué)習(xí)初學(xué)者的計(jì)算機(jī)視覺數(shù)據(jù)集。該數(shù)據(jù)集包涵了60 000張訓(xùn)練圖片和10 000測試圖片,每張灰度圖片的大小都是28×28像素,分別代表了0到9之間的數(shù)字。這些構(gòu)成MNIST數(shù)據(jù)集的圖片分別是由250個不同的人所手寫,這些圖片來源可以平均分為兩類:高中生和人口普查局的工作人員[10]。MNIST數(shù)據(jù)集中的部分樣本圖片如圖4所示。
2? 硬件實(shí)現(xiàn)
2.1? 識別平臺整體框架
本文提出的基于STM32的識別平臺整體框架如圖5所示。該平臺包括手寫數(shù)字識別模型、MDK5、STM32MCU、TFT-LCD和STC-ISP。STM32MCU微控制器使用高性能的ARM Cortex-M3內(nèi)核,內(nèi)部配置了高速存儲器,同時擁有各種的增強(qiáng)型I/O接口和外設(shè),此外,還同時支持JTAG和SWD兩種不同的調(diào)試方式[11]。本文使用的TFT-LCD模塊即薄膜晶體管液晶顯示器,該顯示器在每個像素下方都配置了一個薄膜晶體管(TFT),可以有效克服未被選中的串?dāng)_,極大地提升了顯示的圖像質(zhì)量,增強(qiáng)了視覺上的體驗(yàn)。TFT-LCD模塊自帶的觸摸屏一般常用的是電阻式觸摸屏和電容式觸摸屏。本文選用的是電阻式觸摸屏,它是通過感應(yīng)壓力去進(jìn)行控制。當(dāng)手指按壓屏幕的時候,電阻式觸摸屏內(nèi)部的阻性層和導(dǎo)電層在按壓點(diǎn)形成通道,在X方向和Y方向產(chǎn)生信號,控制器接收信號并其在內(nèi)部進(jìn)行A/D轉(zhuǎn)換,即可得到按壓點(diǎn)的X軸和Y軸坐標(biāo)[12]。
將獲取手寫數(shù)字識別模型的權(quán)重和偏置輸入到MDK5,經(jīng)過一系列的代碼編寫和數(shù)據(jù)處理,再通過J-LINK下載到STM32MCU中。通過使用普通IO口模擬8080總線,TFT-LCD液晶屏可由STM32MCU主控電路控制[13]。在TFT-LCD液晶屏上采集實(shí)時手寫數(shù)字?jǐn)?shù)據(jù),進(jìn)行數(shù)據(jù)處理后輸入至STM32MCU進(jìn)行識別,打開STC-ISP軟件內(nèi)的串口,打印出識別結(jié)果。
2.2? 識別算法的STM32平臺移植
安裝STM32F1的器件支持包:Keil.STM32F1xx_DFP.2.2.0.pack(STM32F1的器件包)以及MDK 5.21A安裝軟件。這樣便可以支持STM32F103的開發(fā)。本文是基于開發(fā)資料中的觸摸屏代碼進(jìn)行修改,將修改后的代碼下載到STM32開發(fā)板上,代碼主要修改和編寫了以下兩部分。
2.2.1? 添加和修改文件
因?yàn)樾枰诖陲@示出最終的識別結(jié)果,以及在進(jìn)行C語言編寫網(wǎng)絡(luò)模型的時候調(diào)用一些數(shù)學(xué)函數(shù),所以需要在原有頭文件的基礎(chǔ)上添加
2.2.2? 代碼編寫
本文需要采集在觸摸屏上書寫數(shù)字所按下的坐標(biāo),獲取到所有坐標(biāo)并進(jìn)行數(shù)據(jù)處理后,將其轉(zhuǎn)化為一張28×28像素的灰度圖片,輸入到用C語言編寫的手寫數(shù)字識別網(wǎng)絡(luò)模型中進(jìn)行識別。由于采集的書寫數(shù)字所對應(yīng)坐標(biāo)只是一張圖片上的部分點(diǎn),也就是只采集到了手寫數(shù)字所對應(yīng)的坐標(biāo),并沒有采集到數(shù)字周邊的坐標(biāo)。因只有采集的坐標(biāo)并不能構(gòu)成完整的一張圖片,故需要將采集到的這些點(diǎn)映射為一張完整的圖片,并且進(jìn)行歸一化。本文采用的歸一化方法便是定義一個84×84的數(shù)組,用一個大小為3×3的矩陣進(jìn)行平均池化,得到可以作為輸入大小為28×28的數(shù)組。在進(jìn)行平均池化的同時,設(shè)定一個采集區(qū)間,選擇性保留一些數(shù)據(jù),若平均池化后得到的數(shù)據(jù)在設(shè)定的采集區(qū)間,便將這個數(shù)據(jù)設(shè)為1,不在這個區(qū)間的數(shù)據(jù)便舍去,其他為0,則得到一張只由0和1構(gòu)成的大小為28×28的手寫數(shù)字圖片。至此,完成歸一化。將大小為28×28的數(shù)組輸入網(wǎng)絡(luò),在網(wǎng)絡(luò)中經(jīng)歷的主要過程如式(1)所示。f (a)在隱含層和輸出層的激活函數(shù)分別為Relu函數(shù)[14]和Sigmoid函數(shù)[15]。在得到輸出層的10個輸出值(0~9每個數(shù)字對應(yīng)的概率)后,編寫一個排序函數(shù),調(diào)用串口,利用它打印出最大輸出值所對應(yīng)的數(shù)字,即為識別結(jié)果。最后,對修改后的工程進(jìn)行編譯,再利用J-LINK將其下載進(jìn)入開發(fā)板中,便可以在開發(fā)板的觸摸屏上書寫數(shù)字進(jìn)行識別。
3? 硬件測試
3.1? 手寫數(shù)字識別實(shí)驗(yàn)
本文利用MNIST數(shù)據(jù)集進(jìn)行手寫數(shù)字識別模型訓(xùn)練,60 000張圖片作為訓(xùn)練集,10 000張圖片作為測試集,迭代次數(shù)設(shè)為15,學(xué)習(xí)率設(shè)置為0.002,優(yōu)化器使用Adam,誤差函數(shù)使用交叉熵?fù)p失函數(shù)。訓(xùn)練結(jié)束后將測試集、訓(xùn)練集對應(yīng)的準(zhǔn)確率和錯誤率導(dǎo)出保存到Excel文件中,繪出對應(yīng)的曲線,如圖6所示。在TFT-LCD模塊自帶的觸摸屏上隨機(jī)手寫0~9數(shù)字各50次,利用平臺自動進(jìn)行手寫數(shù)字的識別,統(tǒng)計(jì)識別的正確次數(shù),計(jì)算出準(zhǔn)確率,統(tǒng)計(jì)的測試結(jié)果如表1所示,圖7(a)為數(shù)字9的實(shí)驗(yàn)結(jié)果圖,圖7(b)為數(shù)字7的實(shí)驗(yàn)結(jié)果圖。
3.2? 實(shí)驗(yàn)結(jié)果分析
通過硬件測試,證明該平臺設(shè)計(jì)成功,識別結(jié)果具有較高的準(zhǔn)確率和可參考性,能夠有效、快速地進(jìn)行手寫數(shù)字的實(shí)時識別。在進(jìn)行實(shí)驗(yàn)結(jié)果數(shù)據(jù)分析的時候,發(fā)現(xiàn)數(shù)字0的識別準(zhǔn)確率只有90%,相比于其他數(shù)字的識別準(zhǔn)確率略低。經(jīng)分析,總結(jié)出導(dǎo)致出現(xiàn)以上結(jié)果的兩個原因,原因一是在采集觸摸屏上書寫的數(shù)字對應(yīng)的坐標(biāo)后,進(jìn)行的數(shù)據(jù)處理較為簡單,導(dǎo)致大小為28×28的數(shù)組全是由0和1構(gòu)成,這和MNIST數(shù)據(jù)集中進(jìn)行歸一化后處于0~1之間的數(shù)據(jù)差距較大,于是產(chǎn)生了數(shù)據(jù)不匹配問題,導(dǎo)致測試時準(zhǔn)確率不高。原因二是搭建的BP神經(jīng)網(wǎng)絡(luò)比較簡單,網(wǎng)絡(luò)的抗干擾能力弱,容易受到數(shù)據(jù)不匹配問題的影響。以后將加強(qiáng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和數(shù)據(jù)處理方面的學(xué)習(xí),制作出一個完全由0和1構(gòu)成的數(shù)據(jù)集,以此解決數(shù)據(jù)不匹配問題,再進(jìn)一步優(yōu)化網(wǎng)絡(luò)模型,提高網(wǎng)絡(luò)的抗干擾性。
4? 結(jié)? 論
以手寫數(shù)字識別技術(shù)的不同方法及識別準(zhǔn)確率為研究對象,提出了基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別模型,并設(shè)計(jì)實(shí)現(xiàn)了手寫數(shù)字識別平臺。通過硬件測試和實(shí)驗(yàn)結(jié)果分析,該平臺具有較高的識別準(zhǔn)確率和可靠性,能夠高效地進(jìn)行手寫數(shù)字的實(shí)時識別。本文提出的手寫數(shù)字識別模型結(jié)構(gòu)簡單、識別準(zhǔn)確率高,設(shè)計(jì)的平臺可以自動化識別手寫數(shù)字,從而可以高效快捷地對手寫數(shù)字進(jìn)行采集和識別,提高了將數(shù)據(jù)錄入計(jì)算機(jī)中的效率,節(jié)約了大量時間。
參考文獻(xiàn):
[1] 黃一格,張炎生.基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別系統(tǒng) [J].機(jī)電工程技術(shù),2020,49(1):108-110.
[2] 胡君萍,傅科學(xué).基于改進(jìn)KNN算法的手寫數(shù)字識別研究 [J].武漢理工大學(xué)學(xué)報:信息與管理工程版,2019,41(1):22-26.
[3] 高春庚,孫建國.基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別研究 [J].蘭州文理學(xué)院學(xué)報:自然科學(xué)版,2022,36(5):50-54.
[4] 耿西偉,張猛,沈建京.基于結(jié)構(gòu)特征分類BP網(wǎng)絡(luò)的手寫數(shù)字識別 [J].計(jì)算機(jī)技術(shù)與發(fā)展,2007(1):130-132.
[5] 馬寧,常驥.基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別研究 [J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報,2009,25(4):89-91.
[6] 王愛玲,葉明生,鄧秋香.MATLAB R2007圖像處理技術(shù)與應(yīng)用 [M].北京:電子工業(yè)出版社,2008.
[7] 郝淑怡,張慧楠,肖廣兵.基于STM32的智能車隊(duì)輪胎安全監(jiān)測系統(tǒng) [J].微處理機(jī),2023,44(1):40-44.
[8] 朱文慧,鄒浩,何明明,等.基于BP神經(jīng)網(wǎng)絡(luò)的地質(zhì)災(zāi)害易發(fā)性分區(qū)方法研究——以蘄春縣為例 [J].資源環(huán)境與工程,2021,35(6):840-844.
[9] 夏少杰,項(xiàng)鯤.基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別及優(yōu)化方法 [J].智能物聯(lián)技術(shù),2018,1(1):19-22.
[10] 張玉嬌.基于Tensorflow框架的手寫數(shù)字識別 [J].內(nèi)江科技,2022,43(2):54-55.
[11] 胡方猛,王堯.基于STM32F103ZET6的紅外遙控盒設(shè)計(jì) [J].電子產(chǎn)品世界,2021,28(10):44-47.
[12] 樊民革,吳登朝,劉林仙.電阻觸摸屏與滾球間的摩擦系數(shù)測量 [J].測試技術(shù)學(xué)報,2020,34(6):475-480.
[13] 張狄.基于STM32單片機(jī)的智能鎖設(shè)計(jì) [J].光源與照明,2021(2):85-86.
[14] 徐靜萍,王芳.基于改進(jìn)的S-ReLU激活函數(shù)的圖像分類方法 [J].科學(xué)技術(shù)與工程,2022,22(29):12963-12968.
[15] 李波燕,張勇,袁德榮,等.基于注意力機(jī)制的手寫體數(shù)字識別 [J].計(jì)算機(jī)科學(xué),2022,49(S2):626-630.
作者簡介:陳紅梅(2004—),女,漢族,江西撫州人,本科在讀,研究方向:深度學(xué)習(xí)和人工智能。