国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LSTM和注意力機(jī)制的Minist手寫(xiě)數(shù)字識(shí)別算法設(shè)計(jì)

2022-01-17 06:20:40欒迪周廣證
電子元器件與信息技術(shù) 2021年9期
關(guān)鍵詞:手寫(xiě)權(quán)值注意力

欒迪,周廣證

(南京理工大學(xué)紫金學(xué)院 計(jì)算機(jī)學(xué)院,江蘇 南京 210046)

0 引言

手寫(xiě)數(shù)字識(shí)別目前得到了廣泛的研究,例如,如果能對(duì)學(xué)生的日常作業(yè)及試卷做出高質(zhì)量的自動(dòng)識(shí)別,做到線上自動(dòng)批閱或者判分,將大大提高教師的工作效率和質(zhì)量。本文將嘗試使用LSTM網(wǎng)絡(luò)(long-short term memory network,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))結(jié)合注意力機(jī)制對(duì)Minist數(shù)據(jù)集進(jìn)行識(shí)別。Minist數(shù)據(jù)集是一個(gè)手寫(xiě)數(shù)字?jǐn)?shù)據(jù)庫(kù),它有60000個(gè)訓(xùn)練樣本集和10000個(gè)測(cè)試樣本集,是NIST數(shù)據(jù)庫(kù)的一個(gè)子集。每個(gè)樣本都是一張28×28像素的灰度手寫(xiě)數(shù)字圖片,且每個(gè)樣本都對(duì)應(yīng)著一個(gè)唯一的標(biāo)簽[1-2]。

LSTM是當(dāng)前最有效的基于長(zhǎng)時(shí)記憶的神經(jīng)網(wǎng)絡(luò)識(shí)別算法。它是對(duì)RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))的改進(jìn),LSTM和RNN一般用來(lái)處理序列信息,在文本、語(yǔ)音、視頻等具有上下文關(guān)聯(lián)的識(shí)別和預(yù)測(cè)場(chǎng)景中識(shí)別精度很高。本文將手寫(xiě)數(shù)字的圖像看作以行為單位的數(shù)據(jù),對(duì)于特定的數(shù)字,各行之間的信息顯然具有強(qiáng)相關(guān)的聯(lián)系。LSTM在接收當(dāng)前行信息時(shí),將之前的所有行信息都傳遞過(guò)來(lái)進(jìn)行識(shí)別輸出,有效利用了上下文信息[3-4]。但任一行對(duì)當(dāng)前行的影響概率卻沒(méi)有明顯差別,這是不合理的。當(dāng)前行和與當(dāng)前行聯(lián)系緊密的行信息顯然應(yīng)該具有更大的權(quán)值,注意力機(jī)制通過(guò)按信息關(guān)聯(lián)的強(qiáng)度分配不同權(quán)重的方法,可以解決這個(gè)問(wèn)題。

綜上所述,本文設(shè)計(jì)了基于LSTM和注意力機(jī)制的Minist手寫(xiě)數(shù)字識(shí)別算法。手寫(xiě)數(shù)字信息保存為28×28的矩陣,每張圖片按行輸入LSTM網(wǎng)絡(luò),通過(guò)注意力機(jī)制調(diào)節(jié)權(quán)值來(lái)確定輸入的所有行信息對(duì)當(dāng)前輸出的影響概率。

1 RNN及LSTM

RNN是循環(huán)神經(jīng)網(wǎng)絡(luò),簡(jiǎn)單的RNN結(jié)構(gòu)如圖1所示,包含一個(gè)輸入層、一個(gè)隱藏層、一個(gè)輸出層。權(quán)重矩陣W就是隱藏層上一次的值作為這一次的輸入的權(quán)重。

將圖1的循環(huán)層按時(shí)間步展開(kāi)的結(jié)構(gòu)如圖2所示。圖中,Xt為當(dāng)前時(shí)刻的輸入,Ot為當(dāng)前時(shí)刻的輸出,St為隱藏層的當(dāng)前值。

圖2 RNN權(quán)值

RNN在任意時(shí)刻的神經(jīng)元結(jié)構(gòu)都是相同的。不僅如此,其在不同時(shí)刻傳遞時(shí)的對(duì)應(yīng)位置的權(quán)值也是共享的,圖中不同時(shí)刻的權(quán)值W、U、V采用的都是同一矩陣,其意義也是顯而易見(jiàn)的,即在前面信息中學(xué)習(xí)到的特征可以移植給后面的網(wǎng)絡(luò)直接使用。公式如下:

RNN在反向傳播時(shí)面臨著梯度消失和梯度爆炸的問(wèn)題,而且對(duì)于相當(dāng)長(zhǎng)度的前文信息來(lái)說(shuō),其有效性大大降低。LSTM解決了這幾個(gè)問(wèn)題,其結(jié)構(gòu)如圖3所示。LSTM由遺忘門、輸入門和輸出門三個(gè)控制門組成。遺忘門控制上一時(shí)刻的單元狀態(tài)Ct-1有多少保留到當(dāng)前狀態(tài)Ct,輸入門控制當(dāng)前時(shí)刻的網(wǎng)絡(luò)輸入Xt有多少保存到單元狀態(tài)Ct,輸出門控制單元狀態(tài)Ct有多少輸出到LSTM網(wǎng)絡(luò)的當(dāng)前輸出ht。圖中σ表示sigmoid函數(shù),其取值范圍是[0-1],決定了門控制器能夠通過(guò)信息的比例。sigmoid取值為1時(shí),表示所有信息都能通過(guò),完全保留這一分支的記憶,取值為0時(shí),表示沒(méi)有信息能夠通過(guò),即所有信息全部遺忘[5-6]。LSTM網(wǎng)絡(luò)的主要計(jì)算公式如下:

圖3 LSTM結(jié)構(gòu)

2 注意力機(jī)制

人類的注意力機(jī)制能夠利用有限的視覺(jué)信息處理資源,從大量信息中獲取有價(jià)值的信息,極大地提高了視覺(jué)處理的效率。深度學(xué)習(xí)中的注意力機(jī)制受人類視覺(jué)注意力啟發(fā),能夠從眾多信息中抽選出對(duì)當(dāng)前任務(wù)目標(biāo)更為關(guān)鍵的信息。在Bahdanau等首次在機(jī)器翻譯中引入注意力機(jī)制,并取得不錯(cuò)的效果之后,其在CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))抽取圖像特征、RNN抽取序列信息特征等任務(wù)中都有廣泛的應(yīng)用[7-9]。

在深度學(xué)習(xí)中,注意力機(jī)制可以借助重要性權(quán)重向量來(lái)實(shí)現(xiàn)。在預(yù)測(cè)或推斷目標(biāo)值時(shí),例如文本翻譯中詞與詞之間的聯(lián)系,可以用注意力向量來(lái)判斷當(dāng)前輸出詞與其他詞的關(guān)聯(lián)強(qiáng)度,然后對(duì)加權(quán)后的向量求和以逼近正確的標(biāo)簽值。簡(jiǎn)單來(lái)說(shuō),注意力機(jī)制就是分配權(quán)重,例如英文句子“She is wearing a red dress.”中,單詞“wearing”和“dress”屬于強(qiáng)相關(guān)關(guān)系,“is”和“dress”屬于弱相關(guān)關(guān)系,注意力機(jī)制在預(yù)測(cè)“dress”時(shí),就會(huì)給“wearing”賦予較高權(quán)重,給“is”賦予較低權(quán)重。

3 算法設(shè)計(jì)及實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)的算法設(shè)計(jì)和實(shí)驗(yàn)流程如圖4所示。首先下載Minist數(shù)據(jù)集,將輸入數(shù)據(jù)X保存為28×28的矩陣并做歸一化處理,標(biāo)簽數(shù)據(jù)Y轉(zhuǎn)化為獨(dú)熱編碼表示。然后通過(guò)Keras搭建LSTM網(wǎng)絡(luò),加入注意力機(jī)制層,最后將訓(xùn)練集按epoch喂入網(wǎng)絡(luò)進(jìn)行參數(shù)訓(xùn)練,并通過(guò)測(cè)試集測(cè)試訓(xùn)練效果。

圖4 手寫(xiě)數(shù)字識(shí)別流程圖

訓(xùn)練集設(shè)置了10個(gè)epoch,為防止過(guò)擬合,設(shè)置了dropout率為0.25,實(shí)驗(yàn)最終準(zhǔn)確率為0.984,測(cè)試集準(zhǔn)確率為0.9878。為了對(duì)比,將注意力機(jī)制層去掉,僅使用LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,訓(xùn)練集經(jīng)過(guò)10個(gè)epoch后,準(zhǔn)確率為0.9599,20個(gè)epoch后為0.9719,測(cè)試集準(zhǔn)確率為0.9789。對(duì)比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在損失率和準(zhǔn)確率的表現(xiàn)上,注意力機(jī)制的作用效果都很明顯。兩次實(shí)驗(yàn)結(jié)果如下:

4 結(jié)論

LSTM和注意力機(jī)制都是當(dāng)前研究的熱點(diǎn),有廣闊的發(fā)展前景。相對(duì)于傳統(tǒng)的深度識(shí)別算法,循環(huán)神經(jīng)網(wǎng)絡(luò)能夠處理序列數(shù)據(jù)信息的上下文關(guān)系,LSTM又改進(jìn)了普通RNN模型的長(zhǎng)時(shí)依賴以及梯度消失和梯度爆炸問(wèn)題。在上下文信息的依賴關(guān)系上,由注意力機(jī)制分配權(quán)重以保證最有價(jià)值的輸入數(shù)據(jù)影響最終輸出結(jié)果。實(shí)驗(yàn)表明,LSTM結(jié)合注意力機(jī)制模型的識(shí)別率效果非常好。本實(shí)驗(yàn)將進(jìn)一步挖掘該模型的應(yīng)用領(lǐng)域,在序列信息處理時(shí),例如文本的上下文、視頻上下幀的分析和預(yù)測(cè)等,能夠發(fā)揮LSTM和注意力機(jī)制的強(qiáng)大優(yōu)勢(shì),取得滿意的應(yīng)用效果。

猜你喜歡
手寫(xiě)權(quán)值注意力
手寫(xiě)比敲鍵盤更有助于學(xué)習(xí)和記憶
一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
讓注意力“飛”回來(lái)
我手寫(xiě)我心
CONTENTS
抓住身邊事吾手寫(xiě)吾心
基于集成學(xué)習(xí)的MINIST手寫(xiě)數(shù)字識(shí)別
電子制作(2018年18期)2018-11-14 01:48:08
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
A Beautiful Way Of Looking At Things
武平县| 中江县| 永福县| 韶关市| 区。| 九龙县| 吉木乃县| 洪泽县| 兴海县| 磐安县| 武清区| 云和县| 沈阳市| 德格县| 蒙阴县| 普洱| 兴隆县| 洞头县| 济源市| 孟连| 体育| 乌兰浩特市| 深水埗区| 林口县| 焦作市| 五莲县| 施甸县| 资中县| 石城县| 安泽县| 简阳市| 肥西县| 永宁县| 凌海市| 海南省| 灯塔市| 新泰市| 商城县| 贞丰县| 社会| 庄河市|