DOI:10.16601/j.cnki.issn2096-7330.2024.01.010"文章編號:2096-7330(2024)01-0078-04
摘"要:為了解決傳統(tǒng)圖像的識別低效且需要過多的人工參與的問題,對更加高效的生成式對抗網(wǎng)絡模型進行研究:(1)在經(jīng)過博弈訓練達到收斂的GAN模型的基礎上,對判定器進行優(yōu)化, 并加入softamx層以便能更好地進行圖像識別;(2)在基礎IR-DCGAN模型上選用MNIST數(shù)據(jù)集進行訓練和測試,并將生成器生成的實驗樣本輸入判定器中,每進行一次迭代訓練,數(shù)據(jù)集就會有所擴充,經(jīng)過足夠的迭代訓練后IR-DCGAN就基本穩(wěn)定,其圖像識別準確率相較于其他識別方法有顯著提升。當?shù)螖?shù)達到25000次時IR-DCGAN識別網(wǎng)絡已經(jīng)基本成熟,同時表明IR-DCGAN模型比其他方法的識別準確率大幅增加。
關鍵詞:生成式對抗網(wǎng)絡;MNIST數(shù)據(jù)集;IR-DCGAN模型
中圖分類號:TP18;TP391.1""文獻標志碼:A
0引言
當下人工智能高速發(fā)展,圖像信息的更快處理成為基本技術要求。圖像的識別顯得尤為重要。而當下傳統(tǒng)的生成模型中,如高斯混合模型、隱馬爾可夫模型等,存在著數(shù)據(jù)分布假設過于復雜、樣本生成效率低等問題。為解決這些問題,研究人員提出了生成式對抗網(wǎng)絡(GAN)。其強大的學習能力能夠使得GAN在不需要顯式標注數(shù)據(jù)的情況下,能夠從大量數(shù)據(jù)中自動學習并獲得良好的生成能力。本研究在原有的GAN模型基礎上優(yōu)化生成的IR-DCGAN模型如何更好識別圖像,并在MNIST數(shù)據(jù)集進行訓練和測試。測試結果表明,優(yōu)化后的IR-DCGAN模型相較于其他方法更加高效。
1生成式對抗網(wǎng)絡的基礎算法與邏輯
生成對抗網(wǎng)絡是借鑒了博弈論所提出的一種生成式模型,其運用互相對抗生成器與判定器兩種神經(jīng)網(wǎng)絡,碰撞出無與倫比的圖像模型生成能力。其結構如圖1所示。
GAN模型要求輸入符合均勻分布或標準正態(tài)分布的隨機噪音到生成器中,從而產(chǎn)生與真實數(shù)據(jù)極為相似的偽數(shù)據(jù)和偽圖像模型,而判定器需要能夠分辨實驗數(shù)據(jù)與真實數(shù)據(jù)。二者在這種不斷對弈中,修改自身參數(shù),逐漸達到GAN的最終優(yōu)化,及整個系統(tǒng)達到一種非合作博弈均衡。其優(yōu)化總目標表達式為:
minDD(XGmaxDD(XD=Qa~ptrue[logD(a)]+Qz~pz[log(1-D(G(z)))]JY,2(1)
式中a表示輸入的真實數(shù)據(jù),z代表隨機噪音,ptrue代表輸入的真實樣本的數(shù)據(jù)分布模型,D(G(z))代表實驗數(shù)據(jù)被鑒定為真實數(shù)據(jù)的可能性,D(a)代表了真實數(shù)據(jù)樣本被鑒定為真實數(shù)據(jù)的概率。
2深度生成對抗網(wǎng)絡IR-DCGAN
深度生成對抗網(wǎng)絡在已有GAN模型的基礎上,對生成器和判定器引入深度卷積神經(jīng)網(wǎng)絡代替原有模型中的全連接結構,極大改善了傳統(tǒng)GAN模型的訓練難度大,訓練時維度不匹配導致的梯度屬性消失等問題,在面對更加復雜多樣隨機噪音時更加準確和高效。
從隨機噪音中抽取100維的部分樣本數(shù)據(jù)輸入到生成器中,通過生成器的兩個全連接層對其進行維度轉換,以防止維度不符合標準導致梯度屬性消失。隨后經(jīng)過生成器中的反卷積轉換,最終輸出實驗樣本數(shù)據(jù)。生成器網(wǎng)絡結構模型如圖2所示。
將實驗數(shù)據(jù)輸入判定器中,判定器中卷積層會對其特征進行提取,再經(jīng)過全連層處理最后輸出判定結果。判定器網(wǎng)絡結構模型如圖3所示。
3實驗實施結果與對比
具體實驗步驟如圖4所示。
并選用MNIST手寫數(shù)字圖像數(shù)據(jù)集作為基礎訓練集和測試集,其具有的大量已成熟的實驗樣本使得實驗更加準確。部分MNIST數(shù)據(jù)集圖片如圖5所示。
在訓練IG-DCGAN模型時,要求生成器和判定器嚴格服從“參數(shù)單一變量”原則,不斷重復“一固一動”的訓練過程,直到生成器與判定器達到收斂。其具體操作過程為:對生成器參數(shù)θg和判定器參數(shù)θd進行初始化數(shù)據(jù)處理。
交替循環(huán)訓練判定器多次:
抽取隨機噪音樣本(a1,a2,…,an);
從真實數(shù)據(jù)分布中抽取的樣本(Y1,Y2,…,Yn)。
輸入噪音向量樣本到生成器中生成的實驗數(shù)據(jù)(G(a1),G(a2),…,G(an))。
對判定器參數(shù)的訓練優(yōu)化使用Adam算法使其損失函數(shù)達到最小值,其算式為:
LD(θd,θg)=-SX(12SX)Qa~ptrue[logD(a)]+Qz~pz[log(1-D(G(z)))]JY,2(2)
訓練生成器:ZK((1)抽取m個隨機噪音(a1,a2,…,an);
(2)最小化V(G,D),更新判定器參數(shù)θd。.
V=SX(1mSX)∑DD(;Mmi=1log(1-D(G(zi))JY,2(3)
θg=θg-ηΔV(θg)JY,2(4)1.8mmCX
操作結束。
根據(jù)具體的實驗環(huán)境進行多次重復的操作,且過程中盡量避免因重復次數(shù)過少,導致實驗結果達不到預期標準,或重復次數(shù)過多導致的判定器參數(shù)優(yōu)化更新過快,致使兩種神經(jīng)網(wǎng)絡更新頻率不同步,無法準確捕捉最佳收斂的狀態(tài)參數(shù)。
在經(jīng)過系統(tǒng)模型訓練后,判定器已經(jīng)同時具備真實樣本和實驗樣本的圖像特征。但此時判定器的神經(jīng)網(wǎng)絡作為二分器,只能輸出一維結果0或1,無法應用于圖像識別。需要調整優(yōu)化系統(tǒng)網(wǎng)絡結構,將一維的判定器的維度更換為與數(shù)據(jù)庫類別數(shù)一致,并加入softamx層。此時就形成了分類器模型結構,如圖6所示。
隨后將訓練庫集輸入到此模型結構中,借助Adam算法使其損失函數(shù)最小化后便得到能夠用于圖像的識別。
實驗配置設置見表1。對生成器和判定器的損失函數(shù)進行測試,得到其各自的損失函數(shù)隨著訓練次數(shù)增加帶來的變化。并且將生成器生成的實驗樣本也輸入到判定器中,更直接的增加訓練的數(shù)據(jù)集。
從上述可以看出,IR-DCGAN圖像識別模型的生成器損失函數(shù),隨著訓練次數(shù)的加大呈現(xiàn)出上升趨勢,而判定器則大致呈現(xiàn)下降趨勢。為更好的測試隨著訓練次數(shù)的增加,IR-DCGAN對圖像識別精準度的變化,將同時訓練的深度卷積神經(jīng)網(wǎng)絡模型進行實驗對比,得到的實驗結果如圖7所示。
分析圖7可知,由于IR-DCGAN神經(jīng)網(wǎng)絡模型開始未進行對抗優(yōu)化,輸出的生成樣本質量低,導致訓練次數(shù)在10000次之前識別精確度低于DCNN。但隨著迭代次數(shù)增加,IR-DCGAN在10000次之后的識別準確率逐漸高于DCNN。主要是由于IR-DCGAN不斷將每次訓練生成的實驗數(shù)據(jù)都輸入到判定器中,擴充了模型訓練的數(shù)據(jù)集。經(jīng)過多次迭代后IR-DCGAN模型已經(jīng)逐漸成熟,對比真實圖像其準確率高達99.68%,與其他方法對比,IR-DCGAN的準確率也相對較高。
4結語
采取的對生成式對抗網(wǎng)絡進行交替優(yōu)化訓練,是在網(wǎng)絡結構達到收斂,同時判定器的卷積層已經(jīng)具備提取圖像特征能力的基礎上,對其結構加以優(yōu)化,得到用于圖像識別的IR-DCGAN網(wǎng)絡圖形識別模型。然后利用MNIST手寫數(shù)字圖像數(shù)據(jù)集的訓練集進行生成器和判定器兩種神經(jīng)網(wǎng)絡的博弈訓練,同時將生成器每次生成的實驗樣本輸入到判定器中達到擴充數(shù)據(jù)集的效果。得到隨著迭代次數(shù)的增加IR-DCGAN模型的圖像識別準確率高于一般的DCNN的結論。根據(jù)實驗,在迭代次數(shù)達到25000次時IR-DCGAN識別網(wǎng)絡已經(jīng)基本成熟,同時表明IR-DCGAN模型相比其他方法的識別準確率大幅增加。
參考文獻:
[1] 郭鯤.基于深度學習的有遮擋圖像識別研究[D].蘭州:蘭州大學,2023.
[2]"林中琦.基于卷積神經(jīng)網(wǎng)絡的小麥葉部病害圖像識別研究[D].濟南:山東農(nóng)業(yè)大學,2018.
[3]"張慧.深度學習中優(yōu)化算法的研究與改進[D].北京:北京郵電大學,2018.
[4]"康一帥.基于卷積神經(jīng)網(wǎng)絡的圖像識別算法研究[D].鎮(zhèn)江:江蘇科技大學,2019.
[5]"陳繼磊,祁云嵩.基于深度學習的入侵檢測方法[J].江蘇科技大學學報(自然科學版),2017,31(6):795-800.
[6]"鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報,2014,19(2):175-184.
[7]"2張杰,李永忠.云模型半監(jiān)督聚類動態(tài)加權的入侵檢測方法[J].昆明理工大學學報(自然科學版),2013,38(4):44-47,59.
[8]"王雨辰.基于深度學習的圖像識別與文字推薦系統(tǒng)的設計與實現(xiàn)[D].北京:北京交通大學,2018.
[9]"王猛.基于深度學習的交通標志圖像識別研究[D].蘭州:蘭州理工大學,2018.
[10]胡直峰. 植物圖像識別方法研究及實現(xiàn)[D].杭州:浙江大學,2018.
[11]詹燕,胡蝶,湯洪濤,等.基于改進生成對抗網(wǎng)絡的圖像數(shù)據(jù)增強方法[J].浙江大學學報(工學版),2023,57(10):1998-2010.
[12]陳文靜,唐軼.基于深度學習的圖像超分辨率重建方法綜述[J].云南民族大學學報(自然科學版),2019,28(6):597-605.
[責任編輯:黃天放]
收稿日期:2023-10-20
*基金項目:(宿州學院 2021 年博士科研啟動基金項目“基于多特征融合的人臉表情識別研究”(2021BSK017);產(chǎn)學研科研項目“基于圖像處理的多功能遠程監(jiān)控智能安防系統(tǒng)設計與實現(xiàn)”(2022xhx301);產(chǎn)學研科研項目“基于人工智能的多功能網(wǎng)絡智能家居控制系統(tǒng)研究與設計”(2022xhx302)
第一作者簡介:ZK(張守震(1982—),男,工學博士,宿州學院信息工程學院講師,研究方向:人工智能和計算機視覺。