大連理工大學(xué) 劉朋碩
強(qiáng)化學(xué)習(xí)到目前為止,已經(jīng)有了幾十年的發(fā)展歷程了,這是一種集結(jié)理解能力、自動(dòng)指向目標(biāo)以及決策為一體的計(jì)算方式,近幾年來(lái)對(duì)強(qiáng)化學(xué)習(xí)有了新一步的突破,傳統(tǒng)的強(qiáng)化學(xué)習(xí)在解決簡(jiǎn)單問(wèn)題的時(shí)候有出色的表現(xiàn),但是在大規(guī)模問(wèn)題中就存在較大的不確定性,因此,加權(quán)密集連接卷積的深度強(qiáng)化學(xué)習(xí)方法值得被提倡,也吸引了越來(lái)越多的人去研究這種深度強(qiáng)化學(xué)習(xí)方法,從而達(dá)到事半功倍的效果。
在現(xiàn)實(shí)生產(chǎn)與生活活動(dòng)中,如果遇到了大規(guī)模的問(wèn)題,傳統(tǒng)的強(qiáng)化學(xué)習(xí)在處理這些大規(guī)模問(wèn)題的時(shí)候只能夠解決表面,但是仍舊會(huì)出現(xiàn)維度災(zāi)難,尤其是實(shí)際生活中存在問(wèn)題更是多種多樣,需要更好的方法去解決,這也就是深度強(qiáng)化學(xué)習(xí)法,這種方法有多層單元組合,通過(guò)這種特征組合的方式,將原始的輸入形式逐漸轉(zhuǎn)化為淺層的特征、中層的特征以及高層的特征,這便是整個(gè)目標(biāo)任務(wù)的過(guò)程,如果將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)進(jìn)行科學(xué)有效的結(jié)合,并且通過(guò)深度化的學(xué)習(xí)動(dòng)進(jìn)行數(shù)據(jù)的抽象表征,以此進(jìn)行激勵(lì),從而有效的彌補(bǔ)傳統(tǒng)的強(qiáng)化學(xué)習(xí)中發(fā)現(xiàn)的不足。
深度強(qiáng)化學(xué)習(xí)方法可以在不同的實(shí)際環(huán)境中使用,這種學(xué)習(xí)方法的適應(yīng)性較強(qiáng),但是如果卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)太少,那么游戲的狀態(tài)和信息是無(wú)法完全提取出來(lái)的。卷積神經(jīng)網(wǎng)絡(luò)可以讓網(wǎng)絡(luò)朝著更深或者更寬的方向發(fā)展,隨著信息化技術(shù)的發(fā)展和網(wǎng)絡(luò)科技的進(jìn)步,網(wǎng)絡(luò)層數(shù)不斷在加深,節(jié)點(diǎn)不多增加,需要計(jì)算的量也有了成倍數(shù)的增加,這個(gè)時(shí)候使用加權(quán)密集連接卷積的深度強(qiáng)化學(xué)習(xí)方法就會(huì)起到更加理想的效果。
對(duì)于深度強(qiáng)化學(xué)習(xí)方法的整體框架,首先,提出的問(wèn)題成為樣本數(shù)據(jù)被輸入,隨后變?yōu)槌跏蓟疃染W(wǎng)格參數(shù),參數(shù)完成后再對(duì)訓(xùn)練樣本進(jìn)行科學(xué)的預(yù)測(cè),根據(jù)預(yù)測(cè)得到的結(jié)果分析樣本之間是否存在偏差,如果偏差過(guò)大,就要根據(jù)實(shí)際情況擴(kuò)大訓(xùn)練樣本的次數(shù),如果偏差不大就可以繼續(xù)分析樣本之間存在的方差情況,如果方差過(guò)大,那么經(jīng)過(guò)正規(guī)化的處理方式進(jìn)行訓(xùn)練樣本的預(yù)測(cè)工作,如果方差不大,接下來(lái)就可以直接設(shè)置深度學(xué)習(xí)的網(wǎng)格超參數(shù),可以使用蒙特卡洛模擬數(shù)據(jù)抽樣對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)流進(jìn)行一次預(yù)測(cè),隨后設(shè)置好強(qiáng)化學(xué)習(xí)匯報(bào)的函數(shù),根據(jù)函數(shù)的表現(xiàn)運(yùn)用深度強(qiáng)化學(xué)習(xí)的策略對(duì)當(dāng)前擁有的資源做好分析工作,最終得到結(jié)果[1]。
與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,加權(quán)密集連接卷積在傳統(tǒng)的模式基礎(chǔ)上是一種全新的網(wǎng)絡(luò)連接模式,不同的層次之間需要進(jìn)行跨層連接,網(wǎng)絡(luò)中前后兩層信號(hào)可以在輸出層和輸入層之間進(jìn)行高速的流通,加權(quán)密集連接卷積網(wǎng)絡(luò)能夠?qū)⑵渲兴械膶右詢蓛傻姆绞竭B接在一起,這樣網(wǎng)絡(luò)當(dāng)中每一層都可以去接受之前所有層表現(xiàn)出來(lái)的特征,并且以此進(jìn)行輸入操作。在密集連接狀態(tài)下的網(wǎng)絡(luò)結(jié)構(gòu)中,每一層特征圖都需要經(jīng)過(guò)批量歸一化、Relu激活和卷積操作,如果在卷積操作的時(shí)候遇到了瓶頸,可以根據(jù)實(shí)際情況減少輸入特征圖的數(shù)量,從而有效的提高整個(gè)計(jì)算的效率。如果想要每一層的特征都能夠得到反復(fù)的利用,在跨層連接的時(shí)候可以使用并聯(lián)的方式,也就是在加權(quán)密集連接卷積網(wǎng)絡(luò)中每一層的輸入信息都能包含之前每一層的實(shí)際輸出。
經(jīng)過(guò)分析得知,密集連接卷積網(wǎng)絡(luò)主要有著兩個(gè)特性,第一個(gè)特性是密集連接卷積網(wǎng)絡(luò)在反向誤差傳播的時(shí)候,每一層網(wǎng)絡(luò)都可以接收到在這之后所有層中傳遞過(guò)來(lái)的梯度信號(hào),這種情況下,即使密集連接卷積網(wǎng)絡(luò)層數(shù)在不斷增加,靠近輸入層的梯度也會(huì)變得越來(lái)越小,這個(gè)時(shí)候在一定程度上就可以減少整個(gè)訓(xùn)練過(guò)程中出現(xiàn)梯度消失的問(wèn)題。第二個(gè)特性是密集連接卷積網(wǎng)絡(luò)結(jié)構(gòu)中有大量的特征在重復(fù)使用的時(shí)候,可以使用少量的卷積核生成大量的特征,有效的降低模型中需要用到的計(jì)算量,這個(gè)時(shí)候整個(gè)模型的尺寸也能夠得到有效的控制,達(dá)到比較小的狀態(tài)[2]。
密集連接卷積網(wǎng)絡(luò)跨層連接的過(guò)程中,每一層之間都屬于平等的關(guān)系,如果只是將當(dāng)前的密集連接卷積網(wǎng)絡(luò)層與之前所有的密集連接卷積網(wǎng)絡(luò)層之間并聯(lián)完成后再進(jìn)行操作,這個(gè)時(shí)候每一層之間的密集連接卷積操作都有著不同的作用和效果,得到的特征信息也不會(huì)相同,所以在進(jìn)行密集連接卷積網(wǎng)絡(luò)跨層連接的時(shí)候要保持分明的主次關(guān)系,也就是說(shuō)密集連接卷積網(wǎng)絡(luò)跨層連接的時(shí)候當(dāng)前的網(wǎng)絡(luò)層會(huì)起到主要的作用,之前所有的密集連接卷積網(wǎng)絡(luò)可以起到輔助的作用。如果加權(quán)密集連接卷積網(wǎng)絡(luò)層在進(jìn)行跨層連接的時(shí)候,需要進(jìn)行權(quán)重的分配,如果當(dāng)前密集連接卷積網(wǎng)絡(luò)層權(quán)重的系數(shù)為1,那么每一層的權(quán)重設(shè)置就是w,w的大小范圍在0和1之間,最小不低于0,最大不超過(guò)1,加入加權(quán)密集連接卷積網(wǎng)絡(luò)連接塊中當(dāng)前的層之前一共有i層密集連接卷積網(wǎng)絡(luò),那么到了第i層的時(shí)候整個(gè)密集連接卷積網(wǎng)絡(luò)的權(quán)重就是:
深度卷積神經(jīng)網(wǎng)絡(luò)是這一波 AI 浪潮背后的大功臣。雖然很多人可能都已經(jīng)聽(tīng)說(shuō)過(guò)這個(gè)名詞,但是對(duì)于這個(gè)領(lǐng)域的相關(guān)從業(yè)者或者科研學(xué)者來(lái)說(shuō),淺顯的了解并不足夠。近日,約克大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系的 Isma Hadji 和 Richard P. Wildes 發(fā)表了一篇《我們?cè)撊绾卫斫饩矸e神經(jīng)網(wǎng)絡(luò)?》的文章,幫助人們加深了對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)的理解,闡述了幾種多層神經(jīng)網(wǎng)絡(luò),并介紹當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用中最成功的卷積結(jié)構(gòu);具體介紹了標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)中的各構(gòu)成組件,并從生物學(xué)和理論兩個(gè)角度分析不同組件的設(shè)計(jì)方案;討論了當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的趨勢(shì)及可視化理解卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)研究工作,還重點(diǎn)闡述了當(dāng)前結(jié)構(gòu)仍存在的一些關(guān)鍵問(wèn)題[3]。
加權(quán)密集連接卷積網(wǎng)絡(luò)之間層數(shù)越深,關(guān)于特征的維度就會(huì)增長(zhǎng)的越快,由于每隔一層的時(shí)候都需要根據(jù)實(shí)際情況采樣,最終完成降維操作。如果將加權(quán)密集連接卷積網(wǎng)絡(luò)分為三個(gè)部分,這樣就可以降低特征維度的增加,加權(quán)密集連接卷積網(wǎng)絡(luò)可以在環(huán)境當(dāng)中將當(dāng)時(shí)存在的狀態(tài)進(jìn)行截圖處理,并且以其作為網(wǎng)絡(luò)的輸入模式,經(jīng)過(guò)一層加權(quán)密集連接卷積網(wǎng)絡(luò)的常規(guī)卷積過(guò)程,然后進(jìn)入第一個(gè)需要加權(quán)密集處理的連接塊,在整個(gè)加權(quán)密集連接卷積網(wǎng)絡(luò)運(yùn)行訓(xùn)練中會(huì)產(chǎn)生大量的樣本數(shù)據(jù),所以在開(kāi)始的時(shí)候需要隨機(jī)的方式選擇動(dòng)作,使這些動(dòng)作在最短時(shí)間內(nèi)熟悉好語(yǔ)言環(huán)境信息,并且將數(shù)據(jù)保留在經(jīng)驗(yàn)池當(dāng)中,人們需要的時(shí)候來(lái)到經(jīng)驗(yàn)池根據(jù)訓(xùn)練的情況與內(nèi)容隨機(jī)抽取一部分進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)。
加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法中,關(guān)于經(jīng)驗(yàn)池回放這一個(gè)概念早在上個(gè)世紀(jì)末就提出來(lái)了,訓(xùn)練的全過(guò)程中需要進(jìn)行大量的樣本數(shù)據(jù)深度學(xué)習(xí),傳統(tǒng)的樣本學(xué)習(xí)方法已經(jīng)無(wú)法滿足加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)的要求,因此,人們需要根據(jù)樣本數(shù)據(jù)的情況進(jìn)行多次的使用,保證經(jīng)驗(yàn)池的技術(shù)可以解決這個(gè)問(wèn)題。加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法中經(jīng)驗(yàn)池回放指的就是將之前擁有的樣本數(shù)據(jù)全部存儲(chǔ)起來(lái),每一次訓(xùn)練的時(shí)候再找出一部分樣本進(jìn)行網(wǎng)絡(luò)學(xué)習(xí),經(jīng)驗(yàn)池的存在可以克服了數(shù)據(jù)分布不平衡的問(wèn)題,同時(shí)在一定程度上也有效的提高了數(shù)據(jù)的利用效率。使用者經(jīng)過(guò)多次的反復(fù)樣本學(xué)習(xí)以后,可以避免學(xué)習(xí)中再次接觸到同樣的樣本,如果加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法下經(jīng)驗(yàn)池中樣本數(shù)據(jù)已經(jīng)達(dá)到了設(shè)定的上限,新的樣本就會(huì)將原有的舊樣本替換下去,從而保證加權(quán)密集連接卷積網(wǎng)絡(luò)中樣本被抽到的概率一直處于相似的情況。
總而言之,隨著學(xué)習(xí)方法的更新和信息化手段的創(chuàng)新,將加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法中所有的元素緊密聯(lián)系在一起,在訓(xùn)練的過(guò)程中不斷的調(diào)整每一層網(wǎng)絡(luò)的權(quán)重值,隨后有效的提取到特征性信息,保證加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)處理圖像時(shí)更加省時(shí)高效,對(duì)于這種深度強(qiáng)化學(xué)習(xí)方法的研究不會(huì)止步不前,而是隨著時(shí)代的進(jìn)步和發(fā)展不斷有新的發(fā)現(xiàn)。