基于加權(quán)密集連接卷積的深度強(qiáng)化學(xué)習(xí)方法總結(jié)

2018-07-23 08:09大連理工大學(xué)劉朋碩

電子世界 2018年13期

大連理工大學(xué) 劉朋碩

0.引言

強(qiáng)化學(xué)習(xí)到目前為止，已經(jīng)有了幾十年的發(fā)展歷程了，這是一種集結(jié)理解能力、自動(dòng)指向目標(biāo)以及決策為一體的計(jì)算方式，近幾年來(lái)對(duì)強(qiáng)化學(xué)習(xí)有了新一步的突破，傳統(tǒng)的強(qiáng)化學(xué)習(xí)在解決簡(jiǎn)單問(wèn)題的時(shí)候有出色的表現(xiàn)，但是在大規(guī)模問(wèn)題中就存在較大的不確定性，因此，加權(quán)密集連接卷積的深度強(qiáng)化學(xué)習(xí)方法值得被提倡，也吸引了越來(lái)越多的人去研究這種深度強(qiáng)化學(xué)習(xí)方法，從而達(dá)到事半功倍的效果。

1.深度強(qiáng)化學(xué)習(xí)總體框架分析

在現(xiàn)實(shí)生產(chǎn)與生活活動(dòng)中，如果遇到了大規(guī)模的問(wèn)題，傳統(tǒng)的強(qiáng)化學(xué)習(xí)在處理這些大規(guī)模問(wèn)題的時(shí)候只能夠解決表面，但是仍舊會(huì)出現(xiàn)維度災(zāi)難，尤其是實(shí)際生活中存在問(wèn)題更是多種多樣，需要更好的方法去解決，這也就是深度強(qiáng)化學(xué)習(xí)法，這種方法有多層單元組合，通過(guò)這種特征組合的方式，將原始的輸入形式逐漸轉(zhuǎn)化為淺層的特征、中層的特征以及高層的特征，這便是整個(gè)目標(biāo)任務(wù)的過(guò)程，如果將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)進(jìn)行科學(xué)有效的結(jié)合，并且通過(guò)深度化的學(xué)習(xí)動(dòng)進(jìn)行數(shù)據(jù)的抽象表征，以此進(jìn)行激勵(lì)，從而有效的彌補(bǔ)傳統(tǒng)的強(qiáng)化學(xué)習(xí)中發(fā)現(xiàn)的不足。

深度強(qiáng)化學(xué)習(xí)方法可以在不同的實(shí)際環(huán)境中使用，這種學(xué)習(xí)方法的適應(yīng)性較強(qiáng)，但是如果卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)太少，那么游戲的狀態(tài)和信息是無(wú)法完全提取出來(lái)的。卷積神經(jīng)網(wǎng)絡(luò)可以讓網(wǎng)絡(luò)朝著更深或者更寬的方向發(fā)展，隨著信息化技術(shù)的發(fā)展和網(wǎng)絡(luò)科技的進(jìn)步，網(wǎng)絡(luò)層數(shù)不斷在加深，節(jié)點(diǎn)不多增加，需要計(jì)算的量也有了成倍數(shù)的增加，這個(gè)時(shí)候使用加權(quán)密集連接卷積的深度強(qiáng)化學(xué)習(xí)方法就會(huì)起到更加理想的效果。

對(duì)于深度強(qiáng)化學(xué)習(xí)方法的整體框架，首先，提出的問(wèn)題成為樣本數(shù)據(jù)被輸入，隨后變?yōu)槌跏蓟疃染W(wǎng)格參數(shù)，參數(shù)完成后再對(duì)訓(xùn)練樣本進(jìn)行科學(xué)的預(yù)測(cè)，根據(jù)預(yù)測(cè)得到的結(jié)果分析樣本之間是否存在偏差，如果偏差過(guò)大，就要根據(jù)實(shí)際情況擴(kuò)大訓(xùn)練樣本的次數(shù)，如果偏差不大就可以繼續(xù)分析樣本之間存在的方差情況，如果方差過(guò)大，那么經(jīng)過(guò)正規(guī)化的處理方式進(jìn)行訓(xùn)練樣本的預(yù)測(cè)工作，如果方差不大，接下來(lái)就可以直接設(shè)置深度學(xué)習(xí)的網(wǎng)格超參數(shù)，可以使用蒙特卡洛模擬數(shù)據(jù)抽樣對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)流進(jìn)行一次預(yù)測(cè)，隨后設(shè)置好強(qiáng)化學(xué)習(xí)匯報(bào)的函數(shù)，根據(jù)函數(shù)的表現(xiàn)運(yùn)用深度強(qiáng)化學(xué)習(xí)的策略對(duì)當(dāng)前擁有的資源做好分析工作，最終得到結(jié)果[1]。

2.基于加權(quán)密集連接卷積的深度強(qiáng)化學(xué)習(xí)方法

2.1 密集連接卷積網(wǎng)絡(luò)

與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同，加權(quán)密集連接卷積在傳統(tǒng)的模式基礎(chǔ)上是一種全新的網(wǎng)絡(luò)連接模式，不同的層次之間需要進(jìn)行跨層連接，網(wǎng)絡(luò)中前后兩層信號(hào)可以在輸出層和輸入層之間進(jìn)行高速的流通，加權(quán)密集連接卷積網(wǎng)絡(luò)能夠?qū)⑵渲兴械膶右詢蓛傻姆绞竭B接在一起，這樣網(wǎng)絡(luò)當(dāng)中每一層都可以去接受之前所有層表現(xiàn)出來(lái)的特征，并且以此進(jìn)行輸入操作。在密集連接狀態(tài)下的網(wǎng)絡(luò)結(jié)構(gòu)中，每一層特征圖都需要經(jīng)過(guò)批量歸一化、Relu激活和卷積操作，如果在卷積操作的時(shí)候遇到了瓶頸，可以根據(jù)實(shí)際情況減少輸入特征圖的數(shù)量，從而有效的提高整個(gè)計(jì)算的效率。如果想要每一層的特征都能夠得到反復(fù)的利用，在跨層連接的時(shí)候可以使用并聯(lián)的方式，也就是在加權(quán)密集連接卷積網(wǎng)絡(luò)中每一層的輸入信息都能包含之前每一層的實(shí)際輸出。

經(jīng)過(guò)分析得知，密集連接卷積網(wǎng)絡(luò)主要有著兩個(gè)特性，第一個(gè)特性是密集連接卷積網(wǎng)絡(luò)在反向誤差傳播的時(shí)候，每一層網(wǎng)絡(luò)都可以接收到在這之后所有層中傳遞過(guò)來(lái)的梯度信號(hào)，這種情況下，即使密集連接卷積網(wǎng)絡(luò)層數(shù)在不斷增加，靠近輸入層的梯度也會(huì)變得越來(lái)越小，這個(gè)時(shí)候在一定程度上就可以減少整個(gè)訓(xùn)練過(guò)程中出現(xiàn)梯度消失的問(wèn)題。第二個(gè)特性是密集連接卷積網(wǎng)絡(luò)結(jié)構(gòu)中有大量的特征在重復(fù)使用的時(shí)候，可以使用少量的卷積核生成大量的特征，有效的降低模型中需要用到的計(jì)算量，這個(gè)時(shí)候整個(gè)模型的尺寸也能夠得到有效的控制，達(dá)到比較小的狀態(tài)[2]。

2.2 加權(quán)密集連接

密集連接卷積網(wǎng)絡(luò)跨層連接的過(guò)程中，每一層之間都屬于平等的關(guān)系，如果只是將當(dāng)前的密集連接卷積網(wǎng)絡(luò)層與之前所有的密集連接卷積網(wǎng)絡(luò)層之間并聯(lián)完成后再進(jìn)行操作，這個(gè)時(shí)候每一層之間的密集連接卷積操作都有著不同的作用和效果，得到的特征信息也不會(huì)相同，所以在進(jìn)行密集連接卷積網(wǎng)絡(luò)跨層連接的時(shí)候要保持分明的主次關(guān)系，也就是說(shuō)密集連接卷積網(wǎng)絡(luò)跨層連接的時(shí)候當(dāng)前的網(wǎng)絡(luò)層會(huì)起到主要的作用，之前所有的密集連接卷積網(wǎng)絡(luò)可以起到輔助的作用。如果加權(quán)密集連接卷積網(wǎng)絡(luò)層在進(jìn)行跨層連接的時(shí)候，需要進(jìn)行權(quán)重的分配，如果當(dāng)前密集連接卷積網(wǎng)絡(luò)層權(quán)重的系數(shù)為1，那么每一層的權(quán)重設(shè)置就是w，w的大小范圍在0和1之間，最小不低于0，最大不超過(guò)1，加入加權(quán)密集連接卷積網(wǎng)絡(luò)連接塊中當(dāng)前的層之前一共有i層密集連接卷積網(wǎng)絡(luò)，那么到了第i層的時(shí)候整個(gè)密集連接卷積網(wǎng)絡(luò)的權(quán)重就是：

深度卷積神經(jīng)網(wǎng)絡(luò)是這一波 AI 浪潮背后的大功臣。雖然很多人可能都已經(jīng)聽(tīng)說(shuō)過(guò)這個(gè)名詞，但是對(duì)于這個(gè)領(lǐng)域的相關(guān)從業(yè)者或者科研學(xué)者來(lái)說(shuō)，淺顯的了解并不足夠。近日，約克大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系的 Isma Hadji 和 Richard P. Wildes 發(fā)表了一篇《我們?cè)撊绾卫斫饩矸e神經(jīng)網(wǎng)絡(luò)？》的文章，幫助人們加深了對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)的理解，闡述了幾種多層神經(jīng)網(wǎng)絡(luò)，并介紹當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用中最成功的卷積結(jié)構(gòu)；具體介紹了標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)中的各構(gòu)成組件，并從生物學(xué)和理論兩個(gè)角度分析不同組件的設(shè)計(jì)方案；討論了當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的趨勢(shì)及可視化理解卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)研究工作，還重點(diǎn)闡述了當(dāng)前結(jié)構(gòu)仍存在的一些關(guān)鍵問(wèn)題[3]。

2.3 網(wǎng)絡(luò)模型的具體實(shí)現(xiàn)

加權(quán)密集連接卷積網(wǎng)絡(luò)之間層數(shù)越深，關(guān)于特征的維度就會(huì)增長(zhǎng)的越快，由于每隔一層的時(shí)候都需要根據(jù)實(shí)際情況采樣，最終完成降維操作。如果將加權(quán)密集連接卷積網(wǎng)絡(luò)分為三個(gè)部分，這樣就可以降低特征維度的增加，加權(quán)密集連接卷積網(wǎng)絡(luò)可以在環(huán)境當(dāng)中將當(dāng)時(shí)存在的狀態(tài)進(jìn)行截圖處理，并且以其作為網(wǎng)絡(luò)的輸入模式，經(jīng)過(guò)一層加權(quán)密集連接卷積網(wǎng)絡(luò)的常規(guī)卷積過(guò)程，然后進(jìn)入第一個(gè)需要加權(quán)密集處理的連接塊，在整個(gè)加權(quán)密集連接卷積網(wǎng)絡(luò)運(yùn)行訓(xùn)練中會(huì)產(chǎn)生大量的樣本數(shù)據(jù)，所以在開(kāi)始的時(shí)候需要隨機(jī)的方式選擇動(dòng)作，使這些動(dòng)作在最短時(shí)間內(nèi)熟悉好語(yǔ)言環(huán)境信息，并且將數(shù)據(jù)保留在經(jīng)驗(yàn)池當(dāng)中，人們需要的時(shí)候來(lái)到經(jīng)驗(yàn)池根據(jù)訓(xùn)練的情況與內(nèi)容隨機(jī)抽取一部分進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)。

2.4 經(jīng)驗(yàn)池回放

加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法中，關(guān)于經(jīng)驗(yàn)池回放這一個(gè)概念早在上個(gè)世紀(jì)末就提出來(lái)了，訓(xùn)練的全過(guò)程中需要進(jìn)行大量的樣本數(shù)據(jù)深度學(xué)習(xí)，傳統(tǒng)的樣本學(xué)習(xí)方法已經(jīng)無(wú)法滿足加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)的要求，因此，人們需要根據(jù)樣本數(shù)據(jù)的情況進(jìn)行多次的使用，保證經(jīng)驗(yàn)池的技術(shù)可以解決這個(gè)問(wèn)題。加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法中經(jīng)驗(yàn)池回放指的就是將之前擁有的樣本數(shù)據(jù)全部存儲(chǔ)起來(lái)，每一次訓(xùn)練的時(shí)候再找出一部分樣本進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)，經(jīng)驗(yàn)池的存在可以克服了數(shù)據(jù)分布不平衡的問(wèn)題，同時(shí)在一定程度上也有效的提高了數(shù)據(jù)的利用效率。使用者經(jīng)過(guò)多次的反復(fù)樣本學(xué)習(xí)以后，可以避免學(xué)習(xí)中再次接觸到同樣的樣本，如果加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法下經(jīng)驗(yàn)池中樣本數(shù)據(jù)已經(jīng)達(dá)到了設(shè)定的上限，新的樣本就會(huì)將原有的舊樣本替換下去，從而保證加權(quán)密集連接卷積網(wǎng)絡(luò)中樣本被抽到的概率一直處于相似的情況。

3.總結(jié)

總而言之，隨著學(xué)習(xí)方法的更新和信息化手段的創(chuàng)新，將加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法中所有的元素緊密聯(lián)系在一起，在訓(xùn)練的過(guò)程中不斷的調(diào)整每一層網(wǎng)絡(luò)的權(quán)重值，隨后有效的提取到特征性信息，保證加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)處理圖像時(shí)更加省時(shí)高效，對(duì)于這種深度強(qiáng)化學(xué)習(xí)方法的研究不會(huì)止步不前，而是隨著時(shí)代的進(jìn)步和發(fā)展不斷有新的發(fā)現(xiàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡