應(yīng)用知識(shí)蒸餾的深度神經(jīng)網(wǎng)絡(luò)波束形成算法

2020-06-10 00:20:20柏沫羽陳浩川張振華

遙測(cè)遙控 2020年1期

柏沫羽，劉昊，陳浩川，張振華

柏沫羽，劉昊，陳浩川，張振華

（北京遙測(cè)技術(shù)研究所北京 100076）

自適應(yīng)波束形成技術(shù)廣泛應(yīng)用于雷達(dá)領(lǐng)域的旁瓣抗干擾中。當(dāng)回波數(shù)據(jù)量增多時(shí)，傳統(tǒng)的波束形成算法無(wú)法進(jìn)行快速處理，而應(yīng)用深度神經(jīng)網(wǎng)絡(luò)模型通過(guò)數(shù)據(jù)的預(yù)訓(xùn)練則可以快速地進(jìn)行波束形成，因此根據(jù)波束形成原理設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)，并利用知識(shí)蒸餾的方式對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮，使壓縮后的模型既有原始模型良好的泛化性能而且又有更快的計(jì)算速度。仿真結(jié)果表明，相比于傳統(tǒng)的LMS算法，在實(shí)驗(yàn)環(huán)境下，未經(jīng)模型壓縮的深度神經(jīng)網(wǎng)絡(luò)自適應(yīng)波束形成算法的計(jì)算速度提高了約7倍，基于模型壓縮的深度神經(jīng)網(wǎng)絡(luò)自適應(yīng)波束形成算法的計(jì)算速度提高了約20倍。

信號(hào)處理；深度神經(jīng)網(wǎng)絡(luò)；自適應(yīng)波束形成；知識(shí)蒸餾

引言

自適應(yīng)波束形成技術(shù)是陣列信號(hào)處理的重要分支，近年來(lái)己成為新一代多功能自適應(yīng)相控陣?yán)走_(dá)的關(guān)鍵技術(shù)之一。自適應(yīng)波束形成技術(shù)能夠通過(guò)調(diào)整接收通道權(quán)系數(shù)來(lái)有效地實(shí)現(xiàn)干擾抑制等功能，在雷達(dá)、無(wú)線(xiàn)通信、聲納、地震勘測(cè)等系統(tǒng)中得到了廣泛的應(yīng)用。最小均方誤差算法LMS（Least Mean Square Algorithm）是自適應(yīng)波束形成算法中一種被廣泛應(yīng)用的迭代算法。但是當(dāng)所得到的回波數(shù)據(jù)量增多時(shí)，傳統(tǒng)的波束形成算法無(wú)法進(jìn)行及時(shí)處理。而深度神經(jīng)網(wǎng)絡(luò)模型可以在前期對(duì)大量的數(shù)據(jù)進(jìn)行訓(xùn)練，之后利用訓(xùn)練好的模型就可以快速準(zhǔn)確地進(jìn)行波束形成，比傳統(tǒng)的波束形成算法更加快速。不過(guò)，為了滿(mǎn)足模型的準(zhǔn)確性，深度神經(jīng)網(wǎng)絡(luò)模型需要大量的參數(shù)，這將占用過(guò)多的資源和訓(xùn)練時(shí)間，因此應(yīng)用知識(shí)蒸餾的方式對(duì)模型進(jìn)行壓縮，建立“學(xué)生”網(wǎng)絡(luò)，使模型在保持精確性的同時(shí)又具有更快的計(jì)算速度，使算法滿(mǎn)足在大數(shù)據(jù)的情況下進(jìn)行快速波束形成的需求，具有理論上和工程上的雙重研究意義。

將深度神經(jīng)網(wǎng)絡(luò)與自適應(yīng)波束形成技術(shù)相結(jié)合，具有提升自適應(yīng)波束形成算法高效性的前景。2004年Suksmono等人引入了多層感知機(jī)來(lái)替換傳統(tǒng)的LMS算法的單層模型[1]，在收斂速度上有所提升，但是依然采用的是迭代的方法，并沒(méi)有充分利用神經(jīng)網(wǎng)絡(luò)的非線(xiàn)性擬合能力。2015年張寶軍等人研究了利用徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行波束形成的方法[2]，但是這種方法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程較為復(fù)雜，需要進(jìn)行額外的k-means聚類(lèi)等操作，并且為了不使用更深層的神經(jīng)網(wǎng)絡(luò)而引入了過(guò)多的人工先驗(yàn)假設(shè)。2018年馮曉宇等人提出了在低快拍情況下利用徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行波束形成的方法[3]，這種方法僅僅是在低快拍情況下的改進(jìn)，并沒(méi)有對(duì)以上徑向基神經(jīng)網(wǎng)絡(luò)存在的問(wèn)題進(jìn)行解決。對(duì)于模型壓縮而言，在2013年，Denil等人提出了“在很多的深度神經(jīng)網(wǎng)絡(luò)中存在著顯著的冗余，僅僅使用很少一部分（5%）權(quán)值就足以預(yù)測(cè)剩余的權(quán)值”的觀(guān)點(diǎn)[4]。根據(jù)上述觀(guān)點(diǎn)，2015年Hinton等人提出了知識(shí)蒸餾的概念[5]，通過(guò)引入“教師-學(xué)生”網(wǎng)絡(luò)使模型參數(shù)大為減少，模型速度得到提升。因此本文將深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于波束形成算法中，并對(duì)模型進(jìn)行壓縮優(yōu)化，使波束形成算法相較于傳統(tǒng)的算法有更快的速度，在大數(shù)據(jù)情況下具有更好的性能。

本論文根據(jù)波束形成原理設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)模型，并對(duì)模型進(jìn)行壓縮，建立“教師-學(xué)生”網(wǎng)絡(luò)，“教師”網(wǎng)絡(luò)模型TNNBF（Teacher Neural Network Beamforming）使用了Leaky-ReLU激活函數(shù)，解決了模型訓(xùn)練過(guò)程中的梯度消失以及神經(jīng)元提前失活的問(wèn)題。運(yùn)用Adam優(yōu)化器提高模型訓(xùn)練的全局收斂性，加快了算法的速度，并結(jié)合Dropout正則化方法提升過(guò)參數(shù)化網(wǎng)絡(luò)的泛化性能，之后根據(jù)原始數(shù)據(jù)和泛化數(shù)據(jù)聯(lián)合訓(xùn)練了“教師-學(xué)生”網(wǎng)絡(luò)，提出了經(jīng)過(guò)模型壓縮后的深度神經(jīng)網(wǎng)絡(luò)波束形成算法SNNBF（Student Neural Network Beamforming）。

1 知識(shí)蒸餾

現(xiàn)階段，深度神經(jīng)網(wǎng)絡(luò)在信號(hào)處理、語(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)等領(lǐng)域都取得了非常好的表現(xiàn)。復(fù)雜的模型固然具有更好的性能，但是高額的存儲(chǔ)空間和計(jì)算資源消耗是其難以有效地應(yīng)用在各硬件平臺(tái)上的重要原因。為了解決這些問(wèn)題，許多業(yè)界學(xué)者研究模型壓縮方法來(lái)最大限度地減小模型對(duì)于計(jì)算空間和時(shí)間的消耗[6]。

在使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練大規(guī)模數(shù)據(jù)集時(shí)，為了處理復(fù)雜的數(shù)據(jù)分布：一種做法是建立復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，例如含有上百層的殘差網(wǎng)絡(luò)，這種復(fù)雜的網(wǎng)絡(luò)往往含有多達(dá)幾百萬(wàn)個(gè)參數(shù)；另一種做法往往會(huì)混合多種模型，將幾個(gè)大規(guī)模的神經(jīng)網(wǎng)絡(luò)在同一個(gè)數(shù)據(jù)集上訓(xùn)練好，然后綜合多個(gè)模型，得到最終的分類(lèi)結(jié)果。但是這種復(fù)雜模型，一是在新的場(chǎng)景下重新訓(xùn)練成本過(guò)高，二是由于模型過(guò)于龐大而難以大規(guī)模部署。所以，最基本的想法就是將大模型學(xué)習(xí)出來(lái)的知識(shí)作為先驗(yàn)，將先驗(yàn)知識(shí)傳遞到小規(guī)模的神經(jīng)網(wǎng)絡(luò)中，之后在實(shí)際應(yīng)用中部署小規(guī)模的神經(jīng)網(wǎng)絡(luò)。

基于上述思想，為了最大程度地減小模型復(fù)雜度，減少模型存儲(chǔ)需要的空間，同時(shí)也致力于加速模型的訓(xùn)練和推測(cè)，2015年Hinton等人提出了知識(shí)蒸餾的概念。所謂蒸餾就是將復(fù)雜網(wǎng)絡(luò)中的有用信息提取出來(lái)遷移到一個(gè)更小的網(wǎng)絡(luò)上，這樣學(xué)習(xí)出來(lái)的小網(wǎng)絡(luò)可以具備和大的復(fù)雜網(wǎng)絡(luò)相接近的性能效果，并且也大大地節(jié)省了計(jì)算資源。這個(gè)復(fù)雜的網(wǎng)絡(luò)可以看成是一個(gè)教師，而小的網(wǎng)絡(luò)則可以看成是一個(gè)學(xué)生。對(duì)于“教師”網(wǎng)絡(luò)的蒸餾過(guò)程，可以認(rèn)為是通過(guò)溫度系數(shù)，將復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)中的概率分布蒸餾出來(lái)，并用該概率分布來(lái)指導(dǎo)精簡(jiǎn)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。整個(gè)通過(guò)溫度系數(shù)的蒸餾過(guò)程由如下公式實(shí)現(xiàn)[5]：

損失函數(shù)的loss值為

算法的具體過(guò)程可以簡(jiǎn)單概述為：

①首先用較大的來(lái)訓(xùn)練模型，這時(shí)候復(fù)雜的神經(jīng)網(wǎng)絡(luò)能產(chǎn)生更均勻分布的軟目標(biāo)。

②之后小規(guī)模的神經(jīng)網(wǎng)絡(luò)用相同的值來(lái)學(xué)習(xí)由大規(guī)模神經(jīng)網(wǎng)絡(luò)產(chǎn)生的軟目標(biāo)，接近這個(gè)軟目標(biāo)從而學(xué)習(xí)到數(shù)據(jù)的結(jié)構(gòu)分布特征。

③最后在實(shí)際應(yīng)用中，將值恢復(fù)到1，對(duì)數(shù)據(jù)進(jìn)行測(cè)試。

從算法的具體過(guò)程中可以得到，數(shù)據(jù)本身是其結(jié)構(gòu)信息和數(shù)值的一種混合物，結(jié)構(gòu)關(guān)聯(lián)信息通過(guò)概率分布被蒸餾分離出來(lái)。值很大時(shí)，相當(dāng)于用很高的溫度將關(guān)鍵的分布信息從原有的數(shù)據(jù)中分離出來(lái)，之后在同樣的溫度下用新模型融合蒸餾出來(lái)的數(shù)據(jù)分布，最后恢復(fù)溫度，讓兩者充分融合起來(lái)。知識(shí)蒸餾這種模型壓縮方法本質(zhì)上相當(dāng)于對(duì)數(shù)據(jù)進(jìn)行了增強(qiáng)，加入了類(lèi)別之間關(guān)聯(lián)性的先驗(yàn)信息。將大規(guī)模網(wǎng)絡(luò)學(xué)習(xí)到的這種關(guān)系包裝到數(shù)據(jù)中，用這種更強(qiáng)的數(shù)據(jù)來(lái)訓(xùn)練小規(guī)模的模型，充分考慮到了類(lèi)間的距離和類(lèi)內(nèi)的方差信息，從而提升了小規(guī)模模型的性能，達(dá)到了蒸餾的效果。與直接使用預(yù)訓(xùn)練模型的結(jié)構(gòu)和權(quán)重相比，這是一種相對(duì)更高級(jí)的知識(shí)遷移方式。此外，Hinton提出的知識(shí)蒸餾方法是針對(duì)分類(lèi)問(wèn)題的，本文將知識(shí)蒸餾的思路應(yīng)用于回歸問(wèn)題的深度神經(jīng)網(wǎng)絡(luò)模型中，使設(shè)計(jì)完成的深度神經(jīng)網(wǎng)絡(luò)波束形成算法具有更好的性能，即算法有更快的計(jì)算速度并且其占用更少的計(jì)算資源。

2 應(yīng)用知識(shí)蒸餾的NNBF算法

2.1 問(wèn)題描述

深度神經(jīng)網(wǎng)絡(luò)[7]是一種能夠構(gòu)建復(fù)雜非線(xiàn)性關(guān)系的模型，在通過(guò)一定數(shù)量的樣本訓(xùn)練之后，它也可以推斷未知數(shù)據(jù)之間的未知關(guān)系，擁有較強(qiáng)的泛化性能。波束形成技術(shù)是一種通過(guò)回波信息和約束關(guān)系來(lái)合成波束的一種技術(shù)，傳統(tǒng)的波束形成算法運(yùn)算量大，運(yùn)算時(shí)間長(zhǎng)，占用資源多，在接收到大量回波數(shù)據(jù)時(shí)無(wú)法快速地進(jìn)行實(shí)時(shí)處理。因此利用深度神經(jīng)網(wǎng)絡(luò)對(duì)傳統(tǒng)的波束形成技術(shù)進(jìn)行改進(jìn)，之后再對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮，去除模型中的冗余，可以使波束形成的時(shí)間縮短，還可以根據(jù)所得的回波數(shù)據(jù)不斷更新網(wǎng)絡(luò)模型，使訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò)可以更好地應(yīng)對(duì)各種情況，具有良好的穩(wěn)健性。

2.2 “教師”網(wǎng)絡(luò)模型

根據(jù)波束形成的基本原理，建立深度神經(jīng)網(wǎng)絡(luò)模型。首先將相同的期望信號(hào)方向、干擾信號(hào)方向的數(shù)據(jù)進(jìn)行分組，每一組訓(xùn)練樣本先采用LMS算法獲得期望權(quán)重因子向量，然后將作為新的訓(xùn)練樣本目標(biāo)，訓(xùn)練框架可用下述公式進(jìn)行表示：

對(duì)于模型中的激活函數(shù)而言，本文采用Leaky-ReLU激活函數(shù)作為隱藏層的輸出[8]。這種激活函數(shù)在神經(jīng)元抑制區(qū)域依然擁有非零的梯度值，使得隱藏層的神經(jīng)元在訓(xùn)練過(guò)程中不會(huì)大量死亡，可以讓更多的神經(jīng)元得到充分訓(xùn)練。對(duì)于模型中的優(yōu)化算法而言，由于深度神經(jīng)網(wǎng)絡(luò)是一個(gè)非凸優(yōu)化問(wèn)題，擁有很多的局部極值點(diǎn)以及鞍點(diǎn)，普通的梯度下降算法很容易讓模型陷入局部極值，所以應(yīng)該采用帶動(dòng)量的一階優(yōu)化算法，使算法能夠跳出局部極值以及鞍點(diǎn)，得到更優(yōu)質(zhì)的解。SGD算法是一種固定學(xué)習(xí)率的經(jīng)典算法[9]，而Momentum方法是一種通過(guò)添加動(dòng)量[10]、提高收斂速度的算法，Adagrad算法讓不同的參數(shù)擁有不同的學(xué)習(xí)率[11]，并且通過(guò)引入梯度的平方和來(lái)作為衰減項(xiàng)，而在訓(xùn)練過(guò)程中自動(dòng)降低學(xué)習(xí)率。AdaDelta算法[12]則對(duì)Adagrad算法進(jìn)行改進(jìn)，讓模型在訓(xùn)練后期也能夠有較為合適的學(xué)習(xí)率。Adam方法就是根據(jù)上述思想而提出的[13]，對(duì)于每個(gè)參數(shù)，其不僅僅有自己的學(xué)習(xí)率，還有自己的Momentum量，這樣，在訓(xùn)練的過(guò)程中，每個(gè)參數(shù)的更新都更加具有獨(dú)立性[14]。它的自適應(yīng)學(xué)習(xí)率調(diào)節(jié)功能可以使神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度在下降初期更加迅速，在后期更加穩(wěn)健，并且不會(huì)提前停止；對(duì)于收斂性而言，Adam優(yōu)化算法的動(dòng)量部分能夠使模型收斂到相較于普通梯度下降算法更優(yōu)的局部最優(yōu)解上，提高了模型的性能。本文使用Adam算法作為網(wǎng)絡(luò)模型的優(yōu)化函數(shù)。

在訓(xùn)練過(guò)程中發(fā)現(xiàn)設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)相較于訓(xùn)練樣本而言是過(guò)參數(shù)化的，很容易過(guò)擬合。為了降低深度神經(jīng)網(wǎng)絡(luò)過(guò)擬合的風(fēng)險(xiǎn)，本文采用了Dropout方法來(lái)進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的正則化。Dropout算法是一種神經(jīng)網(wǎng)絡(luò)的正則化方法[15]，其功能是防止神經(jīng)網(wǎng)絡(luò)的過(guò)擬合。基于上述各個(gè)流程的操作，深度神經(jīng)網(wǎng)絡(luò)模型的總體原理如圖1所示。

圖1 “教師”網(wǎng)絡(luò)模型總體原理

2.3 “學(xué)生”網(wǎng)絡(luò)模型

之后對(duì)模型中的損失函數(shù)進(jìn)行設(shè)計(jì)，損失函數(shù)設(shè)計(jì)為“教師”網(wǎng)絡(luò)和“學(xué)生”網(wǎng)絡(luò)的均方誤差值，然后將“教師”網(wǎng)絡(luò)中的所有參數(shù)都固定，不進(jìn)行梯度更新；并將數(shù)據(jù)同時(shí)輸入“教師”網(wǎng)絡(luò)和“學(xué)生”網(wǎng)絡(luò)，并使用Adam優(yōu)化算法進(jìn)行模型優(yōu)化。按照上述流程“教師-學(xué)生”網(wǎng)絡(luò)的整體訓(xùn)練架構(gòu)如圖2所示。

訓(xùn)練結(jié)束之后，“學(xué)生”網(wǎng)絡(luò)中的隱藏層和最后的線(xiàn)性變換層中的參數(shù)可以提取出來(lái)作為蒸餾之后的模型，理論上蒸餾后的“學(xué)生”網(wǎng)絡(luò)模型能夠擁有和原來(lái)的“教師”網(wǎng)絡(luò)模型同等的泛化誤差，并且大大降低了計(jì)算開(kāi)銷(xiāo)。因此基于模型壓縮后的“學(xué)生”深度神經(jīng)網(wǎng)絡(luò)波束形成算法相比于未經(jīng)壓縮的深度神經(jīng)網(wǎng)絡(luò)波束形成算法有更好的性能。

圖2 模型的總體原理

3 仿真與分析

3.1 仿真條件

以一維線(xiàn)陣為例進(jìn)行仿真。其中天線(xiàn)陣元數(shù)為16，陣元間距為半波長(zhǎng)，信噪比為10dB，干噪比為30dB，取6個(gè)不同目標(biāo)方向和干擾方向的6000個(gè)訓(xùn)練樣本和60個(gè)測(cè)試樣本，其來(lái)波方向分別為0°、10°、20°、30°、40°、50°方向，對(duì)應(yīng)干擾方向分別為–50°、–40°、–30°、–20°、–10°、0°方向。此外，在下述仿真中，驗(yàn)證SNNBF算法的可行性以及意義時(shí)，均采用傳統(tǒng)的LMS算法作為基準(zhǔn)。下述所有仿真圖均基于此條件進(jìn)行仿真分析。

圖3期望信號(hào)方向?yàn)?°，干擾信號(hào)方向?yàn)楱C50°，分別采用LMS算法、TNNBF算法和SNNBF算法得到的天線(xiàn)方向圖，可以看到LMS算法、TNNBF算法和SNNBF算法都可以在期望信號(hào)方向進(jìn)行很好的波束形成，并且在干擾信號(hào)方向都可以進(jìn)行很好的抑制，因此通過(guò)圖3可知SNNBF算法有良好的波束形成性能。

3.2 SNNBF算法和TNNBF算法性能對(duì)比

“教師”網(wǎng)絡(luò)是過(guò)參數(shù)化的，理論上“學(xué)生”網(wǎng)絡(luò)能夠以更少的參數(shù)規(guī)模達(dá)到類(lèi)似于“教師”網(wǎng)絡(luò)的泛化性能。選擇60組不同信號(hào)源和干擾源的樣本進(jìn)行測(cè)試，統(tǒng)計(jì)最終合成的信號(hào)的均方誤差，對(duì)兩種算法在不同迭代步長(zhǎng)的情況下?lián)p失值的大小進(jìn)行實(shí)驗(yàn)，圖4為SNNBF算法和TNNBF算法的性能對(duì)比圖。從圖中可以看出，“學(xué)生”網(wǎng)絡(luò)在四分之一“教師”網(wǎng)絡(luò)的參數(shù)規(guī)模下提供了和“教師”網(wǎng)絡(luò)類(lèi)似的波束形成性能，經(jīng)過(guò)試驗(yàn)，“學(xué)生”網(wǎng)絡(luò)在測(cè)試集上的均方誤差為1.429371785，“教師”網(wǎng)絡(luò)在測(cè)試集的均方誤差為1.291752884，均方誤差差距在10%以?xún)?nèi)。

圖3 LMS算法、TNNBF算法和SNNBF算法天線(xiàn)方向圖

為了進(jìn)一步驗(yàn)證知識(shí)蒸餾在深度神經(jīng)網(wǎng)絡(luò)波束形成問(wèn)題上的意義，本文重新訓(xùn)練了一個(gè)參數(shù)規(guī)模和“學(xué)生”網(wǎng)絡(luò)一樣的小網(wǎng)絡(luò)，測(cè)試結(jié)果如圖5所示。可以看出，直接訓(xùn)練的小網(wǎng)絡(luò)由于沒(méi)有“教師”網(wǎng)絡(luò)提供的泛化訓(xùn)練樣本，所以在個(gè)別測(cè)試樣本中的誤差明顯高于“學(xué)生”網(wǎng)絡(luò)，測(cè)試數(shù)據(jù)集中小網(wǎng)絡(luò)的平均均方誤差是“學(xué)生”網(wǎng)絡(luò)的1.57倍。因此“教師-學(xué)生”網(wǎng)絡(luò)訓(xùn)練模式在波束形成的模型壓縮問(wèn)題上是有效的。

圖4 SNNBF算法和TNNBF算法性能對(duì)比

圖5 相同規(guī)模的“學(xué)生”模型和小模型性能對(duì)比

圖6 不同規(guī)?！皩W(xué)生”網(wǎng)絡(luò)模型性能

圖7 不同規(guī)模網(wǎng)絡(luò)模型算法性能

使用知識(shí)蒸餾壓縮方法可以在波束形成精度幾乎無(wú)損失的情況下，大幅度降低計(jì)算代價(jià)，加快運(yùn)算速度，并且擁有遠(yuǎn)高于直接訓(xùn)練的小網(wǎng)絡(luò)的精度。同時(shí)，根據(jù)實(shí)際使用場(chǎng)景對(duì)于精度的需求，使用知識(shí)蒸餾框架可以方便地從一個(gè)大網(wǎng)絡(luò)中蒸餾出不同精度的小網(wǎng)絡(luò)，讓模型在精度和運(yùn)算效率之間做出權(quán)衡。

4 總結(jié)

自適應(yīng)波束形成技術(shù)是一種良好的空域抗干擾技術(shù)，其廣泛應(yīng)用于航天導(dǎo)航、飛行器測(cè)控、地面通信和新體制雷達(dá)等領(lǐng)域。本文以L(fǎng)MS算法為根本，利用深度學(xué)習(xí)模型對(duì)LMS算法進(jìn)行改進(jìn)，并利用知識(shí)蒸餾的方式對(duì)模型進(jìn)行壓縮，使算法在大數(shù)據(jù)的情況下能夠快速穩(wěn)健地進(jìn)行波束形成。

SNNBF算法采用深度學(xué)習(xí)的相關(guān)技術(shù)，設(shè)計(jì)了自適應(yīng)波束形成的權(quán)重推斷網(wǎng)絡(luò)，利用知識(shí)蒸餾的原理建立了“教師-學(xué)生”神經(jīng)網(wǎng)絡(luò)模型。其中，“教師”網(wǎng)絡(luò)使用Adam優(yōu)化器增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的全局收斂性，然后用Leaky-ReLU激活函數(shù)解決深度神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題，并利用Dropout方法抑制波束形成深度神經(jīng)網(wǎng)絡(luò)的過(guò)擬合現(xiàn)象，使自適應(yīng)波束形成的權(quán)重推斷網(wǎng)絡(luò)在準(zhǔn)確性和泛化性上均有較好的性能。這種神經(jīng)網(wǎng)絡(luò)模型存在冗余，因此利用“知識(shí)蒸餾”的方式對(duì)模型進(jìn)行壓縮，生成“學(xué)生”網(wǎng)絡(luò)，這一網(wǎng)絡(luò)既包含“教師”網(wǎng)絡(luò)的精確性，又具有更快的計(jì)算速度，在同樣的計(jì)算資源下，TNNBF算法將LMS算法收斂速度提高了約7倍，SNNBF算法將LMS算法收斂速度提高了約20倍，并且在未來(lái)隨著訓(xùn)練數(shù)據(jù)的增加，權(quán)重推斷網(wǎng)絡(luò)的泛化性能以及準(zhǔn)確性能夠繼續(xù)提高，具有較大的理論和工程的應(yīng)用價(jià)值。

[1] BAYU S A, HIROSE A. Intelligent beamforming by using a complex-valued neural network[J]. Journal of Intelligent and Fuzzy Systems, 2004, 15(3-4): 139–147.

[2] 張寶軍, 盧夢(mèng)怡, 陳治清, 等. 基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的波束形成算法[J]. 西安郵電大學(xué)學(xué)報(bào), 2015, 20(6): 33–36.ZHANG Baojun, LU Mengyi, CHEN Zhiqing, et al. Beamforming algorithm based on RBF neural network[J]. Journal of Xi'an University of Posts and Telecommunications, 2015, 20(6): 33–36.

[3] 馮曉宇, 謝軍偉, 張晶, 等. 低快拍下模糊徑向基神經(jīng)網(wǎng)絡(luò)波束形成算法[J]. 火力與指揮控制, 2018, 43(4): 132–135,140. FENG Xiaoyu, XIE Junwei, ZHANG Jing, et al. Beamforming algorithm based on fuzzy RBF neural network in the situation of limited snapshots[J]. Fire Control & Command Control, 2018, 43(4): 132–135,140.

[4] MISHA D, BABAK S, LAURENT D, et al. Predicting parameters in deep learning. Advances in Neural Information Processing Systems[C]. 2013: 2148–2156.

[5] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[J]. Computer Science, 2015, 14(7): 38–39.

[6] 葉遠(yuǎn)征. 基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法研究與應(yīng)用[D]. 綿陽(yáng): 西南科技大學(xué), 2019. YE Yuanzheng. Research and application of target detection algorithm based on convolutional neural network[D]. Mianyang: Southwest University of Science and Technology, 2019.

[7] HINTON G, GEOFFREY E, SIMON O, YEEWHYE T. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006: 1527–1554.

[8] MAAS A L, HANNUN A Y, NG A Y. Rectifier nonlinearities improve neural network acoustic models[C]//In Proc. ICML, 2013, 30(1): 3.

[9] PARAS. Stochastic gradient descent[J]. Optimization, 2014.

[10] PHANSALKAR V V, SASTRY P S. Analysis of the back-propagation algorithm with momentum[J]. IEEE Transactions on Neural Networks, 1994, 5(3): 505–506.

[11] WILSON A C, ROELOFS R, STERN M, et al. The marginal value of adaptive gradient methods in machine learning[J]. 2017.

[12] ZEILER M D. ADADELTA: an adaptive learning rate method[J]. Computer Science, 2012.

[13] KINGMA D, BA J. Adam: a method for stochastic optimization[J]. Computer Science, 2014.

[14] 史浩強(qiáng). 陀螺儀若干典型故障智能診斷與預(yù)測(cè)技術(shù)[D]. 西安: 西安理工大學(xué), 2019. SHI Haoqiang. Intelligent diagnosis and prediction technology for some typical faults of gyroscopes[D]. Xi'an:Xi'an University of Technology, 2019.

[15] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The journal of machine learning research, 2014, 15(1): 1929–1958.

Beamforming algorithm for deep neural network using knowledge distillation

BAI Moyu, LIU Hao, CHEN Haochuan, ZHANG Zhenhua

（Beijing Research Institute of Telemetry, Beijing 100076, China）

Adaptive beamforming technology is widely used in sidelobe anti-interference in the radar field. When the amount of echo data increases, the traditional beamforming algorithm cannot perform fast processing, and the deep neural network model can quickly perform beamforming through data pre-training. Therefore, this paper designs a deep neural network according to the beamforming principle. The deep neural network is compressed by means of knowledge distillation, so that the compressed model has both good generalization performance and faster calculation speed. The simulation results show that compared with the traditional LMS algorithm, the computational speed of the adaptive beamforming algorithm for deep neural networks without model compression is improved by about 7 times and the computational speed of the adaptive beamforming algorithm based on model compression is improved by about 20 times in the experimental environment.

Signal processing; Deep neural network; Adaptive beamforming; Knowledge distillation

TN911.7

CN11-1780(2020)01-0066-07

Email:ycyk704@163.com

TEL:010-68382327 010-68382557

2019-12-17

柏沫羽 1993年生，在讀碩士，研究方向?yàn)槔走_(dá)信號(hào)處理。

劉昊 1976年生，博士，研究員，研究方向?yàn)橄嗫仃囂炀€(xiàn)與微波技術(shù)。

陳浩川 1979年生，研究員，研究方向?yàn)槔走_(dá)總體設(shè)計(jì)。

張振華 1977年生，研究員，研究方向?yàn)槔走_(dá)系統(tǒng)與信號(hào)處理。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

應(yīng)用知識(shí)蒸餾的深度神經(jīng)網(wǎng)絡(luò)波束形成算法

引 言

1 知識(shí)蒸餾

2 應(yīng)用知識(shí)蒸餾的NNBF算法

2.1 問(wèn)題描述

2.2 “教師”網(wǎng)絡(luò)模型

2.3 “學(xué)生”網(wǎng)絡(luò)模型

3 仿真與分析

3.1 仿真條件

3.2 SNNBF算法和TNNBF算法性能對(duì)比

4 總結(jié)

引言