程陶然 李陽
摘要:隨著深度神經(jīng)網(wǎng)絡(luò)性能的不斷提高,應(yīng)用領(lǐng)域不斷擴(kuò)展,然而網(wǎng)絡(luò)參數(shù)規(guī)模和計算需求也在大幅增加,極大地限制了神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍。該文面向航空領(lǐng)域應(yīng)用,考慮到機(jī)載嵌入式計算環(huán)境的資源限制,對深度神經(jīng)網(wǎng)絡(luò)模型的輕量化設(shè)計方法進(jìn)行了總結(jié)分析。神經(jīng)網(wǎng)絡(luò)的輕量化設(shè)計主要通過模型壓縮和計算結(jié)構(gòu)優(yōu)化實現(xiàn)對網(wǎng)絡(luò)參數(shù)存儲空間的壓縮和運算速度提升,具體方法包括模型裁剪、參數(shù)量化與編碼、可分離卷積、知識提取、矩陣低秩分解等。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);輕量化;模型壓縮;結(jié)構(gòu)優(yōu)化
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)11-0191-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
Abstract: With the performance improvement of deep neural network(DNN), it is used in more field. However, the scale of parameters and computing requirements are also greatly increased, which limits the application scope of DNN. In this paper, the lightening design method of DNN is summarized for aviation applications. The lightening design of the neural network is aimed to reduce the storage space and improve the computing speed. It is mainly achieved by model compression and optimization of computing structure, including model clipping, parameter quantization and coding, separable convolution, knowledge extraction and low rank matrix decomposition.
Key words: Neural Network; lightening design; model compress; structure optimization
1 背景
自2016年AlphaGo擊敗了圍棋世界冠軍,以神經(jīng)網(wǎng)絡(luò)為代表的人工智能走進(jìn)了大眾視野,各行各業(yè)都掀起了“AI+”的熱潮。而在學(xué)術(shù)界,神經(jīng)網(wǎng)絡(luò)的快速發(fā)展開始于2006年“人工智能教父”Hinton提出的“預(yù)訓(xùn)練網(wǎng)絡(luò)”[1]。之后,隨著神經(jīng)網(wǎng)絡(luò)規(guī)模增加,計算能力提升,神經(jīng)網(wǎng)絡(luò)算法在圖像分類、目標(biāo)識別、自然語言理解、自動駕駛乃至游戲操作等領(lǐng)域先后取得突破性進(jìn)展。在航空領(lǐng)域,神經(jīng)網(wǎng)絡(luò)的應(yīng)用前景十分廣闊,經(jīng)典的目標(biāo)識別算法可以幫助飛行員更容易地發(fā)現(xiàn)目標(biāo),智能輔助決策算法有助于解決海量信息帶來的認(rèn)知負(fù)荷,對無人機(jī)更是意義重大。
為了獲得更好的特征提取能力,現(xiàn)有的優(yōu)秀神經(jīng)網(wǎng)絡(luò)算法大多層數(shù)眾多,計算量龐大。例如,2015年在ImageNet挑戰(zhàn)賽中成功超過人眼識別能力的殘差神經(jīng)網(wǎng)絡(luò)(ResNet-152)共有152層網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)數(shù)量超過70M,乘加運算次數(shù)高達(dá)11.3G[2]。這導(dǎo)致神經(jīng)網(wǎng)絡(luò)算法對運行設(shè)備的內(nèi)存空間、計算量和計算速度等都提出了較高的要求,必須依賴大型服務(wù)器的計算能力才能滿足應(yīng)用的實時性。
然而,在航空領(lǐng)域飛行器對機(jī)載設(shè)備重量、功耗等方面都有嚴(yán)格的限制,機(jī)載嵌入式計算環(huán)境中處理器的性能、計算資源的規(guī)模、存儲及內(nèi)存空間的大小都十分有限,難以滿足現(xiàn)有神經(jīng)網(wǎng)絡(luò)算法的需求。因此,要想在航空應(yīng)用中使用神經(jīng)網(wǎng)絡(luò)實現(xiàn)智能算法,必須對神經(jīng)網(wǎng)絡(luò)進(jìn)行輕量化設(shè)計,使其在有限的機(jī)載計算環(huán)境中仍有較高的性能。
2 神經(jīng)網(wǎng)絡(luò)模型壓縮
隨著神經(jīng)網(wǎng)絡(luò)層數(shù)不斷加深,訓(xùn)練所消耗的時間和服務(wù)器功耗大幅度增長,越來越多的技術(shù)人員意識到模型壓縮的重要性?!吧疃葔嚎s(Deep Compress)”[3]一文堪稱深度神經(jīng)網(wǎng)絡(luò)模型壓縮的經(jīng)典之作,文章通過模型裁剪降低網(wǎng)絡(luò)連接數(shù)量級,之后通過參數(shù)量化與編碼進(jìn)一步壓縮參數(shù)存儲體積,從而大幅度壓縮深度神經(jīng)網(wǎng)絡(luò)的規(guī)模。深度神經(jīng)網(wǎng)絡(luò)的輕量化方法大多都是基于此延伸出來的。
2.1 模型裁剪
深度神經(jīng)網(wǎng)絡(luò)連接數(shù)量級非常高,但其中有許多連接是不重要的或不必要的。通過一定的剪枝策略裁剪掉對網(wǎng)絡(luò)功能實現(xiàn)貢獻(xiàn)度較低的連接,可以顯著地擴(kuò)展網(wǎng)絡(luò)的稀疏性,有效降低網(wǎng)絡(luò)規(guī)模。
最基本的剪枝策略是根據(jù)連接權(quán)重數(shù)值的大小確定其重要性,對低于一定閾值的連接進(jìn)行裁剪,降低網(wǎng)絡(luò)連接數(shù)量。另一方面,網(wǎng)絡(luò)中每個節(jié)點的數(shù)值通常由多個連接共同確定,當(dāng)節(jié)點數(shù)值趨近于0時,對后續(xù)計算的影響將極其微小,裁剪掉這些節(jié)點不會影響網(wǎng)絡(luò)整體功能的實現(xiàn)?;谏鲜龌舅枷耄由斐隽嘶诩せ铐憫?yīng)熵值的裁剪策略[4]、基于泰勒展開的裁剪策略[5-7]、基于相關(guān)性的裁剪策略[8]等。
模型裁剪方法在卷積神經(jīng)網(wǎng)絡(luò)中應(yīng)用尤為廣泛,大量的卷積操作不僅參數(shù)規(guī)模龐大,計算規(guī)模也十分龐大。對卷積核進(jìn)行剪枝處理,減小網(wǎng)絡(luò)規(guī)模的同時還能夠大幅度降低網(wǎng)絡(luò)運行時的計算量。此外,由于剪枝后的網(wǎng)絡(luò)參數(shù)規(guī)模降低,強(qiáng)化訓(xùn)練過程將會大幅度縮短,有效降低網(wǎng)絡(luò)的訓(xùn)練時間。
2.2 參數(shù)量化與編碼
參數(shù)量化與編碼通過減少表示連接權(quán)重參數(shù)值所需要的比特位數(shù),進(jìn)一步壓縮神經(jīng)網(wǎng)絡(luò)的參數(shù)存儲體積,解決機(jī)載嵌入式環(huán)境下存儲、帶寬和內(nèi)存空間受限的問題。為了提高計算精度,神經(jīng)網(wǎng)絡(luò)模型通常使用高精度浮點數(shù)進(jìn)行計算,然而大多嵌入式硬件平臺都不支持浮點計算,這促使了神經(jīng)網(wǎng)絡(luò)參數(shù)定點化處理的研究。
8位定點數(shù)可表示的范圍是-16.00-15.875,滿足絕大多數(shù)神經(jīng)網(wǎng)絡(luò)的參數(shù)表示需求,只是最大精度為0.125,比浮點數(shù)表示有所損失,但是在經(jīng)典神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行測試,參數(shù)定點化處理后,經(jīng)過一定的訓(xùn)練微調(diào),模型精度損失低于1%[9]。通過在神經(jīng)網(wǎng)絡(luò)中綜合使用8位和16位定點數(shù)對權(quán)重、偏移量、激勵函數(shù)參數(shù)等進(jìn)行不同表示,能夠進(jìn)一步降低參數(shù)量化帶來的模型精度損失。
此外,通過使多個連接共享同一權(quán)重,減少需要存儲的有效權(quán)重的數(shù)目,也可以減小參數(shù)存儲體積。權(quán)重共享通常使用k-聚類算法,所有在同一聚類中的權(quán)重共享同一個權(quán)重值,網(wǎng)絡(luò)中僅存儲各權(quán)重值所在聚類的位置索引。
最后,選擇合適的編碼機(jī)制,能夠進(jìn)一步減少網(wǎng)絡(luò)所需的存儲空間。比如霍夫曼編碼(Huffman Coding),這是一種用于無損數(shù)據(jù)壓縮的最優(yōu)前綴碼,使用變長碼字對源信號進(jìn)行編碼,根據(jù)每個源信號出現(xiàn)的頻率,確定編碼表,出現(xiàn)頻率較高的信號使用較少的位數(shù)表示。經(jīng)過聚類處理后的各連接權(quán)重值存儲為對應(yīng)的位置索引,共享同一數(shù)值的連接存有相同的索引值,對索引值進(jìn)行霍夫曼編碼,能夠有效降低存儲信息的位數(shù)。
3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
神經(jīng)網(wǎng)絡(luò)模型壓縮技術(shù)主要是針對參數(shù)的存儲空間進(jìn)行優(yōu)化,對計算量的優(yōu)化有限。針對神經(jīng)網(wǎng)絡(luò)在移動端的應(yīng)用問題,有研究團(tuán)隊致力于通過設(shè)計更高效的網(wǎng)絡(luò)計算方式來實現(xiàn)神經(jīng)網(wǎng)絡(luò)模型的輕量化。機(jī)載嵌入式計算環(huán)境與移動端計算環(huán)境的硬件資源條件十分相似,移動端神經(jīng)網(wǎng)絡(luò)所使用的結(jié)構(gòu)優(yōu)化方法對神經(jīng)網(wǎng)絡(luò)模型在航空領(lǐng)域的應(yīng)用具有重要意義。
3.1 可分離卷積
MobileNet[10]是谷歌公司針對智能手機(jī)應(yīng)用設(shè)計的輕量化深度神經(jīng)網(wǎng)絡(luò)模型,其突出特點在于使用深度可分離卷積(depth-wise separable convolution)替代標(biāo)準(zhǔn)卷積方法進(jìn)行計算,從卷積層的運算特點著手,減小網(wǎng)絡(luò)參數(shù)數(shù)量并提升網(wǎng)絡(luò)計算速度。傳統(tǒng)的標(biāo)準(zhǔn)卷積其實一次性做了兩件事:普通的卷積計算和特征數(shù)量的變化,而深度可分離卷積,將這兩個步驟分開處理,分別進(jìn)行深度卷積(depth-wise convolution)和節(jié)點卷積(point-wise convolution)。
以M個輸入特征圖N個輸出特征圖的卷積層為例,假定卷積核的尺寸為K×K,每個卷積核都要與輸入特征圖的每個維度進(jìn)行卷積操作,即卷積核將擴(kuò)展為K×K×M×N,如圖1(a)所示。拆分后,深度卷積使用濾波器對輸入特征圖的每個維度進(jìn)行卷積操作,卷積核如圖1(b)所示;節(jié)點卷積使用1×1卷積,將M個輸入特征變?yōu)镹個輸出特征,卷積核如圖1(c)所示。
3.2 知識提取
知識提取方法通過讓簡單的神經(jīng)網(wǎng)絡(luò)模型向高性能復(fù)雜模型“學(xué)習(xí)”,來提高簡單模型的性能,獲取具備較高精度的輕量化神經(jīng)網(wǎng)絡(luò)[11]。實驗證實,通過該方法進(jìn)行訓(xùn)練的簡單模型,其性能優(yōu)于直接訓(xùn)練的結(jié)果。在進(jìn)行訓(xùn)練時,簡單神經(jīng)網(wǎng)絡(luò)模型將自身輸出與復(fù)雜模型相應(yīng)輸出的偏差納入誤差計算,再與標(biāo)準(zhǔn)結(jié)果的誤差進(jìn)行加權(quán)求和形成簡單模型的損失函數(shù)。通過這種方式簡單模型學(xué)習(xí)了復(fù)雜模型對數(shù)據(jù)間相近關(guān)系的理解,快速提升其識別精度。文獻(xiàn)[12]對普通的知識提取方法進(jìn)行改進(jìn),引入比例因子Z來表征復(fù)雜模型中的樣本相似性,從而幫助簡單模型更快的學(xué)習(xí)復(fù)雜模型的“知識”。
3.3 矩陣低秩分解
矩陣低秩分解類方法以其既可以加速深度神經(jīng)網(wǎng)絡(luò)計算又大大壓縮網(wǎng)絡(luò)中參數(shù)規(guī)模的優(yōu)勢,廣泛用于輕量化深度神經(jīng)網(wǎng)絡(luò)[13]。以全連接層為例,權(quán)重矩陣是二維張量,可以使用典型的低秩分解類方法SVD因式分解參數(shù)矩陣。
假定相鄰的兩個全連接層L1和L2分別有m、n個神經(jīng)元,對應(yīng)的權(quán)重矩陣W是一個m×n維的實數(shù)矩陣,用SVD法將其分解為[W=USVT],其中,U是m×m維實數(shù)矩陣,S是m×n維實數(shù)矩陣,V是n×n維實數(shù)矩陣。用這種方法得到的U、V是正交矩陣,S是對角矩陣,在其對角線上具有奇異值,可以發(fā)現(xiàn)奇異值衰減很快,權(quán)重矩陣W可以很好地被近似。該方法在Frobenius的意義上是最優(yōu)的,最小化了權(quán)重矩陣因式分解前后的均方誤差,有效降低了深度神經(jīng)網(wǎng)絡(luò)部署到嵌入式平臺的存儲和計算需求。
4 總結(jié)與展望
本文面向航空領(lǐng)域應(yīng)用,考慮到機(jī)載嵌入式計算環(huán)境的資源限制,對深度神經(jīng)網(wǎng)絡(luò)模型的輕量化設(shè)計方法進(jìn)行了總結(jié)分析。深度神經(jīng)網(wǎng)絡(luò)的輕量化設(shè)計主要通過模型壓縮和計算結(jié)構(gòu)優(yōu)化實現(xiàn)網(wǎng)絡(luò)參數(shù)存儲空間的壓縮,提升計算和訓(xùn)練速度,并控制模型精度損失在可接受的范圍內(nèi)。兩大技術(shù)方向各有優(yōu)勢,模型壓縮方法實現(xiàn)相對簡單,但是側(cè)重于存儲空間的優(yōu)化,對模型計算量的優(yōu)化較弱;結(jié)構(gòu)優(yōu)化方法不僅能夠取得較高的參數(shù)規(guī)模壓縮比例,對計算速度的提升也十分明顯,但是需要較高的設(shè)計技巧,實現(xiàn)過程相對復(fù)雜。未來要在航空領(lǐng)域應(yīng)用深度神經(jīng)網(wǎng)絡(luò)算法實現(xiàn)智能應(yīng)用,應(yīng)當(dāng)綜合使用模型壓縮與結(jié)構(gòu)優(yōu)化方法,結(jié)合硬件平臺的條件,進(jìn)行模型輕量化設(shè)計的同時保證模型性能。
參考文獻(xiàn):
[1] Hinton G, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 5786(313): 504-507.
[2] He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C] // IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[3] Han S, Mao H, Dally W J. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding [EB/OL].https://arXiv.org/abs/1510.00149.
[4] Luo J H, Wu J. An entropy-based pruning method for CNN compression[EB/OL].https://arXiv.org/abs/1706.05791.
[5] Yang T J, Chen Y H,Sze V.Designing energy-efficient convolutional neural networks using energyaware pruning[EB/OL]. https://arXiv.org/abs/1611.05128.
[6] LeCUN Y, DENKER J S, SOLLA S A. Optimal brain damage[C]//NIPS89: Proceedings of the 2nd International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 1989: 598-605.
[7] HASSIBI B, STORK D G. Second order derivatives for network pruning: optimal brain surgeon [C]//NIPS93: Proceedings of the 1993 Advances in Neural Information Processing Systems. San Francisco, CA: Morgan Kaufmann Publishers, 1993: 164-171.
[8] Tian Q, Arbel T, Clark J J. Efficient gender classification using a deep LDA-pruned net[EB/OL]. https://arXiv.org/abs/1704.06305.
[9] Gysel P, Motamedi M, Ghiasi S. Hardware-oriented approximation of convolutional neural networks[EB/OL]. https://arXiv.org/abs/1604.03168.
[10] Andrew G, Zhu M, Chen B. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL]. https://arXiv.org/abs/1704.04861.
[11] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[EB/OL]. https://arXiv.org/abs/1503.02531.
[12] 徐喆,宋澤奇.帶比例因子的卷積神經(jīng)網(wǎng)絡(luò)壓縮方法[J].計算機(jī)工程與應(yīng)用,2018, 54(12): 105-109.
[13] Denton E, Zaremba W, Bruna J, et al. Exploiting linear structure within convolutional networks for efficient evaluation[C]//Advances in Neural Information Processing Systems, 2014: 1269-1277.
【通聯(lián)編輯:謝媛媛】