陳容均,嚴(yán)宣輝*,楊超城
(1.福建師范大學(xué) 計算機與網(wǎng)絡(luò)空間安全學(xué)院,福州 350117;2.數(shù)字福建環(huán)境監(jiān)測物聯(lián)網(wǎng)實驗室(福建師范大學(xué)),福州 350117)
時間序列數(shù)據(jù)廣泛存在于各個領(lǐng)域,對它的分析被認(rèn)為是數(shù)據(jù)挖掘領(lǐng)域最具挑戰(zhàn)性的問題[1-2]。時間序列分析主要分為兩類:1)時間序列預(yù)測[3],如對產(chǎn)品需求量的預(yù)測有助于提高倉庫的利用率[4];對道路人流量的預(yù)測可以提前制定交通管理措施[5-6];對股票趨勢的預(yù)測有助于制定合理的投資策略[7-8]。2)時間序列的分類,如對心電圖信號進行分類以幫助醫(yī)生診斷病情[9-10];用可穿戴的移動傳感器采集人們運動時跑步、走路、游泳等行為活動數(shù)據(jù),以便于在老年人康復(fù)、環(huán)境輔助生活、智能家居等多領(lǐng)域中改善人們的生活[11-12];分析電力系統(tǒng)的監(jiān)測數(shù)據(jù),有助于及時發(fā)現(xiàn)故障以提高電力系統(tǒng)的安全性[13]。可以看出,時間序列的應(yīng)用場景十分廣泛,對時間序列預(yù)測和分類的研究有著重要意義。
傳統(tǒng)的時間序列分類算法通常需要基于數(shù)據(jù)間的某種相似或相異性度量,因此可以將時間序列分類算法概括為以下四類:1)基于時域相似性的分類算法。這類算法主要采用基于某種距離度量的最近鄰(One-Nearest Neighbor,1-NN)方法,如歐氏距離和動態(tài)時間歸整(Dynamic Time Warping,DTW)[14]等。2)基于形 狀相似 性的分 類算法。如STC(Shapelet Transform Classifier)[15]是一種基于Shapelet[16]方法的分類模型,它通過計算時間序列特征中與前k個Shapelet的距離實現(xiàn)分類。3)基于變化相似性的分類算法。如TSF(Time Series Forest)[17]和RISE(Random Interval Spectral Ensemble)[18]算法通過時間序列中所包含的潛在間隔變化信息進行分類。4)基于字典相似性的分類算法。如符號-傅里葉近似的符號袋算法(Bag Of Symbolic-Fourier approximation Symbols,BOSS)[19]和時間序列分類的詞匯提取算法(Word ExtrAction for time SEries cLassification,WEASEL)[20],對時間序列提取出子序列,每個子序列通過符號化的傅里葉近似法(Symbolic Fourier Approximation,SFA)[21]得到符號特征,對符號特征統(tǒng)計頻率并作為時間序列子序列的特征,所有子序列的特征作為邏輯回歸的輸入對時間序列分類。
近些年來,深度學(xué)習(xí)被一些學(xué)者用于解決時間序列的分類問題,如多級小波分解網(wǎng)絡(luò)(multilevel Wavelet Decomposition Network,mWDN)[22]、多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale Convolutional Neural Network,MCNN)[23]、時序卷積神經(jīng)網(wǎng)絡(luò)(Time Series Convolutional Neural Network,TSCNN)[24]和時間序列注意原型網(wǎng)絡(luò)(Time series attentional prototype Network,TapNet)[25]等。最經(jīng)典的方法是將時序數(shù)據(jù)轉(zhuǎn)換為二維時序圖像,二維時序圖像可以建立時空信息,并且應(yīng)用計算機視覺領(lǐng)域成熟穩(wěn)定的模型如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),對時序圖像進行分析與挖掘[26]。目前,研究人員提出了眾多的序列圖像化方法。例如,Chan等[27]利用小波變換從信號中提取信息,通過伸縮平移等運算將信號轉(zhuǎn)換成為時頻圖;Wang等[28]用格拉姆角場(Gramian Angular Field,GAF)和馬爾可夫躍遷場(Markov Transition Field,MTF)將時間序列轉(zhuǎn)為圖像;Hatami等[29]用重現(xiàn)圖(Recurrence Plot,RP)和CNN 進行分類得到RP-CNN模型;Rodrigues等[30]提出繪圖CNN 模型,用簡易繪圖的方式將時序數(shù)據(jù)轉(zhuǎn)換為圖像,繼而用CNN 進行分類。
但上述圖像化方法具有一定的局限性:1)圖像化方法通常只能表現(xiàn)序列數(shù)據(jù)的片面信息,如GAF 只考慮了時間相關(guān)性,MTF 只考慮了時間位置關(guān)系,RP 只分析了時間序列周期性和平穩(wěn)性。單一的圖像化方法只能保留特定的特征,這導(dǎo)致在運用圖像化方法之前需要分析時序數(shù)據(jù)的構(gòu)成因素[31],才能得到一個相對較好的結(jié)果。2)用CNN 對序列圖像進行分類時,卷積的平移不變性無法感受到輸入時序數(shù)據(jù)的變化,這將弱化網(wǎng)絡(luò)提取空間信息的能力。3)在卷積的過程中,由于感視野受到卷積核大小的限制[32],無法學(xué)習(xí)到時序圖像中動態(tài)的時間關(guān)聯(lián)信息。
為了解決上述問題,本文提出一種混合圖像化循環(huán)膠囊神經(jīng)網(wǎng)絡(luò)(Fusion-Imaging Recurrent Capsule neural network,F(xiàn)IR-Capsnet),特色與優(yōu)勢在于:1)FIR-Capsnet 結(jié)合GAF、RP、MTF 三種圖像化方法的優(yōu)勢,構(gòu)造可以表現(xiàn)時序數(shù)據(jù)不同特征的多通道圖像,以此融合時序數(shù)據(jù)所蘊含的多側(cè)面時空特征,如時間相關(guān)性、位置關(guān)系、周期性和平穩(wěn)性;2)引入膠囊神經(jīng)網(wǎng)絡(luò),提取更多的潛在空間特征,并賦予一種內(nèi)稟的注意力機制[33],強化淺層特征的提取和挖掘空間信息,提升網(wǎng)絡(luò)魯棒性;3)結(jié)合長短時記憶(Long-Short Term Memory,LSTM)網(wǎng)絡(luò)的門機制與膠囊的旋轉(zhuǎn)不變性實現(xiàn)神經(jīng)元的激活和凍結(jié),使膠囊特征之間具有記憶關(guān)聯(lián)性,以此學(xué)習(xí)時序圖像蘊含的時間特征,提高膠囊神經(jīng)元的表達能力。此外,為了說明FIR-Capsnet 將循環(huán)記憶機制用于膠囊層的優(yōu)勢,本文同時將循環(huán)記憶機制運用于動態(tài)路由算法中,并通過對比實驗分析循環(huán)記憶機制結(jié)合膠囊網(wǎng)絡(luò)在不同階段的優(yōu)勢。
在單變量時間序列分類問題中,一個樣本表示為二元組{T,y},其中:T由L個觀測值(T1,T2,…,TL)構(gòu)成;y為類別的離散值,有NC種可能性。定義映射函數(shù)y=f*(T;θ),分類算法的目標(biāo)是學(xué)習(xí)該映射的最優(yōu)參數(shù)θ,以盡可能地逼近函數(shù)f*。
時間序列在一維空間上有多組特征,特征之間通常具有高度的關(guān)聯(lián)性。例如,在一維的空間中,更多體現(xiàn)時序、周期、頻率等特征。但一維時間序列上能夠讓人們捕捉到的信息有限,如時間點之間的相似度難以被分類網(wǎng)絡(luò)提取[31]。因此,序列轉(zhuǎn)換為圖像后,可以在二維空間中用更多的語義特征如平穩(wěn)性、周期、位置關(guān)系等表達時間序列所包含的潛在相空間信息[28]。
圖像化時間序列常用的轉(zhuǎn)換算法有GAF、RP 與MTF。其中:GAF 考慮時間相關(guān)性,將一維序列數(shù)據(jù)從直角坐標(biāo)系轉(zhuǎn)換到極坐標(biāo),并且通過反余弦函數(shù)消去噪聲[28];MTF 考慮了時間狀態(tài)關(guān)系,對時間序列進行量化,然后統(tǒng)計觀測點之間的轉(zhuǎn)換概率,構(gòu)造馬爾可夫轉(zhuǎn)移矩陣[28];RP 綜合了時間序列的周期性、混沌性和非平穩(wěn)性,計算軌跡之間的成對距離[29]。為了解決圖像化方法的局限性,本文結(jié)合多種圖像化方法融合不同空間特征,如周期、位置、時間相關(guān)性,形成多通道數(shù)據(jù),再通過FIR-Capsnet 提取多水平時空特征,最后對圖像分類。即對時間序列分別進行了GAF、RP 和MTF 的3 種轉(zhuǎn)換,最后將圖像化時間序列合并為一個3 通道圖像。
膠囊神經(jīng)網(wǎng)絡(luò)作為當(dāng)前新興的深度學(xué)習(xí)模型,在圖像處理中應(yīng)用廣泛[34-36]。它綜合位姿信息將圖像中所有的信息表征為向量,并通過動態(tài)路由算法提取空間信息[33]。因此本文利用膠囊神經(jīng)網(wǎng)絡(luò)提取融合的時空特征。但膠囊網(wǎng)絡(luò)在某些時序樣本數(shù)據(jù)集上表現(xiàn)不佳,這是由于它只能捕捉空間特征,忽略了時間特征。為了在捕捉空間特征的同時結(jié)合時間特征,本文結(jié)合LSTM 的門機制改進膠囊網(wǎng)絡(luò),命名為Caps-LSTM。此外,為了對比循環(huán)記憶機制在各個階段的表現(xiàn),本文分別在膠囊層和路由層引入循環(huán)記憶結(jié)構(gòu),得到2種不同的網(wǎng)絡(luò),分別命名為FIR-Capsnet 與混合圖像化記憶循環(huán)膠囊神經(jīng)網(wǎng)絡(luò)(Fusion-Imaging Memory Recurrent Capsule neural network,F(xiàn)IMR-Capsnet),用于比較循環(huán)記憶機制作用在不同模塊的優(yōu)劣。
FIR-Capsnet 由卷積層、膠囊層、Caps-LSTM 層和路由(Dynamic Routing,DR)[33]層組成,如圖1 所示。
圖1 FIR-Capsnet結(jié)構(gòu)Fig.1 Structure of FIR-Capsnet
卷積層的卷積核大小為m1×m1,通道數(shù)為C1,特征圖大小為H1×W1×C1。膠囊層的卷積核大小為m2×m2,通道數(shù)為C2,向量神經(jīng)元個數(shù)為D1,得到特征圖大小H2×W2×C2×D1,H2×W2為膠囊層后的特征圖大小。Caps-LSTM 的隱藏單元數(shù)為D1,輸出單元數(shù)為D2。經(jīng)過Caps-LSTM 的向量神經(jīng)元的個數(shù)為H2×W2×C2×D2;經(jīng)過卷積層、膠囊層與Caps-LSTM 層的特征提取,最后路由層將膠囊特征迭代iter次,輸出NC個類膠囊。最終根據(jù)每個膠囊的模長,得到屬于各個類的概率。
由于膠囊網(wǎng)絡(luò)能夠捕捉時序圖像中的位置相對關(guān)系,因此本文將膠囊神經(jīng)網(wǎng)絡(luò)引入時序圖像分類。同時希望讓網(wǎng)絡(luò)能夠在時序圖像卷積的過程中學(xué)習(xí)時序圖像中潛在的時間關(guān)聯(lián)性。例如網(wǎng)絡(luò)數(shù)據(jù)流,當(dāng)傳輸控制協(xié)議(Transmission Control Protocol,TCP)連接中的FIN(Function Item Number)位設(shè)置為1 時,表明此報文段的數(shù)據(jù)發(fā)送完畢,請求釋放連接,后續(xù)因網(wǎng)絡(luò)延遲而造成的滯后數(shù)據(jù)是無效數(shù)據(jù)[37]。但膠囊網(wǎng)絡(luò)的核心操作是卷積操作,導(dǎo)致膠囊局限于卷積核大小,對時域特征不敏感。因此,本文借鑒LSTM 中的門機制,通過遺忘門傳遞特征,使時序圖像的像素之間具有關(guān)聯(lián)性,從而使時序特征關(guān)聯(lián)區(qū)域不再局限于卷積核的大小。將該層命名為Caps-LSTM 層,它一方面利用膠囊挖掘多水平特征的空間信息,另一方面,則利用門機制學(xué)習(xí)時間序列數(shù)據(jù)隱含的時間關(guān)聯(lián)性。
如圖2 所示,Caps-LSTM 單元的輸入是即時膠囊狀態(tài)值、前一個Caps-LSTM 單元輸出膠囊的隱藏值與前一個Caps-LSTM 單元輸出膠囊的記憶值。在Caps-LSTM 層中,膠囊作為Caps-LSTM 中的輸入,通過雙向LSTM 捕捉膠囊之間的依賴關(guān)系,得到新的一組膠囊。Caps-LSTM 可以利用輸出門對膠囊的某些特征閉合,并且通過遺忘門使膠囊之間具有關(guān)聯(lián)性,對膠囊的重要特征進行前后的雙向傳遞。雖然膠囊層得到的膠囊已經(jīng)被卷積破壞了時序關(guān)系,但通過Caps-LSTM層,可以讓膠囊學(xué)習(xí)隱含動態(tài)時間關(guān)聯(lián)特征。Caps-LSTM 的輸入門和遺忘門解決了特征動態(tài)關(guān)聯(lián)問題,輸出門解決了特征動態(tài)閉合問題。膠囊通過Caps-LSTM 能夠輸出更具有表征意義的特征。
圖2 Caps-LSTM層Fig.2 Caps-LSTM layer
Caps-LSTM 用符號x{t}代表膠囊t的輸入值;h{t-1}代表上一個膠囊的隱藏層狀態(tài)值;c{t-1}代表長時記憶單元值;Γf{t}、Γu{t}、Γo{t}分別代表LSTM 的第t個單元的輸入門、遺忘門和輸出門表示備選記憶值;c{t}代表即時單元的記憶值;Wf、Wu、Wc、Wo分別表示輸入門、遺忘門、記憶單元、輸出門的權(quán)重;bf、bu、bc、bo分別表示輸入門、遺忘門、記憶單元、輸出門的偏置;σ代表Sigmoid 函數(shù),能夠?qū)⑤斎胗成涞?~1 的范圍內(nèi)。Caps-LSTM 層的運算公式概括如下:
Caps-LSTM 層在處理時序圖像問題時有明顯優(yōu)勢,本文將在3.7 節(jié)進行驗證。
經(jīng)過Caps-LSTM 層的特征呈現(xiàn)了激活和凍結(jié)的狀態(tài),為了充分利用膠囊中的潛在特征,本文用動態(tài)路由減少深層高級特征的丟失[33]。動態(tài)路由通過計算預(yù)測膠囊和高層膠囊的相似度實現(xiàn)低層膠囊i向高層膠囊j路由的過程,越相似的膠囊被賦予了越大的權(quán)重。圖3 是路由膠囊的簡易結(jié)構(gòu)。其中:Ui與Pj|i分別表示第i層膠囊與第j層預(yù)測膠囊;Vj代表第j層的輸出膠囊;Wij是i向j的轉(zhuǎn)換矩陣,即權(quán)重系數(shù),可以通過反向傳播算法(Back Propagation,BP)更新;Cij是i向j過渡的耦合系數(shù),可以通過路由迭代算法更新,Cij越高代表相似度越高,預(yù)測膠囊越接近輸出膠囊,膠囊之間相關(guān)性越強。路由迭代算法通過低層膠囊Ui和轉(zhuǎn)換矩陣Wij得到預(yù)測膠囊Pj|i,將得到的預(yù)測膠囊與耦合系數(shù)相乘,獲得總輸出向量Sj,Sj經(jīng)過壓縮函數(shù)得到最終輸出向量Vj。壓縮函數(shù)保證了向量長度始終在[0,1]的區(qū)間。公式總結(jié)如下:
圖3 動態(tài)路由過程Fig.3 Dynamic routing process
其中:耦合系數(shù)Cij依賴于當(dāng)前膠囊的輸入矢量,而不是依賴于學(xué)習(xí)到的權(quán)重系數(shù)。在路由迭代算法開始時,初始化邏輯對數(shù)bij=0,bij通過預(yù)測膠囊Pj|i和輸出膠囊Vj之間的相似性進行更新:
當(dāng)路由迭代次數(shù)增大,計算資源也會隨之增加,因此常用的路由迭代次數(shù)為3[36]。本文將在3.6 節(jié)對比和分析不同路由迭代次數(shù)的性能。
為了證明網(wǎng)絡(luò)的有效性,將本文方法與現(xiàn)有的時間序列圖像化分類方法進行對比實驗,并且在消融實驗中消除了循環(huán)記憶機制的作用,讓它退化為Capsnet 與本文方法進行對照,以此分析循環(huán)機制的效果;最后,在3.8 節(jié)對比了循環(huán)記憶膠囊與循環(huán)記憶路由的結(jié)果。
實驗環(huán)境的運行平臺是python3.8+pytorch 1.8.1,并用GPU(Graphics Processing Unit)進行加速訓(xùn)練。
實驗采用UCR 時序數(shù)據(jù)集[38]和人體活動識別(Human Activity Recognition,HAR)數(shù)據(jù)集[12]進行分析。
UCR 數(shù)據(jù)集用于時序分類的權(quán)威數(shù)據(jù)集,為了消除數(shù)據(jù)集中帶入的主觀性,隨機選取UCR 中的30 個數(shù)據(jù)集進行訓(xùn)練和測試,包含了不同序列長度、類型與類別,如表1 所示。
表1 UCR數(shù)據(jù)集信息Tab.1 Information of UCR datasets
除了UCR 數(shù)據(jù)集,本文另外選取了HAR 作為實際實驗數(shù)據(jù)。HAR 數(shù)據(jù)集的實驗對象為30 名年齡在19~48 歲之間的志愿者。每個人在腰部佩戴智能手機進行6 項活動,分別為:走路、上樓、下樓、坐下、站直和躺下。使用嵌入式加速計和陀螺儀以50 Hz 的恒定速率捕獲三軸線加速度和角速度。記錄實驗過程,并且為每一個樣本標(biāo)記標(biāo)簽。
實驗過程中,傳感器信號(加速計和陀螺儀)通過應(yīng)用噪聲濾波器進行預(yù)處理,然后在2.56 s 和50%重疊的固定寬度滑動窗口中采樣(128 個讀數(shù)/窗口)。從時域和空域計算變量獲得特征向量,最后得到共計10 419 個時間序列長度為762 的樣本數(shù)據(jù)。本文將獲得的數(shù)據(jù)按照7∶3 的比例得到訓(xùn)練與測試數(shù)據(jù),HAR 數(shù)據(jù)集樣本數(shù)如表2 所示。
表2 HAR數(shù)據(jù)集信息Tab.2 Information of HAR dataset
在實驗中,GAF 的圖像大小取決于分段聚合近似(Piecewise Aggregate Approximation,PAA)[39]窗口尺寸n×n的大小。PAA 將時間序列沿時間方向分割成段,對每一段中的所有觀測點取均值作為新的序列值。本文將n分別設(shè)置為{ 32,48,64},如果序 列長度小于n,則n的取值 為min[n,L]。得到的圖像縮放到統(tǒng)一尺度n×n,防止當(dāng)序列長度不足窗口大小時尺度不統(tǒng)一。由于MTF 的圖像大小取決于Q個量化區(qū)間,因此本文對MTF 的處理與GAF 相同,當(dāng)序列長度不足Q時,令n為序列長度和Q的最小值。對于RP的圖像化方法,將時延設(shè)為1,得到完全的循環(huán)圖。
在訓(xùn)練FIR-Capsnet 的過程中,將批訓(xùn)練大小設(shè)為min[sample,64 ],其中,sample為樣本數(shù)量。實驗采用Adam優(yōu)化器,β1=0.9,β2=0.999。同時使用指數(shù)衰減學(xué)習(xí)率加快收斂,初始學(xué)習(xí)率為0.001,衰減速度為1,學(xué)習(xí)率衰減系數(shù)為0.9。對所有的數(shù)據(jù)集采用相同的網(wǎng)絡(luò)參數(shù)設(shè)計,卷積層的卷積核大小為5× 5,步長為2,通道數(shù)為64;膠囊層的卷積核大小為5× 5,步長為2,通道數(shù)為128,膠囊神經(jīng)元個數(shù)設(shè)為8;Caps-LSTM 層的層數(shù)設(shè)為1,路由迭代次數(shù)設(shè)置為2。
3.4.1 UCR數(shù)據(jù)集結(jié)果
對30 個來自不同領(lǐng)域的UCR 數(shù)據(jù)集運用交叉驗證方法進行實驗,采用30 次實驗的均值作為最后的結(jié)果。4 種圖像化方法與Fusion-CNN 的分類準(zhǔn)確率如表3 所示,優(yōu)勝者加粗表示,其中Fusion-CNN 表示圖像采用融合方式,網(wǎng)絡(luò)采用CNN。表格的底部是結(jié)果的統(tǒng)計值,分別計算各類算法的平均準(zhǔn)確率、方差、獲勝的次數(shù)、平均序值和均類誤差(Mean Per-Class Error,MPCE)[40]。MPCE 值計算公式如下:
表3 在30個UCR數(shù)據(jù)集上的分類準(zhǔn)確率Tab.3 Classification accuracy on 30 UCR datasets
其中:Dk為第k個數(shù)據(jù)集的類別數(shù);ek為網(wǎng)絡(luò)在第k個數(shù)據(jù)集的錯誤率。平均序值和MPCE 是評價多個算法在多個數(shù)據(jù)集下的常用指標(biāo),兩者的值越小算法越優(yōu)異。實驗結(jié)果表明FIR-Capsnet 取得15 次勝利,相較于Fusion-CNN,F(xiàn)IR-Capsnet的平均準(zhǔn)確率提高了7.3 個百分點。從圖像化角度分析,采用混合圖像化與單一圖像化相比,平均準(zhǔn)確率提高了1.9~2.9 個百分點,與GAF 的比較提升最明顯。
實驗結(jié)果表明:1)融入多通道圖像特征能夠帶來分類結(jié)果的小幅度提升;2)循環(huán)膠囊神經(jīng)網(wǎng)絡(luò)提高了網(wǎng)絡(luò)的提取時空特征能力,主要原因是丟棄了池化層,用路由捕捉空間信息,并且用LSTM 記錄時間信息。本文對上述網(wǎng)絡(luò)用Nemenyi[31]后續(xù)檢驗,繪出臨界差分(Critical Difference,CD)圖,如圖4 所示,置信度為95%。圖中的橫軸代表平均序值,平均序值越低,代表算法的表現(xiàn)越優(yōu)異??梢钥闯?,F(xiàn)IRCapsnet 與GAF-Capsnet 和Fusion-CNN 沒有交疊,表明FIRCapsnet 與GAF-Capsnet、Fusion-CNN 有顯著差異。
圖4 不同圖像化方法的臨界差分圖Fig.4 Critical difference diagram of different imaging methods
3.4.2 HAR數(shù)據(jù)集結(jié)果
為進一步研究網(wǎng)絡(luò)對于各個類別的分類情況,以HAR數(shù)據(jù)集為例,結(jié)果如表4 所示,表中的數(shù)據(jù)是多次評估網(wǎng)絡(luò)的結(jié)果。從總體的分類結(jié)果上看,F(xiàn)IR-Capsnet 在HAR 數(shù)據(jù)集上的分類表現(xiàn)優(yōu)于其他網(wǎng)絡(luò),相較于Fusion-CNN,F(xiàn)IRCapsnet 的總體準(zhǔn)確率提高了7.2 個百分點。FIR-Capsnet 的高準(zhǔn)確率也說明網(wǎng)絡(luò)具有較高的泛化能力,能適應(yīng)不同的人體活動特征。對于單種圖像化方法,混合圖像化方法更具有優(yōu)勢。但在靜態(tài)活動站直與躺下的分類準(zhǔn)確率中,F(xiàn)IRCapsnet 結(jié)果不如MTF,這是因為混合圖像的GAF 保存的時間相似度特征在靜態(tài)活動中起負(fù)面作用帶來的影響。這也使MTF 更適合檢測靜態(tài)活動,因此在檢測老年人活動狀態(tài)時,MTF-Capsnet 優(yōu)于FIR-Capsnet。
表4 HAR數(shù)據(jù)集上的分類準(zhǔn)確率Tab.4 Classification accuracy on HAR dataset
為了確認(rèn)超參數(shù)對準(zhǔn)確率的影響,改變圖像尺寸,分析時間序列窗口對結(jié)果的影響。分別設(shè)置n為{32,48,64}。考慮到深度學(xué)習(xí)的隨機性,保持網(wǎng)絡(luò)參數(shù)和隨機種子不變,將UCR 的30 個數(shù)據(jù)集上的平均準(zhǔn)確率作為最終的實驗結(jié)果繪制成柱狀圖,如圖5 所示。可以看出,窗口尺寸n×n的增大對結(jié)果有微弱影響。當(dāng)n=48 時,網(wǎng)絡(luò)效果最佳,并且采用混合圖像化方法在任意窗口尺寸下均可以獲得最優(yōu)的分類準(zhǔn)確率。
圖5 不同方法在30個UCR數(shù)據(jù)集上的平均準(zhǔn)確率Fig.5 Average accuracies of different methods on 30 UCR datasets
膠囊網(wǎng)絡(luò)中的超參數(shù)iter控制路由迭代的次數(shù),iter越大,迭代次數(shù)越多,訓(xùn)練網(wǎng)絡(luò)的時間越久;但iter會影響運行效率和分類結(jié)果,并非越大越好。為了探究iter的最優(yōu)選取策略,在HAR 數(shù)據(jù)集上對膠囊層由低層膠囊路由到高層膠囊進行統(tǒng)計分析高層膠囊就是類膠囊,iter=1 等價為將所有低層膠囊均勻分配給類膠囊。當(dāng)iter≥2,結(jié)果如圖6 所示,低層向高層路由的頻率為FLH,樣本真實標(biāo)簽為“站直”,類別為4。
圖6 FLH與iter的關(guān)系Fig.6 Relationship between FLH and iter
可以看出,當(dāng)iter≥2 時,膠囊被路由到類別4(“站直”)的頻率最多;其次是被路由到類別5(“躺下”)。表明在時序圖像中,路由的迭代次數(shù)并不會對分類結(jié)果產(chǎn)生過多影響,大多數(shù)的膠囊被正確地路由到類膠囊上,但人體活動(“躺下”)會影響最終結(jié)果的輸出。
為了驗證循環(huán)機制在膠囊中的作用,本文設(shè)置了對照實驗。在Caps-LSTM 中需要設(shè)置循環(huán)的次數(shù),即網(wǎng)絡(luò)的深度。為說明FIR-Capsnet 在時間序列分類問題上有良好的效果,本文針對改進的Caps-LSTM 層進行摘除和網(wǎng)絡(luò)深度的疊加實驗。首先對單個數(shù)據(jù)集進行特征關(guān)聯(lián)性分析。當(dāng)iter=0時,Caps-LSTM 層被摘除循環(huán)機制,變化成膠囊層,即網(wǎng)絡(luò)退化為傳統(tǒng)的Capsnet。本文隨機地從7 個領(lǐng)域選取一個數(shù)據(jù)集作為代表,共選取7 個數(shù)據(jù)集,如圖7 所示??梢钥闯?,增加Caps-LSTM 層后,除了Sensor(Earthquakes)領(lǐng)域,在剩下的6 個領(lǐng)域中準(zhǔn)確率都有所上升。這說明膠囊的時間特征關(guān)聯(lián)性在時序圖像中不可缺少。
圖7 不同iter下7個數(shù)據(jù)集上的結(jié)果對比Fig.7 Comparison of results on 7 datasets under different iter
本文保持其余參數(shù)不變,分別在UCR 中的30 個數(shù)據(jù)集上進行訓(xùn)練和測試,最后繪出的CD 圖結(jié)果如圖8 所示。
圖8 循環(huán)次數(shù)比較Fig.8 Comparison of recurrent times
可以看出,iter=1 的平均序值最低,其次是iter=2與iter=3,iter=0 的平均序值最高,結(jié)果表明循環(huán)機制能夠提升膠囊網(wǎng)絡(luò)的性能,但不能無限增長。當(dāng)循環(huán)次數(shù)增大時,Caps-LSTM 層過度學(xué)習(xí)時序全局特征而忽略了局部特征。實驗結(jié)果表明,膠囊網(wǎng)絡(luò)融合門的機制能夠讓膠囊具有時間特征關(guān)聯(lián)性,縮減了擬合系數(shù),并且每個膠囊都能獲取整個時間序列的特征。
本文進一步設(shè)計了FIMR-Capsnet,對比循環(huán)記憶機制置于各個階段的優(yōu)劣。FIMR-Capsnet 具有3 層結(jié)構(gòu),由卷積層、膠囊層和記憶動態(tài)路由(Memory Dynamic Routing,MDR)層組成,如圖9 所示。
圖9 FIMR-Capsnet結(jié)構(gòu)Fig.9 Structure of FIMR-Capsnet
卷積層和膠囊層的組成與FIR-Capsnet 相同,唯一區(qū)別的是在膠囊層得到H2×W2×C2×D1個膠囊后,對膠囊采用MDR 算法,不采用DR 算法。MDR 對膠囊迭代iter次后,同樣得到NC個類膠囊。對比實驗中,本文將參數(shù)設(shè)置為與FIRCapsnet 相同。在路由過程中,當(dāng)經(jīng)過一個更大的迭代次數(shù)時,最初的膠囊特征會因為算法的不斷路由,導(dǎo)致信息不斷丟失。第一次迭代出的耦合系數(shù)是更接近輸入的,本文希望在計算時保留最初的輸入系數(shù),而不是經(jīng)過多輪迭代后的輸入系數(shù)。最初的輸入能夠矯正預(yù)測膠囊的路由過程,以便多輪迭代后輸入系數(shù)能保留迭代過程中的重要信息。MDR 算法的偽代碼如算法1 所示。相較于動態(tài)路由算法,增加了mij記憶單元。記錄每一次的路由迭代信息,當(dāng)算法開始時,與耦合系數(shù)相加,不斷循環(huán)直到退出為止。
FIMR-Capsnet 和FIR-Capsnet 在30 個UCR 數(shù)據(jù)集上的訓(xùn)練結(jié)果如圖10 所示。為了減少參數(shù)中的隨機性,對所有的訓(xùn)練集進行30 次實驗并取平均值作為最終結(jié)果。圖10 中左上部分代表FIMR-Capsne 更優(yōu),右下部分代表FIR-Capsnet 更優(yōu),越接近左上或右下代表兩者差異越大;W/T/L 分別代表FIR-Capsnet 獲勝/平局/失敗的數(shù)據(jù)集個數(shù)??梢钥闯觯現(xiàn)IRCapsnet 優(yōu)于FIMR-Capsnet,主要由于膠囊路由過程并不需要記憶機制。由3.6 節(jié)可以看出,當(dāng)?shù)螖?shù)iter≥2 時,增加iter的次數(shù)并沒有讓更多的低層膠囊路由到類膠囊。通過實驗可以判斷,iter并不會影響算法準(zhǔn)確率,本文只需要一次動態(tài)路由就能達到接近最優(yōu)的參數(shù)。因此,在動態(tài)路由算法中設(shè)計循環(huán)記憶單元并不能很好地融合路由機制。
圖10 FIR-Capsnet與FIMR-Capsnet對照實驗結(jié)果Fig.10 Comparison experiment result of FIR-Capsnet and FIMR-Capsnet
本文應(yīng)用融合圖像化的方法聚合多水平的時空特征,并設(shè)計了具有循環(huán)結(jié)構(gòu)的膠囊神經(jīng)分類網(wǎng)絡(luò)FIR-Capsnet 以挖掘時空特征。實驗結(jié)果表明,在處理時間序列問題上的分類時,與實驗中的圖像化算法相比,F(xiàn)IR-Capsnet 的分類準(zhǔn)確率有小幅提升,各項評價指標(biāo)都優(yōu)于對比算法。本文不僅通過圖像化融合對比實驗和關(guān)鍵層的消融實驗驗證了Caps-LSTM 層的作用,同時設(shè)計了FIMR-Capsnet 比較循環(huán)機制在不同階段的效果。從實驗結(jié)果可以看出FIMR-Capsnet 的準(zhǔn)確率在大部分?jǐn)?shù)據(jù)集上有不同程度下降,以此反證了FIRCapsnet 將循環(huán)記憶機制運用在膠囊層的合理性。
混合圖像方法結(jié)合了多種圖像化的優(yōu)勢,融合了多水平空間特征,保留了時間序列更多的語義信息。而循環(huán)膠囊網(wǎng)絡(luò)不僅可以在盡可能保留空間特征的情況下,通過LSTM 的記憶門、遺忘門和輸出門對特征激活和抑制,還可以通過LSTM 的記憶門提取時序圖像時序特征。但本文網(wǎng)絡(luò)在時序分類問題上還有進步空間,例如,在圖像化序列的過程會丟棄序列片段的重要性,如何更好地將片段重要性特征融合至圖像是未來重要的研究方向之一。