唐絲語 黃智
(江蘇師范大學物理與電子工程學院 徐州 221116)
電離層是地球大氣層的重要組成部分,電離層的擾動會導致無線通信、導航定位、超視距雷達等系統(tǒng)產(chǎn)生工作誤差[1]。電離層總電子含量(Total Electron Content,TEC)是表征電離層形態(tài)變化的重要物理量之一,對電波傳播修正和電離層理論研究等諸多方面具有重要的意義[2],因此針對探測和預報電離層TEC 的研究不斷深入[3]。早期,有研究利用大量觀測數(shù)據(jù)集,建立了許多電離層經(jīng)驗模型,其中比較著名的是國際參考電離層模型(International Reference Ionosphere,IRI)[4]、Bent 模型、Klobuchar 模型等。電離層經(jīng)驗模型能夠較好地描述全球變化的平均行為,但對于區(qū)域的小尺度變化缺乏準確性[5]。
由于神經(jīng)網(wǎng)絡能夠描述復雜的非線性輸入/輸出關系,利用神經(jīng)網(wǎng)絡技術進行電離層參數(shù)預報為空間天氣學研究提供了新的方向,越來越多的學者利用神經(jīng)網(wǎng)絡技術進行電離層參數(shù)的預報。Li 等[6]利用BP(Back Propagation)神經(jīng)網(wǎng)絡構建了提前一天預報電離層TEC 參數(shù)的模型,實驗結(jié)果表明訓練后的神經(jīng)網(wǎng)絡模型可以反映出不同季節(jié)TEC 周日變化以及地磁暴情況TEC 特征。Huang 等[7]以太陽輻射通量F10.7指數(shù)、地磁活動Dst指數(shù)和電離層TEC 作為預報因子,利用徑向基網(wǎng)絡模型預報電離層總電子含量,均值誤差在5 TECU 之內(nèi)。Tang 等[8]首次建立基于貝葉斯正則化(Bayesian Regularization)的Elman 回歸神經(jīng)網(wǎng)絡(BR-Elman)電離層TEC 預報模型,其預報效果優(yōu)于傳統(tǒng)BP 網(wǎng)絡模型。近年來,由于人工智能技術的快速發(fā)展,深度學習網(wǎng)絡能夠克服傳統(tǒng)神經(jīng)網(wǎng)絡難以準確表示時間序列動態(tài)變化的缺點,研究人員將其應用于電離層參數(shù)預報領域,取得了一些有意義的成果。Yuan 等[9]搭建基于遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)的電離層TEC 預報模型,預測結(jié)果相比BP 反向傳播神經(jīng)網(wǎng)絡,RNN 網(wǎng)絡模型對寧靜電離層和電離層暴的預測更為準確。Wen 等[10]利用長短時記憶網(wǎng)絡模型(Long Short-term Memory,LSTM)構建了武漢站(30.53°N,114.36°E)電離層TEC 預測模型,實驗表明,在磁暴條件下LSTM 模型預測優(yōu)于BP 模型和IRI-2016 模型預報結(jié)果。Sun 等[11]優(yōu)化了LSTM 網(wǎng)絡結(jié)構,利用雙向長短時記憶網(wǎng)絡(Bidirectional Long Short-term Memory,Bi-LSTM)對北京站(40°N,115°E)開展電離層TEC 預報,其誤差約為3.35 TECU。
LSTM 網(wǎng)絡有效解決了RNN 梯度爆炸、消失等缺點[12],能夠較好地捕捉TEC 的時間變化特征,因而被廣泛應用于電離層TEC 預報研究。但TEC 不僅是隨著時間變化的序列,同時具有明顯的空間變化特征,有必要深入探求更適合的神經(jīng)網(wǎng)絡,進一步提升預報精度。本文致力于開發(fā)一種基于因果卷積和LSTM 網(wǎng)絡的電離層TEC 預報模型,自動提取TEC序列的時空變化特點,建立最優(yōu)化網(wǎng)絡拓撲結(jié)構。
本文根據(jù)預報模型中因果卷積和長短時記憶網(wǎng)絡的基本原理,提出了一種基于因果卷積和LSTM 網(wǎng)絡的電離層TEC 混合深度學習預報模型,并詳細地描述了預報模型的算法流程。同時利用歐洲定軌中心CODE 提供的2005-2013 年的TEC 數(shù)據(jù),深入分析了北京站、武漢站、??谡驹诓煌柣顒?、地磁活動條件下及不同季節(jié)混合模型的有效性,進一步給出了與LSTM 網(wǎng)絡預報模型的分析比對結(jié)果。對預報結(jié)果進行了討論并得出結(jié)論。
為了引入時間序列敏感性,搭建的基于因果卷積和長短時記憶網(wǎng)絡模型是在長短時記憶網(wǎng)絡基礎上進行的改進,首先通過因果卷積對電離層TEC 時間維度信息進行聚合,繼而再通過LSTM 進一步學習TEC 時空特征并對其進行預測。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的核心是卷積操作[13],卷積操作是指將數(shù)據(jù)與一組固定權重的濾波矩陣進行內(nèi)積,其主要應用于計算機視覺領域。考慮到時間因素,基礎的CNN 并不適用于時序預報領域,通常采用因果卷積預報時間序列并實現(xiàn)不遺漏過去信息的功能[14]。因果卷積通過限制滑動窗口來保證t之后的信息不會用來預報,其計算過程如圖1 所示。
由圖1 可見,因果卷積是使用一維卷積核(One Dimensional Convolution Kernel)在時域上對時序數(shù)據(jù)進行卷積計算,每一層的輸出都是根據(jù)前一層對應未知的輸入及其前一個位置的輸入共同得到的,具有嚴格的時間約束,假設卷積核為F={f1,f2,...,fk},序列X0={x1,x2,x3,...,xn},在xt處的因果卷積為
圖1 因果卷積結(jié)構模型Fig.1 Structure model of the causal convolution
式中xt?K+k表 示輸入序列X0={x1,x2,x3,...,xn}中第t?K+k個 值,卷積核的長度為K。
長短時記憶模型LSTM 是一種特殊類型的循環(huán)神經(jīng)網(wǎng)絡RNN。標準RNN 模型是一個擁有重復單元的循環(huán)式模型,LSTM 模型主要是在傳統(tǒng)RNN 模型基礎上,對其神經(jīng)元內(nèi)部結(jié)構進行改進,使網(wǎng)絡模型可以學習長期依賴信息,有效地規(guī)避了標準RNN中梯度爆炸和梯度消失的問題[15],LSTM 網(wǎng)絡單元結(jié)構如圖2 所示。
圖2 中LSTM 神經(jīng)網(wǎng)絡單元主要由三個門構成[16],分別為輸入門 i、遺忘門 f、輸出門 o,輸入門i控制著每個隱藏單元的輸入有多少新的信息加入內(nèi)部狀態(tài)Ct里 ;遺忘門 f 決定著先前狀態(tài)Ct?1保留和丟棄的信息;輸出門 o 控制著每個單元被保留的激活信息和不相關的信息。LSTM 通過這三個門控單元來選擇性地記憶反饋的誤差函數(shù)以及隨梯度下降的修正參數(shù),從而實現(xiàn)時間上記憶或遺忘的功能。設LSTM 層將輸入序列x=(x1,x2,...,xt)映射到隱藏層輸出序列h=(h1,h2,...,ht),則LSTM 神經(jīng)網(wǎng)絡工作過程中記憶單元的狀態(tài)和輸出表達式為
圖2 LSTM 模型神經(jīng)元結(jié)構Fig.2 LSTM model neuron structure
其中,it、ft和ot分別表示t時刻輸入門、遺忘門和輸出門的輸出值,Ct代 表t時刻神經(jīng)元激活狀態(tài),σ為sigmoid 激活函數(shù),tanh 為雙曲正切激活函數(shù),w為LSTM 不同層之間的權系數(shù)矩陣,b為偏置項。
電離層隨緯度、經(jīng)度呈現(xiàn)復雜的空間變化,為了驗證預報模型在中國區(qū)域不同空間位置的有效性,選取東經(jīng)110°E 附近三個不同緯度的GPS 觀測站,其地理位置列于表1。電離層TEC 數(shù)據(jù)來源于歐洲定軌中心(CODE)的全球電離層地圖GIM。CODE TEC 采用球諧函數(shù)擬合和快速傅里葉變換技術,具有較高的精度,廣泛應用于電離層形態(tài)以及地震等空間異常前兆分析,文中采用TEC 數(shù)據(jù)的時間分辨率為2 h。
表1 GPS 觀測站位置Table 1 Location of GPS stations
由于電離層TEC 不僅隨時間和空間變化,同時也受到太陽活動和地磁活動的影響,因此本實驗中除了歷史TEC 數(shù)據(jù),還加入了太陽活動指數(shù)F10.7和地磁活動指數(shù)Dst作為電離層TEC 預報模型的預報因子。其中,F(xiàn)10.7指數(shù)表示波長為10.7 cm 的太陽射電通量,與太陽黑子數(shù)密切相關,是表征太陽活動重要參數(shù)之一。Dst是指磁暴環(huán)電流指數(shù),被用來描述地磁強度,其時間分辨率為1 h。
為了全面評估基于因果卷積和長短時記憶網(wǎng)絡模型的性能,本文采用2005-2013 年連續(xù)9 年不同太陽活動期間的數(shù)據(jù),其F10.7指數(shù)變化如圖3(a)所示。由圖3(a)可見,2008-2009 年為太陽活動低年,F(xiàn)10.7指數(shù)的均值約為70 sfu(1 sfu=10?33W·m?2·Hz?1),2012-2013 為太陽活動高年,F(xiàn)10.7指數(shù)的均值明顯升高約120 sfu。文中選取2009 年和2013 年數(shù)據(jù)為網(wǎng)絡模型測試數(shù)據(jù)集,其余樣本作為訓練集(訓練集數(shù)據(jù)不包括2009 年和2013 年數(shù)據(jù))。同時,為分析磁暴期間模型預測精度,圖3(b)給出了2013 年Dst指數(shù)變化的趨勢,由圖3(b)可見,其中第76 天、152 天、180 天Dst指數(shù)明顯下降,其下降最大值分別約為–132 nT、–124 nT、–102 nT。
圖3 2005-2013 年F10.7 指數(shù)變化和2013 年Dst 指數(shù)變化Fig.3 F10.7 index variation during 2005-2013 and Dst index variation in 2013
實驗采用基于因果卷積和LSTM 網(wǎng)絡的電離層TEC 預報模型,模型結(jié)構如圖4 所示,輸入序列先通過因果卷積,能夠提取原始較長數(shù)據(jù)的抽象特征轉(zhuǎn)換為較短的輸出序列,繼而將其作為LSTM 網(wǎng)絡的輸入進行處理。
圖4 預報模型結(jié)構Fig.4 Structure diagram of the forecast model
2.2.1 數(shù)據(jù)預處理
將連續(xù)9 年TEC 時間序列X0={x1,x2,...,xn}按照7∶2 劃分為訓練集Xtr={x1,x2,...,xm}和測試集Xte={x1,x2,...,xl},同理將太陽活動指數(shù)F10.7和地磁活動指數(shù)Dst也按照7∶2 進行訓練集和測試集劃分。然后對所有數(shù)據(jù)進行Z-score 標準化處理,標準化公式為
式中,xt表 示原始TEC 數(shù)據(jù)中的第t個值,μt表示原始TEC 時間序列的均值,σt為原始TEC 時間序列的標準差,表示標準化后的TEC 數(shù)據(jù)。
2.2.2 模型訓練
確定基于因果卷積和LSTM 神經(jīng)網(wǎng)絡的拓撲結(jié)構,并初始化預報模型網(wǎng)絡的權重,對模型中參數(shù)進行調(diào)節(jié),其中在因果卷積網(wǎng)絡處理層使用128 個時域卷積核,大小為24,最大池化層算子為3,激活函數(shù)為tanh,在LSTM 網(wǎng)絡處理層中,設置學習率為10–4、隱藏層神經(jīng)元數(shù)為20、輸入量長度為30×13、優(yōu)化器為Adma 算法、目標函數(shù)為均方差等,繼而將訓練集批量地輸入電離層TEC 預報模型中,計算有效歷史長度的輸出誤差,并將誤差通過反向傳播來更新預報模型權重參數(shù),最終得到預報模型。
2.2.3 模型預報
模型訓練完成后,載入訓練好的權重和偏置,將訓練好的模型記為 CC-LSTM,繼而將測試集輸入進行測試,詳細過程如圖5 所示,首先利用t時刻和之前的數(shù)據(jù)集預測(t+1)時刻的TEC,為了實現(xiàn)工程意義上的預報,繼而將預測出的(t+1)時刻的數(shù)據(jù)加入新的基礎序列中,再對(t+2)時刻的TEC 數(shù)據(jù)進行預報[17]。以此類推進行測試集預報直至預報結(jié)束,得到預報序列Ti={t1,t2,...,ti},繼而將預報序列Ti進行Zscore 反標準化,則可得到最終的預報結(jié)果。
圖5 測試集預報過程Fig.5 Forecast process chart of the test set
2.2.4 模型評估
將模型預報的結(jié)果與真實測量值進行比較,采用相關系數(shù)R和均方根誤差ERMS(Root Mean Square Error,RMSE)這兩個性能指標來評估模型的有效性,即
其中,Ti為第i小時的電離層TEC 預報值,Qi為第i小時電離層TEC 的觀測值,n為時間段的長度,cov為 協(xié)方差,var為方差。
為了對所提出的基于因果卷積和LSTM 網(wǎng)絡的電離層TEC 預報模型有效性進行評估,實驗采取2005-2013 年北京站、武漢站和??谡倦婋x層TEC 觀測數(shù)據(jù)、太陽活動指數(shù)F10.7和地磁指數(shù)Dst作為特征輸入?yún)?shù),進行電離層TEC 的預報。預報模型利用30 天電離層TEC 數(shù)據(jù),預測下一天TEC 數(shù)據(jù)??紤]到太陽活動對電離層TEC 的影響,實驗選取了太陽活動高年(2013 年)和太陽活動低年(2009 年)進行模型有效性分析。圖6 給出了2009 年2 月3-9 日(34-40 天)和2013 年8 月12-18 日(224-230 天)不同GPS 站TEC 預報值和TEC 實測值的變化曲線。從圖6 變化曲線可以清楚看出,無論太陽活動低年還是高年實驗模型預報值與實際測量TEC 值的變化趨勢基本一致。但隨著觀測站緯度的降低,預報結(jié)果與TEC 測量值出現(xiàn)了一定的偏差,特別在太陽活動高年,低緯地區(qū)??谡绢A測結(jié)果明顯偏高。
圖6 2009 年第34-40 天和2013 年第224-230 天模型預報結(jié)果與實際值比較Fig.6 Comparison of the model forecast results and the actual values from the 34th to the 40th day in 2009 and from the 224th to the 230th day in 2013
為詳細描述實驗模型預報值與TEC 真實測量值的差異,根據(jù)式(9)計算并繪制了2009 年和2013 年全年不同站點的散點圖分布和回歸分析結(jié)果(見圖7)。圖7 中k表示擬合函數(shù)的斜率,R為相關系數(shù),k和R越接近1,預報結(jié)果與真實值越接近,說明預報效果越好。由圖7 可見,太陽活動低年三個觀測站的擬合直線斜率k約為0.8,相關系數(shù)都大于0.87;太陽活動高年三個站點的相關系數(shù)都在0.96 以上,斜率約為0.93。結(jié)果表明,太陽活動低年和高年,模型預報值與真實測量值均呈現(xiàn)較高的正相關,??谡驹谔柣顒痈叩湍甑幕貧w線斜率和相關性系數(shù)值較高,但其散點圖中的離散點相較于北京和武漢站有所增加。
圖7 2009 年和2013 年三個站點模型預報值與真實值回歸分析結(jié)果Fig.7 Regression analysis between the prediction and the observations at three stations in 2009 and 2013
為量化分析混合深度學習預報模型的精度,根據(jù)式(10)計算2009 年和2013 年不同站預報的均方根誤差(RMSE),其分布直方圖如圖8 所示。從圖8 可以看出,實驗模型預報誤差絕大多數(shù)分布在0~1 TECU 范圍內(nèi)。太陽活動低年(2009 年),北京站約84%、武漢站約88%、海口站約78%的預報誤差集中于0~1 TECU 內(nèi);太陽活動高年(2013 年)三個觀測站位于該范圍的預報均方根誤差占比依次降低為70%,68%和43%,尤其2013 年??谡居休^大比例的誤差分布在3 TECU 左右??梢娞柣顒釉鰪?,模型預報誤差明顯增大。
圖8 模型在2009 年和2013 年的預報誤差分布直方圖Fig.8 Forecast error distributions of the hybrid model in 2009 and 2013
為進一步分析地磁擾動期間深度學習TEC 預測模型的性能,選取2013 年Dst指數(shù)小于–50 nT 的磁暴數(shù)據(jù)(第76-83 天,第152-159 天,第180-184天),分別計算不同觀測站TEC 平均預報誤差。結(jié)果表明,北京站、武漢站和??谡镜念A報誤差均值分別約 為 2.14 TECU、2.42 TECU、3.70 TECU,而2013 全年北京站、武漢站和??谡镜念A報誤差分別為1.80 TECU、1.87 TECU 和3.60 TECU,可見地磁擾動期間預報模型誤差增大。除此之外,不同季節(jié)太陽直射地球的位置不同,電離層TEC 分布也不同,因而本實驗探究了預報模型在不同季節(jié)時段的TEC 預報結(jié)果,以春分、夏至、秋分、冬至前后45 天將全年劃分春、夏、秋、冬四季,其預報結(jié)果如表2 所示。由表2 明顯可知,無論太陽活動高年還是低年,模型在三個臺站春秋季預報誤差最小。在中高緯度地區(qū)(北京站)夏季預報誤差最大;在低緯地區(qū)(武漢和??冢?,模型在太陽活動低年夏季誤差最大,但在太陽活動高年,模型在冬季誤差最大。且2013 年冬季,??诘貐^(qū)誤差突然增至5 TECU,可能與北緯赤道地區(qū)太陽活動和地磁活動等因素有關。
表2 2009 年和2013 年不同站點在不同季節(jié)的預報誤差RMSE(TECU)Table 2 Forecast RMSEs at different stations in different seasons in 2009 and 2013
為進一步驗證 CC-LSTM 混合模型預報的性能,在特征參量、模型參數(shù)輸入相同的條件下,本文計算了CC-LSTM混合模型與LSTM 網(wǎng)絡模型均方根誤差,其結(jié)果列于表3。表3 中LSTM 模型在三個觀測站的RMSE 值都大于 CC-LSTM模型的RMSE 值,根據(jù)表3 提供的6 組數(shù)據(jù),可計算出實驗模型均方根誤差相對于LSTM 預報模型大概降低了15%。從太陽活動程度來看,太陽高年兩個模型的RMSE 值要高于太陽活動低年;從高低緯度來看,緯度越高預報誤差越小,說明兩者都可以很好地反映電離層TEC 特性,但 CC-LSTM模型效果略優(yōu)于LSTM 模型,主要由于與單一LSTM 網(wǎng)絡相比,混合模型中的因果卷積能更準確地捕捉TEC 序列的時空變化特征,其輸出中隱含了較大時間跨度的TEC 時序特征,使得LSTM 網(wǎng)絡進行后續(xù)計算可以觀察到更早的、分辨率較高的TEC 時序數(shù)據(jù),從而有效地提高電離層TEC 預報的準確性。
表3 混合神經(jīng)網(wǎng)絡模型與LSTM 預報均方根誤差對比結(jié)果(TECU)Table 3 Comparison of the RMSE between the mixed neural network model and LSTM network
針對電離層TEC 時空變化特征和LSTM 網(wǎng)絡的不足,提出了一種基于因果卷積和LSTM 混合深度學習預報模型,并利用2005-2013 年不同太陽活動期間的CODE TEC 數(shù)據(jù)對北京站、武漢站和??谡具M行提前24 h 預報。預報結(jié)果表明:(1)模型在中高緯地區(qū)具有較高的精度,緯度降低特別是赤道附近區(qū)域模型預報精度下降;(2)隨著太陽活動和地磁活動的增強,模型預報精度有所降低;(3)模型在春秋季預報誤差最小,夏季或冬季預報誤差較大;(4)混合神經(jīng)網(wǎng)絡模型預報性能明顯優(yōu)于LSTM 網(wǎng)絡模型。
與中高緯相比,低緯以及赤道區(qū)域的電離層TEC 值和梯度變化明顯增大,特別是在太陽活動高年和磁暴發(fā)生期間其行為變化更加復雜,極大增加了預測模型對TEC 時空信息捕捉的難度,導致模型預測精度下降。此外,2009 年是太陽活動極小年,電離層TEC 值較小,位于中高緯的北京站部分觀測值甚至低于2 TECU,背景觀測值過低很可能是導致北京站在太陽低年預測精度相對不高的原因。
CODE 利用全球范圍的雙頻GNSS 觀測站數(shù)據(jù),采用球諧函數(shù)展開技術,獲取全球電離層描述GIM,具有較高的精度,廣泛應用于電離層形態(tài)以及地震等空間異常前兆分析[18]。但與單站GNSS 觀測數(shù)據(jù)相比,TEC 變化相對平緩,未來將收集不同區(qū)域GNSS實測數(shù)據(jù),同時考慮更多影響電離層TEC 變化的因素針對異??臻g環(huán)境開展更為深入細致研究。
致謝歐洲定軌中心CODE(ftp://ftp.unibe.ch/CODE/)、國家空間科學數(shù)據(jù)中心(http://www.nssdc.ac.cn)、國家地球物理數(shù)據(jù)中心(ftp://ftp.ngdc.noaa.gov/)和京都世界地磁數(shù)據(jù)中心(http://wdc.kugi.kyoto-u.ac.jp/index.html)為本文提供了分析數(shù)據(jù)。