李 海 郭生權 張超群 馮 青
(中國民航大學天津市智能信號與圖像處理重點實驗室 天津 300300)
降水粒子分類對氣象災害性天氣監(jiān)測、強對流天氣預報上具有重要的作用[1],與傳統的氣象雷達相比,雙線偏振雷達可以發(fā)射水平和垂直電磁波從而獲得與降水粒子類型、形狀、尺寸、下落姿態(tài)等相關的差分反射率、相關系數等極化參數[2],能夠更加準確地提供粒子的相態(tài)信息,因此雙線偏振雷達廣泛應用在層狀云降水識別、中尺度對流、強對流風暴分析等方面[3]。
1994年Holler等人利用判決圖來進行降水粒子分類[4],由于不同降水偏振量的邊界模糊,所以該方法對降水粒子的分類不夠精確,1996年Straka和Zrnic將模糊邏輯算法應用到降水粒子分類中[5],模糊邏輯是用規(guī)則推理而不是固定的公式來描述系統,在降水粒子分類中有明顯的優(yōu)勢,Park等人在模糊邏輯算法引入融化層信息來去掉各高度層不存在的粒子,提升了相態(tài)識別的準確度[6]。在之后的研究中模糊邏輯算法被不斷的完善[7-8],但是模糊邏輯方法過度依賴專家經驗值,隸屬度函數參數的設定具有較強的主觀性,導致該算法靈活性差,會對分類結果造成一定的誤差。隨著機器學習技術發(fā)展,支持向量機[9],全連接神經網絡[10]的方法被應用在降水粒子分類中,支持向量機在處理二分類上有較大的優(yōu)勢,但是在由二分類構建多分類降水粒子識別系統的過程中會成倍增加計算量;全連接神經網絡能夠依據數據調節(jié)降水粒子分類器參數,使分類結果更加可靠,但是該分類器對霰、冰雹等大顆粒固體粒子分類不敏感。Liu等人在2000年將模糊神經網應用降水粒子中[11],模糊神經網絡既利用了模糊邏輯的特點又結合了神經網絡自主學習的優(yōu)勢,解決了隸屬度函數過度依賴專家經驗值等問題,使分類結果更加可靠,但是隸屬度函數參數初值的不易確定問題會影響模糊神經網絡在訓練過程中的穩(wěn)定性,限制了該方法的識別效果。
為了解決模糊神經網絡在訓練過程中隸屬度函數初值不易確定的降水粒子分類問題,本文提出了一種改進模糊神經網絡的降水粒子分類方法。該方法利用無標簽數據聚類結果和帶標簽數據(少量)之間的相關性分析來得到帶標簽數據,通過對帶標簽的數據進行統計分析來得到隸屬度函數初值,接著使用訓練集來對初值確定好的模糊神經網絡進行離線訓練,最后利用訓練好的模型實現降水粒子的分類。該方法利用確定好的隸屬度函數初值能夠獲得更加穩(wěn)健的降水粒子分類器,并實現合理的降水粒子分類結果。
本文改進的地方體現在基于K-means++-MD的隸屬度函數參數初值確定,利用數據統計分析來確定隸屬度函數初值的改進模糊神經網絡整體思路為:首先將無標簽區(qū)域雷達極化參數的聚類結果和另一區(qū)域中少量帶標簽數據做相關性分析來得到帶標簽數據,接著對帶標簽數據進行統計分析來得到隸屬度函數參數初值,之后將該初值代入模糊神經網絡進行離線訓練得到依據數據自適應學習好的降水粒子分類器。下面先描述模糊神經網絡結構及離線學習過程,之后對K-means++聚類和馬氏距離(Mahalanobis Distance,MD)聯合算法得到的帶標簽數據進行統計分析來得到隸屬度函數初值,最后用改進后的模糊神經網絡來實現降水粒子分類。
模糊神經網絡融合了模糊邏輯的特點和神經網絡自主學習的優(yōu)勢,具有處理不確定信息的模糊推理功能和依據數據自主學習的能力,從而使神經網絡系統中的權值具有模糊邏輯中推理參數的物理意義[12],在降水粒子分類中能依據數據學習自動調節(jié)隸屬度函數參數,對降水粒子分類是非常有用的。
在模糊神經網絡中,模糊邏輯部分可以搭建為一個多層前向傳播神經網絡,共有五層,即輸入層(由輸入變量組成)、IF層(模糊化層)、THEN層(規(guī)則推理層)、合成層、去模糊化層以及輸出層。該模型在訓練過程中利用神經網絡學習算法可以用來獲悉系統參數,其系統框圖如圖1所示,圖中實線表示前饋路徑,虛線表示誤差的反向傳播過程。分類的誤差反饋到IF層來調節(jié)隸屬函數的參數。
圖1 模糊神經網絡降水粒子分類系統框圖
模糊神經網絡模糊化過程就是求出降水粒子極化參數的隸屬程度,鐘形隸屬度函數具有寬的扁平區(qū)域,區(qū)域中的最大值為1,同時該隸屬度函數還具有很長的拖尾,從而提高了模糊邏輯神經網絡的可靠性[13]。此外,鐘形隸屬度函數的導數是連續(xù)的,該特征對利用數據進行參數自動調節(jié)是很有用的,因此選取鐘形隸屬度函數作為模糊神經系統的隸屬度函數,其表達式如式(1)所示。
(1)
其中由三個參數定義了Beta的形狀,即中心點m、寬度a和斜率b,其形狀如圖2所示。
圖2 鐘形隸屬度函數
訓練過程中模糊神經網絡的學習算法如下所示:將測到的雷達極化參數(ZH,ZDR,ρHV,KDP)和降水粒子類型CT設置為輸入向量P。
1)將向量P輸入到模糊邏輯中并得到分類的預測結果C;
2)確定輸出的誤差δ=CT-C;
3)如果δ=0,重復步驟1,否則根據步驟4的過程去調節(jié)隸屬函數的參數;
4)只對目標結果CT和預測結果C相關的隸屬函數參數進行調整,初始給定規(guī)則強度關系是RSCT
5)如果誤差不為0,返回步驟1,否則停止學習過程。
模糊神經網絡訓練過程如圖3所示。
圖3 模糊神經網絡訓練過程
參數調整方法如下:
首先從設置的隸屬函數MBFi_CT(i∈[1,6])中找出隸屬程度最小的值:
PSk_CT (2) 為了使PSk_CT朝著PSi_CT的方向調整,則參數m,a,b的更新過程如式(3)、式(4)、式(5)所示。 (3) (4) (5) (6) (7) (8) 式(8)中,xk是第k次輸入變量。在得到所有的δ值后,隸屬度函數的三個參數更新過程為 mnew=mold+δm (9) anew=aold+δa (10) bnew=bold+δb (11) 模糊神經網絡在降水粒子分類中參數調節(jié)流程圖如圖4所示。 圖4 模糊神經網絡參數調節(jié)過程流程圖 在模糊神經網絡訓練過程中鐘形隸屬度函數參數初值設置不當會出現參數不收斂、分類不準確問題。本文提出基于K-means++-MD的隸屬度函數參數初值確定方法來改進模糊神經網絡,該方法利用無標簽區(qū)域數據聚類結果和帶標簽區(qū)域數據(少量)之間的相關性分析來得到帶標簽數據,通過對帶標簽數據的統計分析來得到隸屬度函數初值,該初值比隨機初始化的初值更加符合降水粒子對應的隸屬度函數,在離線訓練過程中利用確定好的初值能夠得到更加穩(wěn)健的模糊神經網絡分類器,可以提升降水粒子識別效果。 基于K-means++-MD的隸屬度函數參數初值確定流程:首先利用K-means++算法對無標簽區(qū)域雷達獲取的數據進行聚類,接著將聚類結果和有少量標簽區(qū)域的雷達數據做相關性分析來得到帶標簽的數據,最后對帶標簽的數據進行統計分析來得到鐘形隸屬度函數參數初值,具體的框圖如圖5所示。 圖5 鐘形隸屬度函數參數初值確定流程 1.2.1K-means++聚類 K-means算法將樣本數據劃分成n個具有相同方差的類來聚集數據,該算法的本質就是使數據的簇內平方和最小,因其調節(jié)的參數少、收斂速度快,已被廣泛應用在很多不同領域的應用領域[14]。利用K-means算法將一組無標簽區(qū)域的極化參數劃分成多個不相交的簇C,用簇中樣本的均值μj來描述該簇。這個均值(means)就是極化參數聚集后的“質心”。利用K-means實現雙偏振氣象雷達極化參數的聚類就是選擇一個質心,使極化參數簇內平方和最小,計算方法如式(12)所示。 (12) K-means++算法在K-means的基礎上增加了極化參數質心初始化過程,該方法能夠獲得有更高概率接近極化參數最終質心的初始質心[15],從而顯著提升了收斂速度,比隨機初始化有更好的聚類結果。利用K-means++算法聚類流程圖如圖6所示。 圖6 K-means++算法流程圖 常見的降水粒子類型有冰晶、干雪、濕雪、雨、霰、冰雹如表1所示,采用K-means++對無標簽區(qū)域雷達的極化參數進行聚類,輸入聚類中心個數為6,并依據極化數據自動確定6個初始的聚類中心,然后求出每組極化參數到聚類中心的距離,將數據分到離距離中心最近的類別中,然后繼續(xù)計算聚類中心,當極化參數到每個聚類中心的距離不再減小,就可以得到聚類的結果。 表1 降水粒子類型 1.2.2 相關性分析 通過無標簽區(qū)域聚類結果和有標簽區(qū)域雷達帶標簽數據(少量)的相關性分析,可以得到帶標簽的數據,馬氏距離解決了歐式距離中每個維度尺度不同和相關的問題,是另一種距離度量的方法[16]。 馬氏距離也反映了協方差矩陣為Σ的兩個隨機變量(服從同一分布)的差異程度,極化參數樣本點x,y之間的馬氏距離為 (13) 用X1表示無標簽區(qū)域雷達極化參數(無標簽)聚類后中的一個簇;用Y1表示有標簽區(qū)域雷達某一類降水粒子(有標簽)對應的極化參數;利用馬氏距離求出兩者之間的相關性,首先求出Y1中極化參數的均值,記為μY1=(μY1,μY2,μY3,μY4),其中反射率的均值為μY1,差分反射率的均值為μY2,相關系數的均值為μY3,差分相移率的均值為μY4,再計算出Y1的協方差矩陣,計算如式(14)所示。 (14) 之后對Y1旋轉至主成分進行轉換,使極化參數的維度線性無關,將Y1通過坐標旋轉矩陣U變換得到新的數據F,實際數據本身沒有發(fā)生改變,數據F的均值向量為μF=(μF1,μF2,μF3,μF4),變化過程如式15所示。 (15) 變化后的數據維度線性無關,即每個極化參數之間維度沒有關聯,每個維度的方差為特征值,所以協方差矩陣ΣF是對角陣,如式(16)所示。 ΣF=UΣY1UT (16) 最后計算聚類結果X1中降水粒子樣本點到重心μY1,μY2,μY3,μY4等價于計算F中降水粒子樣本點f標準化后的坐標值到標準化數據重心的坐標值μF=(μF1,μF2,μF3,μF4)的歐式距離。如式(17)所示。其中x1是簇中的樣本點。 (17) 計算出聚類結果中樣本點到帶標簽數據的總距離,然后再平均就可以得到無標簽區(qū)域雷達的數據聚類后每一個簇和帶標簽區(qū)域數據之間的距離,距離和相關性呈反比關系,距離越大相關性越差、距離越小相關性越強。重復此過程,將最小距離對應的降水粒子類型作為無標簽區(qū)域雷達極化參數聚類的結果。最終可以得到帶標簽的數據。 1.2.3 鐘形隸屬度函數參數初值的確定 將獲得的帶標簽的極化參數進行統計分析,將極化參數范圍最大值和最小值和的一半作為隸屬度函數參數的中心m,將極化參數范圍最大值和最小值差的一半作為隸屬函數的寬度a,斜率b選取8~12之間的數,最終可以得到隸屬度函數的參數初值。 將上一步獲取的隸屬度函數參數初值帶入模糊神經網絡,之后利用帶標簽數據對模糊神經網絡進行離線訓練來得到穩(wěn)健的降水粒子分類器,最后利用訓練好的模型來實現降水粒子分類。 將極化數據(ZH,ZDR,ρHV,KDP)輸入到訓練好的模糊神經網絡分類器來實現降水粒子分類,輸入數據依次通過模糊化、規(guī)則推斷、集成以及退模糊化處理,最終將輸入的多個特征參數轉化成單一的粒子類型。其具體實現過程如下所示: 1)模糊化 將精確的輸入值轉化成具有相應隸屬度的模糊集合。 2)規(guī)則推斷 對由模糊化得到的隸屬程度進行規(guī)則推斷,如式(18)所示。 IF(ZH=PSi_ jANDZDR=PSi_ jAND (18) 其中下標i=1,2,3,4表示4個測量值;j=1,2,3,4,5,6表示6種粒子類型。 3)集成 通過各個獨立規(guī)則推斷,分別得到了6類水凝物所對應的強度RSj,可以用叉乘運算獲得“IF-THEN”規(guī)則強度,用其來衡量模糊集合的結果。 (19) 4)退模糊化 找到最大規(guī)則強度對應的索引值即退模糊化,將索引值對應的降水粒子類型作為最終識別的云降水類型進行輸出。 改進的模糊神經網絡在離線訓練過程中隸屬度函數參數能夠更加穩(wěn)定的自組織、自適應學習,對網絡起到了反饋作用,保證了模糊神經網絡降水粒子分類系統的穩(wěn)定性。 基于改進模糊神經網絡降水粒子分類方法具體的實現步驟如下: 1)步驟1:利用K-means++算法對無標簽區(qū)域的雙偏振氣象雷達數據進行聚類; 2)步驟2:使用馬氏距離對獲取的聚類結果和帶標簽區(qū)域中雷達的數據(少量)進行相關性分析來得到帶標簽數據; 3)步驟3:對得到的帶標簽數據進行統計分析來得到模糊神經網絡隸屬度函數參數的初值; 4)步驟4:將隸屬度函數初值代到模糊神經網絡并進行離線訓練來得到依據數據自適應調節(jié)好的分類器; 5)步驟5:利用訓練好的模糊神經網絡分類器實現降水粒子分類。 本次實驗采用的數據來自美國國家海洋和大氣管理局官方網站,選取無標簽區(qū)域的數據為2016年1月1日~2018年12月1日俄克拉荷馬州市KTLX雷達在降雨模式下的氣象數據。帶標簽區(qū)域的數據來2016年4月1日~2016年6月1日馬薩諸塞州的波士頓的KBOX雙偏振氣象雷達。KTLX和KBOX的雷達參數一致,主要參數如下:波束寬度1.25°,第一旁瓣電平-29dB,發(fā)射機的工作頻率2800~3000Hz,天線增益45dB,接收機中頻57.6MHz,波長10cm,脈沖重復頻率250~1200Hz,帶寬0.3MHz,徑向的分辨率250m。 首先對選取無標簽區(qū)域數據進行聚類,圖7(a)為數據沒聚類前的可視化結果,圖7(b)為無標簽區(qū)域數據經過K-means++聚類后的結果,聚類后的簇用不同的顏色來表示,每一種顏色代表一類簇。 圖7 接著利用馬氏距離對KTLX雷達聚類結的每一簇和KBOX雷達的帶標簽的數據進行相關性分析,結果如表2所示,表中第一列為聚完后結果,第一行為降水粒子的類型,中間數字部分為每個聚類結果和降水粒子之間的馬氏距離(無量綱)。 表2 相關性分析結果 通過表2可以看出聚類結果和降水粒子之間的關聯程度。例如,在表中第二行簇1和冰晶之間的距離為32.03,距離最大則相關性最小,和冰雹的距離是7.75,距離最小則相關性最高。因此,將簇1分成冰雹,同理,可以看出簇2為濕雪,簇3為冰晶,簇4為干雪,簇5為雨,簇6為霰,通過相關性分析可以對KTLX雷達數據打上標簽。 對獲取的帶標簽的數據進行統計分析,得到的隸屬度函數參數如表3所示。 表3 鐘形隸屬度函數參數初值 將得到的隸屬度函數參數初值代入模糊神經網絡進行離線訓練,利用訓練好的模糊神經網絡系統進行降水粒子分類,為了驗證改進后模糊神經網絡的性能,選取KTLX雷達在2019年6月19日14時55分和2020年4月22日05時06分兩個典型強對流天氣的極化數據對模糊神經網絡系統進行測試,2019年6月19日14時55分的極化參數的可視化結果如圖8所示,分類結果(NOAA提供)如圖9所示,不同的顏色代表不同的降水粒子類型。 圖8 KTLX雷達獲取的極化參量(2019年6月19日14時55分) 圖9 NOAA提供分類結果(2019年6月19日14時55分) 極化參數經過模糊化、規(guī)則推理、集成、去模糊化得到最終的分類結果,圖10給出了模糊神經網絡改進前和改進后的降水粒子分類結果。 通過圖9和圖10的對比可以看出,改進后的模糊神經網絡減小了雨誤判為冰雹的范圍,提高了冰雹識別率;在較高區(qū)域中干雪識別范圍增大,減小了干雪錯判成冰晶的概率,晶體的識別效果更加精細;濕雪和霰的識別結果與實際融化層中的粒子類型分布情況更加符合,通過這組極化數據的測試結果可以看出改進后的分類結果與實際的云降水粒子類型更加相似。 圖10 降水粒子分類結果 另一組測試數據(2020年4月22日05時06分)極化參數的可視化結果如圖11所示,分類結果(NOAA提供)如圖12所示。 圖11 KTLX雷達獲取的極化參量(2020年4月22日05時06分) 圖12 NOAA提供分類結果(2020年4月22日05時06分) 將這組測試數據分別通過改進前和改進后的模糊神經網絡系統,得到的降水粒子分類結果如圖13所示。 圖13 降水粒子分類結果 從圖12和圖13的比較中可以看出改進后的分類結果中雨誤判為冰雹的區(qū)域減小,提升了冰雹識別的可靠性;在融化層上面冰晶和干雪的識別結果比改進前的結果更加合理;雨和冰雹交界區(qū)域的濕雪明顯減少,與實際結果更加符合;融化層附近有雨區(qū)的出現,提升了雨的識別效果;霰的識別范圍基本沒發(fā)生變化。通過這組數據處理表明,改進后網絡能夠準確地識別出降水粒子的相態(tài)。 總體來說,改進后的模糊神經網絡分類結果與實際降水粒子類型更加符合。 針對模糊神經網絡在訓練過程中隸屬度函數初值不易設置的降水粒子分類問題,本文提出了一種改進的模糊神經網絡方法,該方法首先利用K-means++算法對無標簽區(qū)域雙偏振氣象雷達獲取的數據進行聚類,其次通過馬氏距離對聚類結果和另一區(qū)域雷達的少量帶標簽數據進行相關性分析來得到帶標簽數據,然后將獲取的帶標簽極化參數范圍最大值和最小值和的一半作為隸屬度函數參數的中心m,將極化參數的最大值和最小值差的一半作為隸屬函數的寬度a。將經過統計得到的參數初值代入模糊神經網絡中并對網絡進行離線訓練,訓練結束后能夠得到依據數據自適應學習好的網絡,最后利用訓練好的模型完成降水粒子分類。實驗結果表明,改進后的模糊神經網絡方法能夠獲得更為精確的降水粒子分類結果。1.2 基于K-means++-MD的隸屬度函數參數初值確定方法
1.3 降水粒子分類過程
KDP=PSi_ jANDρHV=PSi_ j)
THEN hydrometeor=j2 算法流程與步驟
3 實驗算法驗證
4 結束語