劉麗丹
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210018)
空間相關(guān),是指一些變量在同一個(gè)分布區(qū)內(nèi)的觀測(cè)數(shù)據(jù)之間潛在的相互依賴(lài)性。如果是同一個(gè)變量在不同空間位置的變化存在相互依賴(lài)關(guān)系,稱(chēng)為空間自相關(guān),不同的變量之間的空間相關(guān)則為空間互相關(guān)。氣象要素的空間自相關(guān)反映的是一個(gè)站點(diǎn)觀測(cè)到的要素值與附近相鄰站點(diǎn)的同一種要素值的相關(guān)程度,是一種檢測(cè)與量化各站點(diǎn)間該要素的空間依賴(lài)性的空間統(tǒng)計(jì)方法。由于大氣的連續(xù)性,氣象要素的空間自相關(guān)性是比較明顯的,比如相鄰地區(qū)的海平面氣壓值,一般都是平穩(wěn)變化的。但由于受觀測(cè)站地形的影響,某些要素值的空間自相關(guān)性也會(huì)表現(xiàn)的不同,比如山頂和山腳兩個(gè)測(cè)站的氣溫,有海拔高度的因素,也有日照的影響,單從水平空間距離考慮,空間相關(guān)性可能就不明顯。
概率圖模型是用圖形來(lái)表達(dá)變量之間相關(guān)關(guān)系的概率模型,可以簡(jiǎn)潔地刻畫(huà)出復(fù)雜分布的結(jié)構(gòu),具有表示、推理和學(xué)習(xí)的能力[1],現(xiàn)已被廣泛應(yīng)用于機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別、專(zhuān)家系統(tǒng)、用戶推薦、社交網(wǎng)絡(luò)挖掘、生物信息學(xué)等研究領(lǐng)域的最新成果中[2-3]。概率圖模型可以根據(jù)邊的性質(zhì)分為兩類(lèi):一類(lèi)是使用有向無(wú)環(huán)圖表示變量之間的依賴(lài)關(guān)系,稱(chēng)為有向圖模型或貝葉斯網(wǎng);另一類(lèi)是使用無(wú)向圖表示變量之間的相關(guān)關(guān)系,稱(chēng)為無(wú)向圖模型或馬爾可夫網(wǎng)[4]。目前,無(wú)向圖模型的主要應(yīng)用包括圖像重構(gòu)、圖像分割、圖像恢復(fù)、3D視覺(jué)、目標(biāo)識(shí)別和目標(biāo)匹配等[5]。高斯圖模型是概率圖模型的一種,是無(wú)向圖模型,它假設(shè)變量服從高斯分布。高斯圖模型雖帶有強(qiáng)假設(shè),但在數(shù)學(xué)上易于處理,而且根據(jù)中心極限定理,可以較好地近似實(shí)際連續(xù)分布[6],可用于異常目標(biāo)檢測(cè)[7]和圖像分割[8-9]等領(lǐng)域。而條件高斯圖模型,不僅能模擬隨機(jī)變量之間的條件相關(guān)關(guān)系,也能模擬隨機(jī)變量與協(xié)變量之間的條件相關(guān)關(guān)系。
對(duì)于條件高斯圖模型來(lái)說(shuō),邊的估計(jì),即是估計(jì)其協(xié)方差矩陣,亦是估計(jì)其精度矩陣。對(duì)于精度矩陣的估計(jì),比較常用的方法有Lasso、牛頓法、坐標(biāo)下降和梯度下降等等。1996年Lauritzen等用greedy forward-backward search方法來(lái)估計(jì)精度矩陣[10],但被認(rèn)為在計(jì)算上并不可行。Friedman等提出了Graphical Lasso算法,以L1正則項(xiàng)控制精度矩陣的稀疏度,用最大似然來(lái)估計(jì)精度矩陣[11]。后來(lái)又不斷涌現(xiàn)出多種方法,比如:梯度下降算法[12]、平滑優(yōu)化法[13]、塊坐標(biāo)下降法[14]、交替線性優(yōu)化法[15]、二次逼近法[16]等等。Matt Wytock提出了一種二階有效集的方法求解稀疏條件高斯圖模型,通過(guò)迭代得到不帶L1懲罰項(xiàng)的目標(biāo)函數(shù)的二階近似,然后求解一個(gè)L1正則化二次規(guī)劃來(lái)找到牛頓步長(zhǎng)的正則化模擬。這種方法在大規(guī)模問(wèn)題中更加實(shí)用,速度也更快[17]。
由于天氣系統(tǒng)的特征尺度不同,在不同的時(shí)間尺度上,所需的驗(yàn)證空間也是有區(qū)別的。如果要預(yù)測(cè)6小時(shí)后某一站點(diǎn)的氣象要素,和它相關(guān)的或者說(shuō)是能夠影響預(yù)測(cè)結(jié)果的站點(diǎn),與該站點(diǎn)的空間距離應(yīng)被限定在一個(gè)較小的范圍,而如果預(yù)測(cè)時(shí)效為7天,則空間相關(guān)的距離就應(yīng)該相應(yīng)擴(kuò)大。當(dāng)然天氣或要素的模擬推斷并非如此簡(jiǎn)單,還有天氣系統(tǒng)間的相互作用必須要考慮,在各種嘗試之后,根據(jù)預(yù)測(cè)時(shí)效來(lái)調(diào)整空間距離影響的權(quán)重,在模型初始化階段引入相似度矩陣,建立多尺度空間相關(guān)模型(MS-CGGM)。一方面能夠提高模型計(jì)算效率,另一方面也可以達(dá)到去噪效果,提高預(yù)測(cè)精度。
設(shè)輸出變量為Y∈Rn×p,輸入變量為X∈Rn×q,q=m×p,n為樣本量,p為站點(diǎn)數(shù),m為協(xié)變量維數(shù),即參與預(yù)測(cè)的氣象要素個(gè)數(shù)。利用條件高斯圖模型,有:
Y=f(X)=-C-1Θ-1X
(1)
樣本對(duì){yi,xi}i∈n的對(duì)數(shù)似然為:
(2)
應(yīng)用Matt Wytock的估計(jì)方法[17],最小化負(fù)對(duì)數(shù)似然并加入1懲罰項(xiàng),即:
(3)
根據(jù)一階非光滑優(yōu)化方法,f(C,Θ)的梯度定義為:
(4)
在每次迭代中使用有效集方法,如果
(5)
每次只優(yōu)化一個(gè)(ΔC)i,j或者(ΔΘ)i,j。
由式6得到牛頓加速方向:
(6)
二階有效集方法地流程如下:
(1)給定X,Y,λ,初始化C=I,Θ=0;
(2)用式5計(jì)算有效集SC、SΘ。
(3)根據(jù)式6尋找牛頓加速方向DC、DΘ;
(4)用回溯線搜索法(backtracking line search)計(jì)算步長(zhǎng)α(期間要保證C是正定的);
(5)迭代:C←C+αDC,Θ←Θ+αDΘ;
(6)返回步驟2。
由此得到C和Θ,C即為空間相關(guān)關(guān)系矩陣。
根據(jù)如上所述,引入一個(gè)相似度矩陣D,根據(jù)天氣的特征尺度對(duì)預(yù)測(cè)模型施加約束。
式2轉(zhuǎn)換為:
(7)
再應(yīng)用二階有效集的方法估計(jì)C和Θ,得到空間相關(guān)關(guān)系矩陣。
采用全球國(guó)際交換站2003—2012共10年的定時(shí)氣象觀測(cè)數(shù)據(jù),來(lái)源于全球地面天氣資料定時(shí)值數(shù)據(jù)集。由于一些站點(diǎn)數(shù)據(jù)不全,經(jīng)過(guò)篩選,選取了遍布全球各個(gè)州的3 431個(gè)站點(diǎn),將數(shù)據(jù)進(jìn)行了清理、歸一化和中心化,以前9年數(shù)據(jù)為訓(xùn)練數(shù)據(jù)集,2012年數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。
為了學(xué)習(xí)全球范圍的觀測(cè)站點(diǎn)之間的空間相關(guān)關(guān)系,嘗試了不同的方法??臻g范圍大至全球后,簡(jiǎn)單的條件高斯圖模型處理起來(lái)有些困難,迭代次數(shù)明顯增多,學(xué)習(xí)出的空間關(guān)系參考價(jià)值也不明顯。圖1為第1—50號(hào)站點(diǎn)的空間相關(guān)系數(shù)圖,其中各圖按預(yù)測(cè)時(shí)效區(qū)分,圖a是6小時(shí),圖b是24小時(shí),圖c是72小時(shí),圖d是7天。圖中坐標(biāo)示數(shù)代表站點(diǎn)。
如果直接使用天氣系統(tǒng)的特征尺度設(shè)定一個(gè)空間相關(guān)邊界,效果也不理想,預(yù)測(cè)誤差明顯變大。圖2是人為設(shè)定相關(guān)邊界的空間相關(guān)系數(shù)圖,左圖為24小時(shí)降水空間相關(guān)關(guān)系數(shù),右圖為6小時(shí)氣溫空間相關(guān)關(guān)系數(shù)圖,圖中坐標(biāo)示數(shù)代表站點(diǎn)。這種強(qiáng)假設(shè)帶來(lái)了相關(guān)關(guān)系數(shù)圖中過(guò)于清晰的邊界,忽略了天氣系統(tǒng)之間的相互作用,并且到底哪種距離范圍更合適也很難界定,所以此種方法并不可取。
應(yīng)用多尺度空間相關(guān)模型,先用交叉驗(yàn)證法根據(jù)預(yù)測(cè)時(shí)效選擇代表帶寬的參數(shù)b,選擇使得誤差最小的帶寬,得到表1所示的時(shí)間-空間尺度約束。
表1 不同預(yù)測(cè)時(shí)效對(duì)應(yīng)的最優(yōu)核函數(shù)帶寬
圖1 CGGM得到的1-50號(hào)站點(diǎn)不同時(shí)效空間相關(guān)系數(shù)圖
圖2 帶相關(guān)邊界約束的空間相關(guān)系數(shù)圖
利用多尺度條件高斯圖模型對(duì)全球3 431個(gè)站點(diǎn)進(jìn)行訓(xùn)練,得到了不同預(yù)測(cè)時(shí)效下的空間相關(guān)關(guān)系。圖3是第1—50號(hào)站點(diǎn)的空間相關(guān)系數(shù)圖,其中各圖仍然按預(yù)測(cè)時(shí)效區(qū)分,圖a是6小時(shí),圖b是24小時(shí),圖c是72小時(shí),圖d是7天。圖中坐標(biāo)示數(shù)代表站點(diǎn)。
圖3 MS-CGGM得到的1-50號(hào)站點(diǎn)不同時(shí)效空間相關(guān)系數(shù)圖
由圖3可見(jiàn),相比于圖1,站點(diǎn)間的空間相關(guān)關(guān)系更加簡(jiǎn)潔清楚,對(duì)于空間距離權(quán)重也有所反映,但不像圖2那樣有強(qiáng)假設(shè)的邊界。從預(yù)測(cè)準(zhǔn)確率來(lái)看,此方法也較前兩種更優(yōu),見(jiàn)表2。在模型預(yù)測(cè)效果評(píng)估中,采用檢驗(yàn)回歸模型較普遍的兩個(gè)評(píng)價(jià)指標(biāo):均方根誤差(RMSE)和絕對(duì)誤差(MAE),具體表達(dá)式為:
表2 幾種條件高斯圖模型預(yù)測(cè)性能對(duì)比
續(xù)表2
并且,多尺度條件高斯圖模型的運(yùn)行效率有明顯提升,初始條件的改善使得收斂速度更快,迭代次數(shù)由平均496次減少到平均321次,運(yùn)行時(shí)間明顯變短。
根據(jù)預(yù)測(cè)時(shí)效的不同,提出了多尺度空間相關(guān)模型,在條件高斯圖模型的基礎(chǔ)上進(jìn)行改進(jìn),引入相似度矩陣,對(duì)協(xié)方差矩陣進(jìn)行迭代前的先驗(yàn)約束,減少迭代次數(shù),提高效率。實(shí)驗(yàn)結(jié)果表明,多尺度空間相關(guān)模型能夠快速學(xué)習(xí)全球氣象觀測(cè)站的空間相關(guān)性,空間相關(guān)根據(jù)預(yù)測(cè)時(shí)效不同而表現(xiàn)出差異,預(yù)測(cè)效率和準(zhǔn)確率都有所提升。