邵宇行,秦正坤,李昕
① 中國(guó)科學(xué)院 大氣物理研究所 國(guó)際氣候與環(huán)境科學(xué)中心,北京 100029; ② 中國(guó)科學(xué)院大學(xué),北京 100049; ③ 南京信息工程大學(xué) 大氣科學(xué)學(xué)院/資料同化研究與應(yīng)用聯(lián)合中心,江蘇 南京 210044; ④ 中國(guó)氣象局 交通氣象重點(diǎn)開(kāi)放實(shí)驗(yàn)室/南京氣象科技創(chuàng)新研究院,江蘇 南京 210008
氣象觀測(cè)資料是進(jìn)行天氣預(yù)報(bào)、氣候預(yù)測(cè)、重大天氣災(zāi)害預(yù)警預(yù)報(bào)以及各類(lèi)氣象服務(wù)和氣象研究的基礎(chǔ),也是推動(dòng)大氣科學(xué)發(fā)展的原動(dòng)力。氣象觀測(cè)資料質(zhì)量的好壞決定了各類(lèi)預(yù)報(bào)及預(yù)測(cè)的準(zhǔn)確性以及各類(lèi)氣象服務(wù)的水平,良好的資料質(zhì)量是進(jìn)行天氣和氣候變化研究的前提和保障(王可麗等,2001)。
近年來(lái)數(shù)值天氣預(yù)報(bào)水平得到顯著提高,但是數(shù)值模式對(duì)于地面天氣變量的模擬能力仍然存在一定的不足(Zheng et al.,2009;馬旭林等,2017),豐富的地面觀測(cè)信息有助于更好地認(rèn)識(shí)地面天氣變化的動(dòng)力和熱力機(jī)制,進(jìn)而改進(jìn)模式對(duì)地面信息模擬能力,所以地面觀測(cè)技術(shù)的發(fā)展對(duì)于提高大氣邊界層乃至高層數(shù)值預(yù)報(bào)水平都有重要價(jià)值(徐枝芳等,2007;張利紅等,2009)。隨著觀測(cè)技術(shù)的發(fā)展,目前我國(guó)已經(jīng)建立了巨大且密集的地面氣象觀測(cè)網(wǎng)絡(luò),全國(guó)已建成約70 000個(gè)自動(dòng)氣象觀測(cè)站,自動(dòng)氣象觀測(cè)站能夠定時(shí)、定點(diǎn)的觀測(cè)和記錄地面氣象信息,并且能夠在復(fù)雜的地形下進(jìn)行無(wú)人觀測(cè)(張慧,2012)。
2020年4月起中國(guó)氣象觀測(cè)正式實(shí)現(xiàn)了全面地面觀測(cè)自動(dòng)化,但是隨著自動(dòng)化氣象觀測(cè)事業(yè)的發(fā)展同時(shí)也帶來(lái)了些許問(wèn)題。徐浩然(2019)指出隨著觀測(cè)自動(dòng)化的實(shí)現(xiàn),原有的業(yè)務(wù)模式發(fā)生改變,但是地面觀測(cè)技術(shù)的不穩(wěn)定導(dǎo)致地面觀測(cè)資料更容易出現(xiàn)質(zhì)量問(wèn)題,這也是目前自動(dòng)站觀測(cè)資料利用率較低的原因之一。我國(guó)自動(dòng)氣象站觀測(cè)站的高空間分辨率特征也使得其質(zhì)量問(wèn)題更為復(fù)雜,自動(dòng)觀測(cè)站資料的質(zhì)量控制工作也更為困難。因此在我國(guó)全面實(shí)現(xiàn)觀測(cè)自動(dòng)化的現(xiàn)狀下如何通過(guò)質(zhì)量控制來(lái)保證觀測(cè)資料的質(zhì)量,提高自動(dòng)站觀測(cè)資料的利用效率具有重要意義。
Lorenc and Hammon(1988)指出觀測(cè)資料的質(zhì)量控制是資料應(yīng)用的關(guān)鍵步驟。對(duì)于常規(guī)觀測(cè)資料的質(zhì)量控制研究也得到了眾多學(xué)者的重視。Gandin將氣象觀測(cè)資料可能誤差歸類(lèi)為隨機(jī)誤差、系統(tǒng)性誤差、過(guò)失誤差等(Gandin,1988)。熊安元(2003)介紹了北歐國(guó)家實(shí)時(shí)和非實(shí)時(shí)氣象資料質(zhì)量控制流程,同時(shí)指出了我國(guó)在觀測(cè)資料質(zhì)量控制方面還存在許多差距。陳興旺(2011)綜合考慮了自動(dòng)站質(zhì)量控制過(guò)程中的各種誤差,應(yīng)用多元線(xiàn)性回歸分析建立自動(dòng)站與人工站的誤差分析,可以有效減少自動(dòng)站的誤差。閔錦忠等(2018)采用傳統(tǒng)質(zhì)量控制方法及綜合決策算法分別對(duì)國(guó)家站和區(qū)域站資料進(jìn)行系統(tǒng)的質(zhì)量控制有效地改善實(shí)時(shí)資料質(zhì)量。傅娜等(2014)運(yùn)用Barnes插值法對(duì)上海自動(dòng)站逐時(shí)氣溫資料進(jìn)行空間一致性檢查,分析了此方法的區(qū)域適用性。除基于氣候極值范圍檢查、內(nèi)部一致性檢查、時(shí)間一致性檢查、空間一致性檢查等傳統(tǒng)質(zhì)量控制方法研究。此外一些學(xué)者也提出了一些新的質(zhì)量控制方法。李良富等(2006)提出了一種基于人工智能的黑板模型氣象資料質(zhì)量控制方法,但僅用于地面航空氣象業(yè)務(wù)。葉小嶺等(2016)提出一種基于自回歸與反距離加權(quán)的空間質(zhì)量控制方法——AI方法能夠在時(shí)間維度和空間維度對(duì)氣象資料進(jìn)行質(zhì)量控制且穩(wěn)定性高,適用性強(qiáng),但僅適用于單站溫度資料質(zhì)量控制。黃穎(2012)基于混沌理論、GIS技術(shù)及雷達(dá)測(cè)量動(dòng)態(tài)數(shù)據(jù)處理等方法對(duì)不同時(shí)間尺度下的觀測(cè)序列提出了質(zhì)量控制方法,但其對(duì)閾值依賴(lài)性極強(qiáng)。
雖然有很多研究關(guān)注了地面觀測(cè)資料的質(zhì)量控制問(wèn)題,但是大部分研究都專(zhuān)注于單站觀測(cè)資料的正確性判別。為了充分利用氣象變量空間連續(xù)性特征進(jìn)行質(zhì)量控制,葉小嶺等(2019)提出了一種基于空間相關(guān)性和B樣條曲面擬合的地面氣溫觀測(cè)資料質(zhì)量控制算法,能更有效地標(biāo)記出氣溫觀測(cè)數(shù)據(jù)中的可疑值。Qin et al.(2010)對(duì)全國(guó)3 197個(gè)站點(diǎn)的8 d逐3 h的站點(diǎn)觀測(cè)地面溫度和對(duì)應(yīng)的再分析資料進(jìn)行了分析,提出首先利用EOF(Empirical Orthogonal Function)分析方法提取觀測(cè)資料和再分析資料中可能存在較大差異的溫度日變化等周期性變化部分,再根據(jù)觀測(cè)資料和背景場(chǎng)資料兩者剩余模態(tài)重構(gòu)結(jié)果的差值進(jìn)行質(zhì)量控制,結(jié)果表明可以很好地消除天氣變化對(duì)質(zhì)量控制的影響,避免因?yàn)榇蟪叨忍鞖庀到y(tǒng)異常所導(dǎo)致的溫度異常資料被質(zhì)量控制方法錯(cuò)誤剔除。趙虹等(2015a)進(jìn)一步檢驗(yàn)了應(yīng)用EOF質(zhì)量控制方法后的地面觀測(cè)資料的同化影響,證明了質(zhì)量控制后的地面觀測(cè)資料能夠明顯提高降水的短期預(yù)報(bào)效果。趙虹等(2015b)還提出了遞歸正交經(jīng)驗(yàn)質(zhì)量控制方法(Rec-EOF QC),并應(yīng)用于地面2 m比濕資料中,得到了滿(mǎn)意的效果。
雖然Qin et al.(2010)提出的基于EOF分析的質(zhì)量控制方法能夠很好應(yīng)用于全國(guó)3 197個(gè)站點(diǎn)的情況,但目前全國(guó)已經(jīng)有了近70 000個(gè)地面自動(dòng)觀測(cè)站,空間分辨率提高了近20倍,高密度的自動(dòng)站觀測(cè)資料能夠分辨更多的小尺度天氣異常,基于EOF的質(zhì)量控制方法能否適用于目前如此高分辨率的自動(dòng)站觀測(cè)資料,這就需要進(jìn)一步的研究。本文將利用前人提出的基于EOF分析方法的質(zhì)量控制方法,針對(duì)目前自動(dòng)站觀測(cè)資料的高時(shí)間和高空間分辨率特征,對(duì)該方法進(jìn)行適應(yīng)性的調(diào)整,并利用我國(guó)中東部的自動(dòng)站觀測(cè)資料進(jìn)行實(shí)際質(zhì)量控制試驗(yàn),檢驗(yàn)改進(jìn)后的質(zhì)量控制方法對(duì)高分辨率觀測(cè)資料的適用性,從而為我國(guó)全面觀測(cè)自動(dòng)化背景下的自動(dòng)站觀測(cè)資料的業(yè)務(wù)質(zhì)量控制研究提供一定的參考。
本文利用江蘇省氣象局提供的2019年12月1—7日,共168個(gè)時(shí)次的逐小時(shí)地面自動(dòng)觀測(cè)站溫度資料作為研究對(duì)象,所有觀測(cè)資料的時(shí)間都為北京時(shí)(如無(wú)特別說(shuō)明,以下所有時(shí)間均為北京時(shí))。高水平分辨率是自動(dòng)站觀測(cè)資料的主要特點(diǎn),圖1給出了自動(dòng)站站點(diǎn)的空間分布特征,這里選擇的研究區(qū)域?yàn)?13°~123°E、29°~39°N,在選擇區(qū)域中共有近7 000個(gè)站點(diǎn),其中站點(diǎn)主要分布在江蘇、山東和安徽。
圖1 研究區(qū)域的地面自動(dòng)觀測(cè)站點(diǎn)(灰色點(diǎn))水平空間分布Fig.1 Spatial distribution of ground automatic observation sites (gray points) in the study area
由于觀測(cè)資料中存在大量缺測(cè)資料,為了保證研究結(jié)果的普遍性,需要對(duì)缺測(cè)時(shí)刻進(jìn)行時(shí)間插值,但是由于某些站缺測(cè)時(shí)刻過(guò)多導(dǎo)致時(shí)間插值后存在極端異常值,因此首先對(duì)觀測(cè)資料進(jìn)行篩選,篩選的條件如下:1)前五個(gè)時(shí)次無(wú)缺測(cè),2)后五個(gè)時(shí)刻無(wú)缺測(cè),3)168個(gè)時(shí)次至少有1/10資料無(wú)缺測(cè)。最終在研究區(qū)域選擇了4 983個(gè)觀測(cè)站,將地面溫度觀測(cè)資料記為:
(1)
其中:代表觀測(cè)站;代表觀測(cè)時(shí)次;代表溫度觀測(cè)變量。
引入ECWMF(European Centre for Medium-Range Weather Forecasts)的ERA5(ECMWF Reanalysis V5)再分析資料作為質(zhì)量控制的背景場(chǎng)。背景場(chǎng)資料空間分辨率為0.25°×0.25°,時(shí)間分辨率為1 h。為保證背景場(chǎng)和地面觀測(cè)資料的空間分辨率一致,采用多項(xiàng)式插值法將格點(diǎn)數(shù)據(jù)插值為站點(diǎn)數(shù)據(jù),將插值后的背景場(chǎng)資料記為:
(2)
前人研究表明,地形高度對(duì)地面溫度有非常重要的影響(徐枝芳等,2007)。而從圖1中可以看出自動(dòng)觀測(cè)站點(diǎn)具有高水平分辨率特點(diǎn),背景場(chǎng)的分辨率無(wú)法很好地分辨觀測(cè)站點(diǎn)的地形高度。因此首先根據(jù)背景場(chǎng)資料高度和觀測(cè)站點(diǎn)高度,以干空氣溫度的垂直遞減率為標(biāo)準(zhǔn),對(duì)背景場(chǎng)溫度進(jìn)行高度訂正,具體訂正公式表述如下:
=1,2,…,168。
(3)
其中:代表觀測(cè)站;代表觀測(cè)時(shí)次;表示地形高度(單位:m)。
根據(jù)中國(guó)氣象局發(fā)布的《地面氣象觀測(cè)資料質(zhì)量控制》一書(shū)規(guī)定,地面溫度的氣候?qū)W界限范圍是-80~50 ℃,因此將觀測(cè)資料中超過(guò)此界限的溫度數(shù)值定義為錯(cuò)誤資料。另外當(dāng)?shù)孛鏈囟鹊闹鹦r(shí)變溫超過(guò)10 ℃時(shí),定義該觀測(cè)資料為錯(cuò)誤資料。
為了避免錯(cuò)誤的極端觀測(cè)資料對(duì)常規(guī)質(zhì)量控制的影響,我們首先利用雙權(quán)重標(biāo)準(zhǔn)差的方法對(duì)單站資料進(jìn)行常規(guī)質(zhì)量控制。對(duì)于任意一個(gè)站點(diǎn),其雙權(quán)重平均值和雙權(quán)重標(biāo)準(zhǔn)偏差可以按照如下公式計(jì)算:
(4)
(5)
(6)
圖2 前100個(gè)站點(diǎn)雙權(quán)重均值與溫度值偏差(紅色實(shí)線(xiàn)為三倍標(biāo)準(zhǔn)差,單位:℃)Fig.2 Deviation between the double-weight mean of the first 100 stations and the temperature value (the solid red line is three standard deviations;unit:℃)
圖3 M6278站(118.27°E,34.02°N)常規(guī)質(zhì)量控制確定的錯(cuò)誤資料(紅點(diǎn))Fig.3 Error data of station M6278 (34.02°N,118.27°E) detected by routine quality control (red dot)
經(jīng)過(guò)常規(guī)質(zhì)量控制后,共有2 247個(gè)站點(diǎn)未有資料剔除,有2 531個(gè)站點(diǎn)僅有1次資料被剔除,200個(gè)站點(diǎn)有2次資料被剔除,有5個(gè)站點(diǎn)有2次以上資料被剔除(圖4)??傮w而言,自動(dòng)站觀測(cè)資料表現(xiàn)出很好的資料質(zhì)量。為了便于后續(xù)EOF分析方法的應(yīng)用,對(duì)于常規(guī)質(zhì)量控制確定為錯(cuò)誤的資料將再次進(jìn)行時(shí)間上的三次樣條插值,將插值后的觀測(cè)值作為后續(xù)的質(zhì)量控制的初始資料。
圖4 常規(guī)檢測(cè)方法剔除資料量的空間分布(灰色表示沒(méi)有錯(cuò)誤資料;綠色表示有一個(gè)時(shí)次錯(cuò)誤資料;藍(lán)色表示有兩個(gè)時(shí)次錯(cuò)誤資料;紅色表示有大于兩個(gè)時(shí)次錯(cuò)誤資料)Fig.4 Spatial distribution of data quantity removed by the conventional detection method.Gray indicates that there are no incorrect data;green indicates that there is a time error datum;blue indicates that there are two error data;and red indicates that there are more than two error data
常用的質(zhì)量控制方法是通過(guò)分析觀測(cè)資料和背景場(chǎng)的差值,將其差值大于某個(gè)閾值的觀測(cè)資料認(rèn)定為錯(cuò)誤資料并剔除。但這種質(zhì)量控制方法應(yīng)用的前提條件是兩種資料的差值滿(mǎn)足隨機(jī)分布,并且差值應(yīng)該集中在差值的平均值附近。大部分情況下,兩種資料之間不存在系統(tǒng)偏差,或者系統(tǒng)偏差較小,所以差值的平均值往往是0值。但是由于背景場(chǎng)對(duì)真實(shí)天氣模擬不準(zhǔn)確,背景場(chǎng)和觀測(cè)資料的偏差包含了很多背景場(chǎng)的模擬誤差,當(dāng)背景場(chǎng)對(duì)某種具有周期性變化特征的天氣系統(tǒng)的模擬存在位相偏差時(shí),背景場(chǎng)和觀測(cè)資料的差值就會(huì)具有明顯的周期性特征。Zou and Qin(2010)研究表明再分析資料對(duì)地面溫度的日變化模擬就存在位相偏差,導(dǎo)致了觀測(cè)和再分析地面溫度的差值存在周期性特征,不能滿(mǎn)足隨機(jī)分布的假定條件。所以在對(duì)差值進(jìn)行標(biāo)準(zhǔn)差檢驗(yàn)前,首先需要保證差值盡可能滿(mǎn)足隨機(jī)分布特征。為了滿(mǎn)足隨機(jī)分布這個(gè)前提條件,Qin et al.(2010)提出利用EOF分析方法,從觀測(cè)資料和背景場(chǎng)資料中分別提取出具有時(shí)間和空間周期性的天氣系統(tǒng)信息,保證進(jìn)入差值檢驗(yàn)的觀測(cè)資料和背景場(chǎng)資料中不包含周期性的天氣信息,進(jìn)而使得兩者的差值盡可能滿(mǎn)足隨機(jī)分布的要求。
EOF分析方法是氣象研究中經(jīng)常用于提取有規(guī)律的天氣系統(tǒng)信息的重要方法,該方法可以將3維變量分解為多個(gè)2維空間模態(tài)和對(duì)應(yīng)1維時(shí)間系數(shù)的乘積之和:
(7)
根據(jù)模態(tài)重要性的不同,可以將3維分析資料分解為兩個(gè)部分,即前個(gè)重要模態(tài)重構(gòu)部分和剩余模態(tài)重構(gòu)結(jié)果,那么觀測(cè)資料和背景場(chǎng)就可以表示為:
(8)
(9)
很多研究證明EOF方法能夠提取分析資料中的大尺度天氣信號(hào),Qin et al.(2010)的研究利用這一性質(zhì)提取全國(guó)地面溫度站點(diǎn)資料的大尺度空間特征。但是需要指出的是這里的大尺度天氣系統(tǒng)是相對(duì)觀測(cè)資料的空間覆蓋區(qū)域而言的大尺度天氣系統(tǒng)。當(dāng)觀測(cè)資料空間分辨率增加,觀測(cè)資料能夠分辨更多小尺度的溫度變化特征,如果這些變化的空間尺度遠(yuǎn)小于EOF分析區(qū)域的空間范圍,就容易導(dǎo)致EOF分析方法無(wú)法提取這些小尺度溫度變化特征。圖5給出了分別利用EOF前3、4、5、6、7、8個(gè)模態(tài)提取后剩余部分的溫度空間分布,可以看到雖然經(jīng)過(guò)了多個(gè)模態(tài)提取,安徽中東部一直存在一個(gè)明顯的低值區(qū)域,最低溫度可以達(dá)到-3 ℃以下。圖6給出的此區(qū)域的觀測(cè)溫度空間分布,可以看出此區(qū)域存在一個(gè)小尺度的低溫系統(tǒng),由于自動(dòng)站空間分辨率的增加,使得自動(dòng)站能夠觀測(cè)更多的小尺度溫度變化特征,但是這些溫度變化特征對(duì)于整個(gè)中國(guó)地區(qū)而言,屬于小尺度變化信息,所以針對(duì)整個(gè)中國(guó)地區(qū)進(jìn)行EOF分析,很難提取這些小尺度溫度變化信息,這就容易導(dǎo)致質(zhì)量控制中整個(gè)低溫區(qū)觀測(cè)資料被剔除的現(xiàn)象。但是從實(shí)際觀測(cè)資料可以看出,該區(qū)域有近30個(gè)站點(diǎn)同時(shí)表現(xiàn)出低溫現(xiàn)象,根據(jù)觀測(cè)誤差的隨機(jī)性可以知道以上站點(diǎn)同時(shí)出現(xiàn)錯(cuò)誤觀測(cè)的概率極低,這也證明利用全國(guó)站點(diǎn)資料進(jìn)行EOF分析方法不能適用于目前高空間分辨率的自動(dòng)站觀測(cè)資料。
圖5 2019年12月2日11時(shí)(第36時(shí)次)利用前3(a)、4(b)、5(c)、6(d)、7(e)、8(f)個(gè)模態(tài)觀測(cè)余差空間分布(紅色框?yàn)轱@著低值區(qū))Fig.5 Spatial distribution of residual part built by removing the first (a) 3,(b) 4,(c) 5,(d) 6,(e) 7 and (f) 8 modes at 11:00 BST on December 2,2019.The red box is the significantly low value area
圖6 2019年12月2日11時(shí)(第36時(shí)次)自動(dòng)站觀測(cè)溫度(單位:℃)空間分布Fig.6 Spatial distribution of observed temperature (unit:℃) at 11:00 BST on December 2,2019
由于EOF能分辨的空間尺度與其分析的空間范圍成正比,所以縮小EOF分析區(qū)域是保證EOF方法能夠提取更多小尺度天氣系統(tǒng)信息最直接的方法。通過(guò)縮小單次檢驗(yàn)區(qū)域的對(duì)比試驗(yàn)發(fā)現(xiàn),當(dāng)區(qū)域的空間范圍為4°×4°時(shí),就可以很好的提取所有小尺度空間變化信息。圖7給出了不同模態(tài)下觀測(cè)余差空間分布,可以看出,基本沒(méi)有強(qiáng)的異常中心,余差的溫度變化在±1.5 ℃范圍內(nèi),遠(yuǎn)低于圖5中的最高可達(dá)3 ℃的溫度異常,這就表明利用小區(qū)域進(jìn)行EOF分析,可以很好地識(shí)別觀測(cè)資料中的小尺度溫度異常信息。
圖7 2019年12月2日11時(shí)(第36時(shí)次)局部區(qū)域前3(a)、4(b)、5(c)、6(d)、7(e)、8(f)個(gè)模態(tài)觀測(cè)余差(單位:℃)分布Fig.7 Spatial distribution of residual temperature (unit:℃) built by removing the first (a) 3,(b) 4,(c) 5,(d) 6,(e) 7 and (f) 8 modes at 11:00 BST on December 2,2019 in the small domain
因此本文將所研究區(qū)域113°~123°E、29°~39°N劃分成16個(gè)4°×4°的子區(qū)域(以113°~117°N、29°~33°N為第一個(gè)子區(qū)域,然后逐次向左或者向上移動(dòng)2°構(gòu)成新的子區(qū)域),并對(duì)每個(gè)子區(qū)域分別進(jìn)行滾動(dòng)的質(zhì)量控制試驗(yàn)。
比較圖7中不同模態(tài)的分析結(jié)果可以發(fā)現(xiàn),利用EOF對(duì)小區(qū)域觀測(cè)資料進(jìn)行溫度變化信息提取后,在觀測(cè)余差空間分布圖中,當(dāng)EOF模態(tài)增加到前6個(gè)模態(tài)時(shí),余差的正負(fù)極值覆蓋區(qū)域達(dá)到了最小,當(dāng)模態(tài)繼續(xù)增加時(shí),極值覆蓋范圍出現(xiàn)了增加的現(xiàn)象,所以小區(qū)域的質(zhì)量控制中,我們選擇前6個(gè)模態(tài)進(jìn)行EOF提取,從而原始數(shù)據(jù)可以寫(xiě)成以下形式:
(10)
(11)
每個(gè)子區(qū)域EOF質(zhì)量控制,主要步驟如下:
圖8為提取前后觀測(cè)資料的概率分布,其中黑色實(shí)線(xiàn)為最接近的正態(tài)曲線(xiàn),可以看到觀測(cè)資料有很強(qiáng)的系統(tǒng)偏差,平均溫度為3.82 ℃,大部分資料集中在平均值附近(圖8a),但是在進(jìn)行EOF提取之后觀測(cè)余差分布集中在-3~3 ℃,頻數(shù)分布型接近高斯分布(圖8b),因此證明了觀測(cè)資料在進(jìn)行EOF提取之后剩余資料能夠更好的滿(mǎn)足隨機(jī)分布特征。背景場(chǎng)資料也可以得到相似的結(jié)果(圖略)。
圖8 2019年12月1—7日EOF提取前(a)后(b)自動(dòng)站溫度觀測(cè)資料概率分布(×104;黑色實(shí)線(xiàn)為最接近的正態(tài)分布函數(shù)曲線(xiàn))Fig.8 Frequency distribution of (a) observed temperature and (b) temperature after EOF extraction from December 1 to 7,2019 (×104;the black solid line is the closest normal distribution curve)
利用EOF分析方法提取規(guī)律性溫度變化信息后,觀測(cè)資料和背景場(chǎng)的余差都能夠更好地滿(mǎn)足隨機(jī)分布特征,根據(jù)隨機(jī)分布的特性可以知道,兩個(gè)滿(mǎn)足隨機(jī)分布的序列的差值也應(yīng)滿(mǎn)足隨機(jī)分布,所以?xún)烧叩牟钪悼梢宰鳛橘|(zhì)量控制的基礎(chǔ)數(shù)據(jù)。雖然觀測(cè)資料在提取后能夠更好地滿(mǎn)足隨機(jī)分布,但是背景場(chǎng)是由模式模擬系統(tǒng)和同化系統(tǒng)共同生成的,會(huì)存在模式模擬和同化過(guò)程中的系統(tǒng)性偏差,所以應(yīng)對(duì)觀測(cè)和背景場(chǎng)余差的差值特征做進(jìn)一步的分析。
圖9 觀測(cè)余差與背景場(chǎng)余差差值的標(biāo)準(zhǔn)差隨地形高度變化曲線(xiàn)Fig.9 Standard deviation of the difference between observed residual and background field residual varying with the terrain height
當(dāng)16個(gè)子區(qū)域資料經(jīng)過(guò)質(zhì)量控制后可以得到每個(gè)子區(qū)域每個(gè)時(shí)次的離群點(diǎn)分布情況。對(duì)于某些子區(qū)域之間存在重疊的情況,重疊區(qū)域中某站點(diǎn)只要在某一子區(qū)域被判定為錯(cuò)誤資料則將該資料最終判定為錯(cuò)誤資料。
利用2019年12月1—7日自動(dòng)站觀測(cè)資料,我們對(duì)整個(gè)研究區(qū)域進(jìn)行實(shí)際質(zhì)量控制試驗(yàn),新質(zhì)量控制方法各時(shí)次識(shí)別的錯(cuò)誤資料個(gè)數(shù)如圖10所示,平均剔除資料為每日48個(gè),剔除率約為0.96%,大部分時(shí)次錯(cuò)誤資料量都穩(wěn)定在50個(gè)左右,僅在第136時(shí)次和第146時(shí)次錯(cuò)誤資料個(gè)數(shù)異常偏多。由于錯(cuò)誤觀測(cè)的發(fā)生概率通常認(rèn)為是滿(mǎn)足隨機(jī)性的,所以質(zhì)量控制方法識(shí)別的錯(cuò)誤資料量的時(shí)間穩(wěn)定性也可以很好地證明質(zhì)量控制方法的有效性。
圖10 2019年12月1—7日空間檢測(cè)方法剔除資料量的時(shí)間變化曲線(xiàn)Fig.10 Hourly data count of error data detected by the new quality control method from December 1 to 7,2019
為了進(jìn)一步檢驗(yàn)質(zhì)量控制方法的正確性,我們利用單個(gè)時(shí)刻的檢測(cè)結(jié)果進(jìn)行進(jìn)一步分析。根據(jù)剔除資料量的曲線(xiàn)特征,我們選取兩個(gè)時(shí)刻檢驗(yàn)質(zhì)量控制方法的正確性,分別是第82(12月4日09時(shí))和146(12月7日01時(shí))時(shí)次。其中第82時(shí)次(12月4日09時(shí))剔除資料量接近平均剔除量,而第146時(shí)次則是明顯高于平均值。
圖11給出了第82時(shí)次離群點(diǎn)分布情況,此時(shí)次共剔除78個(gè)站點(diǎn),剔除站點(diǎn)主要分布在山東中部至江蘇北部、安徽南部及西南部。錯(cuò)誤資料的空間分布也表現(xiàn)出了很好的隨機(jī)性特征,并未出現(xiàn)明顯的錯(cuò)誤資料空間聚集的現(xiàn)象,這就可以證明質(zhì)量控制方法能夠很好地避免因?yàn)闇囟刃〕叨燃眲∽兓瘜?duì)質(zhì)量控制結(jié)果的影響。為了明確剔除資料的正確性,我們給出了其中3個(gè)剔除資料站點(diǎn)及其周邊站點(diǎn)的溫度量值及海拔高度空間分布(圖12)。I6653(116.54°E,31.17°N)、I6474(116.83°E,31.05°N)、I5565(117.15°E,31.22°N)3個(gè)站點(diǎn)在第82時(shí)次判定為錯(cuò)誤資料,根據(jù)這三個(gè)站點(diǎn)第82時(shí)次的溫度及其周?chē)军c(diǎn)溫度分布顯示,此三個(gè)站點(diǎn)在第82時(shí)次相較余于周?chē)军c(diǎn)溫度為異常低值,而且從地形高度來(lái)看,這三個(gè)站點(diǎn)的地形高度并沒(méi)有明顯不同于周邊站點(diǎn),每個(gè)站點(diǎn)周?chē)挤植剂硕鄠€(gè)同樣高度的觀測(cè)站點(diǎn),也可以排除地形高度增加導(dǎo)致地面溫度急劇下降的情況,所以可以認(rèn)定新質(zhì)量控制方法判定的錯(cuò)誤資料是合理的。第146時(shí)次是錯(cuò)誤資料最多的時(shí)次,圖13給出了錯(cuò)誤資料的空間分布。錯(cuò)誤資料的分布覆蓋了整個(gè)研究區(qū)域,其中山東北部、安徽和江蘇的南部分布最為密集。同樣隨機(jī)選擇小區(qū)域(圖13中藍(lán)色框)對(duì)檢測(cè)結(jié)果的正確性進(jìn)行驗(yàn)證。首先給出了該區(qū)域的溫度分布(圖14),站點(diǎn)觀測(cè)資料溫度分布由西北及東北向中心遞減,低值中心位于區(qū)域北部,ERA5再分析資料溫度分布由西南及東北向中心遞減,低值中心位于區(qū)域西北部,根據(jù)觀測(cè)資料顯示此區(qū)域溫度范圍為0~2.2 ℃,而且絕大部分站點(diǎn)都是位于60 m高度左右,因此并不存在地形高度導(dǎo)致的溫度急劇變化現(xiàn)象。由圖15可以看出,第146時(shí)次大多數(shù)剔除站點(diǎn)溫度數(shù)值相較于周?chē)军c(diǎn)溫度數(shù)值表現(xiàn)為異常值并且不符合此區(qū)域溫度范圍,因此也可以認(rèn)定檢測(cè)結(jié)果是合理的,利用傳統(tǒng)的OMB質(zhì)量控制方法此區(qū)域內(nèi)異常溫度數(shù)值未能檢測(cè)出來(lái)(圖略),這可能是由于傳統(tǒng)的OMB方法不能根據(jù)天氣變化調(diào)整閾值,當(dāng)溫度量值較小的時(shí)候,錯(cuò)誤觀測(cè)資料和背景場(chǎng)的差值明顯大于周邊站點(diǎn),但是依然小于設(shè)定閾值。新的質(zhì)量控制方法可以有效提取主要溫度的變化特征,從而可以獲得更為普適的檢測(cè)閾值。但是閾值依然是影響新質(zhì)量控制方法的重要因素之一。如圖15的右上部分,出現(xiàn)在120.5°E、32.7°N附近的兩個(gè)高溫站點(diǎn),站點(diǎn)溫度分別為3.8和4.2 ℃,這兩個(gè)站點(diǎn)沒(méi)有剔除,這可能和閾值設(shè)定有關(guān),在今后的研究中還需要根據(jù)實(shí)際情況進(jìn)一步調(diào)整閾值。
圖11 2019年12月4日09時(shí)(第82時(shí)次)錯(cuò)誤資料點(diǎn)(紅色點(diǎn))分布情況Fig.11 Spatial distribution of error data points (red points) at 09:00 BST on December 4,2019 (82nd time)
圖12 16653、16474、15565及其周?chē)军c(diǎn)2019年12月4日09時(shí)(第82時(shí)次)溫度(圖中數(shù)值為氣溫,單位:℃;陰影區(qū)域?yàn)楦叨?單位:m)Fig.12 Spatial distribution of observed temperature for 16653,16474,15565 and surrounding stations at 09:00 BST December 4,2019 (82nd time) (the figure shows the air temperature,unit:℃;the shaded area is height;unit:m)
圖13 2019年12月7日01時(shí)(第146時(shí)次)觀測(cè)站點(diǎn)分布(紅色為離群站點(diǎn),灰色為保留站點(diǎn),藍(lán)色矩形為檢驗(yàn)區(qū)域)Fig.13 Spatial distribution of stations at 01:00 BST on December 7,2019 (146th time;red represents outlier stations,gray is the reserved site,and the blue line width is the inspection area)
圖14 2019年12月7日01時(shí)(第146時(shí)次)觀測(cè)溫度(a)和ERA5再分析資料溫度(b)分布(陰影單位:℃)Fig.14 Spatial distribution of (a) observed temperature,and (b) ERA5 reanalysis data temperature at 01:00 BST on December 7,2019 (unit:℃)
圖15 2019年12月7日01時(shí)(第146時(shí)次)局部溫度數(shù)值(紅色為剔除站點(diǎn)溫度數(shù)值,陰影區(qū)域?yàn)楦叨龋瑔挝唬簃)Fig.15 Spatial distribution of observed temperature value (red represents the stations that are excluded;the shaded area is height;unit:m) at 01:00 BST on December 7,2019 (146th time)
最后給出了2019年12月1—7日自動(dòng)站觀測(cè)資料經(jīng)過(guò)EOF質(zhì)量控制后的錯(cuò)誤資料量的空間分布特征(圖16),共有2 229個(gè)站點(diǎn)資料質(zhì)量較高,168個(gè)時(shí)次中未有錯(cuò)誤資料出現(xiàn),這些站點(diǎn)主要分布在觀測(cè)站點(diǎn)密集的江蘇、山東和安徽省內(nèi),這3個(gè)省以外的站點(diǎn)基本都出現(xiàn)了錯(cuò)誤資料情況,其中2 652個(gè)站點(diǎn)有10次以下的錯(cuò)誤資料,81個(gè)站點(diǎn)出現(xiàn)了10~20次錯(cuò)誤資料,8個(gè)站點(diǎn)有20~30次剔除,有13個(gè)站點(diǎn)有大于30次剔除,大于30個(gè)時(shí)次的剔除站點(diǎn)主要分布在江蘇省東部和河南省中部。
圖16 2019年12月1—7日累積剔除資料量的空間分布(灰色表示沒(méi)有剔除;藍(lán)色表示有1~10次剔除;綠色表示10~20次剔除;黃色表示20~30次剔除;紅色表示大于30次剔除)Fig.16 Spatial distribution of data count for error data from December 1 to 7,2019.Gray means no culling;blue indicates that there are 1—10 culls;green means 10—20 culls;yellow represents 20—30 culls;and red indicates more than 30 culls
氣象觀測(cè)資料是進(jìn)行天氣預(yù)報(bào)及氣象研究的基礎(chǔ),其質(zhì)量問(wèn)題是學(xué)者一直關(guān)注的問(wèn)題,目前我國(guó)已經(jīng)實(shí)現(xiàn)了全面觀測(cè)自動(dòng)化,因此提高觀測(cè)資料的質(zhì)量及其利用率尤為重要。本文利用江蘇省氣象局提供的2019年12月1日00時(shí)至7日23時(shí),共168個(gè)時(shí)次的地面自動(dòng)站溫度觀測(cè)資料及ECWMF的ERA5 2m溫度再分析資料作為背景場(chǎng)信息,使用常規(guī)控制方法及基于EOF的質(zhì)量控制方法對(duì)我國(guó)中東部地區(qū)2019年12月1日00時(shí)—7日23時(shí)168個(gè)時(shí)次4 983個(gè)站點(diǎn)進(jìn)行了質(zhì)量控制試驗(yàn)。
研究結(jié)果表明,針對(duì)高密度的觀測(cè)資料,利用基于EOF的質(zhì)量控制方法可以很好地提取有結(jié)構(gòu)的觀測(cè)系統(tǒng)信息并保證剩余信息能夠更好地滿(mǎn)足隨機(jī)分布,利用隨機(jī)概率分布特點(diǎn)可以很好地剔除異常觀測(cè)資料,并且可以避免實(shí)際天氣變化的影響。168個(gè)時(shí)次中共有2 754個(gè)站點(diǎn)有被剔除過(guò),剔除站點(diǎn)分布均勻,剔除時(shí)次較多的站點(diǎn)分布在山東的中部,蘇皖南部交界及江蘇東部近海等地區(qū)。平均每個(gè)時(shí)次剔除站點(diǎn)數(shù)約為50個(gè),每時(shí)次平均剔除率約為1%。
由于資料長(zhǎng)度的限制,本文沒(méi)有在時(shí)間上進(jìn)行滾動(dòng)檢測(cè)檢驗(yàn),在后續(xù)的研究中將利用更長(zhǎng)時(shí)間的觀測(cè)資料進(jìn)行滾動(dòng)檢測(cè)試驗(yàn)。另外本文所提質(zhì)量控制方法在小尺度信息較多情況下依然容易受到閾值的設(shè)定影響,導(dǎo)致在對(duì)部分站點(diǎn)的質(zhì)量控制出現(xiàn)剔除不夠的現(xiàn)象,后續(xù)研究中還需要根據(jù)實(shí)際應(yīng)用區(qū)域進(jìn)行進(jìn)一步研究。