国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于不足氣象要素時間序列的小時界限值提取

2021-12-02 09:34廖順寶劉廣虎
科學(xué)技術(shù)與工程 2021年33期
關(guān)鍵詞:氣象站標準差界限

馬 歡,郭 越,廖順寶,劉 曉,劉廣虎

(1.防災(zāi)科技學(xué)院地球科學(xué)學(xué)院,三河 065201;2.河北省地震動力學(xué)重點實驗室,三河 065201;3.防災(zāi)科技學(xué)院電子科學(xué)與控制工程學(xué)院,三河 065201;4.防災(zāi)科技學(xué)院生態(tài)環(huán)境學(xué)院,三河 065201;5.南昌工程學(xué)院水利與生態(tài)工程學(xué)院,南昌 330099)

氣象數(shù)據(jù)廣泛應(yīng)用于交通運輸[1-3]、氣象及農(nóng)業(yè)氣象災(zāi)害[4-7]、地球物理[8-9]、環(huán)境[10]、投資[11]、疾病和健康[12-13]和基礎(chǔ)設(shè)施服務(wù)[14-15]等領(lǐng)域。尤其是大數(shù)據(jù)時代的到來,氣象數(shù)據(jù)在其中扮演的角色越來越重要。隨著這些行業(yè)的不斷發(fā)展,對氣象數(shù)據(jù)準確性的要求也在逐漸提高。因此,在利用氣象數(shù)據(jù)的前期,對氣象數(shù)據(jù)進行質(zhì)量控制的重要性和必要性顯而易見。中外眾多學(xué)者從20 世紀末就開展了各項氣象要素質(zhì)量控制的相關(guān)研究[16-24],質(zhì)量控制內(nèi)容主要包括界限值檢查、內(nèi)部一致性檢查、時間和空間異常值檢查和缺失值檢查等。

在氣象數(shù)據(jù)質(zhì)量控制過程中,一般首先執(zhí)行極值檢查,眾多學(xué)者對氣象要素的界限值的選取采取了不同方案,尤其是氣溫要素。例如,F(xiàn)eng等[18]、Kubecka[25]采取全球可能記錄地溫最高值93.9 ℃作為氣溫上界限值進行中國地區(qū)的極值檢查,但是由于中國地區(qū)的歷史氣溫極值沒有達到93.9 ℃的先例,而且該界限值的空間和時間尺度過大,在質(zhì)量控制中發(fā)揮的作用較?。桓]以文等[26]和金莉莉等[27]選用研究地區(qū)站點的歷史記錄最大值和最小值作為界限值對歷史數(shù)據(jù)進行檢查,相比將全球可能記錄地溫最大值作為界限值來說,該界限值的空間尺度有所減小,時間尺度較大,在數(shù)據(jù)質(zhì)量控制中十分有效。任芝花等[28]、魯奕岑等[29]根據(jù)不同季節(jié)設(shè)定氣象站氣溫界限值,該方法將氣象站點的界限值時間尺度縮至季度,在中國地區(qū)和浙江省氣溫質(zhì)量控制研究中避免了界限值范圍過大。郭昌松等[30]利用福建省各站點各月氣溫極值加上(減去)某個統(tǒng)計值作為該站點各月的極限值,進一步將界限值時間尺度減小至月份。

由此可見,雖然極值檢查作為氣象數(shù)據(jù)質(zhì)量控制中較為粗糙的一個環(huán)節(jié),但是有效的界限值能夠從基本面上清洗出不合格的數(shù)據(jù),為后續(xù)質(zhì)量控制打好堅實的基礎(chǔ)。然而,逐小時氣象數(shù)據(jù)的質(zhì)量控制常常為局部地區(qū)的天氣預(yù)報[31]、不同晴空指數(shù)下氣溫隨時間變化的情況[32]、農(nóng)作物生育期影響[33]等提供數(shù)據(jù)支撐。若使用上述全球歷史極值、站點歷史極值、站點季節(jié)性歷史極值或站點各月份歷史極值作為質(zhì)量控制中的界限值,會弱化界限值檢查的效果。為了提升氣象數(shù)據(jù)質(zhì)量控制中的界限值檢查效果,開展更為精細時間尺度的氣象數(shù)據(jù)界限值研究十分必要。

基于界限值時間尺度的思考,本研究結(jié)合站點歷史值,通過統(tǒng)計學(xué)手段,將界限值時間尺度縮小至每小時,確定各站點一年每小時數(shù)據(jù)的界限值,從而更精細、有效地進行氣象數(shù)據(jù)質(zhì)量控制,以便更有效的服務(wù)于局部地區(qū)的天氣預(yù)報、農(nóng)作物耕種等領(lǐng)域。另外,通過統(tǒng)計學(xué)方法來確定逐小時氣象數(shù)據(jù)的界限值,需要一定量的統(tǒng)計樣本,且氣象要素要在時間尺度上具有一定規(guī)律。因此,現(xiàn)選擇氣象站點的氣溫、氣壓和相對濕度3個氣象要素數(shù)據(jù)。氣象站主要分布在中國東北、華北、長江中下游地區(qū),包含13 個省,4 個直轄市和1 個自治區(qū),共計1 942 個氣象站。由于氣象站數(shù)量多,會有大量的統(tǒng)計樣本用于確定逐小時氣象數(shù)據(jù)界限值。因此,使用MySQL數(shù)據(jù)庫(特點:快速、有效安全的處理大量數(shù)據(jù))存儲所有氣象數(shù)據(jù),再利用Python語言的Pandas工具強大的分組功能,在海量氣象數(shù)據(jù)中抽取統(tǒng)計樣本,計算逐小時氣象數(shù)據(jù)界限值,進而實現(xiàn)一套用于快速、有效的計算氣溫、氣壓和相對濕度氣象要素逐小時界限值的算法。

1 原理方法

1.1 選取統(tǒng)計樣本方法

本研究收集近兩年(2019 年和2020 年)各站點每小時的氣溫,氣壓和相對濕度數(shù)據(jù),由于每個站點的這3類氣象要素相鄰時間的小時數(shù)據(jù)具有相似性和規(guī)律性。每天中午的氣溫最高,夜晚最低。氣壓與海拔、氣溫和大氣密度相關(guān),對于同一站點而言,其年變化規(guī)律大致為夏季低,冬季高。相對濕度表現(xiàn)為夜晚高,白天低。因此,以當(dāng)前數(shù)據(jù)的時間為中心,挑選臨近時間點的數(shù)據(jù)進行統(tǒng)計,通過式(1)得到統(tǒng)計的平均值和標準差,進一步獲得界限值標準。

(1)

表1 統(tǒng)計樣本時間Table 1 Statistical sample time

(2)

另外,如果按照上述時間樣本選取規(guī)則和樣本數(shù)量(50個樣本)要求,在兩年(2019 年和2020 年)數(shù)據(jù)中,有兩類特殊時間段不滿足50個樣本,其處理方式如下。

(1)位于時間列表邊界的時刻。當(dāng)某時刻位于時間列表邊界時(2019 年1 月1 日0:00—2019 年1 月3 日1:00,2020 年12 月29 日22:00—2020 年12 月31 日23:00),統(tǒng)計樣本將達不到50個,這樣達不到應(yīng)有的統(tǒng)計效果。為此,在計算時間列表邊界處的界限值時,要納入2018 年12 月底和2021 年1 月初的部分數(shù)據(jù)至統(tǒng)計樣本中,以滿足均值和標準差的樣本數(shù)量需求。

(2)2020 年2 月29 日的所有時間。當(dāng)某時刻在2020年2月29日時,統(tǒng)計樣本同樣達不到50個,由于每4年出現(xiàn)一次,在此不計算2020年2月29日的界限值。在數(shù)據(jù)的質(zhì)量控制中,若存在2月29日的數(shù)據(jù),則利用2月28日和3月1日的界限值的范圍較大者作為2月29日的界限值。

1.2 數(shù)據(jù)處理

2019年和2020年一個臺站的每小時數(shù)據(jù)量為17 520個(24×365×2=17 520),所選站點共有1 942 個,數(shù)據(jù)量為34 023 840 個(17 520×1 942=34 023 840)。對于界限值而言,要統(tǒng)計一年每小時數(shù)據(jù)的界限值,因此界限值個數(shù)為數(shù)據(jù)量的一半,即17 011 920個。由此可見,數(shù)據(jù)量十分龐大,更為困難的是每個界限值需要50 個樣本計算均值和標準差,不僅需要很大的計算機內(nèi)存空間,而且由于數(shù)據(jù)量大引起的數(shù)據(jù)遍歷時間長,效率低,在普通電腦上將是一個耗時費力的工作。為此,使用Python Pandas模塊中的groupby函數(shù),對龐大的數(shù)據(jù)體進行分組運算,以達到提高計算效率的目的。

1.2.1 數(shù)據(jù)處理流程

界限值計算流程如圖1所示,主要步驟如下。

圖1 計算每小時界限值流程圖Fig.1 Flow chart for calculating the hourly extreme value

步驟1將2019年和2020年的每小時數(shù)據(jù)以每個月數(shù)據(jù)為一個表存入MySQL數(shù)據(jù)庫中,共24個數(shù)據(jù)表。

步驟2通過Python Pandas模塊鏈接MySQL數(shù)據(jù)庫讀取數(shù)據(jù)。

步驟3通過Python Pandas模塊中的groupby函數(shù)分組,并獲得樣本均值和標準差。

步驟4通過式(2)得到每小時界限值。

由于在讀取數(shù)據(jù)庫中的每小時數(shù)據(jù)時,可能存在特征值,如表2所示,所以在計算樣本的均值和標準差時,若樣本中存在特征值,則舍棄這些特征值后,計算剩余樣本的均值和標準差。

表2 氣象要素特征值Table 2 Eigenvalues of meteorological elements

1.2.2 數(shù)據(jù)處理算法

如圖2所示的偽代碼,在進行數(shù)據(jù)處理時,面對兩個選擇:一是按氣象站遍歷;二是按時間遍歷。

圖2 算法偽代碼圖Fig.2 Algorithm pseudo code diagram

首先,通過遍歷氣象站求得界限值,其循環(huán)次數(shù)為1 942次(1 942個氣象站)。在遍歷過程中,每個站點利用groupby函數(shù)按照不同時間分成8 760組,每一組收集50個樣本計算均值和標準差。

其次,通過遍歷時間求得界限值,循環(huán)次數(shù)為8 760 次(365×24=8 760)。在遍歷過程中,利用groupby函數(shù)按照不同站點分成1 942組,每組收集50個樣本計算均值和標準差。

從循環(huán)次數(shù)上看,似乎遍歷氣象站的方式循環(huán)次數(shù)少,能夠有效減少運算時間,但是這種方案需要提前準備8 760組的統(tǒng)計樣本,每組50個樣本所在時間各不相同,從算法實現(xiàn)的角度來看,較為麻煩。

第二種算法雖然循環(huán)次數(shù)較多,但是在1 942 組中,每組的樣本所在時間相同,不需要前期準備,這使得算法簡單易懂,便于實現(xiàn)。因此,采用算法二計算了1 942個氣象站的全年每小時界限值8 760個,程序運行18 h 30 min。經(jīng)測試,若不使用groupby函數(shù)分組,利用遍歷統(tǒng)計樣本的方式,運行時將增長約4 倍。

2 界限值分析

經(jīng)過上述計算可確定全年各氣象站的氣溫、氣壓和相對濕度每小時界限值。101011200 號氣象站的全年氣溫界限值如圖3(a)所示,在-14.6~45.1 ℃范圍,由于全年每小時數(shù)據(jù)量龐大,故使用每天中午12:00 的均值、上下界限值來繪制曲線(以下氣壓和相對濕度曲線也參考該方法)。從總體趨勢來看,該站點氣溫均值6 月和7 月最高,逐漸向兩端減小。由于界限值過多,不易發(fā)現(xiàn)規(guī)律。于是選取8 月的界限值(以下氣壓和相對濕度要素也選取8月數(shù)據(jù)),如圖3(b)所示,氣溫界限值和統(tǒng)計樣本均值的規(guī)律與每天的氣溫變化規(guī)律相似,都表現(xiàn)為夜晚氣溫低,白天氣溫高。峰值和最小值各31個,代表每天氣溫均值和界限值的最高氣溫、最低氣溫。另外,該氣象站8 月份氣溫數(shù)據(jù)統(tǒng)計樣本的標準差表現(xiàn)為氣溫高時,標準差高,氣溫低時,標準差小,如圖3(b)紅色曲線所示。呈現(xiàn)這樣的曲線形態(tài)的主要原因是:白天中午溫度梯度較大,統(tǒng)計樣本在平均氣溫附近的波動較大;相反,夜晚凌晨氣溫梯度較小,統(tǒng)計樣本在平均氣溫附近波動較小??偟膩碚f,該氣象站氣溫界限值和統(tǒng)計樣本標準差都符合正常氣溫變化規(guī)律,氣溫界限值具備有效性,能夠用于進一步氣溫質(zhì)量控制。這也從側(cè)面驗證了樣本統(tǒng)計方法確定每小時界限值算法也是有效的。

圖3 101011200 號氣象站氣溫界限值及統(tǒng)計樣本標準差Fig.3 Temperature extreme values and statistical sample standard deviation of weather station 101011200

101011200 號氣象站7—11月的每小時氣壓界限值如圖4(a)所示,在980~1 050 hPa區(qū)間范圍。由于氣壓與海拔、氣溫和大氣密度相關(guān),與氣溫相比,顯得規(guī)律性差,而且由于該氣象站存在大量氣壓值缺測現(xiàn)象,所以1—6月以及12月的界限值無法通過統(tǒng)計手段獲取,這使得曲線被分成兩段。由于每一段曲線兩端只有少數(shù)有效統(tǒng)計樣本,即50個樣本中存在大量的特征值,如表2所示,所以頭部和尾部上下界限值與均值趨于交匯。雖然只有5 個月氣壓數(shù)據(jù),但是也能夠觀察出氣壓的大致年變化規(guī)律。7—11月氣壓逐漸升高,即冬天比夏天氣壓高,這符合大陸型氣壓年變化規(guī)律,但是若觀察1 個月的氣壓界限值、均值和標準差數(shù)據(jù),其并不呈現(xiàn)規(guī)律性變化,如圖4(b)所示,只能通過其統(tǒng)計樣本的標準差得知統(tǒng)計樣本的波動程度。例如,8 月22 日和8 月23 日的統(tǒng)計樣本氣壓起伏較大,使得這兩天的上下界限值范圍較大。

101011200號氣象站的全年每小時相對濕度界限值如圖5(a)所示,在0~100%區(qū)間范圍。從總體趨勢來看,該站點全年相對濕度均值并無明顯規(guī)律。8月的界限值如圖5(b)所示,相對濕度統(tǒng)計樣本均值(綠色曲線)的規(guī)律與每天的氣溫變化規(guī)律相反,表現(xiàn)為夜晚相對濕度高,白天相對濕度低。峰值和最小值各31個,代表統(tǒng)計樣本的相對濕度均值的最高值和最低值。該氣象站8月數(shù)據(jù)統(tǒng)計樣本的標準差表現(xiàn)為白天相對濕度低時,標準差高,夜晚相對濕度高時,標準差小,如圖5(b)紅色曲線所示。這與相對濕度的日變化規(guī)律相符。另外,由于相對濕度的變化范圍一定是0~100%,所以在界限值計算過程中,如果式(2)的計算值大于100%或小于0,則直接將界限值設(shè)為100%或0。

3 討論與結(jié)論

以2019年和2020年的實時氣溫、氣壓和相對濕度氣象要素數(shù)據(jù)和統(tǒng)計方法為基礎(chǔ),本研究利用Python語言實現(xiàn)了一套快速、有效的計算氣溫、氣壓和相對濕度的每小時界限值算法,該算法為使用每小時界限值有效的進行質(zhì)量控制打下堅實基礎(chǔ),有助于氣象、農(nóng)業(yè)等領(lǐng)域相關(guān)工作。

在計算的每小時界限值中,氣溫界限值規(guī)律與日氣溫變化規(guī)律一致;氣壓界限值規(guī)律與大陸型氣壓的年變化規(guī)律一致;相對濕度界限值雖然與其日變化規(guī)律一致,但是每小時界限值大多還是集中在0和100%,因此相對濕度數(shù)據(jù)若在0~100%范圍外,則采用0和100%作為其界限值;若在0~100%范圍內(nèi),則采用相對濕度每小時界限值。另外,研究也存在不足之處:研究只利用2019 年和2020 年的氣象數(shù)據(jù)進行界限值計算,想要獲得更具有統(tǒng)計規(guī)律的界限值,還需要在現(xiàn)有50 個樣本的基礎(chǔ)上擴充統(tǒng)計樣本數(shù)量。這在后續(xù)研究中需要加以改進,已經(jīng)列為下一步研究工作重點,以此提升界限值精確度,保證質(zhì)量控制效果。

猜你喜歡
氣象站標準差界限
界限
我國在珠穆朗瑪峰架設(shè)世界最高海拔氣象站
珠峰上架起世界最高氣象站
間隙
過去
訂正
破次元
自動氣象站異常記錄分析及處理方法
方差中亟待澄清的兩個錯誤觀點
醫(yī)學(xué)科技論文中有效數(shù)字的確定
乃东县| 东乡县| 神农架林区| 泸水县| 德江县| 安顺市| 始兴县| 桓台县| 抚远县| 叙永县| 石家庄市| 宁津县| 互助| 兴国县| 革吉县| 阿克陶县| 潍坊市| 岐山县| 丁青县| 密云县| 台东市| 定日县| 绥江县| 武穴市| 贵溪市| 鄂托克前旗| 浙江省| 金山区| 长子县| 乃东县| 青冈县| 四会市| 墨江| 会昌县| 曲靖市| 汪清县| 济宁市| 壤塘县| 涪陵区| 广元市| 郴州市|