陳 沖,徐清宇,程 欣,李克奇,甄 磊
(北方自動(dòng)控制技術(shù)研究所,太原 030006)
現(xiàn)今的模擬仿真訓(xùn)練系統(tǒng)中,對(duì)于溫度、風(fēng)力、云、霧、沙塵、降雨量等氣象環(huán)境的仿真主要是以復(fù)現(xiàn)歷史戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)來(lái)實(shí)現(xiàn)的。主要是通過(guò)對(duì)歷史戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)的挖掘進(jìn)行復(fù)現(xiàn),主要方法包括基于K 均值聚類(lèi)算法的氣象數(shù)據(jù)挖掘、基于蟻群算法的戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)挖掘,和基于氣象預(yù)測(cè)相關(guān)數(shù)據(jù)挖掘模型的戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)挖掘。其中最常用的是氣象預(yù)測(cè)相關(guān)數(shù)據(jù)挖掘模型的戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)挖掘方法。
在模擬仿真訓(xùn)練過(guò)程中,單一的對(duì)歷史戰(zhàn)場(chǎng)氣象環(huán)境的再現(xiàn),已經(jīng)遠(yuǎn)遠(yuǎn)不能滿(mǎn)足對(duì)于多變戰(zhàn)場(chǎng)環(huán)境的仿真需求。針對(duì)陸軍模擬仿真訓(xùn)練系統(tǒng)其在訓(xùn)練過(guò)程中對(duì)虛擬戰(zhàn)場(chǎng)氣象環(huán)境的干預(yù),需要在合理可控的預(yù)測(cè)區(qū)間內(nèi)對(duì)調(diào)理作出響應(yīng)。本文所提出的基于戰(zhàn)場(chǎng)氣象環(huán)境歷史數(shù)據(jù)的模糊預(yù)測(cè)算法,是在擬合區(qū)間內(nèi)對(duì)氣象數(shù)據(jù)的模糊預(yù)測(cè)擬合,滿(mǎn)足陸戰(zhàn)場(chǎng)仿真系統(tǒng)中對(duì)多變戰(zhàn)場(chǎng)氣象環(huán)境的要求。
對(duì)于氣象環(huán)境預(yù)報(bào)來(lái)說(shuō),用到最多的是被廣為熟知的氣象預(yù)報(bào)專(zhuān)家系統(tǒng)。該系統(tǒng)是以氣象環(huán)境學(xué)知識(shí)為基礎(chǔ),并以推理機(jī)系統(tǒng)產(chǎn)生的邏輯推斷為依據(jù)來(lái)預(yù)報(bào)氣象環(huán)境。通常包括知識(shí)獲取、知識(shí)庫(kù)、數(shù)據(jù)庫(kù)、推理機(jī)、輸出解釋和資料處理與預(yù)報(bào)參數(shù)采集等6 部分分系統(tǒng)。知識(shí)獲取分系統(tǒng)是利用壓縮后的預(yù)報(bào)因子和因子群,將從氣象環(huán)境預(yù)報(bào)員和氣象領(lǐng)域?qū)<业玫降闹R(shí)轉(zhuǎn)變?yōu)橄到y(tǒng)可識(shí)別的形式,并將其寄存于知識(shí)庫(kù)分系統(tǒng)中。推理機(jī)分系統(tǒng)是利用氣象學(xué)知識(shí)產(chǎn)生的規(guī)則,對(duì)氣象環(huán)境數(shù)據(jù)進(jìn)行邏輯判斷。知識(shí)庫(kù)分系統(tǒng)是氣象預(yù)報(bào)專(zhuān)家系統(tǒng)的核心部分,知識(shí)的獲取、解析、推理和預(yù)報(bào)都建立在知識(shí)庫(kù)分系統(tǒng)的基礎(chǔ)上。數(shù)據(jù)庫(kù)分系統(tǒng)是用來(lái)存儲(chǔ)氣象信息數(shù)據(jù)的,主要包括歷史氣象數(shù)據(jù)資料和實(shí)時(shí)氣象數(shù)據(jù)資料兩部分內(nèi)容。輸出解釋分系統(tǒng)是通過(guò)人機(jī)互操作的形式將系統(tǒng)的各種信息提供給用戶(hù),使系統(tǒng)具備一定的可理解性。資料處理與預(yù)報(bào)參數(shù)分系統(tǒng)又可以稱(chēng)之為學(xué)習(xí)系統(tǒng),通過(guò)與外界環(huán)境進(jìn)行交互不斷完善自身的性能。
隨著數(shù)據(jù)處理技術(shù)的不斷發(fā)展,對(duì)氣象環(huán)境數(shù)據(jù)處理能力在不斷提高,獲取到的氣象環(huán)境數(shù)據(jù)量也在不斷增加,氣象環(huán)境數(shù)據(jù)的殘缺、冗余和混亂現(xiàn)象越來(lái)越明顯。通過(guò)專(zhuān)家和人工獲取的知識(shí)已經(jīng)不能滿(mǎn)足對(duì)復(fù)雜數(shù)據(jù)總體特性準(zhǔn)確描述的需求,因數(shù)據(jù)量爆炸式增長(zhǎng)而出現(xiàn)的知識(shí)匱乏現(xiàn)象也日漸顯露。在氣象環(huán)境數(shù)據(jù)量龐大的今天,知識(shí)獲取逐漸成為制約氣象預(yù)報(bào)專(zhuān)家系統(tǒng)發(fā)展的核心問(wèn)題。
數(shù)據(jù)挖掘是利用多種分析工具在海量數(shù)據(jù)中尋求構(gòu)建模型和數(shù)據(jù)之間關(guān)系的過(guò)程,并利用這些數(shù)據(jù)和模型間關(guān)系對(duì)數(shù)據(jù)更進(jìn)一步預(yù)測(cè)。數(shù)據(jù)挖掘在氣象預(yù)報(bào)中首先要做的是對(duì)氣象數(shù)據(jù)的描述,并對(duì)統(tǒng)計(jì)變量進(jìn)行計(jì)算。隨著數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,數(shù)據(jù)挖掘在氣象預(yù)報(bào)中的應(yīng)用越來(lái)越多。從最早在氣象環(huán)境數(shù)據(jù)處理中用到的統(tǒng)計(jì)學(xué)回歸和聚類(lèi)分析方法,到現(xiàn)今所用到的數(shù)據(jù)挖掘技術(shù)、氣象環(huán)境數(shù)據(jù)處理技術(shù)也在不斷變革。
由于氣象數(shù)據(jù)和電力負(fù)荷數(shù)據(jù)之間存在著極大的不確定性關(guān)系,在計(jì)算機(jī)系統(tǒng)中的電力負(fù)荷預(yù)測(cè)上,開(kāi)始出現(xiàn)了大量的研究和試驗(yàn)。大量研究表明,氣象變化是導(dǎo)致計(jì)算機(jī)系統(tǒng)電力負(fù)荷變化的因素之一。
雖然上面所提到的兩種方法對(duì)于戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)都能起到預(yù)測(cè)作用,但是針對(duì)陸軍模擬仿真訓(xùn)練系統(tǒng),所要實(shí)現(xiàn)的不僅僅是對(duì)戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)的準(zhǔn)確預(yù)測(cè),還有在仿真過(guò)程中在不影響整體系統(tǒng)環(huán)境數(shù)據(jù)的基礎(chǔ)上,對(duì)虛擬戰(zhàn)場(chǎng)氣象環(huán)境在合理范圍內(nèi)的干預(yù)和調(diào)理。針對(duì)以上問(wèn)題,本文提出了一種基于歷史戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)的模糊預(yù)測(cè)算法設(shè)計(jì)。
對(duì)戰(zhàn)場(chǎng)氣象環(huán)境進(jìn)行精準(zhǔn)的預(yù)測(cè),是在對(duì)戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)進(jìn)行準(zhǔn)確分析后的基礎(chǔ)上完成的。原始?xì)庀蟓h(huán)境數(shù)據(jù)中所存在的數(shù)據(jù)冗余、雜亂和不完整等問(wèn)題,會(huì)直接影響到數(shù)據(jù)挖掘和模糊預(yù)測(cè)的效果,所以在對(duì)氣象數(shù)據(jù)進(jìn)行挖掘和模糊預(yù)測(cè)前,要根據(jù)氣象數(shù)據(jù)特性,利用現(xiàn)有的數(shù)據(jù)清理、集成、變換和規(guī)約等預(yù)處理技術(shù),可以提升戰(zhàn)場(chǎng)氣象環(huán)境數(shù)據(jù)的質(zhì)量,提高挖掘和預(yù)測(cè)的效率。
數(shù)據(jù)清理主要是用來(lái)填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)和平滑噪聲數(shù)據(jù),能有效糾正錯(cuò)誤數(shù)據(jù)。
數(shù)據(jù)集成是指將不同數(shù)據(jù)源的數(shù)據(jù)整合到一起,形成一個(gè)統(tǒng)一的數(shù)據(jù)集合,為數(shù)據(jù)挖掘和模糊預(yù)測(cè)提供完整的數(shù)據(jù)基礎(chǔ)。以給出的兩個(gè)屬性A 和B 數(shù)據(jù)集合為例,其中n 是集合A、B 的元素個(gè)數(shù),A與B 是集合A、B 的均值,σA與σB是集合A、B 的標(biāo)準(zhǔn)差。根據(jù)集合A、B 的數(shù)值屬性,使用下式分析集合A、B 數(shù)值屬性間的互相關(guān)關(guān)系:
數(shù)據(jù)變化是指采用規(guī)范化和屬性構(gòu)造等方法,將原始?xì)庀蟓h(huán)境數(shù)據(jù)轉(zhuǎn)變?yōu)檫m合挖掘和預(yù)測(cè)的形式。常用的規(guī)范化方法有最小-最大規(guī)范化、零均值規(guī)范化和十基數(shù)變換規(guī)范化。
1)最小-最大規(guī)范化法:假設(shè)minA和maxA為A 屬性的最小值與最大值。最小-最大規(guī)范化是對(duì)A 的值線(xiàn)性變換,將其映射到區(qū)間[newminA,newmaxA]中,其映射公式如下:
2)零均值規(guī)范化法:將集合A 的數(shù)值屬性值v基于A 的平均值和標(biāo)準(zhǔn)差進(jìn)行處理,其中A、σA為集合A 的均值和標(biāo)準(zhǔn)差,利用下式規(guī)范為v':
3)十基數(shù)變換規(guī)范化法:通過(guò)移動(dòng)集合A 的小數(shù)點(diǎn)位置,將集合A 的屬性值v 規(guī)范化為v',其中j 是使得max(|v'|)<1 的最小整數(shù)。而小數(shù)點(diǎn)的移動(dòng)位數(shù)取決于A 的最大絕對(duì)值。
數(shù)據(jù)歸約技術(shù)是對(duì)氣象環(huán)境原始數(shù)據(jù)集進(jìn)行屬性選擇和部分采樣等處理,得到原數(shù)據(jù)集的精簡(jiǎn)集合。該精簡(jiǎn)數(shù)據(jù)集不僅減小了原始數(shù)據(jù)集的數(shù)據(jù)量,還保持了原數(shù)據(jù)集的完整性。
對(duì)于模糊預(yù)測(cè)在歷史氣象數(shù)據(jù)挖掘應(yīng)用來(lái)說(shuō),主流的是在K 均值聚類(lèi)算法的基礎(chǔ)上,引入隸屬關(guān)系形成的模糊K 均值聚類(lèi)的氣象數(shù)據(jù)挖掘算法,其在一定程度上增加了數(shù)據(jù)挖掘的準(zhǔn)確率。以主從隸屬的依附關(guān)系,根據(jù)隸屬度關(guān)系進(jìn)行分類(lèi)模糊,提高某幾類(lèi)數(shù)據(jù)挖掘的準(zhǔn)確率。但在氣象數(shù)據(jù)模糊預(yù)測(cè)中,所要求的是對(duì)于整個(gè)時(shí)間段內(nèi)氣象數(shù)據(jù)的挖掘預(yù)測(cè),不存在隸屬關(guān)系,就需要來(lái)尋求其他的關(guān)于氣象數(shù)據(jù)挖掘的模糊預(yù)測(cè)。
本文所提出的基于模擬訓(xùn)練歷史數(shù)據(jù)的氣象環(huán)境數(shù)據(jù)模糊預(yù)測(cè)算法,其通過(guò)時(shí)間序列分析氣象環(huán)境數(shù)據(jù)之間的關(guān)聯(lián)性,通過(guò)模擬訓(xùn)練的歷史氣象環(huán)境數(shù)據(jù)挖掘時(shí)間序列變化的規(guī)律,來(lái)對(duì)未來(lái)氣象環(huán)境數(shù)據(jù)進(jìn)行模糊預(yù)測(cè)。模型計(jì)算的模糊帶包絡(luò)覆蓋了實(shí)際值變化的曲線(xiàn),能夠在模擬仿真訓(xùn)練過(guò)程中滿(mǎn)足用戶(hù)在真實(shí)可能性的基礎(chǔ)上,實(shí)現(xiàn)對(duì)虛擬戰(zhàn)場(chǎng)環(huán)境數(shù)據(jù)定制。模糊時(shí)間序列曲線(xiàn)擬合預(yù)測(cè)過(guò)程主要包括以下內(nèi)容。
以某一虛擬戰(zhàn)場(chǎng)環(huán)境數(shù)據(jù)來(lái)說(shuō),假設(shè)該戰(zhàn)場(chǎng)環(huán)境某月的歷史平均數(shù)據(jù)為一組實(shí)數(shù)x1,x2,…xT,利用它們構(gòu)造一組模糊數(shù),設(shè)當(dāng)t=1 和T 時(shí),
在給出的歷史年份T 內(nèi)取不同的正整數(shù)k 值,計(jì)算趨勢(shì)方程:
設(shè)pi為三角模糊函數(shù),則它的估計(jì)值p^i可以設(shè)為:
得到pi的估計(jì)值p^i,則得到趨勢(shì)方程為:
此時(shí)可代入未來(lái)時(shí)間,SVt*()也是一個(gè)三角模糊數(shù),當(dāng)時(shí)間變動(dòng)時(shí)SVt*(t)不是一條曲線(xiàn),而是一個(gè)曲線(xiàn)帶,曲線(xiàn)帶的上下兩條邊界曲線(xiàn)分別為f1(t)=β(t)+S(t)和f2(t)=β(t)-S(t),中心線(xiàn)為f0(t)=β(t),
Box-Muller 算法核心是先產(chǎn)生一組服從均勻分布的隨機(jī)數(shù),再將該組均勻分布的隨機(jī)數(shù)通過(guò)變化轉(zhuǎn)換為正態(tài)分布的隨機(jī)數(shù)。
在(0,1]值域內(nèi)生成u1和u2,且u1、u2為相互獨(dú)立的兩個(gè)隨機(jī)數(shù):
u1=rand()*1.0/RAND_MAX;
u2=rand()*1.0/RAND_MAX;
其中,RAND_MAX 為定義的字符常量,rand()為產(chǎn)生在0-RAND_MAX 區(qū)間值的函數(shù),由此算出一個(gè)正態(tài)分布的隨機(jī)數(shù)字Z:
Z=R*cos(a);
其中,R=sqrt(-2*log(u2));a=2*π*u1;
得到一個(gè)均值為0,標(biāo)準(zhǔn)差為1 統(tǒng)計(jì)量,映射到一個(gè)均值為β(t),標(biāo)準(zhǔn)偏差為S(t)的統(tǒng)計(jì)量X:
X =β(t)+ Z * S(t),即為默認(rèn)的預(yù)測(cè)值函數(shù)。
為了驗(yàn)證算法的可行性和有效性,本文采取戰(zhàn)場(chǎng)環(huán)境中的天氣溫度數(shù)據(jù)來(lái)進(jìn)行算法的可行性實(shí)現(xiàn),并與歷史數(shù)據(jù)挖掘到的溫度數(shù)據(jù)進(jìn)行比較,驗(yàn)證該算法的有效性。利用MATLAB 工具以虛擬仿真訓(xùn)練戰(zhàn)場(chǎng)氣象環(huán)境中的氣溫為例,來(lái)繪制戰(zhàn)場(chǎng)環(huán)境的歷史氣溫挖掘數(shù)據(jù)和本文設(shè)計(jì)算法得到的預(yù)測(cè)溫度數(shù)據(jù)。
本文以中部戰(zhàn)區(qū)某戰(zhàn)場(chǎng)2020 年7 月份的日平均溫度作為樣本數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè),以1999-2019 年前20 年的該戰(zhàn)場(chǎng)7 月份日平均氣溫?cái)?shù)據(jù)進(jìn)行挖掘獲得7 月份日平均溫度的歷史數(shù)據(jù),氣溫?cái)?shù)據(jù)來(lái)源于中國(guó)氣象數(shù)據(jù)網(wǎng)。由于數(shù)據(jù)繁多復(fù)雜,這里直接給出原始數(shù)據(jù)經(jīng)過(guò)預(yù)處理后的2020 年7 月份和前20 年中部某戰(zhàn)場(chǎng)的日平均氣溫?cái)?shù)據(jù),如表1 和表2所示。
表1 2020 年中部某戰(zhàn)場(chǎng)7 月日平均溫度
對(duì)于所要預(yù)測(cè)擬合的2020 年7 月份太原市的日平均氣溫本文以前20 年的溫度為樣本,利用本文算法給出預(yù)測(cè)擬合區(qū)間,并在該區(qū)間內(nèi)進(jìn)行預(yù)測(cè)擬合,同時(shí)與常用的歷史數(shù)據(jù)挖掘得到的數(shù)據(jù)進(jìn)行比較,分析該算法的有效性,所得到的結(jié)果如圖1~圖4 所示。
表2 前20 年7 月份中部某戰(zhàn)場(chǎng)日平均溫度
圖1 2020 年7 月份日平均氣溫
圖3 歷史氣溫?cái)?shù)據(jù)挖掘曲線(xiàn)
從上圖中可以看出本文所提出的利用歷史數(shù)據(jù)來(lái)進(jìn)行戰(zhàn)場(chǎng)環(huán)境的模糊預(yù)測(cè)模擬,相比歷史數(shù)據(jù)挖掘所得到的環(huán)境數(shù)據(jù)更加貼合實(shí)際戰(zhàn)場(chǎng)環(huán)境數(shù)據(jù),且其在擬合區(qū)間內(nèi)進(jìn)行戰(zhàn)場(chǎng)環(huán)境的數(shù)據(jù)預(yù)測(cè)擬合思想,更加符合在模擬仿真訓(xùn)練過(guò)程中對(duì)虛擬戰(zhàn)場(chǎng)環(huán)境的實(shí)時(shí)戰(zhàn)場(chǎng)干預(yù)和調(diào)理。
圖4 擬合區(qū)間內(nèi)算法預(yù)測(cè)擬合的曲線(xiàn)
虛擬戰(zhàn)場(chǎng)環(huán)境仿真數(shù)據(jù)通過(guò)模糊時(shí)間序列算法預(yù)測(cè)得出的是一個(gè)可能性區(qū)間,在該合理區(qū)間內(nèi)可以進(jìn)行預(yù)測(cè)擬合曲線(xiàn)的自定義。預(yù)測(cè)方程系數(shù)不是確定的數(shù),而是一組模糊數(shù);預(yù)測(cè)的是一個(gè)區(qū)間,而不是一個(gè)確定值,在該區(qū)間內(nèi)可以對(duì)陸軍模擬仿真訓(xùn)練過(guò)程中的虛擬戰(zhàn)場(chǎng)氣象環(huán)境進(jìn)行合理的干預(yù)調(diào)理。