田 兵
(包頭師范學院 《陰山學刊》編輯部,內蒙古 包頭 014030)
判別分析是統計學中一個非常重要的概念.它是判別樣品所屬類型的一種統計方法.它的基本思想是在各組已知樣品觀測數據的基礎上,確定一個判別函數,構造一個判別準則,根據已有的判別準則,對待測定類型的新樣品進行比較歸類.常用的判別方法有 Mahalanobis判別法、Bayes判別法、Fisher判別法和逐步判別法.
Mahalanobis距離判別分析法是判別分析中最常用一種方法.Mahalanobis距離判別分析法是根據觀測到的樣本的若干數量特征對新獲得的樣本進行歸類、識別,判別其所屬類型的一種統計分析方法.該方法的主要思想是比較樣本到各個總體的Mahalanobis距離,然后將其判給Mahalanobis距離最近的那個總體.目前,該方法已經被廣泛的應用到經濟學、社會學、醫(yī)學、心理學、生物學、地質學等諸多領域.本文主要探討的是Mahalanobis距離判別法在天氣預測方面的應用.
據以往經驗,今天與昨天的溫度差X和今天的壓溫差(氣壓與溫度之差)Y是預報明天下雨與否的兩個重要因素.現有一批已收集的天氣數據如表1所示.今測得今天與明天的溫度差、壓溫差分別為x1=8.1,x2=2.0(待測樣本x),那么明天是否會下雨?
表1 濕度差與壓溫差數據
其中雨天與非雨天這兩類總體(分別用H和I表示)均有m=2個指標(濕度差和壓溫差),各有n=10個樣本觀測數據,另外有一個待測樣本x.
根據Mahalanobis距離判別法的數學思想,首先計算出兩類總體(雨天和非雨天)的均值,然后計算這兩類總體的協方差陣,之后計算出待測樣本x與兩類總體(雨天和非雨天)的距離,最后比較這兩個距離的大小進而得出結論.
可以得到雨天數據的均值為μ1,非雨天數據的均值為μ2,其中
雨天與非雨天的協方差陣分別為∑1,∑2,通過計算可以得到
不難看出∑1≠∑2.即:雨天和非雨天數據的協方差陣不相等.
在統計分析與計算中,考慮到隨機變量方差的信息,定義一種新距離:Mahalanobis距離.其定義如下:設x與y是從均值為μ,協方差陣為∑的總體X中抽取的兩個樣本,則總體X內兩點x與y的Mahalanobis距離定義為
定義樣本x與總體X的Mahalanobis距離為
根據Mahalanobis距離的定義,可以得到待測樣本x與雨天(H)和非雨天(I)總體的Mahalanobis距離平方分別為
要判斷待明天是否會下雨,就是判斷測樣本x屬于總體H還是I.需要計算x到雨天H和非雨天I的Mahalanobis距離的平方d2(x,H)與d2(x,I).然后進行比較,如果
d2(x,H)≤d2(x,I)
則判定樣本x是屬于總體H,即明天下雨;如果
d2(x,H)>d2(x,I)
則判定樣本x是來自總體I,即明天不下雨.這樣我們可以得到如下判別函數:
ω(x)=d2(x,H)-d2(x,I)
稱ω(x)為兩總體H與I的距離判別函數.
令
R1={x|ω(x)≥0};
R2={x|ω(x)<0},
則R1和R2為兩總體的距離判別準則.
通過比較發(fā)現
ω(x)=
d2(x,H)-d2(x,I)=-11.37813<0,
所以判斷測樣本x屬于總體H,可以得出結論明天會下雨.
對于已有的10個雨天和非雨天的濕度差和壓溫差數據,運用多元統計中的Mahalanobis距離判別法得到了判別待測樣本屬于雨天還是非雨天的判別函數,經過具體計算得出待測樣本屬于雨天這樣的結論.通過上述過程證明Mahalanobis距離判別法在天氣預測中具有計算簡單, 結論明確,具有較高可信度的特點.
參考文獻:
[1]髙惠璇.應用多元統計分析[M].北京:北京大學出版社,2005.
[2]趙東方.數學模型與計算[M].北京:科學出版社,2007.
[3]戴明強.數學模型及其應用[M].北京:科學出版社,2007.
[4]薛 毅,陳立萍.統計建模與R軟件[M].北京:清華大學出版社,2007.
[5]李建軍.常用判別分類方法分析[J].西安科技大學學報,2007(3).
[6]陶然.有關距離判別理論方法的補充和討論[J].統計與信息論壇,2007(4).
[7]王靜,夏結來,葉冬青.判別分析法在醫(yī)學應用中的進展[J].數理統計與管理,2008(2).
[8]翟明娟.距離判別分析及其評價[J].長治學院學報,2012(4).
[9]潘勁松.距離判別分析的應用[J].統計與決策,2012(12).
[10]翟明娟.距離判別分析及其評價[J].長治學院學報,2012(4).