孟子健
摘要 本文選取了中國(guó)氣象科學(xué)中的一組數(shù)據(jù),采用可以區(qū)分不同氣候特征的8個(gè)指標(biāo),使用最短距離法來(lái)對(duì)主要城市進(jìn)行聚類分析,確定了5類氣候分類,并對(duì)各類區(qū)域的氣候特點(diǎn)進(jìn)行了解釋。再選擇幾個(gè)省份重新進(jìn)行判別分析,并利用判別分析方法對(duì)聚類分析的評(píng)價(jià)結(jié)果進(jìn)行比較,最終確定5類氣候區(qū)域。
關(guān)鍵詞 地理氣候 聚類分析 判別分析
中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A
0 引言
氣候分類①是將全國(guó)氣候按某種標(biāo)準(zhǔn)劃分為若干類型的過(guò)程。決定各地氣候物理?xiàng)l件的因素主要指決定各地地理位置的諸要素,如緯度、高度、海拔分布等。此外,海流、盛行風(fēng)也可作為氣候因素。
本文選取中國(guó)氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)②中的一組數(shù)據(jù)集,采用年平均氣壓、年平均氣溫、年極端最高氣溫等8個(gè)指標(biāo),用最短距離法對(duì)重慶—沙坪壩、福建—福州、安徽—安慶等24個(gè)城市進(jìn)行聚類分析,確定了5類氣候區(qū)域,并對(duì)各類區(qū)域的氣候特點(diǎn)進(jìn)行分析,得出劃分結(jié)果與實(shí)際各城市氣候特點(diǎn)相符的結(jié)論;再?gòu)倪@24個(gè)城市中選擇幾個(gè)城市重新進(jìn)行判別分析,并利用判別分析對(duì)聚類分析的評(píng)價(jià)結(jié)果進(jìn)行檢驗(yàn),最終確定5類氣候分劃。
1 聚類分析的基本原理及應(yīng)用
1.1 聚類分析的基本原理
聚類分析是將數(shù)據(jù)所對(duì)應(yīng)的研究對(duì)象進(jìn)行分類的統(tǒng)計(jì)方法。其基本原理是依樣品的屬性或特征,用數(shù)學(xué)方法定量地確定樣品間的親疏關(guān)系,再按其親疏程度劃分成不同的類,得出能反映個(gè)體間親疏關(guān)系的分類系統(tǒng)。
本文選用歐氏距離③系數(shù)作為統(tǒng)計(jì)量。其數(shù)學(xué)表達(dá)式為: =
其中為第個(gè)樣本第個(gè)因子的值;為第個(gè)樣本第個(gè)因子的值;為因子個(gè)數(shù)。
由于歐氏距離受量綱的影響,因此首先將數(shù)據(jù)標(biāo)準(zhǔn)化,公式為:
并采用最短距離法進(jìn)行聚類分析,具體分析步驟④⑤如下:
(1)所有的樣本點(diǎn)各自為一類。計(jì)算樣本之間的距離,共有個(gè),將計(jì)算結(jié)果排成距離矩陣:
(2)按最短距離逐步歸類。從矩陣表中選擇距離最短的兩個(gè)樣本歸并為一類。再將其組成新的序列,繼續(xù)計(jì)算新類同其他樣本的距離。依上述方法重復(fù)計(jì)算,每一次都按距離最短的兩個(gè)樣本組合并成新類或歸并到其他類,直到所有代表樣本連成一個(gè)完整的分類系統(tǒng)。
(3)畫出聚類分析圖。
1.2 聚類分析的應(yīng)用
按上述步驟得到的聚類結(jié)果及結(jié)果分析如下:
Ⅰ區(qū):德欽。云南氣候復(fù)雜,兼具低緯氣候、季風(fēng)氣候、山原氣候的特點(diǎn),主要特征表現(xiàn)為:氣候垂直變化明顯;年溫差小,日溫差大;降水充沛,干濕分明,分布不均。
Ⅱ區(qū):大柴旦。青海具有高原大陸性氣候,光照充足;冬寒夏涼,暖季短暫,冷季漫長(zhǎng);雨量偏少,干濕季分明。
Ⅲ區(qū):東方。海南最具熱帶海洋氣候特色,全年暖熱,雨量充沛,干濕季節(jié)明顯,常年風(fēng)力較大,氣候資源多樣。
Ⅳ區(qū):成山頭、大連、阿巴嘎旗、富錦、長(zhǎng)春、阿勒泰、敦煌、鹽池、盧氏、北京 、天津。以上地區(qū)位于長(zhǎng)江以北,屬于溫帶地區(qū),具有溫帶海洋、溫帶季風(fēng)、溫帶大陸等氣候特點(diǎn)。
Ⅴ區(qū):貴陽(yáng)、鄂西、沙坪壩、安慶、東臺(tái)、上海、廣州、常德、福州、贛州。以上地區(qū)位于長(zhǎng)江以南,普遍具有亞熱帶氣候特點(diǎn)。
顯然,這種聚類結(jié)果與現(xiàn)實(shí)中這些城市所屬的地理氣候大致是相同的,用聚類分析法將該組數(shù)據(jù)劃分成5類是符合實(shí)際意義的。
2 判別分析的基本原理及應(yīng)用
2.1 判別分析的基本原理
距離判別是最簡(jiǎn)單、直觀的一種判別方法,由于在統(tǒng)計(jì)分析中有必要考慮隨機(jī)變量方差的信息,因此本文選用馬氏距離③。樣本與均值為,方差為的總體的馬氏距離為:
(, ) =
由于聚類分析結(jié)果為前三類各有一個(gè)城市,因此,本文只考慮Ⅳ區(qū)和Ⅴ區(qū),用已聚類得到的這兩類作為已知總體,選擇其中的幾個(gè)城市進(jìn)行回代來(lái)驗(yàn)證聚類結(jié)果的可信度。因此,本文考慮兩總體的距離判別問(wèn)題,分兩種情況討論:兩總體協(xié)方差陣相同不同的情況。
設(shè)兩個(gè)總體為和,其均值向量分別為和,協(xié)方差陣分別為和,現(xiàn)在給一個(gè)樣本,要判斷來(lái)自哪一個(gè)總體。
(1)兩個(gè)總體的協(xié)方差矩陣相同時(shí),即≠,==
2.2 判別分析的應(yīng)用
在聚類分析產(chǎn)生的第Ⅳ類和第Ⅴ類分別作為總體,來(lái)回判聚類結(jié)果中第Ⅳ類、第Ⅴ類的所有城市屬于哪一類總體,這屬于以上所介紹的兩個(gè)總體的距離判別問(wèn)題。
其判別分析結(jié)果為:未作為判別總體的北京和天津?qū)儆诘冖纛?、贛州屬于第Ⅴ類,而作為判別總體的那18個(gè)城市在回判過(guò)程中仍然還屬于聚類過(guò)程中所屬的那一類,這種判別結(jié)果與現(xiàn)實(shí)中這些城市所屬的地理氣候大致相同,同時(shí)還與聚類分析的結(jié)果一致,進(jìn)一步驗(yàn)證了這8個(gè)指標(biāo)變量的有效性。
3 結(jié)束語(yǔ)
通過(guò)上面的聚類分析和判別分析,根據(jù)各城市的主要指標(biāo),將某年全國(guó)主要城市的氣候標(biāo)準(zhǔn)值數(shù)據(jù)劃分為5類:Ⅰ Ⅴ類區(qū)。通過(guò)分析比較各類城市的氣候指標(biāo),可將全國(guó)各省的氣候類型進(jìn)行劃分,并可以對(duì)全國(guó)其他地區(qū)的氣候類型進(jìn)行推斷,進(jìn)一步做出該城市的大致的所屬區(qū)域:長(zhǎng)江以南或以北、溫帶或亞熱帶以及各種雨量或其他氣候特征。因此,可用這些氣候指標(biāo)數(shù)據(jù),對(duì)某一省市進(jìn)行地理區(qū)域劃分,通過(guò)該劃分進(jìn)一步對(duì)不同地理區(qū)域的農(nóng)業(yè)發(fā)展、經(jīng)濟(jì)開發(fā)等各方面進(jìn)行研究,推動(dòng)我國(guó)各項(xiàng)事業(yè)的綜合發(fā)展。
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(項(xiàng)目編號(hào):41071247)
注釋
① http://baike.baidu.com/view/746962.htm.
② http://cdc.cma.gov.cn/shishi/climate.jsp stprovid=%B1%B1%BE%A9.
③ 薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2011.
④ 劉蘊(yùn)薰,楊秉賡,李惠明.聚類分析方法在農(nóng)業(yè)氣候區(qū)劃中的應(yīng)用[J].氣象,1981.10.
⑤ 高惠璇.實(shí)用統(tǒng)計(jì)方法與SAS系統(tǒng)[M].北京:清華大學(xué)出版社,2009.