国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Weka的江蘇13個地級市溫度聚類分析

2016-12-17 13:19孫濤高軍暉
科技創(chuàng)新導報 2016年21期
關(guān)鍵詞:聚類分析

孫濤+高軍暉

摘 要:該文利用機器學習軟件Weka,對江蘇13個地級市的溫度數(shù)據(jù)進行聚類分析研究。我們的數(shù)據(jù)來自中國氣象數(shù)據(jù)網(wǎng),采用1981—2010年日平均氣溫。我們在Weka中分別用HierarchicalCluster、SimpleKMeans、Cobweb三種方法按3個簇進行聚類。從三種聚類方法得出的結(jié)果來看,第1、2種方法結(jié)果更加相近,第3種方法更加細致,導致每個情況各成一類。對照溫度聚類的結(jié)果和城市之間的空間距離,蘇北城市之間的溫度互相之間更加靠近,蘇中、蘇南城市由于處于長江兩側(cè),互相之間溫度也更加靠近。

關(guān)鍵詞:聚類分析 Weka 城市溫度

中圖分類號:TP391 文獻標識碼:A 文章編號:1674-098X(2016)07(c)-0092-03

氣溫是重要的氣候指標,對人類的生產(chǎn)生活狀況以及農(nóng)業(yè)生產(chǎn)都有著非常重要的影響,并且在自然科學領(lǐng)域中建立的諸多氣候模型中,氣溫已經(jīng)成為一個不可或缺的影響因素,因此有關(guān)氣溫空間分布規(guī)律的研究一直都是地理、氣象、生態(tài)等研究和應用領(lǐng)域廣泛關(guān)注的熱點問題之一[1]。影響氣溫分布的主要因素包括:宏觀的地理條件,觀測點的海拔高度、地形(坡向、坡度等)、下墊面性質(zhì)等,其中尤以海拔高度和地形的影響最顯著[2]。

聚類分析是數(shù)據(jù)挖掘的重要研究內(nèi)容[3,4],是計算機科學中較為前沿的研究方式,因為地理、氣象等數(shù)據(jù)有時間性和空間性并具的特點,所以聚類分析方法在地理數(shù)據(jù)研究上從傳統(tǒng)上的空間聚類發(fā)展成帶有時間性質(zhì)的時空聚類,其中代表性的聚類分析方法有基于密度的,有基于層次的,還有基于劃分的,比如FCM算法[5,6],在聚類分析與地理結(jié)合研究這方面,國外學者如Bilgin T T等對土耳其的氣象站每日的溫度數(shù)據(jù)進行了聚類分析,得到趨勢相同的溫度區(qū)域,從而根據(jù)土耳其的氣溫特性進行氣象區(qū)域劃分[7];Moller-Levet等[8]利用模糊c均值聚類算法對短時間序列進行了聚類[9]。

1 數(shù)據(jù)來源

該文所有數(shù)據(jù)均來自中國氣象數(shù)據(jù)網(wǎng)[10],使用的溫度為1981—2010年日平均氣溫,單位:℃。

獲取數(shù)據(jù)時,共有9列數(shù)據(jù),分別是城市、日序、累年日平均氣溫、累年平均日最高氣溫、累年平均日最低氣溫、累年日平均水汽壓、累年20-20時日降水量、累年08-08時日降水量、累年日平均風速。

該文基于平均氣溫做數(shù)據(jù)分析,時間是365天,城市為江蘇省13所地級市。數(shù)據(jù)采集時的城市排序為:無錫、蘇州、常州、徐州、連云港、鹽城、淮安、南京、揚州、泰州、南通、宿遷、鎮(zhèn)江。

由于部分地級市數(shù)據(jù)并未給出,所以,該文中的數(shù)據(jù)由地理位置最近的相關(guān)縣級市或區(qū)的數(shù)據(jù)代替,常州數(shù)據(jù)由金壇代替,宿遷數(shù)據(jù)由宿豫代替,鎮(zhèn)江數(shù)據(jù)由丹陽代替,南通數(shù)據(jù)由于本身產(chǎn)生時間分段難以處理,由通州代替。

2 聚類分析介紹

我們這里借用MBA智庫百科[11]來描述聚類分析。聚類分析,英文Cluster Analysis,是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法。它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類分析起源于分類學,在古老的分類學中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學工具進行定量的分類。隨著人類科學技術(shù)的發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進行分類,于是人們逐漸地把數(shù)學工具引用到了分類學中,形成了數(shù)值分類學,之后又將多元分析的技術(shù)引入到數(shù)值分類學形成了聚類分析。

聚類是將數(shù)據(jù)分類到不同的類或者簇的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目標就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學、計算機科學、統(tǒng)計學、生物學和經(jīng)濟學。在不同的應用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。

聚類分析計算方法主要有如下幾種:分裂法(partitioning methods),層次法(hierarchical methods),基于密度的方法(density-based methods),基于網(wǎng)格的方法(grid-basedmethods),基于模型的方法(model-based methods)。

3 數(shù)據(jù)分析方法

Weka[12]的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一款免費的、非商業(yè)化的、基于JAVA環(huán)境下開源的機器學習以及數(shù)據(jù)挖掘軟件。Weka作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘任務(wù)的機器學習算法,包括對數(shù)據(jù)進行預處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。選擇HierarchicalCluster聚類方法,操作流程如下[13]:

加載天氣-江蘇.csvs數(shù)據(jù)集,切換到Cluster選項卡,單擊Choose按鈕,在打開的算法選擇對話框中,選擇HierarchicalCluster聚類算法。

設(shè)置相似度度量方法。單擊Choose按鈕后面的算法文本框,在設(shè)置算法屬性對話框中,設(shè)置距離函數(shù)distanceFu nction為歐氏距離EuclideanDistance,設(shè)置num集群nu mClusters為3。

在Cluster mode面板中選擇Use training set選項,單擊Start按鈕執(zhí)行挖掘,結(jié)果如表1所示。

在Result-list(right-click for options)列表中選擇本次訓練條目,右擊,從彈出的快捷菜單中選擇Visualize tree命令,打開分層聚類樹,如圖1所示。

從空間角度看,蘇北城市之間的溫度互相之間更加靠近,蘇中、蘇南城市由于處于長江兩側(cè),互相之間溫度也更加靠近,靠近太湖的幾個城市中,只有蘇州市一個離群值,推測有由于蘇州的地理位置在長江和太湖之間,以及蘇州市內(nèi)湖泊較多使得溫度產(chǎn)生了偏離。

4 討論

考慮到不同的聚類方法結(jié)果可能不一樣,我們有必要選擇其他的方法進行聚類。

使用Weka中的SimpleKMeans聚類方法。與第1 種方法相比,加入了隨機種子,數(shù)量為3。其他參數(shù)如下: displayDevs:False,distanceFunction:EuclideanDist ance -Rfirst-last,dontReplaceMissingValues: False,maxTterations:500,numClusters:3,preserveInstancesOrder:False。得到的聚類結(jié)果如表2所示。

使用Cobweb聚類方法。與第1種方法相比,加入了隨機

種子,數(shù)量為3。其他參數(shù)如下:acuity:1.0,cuteoff:0.002

8209479177387815,saveInstanceData:False。結(jié)果與前面兩種方法有很大的差別。除了無錫、泰州、南通、鎮(zhèn)江4個城市在一個簇里面,其他9個城市分別形成一個簇。圖2是對應的聚類樹。

從三種聚類方法得出的結(jié)論看,第1、2種方法結(jié)果更加相近,第3種方法更加細致,導致每個情況各成一類。

5 結(jié)語

該文利用機器學習軟件Weka,對江蘇13個地級市的溫度數(shù)據(jù)進行聚類分析研究。

首先回顧了其他學者對氣候數(shù)據(jù)進行聚類分析的工作,接著,我們分別描述了數(shù)據(jù)來源和聚類分析的原理。在數(shù)據(jù)分析部分,我們用HierarchicalCluster進行聚類分析,指定3個簇。得到的結(jié)果是無錫、常州、南京、揚州、泰州、南通、鎮(zhèn)江7個城市在一個簇里面,徐州、連云港、鹽城、淮安、宿遷5個城市在一個簇里面,蘇州單獨在一個簇里面。

考慮到不同的聚類方法結(jié)果可能不一樣,我們在討論部分還利用SimpleKMeans、Cobweb兩種方法對同樣的數(shù)據(jù)進行聚類。我們發(fā)現(xiàn)第1、2種方法結(jié)果更加相近,第3種方法更加細致,導致每個情況各成一類。

對照溫度聚類的結(jié)果和城市之間的空間距離,蘇北城市之間的溫度互相之間更加靠近,蘇中、蘇南城市由于處于長江兩側(cè),互相之間溫度也更加靠近。

參考文獻

[1] 曾燕,邱新法,何永健,等.復雜地形下黃河流域平均氣溫分布式模擬[J].中國科學,2009,39(6):774-786.

[2] 袁淑杰,谷曉平,廖啟龍,等,貴州高原復雜地形下月平均日最高氣溫分布式模擬[J].地理學報,2009,64(7):888-896.

[3] 馮立娟.基于Web數(shù)據(jù)挖掘的推薦系統(tǒng)算法研究[D].河北:河北工程大學,2014.

[4] 屈家安,曹杰.主成分分析與聚類分析在青島夏季氣溫變化研究中的應用[J].大氣科學學報,2014,37(4):517-520.

[5] Dunn J.C.Well-separated clusters and the optimal fuzzy partitions[J].Cybernet,1974(4):95-105.

[6] Bezdek J.C.Pattern recognition with fuzzy objective function algorithns[J].Plenum Press,1981,22(1171):203-209.

[7] Bilgin T T,Camuren A Y.A Data Ming Application on Air Temperature DataBase[J].Lecture Notes in Computer Science,2005(3261):68-76.

[8] C S Moller levet,F(xiàn) Klawonn,KH Cho,et al.Fuzzy clustering of short time-series and unevenly distributed sampling points[C]//Proceedings of the 5th International Symposium on Intelligent Data Analysis.2003.

[9] 謝娟英,蔣帥,王春霞,等.一種改進的全局K-均值聚類算法[J].陜西師范大學學報:自然科學版,2010,38(2):18-22.

[10] 聚類分析[EB/OL].http://wiki.mbalia.com/wiki/.

[11] 氣候數(shù)據(jù)源:http://data.cma.cn/.

[12] Weka 3:Date Mining Software in Java [EB/OL].http://www.cs.waikato.ac.nz/ml/weka/.

[13] 戴紅,常子冠,于寧.數(shù)據(jù)挖掘?qū)д揫M].清華大學出版社,2015.

猜你喜歡
聚類分析
淺析聚類分析在郫縣煙草卷煙營銷方面的應用
华亭县| 高尔夫| 翼城县| 上高县| 白城市| 广安市| 新昌县| 鹤庆县| 莱西市| 芒康县| 刚察县| 西丰县| 章丘市| 曲松县| 宜兰市| 伊通| 定西市| 清苑县| 鸡西市| 辽源市| 容城县| 山丹县| 靖远县| 合阳县| 自治县| 湛江市| 景德镇市| 萍乡市| 海兴县| 成都市| 社旗县| 黑山县| 美姑县| 高碑店市| 临高县| 娄烦县| 荆门市| 大竹县| 永德县| 梓潼县| 揭阳市|