国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況相關(guān)性分析1

2013-09-09 03:21:12斌1安源源2彭亞飛2盧國明2
震災(zāi)防御技術(shù) 2013年3期
關(guān)鍵詞:項(xiàng)集經(jīng)濟(jì)損失決策樹

胡 斌1) 安源源2) 彭亞飛2) 盧國明2)

?

基于數(shù)據(jù)挖掘的地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況相關(guān)性分析

胡 斌安源源彭亞飛盧國明

1)四川省地震局,成都 610041 2)電子科技大學(xué),成都 611731

本文以收集的西南地區(qū)1950年以來301個典型破壞性地震震例數(shù)據(jù)為基礎(chǔ),選擇關(guān)聯(lián)規(guī)則和決策樹兩種數(shù)據(jù)挖掘方法,對地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況進(jìn)行分析,給出了相關(guān)規(guī)則,并對關(guān)聯(lián)規(guī)則和決策樹兩種不同的挖掘方法得出的結(jié)果進(jìn)行了分析比較。

經(jīng)濟(jì)損失 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 決策樹

引言

西南地區(qū)是我國破壞性地震多發(fā)區(qū),地震震級大,發(fā)震頻度高,地震影響范圍廣;而與此同時,西南地區(qū)社會經(jīng)濟(jì)發(fā)展、人口分布極度不均衡,城鄉(xiāng)間、民族間、區(qū)域間經(jīng)濟(jì)發(fā)展差異巨大。西南地區(qū)豐富的地震震害資料及差異性社會經(jīng)濟(jì)數(shù)據(jù)為本文的研究奠定了數(shù)據(jù)基礎(chǔ)。

數(shù)據(jù)挖掘(Data Mining)是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個步驟(王麗珍等,2005)。數(shù)據(jù)挖掘的方法有關(guān)聯(lián)分析、聚類分析、分類分析、決策樹分析、邏輯回歸分析等。本文采用關(guān)聯(lián)分析與決策樹分析方法,對地震經(jīng)濟(jì)損失與當(dāng)?shù)貒鴥?nèi)生產(chǎn)總值的比值(以下簡稱地震經(jīng)濟(jì)損失比)(林均岐等,2007)進(jìn)行研究,挖掘與其它因素之間的關(guān)聯(lián)關(guān)系,可為將來地震經(jīng)濟(jì)損失估計(jì)提供參考。

1 數(shù)據(jù)收集

通過對地震災(zāi)害經(jīng)濟(jì)損失和GDP相關(guān)因素的分析,對挑選的以下主要因素進(jìn)行了收集及相關(guān)性分析:震級、烈度、經(jīng)濟(jì)損失、GDP、國土面積、人口數(shù)。通過以上數(shù)據(jù)可以計(jì)算出:經(jīng)濟(jì)損失比、人均GDP、人口密度。表1是數(shù)據(jù)庫表結(jié)構(gòu)定義。

表1 數(shù)據(jù)庫表結(jié)構(gòu)

數(shù)據(jù)收集來源主要分為以下三部分:

(1)來源于西南地區(qū)地震應(yīng)急基礎(chǔ)數(shù)據(jù)庫;

(2)來源于各省地震年鑒及地震科學(xué)考察報(bào)告;

(3)來源于各省、市、縣當(dāng)年的社會、經(jīng)濟(jì)統(tǒng)計(jì)年鑒等。

本文收集的地震經(jīng)濟(jì)損失數(shù)據(jù),都是在地震發(fā)生時的統(tǒng)計(jì)結(jié)果,研究地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況的相關(guān)性,對應(yīng)的當(dāng)?shù)亟?jīng)濟(jì)情況、人口情況也必須是地震發(fā)生時的數(shù)據(jù)。地震發(fā)生所在地1980年以前的人口、經(jīng)濟(jì)數(shù)據(jù)無法直接收集,對這些數(shù)據(jù)依據(jù)國家、省統(tǒng)計(jì)局提供的經(jīng)濟(jì)增長率、人口增長率進(jìn)行推算(國家統(tǒng)計(jì)局國民經(jīng)濟(jì)核算司,1997;國家統(tǒng)計(jì)局人口統(tǒng)計(jì)司等,1988)。

由于數(shù)據(jù)來源的多樣化,這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。因此要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗,而數(shù)據(jù)清洗的任務(wù)是過濾掉那些不符合要求的數(shù)據(jù)。

本次在西南地區(qū)共收集到有數(shù)據(jù)記錄的324條地震震例數(shù)據(jù),由于數(shù)據(jù)來源的多樣化,這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,為此必須按照一定的規(guī)則把這些錯誤的或有沖突的數(shù)據(jù)清洗掉(王曰芬等,2007)。本文采用手工方式實(shí)現(xiàn)數(shù)據(jù)清洗:

(1)對于部分經(jīng)濟(jì)損失收集數(shù)據(jù)單位為元,沒有轉(zhuǎn)換為萬元,進(jìn)行手工修改。

(2)對于嚴(yán)重缺失項(xiàng)的地震震例數(shù)據(jù),直接刪除。

清洗完成后,總共收集到的有效案例記錄條數(shù)為301條。

2 數(shù)據(jù)挖掘

2.1 關(guān)聯(lián)規(guī)則分析

關(guān)聯(lián)規(guī)則挖掘采用Apriori算法。Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段頻集思想的遞推算法。

算法關(guān)聯(lián)規(guī)則中的Apriori挖掘算法在在執(zhí)行過程中要多次掃描數(shù)據(jù)庫,并且產(chǎn)生大量的候選項(xiàng)集(韓家煒等,2007)。由于本次研究數(shù)據(jù)量比較小,對于上述問題在本研究中不會出現(xiàn)。具體分析步驟如下:

第一步:掃描地震震例數(shù)據(jù)庫,對各個項(xiàng)集的次數(shù)進(jìn)行計(jì)算,得到候選項(xiàng)集1-(表2)。

第二步:從候選項(xiàng)中選出大于最小支持度的項(xiàng)集,即選出支持>2的項(xiàng)集,從而得到頻繁1-項(xiàng)集(表3)。

表2 部分候選項(xiàng)C1集合

表3 部分頻繁集L1集合

第三步:重復(fù)上述整個過程,直到產(chǎn)生的候選項(xiàng)級C的支持<2,即小于規(guī)定的最小支持項(xiàng),不能產(chǎn)生頻繁項(xiàng)集,算法停止。本研究結(jié)果最終產(chǎn)生的最大頻繁項(xiàng)集為(表4)。

表4 頻繁項(xiàng)集L3

根據(jù)以上產(chǎn)生的頻繁項(xiàng)集,可生成不同形式的關(guān)聯(lián)規(guī)則,對于一個-項(xiàng)的頻繁項(xiàng)集,其最多產(chǎn)生(2-2)種不同形式的規(guī)則,當(dāng)較大的時候,產(chǎn)生的規(guī)則成幾何數(shù)量級的增長。在這里不可能一一列舉,所以需要定義一個置信度閥值MINMUM_SUPPORT。通過分類統(tǒng)計(jì),-項(xiàng)集能產(chǎn)生的關(guān)聯(lián)規(guī)則形式主要有-1類:

第一類:規(guī)則左部有-1項(xiàng),規(guī)則右部有1項(xiàng):

規(guī)則如:,,…→

第二類:規(guī)則左部有-2項(xiàng),規(guī)則右部有2項(xiàng):

規(guī)則如:,,…→,

…………

第-1類:規(guī)則左部有1項(xiàng),規(guī)則右部有-1項(xiàng)。

通過定義置信度閥值MINMUM_SUPPORT,可過濾掉一些無用的規(guī)則。

2.2 決策樹分析

決策樹是同時提供分類與預(yù)測的常用方法。通過一連串的問題和規(guī)則將數(shù)據(jù)分類,可以通過相似的形態(tài)來推測相同的結(jié)果。決策樹的數(shù)據(jù)分析方法是一種用樹來展現(xiàn)數(shù)據(jù)受變量的影響情形的預(yù)測模型。

在運(yùn)行決策樹算法之前,首先把輸入的各項(xiàng)連續(xù)數(shù)據(jù)進(jìn)行清洗,使其離散化。決策樹開始時,是作為一個單個節(jié)點(diǎn)(根節(jié)點(diǎn))包含所有的訓(xùn)練樣本集,為“全部”節(jié)點(diǎn);決策樹模型的預(yù)測項(xiàng)為經(jīng)濟(jì)損失比,其屬性可以取個不同的值,本文對經(jīng)濟(jì)損失比進(jìn)行離散化,對應(yīng)于個不同類別為C;設(shè)一個屬性取個不同的值 {,,……,a},若取GDP,則取2個不同的值 {GDP<40004.998,GDP≥40004.998}。利用屬性可以將劃分為個子集 {,,……,s},其中s包含了集合中屬性取a值的數(shù)據(jù)樣本。若屬性被選為測試屬性,設(shè)s為子集s中屬于C類別的樣本數(shù)。那么,利用屬性劃分當(dāng)前樣本集合所需要的信息(熵)可以進(jìn)行如下計(jì)算:

這樣,利用屬性對當(dāng)前分支節(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分所獲得的信息增益就是:

Gain()=(,,……,s)-() (3)

也就是說,Gain()被認(rèn)為是根據(jù)屬性取值進(jìn)行樣本集合劃分所獲得的(信息)熵的減少。在本文中的Gain(Intensity)、Gain(Population Density)、Gain(Magnitude)、Gain(GDPPer Capita)、Gain(GDP)、Gain(Total Population)等信息增長中,Gain(GDP)值最大,因此被作為測試屬性用于產(chǎn)生當(dāng)前分支節(jié)點(diǎn),test_attribute=GDP。同時根據(jù)“GDP”取不同的值,把全部的輸入分為兩部分:GDP<40004.998和GDP≥40004.998。若設(shè)符合此條件的集合:GDP<40004.998為,返回值為Generate_decision_tree(,GDP);GDP≥40004.998,設(shè)此集合為,返回值為Generate_decision_tree(,GDP)。以此類推,繼續(xù)遞歸調(diào)用決策樹算法。

按照上述步驟構(gòu)造決策樹,最終可產(chǎn)生一個如圖2所示的決策樹。

3 挖掘結(jié)果分析

3.1 關(guān)聯(lián)規(guī)則挖掘結(jié)果分析

通過關(guān)聯(lián)規(guī)則挖掘能夠發(fā)現(xiàn)很多有趣的和有價值的規(guī)則,但是其本身也存在著一些不可避免的缺陷,比如在挖掘中能滿足最小支持度和最小置信度閥值的規(guī)則很多,但并不是所有的規(guī)則用戶都有興趣。對于挖掘結(jié)果而言,哪些是用戶感興趣的關(guān)系是數(shù)據(jù)挖掘技術(shù)要解決的一個重要基本問題(蔡紅等,2011)。因此,挖掘結(jié)果的進(jìn)一步處理,需要相關(guān)領(lǐng)域的專家與計(jì)算機(jī)領(lǐng)域的專家共同配合,協(xié)同提取有用的挖掘結(jié)果。圖1給出了部分挖掘結(jié)果。表5列出了幾個典型的規(guī)則。

表5 部分挖掘結(jié)果

從表5給出的規(guī)則中可以看出:對于規(guī)則1,人口密度極小,人均GDP較低時,其經(jīng)濟(jì)損失比也會比較低;對于規(guī)則2、3,地區(qū)經(jīng)濟(jì)較不發(fā)達(dá)或者人員分布較稀疏時,地震造成的經(jīng)濟(jì)損失比也會比較低;對于規(guī)則4,在人口密度較大的中小城市發(fā)生5級以上地震,地震造成的經(jīng)濟(jì)損失比也會比較高;對于規(guī)則5,高烈度的不發(fā)達(dá)地區(qū),一般地震造成的經(jīng)濟(jì)損失比也會比較高。綜合挖掘規(guī)則的若干結(jié)果,在一般情況下人口密度大、GDP總量高、震級大、烈度高地區(qū),地震造成的經(jīng)濟(jì)損失比會比較高。

3.2 決策樹模型挖掘結(jié)果分析

如圖2所示,每個矩形方框中不同顏色的直方圖分別表示經(jīng)濟(jì)損失比的不同等級。當(dāng)GDP<40004.998時,藍(lán)色直方圖面積大,一般其經(jīng)濟(jì)損失比低;當(dāng)GDP≥40004.998時,依據(jù)人均GDP取值范圍分為下面兩類,人均GDP處于1651.608到2913.555之間時,紅色直方圖較大,其經(jīng)濟(jì)損失比一般較低;人均GDP<1651.608或者人均GDP>2913.555時,依據(jù)人口密度又分為兩類,人口密度在68到122之間的,紅色直方圖的比例較大,其經(jīng)濟(jì)損失比一般較低;人口密度小于68,大于122的,其中藍(lán)色直方圖的比例最大,一般其經(jīng)濟(jì)損失比低。

其中一個具體的葉子節(jié)點(diǎn)的挖掘圖例如表6所示。

表6 GDP<40004.998

依據(jù)決策樹結(jié)果,生成依賴關(guān)系網(wǎng)絡(luò),由依賴關(guān)系網(wǎng)絡(luò)圖中(圖3)箭頭線越粗表示其變量對經(jīng)濟(jì)損失比影響越大。從圖3可以看出,在地震發(fā)生時影響經(jīng)濟(jì)損失比的因素從強(qiáng)到弱依次為:Intensity、Magnitude、Population Density、Per Capita GDP、Earthquake GDP、Total Population。在西南地區(qū)的地震中,烈度對經(jīng)濟(jì)損失的影響最大,其次是震級、人口密度、人均GDP、GDP、人口數(shù)。

4 結(jié)論

在本文研究中,挖掘結(jié)果的評價采用了微軟的Microsoft SQL Server 2005模型評估模塊,將挖掘結(jié)果導(dǎo)入到模型評估系統(tǒng)中,以隨機(jī)抽取的樣本作為模型評估測試數(shù)據(jù),并對研究結(jié)果做了準(zhǔn)確性評估測試。

如圖4所示,藍(lán)色線代表理想模型的提升結(jié)果(評估結(jié)果),紅色線代表決策樹實(shí)際的提升結(jié)果(評估結(jié)果),綠色線代表關(guān)聯(lián)規(guī)則的提升結(jié)果(評估結(jié)果)。從圖5中可以看出,關(guān)聯(lián)規(guī)則的分?jǐn)?shù)為0.78,決策樹的分?jǐn)?shù)為0.86,二者整體趨勢跟理想模型的趨勢比較相同。在預(yù)測評估地震經(jīng)濟(jì)損失方面,決策樹模型的預(yù)測效果比關(guān)聯(lián)規(guī)則預(yù)測效果更好一些。

西南地區(qū)大跨度的社會經(jīng)濟(jì)發(fā)展水平、多樣性的人文地理環(huán)境和多種類型的地震活動特點(diǎn),使得西南地區(qū)的地震經(jīng)濟(jì)損失在具備特殊性的同時,更具備典型性。因此本文在這方面的深入研究,對全面提升我國地震經(jīng)濟(jì)損失研究具有較強(qiáng)的示范作用。盡管文中還存在一些不足,若地震歷史數(shù)據(jù)能收集的更加全面,就能得到更加豐富的挖掘結(jié)果。

致謝:感謝西南地區(qū)地震局相關(guān)工作人員以及地震專家的支持,不辭辛苦收集并整理數(shù)據(jù),對本文展開的研究提供了寶貴意見及建議,發(fā)揮了重要的導(dǎo)向作用。同時感謝電子科技大學(xué)盧國明教授的數(shù)據(jù)挖掘團(tuán)隊(duì),尤其感謝李誼瑞研究員的細(xì)心指導(dǎo),技術(shù)上提供了很大的支持,在此深表感謝。

蔡紅,陳榮耀,陳波,2011.關(guān)聯(lián)規(guī)則挖掘最小支持度閥值設(shè)定的優(yōu)化算法研究.微型電腦應(yīng)用,27(6):33—36.

國家統(tǒng)計(jì)局國民經(jīng)濟(jì)核算司,1997.中國國內(nèi)生產(chǎn)總值核算歷史資料(1952—2004).北京:中國統(tǒng)計(jì)出版社.

國家統(tǒng)計(jì)局人口統(tǒng)計(jì)司,公安部三局,1988.中華人民共和國人口統(tǒng)計(jì)資料匯編.北京:中國財(cái)政經(jīng)濟(jì)出版社.

韓家煒,(加)坎伯(Kamber, M.),2007.?dāng)?shù)據(jù)挖掘概念與技術(shù). 北京:北京工業(yè)出版社,1—3.

林均岐,鐘江榮,2007. 區(qū)域地震間接經(jīng)濟(jì)損失評估. 自然災(zāi)害學(xué)報(bào),16(4):139—142.

王麗珍,周麗華,陳紅梅等,2005.?dāng)?shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用.北京:科學(xué)出版社,10—13.

王曰芬,章成志,張蓓蓓,吳婷婷,2007.?dāng)?shù)據(jù)清洗研究綜述.現(xiàn)代圖書情報(bào)技術(shù),12:50—56.

Correlation Analysis of Seismic Economic Losses and Local Economic Conditions Based on Data Mining

Hu Bin, An Yuanyuan, Peng Yafeiand Lu Guoming

1) Earthquake administration of Sichuan Province, Chengdu 610041, China 2) University of Electronic Science and Technology of China, Chengdu 611731, China

This work is based on 301 destructive earthquake cases in the five southwestern provinces in China since 1950. By using association rules and decision tree, we analyze seismic economic losses and local economic conditions, works out the correlation rules, and compare the results of the above two different mining methods.

Economic losses; Data mining; Association rules; Decision tree

2011年度地震行業(yè)科研專項(xiàng)西南地震應(yīng)急對策新模式與關(guān)鍵技術(shù)研究(201108013)

2012-12-28

胡斌,男,生于1977年。碩士?,F(xiàn)在四川省地震局從事地震災(zāi)害研究與應(yīng)急救援工作。 E-mail:kennyferly@yahoo.com.cn

胡斌,安源源,彭亞飛,盧國明,2013.基于數(shù)據(jù)挖掘的地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況相關(guān)性分析.震災(zāi)防御技術(shù),8(3):275—282.

猜你喜歡
項(xiàng)集經(jīng)濟(jì)損失決策樹
交通運(yùn)輸部關(guān)于海上交通事故等級劃分的直接經(jīng)濟(jì)損失標(biāo)準(zhǔn)的公告
美國供水與清潔基礎(chǔ)設(shè)施不足造成每年85.8億美元經(jīng)濟(jì)損失
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于決策樹的出租車乘客出行目的識別
燒傷創(chuàng)面感染直接經(jīng)濟(jì)損失病例對照研究
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項(xiàng)集的快速挖掘算法
一種新的改進(jìn)Apriori算法*
昂仁县| 双辽市| 上高县| 平远县| 沂源县| 米脂县| 蒙阴县| 曲周县| 阿尔山市| 疏勒县| 舒兰市| 泉州市| 龙海市| 万安县| 修水县| 弋阳县| 阳谷县| 南昌市| 伊金霍洛旗| 罗源县| 井陉县| 巩留县| 察雅县| 新建县| 太保市| 宁远县| 文成县| 莎车县| 大足县| 昌黎县| 凤阳县| 花垣县| 类乌齐县| 栾川县| 古浪县| 贵溪市| 咸宁市| 金川县| 贺州市| 会东县| 龙岩市|