林江豪,陽愛民,2
(1.廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州510006;2.廣東外語外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州510006)
廣東省位于太平洋西岸,瀕臨南海,是西太平洋臺(tái)風(fēng)登陸中國(guó)的主要地區(qū)。每年登陸中國(guó)的9.5個(gè)臺(tái)風(fēng)中,廣東省就占了3.5個(gè)。自1985年以來因臺(tái)風(fēng)和洪水造成的直接經(jīng)濟(jì)損失超過200億元[1]。
特別是隨著全球氣候變暖帶來海平面上升等氣候因素,對(duì)臺(tái)風(fēng)的強(qiáng)度和頻度都有增強(qiáng)作用,臺(tái)風(fēng)災(zāi)害的危害將更為嚴(yán)重[2-3]。因此,深入研究臺(tái)風(fēng)災(zāi)害損失評(píng)估具有重大的意義。
自然災(zāi)害災(zāi)情統(tǒng)計(jì)是災(zāi)害評(píng)估、應(yīng)急救助、災(zāi)后恢復(fù)重建等工作的基礎(chǔ)。目前,我國(guó)對(duì)自然災(zāi)害災(zāi)情統(tǒng)計(jì)工作主要由各行政管理或業(yè)務(wù)部門完成,災(zāi)情信息大多以基層部門調(diào)查上報(bào)得到。由于各部門對(duì)災(zāi)情管理的側(cè)重點(diǎn)存在差異,災(zāi)情統(tǒng)計(jì)內(nèi)容不規(guī)范、不統(tǒng)一的問題十分突出,已成為提升自然災(zāi)害管理工作水平的瓶頸。因此,研究如何準(zhǔn)確預(yù)測(cè)臺(tái)風(fēng)災(zāi)害損失,對(duì)提升臺(tái)風(fēng)災(zāi)害管理具有重大的意義。臺(tái)風(fēng)災(zāi)害損失評(píng)估方法大致可分為資料分析法、實(shí)驗(yàn)?zāi)M法、數(shù)學(xué)模型法和遙感GIS法[4]。有采用基于主成分析和支持向量機(jī)技術(shù),對(duì)房屋倒塌間數(shù)進(jìn)行評(píng)估[5];應(yīng)用基于主成分神經(jīng)網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)災(zāi)害的經(jīng)濟(jì)損失評(píng)估[6]。也有綜合評(píng)估臺(tái)風(fēng)災(zāi)害損失的方法,如劉少軍等[7]采用可拓方法建立損失評(píng)估模型,并實(shí)現(xiàn)評(píng)估結(jié)果的GIS顯示;文獻(xiàn)[8]采用多元線性依賴模型,對(duì)中國(guó)的臺(tái)風(fēng)災(zāi)害損失進(jìn)行評(píng)估;文獻(xiàn)[9]結(jié)合GIS和圖像識(shí)別理論,應(yīng)用模糊災(zāi)害評(píng)價(jià)方法實(shí)現(xiàn)臺(tái)風(fēng)災(zāi)害的損失評(píng)估。文獻(xiàn)[10]提出采用基于離散型Hopfield神經(jīng)網(wǎng)絡(luò)的臺(tái)風(fēng)災(zāi)情評(píng)估模型,主要對(duì)災(zāi)情的等級(jí)進(jìn)行評(píng)估。文獻(xiàn)[11]嘗試探索廣東臺(tái)風(fēng)災(zāi)情預(yù)測(cè)系統(tǒng),并給出了系統(tǒng)的建設(shè)思路和必須解決的重要問題。文獻(xiàn)[12]基于極值理論的POT模型擬合廣東省歷年臺(tái)風(fēng)災(zāi)害的經(jīng)濟(jì)損失。文獻(xiàn)[13]采集了東南沿海1990-2010受臺(tái)風(fēng)影響嚴(yán)重地區(qū)的臺(tái)風(fēng)災(zāi)害統(tǒng)計(jì)數(shù)據(jù)資料,基于標(biāo)準(zhǔn)化變換的熵值法進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)估,然后運(yùn)用聚類分析對(duì)評(píng)估結(jié)果進(jìn)行等級(jí)劃分并分析總體變化趨勢(shì)。目前,對(duì)臺(tái)風(fēng)災(zāi)害損失評(píng)估的方法主要采用基于單模型的評(píng)估方法,容易受到訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)不完整的影響,導(dǎo)致模型訓(xùn)練效果差,預(yù)測(cè)結(jié)果輸出與實(shí)際偏離較遠(yuǎn),存在評(píng)估結(jié)果不準(zhǔn)確的缺點(diǎn)。鑒于此,本文提出一種基于BP神經(jīng)網(wǎng)絡(luò)和向量空間模型VSM(Vector Space Model)相結(jié)合的臺(tái)風(fēng)災(zāi)害經(jīng)濟(jì)損失綜合評(píng)估方法,這種方法將訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)作為評(píng)估模型,將VSM作為調(diào)整模型,可有效克服單一模型的適應(yīng)性弱的缺陷,經(jīng)驗(yàn)證模型能取得更高的評(píng)估準(zhǔn)確性。
為了確保統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性,在充分考慮數(shù)據(jù)來源的可行性情況下,本文主要收集了廣東省相關(guān)民政部門的最終臺(tái)風(fēng)災(zāi)情數(shù)據(jù)及廣東省統(tǒng)計(jì)局的相關(guān)經(jīng)濟(jì)、人口等信息。還從《臺(tái)風(fēng)年鑒》和《熱帶氣旋年鑒》等年鑒中,統(tǒng)計(jì)臺(tái)風(fēng)的信息。
主要統(tǒng)計(jì)了從1988-2008年對(duì)廣東省造成直接經(jīng)濟(jì)損失的72個(gè)臺(tái)風(fēng)。其中,最高經(jīng)濟(jì)損失為9615號(hào)臺(tái)風(fēng),損失高達(dá)171.62億元;最低經(jīng)濟(jì)損失為9018號(hào)臺(tái)風(fēng),損失金額為0.25億元。臺(tái)風(fēng)數(shù)與經(jīng)濟(jì)損失分布如表1所示,所統(tǒng)計(jì)的臺(tái)風(fēng)災(zāi)害經(jīng)濟(jì)損失跨度較全面,分布比較符合臺(tái)風(fēng)的實(shí)際情況。抽取各個(gè)范圍中的臺(tái)風(fēng)作為訓(xùn)練數(shù)據(jù),訓(xùn)練所得模型將會(huì)比較符合臺(tái)風(fēng)的實(shí)際情況。
表1 臺(tái)風(fēng)數(shù)與經(jīng)濟(jì)損失分布情況
圖1 BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)圖
采用如圖2所示的訓(xùn)練模式對(duì)BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,參考文獻(xiàn)[11],具體步驟如下。
圖2 BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程
Step1:初始化BP網(wǎng)絡(luò),為層與層之間的連接權(quán)值和隱層、輸出層節(jié)點(diǎn)的閾值為(-1,1)之間隨機(jī)小量。
Step2:將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集Tr_set和測(cè)試數(shù)據(jù)集Te_set,設(shè)置訓(xùn)練精度acc∈(0,1)測(cè)試精度Te_acc∈(0,1)網(wǎng)絡(luò)輸出誤差ε=1。
Step3:網(wǎng)絡(luò)輸入神經(jīng)元為評(píng)估因子,中間隱層神經(jīng)元數(shù)為輸入層的75%,輸出層只有臺(tái)風(fēng)經(jīng)濟(jì)損失1個(gè)神經(jīng)元。訓(xùn)練函數(shù)采用Sigmoid函數(shù),如式(1)所示。
(1)
則隱層神經(jīng)元和輸出層神經(jīng)元的輸出結(jié)果hj和yk:
(2)
(3)
式中:θj和φk為隱層和輸出層的神經(jīng)元閾值,wji為入層神經(jīng)元i與隱層神經(jīng)元j之間的連接權(quán)值,xi為入層神經(jīng)元i的輸入評(píng)估因子,ukj為層神經(jīng)元j與輸出層神經(jīng)元k之間的連接權(quán)值。這里只有1個(gè)輸出神經(jīng)元,即k=1,式(3)可簡(jiǎn)化為式(4)。
(4)
Step4:第l個(gè)臺(tái)風(fēng)樣本的網(wǎng)絡(luò)輸出的評(píng)估值yl與實(shí)際值Trl之間的誤差Dl。
Dl=yl(1-yl)(yl-Trl)。
(5)
誤差Dl網(wǎng)絡(luò)連接反向傳播過程中,當(dāng)傳播到隱層神經(jīng)元出的誤差為
Ej=hj(1-hj)∑Dluj。
(6)
按照Dl方向調(diào)整各層之間的權(quán)值和閾值。一般情況下,學(xué)習(xí)參數(shù)α,β∈[0.1,0.5],經(jīng)實(shí)驗(yàn)驗(yàn)證這里取α=0.35,β=0.45。
Step5:將臺(tái)風(fēng)訓(xùn)練樣本集Tr_set輸入訓(xùn)練,計(jì)算均方誤差ε,當(dāng)acc≥ε時(shí),停止訓(xùn)練,暫存網(wǎng)絡(luò);否則,更新學(xué)習(xí)次數(shù),返回對(duì)樣本再訓(xùn)練,直至滿足誤差精度。
Step6:將臺(tái)風(fēng)測(cè)試樣本集Te_set輸入Step5中的網(wǎng)絡(luò)測(cè)試,計(jì)算均方誤差Te_ε,當(dāng)Te_acc≥Te_ε保存網(wǎng)絡(luò)為M_set;否則,重新改變網(wǎng)絡(luò)參數(shù),再訓(xùn)練到滿足誤差精度。
向量空間模型可用于并行信息檢索[15]。由于不同時(shí)期發(fā)生的臺(tái)風(fēng),其經(jīng)濟(jì)環(huán)境也不一樣,如果直接將BP網(wǎng)絡(luò)作為評(píng)估結(jié)果輸出,比較適合特定時(shí)期內(nèi)發(fā)生的臺(tái)風(fēng)評(píng)估,評(píng)估模型的適應(yīng)性不強(qiáng)。鑒于此,本文考慮了結(jié)合不同時(shí)期的經(jīng)濟(jì)因子進(jìn)行評(píng)估,利用VSM來檢索待評(píng)估臺(tái)風(fēng)與臺(tái)風(fēng)樣本集臺(tái)風(fēng)信息相似度度最高的臺(tái)風(fēng),計(jì)算兩個(gè)臺(tái)風(fēng)評(píng)估因子之間的距離,結(jié)合臺(tái)風(fēng)發(fā)生時(shí)段的物價(jià)指數(shù)、GDP等經(jīng)濟(jì)信息,對(duì)BP神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行調(diào)整。
檢索時(shí),遍歷臺(tái)風(fēng)樣本集中每一個(gè)臺(tái)風(fēng),計(jì)算與評(píng)估臺(tái)風(fēng)之間的相似度,如式(7)所示。
(7)
通過max(Sim)獲得與評(píng)估臺(tái)風(fēng)最大相似度的臺(tái)風(fēng),對(duì)BP網(wǎng)絡(luò)的輸出進(jìn)行調(diào)整。
(8)
式中:ybp為BP神經(jīng)網(wǎng)絡(luò)評(píng)估輸出的經(jīng)濟(jì)損失額(萬元);max(Sim)為最大相似度;w1和w2分別為評(píng)估臺(tái)風(fēng)發(fā)生時(shí)的物價(jià)指數(shù)和最相似樣本臺(tái)風(fēng)發(fā)生時(shí)間的物價(jià)指數(shù);GDP1和GDP2分別為評(píng)估臺(tái)風(fēng)發(fā)生時(shí)的GDP和最相似樣本臺(tái)風(fēng)發(fā)生時(shí)間的GDP。
將收集的72個(gè)樣本臺(tái)風(fēng)對(duì)廣東省造成的經(jīng)濟(jì)損失信息如表2所示,GDP與物價(jià)指數(shù)來自廣東省統(tǒng)計(jì)局,1988年為標(biāo)準(zhǔn)物價(jià)指數(shù)100。
表2 樣本臺(tái)風(fēng)信息
將72個(gè)臺(tái)風(fēng)分為2組,一組用于訓(xùn)練模型的訓(xùn)練集Tr_set,共有63個(gè)臺(tái)風(fēng);另一組用于測(cè)試模型的有效性,為測(cè)試集Te_set,共有臺(tái)風(fēng)10個(gè)。Tr_set與Te_set的臺(tái)風(fēng)樣本數(shù)如表3所示。
表3 訓(xùn)練集和測(cè)試集臺(tái)風(fēng)數(shù)量分布
直接調(diào)用Matlab中的工具箱,建立BP網(wǎng)絡(luò),并訓(xùn)練。由BP網(wǎng)絡(luò)直接輸出的評(píng)估結(jié)果與經(jīng)過VSM調(diào)整后輸出的結(jié)果,如表4所示。
表4 BP網(wǎng)絡(luò)直接輸出與VSM調(diào)整比較
由表4可知,利用訓(xùn)練集Tr_set對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將測(cè)試集Te_set作為輸入,BP網(wǎng)絡(luò)的評(píng)估輸出結(jié)果與實(shí)際經(jīng)濟(jì)損失結(jié)果對(duì)比,發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)比較多的經(jīng)濟(jì)損失區(qū)間,其評(píng)估結(jié)果會(huì)與實(shí)際損失結(jié)果更接近。如經(jīng)濟(jì)損失區(qū)間在[1億~20億]和[20億~40億]分別訓(xùn)練數(shù)據(jù)占了67%和15%,這兩個(gè)區(qū)間的評(píng)估結(jié)果相對(duì)比較準(zhǔn)確。由此可以得出,僅利用BP神經(jīng)網(wǎng)絡(luò)對(duì)臺(tái)風(fēng)災(zāi)害損失進(jìn)行評(píng)估,其評(píng)估結(jié)果受訓(xùn)練數(shù)據(jù)集的影響比較大,模型比較不穩(wěn)定,適應(yīng)性較差。對(duì)比VSM調(diào)整之后的結(jié)果,發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)和VSM相結(jié)合的模型輸出,明顯優(yōu)于僅使用BP神經(jīng)網(wǎng)絡(luò),兩者的誤差率對(duì)比如圖3所示。
圖3 誤差率對(duì)比
由圖3可知,BP神經(jīng)網(wǎng)絡(luò)和VSM相結(jié)合的模型能保持在較低的誤差率,特別是0814號(hào)臺(tái)風(fēng),經(jīng)濟(jì)損失大于100億元,訓(xùn)練數(shù)據(jù)只有3條,占訓(xùn)練集的比例的4.7%,但經(jīng)過VSM調(diào)整之后,其誤差率由49%降低到19%。臺(tái)風(fēng)編號(hào)0116經(jīng)濟(jì)損失為5 958.6萬元,屬于1億以內(nèi)的區(qū)間,訓(xùn)練數(shù)據(jù)集較少,經(jīng)過VSM的調(diào)整,其誤差率由60%降低到31%。由實(shí)驗(yàn)結(jié)果和誤差率對(duì)比可知,采用BP神經(jīng)網(wǎng)絡(luò)對(duì)臺(tái)風(fēng)災(zāi)害經(jīng)濟(jì)損失進(jìn)行評(píng)估,基于VSM模型對(duì)評(píng)估結(jié)果進(jìn)行調(diào)整,可以獲得與實(shí)際更接近的評(píng)估結(jié)果,同時(shí)評(píng)估結(jié)果受到訓(xùn)練數(shù)據(jù)集的影響非常小,模型具有較強(qiáng)的穩(wěn)定性。
針對(duì)現(xiàn)有臺(tái)風(fēng)災(zāi)害經(jīng)濟(jì)損失評(píng)估模型的不足,提出一種基于BP神經(jīng)網(wǎng)絡(luò)和VSM模型相結(jié)合的臺(tái)風(fēng)災(zāi)害經(jīng)濟(jì)損失評(píng)估模型,該模型能夠有效降低訓(xùn)練數(shù)據(jù)不足對(duì)評(píng)估結(jié)果的影響,將平均誤差由30%降低到14%。臺(tái)風(fēng)災(zāi)害經(jīng)濟(jì)損失評(píng)估一直是研究的熱點(diǎn),由于評(píng)估受到區(qū)域特點(diǎn)等因素的影響,今后的研究可在此基礎(chǔ)上,引入?yún)^(qū)域因素,將地理信息網(wǎng)格化,實(shí)現(xiàn)精細(xì)化的數(shù)據(jù)源,同時(shí)結(jié)合Boosting方法來進(jìn)一步提高經(jīng)濟(jì)損失的評(píng)估準(zhǔn)確度。