高天宇,王慶榮,楊 妍,馬辰坤
(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070)
應(yīng)急信息化響應(yīng)是國家應(yīng)急管理體制的發(fā)展趨勢,數(shù)據(jù)處理與分析方法作為應(yīng)急信息化響應(yīng)的基礎(chǔ),被應(yīng)用于應(yīng)急工作的各個階段。分析應(yīng)急數(shù)據(jù)的特點是應(yīng)急數(shù)據(jù)處理與分析的合理性保障,連續(xù)數(shù)據(jù)的離散化是數(shù)據(jù)分析與挖掘的關(guān)鍵預(yù)處理方法,其決定最終數(shù)據(jù)處理與挖掘結(jié)果的質(zhì)量。
連續(xù)數(shù)據(jù)的離散化方法包括有監(jiān)督離散化方法和無監(jiān)督離散化方法。常用的有監(jiān)督離散化方法包括信息熵[1]、粗糙集[2]以及類-屬性關(guān)聯(lián)性[3-5]等離散化方法。信息熵離散化方法是一種基于數(shù)據(jù)混亂程度的不確定性計算方法;粗糙集離散化方法能較好地處理數(shù)據(jù)邊界的不確定性;類-屬性關(guān)聯(lián)離散化方法可應(yīng)用于數(shù)據(jù)的自動離散和混合過程[6-7]。無監(jiān)督離散化方法主要包括等寬離散化、等頻離散化、近似等頻離散化[8-10]以及聚類離散化[11]等方法。等寬離散化方法能在不同區(qū)間保持原數(shù)據(jù)分布進行離散,操作靈活簡單;等頻離散化方法是基于數(shù)據(jù)頻率分布進行離散;聚類離散化方法是根據(jù)數(shù)據(jù)分布采用層次聚類方式進行離散。
目前關(guān)于有監(jiān)督離散化方法的研究重點針對離散化方法特點進行[12],對無監(jiān)督離散化方法的研究主要圍繞數(shù)據(jù)特點展開[13]。然而現(xiàn)有無監(jiān)督離散化方法對應(yīng)急數(shù)據(jù)特點考慮不足,其采用的時間序列離散化[14]方式不適用于多量級應(yīng)急數(shù)據(jù)離散。此外,在無監(jiān)督離散化方法中,當應(yīng)急數(shù)據(jù)量小且數(shù)據(jù)間差異較大時,如果僅以離散系數(shù)為指標進行離散,則會出現(xiàn)大量的離散類數(shù)據(jù),導(dǎo)致離散結(jié)果失去指導(dǎo)意義。當集中分布的數(shù)據(jù)存在多個量級差異時,現(xiàn)有無監(jiān)督離散化方法難以找到全部有效的量級變化點。
針對應(yīng)急數(shù)據(jù)多量級差異的特點,本文提出一種無監(jiān)督的多量級應(yīng)急數(shù)據(jù)離散化方法。在難以獲得應(yīng)急數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)時,不考慮應(yīng)急數(shù)據(jù)的復(fù)雜性與數(shù)據(jù)之間的關(guān)聯(lián)性,采用擬合函數(shù)結(jié)合二階導(dǎo)數(shù)計算得到數(shù)據(jù)截斷點,移出較大數(shù)據(jù)更新待離散數(shù)據(jù)集,并重復(fù)此操作直到完成全部數(shù)據(jù)的離散。
應(yīng)急數(shù)據(jù)處理較困難的主要原因在于未針對數(shù)據(jù)特點分別對其進行處理,缺少對隱藏數(shù)據(jù)特點的深度剖析。將連續(xù)數(shù)據(jù)轉(zhuǎn)換為非連續(xù)數(shù)據(jù)是一種從數(shù)據(jù)中獲取信息的方法,稱為數(shù)據(jù)離散化。連續(xù)數(shù)據(jù)可通過離散化被處理為多個離散類數(shù)據(jù),離散后集中數(shù)據(jù)類型的個數(shù)即為數(shù)據(jù)離散類個數(shù)。離散化作為一種有效的數(shù)據(jù)預(yù)處理方法,其結(jié)果對數(shù)據(jù)分析結(jié)果有本質(zhì)影響[15],在數(shù)據(jù)處理中需根據(jù)數(shù)據(jù)特征進行離散化[16]。在離散化時可采用靜態(tài)、分類或者動態(tài)組合等不同策略,合理的策略有助于有效挖掘數(shù)據(jù)特點[17]。
應(yīng)急數(shù)據(jù)是一種特點明顯的數(shù)據(jù),其噪聲多且在相同數(shù)據(jù)集內(nèi)數(shù)據(jù)之間差異大,對聚類邊界與離散點的分析較困難[18-19]。
在應(yīng)急數(shù)據(jù)離散化過程中,具有多量級差異的數(shù)據(jù)最難離散。將數(shù)據(jù)由大到小排序后,可看到數(shù)據(jù)之間差異變化存在多個數(shù)據(jù)量級跳躍,多量級數(shù)據(jù)離散化即找到這些量級跳躍的點。數(shù)據(jù)集中數(shù)據(jù)之間存在多個量級,其中較小數(shù)據(jù)的量級差異被隱藏,如圖1 所示(虛線框為待離散的應(yīng)急數(shù)據(jù)集)。當數(shù)據(jù)1 存在時,數(shù)據(jù)2 易被歸為其他離散類,若去掉數(shù)據(jù)1 后再離散,則會發(fā)現(xiàn)數(shù)據(jù)2 與其他數(shù)據(jù)并非同一個離散類。
圖1 較小隱藏數(shù)據(jù)的量級差異顯現(xiàn)過程Fig.1 Process of showing the magnitude difference of hidden smaller data
量級差異在傳統(tǒng)數(shù)學(xué)中主要指以“10”為冪的數(shù)據(jù)之間的差異,然而在實際研究中量級差異并不局限于此,為更好地還原事件特征,需根據(jù)實際情況重新定義量級來保留更多數(shù)據(jù)特性[20]。應(yīng)急事件中各因素的細微變化均會造成應(yīng)急數(shù)據(jù)之間的巨大差異,其中存在多個量級變化點,利用傳統(tǒng)方法難以找出這些變化點。為此,本文提出一種找出隱藏變化點的數(shù)據(jù)離散化方法,下文先對離散化數(shù)據(jù)截斷點的確定進行介紹。
為找出數(shù)據(jù)集中各個量級的變化點,先對數(shù)據(jù)按照大小進行排序,再判斷數(shù)據(jù)開始突增的位置,并將該位置作為截斷點的截斷數(shù)據(jù)集,使截斷數(shù)據(jù)歸為一個離散類,并將剩余數(shù)據(jù)作為新數(shù)據(jù)集,然后重復(fù)上述操作直到達到所需離散量或者數(shù)據(jù)每個離散類的離散系數(shù)符合要求為止,如圖2 所示。
圖2 多量級數(shù)據(jù)的離散化過程Fig.2 Discretization process of multi-magnitudes data
在多量級數(shù)據(jù)離散化過程中,每找出一個截斷點就確定并去除一個離散類,然后在剩余數(shù)據(jù)中繼續(xù)尋找截斷點,如此反復(fù)最終完成動態(tài)的離散,同時根據(jù)需要對離散系數(shù)大于閾值要求的離散類數(shù)據(jù)重新計算截斷點并再次進行截斷。
1)確定擬合函數(shù)的多項式
使用多項式對數(shù)據(jù)進行擬合,計算公式如下:
其中,x、y分別為被擬合函數(shù)的自變量和因變量,α、β、γ、η、σ為待定系數(shù)。
2)確定數(shù)據(jù)截斷點
若將數(shù)據(jù)中突增的數(shù)據(jù)截斷并找到一個截斷點,則可顯示出當前較小數(shù)據(jù)之間的量級差異。該截斷點為數(shù)據(jù)突增的起始點,截斷點的斜率等于擬合函數(shù)最大值與最小值連接線所在直線的斜率,對多項式y(tǒng)求導(dǎo)如下:
截斷點的判定式如下:
其中,k為截斷點的導(dǎo)數(shù)。
對多項式導(dǎo)數(shù)進行回歸計算得到截斷點的位置,計算公式如下:
其中,突增點x_j是數(shù)據(jù)離散化所需的一個截斷點。
3)根據(jù)步驟1 和步驟2 得到截斷點后,從截斷點進行數(shù)據(jù)截斷,并將較大的數(shù)據(jù)歸為一個離散類,其他數(shù)據(jù)重新執(zhí)行步驟1 和步驟2 計算下一個截斷點,在數(shù)據(jù)呈現(xiàn)均勻分布后,統(tǒng)計所有離散類作為最終離散化結(jié)果。
本文進行多量級應(yīng)急數(shù)據(jù)離散實驗,數(shù)據(jù)源自國家地震科學(xué)數(shù)據(jù)共享中心、國家數(shù)據(jù)網(wǎng)、中國地震臺網(wǎng)、中國應(yīng)急信息網(wǎng)以及大量的相關(guān)新聞報道和論文數(shù)據(jù),通過篩查得到99 個應(yīng)急數(shù)據(jù)用于本文研究。表1 為我國不同地區(qū)地震傷亡人數(shù)相關(guān)影響因素統(tǒng)計情況。
表1 傷亡人數(shù)相關(guān)影響因素統(tǒng)計情況Table 1 Statistical situation of influencing factors related to number of casualties
2.1.1 多量級數(shù)據(jù)離散化
本文對地震案例中傷亡人數(shù)與災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)進行離散化,所有案例的傷亡人數(shù)統(tǒng)計結(jié)果如圖3 所示。其中,橫坐標為地震案例序號(以震發(fā)地省會名稱拼音排序,所有案例均從第0 個開始計數(shù))??梢钥闯觯蛱枮? 的案例傷亡人數(shù)最多,其他大部分案例傷亡人數(shù)較少。在數(shù)據(jù)處理過程中,因為存在較大數(shù)據(jù),所以較小數(shù)據(jù)之間的差異被隱藏。
圖3 傷亡人數(shù)Fig.3 Number of casualties
圖4 為將地震案例中傷亡人數(shù)由小到大排序的結(jié)果。為體現(xiàn)圖1 中的數(shù)據(jù)量級差異,從圖4 中隨機找一個截斷點68 對較大數(shù)據(jù)進行截斷,剩余數(shù)據(jù)的分布如圖5 所示。由圖5 可以看出,去掉部分較大數(shù)據(jù)后,剩余數(shù)據(jù)仍呈現(xiàn)指數(shù)函數(shù)的分布特點,說明數(shù)據(jù)中存在不止一個數(shù)據(jù)量級差異。對圖4 中按傷亡人數(shù)排序的數(shù)據(jù)進行函數(shù)擬合,得到的擬合結(jié)果如圖6 所示。其中,離散分布的點表示數(shù)據(jù)值,曲線為數(shù)據(jù)點的擬合函數(shù)曲線。
圖4 按傷亡人數(shù)排序后的結(jié)果Fig.4 Results sorted by number of casualties
圖5 傷亡人數(shù)排序后隨機截斷結(jié)果Fig.5 Random truncation results after ranking of number of casualties
圖6 傷亡人數(shù)擬合結(jié)果Fig.6 Fitting result of number of casualties
由圖6 可以看出,該函數(shù)曲線在趨近末端時突然升高,這是數(shù)據(jù)的量級突然改變所致。表2 為圖6 中擬合函數(shù)的多項式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計算得到k=4 067.95,截斷點x_j=87。從截斷點87 對數(shù)據(jù)進行截斷完成第1 次離散,得到的第1 個離散類為排序后的數(shù)據(jù)88~數(shù)據(jù)99,剩余數(shù)據(jù)為數(shù)據(jù)0~數(shù)據(jù)87。
表2 圖6 中擬合函數(shù)的參數(shù)設(shè)置Table 2 Parameter setting of fitting function in Fig.6
對第1 次數(shù)據(jù)截斷后的剩余數(shù)據(jù)進行函數(shù)擬合,并計算下一個截斷點,得到擬合函數(shù)曲線如圖7所示??梢钥闯觯S鄶?shù)據(jù)分布差異仍較大,這是隱藏的數(shù)據(jù)量級差異所致。表3 為圖7 中擬合函數(shù)的多項式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計算得到k=228.98,下一個截斷點為64。
圖7 第1 次截斷后剩余數(shù)據(jù)的擬合結(jié)果Fig.7 Fitting result of residual data after the first truncation
表3 圖7 中擬合函數(shù)的參數(shù)設(shè)置Table 3 Parameter setting of fitting function in Fig.7
從截斷點64 對數(shù)據(jù)進行截斷,得到第2 個離散類,對第2 次數(shù)據(jù)截斷后的剩余數(shù)據(jù)進行函數(shù)擬合,并計算下一個截斷點,得到擬合函數(shù)曲線如圖8 所示。表4 為圖8 中擬合函數(shù)的多項式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計算得到k=12.86,下一個截斷點為39。
圖8 第2 次截斷后剩余數(shù)據(jù)的擬合結(jié)果Fig.8 Fitting result of residual data after the second truncation
表4 圖8 中擬合函數(shù)的參數(shù)設(shè)置Table 4 Parameter setting of fitting function in Fig.8
從截斷點39 對數(shù)據(jù)進行截斷,得到第3 個離散類,對第3 次數(shù)據(jù)截斷后的剩余數(shù)據(jù)進行函數(shù)擬合,并計算下一個截斷點,得到擬合函數(shù)曲線如圖9 所示。表5為圖9 中擬合函數(shù)的多項式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計算得到k=3.775,下一個截斷點為22。由圖9 可以看出,數(shù)據(jù)從截斷點39 截斷后,其函數(shù)曲線數(shù)值分布較均勻,呈現(xiàn)出主要數(shù)據(jù)的量級差異,進而獲得第4 個離散類,截斷點為87、64 和39。在不斷進行數(shù)據(jù)截斷的過程中,每次截掉的數(shù)據(jù)都被離散為一個離散點,對離散點賦值后即完成離散。
圖9 第3 次截斷后剩余數(shù)據(jù)的擬合結(jié)果Fig.9 Fitting result of residual data after the third truncation
表5 圖9 中擬合函數(shù)的參數(shù)設(shè)置Table 5 Parameter setting of fitting function in Fig.9
本文將數(shù)據(jù)離散量作為判定離散完成的指標,設(shè)置傷亡人數(shù)和災(zāi)區(qū)受災(zāi)人數(shù)的離散量為4,其他數(shù)據(jù)離散量為3。在將離散系數(shù)閾值作為判定條件下,當離散系數(shù)較低時多量級應(yīng)急數(shù)據(jù)產(chǎn)生離散量過多(見2.2 節(jié)),實驗結(jié)果不具有實際指導(dǎo)意義。
2.1.2 突增點的判斷
本文離散方法在計算斜率時將導(dǎo)函數(shù)的凸函數(shù)部分作為突增點,并以地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)的截斷點判斷過程為例進行分析,結(jié)果如圖10 所示(實線為數(shù)據(jù)的擬合函數(shù)曲線)。圖10(a)和圖10(b)分別為地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)原始數(shù)據(jù)擬合結(jié)果以及第1 次截斷后剩余數(shù)據(jù)的擬合結(jié)果。由圖10(b)可以看出,截斷點在數(shù)據(jù)60~數(shù)據(jù)80 范圍內(nèi)。圖10(c)為第2 次截斷后剩余數(shù)據(jù)的擬合結(jié)果,可以看出截斷后數(shù)據(jù)圖像與圖10(b)的計算結(jié)果差異較大,說明截斷點判斷錯誤。在計算中將凸函數(shù)作為突增點是截斷點判斷錯誤的原因,若在程序判斷中加入“當二階導(dǎo)函數(shù)大于零時:將一階導(dǎo)函數(shù)設(shè)置為10 000”,則在判斷式(4)計算結(jié)果的最小值時就無需考慮因凸函數(shù)產(chǎn)生的斜率。對數(shù)據(jù)截斷后的剩余數(shù)據(jù)進行函數(shù)擬合,并計算下一個截斷點,擬合結(jié)果如圖11 所示,可見截斷點回到數(shù)據(jù)60~數(shù)據(jù)80 范圍內(nèi),函數(shù)曲線上升較平緩,未出現(xiàn)突增現(xiàn)象,截斷點判斷錯誤的情況消失。
圖10 地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)截斷點判斷過程Fig.10 Judgment process of the cut off points of number of towns in earthquake stricken areas
圖11 截斷點判斷錯誤消失Fig.11 Disappearance of error in judgment of truncation point
2.1.3 離散化結(jié)果分析
震發(fā)地受災(zāi)人數(shù)的離散、災(zāi)區(qū)人口密度數(shù)據(jù)的離散、震發(fā)地人均GDP 數(shù)據(jù)的離散等其他類型應(yīng)急數(shù)據(jù)的多量級離散化結(jié)果如圖12~圖17 所示。其中,圖12、圖14 和圖16 為各類數(shù)據(jù)未離散時的數(shù)據(jù)排序,圖13、圖15 和圖17 為各類數(shù)據(jù)離散后各離散類的數(shù)據(jù)分布??梢钥闯?,采用本文方法離散后的數(shù)據(jù)在各離散類數(shù)量區(qū)間中分布較均勻,無較大的量級差異。為量化這種均勻性,下文從離散系數(shù)分析本文方法的必要性與合理性。
圖12 受災(zāi)人口原始數(shù)據(jù)Fig.12 Raw data of affected population
圖13 受災(zāi)人口數(shù)據(jù)的不同離散類Fig.13 Different discrete categories of affected population data
圖14 受災(zāi)人口密度原始數(shù)據(jù)Fig.14 Raw data of affected population density
圖15 受災(zāi)人口密度數(shù)據(jù)的不同離散類Fig.15 Different discrete categories of affected population density data
圖16 災(zāi)區(qū)人均GDP 原始數(shù)據(jù)Fig.16 Raw data of per capita GDP in disaster area
圖17 災(zāi)區(qū)人均GDP 數(shù)據(jù)的不同離散類Fig.17 Different discrete categories of per capita GDP data in disaster area
離散系數(shù)又稱變異系數(shù),常用于衡量數(shù)據(jù)的離散程度和變異程度,其表達式為σ/-a(σ為離散標準差,-a為離散平均值)。本文利用該系數(shù)衡量各個離散類的數(shù)據(jù)均勻分布程度,同一個數(shù)據(jù)集離散系數(shù)越低,數(shù)據(jù)分布越均勻,說明離散效果越好。
2.2.1 確定離散類個數(shù)時不同方法的離散系數(shù)
本文設(shè)定傷亡人數(shù)與受災(zāi)人數(shù)的離散類個數(shù)均為4,其他數(shù)據(jù)的離散類個數(shù)為3,計算得到不同數(shù)據(jù)集經(jīng)本文方法、層次聚類離散化方法、等頻離散化方法、等距離散化方法以及2-Flou 數(shù)離散化方法離散后的離散類平均離散系數(shù),其中2-Flou 數(shù)離散化方法是基于模糊區(qū)間與等距離散化的柔性離散化方法[21],采用不同方法得到的5 種數(shù)據(jù)集平均離散系數(shù)如表6 所示。
表6 不同方法下5 種數(shù)據(jù)集的平均離散系數(shù)Table 6 Mean values of discrete coefficients of five database with different methods
由表6 可以看出,在5 種數(shù)據(jù)集中本文方法的離散系數(shù)較其他方法有一定程度的降低,僅在災(zāi)區(qū)人均GDP 數(shù)據(jù)集中離散系數(shù)高于層次聚類離散化方法與等距離散化方法。由于層次聚類與等距離散化方法所得離散系數(shù)平均值較高,因此每個離散類包含的數(shù)據(jù)較少。綜合不同數(shù)據(jù)集的平均離散系數(shù)給出各方法的平均離散系數(shù)如表7 所示,可以看出本文方法在規(guī)定離散類個數(shù)下平均離散系數(shù)低于其他方法,其各個離散類的數(shù)據(jù)分布較均勻,證明本文方法具有一定的必要性。
表7 不同方法的平均離散系數(shù)Table 7 Average discrete coefficients of different methods
2.2.2 設(shè)定離散系數(shù)閾值后的離散類特征
從統(tǒng)計學(xué)上看,若數(shù)據(jù)集內(nèi)離散系數(shù)低于0.15,則數(shù)據(jù)集中的數(shù)據(jù)分布較均勻,否則認為數(shù)據(jù)分布異常,可據(jù)此設(shè)定較低離散系數(shù)閾值。使用本文方法對各個大于閾值的離散類繼續(xù)離散,直到小于規(guī)定閾值,并給出兩種閾值設(shè)定方法以及數(shù)據(jù)集離散后的離散類個數(shù)、平均離散系數(shù)等離散類特征。當閾值為0.15 和0.30 時,5 種數(shù)據(jù)集的離散類特征分布分別如表8 和表9 所示??梢钥闯觯c較高離散系數(shù)閾值下的離散結(jié)果相比,平均離散系數(shù)有所降低,最大的離散類個數(shù)達到26,大部分數(shù)據(jù)離散后的離散類個數(shù)超過10。如果99 個數(shù)據(jù)離散后存在超過10 個離散類時,則在后續(xù)粗糙集等數(shù)據(jù)分析中將難以找到數(shù)據(jù)的主要特征,此類數(shù)據(jù)離散化并未降低數(shù)據(jù)間的復(fù)雜性。由于應(yīng)急數(shù)據(jù)的量級差異變化較大,離散系數(shù)高于0.15 并不表示數(shù)據(jù)之間關(guān)聯(lián)性差,因此應(yīng)急數(shù)據(jù)需通過確定離散類個數(shù)進行離散化。由離散類數(shù)據(jù)、離散類個數(shù)與離散類離散系數(shù)分析結(jié)果可知,本文方法具有一定的合理性。
表8 閾值為0.15 時5 種數(shù)據(jù)集的離散類特征Table 8 Discrete class characteristics of five datasets at a threshold of 0.15
表9 閾值為0.30 時5 種數(shù)據(jù)集的離散類特征Table 9 Discrete class characteristics of different datasets at a threshold of 0.30
針對具有多量級差異性的應(yīng)急數(shù)據(jù),本文提出一種無監(jiān)督的數(shù)據(jù)離散化方法。將應(yīng)急數(shù)據(jù)由大到小排序,在函數(shù)擬合的基礎(chǔ)上計算量級差異變化點作為數(shù)據(jù)截斷點,對數(shù)據(jù)進行截斷移出較大數(shù)據(jù)完成一次離散,并不斷重復(fù)此操作直到完成全部數(shù)據(jù)離散。實驗結(jié)果表明,該方法的離散系數(shù)較等頻離散化、層次聚類離散化等傳統(tǒng)方法更低,對隱藏多量級差異的應(yīng)急數(shù)據(jù)具有良好的離散效果。后續(xù)將針對多種復(fù)合環(huán)境影響下的地震數(shù)據(jù)進行研究,進一步降低該方法的離散系數(shù)并提高魯棒性。