李穎杰
(重慶交通大學(xué),重慶400074)
為了給各地區(qū)物資稀缺程度評級,首先通過分析發(fā)現(xiàn)影響一個地區(qū)物資緊缺程度的因素主要有該區(qū)域的總?cè)丝?、新確診肺炎人數(shù)、區(qū)域醫(yī)院數(shù)量、區(qū)域醫(yī)護人員數(shù)量、區(qū)域醫(yī)療設(shè)備生產(chǎn)廠數(shù)量和區(qū)域的GDP。下面先對這些數(shù)據(jù)進行預(yù)處理,并進行主成分分析。
首先,由于指標的大小差異很大,對原始數(shù)據(jù)進行了歸一化,使每個指標處于相同的數(shù)量級。采用標準差標準化法,即:
與此相對應(yīng),以下稱為標準化指標向量:
考慮到上述指標間還可能存在著一定的相關(guān)性,為了更精準地分析影響地區(qū)物資緊缺程度的指標,使用了主成分分析法對指標數(shù)據(jù)進行了標準化處理,用盡可能少的主成分來代替原來的變量,同時又使保留的主成分具有與原數(shù)據(jù)相同的信息。
主成分分析步驟如下:
第一步,計算相關(guān)系數(shù)矩陣:
第二步,計算相關(guān)系數(shù)矩陣Rλ的特征值λ1≥λ2≥…≥λm≥0 以及相應(yīng)的特征向量μ1,μ2,…,μ6,從特征向量中組合m 個新的索引量:
第三步,計算特征值λj(j=1,2,…,6)的信息貢獻率和累積貢獻率。主成分yj的信息貢獻率bj的公式如下所示。主成分yj的累積貢獻率αp公式如下所示。當(dāng)αp的取值接近于1(一般取值為0.85、0.90、0.95)時,則選擇前p 個指標變量y1,y2,…,yp作為p 個主成分,以此來代替原來的6 項指標。
通過上述分析,我們確立了p 個主成分,這p 個主成分互不相關(guān),并且保留了原始數(shù)據(jù)的基本信息。
確定聚類的最優(yōu)數(shù)量對聚類的有效性有很大的影響,使用相同的聚類算法來評估不同聚類條件下聚類結(jié)果的指標優(yōu)度。內(nèi)部指標有三類:基于數(shù)據(jù)集模糊劃分的指標、基于數(shù)據(jù)集樣本結(jié)構(gòu)的指標和基于數(shù)據(jù)集統(tǒng)計信息的指標?;跀?shù)據(jù)集幾何結(jié)構(gòu)的指標是根據(jù)數(shù)據(jù)集本身的統(tǒng)計特征和聚類結(jié)果來評價聚類結(jié)果,并根據(jù)聚類結(jié)果選擇最佳的聚類數(shù)。根據(jù)K 均值聚類方法的原理,選擇Davies-Bouldin 指數(shù)進行評價。
DB指數(shù)是通過描述樣本的類別散度和類別中心之間的距離來評估的,DB越小,類之間的相似性越低,聚類效果越好。定義如下:
確定最優(yōu)聚類數(shù)應(yīng)首先給定K的范圍(給定K范圍為0~9),在數(shù)據(jù)集上使用不同的聚類數(shù)K運行相同的聚類算法,得到一系列聚類結(jié)果,并計算每種聚類數(shù)的DB值,結(jié)果如圖1 所示。分析圖1 結(jié)果,選擇了最佳聚類數(shù)為4 個類別。
圖1 DB 值計算結(jié)果
K-Means 聚類算法是聚類算法中最廣泛應(yīng)用的一種算法,易于實現(xiàn),效率高。下面對湖北各地區(qū)的物資緊缺程度進行K-Means 聚類分析。
記湖北各地區(qū)的特征向量為a1,a2,…,am,按照如下步驟聚類分析。
Step1,選擇初始的k個類別中心u1,u2,…,uk。
Step2,對于剩余的每個特征向量,將其歸類到距離最近的類別中心的類別,即
Step3,將每個類別中心更新為隸屬該類別的所有樣本的均值,即,cj為第j個類別的集合。
Step4,重復(fù)Step2、Step3,當(dāng)j值為4 時,停止運算。
在問題的求解中,本文主要用到了湖北各區(qū)域的總?cè)丝?、新確診肺炎人數(shù)、各區(qū)域醫(yī)院數(shù)量、各區(qū)域醫(yī)護人員數(shù)量、各區(qū)域醫(yī)療設(shè)備生產(chǎn)廠數(shù)量和區(qū)域的GDP 等數(shù)據(jù)來刻畫某區(qū)域的物資緊缺程度。在求解中,首先通過計算DB的值選取了最佳聚類數(shù)——4 類,從而通過K-Means 聚類法將把湖北各地區(qū)的物資緊缺程度劃分為四個等級,劃分的結(jié)果如表1 所示。
表1 湖北各地區(qū)物資緊缺程度
我們應(yīng)給物資緊缺程度高的地區(qū)分配更多的醫(yī)療物資,根據(jù)以上的聚類結(jié)果,結(jié)合實際情況制定了物資分配方案,如表2 所示。
表2 物資分配方案
通過對湖北各地區(qū)指標的主成分分析以及K-Means 聚類,將湖北各地區(qū)的物資緊缺程度分成了四個等級,并制定了可行合理的物資分配方案,這對湖北地區(qū)的物資分配問題有較大的參考價值。同時,本文將Davies-Bouldin 指數(shù)與K-Means 聚類法結(jié)合的模型還可以推廣到更多的領(lǐng)域,對我們處理大數(shù)據(jù)和指標分類有重要的意義。