国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主成分特征提取的面板數據聚類方法

2018-12-03 11:39戴大洋鄧光明
統(tǒng)計與決策 2018年21期
關鍵詞:偏度峰度面板

戴大洋,鄧光明,b

(桂林理工大學a.理學院;b.應用統(tǒng)計研究所,廣西 桂林 541006)

0 引言

面板數據(Panel Data)具有截面數據和時間序列數據的特性,在現實數據庫中比較常見。它既有截面數據個體間的差異信息,又有時間序列數據的動態(tài)信息,導致單純的時間序列分析方法和截面數據多元統(tǒng)計方法不再適用于面板數據。國內外大多數面板數據的理論都是從建模的角度入手[1],而將多元統(tǒng)計方法引入到面板數據中只有十幾年的歷史。Bonzo等[2]運用概率鏈接函數取代傳統(tǒng)聚類中的距離函數來定義聚類標準,把聚類過程看成是一種優(yōu)化問題,運用自適應模擬退火方法(ASA)對面板數據進行聚類,首次將多元統(tǒng)計方法引入到面板數據中。此后,國內掀起面板數據聚類的研究熱潮。

在前人的研究中,主要都從降維層面考慮,將面板數據的三維信息通過某種技術手段降為二維信息。朱建平[3]從面板數據描述層面出發(fā),構造面板數據相似性指標,并提出面板數據聚類的單指標聚類方法。單指標面板數據自身具有簡化面板數據的效果,且單指標面板數據在現實數據庫中并不多見,因此,該方法適用性較窄。李因果[4]從面板數據時序特征和截面特征出發(fā),重新定義了樣本間“絕對指標”、“增量指標”和“時序波動”的距離函數和Ward聚類算法,提出了一套較為合理的面板數據聚類算法。黨耀國[5]從特征提取的角度,將每個個體在時間維度上的不同指標的統(tǒng)計特征進行提取,以此來降低時間維度,并將所有不同指標的動態(tài)特征全部看作截面數據的指標維度,用傳統(tǒng)的動態(tài)聚類方法來聚類。此法對于指標提取比較全面和合理,但解決指標間具有相似特征的聚類問題就存在一些缺陷:(1)將所有不同指標時期內的統(tǒng)計特征看成截面數據的指標維度來聚類,存在信息重疊和未區(qū)分指標間重要性差異的問題,對聚類結果造成很大干擾。(2)在提取統(tǒng)計特征后采用主觀賦權,人為因素過重。(3)動態(tài)聚類方法因初始聚類中心選取不同而對聚類結果造成很大影響。

本文試圖在特征提取的多指標面板數據聚類方法上對上述問題做出優(yōu)化和改進,提出了運用主成分分析對不同指標“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征分別進行主成分提取,對每個特征分別計算綜合得分,再運用熵值法計算5個特征綜合得分的權重,將賦權后的數據進行系統(tǒng)聚類,最后用房地產面板數據進行實證分析。

1 面板數據的格式及數字特征

1.1 單指標面板數據

單指標面板數據的數據格式可用一個二維表表示,每個元素用Xi(t)表示,其中,i表示第i個個體,t表示指標記錄的時期數,Xi(t)表示個體i在t時間記錄的單個指標值。單指標面板數據聚類方法目前已沒有爭議,都是直接將時間維度看作是截面數據的指標維度,用多元統(tǒng)計分析中截面數據的聚類方法來解決。

1.2 多指標面板數據

多指標面板數據是時間序列數據和截面數據的組合,不能再用簡單二維表表示,嚴格意義上應該用三維表表示,為了容易理解,下面仍用二維表表示,如下頁表1,研究總體共有N個個體,每個個體記錄T期,每期有p個指標,則個體i的第j個指標在第t期的值為Xij(t),i=1,2,...,N,j=1,2,...,p,t=1,2,...,T,該二維表與簡單二維表不同,它包含時間、個體和指標這三維信息。

表1 多指標面板數據

下面將給出多指標面板數據的幾個統(tǒng)計量,指標的特征提取將用到這些統(tǒng)計量。

(1)個體i的第j個指標在T時期內的均值為:

(2)個體i的第j個指標在T時期內的標準差為:

2 面板數據的特征提取

2.1 面板數據的標準化

面板數據各指標量綱或數量級不同會對聚類結果造成一定影響,故對Xij(t)進行均值化的標準化處理,標準化公式為:

這樣標準化后各指標的方差是各指標變異系數的平方,不僅消除了量綱和數量級的影響,又保留了原指標的變異信息。

2.2 面板數據指標的特征量提取

本文按照文獻[5]中面板數據在時期特征量的提取思想,從指標考察期內的發(fā)展水平、趨勢、波動程度、分布情況等方面對每個指標在考察期的特征量定義。對于面板數據集,設其有N個個體,每個個體記錄T個時期的p項指標。

定義1:個體i的第j個指標全時“絕對量”特征,記為:

AQF(Fij)是指個體i的第j個指標在總時期T的均值,該特征量反映個體i的第j個指標在整個時期絕對發(fā)展水平。

定義2:個體i的第j個指標全時“波動”特征,記為:

定義3:個體i的第j個指標全時“偏度”特征,記為:

定義4:個體i的第j個指標的全時“峰度”特征,記為:

該特征量反映個體i的第j個指標在整個時期分布曲線的尖峭程度;KCF(Fij)小于0,表示該指標值的分布比正態(tài)分布更分散,KCF(Fij)小于0,表示該指標值的分布比正態(tài)分布更集中在平均值周圍。

定義5:個體i的第j個指標全時“趨勢”特征,記為:

TF(Fij)描述了指標的長期變化趨勢,若指標的TF(Fij)值越接近,說明這兩指標都呈同坡度變化,兩指標越相似。以第i個個體的第j個指標T時期的指標列為樣本,建立的回歸模型,利用最小二乘法估計參數β,此時的β就是TF(Fij)。

2.3 特征量的二次提取

文獻[5]在提取面板數據整個時期5個方面的特征量后,分別對每個指標的各個特征量主觀賦權后直接用動態(tài)聚類算法聚類出結果。但在提取每個指標相同特征統(tǒng)計量時,它們之間可能具有相關性。即使個體的每個指標間不具相關性,但所有指標在“絕對量”、“波動”、“偏度”、“峰度”和“趨勢”的每一個特征上卻可能具有相關性。在宏觀經濟數據中不同指標在同一時期極易存在相同的趨勢或類似的波動等,若利用此時的數據集聚類,將會對聚類結果造成嚴重干擾。本文將對不同指標的相同特征量分別進行主成分分析,得到每個特征的綜合得分。

定義6:F1,F2,…,Fp為p維指標向量AQF(Fi)=(AQF(Fi1),AQF(Fi2),…,AQF(Fip))提取的主成分,記αk(k=1,2,...,p)為主成分Fk的方差貢獻率,則主成分降維后“絕對量”特征AQF(Fij)的綜合得分為:

同理可分別定義“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征的綜合得分為

經前人的實驗得知,取不同主成分個數時,聚類結果會全然不同,當取到全部主成分時,聚類結果趨于穩(wěn)定,并達到最佳效果。為了避免數據集各變量相關度不高的情況下取(累計貢獻率≥85%)前幾個主成分計算綜合得分時信息損失嚴重和聚類效果不好,此處取所有主成分,即。為了敘述方便,后面將F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)分別稱為主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征。

2.4 特征量的賦權

本文中主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征對個體差異影響程度會有所不同,根據它們的影響程度必須賦予相應權重wj(j=1,2,...,5),為了避免主觀臆測,本文采取熵值法客觀賦權[6]。

熵值法賦權的基本步驟:

(1)選取N個個體的5項指標F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)的數據集{Zij},則Zij為第i個個體第j個指標的數值 (i=1,2,...,N,j=1,2,...,5);

(2)指標歸一化:異質指標同質化

采用不同的算法進行標準化處理。令Zij=| |Zij,方法如下:

正向指標:

負向指標:

則Z'ij為第i個個體第j個指標歸一化的數值,為了敘述方便,歸一化的數值仍記作Zij;

(3)計算第j個指標的第i個個體占該指標的比重pij和第j個指標的熵值ej:

其中,k=1/ln(N)>0,需滿足ej≥0。

(4)計算信息熵冗余度dj和各項指標的權重wj:

編寫MATLAB程序代碼實現上述算法,可得出主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征相應的權重

3 面板數據的聚類方法

上文從特征提取的角度減少了面板數據的時間維度,將面板數據轉化為截面數據,因此,可以直接用截面數據聚類方法對面板數據進行聚類。

動態(tài)聚類算法因初始聚類中心選取不同而對聚類結果造成很大影響,不同于文獻[5],考慮到聚類效果的穩(wěn)定性,這里采用系統(tǒng)聚類[7]對面板數據進行聚類。先對N個個體的5項指標F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)在總體上進行Z-Score標準化,以消除數量級影響,標準化后5個指標值分別記為F*_AQF(Fi)、F*_VF(Fi)、F*_SCF(Fi)、F*_KCF(Fi)、F*_TF(Fi)。然后再用數據集{w1F*_AQF(Fi)、w2F*_VF(Fi)、w3F*_SCF(Fi)、w4F*_KCF(Fi)、w5F*_TF(Fi)(i=1,2,...,N)}進行系統(tǒng)聚類。

4 方法應用實例

4.1 數據的來源和指標選取

本文選取房屋平均價格、國內生產總值、年末人口數、房地產開發(fā)投資額、房地產開發(fā)竣工面積、在崗職工平均工資和社會商品零售總額這5個指標[8]來反映我國房價的綜合趨勢水平。年末人口數和在崗職工平均工資從需求層面影響房價,房地產開發(fā)投資額和房地產開發(fā)竣工面積從供給層面影響房價,國內生產總值和社會商品零售總額從宏觀經濟層面影響房價,且基本都是正向影響,這些影響因素和房屋平均價格都反映房價的綜合趨勢水平。本文所使用的數據來源于國家統(tǒng)計局官網(2006—2015年)。

4.2 聚類分析

按照本文提出的面板數據聚類方法,使用SPSS20.0、MATLAB和EXCEL2007軟件對我國35個大中型城市的房地產相關數據進行聚類。利用MATLAB運行熵值法算法程序計算所提取特征的權重,“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征的權重分別為0.241,0.384,0.099 ,0.144,0.132;從權重的客觀賦值情況看出,時期的“絕對量”水平和“波動”水平對個體間差異的貢獻程度都比較大,“偏度”、“峰度”和“趨勢”水平的貢獻程度相對而言比較小,可以理解為這些年的數據整體上都有一個大的增長趨勢,導致“偏度”、“峰度”和“趨勢”對個體差異影響不大,所以熵值法計算的權重有一定的合理性。

將本文面板數據的聚類方法用EXCEL2007和SPSS20.0軟件實現,根據軟件輸出結果作出聚合系數隨分類數變化的曲線圖(如圖1),從圖1可以看出,當分類數為5時,曲線變的比較平緩,于是把分類數確定為5,從而得出房價的綜合趨勢水平的聚類結果(如表2)。

圖1 聚合系數隨分類數的變化

表2 新方法下房價綜合趨勢水平的面板數據聚類結果

第一類包括北京,上海,這些城市發(fā)展較早,又是中國的政治文化中心和金融中心,房地產業(yè)繁榮,屬于房價綜合趨勢水平最高的城市;第二類包括天津,杭州,廣州,深圳,這些城市是中國的重要港口和沿海城市,對外貿易最活躍,房地產業(yè)相對比較發(fā)達,屬于房價綜合趨勢水平較高的城市;第三類包括石家莊,太原,呼和浩特,沈陽,大連,長春,哈爾濱,南京,寧波,合肥,福州,廈門,南昌,濟南,青島,武漢,長沙,南寧,???,成都,貴陽,昆明,西安,蘭州,西寧,銀川,烏魯木齊,這些城市屬于房價綜合趨勢水平一般的城市;第四類包括鄭州,鄭州獨自成為一類,屬于房價綜合趨勢水平較低的城市;第五類包括重慶,重慶是有名的山城霧都,房地產比較蕭條,屬于房價趨勢水平最低的城市。

從聚類結果發(fā)現,改進后的面板數據聚類方法很好的將大中型城市房價的綜合趨勢水平進行一個合理劃分,劃分的結果使得每類都比較符合實際情況。若未消除相同特征間的重疊信息,采用文獻[5]中方法進行聚類,聚類結果(如表3)將多數成員聚為一類,其余個體單獨成類,聚類效果極差,與實際情況不符??梢钥闯觯瑢χ笜碎g具有相似特征的這類面板數據,原方法近乎失效,改進后的面板數據聚類方法效果顯著。

表3 未改進的面板聚類方法的聚類結果

5 結論

本文提出的聚類方法適用于少量缺失數據的多指標面板數據的樣本分類問題,該方法綜合考慮了面板數據時間維度上的“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征、“趨勢”特征等5個動態(tài)特征,消除了每個特征上的信息重疊,利用熵值法解決了這些特征的權重問題。最后利用該方法對2006—2015年我國大中型城市房價相關數據進行了實證分析,結果表明新方法能較好的解決指標間具有相似特征的多指標面板數據聚類問題。

猜你喜歡
偏度峰度面板
酰胺質子轉移成像和擴散峰度成像評估子宮內膜癌微衛(wèi)星不穩(wěn)定狀態(tài)
擴散峰度成像技術檢測急性期癲癇大鼠模型的成像改變
石材家具臺面板劃分方法
隨吟
MasterCAM在面板類零件造型及加工中的應用
基于自動反相校正和峰度值比較的探地雷達回波信號去噪方法
中山港區(qū)表層沉積物特征分析
Photoshop CC圖庫面板的正確打開方法
面板塑件凸轂結構優(yōu)化及模具設計
基于偏度的滾動軸承聲信號故障分析方法