劉萬金,趙芳芳
(蘭州財經(jīng)大學,甘肅 蘭州 730020)
國內(nèi)生產(chǎn)總值(GDP)反映一個國家或地區(qū)經(jīng)濟的變化,作為國民經(jīng)濟核算的核心指標,具有重要的研究意義。不同省份之間的GDP 各不相同,分析我國GDP的類別差異對解決區(qū)域不平衡、提高GDP 具有重要的意義。聚類分析對數(shù)據(jù)進行無監(jiān)督劃分,度量不同類別之間的差異性,利用聚類分析方法對我國不同省份之間GDP的研究不斷涌現(xiàn)。吳曉紅[1]利用譜系聚類把我國7大行政區(qū)分了3類;范敬雅、鄒玉梅[2]利用高斯混合模型對我國人均GDP 進行聚類,根據(jù)貝葉斯準則選取最優(yōu)聚類數(shù);李澤宇[3]提出基于灰色關(guān)聯(lián)度聚類分析的我國GDP結(jié)構(gòu)比較;黃賢超[4]將GDP數(shù)據(jù)劃分為3大產(chǎn)業(yè)值,利用Kmeans進行聚類分析;汪飛[5]對我國西部各省區(qū)人均GDP、GDP增長率進行聚類分析,分析人均GDP、GDP增長率高低的差異。
非負矩陣分解(Nonnegative Matrix Factorization,NMF)是將非負約束整合到一般矩陣分解中[6-7]。它的目標是找到維數(shù)較低的非負矩陣,使它們的線性組合可以近似原始矩陣。非負定性導致基于部分的表示,因為它只允許添加非否定性元素。具體來說,NMF 利用基矩陣與系數(shù)矩陣的線性組合來近似原始數(shù)據(jù),其中基矩陣和基向量都是非負的。鑒于非負矩陣分解的優(yōu)點,非負矩陣分解被廣泛應用于機器學習、數(shù)據(jù)挖掘與數(shù)據(jù)處理領(lǐng)域。李軍、鄧育[8]從空間和時間兩個角度出發(fā),采用非負矩陣分解算法對出租車的行為進行聚類分析,進而分析出租車的時空行為特征、省份空間結(jié)構(gòu)及省份出行活動之間的關(guān)聯(lián),為省份出租車管理與發(fā)展提供參考;盧瑞瑞等[9]將L1/2正則化稀疏約束與能源分解相結(jié)合,提出基于用戶用電行為數(shù)據(jù)的L1/2正則化稀疏約束和同質(zhì)性約束的能源分解聚類分析方法;馬圓圓[10]等將基于非負矩陣分解的無監(jiān)督聚類方法運用到甲骨文卜辭數(shù)據(jù),進一步挖掘卜詞中存在的潛在信息。余江蘭[11]將核L21范數(shù)非負矩陣分解應用于圖像聚類;唐曉芬[12]提出基于最大相關(guān)熵距離的非負矩陣分解算法,在基因數(shù)據(jù)中產(chǎn)生了較好的聚類效果。非負矩陣對線性可分數(shù)據(jù)效果較好,對于非線性數(shù)據(jù),非負矩陣分不能直接應用。對稱非負矩陣分解(Symmetric Non-negative Matrix Factorization,SNMF)[13]是一類特殊的約束NMF,它將記錄樣本成對相似性的親和矩陣分解成聚類指示矩陣及其轉(zhuǎn)置的乘積,不但對線性數(shù)據(jù)可分,而且對非線性數(shù)據(jù)也可分。趙昆[14]等提出基于對稱非負矩陣分解的復雜網(wǎng)絡模糊聚類。對稱非負矩陣分解看作一種圖聚類算法,對變量的初始化很敏感,而初始化矩陣的好壞將嚴重影響其聚類性能。為解決此問題,Jia[15]等人充分考慮SNMF 對初始化的敏感性,提出自監(jiān)督對稱非負矩陣分解算法(S3NMF)。
函數(shù)型數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)[16]的概念首先由加拿大學者Ramsey 提出,利用函數(shù)曲線作為數(shù)據(jù)分析對象,分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)特性,基于函數(shù)型數(shù)據(jù)的聚類分析被稱為函數(shù)型聚類分析(Functional Cluster Analysis,F(xiàn)CA)。N. Coffey[17]利用線性混合樣條和P 樣條平滑之間的聯(lián)系消除數(shù)據(jù)噪聲,利用效應模型對表達譜進行聚類;高海燕[18]提出基于非負矩陣分解和函數(shù)型數(shù)據(jù)相結(jié)合的函數(shù)型非負矩陣分解類算法;黃恒君等[19]提出同時考慮擬合和聚類效果的函數(shù)型聚類一步法;劉寶宇[20]基于函數(shù)型視角,對比系統(tǒng)聚類與函數(shù)型聚類的優(yōu)缺點,將我國31省份GDP總值利用函數(shù)型聚類分析分為5類。
本論述從非負矩陣角度出發(fā),選取1999~2021 年我國31 省GDP 數(shù)據(jù),構(gòu)造新的親和矩陣,利用S3NMF進行矩陣分解,最后借助Kmeans 對S3NMF矩陣分解的結(jié)果進行聚類,得出基于自監(jiān)督對稱非負矩陣分解的我國31 省GDP 類別分析,同時,基于函數(shù)型聚類分析結(jié)果進行對比[20],結(jié)合實際數(shù)據(jù)分析S3NMF 聚類分析的效果。
NMF[20]是將矩陣 X ∈ ?m×n分解為兩個非負矩陣W ∈?m×r和 H ∈ ?r×n(r ? min(m,n))的乘積的一種形式,即X ≈WH。相應優(yōu)化算法已被來解決NMF 優(yōu)化問題[21-22]。
NMF 使用歐幾里德距離來測量重建誤差,優(yōu)化問題如下:
其中‖ ‖.F表示矩陣的Frobenius 范數(shù),X ∈?m×n是訓練集,W ∈?m×r和 H ∈?r×n分別稱為基矩陣和系數(shù)矩陣。元素X,W,H 都是非負的。相應的乘法更新規(guī)則如下[6]:
對于n×n 階相似矩陣 A,對稱非負矩陣[13]目標函數(shù)為
其中H 是一個大小為n×k 的非負矩陣,k 是聚類數(shù)。SNMF與譜聚類(SC)具相近的目標約束函數(shù),相關(guān)性較高[13,23]。SC的目標函數(shù)為
其中 I ∈ ?k×k是單位矩陣,SNMF 通常被看作圖聚類的一種算法。
Jia 等人提出 S3NMF 算法[15],克服了對稱非負矩陣分解對初始化敏感性。首先生成一組隨機非負矩陣(b 是集合的大?。?,由對稱非負矩陣分解獲得b 個聚類劃分,構(gòu)造質(zhì)量更高的相似矩陣。
在不同初始化下生成一組更優(yōu)聚類劃分。重復該過程,直到達到終止準則或最大迭代次數(shù)。約束優(yōu)化模型為:
其中,αm是 α ∈ ?b×1的第 m 個元素,權(quán)重向量平衡每個分區(qū)的貢獻,1 ∈?b×1表示全1向量,約束 αT1=1避免了 α 的平凡解(即 α=0),α ≥0 保證每個 αm都是有效權(quán)重,τ ∈(1+∞)。更新規(guī)則如下:
Kmeans 聚類算法[24]利用不同點之間的歐氏距離來度量不同點之間的相似度。給定固定點,當不同點到固定點之間的距離較近時,則該固定點將與離其最近的一類點被聚到同一個類別中,依次類推,直到樣本中所有點到聚類中心距離最近且類中心不再變化時,最終實現(xiàn)歸類,聚類完成。
Kmeans 聚類算法步驟如下所述:
(1)從樣本中隨機選取k 個類中心。
(2)對剩下的樣本,計算其到類中心的距離,并把離類中心近的樣本與相應的類中心歸為一類。
(3)重新計算各個類的中心。
(4)重復以上2至3步驟直至每個聚類不再變化。
函數(shù)型聚類基于曲線的相似度進行聚類[20]。第i條曲線xi(t)與第j條曲線xi(t)之間的相似度采用式(9)所定義的曲線距離來度量,也即歐氏距離。
將xi(t)與xj(t)用相同的K 維樣條基函數(shù)Φ(t)展開得:
我國是一個地域遼闊、人口眾多的發(fā)展中國家,利用聚類分析的方法對各省市GDP 指標進行合理的分類,對國家的經(jīng)濟發(fā)展有著重要的現(xiàn)實意義。本論述選取我國 31 省市 1999~2021 年 31 省 GDP 數(shù)據(jù)進行聚類分析,基于S3NMF 分析我國31 省市GDP 的類別差異。文章數(shù)據(jù)來源:中國經(jīng)濟社會大數(shù)據(jù)研究平臺(https://data.cnki.net/)。使用計算軟件為:Matlab 2018 b,CPU 配置:Intel(R)Core(TM)i7-10875H CPU@2.30 GHz。
3.2.1 S3NMF聚類
對我國31 省份GDP 總值數(shù)據(jù),構(gòu)造新的親和矩陣,利用S3NMF 進行分解。Kmeans 利用樣本與樣本之間的距離進行聚類。S3NMF 對分解后的矩陣利用Kmeans聚為5類,聚類結(jié)果見表1所列。
表1 S3NMF聚類結(jié)果分類表 單位:億元
由表1可知,我國31省市按照GDP總值分為5類,其中上海市、江蘇省、浙江省、山東省、廣東省、四川省為第一類,就第一類省份而言,高新技術(shù)產(chǎn)業(yè)發(fā)達,人才驅(qū)動經(jīng)濟發(fā)展;北京市、河北省、安徽省、福建省、河南省、湖南省、湖北省為第二類,就第二類省份而言,經(jīng)濟產(chǎn)業(yè)比較豐富,產(chǎn)業(yè)結(jié)構(gòu)較為完善;山西省、遼寧省、云南省、陜西省為第三類,就第三類省份而言,以特色產(chǎn)業(yè)為導向驅(qū)動經(jīng)濟增長;內(nèi)蒙古自治區(qū)、江西省、廣西壯族自治區(qū)、重慶市、貴州省為第四類,就第四類省份而言,擁有一定優(yōu)勢資源,沒有明顯強勁產(chǎn)業(yè)驅(qū)動經(jīng)濟快速發(fā)展;天津市、吉林省、黑龍江省、海南省、西藏自治區(qū)、甘肅省、青海省、寧夏回族自治區(qū)、新疆維吾爾族自治區(qū)為第五類,就第五類省份而言,區(qū)位優(yōu)勢相對較弱,產(chǎn)業(yè)結(jié)構(gòu)不完善,人才流失比較嚴重。分析聚類結(jié)果可以發(fā)現(xiàn),整理后的聚類出現(xiàn)一定的階梯性,即從第1 類到第5 類整體體現(xiàn)為從東到西整體GDP 由強到弱的變化過程,東部地區(qū)GDP總體較高,西部地區(qū)GDP整體較低。
3.2.2 FCA聚類
為了對比聚類效果,本論述聚類結(jié)果以劉寶宇函數(shù)型聚類(FCA)結(jié)果為參照進行對比[20],F(xiàn)CA聚類結(jié)果整理后,見表2所列。
表2 函數(shù)型聚類結(jié)果分類表 單位:億元
由表 2 可知,F(xiàn)CA 將我國 31 省份按照 GDP 總值聚為5類,其中江蘇省、山東省、廣東省為第一類;浙江省、河南省為第二類;北京市、河北省、遼寧省、上海市、安徽省、福建省、湖北省、湖南省、四川省為第三類;天津市、山西省、內(nèi)蒙古自治區(qū)、吉林省、黑龍江省、江西省、廣西壯族自治區(qū)、重慶市、云南省、陜西省為第四類;海南省、貴州省、西藏自治區(qū)、甘肅省、青海省、寧夏回族自治區(qū)、新疆維吾爾族自治區(qū)為第五類。
結(jié)合表1與表2可知,兩種聚類方法產(chǎn)生的共同聚類結(jié)果為:(1)將江蘇省、山東省、廣東省聚為同一類;(2)將北京市、河北省、安徽省、福建省、湖北省、湖南省聚為同一類;(3)將內(nèi)蒙古自治區(qū)、江西省、廣西壯族自治區(qū)、重慶市聚為同一類;(4)將海南省、西藏自治區(qū)、甘肅省、青海省、寧夏回族自治區(qū)、新疆維吾爾族自治區(qū)聚為同一類。就表1 與表2 具體聚類效果而言,S3NMF 聚類結(jié)果省份類別個數(shù)分布比較均勻,兩者聚類方法的聚類結(jié)果整體較為接近,但S3NMF 無法直接進行聚類分析,對分解后的矩陣借助Kmeans 進行聚類,非負矩陣分解具有一定的降維作用,因此,基于S3NMF的聚類結(jié)果可能存在一定程度的偏差,但相對而言,基于S3NMF的聚類分析能夠產(chǎn)生相對比較準確的聚類劃分。
總體而言,我國經(jīng)濟發(fā)展仍存在區(qū)域差異、產(chǎn)業(yè)差異、結(jié)構(gòu)差異,東西部地區(qū)差異較大,但各省GDP 都存在較大的發(fā)展空間,如何提高GDP 及解決區(qū)域發(fā)展不平衡問題既有機遇又有挑戰(zhàn),經(jīng)濟相對落后的省份要取長補短,打造區(qū)域特色,提高自身經(jīng)濟實力,經(jīng)濟相對較高的城市要不斷促進產(chǎn)業(yè)成功轉(zhuǎn)型,結(jié)合自身特色挖掘創(chuàng)新性經(jīng)濟驅(qū)動策略,自身發(fā)展的同時帶動西部GDP 發(fā)展相對緩慢的城市,從而實現(xiàn)東西部共同發(fā)展,促進我國GDP整體增長。
S3NMF 利用集成的思想、考慮初值敏感性的同時加入監(jiān)督信息。利用我國31省GDP數(shù)據(jù)構(gòu)造親矩陣,借助Kmeans 對S3NMF分解后的結(jié)果進行聚類分析,將我國31省按照GDP分為5類,結(jié)合31省自身經(jīng)濟特色與基于S3NMF 矩陣分解的結(jié)果綜合來看,S3NMF 能夠產(chǎn)生相對較為準確的聚類劃分,可以將基于S3NMF 分解的聚類方法應用到未知標簽信息的聚類問題中。