秦緒佳,彭 潔,徐 菲,鄭紅波,張美玉 (浙江工業(yè)大學計算機科學與技術(shù)學院,浙江 杭州 310023)
城市垃圾指大量以固態(tài)形式呈現(xiàn)的廢物混合物.隨著市民消費水平整體提高,日漸增長的垃圾排放量致使“垃圾圍城”的現(xiàn)象成為全球趨勢.日前,大量露天堆放的垃圾嚴重影響居民生活、城市容貌、經(jīng)濟建設(shè)、資源永續(xù)和生態(tài)環(huán)境等.因此,控制未來城市垃圾產(chǎn)量成為各環(huán)保組織的一個重要研究課題.
研究我國城市垃圾產(chǎn)量的變化規(guī)律及發(fā)展趨勢,不但能為城市環(huán)境規(guī)劃運行和監(jiān)管等決策提供數(shù)據(jù)支持,還能為垃圾廢物的清掃、運輸和處理擬定合理的實施方案.可見,有必要建立合適的預(yù)測模型來高效合理的預(yù)測未來幾年的垃圾排放量.
目前,國內(nèi)常用的預(yù)測方法包括灰色分析模型、BP神經(jīng)網(wǎng)絡(luò)模型、多元線性回歸模型、時間序列法等.依據(jù)全省管理現(xiàn)狀,文獻[1-2]通過建立灰色分析模型分別對遼寧省未來2012~ 2020年及西安市2011~2020年的生活垃圾產(chǎn)量進行預(yù)測,模型精度較高,方法合理且有意義.基于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò),文獻[3]基于污染物濃度及可見度,建立風險神經(jīng)網(wǎng)絡(luò)預(yù)測模型,對天津市歷年氣象數(shù)據(jù)檢驗并預(yù)測.文獻[4]以深圳市2004~2012年的生活垃圾產(chǎn)量為樣本,建立基于時間序列分析的ARIMA模型.方法較好地預(yù)測生活垃圾產(chǎn)量的季節(jié)性變化規(guī)律.此外,國外學者Noori等[5]將人工智能技術(shù)中向量機的概念應(yīng)用于垃圾預(yù)測,但該方法發(fā)展不成熟,尚處于摸索階段,存在許多不確定因素.目前,現(xiàn)存的預(yù)測模型大都存在相同的特點,即根據(jù)未篩選的變量集或基于現(xiàn)狀,主觀地篩選變量作為擬影響因素,來建立垃圾產(chǎn)量的預(yù)測模型.
互信息用來度量多個變量間的親密度,即互相包含的信息含量.RBF網(wǎng)絡(luò)衍生于數(shù)值分析中初次提到的多變量插值的徑向基算法[6].與其他多層反向傳播網(wǎng)絡(luò)類似,它是一種包含輸入層、隱含層和輸出層的高效的三層前饋式網(wǎng)絡(luò)拓撲結(jié)構(gòu).RBF網(wǎng)絡(luò)不但收斂速度相對較快,而且能以不同精度逼近連續(xù)函數(shù).
為克服現(xiàn)存方法精度不高,計算量大及未篩選影響因素等問題,本文提出一種基于互信息確定影響因素,徑向基函數(shù)網(wǎng)絡(luò)訓練及相對平均誤差反向修正建立預(yù)測模型的新方法.實驗結(jié)果顯示,采用本文建立的RBF網(wǎng)絡(luò)預(yù)測模型對全國各省市城市垃圾排放量進行預(yù)測,不但具有收斂速度快和預(yù)測精確度較高等優(yōu)勢,還具有一定的理論和實踐意義.
據(jù)統(tǒng)計,對預(yù)測垃圾未來產(chǎn)量的影響要素有很多,比如內(nèi)在因素、自然環(huán)境以及社會經(jīng)濟等[7].本文根據(jù)內(nèi)在因素建立各省份垃圾排放量的預(yù)測模型,其中預(yù)擬影響因素包括地區(qū)生產(chǎn)總值、居民消費水平、社會消費品零售值、金融及建筑業(yè)增加值等18項,預(yù)擬定影響因素及2014年部分省垃圾產(chǎn)量[8](部分數(shù)據(jù))如表1所示.
表1 垃圾產(chǎn)生量及擬定影響因素(部分數(shù)據(jù))Table 1 Waste production and possible influence factors (partial data)
合適的變量集可直接決定模型建立的精確度.一般地,相關(guān)變量有利于建立準確的預(yù)測模型,而冗余變量不但增加模型計算的復(fù)雜度,而且掩蓋變量間的相關(guān)作用.為降低冗余變量帶來的干擾,建立高效的預(yù)測模型,本文利用多變量間的相關(guān)性分析確定一個變量關(guān)系最密切的子變量集.一般地,可以采用獨立成分分析(ICA)[9]、主成分分析(PCA)、典型相關(guān)分析(CCA)、聚類分析和互信息等方法進行多元變量的相關(guān)性分析[10].其中互信息起源于信息論中的熵,即信號在傳輸過程中丟失的信息量,常被用來度量多個變量間的親密度.該方法不但能定性地推測變量間的關(guān)系變化趨勢,還能定量地確定變量間的具體數(shù)值關(guān)系.
下面將基于K-近鄰估計互信息,并根據(jù)互信息篩選影響城市垃圾產(chǎn)生量的主要因素.
定義兩個連續(xù)變量X和Y,假設(shè)μx(x)、μy(y)和u( x, y)依次是X、Y的邊際密度函數(shù)和聯(lián)合密度函數(shù).根據(jù)信息論的相關(guān)理論,X和Y之間的互信息可寫成:
若上式I越大,說明變量X與Y親密度越高,彼此的共同信息量越多.相反,若互信息I值越小,甚至為0時,說明這兩個變量相互包含的信息含量很少,甚至相互獨立.
此外,計算變量X、Y的熵及聯(lián)合熵是估計互信息的另一種簡便方法,如下式:
式中:
由于分別對邊際密度函數(shù)和聯(lián)合密度函數(shù)近似估計會帶來較大誤差,為克服這一缺點,Kraskov等[11]提出了基于K-近鄰的互信息估計法來減少誤差.該算法的主要思想是:假設(shè)連續(xù)變量X和Y構(gòu)成向量空Z=(X, Y),則向量空間內(nèi)每個樣本點zi=(xi, yi)的K-近鄰可利用最大范數(shù)計算:
在空間Z上,假設(shè)樣本點zi=(xi, yi)到其k-近鄰距離為ε(i)/2,且該點投影到X軸和Y軸的距離分別為εx(i )/2和εy(i)/2.在X空間中,到xi的歐氏距離小于ε(i)/2的樣本點的數(shù)目為nx( i);在Y空間中,到y(tǒng)i的歐氏距離小于ε(i)/2的樣本點數(shù)目為ny(i).則X和Y的互信息可由以下公式估計:
式中:ψ(x)為digamma函數(shù),簡記為ψ(x)=Γ(x)-1dΓ(x)/dx ,該式滿足ψ(x+1)=ψ(x)+1/x,ψ(1)≈-0.5772156.若將上述公式擴展到高維空間,多維變量間的互信息可表示為:
由于輸入的多變量之間并非局限于線型關(guān)系,因此,為了分析不同輸入變量對互信息量的影響,本文采用以互信息為基礎(chǔ)的特征選擇[12]算法分析多變量間的相關(guān)關(guān)系,進而識別并移除冗余、無關(guān)的變量.早期Battiti等[13]提出基于互信息的特征選擇MIFS算法,隨后大量改進的評價標準相繼涌現(xiàn),如MIFS-U[14]、mRMR[15]、PMI[16]、NMIFS[17]、CMINN[18]等.下文引入多變量信息作為選擇相關(guān)變量的評價標準[19-20],即在高維空間中多個變量間的互信息.在該方法中,對于給定的輸入特征變量,該方法既考慮與輸出特征變量也考慮與已選特征變量的關(guān)系.
假設(shè)3個連續(xù)變量X、Y和Z的互信息記為I( X; Y;Z),則其可表示為:
式中:上式前項稱為條件互信息量[21],即在已知某個條件Z的情況下,變量X和Y通訊傳遞后獲得的信息量.條件互信息可表示為:
因此,條件互信息一定為非負值,結(jié)合上節(jié)基于K-近鄰的互信息估計,該條件互信息估計可寫為:
根據(jù)上述公式(2)、(9)和(11)可以估計連續(xù)變量X、Y和Z的互信息.但是,與條件互信息不同,多變量互信息的值可能為正值也可為負值.當多信息I>0時,說明特征變量X和Y互補;當多信息I<0時,意味著Z是冗余變量,故當添加Z作為條件時反而降低X與Y的依賴程度;當多信息I=0時,表示Y和Z之間的依賴關(guān)系與X基本無關(guān).依據(jù)上述性質(zhì),本文關(guān)于多特征變量選擇評價標準的定義如下:
式中:X為待選變量;Y為已選變量;Z為類變量;β為用戶自定義量.上式用來衡量變量Y和Z的依賴性受變量X影響的程度.當滿足上述公式時,則認為X是相關(guān)變量,否則是冗余變量.
綜上,假設(shè)算法的輸入變量分別是: U=D(F,C)為訓練數(shù)據(jù)集,F為所有輸入特征變量,C為類變量;輸出變量是選擇特征集S,則基于 K-近鄰互信息方法確定影響因素的步驟如表2:
表2 基于K-近鄰互信息的確定影響因素算法Table 2 Algorithm of determining influence factors based on k-neighbor mutual information
與其他多層反向傳播網(wǎng)絡(luò)類似,徑向基網(wǎng)絡(luò)函數(shù)是一種包含輸入層、隱含層和輸出層的收斂速度很快的3層前饋式網(wǎng)絡(luò)拓撲結(jié)構(gòu),它不但有可能滿足實時性要求,而且能以不同精度逼近連續(xù)函數(shù).本文關(guān)于預(yù)測城市垃圾產(chǎn)生量的RBF網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
圖1 RBF網(wǎng)絡(luò)Fig.1 Radial basis function network
在上述模型中,輸入層是由樣本數(shù)據(jù)構(gòu)成,輸出單元是對隱單元激活后的簡單線性函數(shù).通過對激活函數(shù)參數(shù)的調(diào)整,隱含層神經(jīng)元不但能將低維空間模式轉(zhuǎn)成高維空間,還能將非線性映射轉(zhuǎn)換成線性映射.當輸入樣本值越鄰近基函數(shù)的中心,隱含層單元的激活程度越高、權(quán)重越高,故RBF網(wǎng)絡(luò)的輸出值為:
本文采用兩階段預(yù)測垃圾產(chǎn)量的方法,第一階段基于RBF網(wǎng)絡(luò)訓練出初始預(yù)測模型.該階段首先根據(jù)改進的K-means++算法確定徑向基函數(shù)網(wǎng)絡(luò)的隱含層節(jié)點中心,然后利用梯度下降法調(diào)節(jié)基函數(shù)中心c、擴展常數(shù)σ和權(quán)值w等參數(shù).第二階段利用相對平均誤差對初始模型反向誤差修正獲得垃圾產(chǎn)生量的最終預(yù)測模型.
考慮到影響城市垃圾產(chǎn)生量的因素的基本量綱不同,為消除不同量綱對實驗結(jié)果造成的影響,首先對所有輸入數(shù)據(jù)進行歸一化預(yù)處理,即把所有因素轉(zhuǎn)化為0~1之間的數(shù)據(jù).通過歸一化不僅提高模型的精度,也增加模型收斂速度.我們采用線性變換對所有影響因素進行歸一化:
式中:min和max分別為訓練樣本數(shù)據(jù)的最小值和最大值.此外,實驗結(jié)束時還通過反歸一化恢復(fù)數(shù)據(jù).
2.2.1 確定聚類中心 本文基于一種改進的方法——K-means++聚類[22]算法確定徑向基函數(shù)的中心并且以自適應(yīng)的方式確定隱含層單元數(shù)量k.替代傳統(tǒng)的隨機選取,利用K-means++聚類網(wǎng)絡(luò)初始化k個聚類中心,然后根據(jù)K-means方法重新調(diào)整聚類中心.關(guān)于確定初始聚類中心算法如表3所示,自適應(yīng)確定隱含層單元數(shù)量k值的方法如表4所示:
2.2.2 確定擴展常數(shù) 根據(jù)上節(jié)可確定的每個徑向基函數(shù)的中心距離其他徑向基函數(shù)中心的最短距離di=mjin(ci-cj),j=1,2,...k ,其中ci為徑向基函數(shù)中心,且j≠i,λ為重疊系數(shù),則擴展常數(shù)σi為可表示為:
2.2.3 確定權(quán)值 本文假設(shè)隨機給定[-1,1]的數(shù)值確定隱含層節(jié)點至輸出層節(jié)點之間的權(quán)值wi( i=1,2,...k ).
根據(jù)RBF網(wǎng)絡(luò)拓撲結(jié)構(gòu)可知,通過調(diào)節(jié)最小化目標函數(shù)中隱單元中心、擴展常數(shù)和權(quán)值來實現(xiàn)梯度網(wǎng)絡(luò)訓練.神經(jīng)網(wǎng)絡(luò)學習的目標函數(shù)為:
表3 確定初始聚類中心的算法Table 3 Algorithm of determining initial clustering centers
表4 自適應(yīng)確定k值方法Table 4 Adaptive determination of k value method
式中:E為徑向基函數(shù)的全局誤差;k為隱含層節(jié)點的數(shù)量;ei為第i個樣本點的預(yù)測模型輸出值和實際值的誤差,計算如下:
到0.93 V,體偏置從0.6 V到-1.8 V,而PMOS閾值電壓從-0.32 V降低到-1.01V,體偏置從-0.6 V到1.8 V。
式中:yi為樣本實際值;f( xi)為該樣本經(jīng)RBF網(wǎng)絡(luò)訓練的輸出值;m為輸入樣本的數(shù)量;wj為隱含層到輸出層單元的權(quán)重,Φ(Xi-cj)為基函數(shù),本文選用高斯函數(shù)作為激活函數(shù);Xi為第i個樣本的輸入值;cj為第j個徑向基函數(shù)的中心.
為使目標函數(shù)E最小,本文采用梯度下降法調(diào)節(jié)徑向基函數(shù)中心c、擴展常數(shù)σ和權(quán)值w:
式中:η為學習率,采用自適應(yīng)調(diào)節(jié)學習率的方法,當前迭代次數(shù)記為i,總共迭代次數(shù)記為n,學習率與迭代次數(shù)間的關(guān)系可表示為:
重復(fù)上述過程,直至完成迭代,或當前預(yù)測值與真實值的方差小于用戶定義的最小方差,即S2<,則迭代結(jié)束,初始模型訓練完成.
采用上述方法對全國各省市垃圾產(chǎn)量建立徑向基網(wǎng)絡(luò)函數(shù)獲得初始預(yù)測模型,但不同省份對徑向基函數(shù)網(wǎng)絡(luò)的適應(yīng)性不同.下面利用相對平均誤差反向修正初始結(jié)果獲得最終預(yù)測模型.具體修正方式如下:
綜上所述,基于徑向基函數(shù)(RBF)網(wǎng)絡(luò)建立全國城市垃圾排放量預(yù)測模型的基本思路如下:已知樣本輸入數(shù)據(jù),通過徑向基函數(shù)網(wǎng)絡(luò)構(gòu)造的線性公式,利用樣本預(yù)測值和實際值間的誤差調(diào)節(jié)徑向基函數(shù)中心、擴展常數(shù)和權(quán)值,經(jīng)過誤差反向修正,獲得最終預(yù)測模型.模型預(yù)測流程如圖2所示:
圖2 預(yù)測模型流程Fig.2 The flow chart of the prediction model
選取我國各省2004~2011年垃圾產(chǎn)生量的影響因素和2006~2013年的垃圾產(chǎn)生量的實際數(shù)據(jù)作為網(wǎng)絡(luò)訓練樣本,2012~2013年的影響因素和2014~2015年的垃圾量數(shù)據(jù)為模型檢驗樣本,并利用該模型預(yù)測及可視化全國各省市2017~2018年的垃圾產(chǎn)量.
首先對18個擬影響因素(表1中僅列出了其中9個)建立K-近鄰估計互信息,根據(jù)互信息篩選出對城市垃圾產(chǎn)生量有主要影響的8個因素,即預(yù)測模型的輸入變量.確定的影響因素分別為常住人口、地區(qū)生產(chǎn)總值、社會消費品零售值、金融業(yè)增加值、工業(yè)增加值、批發(fā)和零售業(yè)增加值、住宿和餐飲業(yè)增加值和第三產(chǎn)業(yè)增加值.其中,社會消費品零售值與城市垃圾產(chǎn)生量負相關(guān),其他項與城市垃圾產(chǎn)生量正相關(guān).
根據(jù)RBF網(wǎng)絡(luò)的拓撲結(jié)構(gòu),采用兩階段的徑向基函數(shù)網(wǎng)絡(luò)對垃圾產(chǎn)量進行預(yù)測,并以Choropleth地圖對全國各省的垃圾產(chǎn)生量進行可視化.Choropleth地圖(也稱為分級統(tǒng)計圖)是指對數(shù)據(jù)屬性值劃分為不同等級,并選擇合適的色級,以反映數(shù)據(jù)在地理上的分布差異.通過比較2014~2015年全國各省檢驗樣本基于RBF模型的預(yù)測值和實際輸出值,獲得模型的相對誤差及平均相對誤差.由于檢驗樣本數(shù)據(jù)量較大,表5僅列出部分省市數(shù)據(jù)、樣本最優(yōu)相對誤差和平均相對誤差.表中平均相對誤差為所有樣本數(shù)據(jù)相對誤差的平均值.圖3為浙江省垃圾產(chǎn)量預(yù)測變化曲線.圖4為基于Choropleth地圖我國2015~2016年垃圾產(chǎn)生量的分布圖及2017~2018年的垃圾產(chǎn)生量預(yù)測分布.
圖3 浙江省垃圾產(chǎn)生量預(yù)測變化曲線Fig.3 The prediction curve of waste production in Zhejiang province
表5 實際與預(yù)測數(shù)據(jù)對比(部分數(shù)據(jù))Table 5 Comparison between actual and predicted data (partial data)
實驗結(jié)果發(fā)現(xiàn):由圖4所示,近幾年廣東省垃圾產(chǎn)量在全國范圍內(nèi)一直位居首位.整體而言,華東地區(qū)垃圾產(chǎn)生量較多且有明顯增多的跡象.大部分省市垃圾產(chǎn)生量有略微的增長,其中山東省增長最快;少量省市垃圾產(chǎn)生量降低,其中黑龍江和吉林減少最明顯.由圖3所示,浙江省垃圾產(chǎn)量模型曲線擬合比較好.
對比現(xiàn)有相關(guān)文獻,文獻[2]采用GM(1,1)模型預(yù)測建成土地面積及居民可支配收入的相對平均誤差為5.7%和11.11%.文獻[4]建立ARIMA模型的相對平均誤差為5.288%,但最大絕對百分比誤差高達 25.775%.本文通過對2014~2015年全國各省市檢驗樣本基于RBF模型得到的預(yù)測值和實際輸出值的比較,理論上計算得出相對平均誤差是6.43%,相當于預(yù)測精度為93.57%.其中,相對平均誤差最優(yōu)值為0.1%,相當于預(yù)測精度為99.9%. 近些年,隨著城市生活垃圾管理體系的不斷變化,垃圾的處理方式在不斷升級,從露天堆積和焚燒、隨地填埋到資源回收再利用,再到盡力減少源頭垃圾量.由于本文目標是預(yù)測2017~2018年的垃圾產(chǎn)生量,一般地,在短期內(nèi)垃圾的管理方式變化基本不大,故對本文的預(yù)測模型影響不大.因此,本文建立的兩段式徑向基函數(shù)網(wǎng)絡(luò)模型的預(yù)測精度較高,能較好的對城市垃圾的產(chǎn)生量進行預(yù)測.
圖4 基于2015~2018年Choropleth的垃圾產(chǎn)生量可視化分布Fig.4 The visualization of waste production based on Choropleth from 2015 to 2018
運用具有較強非線性處理能力和逼近能力的徑向基函數(shù)網(wǎng)絡(luò)建立預(yù)測模型,并預(yù)測及可視化我國2017~2018年全國各省市垃圾排放量.
由于城市垃圾產(chǎn)量受到許多因素的影響,合適的變量集可直接決定模型的預(yù)測精度.故本文首先基于K-近鄰互信息的多變量選擇特征準則剔除冗余、無關(guān)因素,從18個擬影響因素中確定了8個影響垃圾排放量的因子;然后基于RBF網(wǎng)絡(luò)訓練得出垃圾產(chǎn)生量初始預(yù)測模型,并對初始預(yù)測結(jié)果誤差反向修正獲得最終預(yù)測模型.通過比較檢驗樣本預(yù)測值和實際觀測值,大部分省市垃圾產(chǎn)生量仍有略微的增長,尤其廣東省穩(wěn)居首位,相反,黑龍江和吉林等少量省市垃圾產(chǎn)生量有所降低.
[1] 王東明,呂洪濤.基于灰色預(yù)測模型的遼寧省城市生活垃圾產(chǎn)生量預(yù)測 [J]. 環(huán)境保護與循環(huán)經(jīng)濟, 2013,33(4):30-31+44.
[2] 李艷平,麻敏潔,魯來鳳.基于多模型擬合的西安市生活垃圾量預(yù)測 [J]. 計算機工程與應(yīng)用, 2015,(6):222-226.
[3] 王 愷,趙 宏,劉愛霞,等.基于風險神經(jīng)網(wǎng)絡(luò)的大氣能見度預(yù)測 [J]. 中國環(huán)境科學, 2009,29(10):1029-1033.
[4] 吳靈玲,盧加偉,廖利,等.基于ARIMA模型的生活垃圾產(chǎn)生量預(yù)測 [J]. 環(huán)境衛(wèi)生工程, 2013,(5):1-4.
[5] Noori R, Abdoli M A, Ghasrodashti A A, et al. Prediction of municipal solid waste generation with combination of support vector machine and principal component analysis:a case study of mashhad [J]. Environmental Progress & Sus-tainable Energy,2009,28(2):249-258.
[6] 鄭劍鋒,焦繼東,孫力平.基于神經(jīng)網(wǎng)絡(luò)的城市內(nèi)湖水華預(yù)警綜合建模方法研究 [J]. 中國環(huán)境科學, 2017,37(5):1872-1878.
[7] 何德文,金 艷,柴立元,等.國內(nèi)大中城市生活垃圾產(chǎn)生量與成分的影響因素分析 [J]. 環(huán)境衛(wèi)生工程, 2005,13(4):7-10.
[8] 國家統(tǒng)計局.中國統(tǒng)計年鑒 [M]. 北京:中國統(tǒng)計出版社,2016:71-612.
[9] Lee T W. Independent Component Analysis: Theory and Applications. Boston: Kluwer Academic Publisher, 1998.
[10] 王展青.核統(tǒng)計成分分析及其在人臉識別中的應(yīng)用研究 [D].華中科技大學, 2008.
[11] Alexander Kraskov, Harald Stogbauer, Peter Grassberger.Estimating mutual information [J]. Physical Review E. 2004,69(6):066138.
[12] 邊肇祺,張學工.模式識別 [M]. 北京:清華大學出版社, 2000:176-177.
[13] Battiti R. Using mutual information for selecting features in supervised neural net learning. [J]. IEEE Transactions on Neural Networks, 1994,5(4):537-550.
[14] Kwak N, Choi C H. Input feature selection for classification problems. [J]. IEEE Transactions on Neural Networks, 2002,13(1):143-159.
[15] Peng H, Long F, Ding C. Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy [J]. IEEE Transactions on Pattern Analysis &Machine Intelligence, 2005,27(8):1226-38.
[16] May R J, Maier H R, Dandy G C, et al. Non-linear variable selection for artificial neural networks using partial mutual information [J]. Environmental Modelling & Software, 2008,23(10/11):1312-1326.
[17] Estévez P A, Tesmer M et al. Normalized mutual information feature selection [J]. IEEE Transactions on Neural Networks,2009,20(2):189-201.
[18] Tsimpiris A, Vlachos I, Kugiumtzis D. Nearest neighbor estimate of conditional mutual information in feature selection [J]. Expert Systems with Applications, 2012,39(16):12697-12708.
[19] Mcgill W J. Multivariate information transmission [J].Psychometrika, 1954,19(2):93-111.
[20] Vergara J R, Estévez P A. A review of feature selection methods based on mutual information [J]. Neural Computing and Applications, 2014,24(1):175-186.
[21] Tsimpiris A, Vlachos I, Kugiumtzis D. Nearest neighbor estimate of conditional mutual information in feature selection [J]. Expert Systems with Applications, 2012,39(16):12697-12708.
[22] Arthur D, Vassilvitskii S. k-Means++: the advantages of careful seeding, in: SODA ’07 [C]. Proceedings of the Eighteenth Annual ACM-SIAM Symposiumon Discrete algorithms, Society for Industrial and Applied Mathematics, 2007:1027-1035.