摘要:聚類分析是數(shù)據(jù)挖掘中研究和應用的一個重要部分,層次聚類是目前應用最為廣泛的一種聚類方法。本文針對層次聚類不可逆,需要用戶指定所期望得到的聚類個數(shù)和閾值作為聚類過程的終止條件等缺陷,提出了一種利用簇間差異度進行簇自動合并的動態(tài)聚類算法(DMCA),進而對江蘇省13個地市技術創(chuàng)新能力做出了聚類分析及綜合評價,驗證了方法的可行性和有效性。數(shù)據(jù)處理結(jié)果表明,該方法可為相關管理部門提供科學量化的決策評價模型。
關鍵詞:層次聚類 動態(tài)聚類 差異度 江蘇省 技術創(chuàng)新
一、引言
科技創(chuàng)新能力是衡量一個國家和地區(qū)發(fā)展實力的標志,國家“十二五”規(guī)劃綱要[1]和江蘇省“十二五”規(guī)劃綱要[2]都把增強科技創(chuàng)新能力作為提升科技綜合實力的關鍵。《中國科技發(fā)展研究報告》提出,科技創(chuàng)新能力評價指標由以下五個方面構(gòu)成:技術創(chuàng)新環(huán)境、技術創(chuàng)新投入、技術創(chuàng)新能力、創(chuàng)新經(jīng)濟績效、科技綜合能力[3]。本文的評價指標體系便是基于以上五個方面,并借鑒了文獻[4]中的指標體系進行展開的[4]。
關于技術創(chuàng)新能力方面的文獻比較豐富,但提供科學量化決策評價方法,并對評價方法進行比較的文獻卻相對較少。聚類分析是研究多要素事物分類問題的數(shù)量方法,可以解釋對象之間、特征之間以及對象和特征之間錯綜復雜的關系,能為量化綜合評價提供科學的參考模型。
聚類分析方法中,層次聚類方法是應用最廣的聚類技術。盡管層次聚類適用面廣,但選擇適當?shù)暮喜⒒蚍至腰c十分困難,如果在某一步?jīng)]有很好地選擇合并或分裂的決定,可能會直接導致聚類質(zhì)量受到限制。另外,層次聚類過程中用戶必須決定聚類在什么時候停止,以得到某個數(shù)量的分類,否則算法的輸出結(jié)果總是一個聚類[5]。針對層次聚類的缺陷,本文以簇間差異度作為簇自動合并與分裂的準則提出了一種動態(tài)合并聚類算法,該算法不需要用戶預先設定聚類閥值動態(tài)的進行簇的劃分,自動決定簇的合并及分裂過程,最終找到一個最佳的聚類。進而以江蘇省13個地市的科技創(chuàng)新能力指標值為實驗數(shù)據(jù),對江蘇省科技創(chuàng)新能力進行了聚類分析及綜合評價。
二、相關原理與定義
(一)層次聚類原理
層次聚類方法[6]是通過將數(shù)據(jù)組織為若干組并形成一個相應的樹來進行聚類的,根據(jù)聚類樹圖形成的方式,層次聚類方法可分為自頂向下的分裂算法和自底向上的合并算法兩種。合并的層次聚類方法由于具體實施過程更為簡單實用,所以大多數(shù)層次聚類方法都是合并式的[7],該方法的基本思想是:采用自底向上的策略,首先將每個對象作為一個簇,然后按距離準則逐步合并這些原子簇,減少聚類數(shù),直到所有的對象都在一個簇中,或者某個終結(jié)條件被滿足為止。
(二)相關定義
定義1 歐式距離:設p維空間內(nèi)的點X=(x1,x2,...,xp)'及Y=(y1,y2,...,yp)',定義兩點之間的歐式距離為:
■(1)
歐式距離是聚類分析中常見的一種相似性度量方法,它可以用來表示樣本點之間的相近程度,距離較近的樣本點性質(zhì)較相似,距離較遠的樣本點差異較大。
定義2 類間最短距離:聚類過程中,涉及到類和類之間的合并,因此要考慮到類間距離的度量。廣泛采用的類間距離度量方法有以下四種:最小距離法、最大距離法、類平均距離法、重心法。本文采用最小距離法,即類間最短距離作為類間合并準則。設A、B是兩個聚類,則兩類間的最短距離定義為:
Dmin(A,B)=min{d(xA ,xB)}xA∈A,xB∈B(2)
其中d(xA ,xB)表示A類中的樣本xA和B類中的樣本xB之間的歐氏距離;dmin(A,B)表示A類中的所有樣本與B類中的所有樣本之間的最小距離。如果一個類C,由A和B兩類合并而成,即C=A∪B,則C與另外一個類D之間的最短距離為:
Dmin(C,D)=min{dAD,dBD} (3)
定義3 類內(nèi)平均距離:設類C包含個聚類{C1,C2,...,Cc},每個聚類Ci中含有ni個樣本,i=1,2,...c,則類X的類內(nèi)平均距離定義為:
■ (4)
三、動態(tài)合并聚類算法(DMCA)
(一)算法思想
層次聚類通過對樣本和變量數(shù)據(jù)的不同特征指標值進行差異程度計算,根據(jù)變量或樣本間差異程度的大小重新結(jié)合分類,產(chǎn)生一個更有效的類。但層次聚類方法是不可逆的,兩個簇合并后,無法通過再將其分離到之前的狀態(tài),而且需要用戶指定所期望得到的聚類個數(shù)和閾值作為聚類過程的終止條件,這是很難事先判定的[8]。
基于合并式層次聚類,本文提出了一種動態(tài)合并聚類算法(Dynamic-Merge Cluster Algorithm)DMCA。該算法的核心思想是:兩個子簇是否合并依據(jù)簇間的相對接近度和相對互聯(lián)度來評定,本文把這種簇間的相對接近度定義為簇間差異度,將兩個簇之間的最短距離與它們各自的類內(nèi)平均距離進行比較,從而決定是否合并兩個類。通過采用簇間差異度作為簇自動合并與分裂的準則,可以克服層次聚類不可逆,且需預先設定閥值的缺陷。由于引入一種新的度量依據(jù),而不是僅僅利用原來的類間最短距離準則進行簇合并,因此可以實現(xiàn)不需預知簇個數(shù)的聚類和在未知簇劃分信息的情況下對數(shù)據(jù)集自動進行聚類分析。
(二)合并準則
設兩個聚類Ci和Cj,依據(jù)公式(1)和(2),它們的類間最短距離為Dmin(Ci,Cj);依據(jù)公式(4),它們的類內(nèi)平均距離為R(Ci)和R(Cj),則Ci和Cj之間的簇間差異度σij的定義如公式(5)。
σij=min{(Dmin(Ci,Cj)-R(Ci)),(Dmin(Ci,Cj)-R(Cj))} (5)
合并準則:如果σij≤0,說明兩個簇離得很近并且互聯(lián)度較高,那么將類Ci和Cj合并成為一類Cij;如果σij>0,表明兩個簇之間的最短距離要大于它們各自的類內(nèi)平均距離,則把類Ci和Cj分別作為兩個不同的類進行劃分。
(三)算法描述
算法:動態(tài)合并聚類算法(DMCA)
輸入:輸入包含N個對象的數(shù)據(jù)集
輸出:輸出經(jīng)過自動合并后的聚類結(jié)果
步驟1:N個初始數(shù)據(jù)樣本自成一類,按照公式(1)計算各類之間(各樣本間)的距離,得到初始化的距離矩陣;
步驟2:對距離矩陣中N(N-1)/2個元素按照距離從小到大的順序進行快速排序,并將其存儲在一維數(shù)組D中;
步驟3:對D中的當前元素Dij,首先判斷類Ci和Cj是否已經(jīng)被合并到類中,如果沒有,計算類Ci和Cj之間的簇間差異度σij;
步驟4:判斷σij,如果σij≤0,將類Ci和Cj合并成為一類Cij,并從簇序列中用Cij替換掉Ci、Cj,否則轉(zhuǎn)向步驟5;
步驟5:取數(shù)組D中的下一個元素,重復2—4,直到簇序列中沒有能合并的簇為止;
步驟6:輸出合并后的聚類結(jié)果。
四、DMCA在江蘇省城市科技創(chuàng)新能力評價的應用
江蘇省共轄13個地級市,按經(jīng)濟發(fā)展水平可分成三類不同地區(qū),即蘇南、蘇中和蘇北。蘇南為江蘇省發(fā)達地區(qū),蘇中為次發(fā)達的過渡地區(qū),蘇北為欠發(fā)達的地區(qū)。
本文根據(jù)2011年江蘇省統(tǒng)計年鑒[9]和參考文獻[4],選取了江蘇省13個地級市的5項科技創(chuàng)新能力指標數(shù)據(jù),如表1所示。其中包括:技術創(chuàng)新環(huán)境、技術創(chuàng)新投入、技術創(chuàng)新能力、創(chuàng)新經(jīng)濟績效、科技綜合能力。
采用DMCA算法對其進行聚類分析,聚類分析結(jié)果如表2所示。從表2中可以看出,本文算法可以在預先不設定閥值的條件下,自動將聚類結(jié)果合并成三類,符合江蘇省的實際發(fā)展情況,而K-means算法和層次聚類算法在聚類個數(shù)為4的條件下,雖然聚類結(jié)果相同,但與江蘇省實際情況不符。在聚類個數(shù)為3的條件下,采用三種聚類算法得到的第三類的聚類結(jié)果相同,第一、二類有所不同,K-means算法把蘇州單獨歸為一類,出現(xiàn)了孤立點,影響了聚類結(jié)果;層次聚類算法和本文算法聚類結(jié)果的區(qū)別在于把常州歸為第一類還是第二類,根據(jù)分析比較,常州與蘇州、無錫、南京歸為一類比較好。從以上分析,可以清晰的看出動態(tài)合并聚類算法的優(yōu)勢所在,使用本算法不僅能提高聚類質(zhì)量,而且聚類結(jié)果更加符合實際,更具參考價值。
根據(jù)聚類結(jié)果比較,科技創(chuàng)新能力排在江蘇省前四位的城市分別為蘇州市、無錫市、南京市、常州市。這些地市一般都具有以下特點:相對于科技創(chuàng)新能力較弱的地區(qū),這些地市都具有相對較好的科技基礎,吸引外資相對較多,尤其是蘇州,已成為中國吸引外資最多的城市,帶動了高新技術產(chǎn)業(yè)的發(fā)展,也提高了科技創(chuàng)新的綜合競爭實力。蘇中的南通、揚州、鎮(zhèn)江、泰州四地市綜合排名大體處于中等水平;蘇北的淮安、宿遷、鹽城、連云港、徐州五地市的綜合排名則為最后五名??梢钥闯?,江蘇省各地級市科技創(chuàng)新能力分布不平衡,蘇南地區(qū)的科技創(chuàng)新能力優(yōu)勢明顯,蘇中地區(qū)的科技創(chuàng)新能力有待提高,蘇北地區(qū)科技創(chuàng)新能力偏弱,需要大力加強科技創(chuàng)新投入和出臺相應的政策措施來推動科技創(chuàng)新能力的發(fā)展。
五、結(jié)束語
本文基于合并式層次聚類的思想,闡述了一種采用簇間差異度進行簇自動合并劃分的動態(tài)合并聚類算法,克服了層次劃分方法不可逆、需要預先設定聚類閥值等缺陷。通過實踐,將其運用到江蘇省技術創(chuàng)新能力評價實例中,為江蘇省13個地市的科技創(chuàng)新能力提供了科學量化決策評價,驗證了算法的可行性與有效性。與其他聚類方法相比,本算法聚類結(jié)果更加符合客觀實際,從而對各地區(qū)科技創(chuàng)新能力分析提供了參考?!?/p>
參考文獻:
[1]中國網(wǎng).中華人民共和國國民經(jīng)濟和社會發(fā)展第十二個五年規(guī)劃綱要(全文)[EB/OL].http://www.china.com.cn/policy/txt/
2011—03/16/content_22156007.htm
[2]江蘇省發(fā)展規(guī)劃中心.江蘇省“十二五”規(guī)劃綱要(全文)[EB/OL].http://jsdp.njnu.edu.cn/Article/news_vi-
ew. asp?newsid=928,2011.7.6
[3]《中國科技發(fā)展研究報告》研究組. 中國科技發(fā)展研究報(2000)—科技全球化及中國面臨的挑戰(zhàn)[M].北京:社會科學文獻出版社,2000.
[4]王芳. 江蘇省科技創(chuàng)新能力的評價及對策[J].科技經(jīng)濟市場,2009(7):63—64
[5]Xu R,Wunsch D.Clustering[M]. New York:IEEE Pr-
ess,2009:20—40
[6]Sambasivam,Theodosopoulos.Advanced data clus-
tering methods of mining web documents. Issues in Informing Science and Information Technology, 2006,8(3): 563—579
[7]Ian Davidson, S. S. Ravi,Using instance—level
constraints in agglomerative hierarchical clustering:theoretical and empirical results, Data Mining and Knowledge Discovery,2009,18(2):257—282
[8]段明秀.層次聚類算法的研究與應用[J].中南大學碩士學位論文,2009
[9]江蘇省統(tǒng)計局編:江蘇統(tǒng)計年鑒2011[M].北京:中國統(tǒng)計出版社
(董智,1970年生,江蘇徐州人,江蘇師范大學外國語學院國際交流系講師。研究方向:市場營銷、物流管理、國際商務文化)
(三)算法描述
算法:動態(tài)合并聚類算法(DMCA)
輸入:輸入包含N個對象的數(shù)據(jù)集
輸出:輸出經(jīng)過自動合并后的聚類結(jié)果
步驟1:N個初始數(shù)據(jù)樣本自成一類,按照公式(1)計算各類之間(各樣本間)的距離,得到初始化的距離矩陣;
步驟2:對距離矩陣中N(N-1)/2個元素按照距離從小到大的順序進行快速排序,并將其存儲在一維數(shù)組D中;
步驟3:對D中的當前元素Dij,首先判斷類Ci和Cj是否已經(jīng)被合并到類中,如果沒有,計算類Ci和Cj之間的簇間差異度σij;
步驟4:判斷σij,如果σij≤0,將類Ci和Cj合并成為一類Cij,并從簇序列中用Cij替換掉Ci、Cj,否則轉(zhuǎn)向步驟5;
步驟5:取數(shù)組D中的下一個元素,重復2—4,直到簇序列中沒有能合并的簇為止;
步驟6:輸出合并后的聚類結(jié)果。
四、DMCA在江蘇省城市科技創(chuàng)新能力評價的應用
江蘇省共轄13個地級市,按經(jīng)濟發(fā)展水平可分成三類不同地區(qū),即蘇南、蘇中和蘇北。蘇南為江蘇省發(fā)達地區(qū),蘇中為次發(fā)達的過渡地區(qū),蘇北為欠發(fā)達的地區(qū)。
本文根據(jù)2011年江蘇省統(tǒng)計年鑒[9]和參考文獻[4],選取了江蘇省13個地級市的5項科技創(chuàng)新能力指標數(shù)據(jù),如表1所示。其中包括:技術創(chuàng)新環(huán)境、技術創(chuàng)新投入、技術創(chuàng)新能力、創(chuàng)新經(jīng)濟績效、科技綜合能力。
采用DMCA算法對其進行聚類分析,聚類分析結(jié)果如表2所示。從表2中可以看出,本文算法可以在預先不設定閥值的條件下,自動將聚類結(jié)果合并成三類,符合江蘇省的實際發(fā)展情況,而K-means算法和層次聚類算法在聚類個數(shù)為4的條件下,雖然聚類結(jié)果相同,但與江蘇省實際情況不符。在聚類個數(shù)為3的條件下,采用三種聚類算法得到的第三類的聚類結(jié)果相同,第一、二類有所不同,K-means算法把蘇州單獨歸為一類,出現(xiàn)了孤立點,影響了聚類結(jié)果;層次聚類算法和本文算法聚類結(jié)果的區(qū)別在于把常州歸為第一類還是第二類,根據(jù)分析比較,常州與蘇州、無錫、南京歸為一類比較好。從以上分析,可以清晰的看出動態(tài)合并聚類算法的優(yōu)勢所在,使用本算法不僅能提高聚類質(zhì)量,而且聚類結(jié)果更加符合實際,更具參考價值。
根據(jù)聚類結(jié)果比較,科技創(chuàng)新能力排在江蘇省前四位的城市分別為蘇州市、無錫市、南京市、常州市。這些地市一般都具有以下特點:相對于科技創(chuàng)新能力較弱的地區(qū),這些地市都具有相對較好的科技基礎,吸引外資相對較多,尤其是蘇州,已成為中國吸引外資最多的城市,帶動了高新技術產(chǎn)業(yè)的發(fā)展,也提高了科技創(chuàng)新的綜合競爭實力。蘇中的南通、揚州、鎮(zhèn)江、泰州四地市綜合排名大體處于中等水平;蘇北的淮安、宿遷、鹽城、連云港、徐州五地市的綜合排名則為最后五名??梢钥闯?,江蘇省各地級市科技創(chuàng)新能力分布不平衡,蘇南地區(qū)的科技創(chuàng)新能力優(yōu)勢明顯,蘇中地區(qū)的科技創(chuàng)新能力有待提高,蘇北地區(qū)科技創(chuàng)新能力偏弱,需要大力加強科技創(chuàng)新投入和出臺相應的政策措施來推動科技創(chuàng)新能力的發(fā)展。
五、結(jié)束語
本文基于合并式層次聚類的思想,闡述了一種采用簇間差異度進行簇自動合并劃分的動態(tài)合并聚類算法,克服了層次劃分方法不可逆、需要預先設定聚類閥值等缺陷。通過實踐,將其運用到江蘇省技術創(chuàng)新能力評價實例中,為江蘇省13個地市的科技創(chuàng)新能力提供了科學量化決策評價,驗證了算法的可行性與有效性。與其他聚類方法相比,本算法聚類結(jié)果更加符合客觀實際,從而對各地區(qū)科技創(chuàng)新能力分析提供了參考?!?/p>
參考文獻:
[1]中國網(wǎng).中華人民共和國國民經(jīng)濟和社會發(fā)展第十二個五年規(guī)劃綱要(全文)[EB/OL].http://www.china.com.cn/policy/txt/
2011—03/16/content_22156007.htm
[2]江蘇省發(fā)展規(guī)劃中心.江蘇省“十二五”規(guī)劃綱要(全文)[EB/OL].http://jsdp.njnu.edu.cn/Article/news_vi-
ew. asp?newsid=928,2011.7.6
[3]《中國科技發(fā)展研究報告》研究組. 中國科技發(fā)展研究報(2000)—科技全球化及中國面臨的挑戰(zhàn)[M].北京:社會科學文獻出版社,2000.
[4]王芳. 江蘇省科技創(chuàng)新能力的評價及對策[J].科技經(jīng)濟市場,2009(7):63—64
[5]Xu R,Wunsch D.Clustering[M]. New York:IEEE Pr-
ess,2009:20—40
[6]Sambasivam,Theodosopoulos.Advanced data clus-
tering methods of mining web documents. Issues in Informing Science and Information Technology, 2006,8(3): 563—579
[7]Ian Davidson, S. S. Ravi,Using instance—level
constraints in agglomerative hierarchical clustering:theoretical and empirical results, Data Mining and Knowledge Discovery,2009,18(2):257—282
[8]段明秀.層次聚類算法的研究與應用[J].中南大學碩士學位論文,2009
[9]江蘇省統(tǒng)計局編:江蘇統(tǒng)計年鑒2011[M].北京:中國統(tǒng)計出版社
(董智,1970年生,江蘇徐州人,江蘇師范大學外國語學院國際交流系講師。研究方向:市場營銷、物流管理、國際商務文化)
(三)算法描述
算法:動態(tài)合并聚類算法(DMCA)
輸入:輸入包含N個對象的數(shù)據(jù)集
輸出:輸出經(jīng)過自動合并后的聚類結(jié)果
步驟1:N個初始數(shù)據(jù)樣本自成一類,按照公式(1)計算各類之間(各樣本間)的距離,得到初始化的距離矩陣;
步驟2:對距離矩陣中N(N-1)/2個元素按照距離從小到大的順序進行快速排序,并將其存儲在一維數(shù)組D中;
步驟3:對D中的當前元素Dij,首先判斷類Ci和Cj是否已經(jīng)被合并到類中,如果沒有,計算類Ci和Cj之間的簇間差異度σij;
步驟4:判斷σij,如果σij≤0,將類Ci和Cj合并成為一類Cij,并從簇序列中用Cij替換掉Ci、Cj,否則轉(zhuǎn)向步驟5;
步驟5:取數(shù)組D中的下一個元素,重復2—4,直到簇序列中沒有能合并的簇為止;
步驟6:輸出合并后的聚類結(jié)果。
四、DMCA在江蘇省城市科技創(chuàng)新能力評價的應用
江蘇省共轄13個地級市,按經(jīng)濟發(fā)展水平可分成三類不同地區(qū),即蘇南、蘇中和蘇北。蘇南為江蘇省發(fā)達地區(qū),蘇中為次發(fā)達的過渡地區(qū),蘇北為欠發(fā)達的地區(qū)。
本文根據(jù)2011年江蘇省統(tǒng)計年鑒[9]和參考文獻[4],選取了江蘇省13個地級市的5項科技創(chuàng)新能力指標數(shù)據(jù),如表1所示。其中包括:技術創(chuàng)新環(huán)境、技術創(chuàng)新投入、技術創(chuàng)新能力、創(chuàng)新經(jīng)濟績效、科技綜合能力。
采用DMCA算法對其進行聚類分析,聚類分析結(jié)果如表2所示。從表2中可以看出,本文算法可以在預先不設定閥值的條件下,自動將聚類結(jié)果合并成三類,符合江蘇省的實際發(fā)展情況,而K-means算法和層次聚類算法在聚類個數(shù)為4的條件下,雖然聚類結(jié)果相同,但與江蘇省實際情況不符。在聚類個數(shù)為3的條件下,采用三種聚類算法得到的第三類的聚類結(jié)果相同,第一、二類有所不同,K-means算法把蘇州單獨歸為一類,出現(xiàn)了孤立點,影響了聚類結(jié)果;層次聚類算法和本文算法聚類結(jié)果的區(qū)別在于把常州歸為第一類還是第二類,根據(jù)分析比較,常州與蘇州、無錫、南京歸為一類比較好。從以上分析,可以清晰的看出動態(tài)合并聚類算法的優(yōu)勢所在,使用本算法不僅能提高聚類質(zhì)量,而且聚類結(jié)果更加符合實際,更具參考價值。
根據(jù)聚類結(jié)果比較,科技創(chuàng)新能力排在江蘇省前四位的城市分別為蘇州市、無錫市、南京市、常州市。這些地市一般都具有以下特點:相對于科技創(chuàng)新能力較弱的地區(qū),這些地市都具有相對較好的科技基礎,吸引外資相對較多,尤其是蘇州,已成為中國吸引外資最多的城市,帶動了高新技術產(chǎn)業(yè)的發(fā)展,也提高了科技創(chuàng)新的綜合競爭實力。蘇中的南通、揚州、鎮(zhèn)江、泰州四地市綜合排名大體處于中等水平;蘇北的淮安、宿遷、鹽城、連云港、徐州五地市的綜合排名則為最后五名。可以看出,江蘇省各地級市科技創(chuàng)新能力分布不平衡,蘇南地區(qū)的科技創(chuàng)新能力優(yōu)勢明顯,蘇中地區(qū)的科技創(chuàng)新能力有待提高,蘇北地區(qū)科技創(chuàng)新能力偏弱,需要大力加強科技創(chuàng)新投入和出臺相應的政策措施來推動科技創(chuàng)新能力的發(fā)展。
五、結(jié)束語
本文基于合并式層次聚類的思想,闡述了一種采用簇間差異度進行簇自動合并劃分的動態(tài)合并聚類算法,克服了層次劃分方法不可逆、需要預先設定聚類閥值等缺陷。通過實踐,將其運用到江蘇省技術創(chuàng)新能力評價實例中,為江蘇省13個地市的科技創(chuàng)新能力提供了科學量化決策評價,驗證了算法的可行性與有效性。與其他聚類方法相比,本算法聚類結(jié)果更加符合客觀實際,從而對各地區(qū)科技創(chuàng)新能力分析提供了參考?!?/p>
參考文獻:
[1]中國網(wǎng).中華人民共和國國民經(jīng)濟和社會發(fā)展第十二個五年規(guī)劃綱要(全文)[EB/OL].http://www.china.com.cn/policy/txt/
2011—03/16/content_22156007.htm
[2]江蘇省發(fā)展規(guī)劃中心.江蘇省“十二五”規(guī)劃綱要(全文)[EB/OL].http://jsdp.njnu.edu.cn/Article/news_vi-
ew. asp?newsid=928,2011.7.6
[3]《中國科技發(fā)展研究報告》研究組. 中國科技發(fā)展研究報(2000)—科技全球化及中國面臨的挑戰(zhàn)[M].北京:社會科學文獻出版社,2000.
[4]王芳. 江蘇省科技創(chuàng)新能力的評價及對策[J].科技經(jīng)濟市場,2009(7):63—64
[5]Xu R,Wunsch D.Clustering[M]. New York:IEEE Pr-
ess,2009:20—40
[6]Sambasivam,Theodosopoulos.Advanced data clus-
tering methods of mining web documents. Issues in Informing Science and Information Technology, 2006,8(3): 563—579
[7]Ian Davidson, S. S. Ravi,Using instance—level
constraints in agglomerative hierarchical clustering:theoretical and empirical results, Data Mining and Knowledge Discovery,2009,18(2):257—282
[8]段明秀.層次聚類算法的研究與應用[J].中南大學碩士學位論文,2009
[9]江蘇省統(tǒng)計局編:江蘇統(tǒng)計年鑒2011[M].北京:中國統(tǒng)計出版社
(董智,1970年生,江蘇徐州人,江蘇師范大學外國語學院國際交流系講師。研究方向:市場營銷、物流管理、國際商務文化)