【摘要】模糊聚類分析是以相似性為基礎(chǔ),主要用于研究樣本的分類問題。在模糊聚類的基礎(chǔ)上,提出了通過構(gòu)造最優(yōu)(劣)樣本,分別計(jì)算各類樣本與最優(yōu)(劣)樣本的相似系數(shù),根據(jù)與最優(yōu)(劣)樣本最相似者為最優(yōu)(劣)原則,確定聚類結(jié)果優(yōu)劣次序,從而使之具有綜合評(píng)價(jià)功能,并通過車內(nèi)空氣質(zhì)量的綜合評(píng)價(jià)驗(yàn)證了應(yīng)方法的實(shí)用性。
【關(guān)鍵詞】模糊聚類、構(gòu)造、最優(yōu)(劣)、綜合評(píng)價(jià)
Abstract: Fuzzy clustering analysis based on similarity, and mainly was used for sample classification. In this paper, by fuzzy clustering to construct optimal (poor) samples, and then calculate the similarity between various samples and optimal (poor) samples. Finally,according to this similarity to evaluate the order of clustering results.
Key words: fuzzy clustering, construct, optimal (poor), comprehensive evaluation
1模糊聚類分析的基本原理[1-5]
模糊聚類是采用模糊數(shù)學(xué)方法,依據(jù)客觀事物間的特征、親疏程度和相似性, 通過建立模糊相似關(guān)系,并在此基礎(chǔ)上根據(jù)一定的隸屬度來確定分類關(guān)系,也就是用模糊數(shù)學(xué)的方法把樣本之間的模糊關(guān)系(相似性)加以定量的確定,從而客觀且準(zhǔn)確地進(jìn)行分類。其一般過程為:對(duì)于給定論域(需聚類的樣本集),采用平移極差變換對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后利用距離系數(shù)或相似系數(shù)建立模糊相似矩陣(模糊相似關(guān)系)R,因?yàn)槿绱私⒌哪:嗨脐P(guān)系一般不具有傳遞性,通常用傳遞閉包法將其改造成模糊等價(jià)關(guān)系,稱為R的傳遞閉包t(R),然后在適當(dāng)?shù)乃溅松辖厝(R),得到普通等價(jià)關(guān)系Rλ,從而實(shí)現(xiàn)分類。不同的水平λ決定了不同的普通等價(jià)關(guān)系,從而也決定了不同的分類結(jié)果。
由于現(xiàn)實(shí)的分類過程往往伴隨著模糊性,所以用模糊聚類的方法來進(jìn)行聚類分析會(huì)顯得更自然、更符合客觀實(shí)際。
2基于模糊聚類的綜合評(píng)價(jià)方法
由上述,模糊聚類分析主要用于研究樣本的聚類,根據(jù)樣本之間的相似性,把最相似的樣本聚成一類。然而現(xiàn)實(shí)情況下,僅僅知道樣本的分類是不夠的,還需要知道不同類之間的優(yōu)劣等次,并給出評(píng)價(jià)。
模糊聚類過程中,為了確定各個(gè)樣本之間的關(guān)系,通常采用距離d或相似系數(shù)來表示樣本之間的接近程度[6],距離d越小兩樣本越接近;或者,相似系數(shù)越接近1兩個(gè)樣本越相似?;诖?,在聚類的基礎(chǔ)上,我們構(gòu)造一個(gè)最優(yōu)(劣)樣本,該樣本的各項(xiàng)指標(biāo)為論域中所有樣本相應(yīng)指標(biāo)的最優(yōu)(劣)值(通常就是最大值),然后考查聚類結(jié)果中各類與最優(yōu)(劣)樣本的相似性,根據(jù)與最優(yōu)(劣)樣本最相似者為最優(yōu)(劣)原則,從而確定聚類結(jié)果的優(yōu)劣等次的評(píng)價(jià)。
3基于模糊聚類的綜合評(píng)價(jià)方法的一般步驟
步驟1 確定論域,并構(gòu)造最優(yōu)(劣)樣本
步驟2 原始數(shù)據(jù)標(biāo)準(zhǔn)化
步驟3 建立模糊相似關(guān)系
步驟4 計(jì)算傳遞閉包并聚類
步驟5 比較聚類結(jié)果與最優(yōu)(劣)樣本的相似性,完成評(píng)價(jià)
4車內(nèi)空氣質(zhì)量的綜合評(píng)價(jià)
4.1 確定論域并構(gòu)造最優(yōu)(劣)樣本
隨著家用汽車消費(fèi)的快速增長(zhǎng),汽車室內(nèi)空氣質(zhì)量(污染)問題也越來越引起人們關(guān)注,車內(nèi)空氣污染物主要是由甲醛、苯、TVOC(總揮發(fā)性有機(jī)化合物)等對(duì)人體有害物質(zhì)構(gòu)成,各污染物的濃度可由相關(guān)專業(yè)機(jī)構(gòu)檢測(cè),在目前國(guó)內(nèi)尚無車內(nèi)空氣污染物濃度限值標(biāo)準(zhǔn)的情況下,對(duì)各種不同車型、車輛的車內(nèi)空氣污染水平作一科學(xué)合理的分類、評(píng)價(jià)將是有意義的。
選擇10輛家用小汽車,要求使用時(shí)間在3個(gè)月以內(nèi),且行駛里程在12000公里以內(nèi),沒有經(jīng)過內(nèi)飾改裝或除甲醛等處理,車輛使用者無在車內(nèi)吸煙等習(xí)慣,平時(shí)沒有裝載其他會(huì)增加或減少車輛異味的物品。在外部空氣質(zhì)量和天氣狀況良好,室外溫度20-30℃的情況下檢測(cè)其車內(nèi)空氣中甲醛、苯、TVOC的濃度,選取樣本的原始檢測(cè)數(shù)據(jù)如下表:
從而得到十輛汽車車內(nèi)空氣污染分類為C1={1,5,7},C2={2},C3={3,6,10},C4={4,9},C5={8}。
4.5 綜合評(píng)價(jià)
上述聚類結(jié)果說明當(dāng)相似水平為λ=0.983,表1中汽車{1,5,7}車內(nèi)空氣質(zhì)量相似,其特點(diǎn)是車內(nèi)空氣中甲醛、苯、TVOC的濃度都較高;{3,6,10}相似,車內(nèi)苯的濃度較低但甲醛和TVOC的濃度都較高;{4,9}相似,車內(nèi)甲醛、苯、TVOC的濃度都較低;而{2}甲醛、苯、TVOC的濃度都高,{8}甲醛、苯濃度較低而TVOC的濃度稍高于第三類。
計(jì)算上述各類中心(使用標(biāo)準(zhǔn)化的數(shù)據(jù))如下:
C1={0.667,0.719,0.771},C2={1,0.94,0.063},C3={0.667,0.925,0.313},C4={0,0.043,0.668},C5={0,0.569,0}。
再計(jì)算類 C1,C2,C3,C4,C5 與最劣樣本{1,1,1}的相似系數(shù)(仍用夾角余弦法),分別為:0.9982,0.8415,0.930,0.6122,0.5774。從而可知車內(nèi)空氣質(zhì)量的優(yōu)劣等次為C5,C4,C2,C3,C1。即類C1車內(nèi)空氣質(zhì)量綜合評(píng)價(jià)最差,污染最嚴(yán)重;而類C5車內(nèi)空氣質(zhì)量綜合評(píng)價(jià)最好,即污染最輕。
5結(jié)束語
模糊聚類分析是基于樣本之間的相似性,將最相似的樣本聚成一類。但不能直接實(shí)現(xiàn)傳統(tǒng)意義的名次排序。通過構(gòu)造最優(yōu)(劣)樣本,根據(jù)與最優(yōu)(劣)樣本最相似者為最優(yōu)(劣)原則,可以確定各類的優(yōu)劣名次。本文的應(yīng)用實(shí)例說明該方法無需依賴其他先驗(yàn)信息,只需根據(jù)評(píng)價(jià)對(duì)象指標(biāo)數(shù)據(jù)就可得出對(duì)象的分類和評(píng)價(jià)結(jié)果,具有一般意義。
參考文獻(xiàn)
[1]高新波 模糊聚類分析及其應(yīng)用[M].西安電子科技大學(xué)出版社,2004.
[2]羅蘭星 基于基于傳遞閉包法的西南5城市環(huán)境質(zhì)量評(píng)價(jià)分析[J].上海理工大學(xué)學(xué)報(bào),31(3)2009:303-306
[3]馮梅 基于模糊聚類分析的教師課堂教學(xué)質(zhì)量評(píng)價(jià)[J].學(xué)的實(shí)踐與認(rèn)識(shí),2008,38(2):12-15.
[4]張秀梅,王 濤 模糊聚類分析方法在學(xué)生成績(jī)?cè)u(píng)價(jià)中的應(yīng)用[J] 渤海大學(xué)學(xué)報(bào)(自然科學(xué)版) 28(2) 2007.6:169-172
[5]張東生,季超等.基于模糊聚類的考試分析方法[J].電腦知識(shí)與技術(shù)5(33), 2009.11:9579-9580,9590
[6]邵峰晶 于忠清等 數(shù)據(jù)挖掘原理與算法(第二版) [M] 科學(xué)出版社2008:181-182
作者簡(jiǎn)介:趙建文(1970--)男,浙江仙居人,浙江師范大學(xué)幼兒師范學(xué)院講師,主要從事應(yīng)用數(shù)學(xué),數(shù)據(jù)挖掘教學(xué)與研究。