郭春雪,沈 寧,胡良平,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029
基于標(biāo)準(zhǔn)化變換的求和法:一種新的樣品聚類分析方法
郭春雪1,沈 寧1,胡良平1,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029
本文目的是介紹一種新的樣品聚類分析方法,即基于標(biāo)準(zhǔn)化變換的求和法,它也可歸類于傳統(tǒng)綜合評(píng)價(jià)方法體系之中。具體地說,第1步,對(duì)全部定量變量進(jìn)行同趨勢(shì)化變換;第2步,選擇一種合適的定量變量標(biāo)準(zhǔn)化變換方法,使第3步中求得的“綜合指標(biāo)”的標(biāo)準(zhǔn)差達(dá)到最大值;第3步,求每個(gè)樣品按綜合指標(biāo)上的數(shù)值,即求每個(gè)樣品在全部標(biāo)準(zhǔn)化變換后的定量指標(biāo)上取值之和;第4步,將全部樣品按綜合指標(biāo)上的取值由大到小(整體為高優(yōu)指標(biāo))或由小到大(整體為低優(yōu)指標(biāo))排序,此順序就是由優(yōu)到劣的順序。基于統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)和任何兩個(gè)樣品之間易于判定優(yōu)劣的基本常識(shí),本文提出了評(píng)價(jià)樣品優(yōu)劣排序合理性的兩條標(biāo)準(zhǔn)。以此標(biāo)準(zhǔn)為依據(jù),得出本文方法比其他七種綜合評(píng)價(jià)方法(本質(zhì)上是樣品排序或樣品聚類)的排序結(jié)果都更為合理。
同趨勢(shì)化;定量變量標(biāo)準(zhǔn)化變換;傳統(tǒng)綜合評(píng)價(jià);樣品排序與分檔
1.1 問題的提出
反映一所醫(yī)院的醫(yī)療質(zhì)量如何,可以請(qǐng)醫(yī)院管理方面的多位專家提出指標(biāo)體系,假定這種指標(biāo)體系由“治愈率”“死亡率”等共10項(xiàng)定量指標(biāo)組成。假定已隨機(jī)抽樣調(diào)查了某地100所三甲醫(yī)院前述10項(xiàng)定量指標(biāo),管理者希望通過分析調(diào)查數(shù)據(jù)結(jié)果,將這100所醫(yī)院劃分出優(yōu)、良、中、差四個(gè)檔次。請(qǐng)問:①解決這個(gè)問題的方法在統(tǒng)計(jì)學(xué)教科書上被稱為什么方法?②這個(gè)方法的具體名稱叫什么?③若有多種方法可用來回答前面所提出的問題,哪種方法給出的排序與分檔結(jié)果最為合理?
1.2 對(duì)問題的回答
對(duì)于前面提出的第1個(gè)問題,答案很簡(jiǎn)單:綜合評(píng)價(jià)[1-2]。意思是:基于10項(xiàng)定量指標(biāo)在100所醫(yī)院(注:可將每所醫(yī)院視為“一個(gè)個(gè)體”)上的取值,構(gòu)造出一個(gè)“綜合評(píng)價(jià)指標(biāo)”,它可以被視為10項(xiàng)定量指標(biāo)的“函數(shù)”。于是,將每所醫(yī)院在10項(xiàng)定量指標(biāo)上的取值代入綜合評(píng)價(jià)指標(biāo)表達(dá)式,就可以獲得其得分值。顯然,可將100所醫(yī)院按得分值由大到小(得分值越大綜合評(píng)價(jià)越好,即整體為高優(yōu)指標(biāo))或由小到大(得分值越小綜合評(píng)價(jià)越好,即整體為低優(yōu)指標(biāo))排序。然后,再借助某種方法(例如:費(fèi)歇爾的有序樣品最優(yōu)分割法[3-4])將100個(gè)有序樣品分割成4段或聚成4類。
對(duì)于前面提出的第2個(gè)問題,答案并不唯一,因?yàn)閷?duì)應(yīng)的統(tǒng)計(jì)分析方法可能有幾十種。例如,傳統(tǒng)的綜合評(píng)價(jià)方法有:秩和比法、熵值法、Topsis法、模糊聚類分析法等[1-2];可被間接利用的多元統(tǒng)計(jì)分析方法有:主成分分析法、探索性因子分析法、對(duì)應(yīng)分析法和投影尋蹤聚類分析法[4-6]。
對(duì)于前面提出的第3個(gè)問題,答案是否定的。因?yàn)槠駷橹?,尚未見到有關(guān)報(bào)道。也就是說,到目前為止,尚沒有研究提出判別哪種綜合評(píng)價(jià)方法給出的“樣品排序”和“樣品分檔”結(jié)果是最合理的。
1.3 新評(píng)價(jià)方法與判定標(biāo)準(zhǔn)
本文將提出一種新的評(píng)價(jià)方法,并給出一個(gè)判定標(biāo)準(zhǔn)。新方法的全名為“基于標(biāo)準(zhǔn)化變換的求和法”;判定標(biāo)準(zhǔn)為“綜合評(píng)價(jià)指標(biāo)在全部樣品上的得分值的標(biāo)準(zhǔn)差越大,此法評(píng)價(jià)的結(jié)果越合理”?;诖伺卸?biāo)準(zhǔn),經(jīng)過眾多實(shí)例分析,發(fā)現(xiàn)本文提出的新評(píng)價(jià)方法在眾多評(píng)價(jià)方法中是最合理的。
2.1 何為標(biāo)準(zhǔn)化變換
在對(duì)含有多個(gè)定量變量的實(shí)際問題進(jìn)行多元統(tǒng)計(jì)分析時(shí),為了消除不同變量之間因度量單位和專業(yè)含義不同而導(dǎo)致的錯(cuò)誤,在統(tǒng)計(jì)學(xué)教科書中,經(jīng)常會(huì)要求在正式進(jìn)行多元統(tǒng)計(jì)分析之前,先對(duì)定量數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,其目的就是消除各原定量變量單位或量綱對(duì)計(jì)算結(jié)果產(chǎn)生的不利影響。
常用的標(biāo)準(zhǔn)化變換方法有如下兩種:其一,某定量變量減去其樣本算術(shù)平均值再除以其樣本標(biāo)準(zhǔn)差;其二,某定量變量減去其樣本最小值再除以其樣本極差(對(duì)高優(yōu)指標(biāo)而言)或某定量變量的樣本最大值減去該定量變量再除以其樣本極差(對(duì)低優(yōu)指標(biāo)而言)。前述的第二種變換方法常被稱為定量變量“歸一化處理”[5]。
然而,在SAS/STAT模塊的STDIZE過程中,提供了18種對(duì)一個(gè)定量變量進(jìn)行標(biāo)準(zhǔn)化變換的方法,其中,最后一種方法是由分析者指定“位置參數(shù)(Location)”和“尺度參數(shù)(Scale)”條件下的標(biāo)準(zhǔn)化變換,定量變量變換的通用公式為“每個(gè)取值減去位置參數(shù)值后除以尺度參數(shù)值”。各種具體的標(biāo)準(zhǔn)化變換方法詳見表1。
表1 在SAS的STDIZE過程中可以實(shí)現(xiàn)的標(biāo)準(zhǔn)化變換方法
注:此表摘錄自SAS 9.3中SAS/STAT的STDIZE過程的說明文檔;“方法”指標(biāo)準(zhǔn)化的具體方法名稱;“位置”指進(jìn)行標(biāo)準(zhǔn)化變換公式中的“位置參數(shù)”;“尺度”指進(jìn)行標(biāo)準(zhǔn)化變換公式中的“尺度參數(shù)”
2.2 何為基于標(biāo)準(zhǔn)化變換的求和法
所謂基于標(biāo)準(zhǔn)化變換的求和法,就是對(duì)全部定量變量先進(jìn)行兩步預(yù)處理,然后進(jìn)行一步求和運(yùn)算,最后進(jìn)行排序運(yùn)算。具體為:第1步,對(duì)全部定量變量進(jìn)行同趨勢(shì)化處理,即使全部定量變量都變成高優(yōu)指標(biāo)或低優(yōu)指標(biāo)。第2步,對(duì)全部定量變量進(jìn)行相同的標(biāo)準(zhǔn)化處理,即對(duì)擬參與計(jì)算的全部定量變量中都進(jìn)行相同的標(biāo)準(zhǔn)化變換。第3步,求和運(yùn)算,即將同一個(gè)樣品(或觀測(cè))上經(jīng)標(biāo)準(zhǔn)化變換后的全部定量變量的數(shù)值相加得到一個(gè)合計(jì)值(即求和),此合計(jì)值就被當(dāng)作“綜合評(píng)價(jià)指標(biāo)”在此樣品上的得分值。第4步,排序運(yùn)算,即將全部樣品的得分值由大到小(整體為高優(yōu)指標(biāo))或由小到大(整體為低優(yōu)指標(biāo))排序后編秩,此秩次就標(biāo)志著各樣品的優(yōu)劣順序。
2.3 基本思想
因各定量變量有各自的單位和專業(yè)含義,必須先對(duì)其進(jìn)行同趨勢(shì)和標(biāo)準(zhǔn)化變換,使它們具有可加性。每個(gè)樣品在全部標(biāo)準(zhǔn)化變量上的取值之和,綜合了該樣品在全部變量上的全部信息,可以近似理解成該樣品的“重量”。于是,依據(jù)“重量”的數(shù)值大小,可以給全部樣品進(jìn)行排序,這就使無序樣品變成了有序樣品。從而,實(shí)現(xiàn)了基于多個(gè)定量變量將無序樣品轉(zhuǎn)換成有序樣品,再基于費(fèi)歇爾最優(yōu)分割原理,實(shí)現(xiàn)對(duì)有序樣品的聚類(本質(zhì)上是分檔)分析。本文的研究重點(diǎn)是前一步,最后的分檔任務(wù)已有現(xiàn)成的SAS程序[4],可以很方便地實(shí)現(xiàn)。
2.4 具體做法
第1步:設(shè)共有n個(gè)樣品,P個(gè)定量變量。將全部定量變量同趨勢(shì)化,即將全部定量變量都轉(zhuǎn)換成高優(yōu)指標(biāo)(指標(biāo)取值越大越好)或低優(yōu)指標(biāo)(指標(biāo)取值越小越好),通常習(xí)慣用高優(yōu)指標(biāo)。如何實(shí)現(xiàn)同趨勢(shì)化變換,參見文獻(xiàn)[4]。
第2步:從表1中選擇一種標(biāo)準(zhǔn)化變換方法,將全部定量變量做相同的標(biāo)準(zhǔn)化變換。
(1)
在式(1)中,Lj為第j個(gè)定量變量的位置參數(shù)值;scj為第j個(gè)定量變量的尺度參數(shù)值。
第3步:令Z為全部標(biāo)準(zhǔn)化變換后的綜合評(píng)價(jià)指標(biāo),其計(jì)算公式見式(2):
(2)
第4步:將各樣品上各定量變量的原始數(shù)值代入式(2)求得綜合評(píng)價(jià)指標(biāo)的得分值。
第5步:將全部樣品的得分值由大到小(對(duì)高優(yōu)指標(biāo)而言)或由小到大(對(duì)低優(yōu)指標(biāo)而言)排序編上秩次Zr,其原先的樣品編號(hào)id也隨之變動(dòng)。
3.1 為何需要判定標(biāo)準(zhǔn)
依據(jù)前面內(nèi)容可知,傳統(tǒng)綜合評(píng)價(jià)方法指的是基于多元定量資料對(duì)無序樣品進(jìn)行排序的一系列統(tǒng)計(jì)分析方法,其中,最具代表性的方法有:秩和比法、熵值法和Topsis法等。本文所提出的“基于標(biāo)準(zhǔn)化變換的求和法”與前述提及的各種方法大同小異,仍可歸屬于傳統(tǒng)綜合評(píng)價(jià)方法之列。
具有一定統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)的人都可方便地將三種現(xiàn)代多元統(tǒng)計(jì)分析方法(即主成分分析、探索性因子分析、對(duì)應(yīng)分析)引入到傳統(tǒng)綜合評(píng)價(jià)方法要解決的問題中來。與此同時(shí),還可引入一種似乎更有數(shù)學(xué)韻味的多元統(tǒng)計(jì)分析方法,即投影尋蹤聚類分析法[5-6]。
以上兩大類方法可分別被稱為“傳統(tǒng)綜合評(píng)價(jià)法”與“現(xiàn)代多元統(tǒng)計(jì)分析法”,其方法的總數(shù)目約十種以上。
問題出現(xiàn)了:采用的綜合評(píng)價(jià)方法不同,常常會(huì)得出不同的排序結(jié)果。即使采用本文提出的“基于標(biāo)準(zhǔn)化變換的求和法”來計(jì)算,當(dāng)使用者選擇表1中18種不同的“標(biāo)準(zhǔn)化方法”,可能其結(jié)果也會(huì)不盡相同。由此可知,在解決此類問題時(shí),必需給出一個(gè)判定標(biāo)準(zhǔn),用以評(píng)價(jià)“將無序樣品轉(zhuǎn)換成有序樣品,進(jìn)而對(duì)它們進(jìn)行聚類的質(zhì)量高低”。這里所講的“質(zhì)量”很難給出準(zhǔn)確的定義或界定,可能還是用“合理性”來度量或評(píng)價(jià)更貼切一些。
3.2 如何提出判定標(biāo)準(zhǔn)
綜上來看,在地鐵的網(wǎng)絡(luò)控制系統(tǒng)設(shè)計(jì)和應(yīng)用過程當(dāng)中,不同環(huán)節(jié)和部分的科學(xué)含量以及使用效率都影響到整體系統(tǒng)的質(zhì)量,同時(shí)關(guān)鍵技術(shù)的掌握也代表著一個(gè)國(guó)家和地區(qū)交通事業(yè)發(fā)展的水平。在我國(guó)的地鐵建設(shè)當(dāng)中,不斷研發(fā)具有高新技術(shù)的地鐵車輛網(wǎng)絡(luò)系統(tǒng),是應(yīng)對(duì)城市化進(jìn)程加快和交通運(yùn)輸壓力增大的重要工作。
筆者在現(xiàn)有的文獻(xiàn)中,確實(shí)沒有找到這樣一個(gè)判定標(biāo)準(zhǔn)。很多發(fā)表與“綜合評(píng)價(jià)方法”有關(guān)的論文作者都是將自己的排序結(jié)果與某個(gè)具體方法排序的結(jié)果作比較,認(rèn)為結(jié)果基本一致[5,7]。顯然,這樣的比較方法和得出的結(jié)論,難以令人信服。
筆者結(jié)合基本常識(shí)、統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)(借鑒投影尋蹤聚類分析中關(guān)于投影指標(biāo)函數(shù)的構(gòu)造原理,其內(nèi)含綜合指標(biāo)的標(biāo)準(zhǔn)差,并通過使該函數(shù)達(dá)到最大值條件下,獲得最大投影方向[5])和任何兩個(gè)樣品間的比較(因?yàn)閮烧咧g的比較,很容易得出它們中誰相對(duì)更優(yōu),例如,用多維尺度分析法分析的原始數(shù)據(jù)就是基于兩樣品之間的相似度構(gòu)造出來的相似度或不相似度矩陣[4]),提出了如下的兩條判定標(biāo)準(zhǔn)。
標(biāo)準(zhǔn)1:綜合評(píng)價(jià)指標(biāo)在全部樣品上的得分值的標(biāo)準(zhǔn)差越大,表明它使樣品之間的離散度越大,故其聚類的效果就越好。
標(biāo)準(zhǔn)2:對(duì)高優(yōu)指標(biāo)而言,任何兩個(gè)樣品A與B在同趨勢(shì)化變換與標(biāo)準(zhǔn)化變換后的全部定量指標(biāo)上的離差(注意:必須是相同定量指標(biāo)上的離差)之和大于0,A應(yīng)位于B之前;反之,則A應(yīng)位于B之后。
由于“標(biāo)準(zhǔn)2”中涉及“定量變量的標(biāo)準(zhǔn)化運(yùn)算”,顯得不夠直觀。通常情況下,可以基于同趨勢(shì)化變換后的原始定量變量直接計(jì)算,于是,可將上述“標(biāo)準(zhǔn)2”分解成以下兩條。
標(biāo)準(zhǔn)2-1:對(duì)高優(yōu)指標(biāo)而言,任何兩個(gè)樣品A與B在同趨勢(shì)化變換后的全部定量指標(biāo)上的離差(注意:必須是相同定量指標(biāo)上的離差)之和大于0,A應(yīng)位于B之前;反之,則A應(yīng)位于B之后。
標(biāo)準(zhǔn)2-2:對(duì)高優(yōu)指標(biāo)而言,任何兩個(gè)樣品A與B在同趨勢(shì)化變換后的全部定量指標(biāo)上的比值(離差除以四分位間距)之和大于0,A應(yīng)位于B之前;反之,則A應(yīng)位于B之后。
說明:標(biāo)準(zhǔn)2穩(wěn)健性好,但計(jì)算繁瑣一些;標(biāo)準(zhǔn)2-2穩(wěn)健性稍差一些,但計(jì)算要稍簡(jiǎn)便一些;而標(biāo)準(zhǔn)2-1穩(wěn)健性要更差一些,但手工演示極為方便。
【例1】以文獻(xiàn)[5]中“12種不同的水稻插秧密度形式方案”為例,資料見表2。試基于5項(xiàng)經(jīng)濟(jì)指標(biāo)(假定都是高優(yōu)指標(biāo))對(duì)12種方案進(jìn)行綜合評(píng)價(jià)(說明:嚴(yán)格地說,第5項(xiàng)指標(biāo)“投入費(fèi)用”應(yīng)屬于低優(yōu)指標(biāo),為了便于與文獻(xiàn)上采用投影尋蹤聚類分析處理的結(jié)果作比較,此處未對(duì)其進(jìn)行倒數(shù)變換)。
表2 不同密度形式的5項(xiàng)經(jīng)濟(jì)指標(biāo)及其取值
分析與解答:
第1步,對(duì)樣品進(jìn)行排序。
采用本文介紹的標(biāo)準(zhǔn)化變換的求和法對(duì)表2中的12個(gè)樣品(即方案)進(jìn)行排序。利用表1中的前17種標(biāo)準(zhǔn)化變換方法,發(fā)現(xiàn)當(dāng)選擇Method=MEAN或Method=MEDIAN兩種標(biāo)準(zhǔn)化變換方法時(shí),對(duì)應(yīng)的綜合評(píng)價(jià)指標(biāo)的標(biāo)準(zhǔn)差取得最大值為1 103.03。此時(shí),對(duì)應(yīng)的輸出結(jié)果見表3。
在表3中,Z為求得的綜合評(píng)價(jià)指標(biāo),Zr為根據(jù)Z值由大到小(高優(yōu)指標(biāo))編的秩次,id為資料中原樣品的編號(hào),即從優(yōu)到劣的插秧方案依次為:10>3>7>5>9>6>4>2>12>8>11>1,這些方案的具體密度形式見表2前兩列,此處就不詳細(xì)呈現(xiàn)了。
表3 本文方法輸出的排序結(jié)果
第2步,驗(yàn)證樣品排序結(jié)果的合理性。
以上算出的12個(gè)樣品(本例為“插秧方案”)排序結(jié)果是否合理呢?基于本文提出的判定標(biāo)準(zhǔn)進(jìn)行驗(yàn)證。為直觀起見,現(xiàn)采用上面的“標(biāo)準(zhǔn)2-1”。
由于各樣品均有5個(gè)定量指標(biāo)?,F(xiàn)選出其中的第3、5、6、7、9五個(gè)樣品,它們?cè)?個(gè)定量指標(biāo)上的取值(見表2)如下:
O3=(54.9,8 991.0,9 889.5,5 734.5,4 155.0)
O5=(58.8,8 853.0,9 738.0,5 688.0,4 050.0)
O6=(59.5,8 760.0,9 636.0,5 616.0,4 020.0)
O7=(59.9,8 976.0,9 873.0,5 838.0,4 035.0)
O9=(59.9,8 800.5,9 679.5,5 734.5,3 945.0)。
若按高優(yōu)指標(biāo)來看待且按上述標(biāo)準(zhǔn)2-1計(jì)算,以上五個(gè)樣品怎樣的排列順序最合理?
(1)分別計(jì)算“樣品O3”與“O5、O6、O7和O9”四個(gè)樣品之間的離差之和:
O3與O5之間對(duì)應(yīng)定量指標(biāo)上的離差以及和分別為(-3.9,138.0,151.5,46.5,105.0)、437.1;
O3與O6之間對(duì)應(yīng)定量指標(biāo)上的離差以及和分別為(-5.0,231.5,253.5,118.5,135.0)、733.5;
O3與O7之間對(duì)應(yīng)定量指標(biāo)上的離差以及和分別為(-5.0,15.0,16.5,-103.5,120.0)、43.0;
O3與O9之間對(duì)應(yīng)定量指標(biāo)上的離差以及和分別為(-5.0,190.5,210.0,0.0,210.0)、605.5。
以上結(jié)果表明:O3應(yīng)排列在O5、O6、O7和O9之前。
(2)分別計(jì)算“樣品O5”與“O6、O7和O9”三個(gè)樣品之間的離差之和:
O5與O6之間對(duì)應(yīng)定量指標(biāo)上的離差以及和分別為(-0.7,93.0,102.0,72.0,30.0)、296.3;
O5與O7之間對(duì)應(yīng)定量指標(biāo)上的離差以及和分別為(-1.1,-123.0,-135.0,-150.0,15.0)、-394.1;
O5與O9之間對(duì)應(yīng)定量指標(biāo)上的離差以及和分別為(-1.1,52.5,58.5,-46.5,105.0)、168.4。
以上結(jié)果表明:O5應(yīng)排列在O6和O9之前,但應(yīng)排在O7之后,即7>5>(6與9)。
至于O6與O9誰應(yīng)排列在前面,由O5與O6之間的離差之和296.3>168.4(O5與O9之間的離差之和)可推知,O9應(yīng)排列在O6之前,即9>6。
總結(jié)以上結(jié)果可得第3、5、6、7、9五個(gè)樣品從優(yōu)到劣的排列順序應(yīng)為:3>7>5>9>6。
第3步,給出本文方法以及其他七種綜合評(píng)價(jià)方法對(duì)應(yīng)的綜合指標(biāo)的標(biāo)準(zhǔn)差計(jì)算結(jié)果。
本文方法秩和比法熵值法Topsis法主成分法探索性因子法對(duì)應(yīng)分析法投影法1103.0301.024348.0310.2561.86410.0260.086
注:“投影法”是“投影尋蹤聚類分析法”的簡(jiǎn)稱
第4步,呈現(xiàn)本文方法以及其他七種綜合評(píng)價(jià)方法的排序結(jié)果。
本文方法:10>3>7>5>9>6>4>2>12>8>11>1
秩和比法:10>7>3>5>9>6>4>2>12>8>1>11
熵值法:10>7>3>5>9>6>4>2>12>8>11>1
Topsis法:10>7>3>5>9>6>4>2>12>8>11>1
主成分法:10>7>9>5>6>3>4>12>8>2>11>1
因子法:10>3>7>5>9>4>6>2>12>8>11>1
對(duì)應(yīng)法:10>9>7>5>6>3>4>12>8>2>11>1
投影法:10>7>9>5>6>3>12>4>8>11>2>1
在以上8種分析方法對(duì)表2中12個(gè)樣品排序的結(jié)果中,熵值法與Topsis法的排序結(jié)果完全相同,熵值法與本文方法的標(biāo)準(zhǔn)差較為接近,其對(duì)應(yīng)的排序結(jié)果也相當(dāng)吻合,僅(7>3)與(3>7)不同,其他位置和順序都完全一樣。采用本文介紹的方法,可判定這兩種排列順序何者更合理。
O3=(54.9,8 991.0,9 889.5,5 734.5,4 155.0)
O7=(59.9,8 976.0,9 873.0,5 838.0,4 035.0)
若按高優(yōu)指標(biāo)來看待且按本文中的標(biāo)準(zhǔn)2-1計(jì)算,以上兩個(gè)樣品怎樣的排列順序最合理?
計(jì)算這兩個(gè)樣品之間的離差之和。O3與O7之間對(duì)應(yīng)定量指標(biāo)上的離差以及和分別為(-5.0,15.0,16.5,-103.5,120.0)、43.0。說明O3應(yīng)位于O7之前,即應(yīng)取(3>7)的順序,也即本文方法比熵值法和Topsis法的排序結(jié)果更合理。
【例2】某研究者收集了9個(gè)地區(qū)單位及每個(gè)單位對(duì)應(yīng)的12個(gè)指標(biāo),即農(nóng)業(yè)生產(chǎn)力綜合指標(biāo)評(píng)價(jià)體系。具體資料見表4。研究者要對(duì)南京地區(qū)(5縣4區(qū))農(nóng)業(yè)生產(chǎn)力進(jìn)行優(yōu)劣評(píng)價(jià)[7]。
表4 農(nóng)業(yè)生產(chǎn)力評(píng)級(jí)指標(biāo)樣本集
注:該12個(gè)評(píng)價(jià)指標(biāo)皆為高優(yōu)指標(biāo)
分析與解答:
第1步,對(duì)樣品進(jìn)行排序。
采用本文介紹的標(biāo)準(zhǔn)化變換的求和法對(duì)樣品進(jìn)行排序,利用表1中的前17種標(biāo)準(zhǔn)化變換方法,發(fā)現(xiàn)當(dāng)選擇Method=MEAN標(biāo)準(zhǔn)化變換方法時(shí),對(duì)應(yīng)的綜合評(píng)價(jià)指標(biāo)的標(biāo)準(zhǔn)差取得最大值為2.375 116 4。此時(shí),對(duì)應(yīng)的輸出結(jié)果見表5。
表5 本文方法輸出的排序結(jié)果
在表5中,Z為求得的綜合評(píng)價(jià)指標(biāo),Zr為根據(jù)Z值由大到小(高優(yōu)指標(biāo))編的秩次,id為資料中原樣品的編號(hào),即9個(gè)地區(qū)單位從優(yōu)到劣的農(nóng)業(yè)生產(chǎn)力依次為:3>9>5>1>8>6>4>7>2。
第2步,給出本文方法以及其他七種綜合評(píng)價(jià)方法對(duì)應(yīng)的綜合指標(biāo)的標(biāo)準(zhǔn)差計(jì)算結(jié)果。
第3步,本文方法以及其他七種綜合評(píng)價(jià)方法的排序結(jié)果。
本文方法:3>9>5>1>8>6>4>7>2
秩和比法:3>9>5>1>8>4>6>7>2
熵值法:3>9>5>6>8>1>7>4>2
Topsis法:3>9>5>1>8>6>7>4>2
主成分法:9>3>1>4>5>8>7>6>2
因子法:3>7>6>5>4>9>8>1>2
對(duì)應(yīng)法:9>5>7>8>4>3>1>6>2
投影法:3>9>5>8>1>4>6>7>2
以上8種分析方法對(duì)9個(gè)樣品排序的結(jié)果中,熵值法與Topsis法的排序結(jié)果完全相同,主成分分析法與本文方法的標(biāo)準(zhǔn)差較為接近,但排序結(jié)果偏差較大,采用本文介紹的方法進(jìn)行驗(yàn)算,可發(fā)現(xiàn)本文方法更合理一些,即農(nóng)業(yè)生產(chǎn)力由好到差的單位依次為:江寧縣>雨花區(qū)>高淳縣>六合縣>棲霞區(qū)>浦口區(qū)>溧水縣>大廠區(qū)>江浦縣。
本文方法秩和比法熵值法Topsis法主成分法探索性因子法對(duì)應(yīng)分析法投影法2.3751.6700.1510.1292.16010.0260.803
注:“投影法”是“投影尋蹤聚類分析法”的簡(jiǎn)稱
說明:因篇幅所限,對(duì)例2中各種方法排序結(jié)果的合理性未做詳細(xì)驗(yàn)證。感興趣的讀者可借助本文提出的標(biāo)準(zhǔn)進(jìn)行驗(yàn)證。
筆者真誠(chéng)希望廣大讀者提出寶貴的意見和建議,盼望讀者能提出更加科學(xué)、嚴(yán)謹(jǐn)?shù)木C合評(píng)價(jià)方法和判定排序合理性的標(biāo)準(zhǔn)。
[1] 孫振球. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M]. 北京:人民衛(wèi)生出版社,2002:373-396.
[2] 蘇頎齡. 中國(guó)醫(yī)學(xué)統(tǒng)計(jì)百科全書:統(tǒng)計(jì)管理與健康統(tǒng)計(jì)分冊(cè)[M]. 北京:人民衛(wèi)生出版社,2004:30-94.
[3] 茆詩(shī)松. 統(tǒng)計(jì)手冊(cè)[M]. 北京:科學(xué)出版社,2006:556-559.
[4] 胡良平. 科研設(shè)計(jì)與統(tǒng)計(jì)分析[M]. 北京:軍事醫(yī)學(xué)科學(xué)出版社,2012:472-479,597-650.
[5] 付強(qiáng),趙小勇. 投影尋蹤模型原理及其應(yīng)用[M]. 北京:科學(xué)出版社,2006:46-119.
[6] 田錚,林偉. 投影尋蹤方法與應(yīng)用[M]. 西安:西北工業(yè)大學(xué)出版社,2008:13-90.
[7] 黃勇輝,朱金福. 基于加速遺傳算法的投影尋蹤聚類評(píng)價(jià)模型研究與應(yīng)用[J]. 系統(tǒng)工程,2009,27(11): 107-110.
(本文編輯:吳俊林)
Summing method based on a standardized transformation: a new sample clustering methodology
GuoChunxue1,ShenNing1,HuLiangping1,2*
(1.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China; 2.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)
This article aims to introduce a new method for the sample clustering analysis, entitled the summing method based on a standardized transformation, which can also be categorized into the traditional method system of the generalizing comprehensive evaluation. Briefly speaking as follows: step 1, all the quantitative variables are transformed with the same trend; step 2, select a suitable quantitative variable normalization method, so that the standard deviation of the "comprehensive index" to reach the maximum in the next step; step 3, find the value of each sample on the comprehensive index, that is, find the summation of the standardized values of the quantitative indices of all the samples; step 4, sequence all the samples in accordance with the numeric size of the comprehensive indicators from large to small (the entire indicators considered to be high priority index) or from small to large (the entire indicators considered to be low priority index), and this sequence indicates the order from superiority to the inferiority. On the basis of the statistical knowledge and the common knowledge of pointing the bigger one between 2 values, this article raises 2 criteria for evaluating the sequence rules. Based on this standard, we conclude that this new method is superior to the other 7 methods of the comprehensive evaluation which are essentially for sample sorting or sample clustering.
Transform with the same trend; Quantitative variable normalization method; Traditional comprehensive evaluation method; Sample sorting and bracketing
R195.1
A
10.11886/j.issn.1007-3256.2017.03.003
國(guó)家高技術(shù)研究發(fā)展計(jì)劃課題資助(2015AA020102)
2017-06-04)
*通信作者:胡良平,E-mail:lphu812@sina.com)