SPSS中判別分析的使用

2016-03-23 02:56瞿健菊

文教資料 2015年34期

瞿健菊

摘要：判別分析是多元統(tǒng)計分析中最常用的方法之一。該文結(jié)合一個語言學(xué)實驗的例子對SPSS判別分析的操作步驟和輸出結(jié)果作了詳細(xì)的介紹，并對判別分析的不同方法在SPSS中的使用進(jìn)行了區(qū)分。

關(guān)鍵詞： SPSS 判別分析語言學(xué)

1.引言

判別分析是多元統(tǒng)計分析中判別樣本所屬類型的一種常用方法。它的研究對象是訓(xùn)練樣本，也就是說原始數(shù)據(jù)的具體分類是事先已知的，然后根據(jù)原始數(shù)據(jù)求出判別函數(shù)將待判樣本的數(shù)據(jù)代入判別函數(shù)中判斷其類型。[1]常用的判別分析方法主要有：距離判別法、Fisher判別法和Bayes判別法。然而，在SPSS操作中只能實現(xiàn)Bayes判別法與Fisher判別法兩種，并且這兩種方法的操作是合在一起進(jìn)行的，所以使用起來需要特別注意。[2]下文將結(jié)合一個語言學(xué)實驗的例子對SPSS判別分析的步驟和輸出結(jié)果作詳細(xì)解釋和說明。

2.語言學(xué)實驗

2.1實驗背景

Fletcher和Peters（1984）研究發(fā)現(xiàn)，可以用語法和詞匯兩個維度來刻畫語言受損兒童在語言表達(dá)方面的特征。被試分為兩組，一組是20個正常兒童（LN），另一組是用標(biāo)準(zhǔn)化測試尺度在年齡和智力活動方面跟LN組相比而診斷為語言受損的9個兒童（LI）。在標(biāo)準(zhǔn)條件下收集他們的自發(fā)的語言數(shù)據(jù)（LN組的年齡均值為60.86個月，LI組的年齡均值為62.33個月）。圍繞65個語法與詞匯范疇——大部分引自Crystal、Fletcher和Garman（1976），每組兒童提供的樣本都包括200個話語的得分。其中一個語法變量是根據(jù)無標(biāo)記動詞形式——既無后綴又無助動詞修飾的實義動詞詞干——的個數(shù)來評分的。另外一個詞匯范疇是動詞詞型，即一個兒童在樣本中使用不同的實義動詞的個數(shù)。[3]

2.2數(shù)據(jù)錄入

本文使用的SPSS為20.0版本。首先建立一個數(shù)據(jù)文件linguistics.sav，將Fletcher和Peters所提供的每個被試的數(shù)據(jù)錄入進(jìn)去。數(shù)據(jù)文件的變量視圖和數(shù)據(jù)視圖分別如圖1和圖2所示。在變量視圖中，定義變量Y（分類）的值標(biāo)簽，-1為語言受損，1為正常。在數(shù)據(jù)視圖中，共29行數(shù)據(jù)，分別為29個被試兒童在x1和x2這兩個變量上的得分及所屬類別。

圖1 變量視圖

2.3判別分析步驟

①單擊“分析”→“分類”→“判別分析”，從對話框左側(cè)的變量列表中選中進(jìn)行判別分析的變量“無標(biāo)記動詞形式[x1]”和“動詞詞型[x2]”進(jìn)入“自變量”框，作為判別分析的基礎(chǔ)數(shù)據(jù)變量。從對話框左側(cè)的變量列表選中“分類[Y]”進(jìn)入“分組變量”框，并單擊“定義范圍”按鈕，在“定義范圍”對話框中，定義判別原始數(shù)據(jù)的類別數(shù)，在最小值處輸入-1，在最大值處輸入1。分析方法按默認(rèn)的“一起輸入自變量”。

②打開“統(tǒng)計量”對話框，在“描述性”中，選擇“單變量ANOVA”和“BoxsM”。在“函數(shù)系數(shù)”中選擇“Fisher”（注：此為Bayes選項）和“未標(biāo)準(zhǔn)化”（注：此為Fisher選項）。

此外，“均值”可以輸出各類中各自變量的均值和標(biāo)準(zhǔn)差。“矩陣”選項組可選擇自變量的系數(shù)矩陣。

③打開“分類”對話框，在“先驗概率”（注：此為Bayes選項）中，按默認(rèn)選擇“所有組相等”。在“使用協(xié)方差矩陣”中，按默認(rèn)選擇“在組內(nèi)”。在“輸出”（注：此為Bayes選項）中，選擇“摘要表”和“不考慮該個案時的分類”。在“圖”（注：此為Fisher選項）中，選擇“合并組”、“分組”和“區(qū)域圖”。

此外，“個案結(jié)果”可以輸出每個觀測量包括判別分?jǐn)?shù)實際類預(yù)測類（根據(jù)判別函數(shù)求得的分類結(jié)果）和后驗概率等。

④打開“保存”對話框，選擇“預(yù)測組成員”、“判別得分”和“組成員概率”。

全部選擇完成后，單擊“判別分析”對話框中的“確認(rèn)”按鈕。

2.4判別分析結(jié)果

①適用條件檢驗。在“統(tǒng)計量”對話框中，選擇“單變量ANOVA”和“BoxsM”，可分別得到下面的表1和表2。表1中的Sig值表示這兩個變量均值在各組間都是有差異的，因此這兩個變量對類間的判別都是有作用的。表2中的Sig值表示組間協(xié)方差齊這一假設(shè)是被拒絕的。不過，協(xié)方差齊的這一要求在實際應(yīng)用中往往是被忽視的。[4]

②基本輸出結(jié)果。表3給出了判別函數(shù)的特征根以及判別指數(shù)。本實驗中只有一個判別函數(shù)，所以只有一個特征值。表4中的Sig值表示差異達(dá)到顯著水平，即這個投影函數(shù)能將兩組兒童區(qū)分開。從表5中，可以看出判別函數(shù)主要與“動詞詞型”這個自變量相關(guān)。由于本實驗只有一個判別函數(shù)和兩個自變量，那么可以推測在區(qū)分正常兒童和語言受損兒童上，“動詞詞型”這個變量在判別分析中起了主要作用。表6是各組的判別函數(shù)的重心。注意此處使用的是非標(biāo)準(zhǔn)化典型判別式函數(shù)。

③三種判別式。判別分析默認(rèn)會給出表7的判別函數(shù)，其中的判別函數(shù)使用的是標(biāo)化變量。如果在“統(tǒng)計量”對話框中，選擇“未標(biāo)準(zhǔn)化”，可以得到表8的判別函數(shù)；選擇“Fisher”，可以得到表9的判別函數(shù)。注意此處“Fisher”復(fù)選框?qū)?yīng)的實際上是Bayes判別。

標(biāo)準(zhǔn)化典型判別式為：

F（X）=-0.684×Z無標(biāo)記動詞形式+0.785×Z動詞詞型（變量前加Z表示標(biāo)化后的數(shù)值）

未標(biāo)準(zhǔn)化典型判別式為：

F（X）=-2.046–0.060×無標(biāo)記動詞形式+0.190×動詞詞型

Bayes判別式為：

語言受損=-13.760+0.285×無標(biāo)記動詞形式+0.897×動詞詞型

正常=-17.050+0.167×無標(biāo)記動詞形式+1.271×動詞詞型

④圖表。由于本實驗只有一個判別函數(shù)，所以沒有產(chǎn)生區(qū)域圖和合并圖，只有如圖3和圖4所示的分組直方圖，從直方圖中可以大致看出各組中樣本的分布情況。

圖3 分組直方圖（語言受損）

圖4 分組直方圖（正常）

⑤分類結(jié)果。在“分類”對話框中，選擇了“摘要表”可以得到表10中的上半部分，是采用回代法得到的判別信息，由表可見有96.6%的正確率，其中語言受損有1例錯判。在“分類”對話框中，選擇了“不考慮該個案時的分類”可以得到表10中的下半部分，是采用交叉驗證法得到的判別信息，本實驗中正確率為86.2%，其中語言受損有1例錯判，正常有3例錯判。

⑥保存結(jié)果。運行判別分析后回到數(shù)據(jù)文件的數(shù)據(jù)視圖，如圖5所示，生成了新的變量。在“保存”對話框，選擇“預(yù)測組成員”，產(chǎn)生“Dis_1”變量，顯示的是各樣本按Bayes判別所屬的類別；選擇“判別得分”得到“Dis1_1”列，是樣本在Fisher投影函數(shù)下投影的坐標(biāo)；選擇“組成員概率”得到“Dis1_2”和“Disc2_2”，為樣本分別屬于第1類與第2類的后驗概率大小。根據(jù)表10所示，語言受損有1例錯判。在圖5中可以看出，語言受損兒童中錯判的是第3例，因為其第2類的后驗概率0.90727大于第1類的后驗概率0.09273，因此判別為第2類。此外，“Dis1_1”的值還可以結(jié)合表6的類中心坐標(biāo)使用距離判別法進(jìn)行類別判別。

3.結(jié)語

綜上所述，SPSS只能完成Bayes判別與Fisher判別，無法直接完成距離判別。SPSS判別分析是以Bayes判別為主，主要菜單與選項都是針對Bayes判別分析設(shè)置，并且最終保存的判別結(jié)果也是以Bayes判別為依據(jù)；Fisher判別操作僅給出投影表達(dá)式、各類投影中心坐標(biāo)及投影分界圖，最終判別結(jié)果需要自己根據(jù)各類投影中心坐標(biāo)或投影分界圖去做判別。[5]此外，由于判別分析有著比較嚴(yán)格的前提條件，比如自變量和因變量間的關(guān)系要符合線性假定等等。當(dāng)自變量和因變量間的聯(lián)系為比較復(fù)雜的非線性函數(shù)，甚至無法給出顯式表達(dá)時，這些基本的判別法就不適用了。而SPSS在“分析”菜單中，還提供了“樹”和“神經(jīng)網(wǎng)絡(luò)”，這些方法均為非參數(shù)方法，因此沒有太多的適用條件限制，應(yīng)用范圍更廣，也更適合對各種復(fù)雜聯(lián)系進(jìn)行分析判斷。

參考文獻(xiàn)：

[1]任志娟.SPSS中判別分析方法的正確使用[J].統(tǒng)計與決策，2006（2）：157.

[2]陳希鎮(zhèn)，曹慧珍.判別分析和SPSS的使用[J].科學(xué)技術(shù)與工程，2008，8（13）：3567-3571.

[3][英]Woods，A.等著.語言研究中的統(tǒng)計方法[M].陳小荷等譯.北京：北京語言文化大學(xué)出版社，2000：275-280.

[4]張文彤.SPSS統(tǒng)計分析高級教程[M].北京：高等教育出版社，2004：261-277.

[5]陳敏瓊.利用SPSS進(jìn)行判別分析的幾個問題的說明[J].現(xiàn)代計算機（專業(yè)版），2015（2）：34-39.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

SPSS中判別分析的使用