瞿健菊
(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
SPSS中判別分析的使用
——以語言學(xué)實驗為例
瞿健菊
(南京師范大學(xué) 文學(xué)院,江蘇 南京210097)
判別分析是多元統(tǒng)計分析中最常用的方法之一。該文結(jié)合一個語言學(xué)實驗的例子對SPSS判別分析的操作步驟和輸出結(jié)果作了詳細(xì)的介紹,并對判別分析的不同方法在SPSS中的使用進(jìn)行了區(qū)分。
SPSS判別分析語言學(xué)
判別分析是多元統(tǒng)計分析中判別樣本所屬類型的一種常用方法。它的研究對象是訓(xùn)練樣本,也就是說原始數(shù)據(jù)的具體分類是事先已知的,然后根據(jù)原始數(shù)據(jù)求出判別函數(shù)將待判樣本的數(shù)據(jù)代入判別函數(shù)中判斷其類型。[1]常用的判別分析方法主要有:距離判別法、Fisher判別法和Bayes判別法。然而,在SPSS操作中只能實現(xiàn)Bayes判別法與Fisher判別法兩種,并且這兩種方法的操作是合在一起進(jìn)行的,所以使用起來需要特別注意。[2]下文將結(jié)合一個語言學(xué)實驗的例子對SPSS判別分析的步驟和輸出結(jié)果作詳細(xì)解釋和說明。
2.1實驗背景
Fletcher和Peters(1984)研究發(fā)現(xiàn),可以用語法和詞匯兩個維度來刻畫語言受損兒童在語言表達(dá)方面的特征。被試分為兩組,一組是20個正常兒童(LN),另一組是用標(biāo)準(zhǔn)化測試尺度在年齡和智力活動方面跟LN組相比而診斷為語言受損的9個兒童(LI)。在標(biāo)準(zhǔn)條件下收集他們的自發(fā)的語言數(shù)據(jù)(LN組的年齡均值為60.86個月,LI組的年齡均值為62.33個月)。圍繞65個語法與詞匯范疇——大部分引自Crystal、Fletcher和Garman(1976),每組兒童提供的樣本都包括200個話語的得分。其中一個語法變量是根據(jù)無標(biāo)記動詞形式——既無后綴又無助動詞修飾的實義動詞詞干——的個數(shù)來評分的。另外一個詞匯范疇是動詞詞型,即一個兒童在樣本中使用不同的實義動詞的個數(shù)。[3]
2.2數(shù)據(jù)錄入
本文使用的SPSS為20.0版本。首先建立一個數(shù)據(jù)文件linguistics.sav,將Fletcher和Peters所提供的每個被試的數(shù)據(jù)錄入進(jìn)去。數(shù)據(jù)文件的變量視圖和數(shù)據(jù)視圖分別如圖1和圖2所示。在變量視圖中,定義變量Y(分類)的值標(biāo)簽,-1為語言受損,1為正常。在數(shù)據(jù)視圖中,共29行數(shù)據(jù),分別為29個被試兒童在x1和x2這兩個變量上的得分及所屬類別。
圖1 變量視圖
圖2 數(shù)據(jù)視圖
2.3判別分析步驟
①單擊“分析”→“分類”→“判別分析”,從對話框左側(cè)的變量列表中選中進(jìn)行判別分析的變量“無標(biāo)記動詞形式[x1]”和“動詞詞型[x2]”進(jìn)入“自變量”框,作為判別分析的基礎(chǔ)數(shù)據(jù)變量。從對話框左側(cè)的變量列表選中“分類[Y]”進(jìn)入“分組變量”框,并單擊“定義范圍”按鈕,在“定義范圍”對話框中,定義判別原始數(shù)據(jù)的類別數(shù),在最小值處輸入-1,在最大值處輸入1。分析方法按默認(rèn)的“一起輸入自變量”。
②打開“統(tǒng)計量”對話框,在“描述性”中,選擇“單變量ANOVA”和“Box’sM”。在“函數(shù)系數(shù)”中選擇“Fisher”(注:此為Bayes選項)和“未標(biāo)準(zhǔn)化”(注:此為Fisher選項)。
此外,“均值”可以輸出各類中各自變量的均值和標(biāo)準(zhǔn)差?!熬仃嚒边x項組可選擇自變量的系數(shù)矩陣。
③打開“分類”對話框,在“先驗概率”(注:此為Bayes選項)中,按默認(rèn)選擇“所有組相等”。在“使用協(xié)方差矩陣”中,按默認(rèn)選擇“在組內(nèi)”。在“輸出”(注:此為Bayes選項)中,選擇“摘要表”和“不考慮該個案時的分類”。在“圖”(注:此為Fisher選項)中,選擇“合并組”、“分組”和“區(qū)域圖”。
此外,“個案結(jié)果”可以輸出每個觀測量包括判別分?jǐn)?shù)實際類預(yù)測類(根據(jù)判別函數(shù)求得的分類結(jié)果)和后驗概率等。
④打開“保存”對話框,選擇“預(yù)測組成員”、“判別得分”和“組成員概率”。
全部選擇完成后,單擊“判別分析”對話框中的“確認(rèn)”按鈕。
2.4判別分析結(jié)果
①適用條件檢驗。在“統(tǒng)計量”對話框中,選擇“單變量ANOVA”和“Box’sM”,可分別得到下面的表1和表2。表1中的Sig值表示這兩個變量均值在各組間都是有差異的,因此這兩個變量對類間的判別都是有作用的。表2中的Sig值表示組間協(xié)方差齊這一假設(shè)是被拒絕的。不過,協(xié)方差齊的這一要求在實際應(yīng)用中往往是被忽視的。[4]
表1 單因素方差分析
表2 協(xié)方差矩陣相等的檢驗
②基本輸出結(jié)果。表3給出了判別函數(shù)的特征根以及判別指數(shù)。本實驗中只有一個判別函數(shù),所以只有一個特征值。表4中的Sig值表示差異達(dá)到顯著水平,即這個投影函數(shù)能將兩組兒童區(qū)分開。從表5中,可以看出判別函數(shù)主要與“動詞詞型”這個自變量相關(guān)。由于本實驗只有一個判別函數(shù)和兩個自變量,那么可以推測在區(qū)分正常兒童和語言受損兒童上,“動詞詞型”這個變量在判別分析中起了主要作用。表6是各組的判別函數(shù)的重心。注意此處使用的是非標(biāo)準(zhǔn)化典型判別式函數(shù)。
表3 典型判別函數(shù)的特征函數(shù)的特征值
表4 Wilks檢驗結(jié)果
表5 結(jié)構(gòu)矩陣
表6 類中心坐標(biāo)
③三種判別式。判別分析默認(rèn)會給出表7的判別函數(shù),其中的判別函數(shù)使用的是標(biāo)化變量。如果在“統(tǒng)計量”對話框中,選擇“未標(biāo)準(zhǔn)化”,可以得到表8的判別函數(shù);選擇“Fisher”,可以得到表9的判別函數(shù)。注意此處“Fisher”復(fù)選框?qū)?yīng)的實際上是Bayes判別。
調(diào)查數(shù)據(jù)顯示,有67.4%的學(xué)生贊同和認(rèn)可學(xué)院的“三師”工作;有36.3%的學(xué)生認(rèn)為思政課老師認(rèn)真組織、參與了學(xué)生的活動或者與學(xué)生進(jìn)行了談心談話;有86.7%的學(xué)生愿意通過各種方式與思政課老師進(jìn)行交流,以解除他們在學(xué)習(xí)生活和工作上的困惑。
標(biāo)準(zhǔn)化典型判別式為:
F(X)=-0.684×Z無標(biāo)記動詞形式+0.785×Z動詞詞型(變量前加Z表示標(biāo)化后的數(shù)值)
未標(biāo)準(zhǔn)化典型判別式為:
F(X)=-2.046-0.060×無標(biāo)記動詞形式+0.190×動詞詞型
Bayes判別式為:
語言受損=-13.760+0.285×無標(biāo)記動詞形式+0.897×動詞詞型
表7 標(biāo)準(zhǔn)化典型判別函數(shù)系數(shù)
表8 典型判別函數(shù)系數(shù)
表9 分類函數(shù)系數(shù)
④圖表。由于本實驗只有一個判別函數(shù),所以沒有產(chǎn)生區(qū)域圖和合并圖,只有如圖3和圖4所示的分組直方圖,從直方圖中可以大致看出各組中樣本的分布情況。
圖3 分組直方圖(語言受損)
圖4 分組直方圖(正常)
⑤分類結(jié)果。在“分類”對話框中,選擇了“摘要表”可以得到表10中的上半部分,是采用回代法得到的判別信息,由表可見有96.6%的正確率,其中語言受損有1例錯判。在“分類”對話框中,選擇了“不考慮該個案時的分類”可以得到表10中的下半部分,是采用交叉驗證法得到的判別信息,本實驗中正確率為86.2%,其中語言受損有1例錯判,正常有3例錯判。
表10 分類結(jié)果
⑥保存結(jié)果。運(yùn)行判別分析后回到數(shù)據(jù)文件的數(shù)據(jù)視圖,如圖5所示,生成了新的變量。在“保存”對話框,選擇“預(yù)測組成員”,產(chǎn)生“Dis_1”變量,顯示的是各樣本按Bayes判別所屬的類別;選擇“判別得分”得到“Dis1_1”列,是樣本在Fisher投影函數(shù)下投影的坐標(biāo);選擇 “組成員概率”得到“Dis1_2”和“Disc2_2”,為樣本分別屬于第1類與第2類的后驗概率大小。根據(jù)表10所示,語言受損有1例錯判。在圖5中可以看出,語言受損兒童中錯判的是第3例,因為其第2類的后驗概率0.90727大于第1類的后驗概率0.09273,因此判別為第2類。此外,“Dis1_1”的值還可以結(jié)合表6的類中心坐標(biāo)使用距離判別法進(jìn)行類別判別。
圖5 保存結(jié)果
綜上所述,SPSS只能完成Bayes判別與Fisher判別,無法直接完成距離判別。SPSS判別分析是以Bayes判別為主,主要菜單與選項都是針對Bayes判別分析設(shè)置,并且最終保存的判別結(jié)果也是以Bayes判別為依據(jù);Fisher判別操作僅給出投影表達(dá)式、各類投影中心坐標(biāo)及投影分界圖,最終判別結(jié)果需要自己根據(jù)各類投影中心坐標(biāo)或投影分界圖去做判別。[5]此外,由于判別分析有著比較嚴(yán)格的前提條件,比如自變量和因變量間的關(guān)系要符合線性假定等等。當(dāng)自變量和因變量間的聯(lián)系為比較復(fù)雜的非線性函數(shù),甚至無法給出顯式表達(dá)時,這些基本的判別法就不適用了。而SPSS在“分析”菜單中,還提供了“樹”和“神經(jīng)網(wǎng)絡(luò)”,這些方法均為非參數(shù)方法,因此沒有太多的適用條件限制,應(yīng)用范圍更廣,也更適合對各種復(fù)雜聯(lián)系進(jìn)行分析判斷。
[1]任志娟.SPSS中判別分析方法的正確使用[J].統(tǒng)計與決策,2006(2):157.
[2]陳希鎮(zhèn),曹慧珍.判別分析和SPSS的使用[J].科學(xué)技術(shù)與工程,2008,8(13):3567-3571.
[3][英]Woods,A.等著.語言研究中的統(tǒng)計方法[M].陳小荷等譯.北京:北京語言文化大學(xué)出版社,2000:275-280.
[4]張文彤.SPSS統(tǒng)計分析高級教程[M].北京:高等教育出版社,2004:261-277.
[5]陳敏瓊.利用SPSS進(jìn)行判別分析的幾個問題的說明[J].現(xiàn)代計算機(jī)(專業(yè)版),2015(2):34-39.