王道陽,劉爭光
(1.安徽師范大學教育科學學院,蕪湖 241000;2.北京師范大學中國基礎教育質量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875)
近些年,隨著計算機網絡、移動網絡的普及,傳統(tǒng)的紙筆測驗逐漸被網絡測驗或在線測驗(Internet or On-line)所取代(Dodou & Winter,2014;Raffaelli et al.,2016)。這是由時代發(fā)展、科技進步所決定的,也因為網絡測驗本身相對于紙筆測驗有著巨大優(yōu)勢。這些優(yōu)勢表現(xiàn)為:(1)更加經濟,且增加數(shù)據(jù)收集效率。比如,減少紙張印刷,符合節(jié)約環(huán)保理念,也控制了成本。(2)減少了數(shù)據(jù)錄入、清理過程。通過計算機控制可以以大大降低數(shù)據(jù)出錯率,比如,被試出生時間(年、月、日),可以限定“年”為4個字符,限定“月”為“1-12”等,通過網絡計算機實現(xiàn)質量的控制;同時,答題結束時數(shù)據(jù)在后臺就同時生成,減少了傳統(tǒng)紙筆測驗后再次編碼、錄入、核查、清理數(shù)據(jù)的過程。(3)數(shù)據(jù)取樣更大。通過網絡計算機數(shù)千個樣本的數(shù)據(jù)與數(shù)百個樣本數(shù)據(jù)處理的時間幾乎是相當?shù)?Hauk,2015)。(4)可以控制觀察者偏差(Observer bias)、反應偏差(response bias)等無關因素(Davis,1999)。(5)答題形式更易于被試接受?;有栽鰪姡梢酝ㄟ^發(fā)紅包、抽獎的形式激勵被試參與;同時,可以記錄被試完成答題的時長;被試答題的時空選擇更加自由。
然而,自我報告的問卷或量表,絕大多數(shù)都是通過紙筆測驗編制而成。能否把通過紙筆測驗編制而成的問卷或量表,直接通過網絡測驗來應用?也就是說,網絡測驗的結果與紙筆測驗是否具有對等性(Measurement Equivalence / Invariance)。特別是,網絡測驗對被試答題時的情境和條件是無法控制的。而自我報告測驗在不同情境、條件下,可能會導致測量特性發(fā)生變化,就會帶來測量不變性問題(Hardre,Crowson,& Xie,2012)。于是,近些年有關紙筆測驗與網絡測驗的不變性研究報告有很多,且大多數(shù)研究結論認為紙筆測驗與網絡測驗不是完全對等的(Cieciuch et al.,2015;Hauk,2015;Lewis,Watson,& White,2009;Meade,Lautenschlager,& Michels,2007)。這些研究,客觀上對于把筆紙版的問卷或量表運用到網絡測驗中起到了積極的推動作用,也界定了網絡測驗對測量工具的使用條件。然而,這些研究僅僅把紙筆測驗與網絡測驗進行方法上的不變性驗證,往往忽視了紙筆測驗與網絡測驗之所以有不對等性背后的因素。因為,紙筆測驗相對于網絡測驗最重要的優(yōu)勢就是對于被試測試情境與條件的控制。既然網絡測驗已有著巨大優(yōu)勢,如果再能把網絡測驗情境與條件控制得以提升,那么網絡測驗就具有紙筆測驗無可比擬的優(yōu)勢。因此,研究重點應該是如何在網絡測驗中控制測驗情境、條件。已有研究報告網絡測驗中被試測驗場地噪音影響、測試時的情緒體驗、答題時長、答題時是否有急事處理以及答題場所等都是影響測驗特性的重要影響因素(Hardre et al.,2012)?;诖?,可以對于上述網絡測驗中的情境、條件變量進行不變性檢驗。如果不變性不成立,則說明某種條件下問卷或量表的測量特性發(fā)生變化,這種條件下的數(shù)據(jù)需要進行處理或清理。所以,通過對假設影響網絡測驗的情境變量進行不變性檢驗就可以發(fā)現(xiàn)網絡測驗可靠性控制的方法。
不變性是自我報告問卷不同組別比較的前提條件。測量不變性是對兩組或多組問卷條目(觀測變量)之間不變性的檢驗,而結構不變性是對兩組或多組問卷維度(潛變量)之間不變性的檢驗,兩者合在一起統(tǒng)稱為完全因素不變性(Factorial Invariance)(Byrne,Shavelson,& Muthén,1989)。完全因素不變性被Byrne等提出之后,主要基于多組驗證性因素分析(Multi-group Confirmatory Factor Analysis,MCFA)理論(Meade,& Lautenschlager,2004)。MCFA檢驗的參數(shù)模型主要包含:無任何約束的分組驗證性因素分析(Mgroup)、協(xié)方差的不變性(M0,Invariant Covariance)、形態(tài)的不變性(M1,Configural Invariance)、負荷的不變性(M2,Metric Invariance)、嚴格不變性(M4,Strict Invariance)、因子方差-協(xié)方差不變性(M5,F(xiàn)actor Variance/Covariance Invariance)、潛均值的不變性(M6,Latent Mean Invariance)(Vandenberg & Lance,2000)。
主觀幸福感是人們對其生活現(xiàn)狀、質量所做的情感性和認知性的評價,包含情感和認知兩個成份。生活滿意度量表(the Satisfaction With Life Scale,SWLS)是針對主觀幸福感認知成份的測評(Diener et al.,1999)。關于SWLS在性別、年齡等人口學變量的不變性檢驗研究有很多,但隨著網絡測驗的普及,也有研究者通過網絡答題方式開展生活滿意度量表調查,并且與紙質答題方式進行了測量不變性驗證。結果表明,網絡測驗和紙筆測驗之間存在弱不變性,但只存在部分的強不變性和部分的嚴格不變性(蔡華儉等,2008)。隨著網絡普及,網絡測驗具有答題不受時間、空間的束縛、數(shù)據(jù)處理便捷的優(yōu)點,越來越受到研究者的重視。與紙質測驗有主試對答題環(huán)境、答題時心理感受進行控制不同,網絡測驗時這些都不能適當控制或者使之處于同一水平。因此,在網絡測驗時,就需要設計一些被試答題時噪音水平、心理感受、是否著急(有其他要緊的事等著要做),以及答題所用時間來了解其他變量的干擾,以便對數(shù)據(jù)進行清理、比較。那么,就帶來當被試在不同噪音水平、心理感受等情境下,不同組的自我報告量表結果是具有可比性的問題。也就是說,首先需要解決這些不同組自我報告量表的測量不變性問題。SWLS測量的生活滿意度在某種意義上與主觀認知有關,而此次研究進行的不變性檢驗,主要就是對被試在測試時周圍環(huán)境的認知的兩組不變性檢驗。所以,測試時當前周圍環(huán)境的認知會不會對幸福感的主觀認知產生影響,會不會造成對周圍環(huán)境的認知不同組被試之間對生活滿意度理解產生差異,這需要通過完全因素不變性檢驗才能確定。
運用計算機網絡和手機網絡(掃描微信二維碼)的方式,利用網絡平臺征集答題調查了1343名大學生,年齡17~25歲(20.01±1.53)。其中男生846名(63.00%),女生497名(37.00%);戶口性質為非農業(yè)戶口355人(26.40%),農業(yè)戶口988人(73.60%)。
背景問卷。包括被試年齡、性別、戶口性質等人口學變量;也包括被試對答題時周圍環(huán)境與心理感受的評估,主要有“你現(xiàn)在有事急需處理嗎?如,去上課、老師讓我去辦公室找他等”“你當前心理感受是什么?”“你的周圍是否有噪音?噪音是否影響答題?”等。此外,系統(tǒng)自動記錄被試答題時間,將作為后期分析的一個重要變量。
生活滿意度量表。該量表主要是測評自己對當前生活的滿意程度,選項包括非常不同意到非常同意,共7個等級(1~7);量表有5個題目,“我的生活大致符合我的理想”“我的生活狀況非常圓滿”“我滿意自己的生活”“直到現(xiàn)在為止,我都能夠得到我在生活上希望擁有的重要東西”“如果我能重新活過,差不多沒有東西我想改變”(Diener et al.,1985)。中國香港研究者,將中文版生活滿意度量表應用到香港大學生中,其內部一致性系數(shù)α為0.78,分半信度為0.70(Wang,Yuen,& Slaney,2009)。此次研究采用的生活滿意度量表,其內部一致性系數(shù)α為0.90。
針對生活滿意度量表,進行有急事需要處理(否、是),答題時感受(積極情緒、消極情緒),噪音水平(無、有),答題用時(長:均數(shù)以上、短:均數(shù)以下)等不同組別的完全因素不變性檢驗。驗證模型包括無任何約束的分組驗證性因素分析(Mgroup)、形態(tài)的不變性(M1)、負荷的不變性(M2)、截距的不變性(M3)、嚴格不變性(M4)、因子方差-協(xié)方差的不變性(M5)以及潛均值的不變性(M6)。擬合指數(shù)使用χ2/df、CFI、TLI、90%CI、RMSEA、SRMR;模型之間比較使用Δχ2,即χ2變化量。Δχ2服從自由度變化量(Δdf)的χ2分布。當Δχ2顯著時,兩模型不變性檢驗假設不成立,反之則成立。
不同組別(SWLS總分)以及總樣本(SWLS總分及各個題目)均分和標準差,以及峰度和偏度值見表1。結果顯示,偏度在0.02~0.47之間,峰度0.14~0.80之間,數(shù)據(jù)完全符合正態(tài)分布的標準(峰度絕對值在0~2、偏度絕對值在0~7,可以認為數(shù)據(jù)是正態(tài)分布)(Curran,West,& Finch,1996)。總樣本的內部一致性α系數(shù)為0.90,不同組別的內部一致性α系數(shù)也在0.86~0.92之間。
表1 不同組別生活滿意度量表的描述性統(tǒng)計
注:答題時感受分類,積極情緒包括放松或開心,消極情緒包括生氣、沮喪、緊張或煩惱。
表2是不同組別生活滿意度量表完全因素不變性各模型擬合指數(shù)匯總。從不同組別的分組無任何約束的驗證性因素分析的結果來看,均表現(xiàn)出CFI>0.95、TLI>0.95,雖然部分模型RMSEA的值大于0.10,但SRMR<0.08,而RMSEA更易于收到樣本數(shù)量的影響。因此,總體上看,分組的模型擬合較好。
表2 不同組別生活滿意度量表完全因素不變性模型的擬合指數(shù)
續(xù)表2
模型χ2dfΔχ2ΔdfCFIΔCFI90%CIRMSEASRMR答題時感受Mgroup165.935——0.980—0.086-0.1330.1090.024Mgroup221.995——0.990—0.062-0.1510.1050.020M187.9210——0.982—0.088-0.1290.1080.023M293.54145.6240.9820.0000.075-0.1100.0920.029M3101.60188.0640.981-0.0010.068-0.0990.0830.032M4110.49238.8950.980-0.0010.062-0.0900.0750.030M5114.45243.96*10.979-0.0010.061-0.0890.0750.052M6135.342520.89**10.974-0.0050.068-0.0950.0810.093噪音水平Mgroup122.365——0.990—0.058-0.1390.0960.019Mgroup266.725——0.980—0.090-0.1380.1130.025M189.0810——0.982—0.088-0.1300.1090.023M291.45142.3740.9820.0000.074-0.1090.0910.027M3106.201814.75**40.980-0.0020.070-0.1010.0850.028M4130.112323.91**50.976-0.0040.070-0.0970.0830.033M5130.41240.3010.9760.0000.068-0.0950.0810.033M6130.83250.4210.9760.0000.066-0.0930.0790.033答題用時Mgroup145.835——0.990—0.072-0.1240.0970.018Mgroup240.785——0.970—0.090-0.1590.1230.034M186.6110——0.982—0.087-0.1280.1070.025M2106.301419.69**40.979-0.0030.082-0.1170.0990.047M3137.421831.12**40.972-0.0070.084-0.1150.0990.047M4179.372341.95**50.964-0.0080.087-0.1150.1010.058M5190.382411.01**10.962-0.0020.088-0.1150.1020.088M6215.842525.46**10.956-0.0060.094-0.1200.1070.083
注:*p<0.05,**p<0.01。
不變檢驗結果表明,第一,是否有急事需要處理(不是vs.是的)的完全因素不變性成立,也就是說這個環(huán)境變量不使被試對生活滿意度理解產生差異。第二,答題時感受(積極情緒vs.消極情緒)、噪音水平(無噪音vs.有噪音)的完全因素不變性只有部分成立。其中,答題時感受的因子方差-協(xié)方差不變性與潛均值的不變性不成立,這說明積極情緒組潛變量上的離散程度、協(xié)方差與消極情緒組不是對等的;噪音水平的截距不變性與嚴格不變性不成立,這說明無噪音組的截距、誤差方差與有噪音組不是對等的。這也說明,答題時感受、噪音水平在網絡測驗中會對測試結果闡述重要影響,因為會使得被試對生活滿意度的理解。第三,答題用時(長vs.短)完全因素不變性不成立。這說明,答題用時長組答題用時短組在生活滿意度理解完全是不對等的。因此,用時(此次研究使用均值區(qū)分)過短的數(shù)據(jù)在網絡測驗中使用要務必小心。實際上,這也說明上述三個指標在網絡測驗中是對被試答題信效度有效控制的變量。在實際操作中,也不必對于嚴格不變性、潛變量的均值不變性過分在意,因為相對來說M1~M3不變性成立已經滿足測量不變性成立的基本要求(Widaman & Reise,1997)。有研究者認為,多數(shù)情況下,對測驗只要求具有弱不變性,至多嚴格不變性(蔡華儉等,2008)。
關于模型之間比較的檢驗參數(shù)。有研究者認為ΔCFII比Δχ2更可靠,因為Δχ2會到樣本量的顯著影響,而ΔCFI、ΔTLI更穩(wěn)定。當Δχ2與ΔCFI不一致性,則建議參考ΔCFI結果,當|ΔCFI|>0.001時,兩模型不變性檢驗假設不成立(Cheung & Rensvold,2002)。但是,Cheung 和 Rensvold在研究也明確表示,用ΔCFI取代Δχ2是不可取的,也是沒有意義。也有研究者認為,當|ΔCFI|>0.002或者Δχ2(p<0.05)時,兩模型不變性檢驗假設就不能成立(Fournier et al.,2007)。因此,如果按照這個標準此次研究的結論也是成立的,故在實際檢驗中沒有把ΔCFI作為檢驗參數(shù),但是研究呈現(xiàn)了ΔCFI結果(見表2)。
不變性檢驗研究的意義在于,首先,網絡測驗的情境下如何對測試的質量進行控制,需要增加相關變量進行檢測,研究結果表明,測試完成時間、測試時噪音影響、測試時被試情緒等是測試質量的關鍵變量。對于網絡化測試上述問題應該作為可靠性控制必做題目。其次,對于完全因素不變性檢驗做了系統(tǒng)的歸納,將測量不變性、結構不變性與完全因素不變性的概念做了界定與區(qū)分,并且系統(tǒng)的歸納了三者的關系,介紹了不變性檢驗的幾種流程,還以SWLS為例做了實際的操作驗證。研究雖然較為系統(tǒng)的歸納了完全因素不變性檢驗的方法與步驟,但如果不是專門進行不變性研究報告的撰寫應該可以使用更加簡潔的方法與步驟,后續(xù)研究中可以探索簡潔的流程與步驟,實現(xiàn)比較經濟且易于學習的效果。另外,對于完全因素不變性的檢驗參數(shù)還有眾多不同觀點,比如,ΔCFI作為檢驗參數(shù)僅僅對于兩組比較有效,多組比較還需要進一步系統(tǒng)歸納。對于SWLS完全因素不變性檢驗而言,如何實驗網絡測驗的可靠性控制,除了測試完成時間、測試時噪音影響、測試時被試情緒,還有一些因素需要進一步檢驗,如測試場所(學校、辦公室、家里等)、測試網絡途徑(計算機網絡、移動網絡)等。這些都是網絡測試帶來的新問題,需要在后續(xù)研究進一步深入探討分析。
蔡華儉,林永佳,伍秋萍,嚴樂,黃玄鳳.(2008).網絡測驗和紙筆測驗的測量不變性研究——以生活滿意度量表為例.心理學報,40(2),228-239.
Byrne,B.M.,Shavelson,R.J.,& Muthén,B.(1989).Testing for the equivalence of factor covariance and mean structures:The issue of partial measurement invariance.PsychologicalBulletin,105(3),456-466.
Cheung,G.W.,& Rensvold,R.B.(2002).Evaluating Goodness-of-Fit Indexes for Testing Measurement Invariance.StructuralEquationModelingAMultidisciplinaryJournal,9(2),233-255.
Cieciuch,J.,Davidov,E.,Oberski,D.L.,& Algesheimer,R.(2015).Testing for measurement invariance by detecting local misspecification and an illustration across online and paper-and-pencil samples.EuropeanPoliticalScience,14(4),521-538.
Curran,P.J.,West,S.G.,& Finch,J.F.(1996).The robustness of test statistics to nonnormality and specification error in confirmatory factor analysis.PsychologicalMethods,1(1),16-29.
Davis,R.N.(1999).Web-based administration of a personality questionnaire:Comparison with traditional methods.BehaviorResearchMethodsInstruments&ComputersAJournalofthePsychonomicSocietyInc,31(4),572-577.
Diener,E.,Emmons,R.A.,Larsen,R.J.,& Griffin,S.(1985).The satisfaction with life scale.JournalofPersonalityAssessment,49(1),71-75.
Diener,E.,Suh,E.M.,Lucas,R.E.,& Smith,H.L.(1999).Subjective well-being:Three decades of progress.PsychologicalBulletin,125(2),276-302.
Dodou,D.,& Winter,J.C.F.D.(2014).Social desirability is the same in offline,online,and paper surveys:A meta-analysis.ComputersinHumanBehavior,36(36),487-495.
Fournier,J.,Gaudreau,P.,Demontrond-Behr,P.,Visioli,J.,F(xiàn)orest,J.,& Jackson,S.(2007).French translation of the Flow State Scale-2:Factor structure,cross-cultural invariance,and associations with goal attainment.PsychologyofSportandExercise,8(6),897-916.
Hardre,P.L.,Crowson,H.M.,& Xie,K.(2012).Examining Contexts-of-Use for Web-Based and Paper-Based Questionnaires.Educational&PsychologicalMeasurement,72(6),1015-1038.
Hauk,S.(2015).A Comparison of Web-based and Paper-and-Pencil Homework on Student Performance in College Algebra.PrimusProblemsResources&IssuesinMathematicsUndergraduateStudies,25(1),61-79.
Lewis,M.I.,Watson,B.,& White,K.M.(2009).Internet versus paper-and-pencil survey methods in psychological experiments:Equivalence testing of participant responses to health-related messages.AustralianJournalofPsychology,61(2),107-116.
Meade,A.W.,& Lautenschlager,G.J.(2004).A Monte-Carlo Study of Confirmatory Factor Analytic Tests of Measurement Equivalence/Invariance.StructuralEquationModelingAMultidisciplinaryJournal,11(1),60-72.
Meade,A.W.,Lautenschlager,G.J.,& Michels,L.C.(2007).Are Internet and Paper-and-Pencil Personality Tests Truly Comparable?An Experimental Design Measurement Invariance Study.OrganizationalResearchMethods,10(10),322-345.
Raffaelli,M.,Armstrong,J.,Tran,S.P.,Griffith,A.N.,Walker,K.,& Gutierrez,V.(2016).Focus on Methodology:Beyond paper and pencil:Conducting computer-assisted data collection with adolescents in group settings.JournalofAdolescence,49,1-9.
Vandenberg,R.J.,& Lance,C.E.(2000).A review and synthesis of the measurement invariance literature:Suggestions,practices,and recommendations for organizational research.OrganizationalResearchMethods,3(1),4-70.
Wang,K.T.,Yuen,M.,& Slaney,R.B.(2009).Perfectionism,depression,loneliness,and life satisfaction a study of high school students in Hong Kong.TheCounselingPsychologist,37(2),249-274.
Widaman,K.F.,& Reise,S.P.(1997).Exploring the measurement invariance of psychological instruments:Applications in the substance use domain.TheScienceofPrevention:MethodologicalAdvancesfromAlcoholandSubstanceAbuseResearch,(9),281-324.