孫佳楠,楊武岳,陳 秋
(北京林業(yè)大學 理學院, 北京 100083)
?
【統(tǒng)計應(yīng)用研究】
基于統(tǒng)計學變量篩選方法的心理測驗題目的維度識別
孫佳楠,楊武岳,陳 秋
(北京林業(yè)大學 理學院, 北京 100083)
近年來多維心理測驗被廣泛應(yīng)用于各類評估,雖然編制測驗時知道整個測驗考察的潛在特質(zhì)(或稱為維度),但是測驗題目具體考察的維度仍需確定。借助多維項目反應(yīng)理論模型與廣義線性模型的關(guān)系,使用LASSO和彈性網(wǎng)兩種變量篩選方法,可解決測驗題目的維度識別問題。模擬研究發(fā)現(xiàn),LASSO方法比彈性網(wǎng)方法具有更好的維度識別效果,前者對不同類型的多維測驗具有較高的維度識別準確率。
維度識別;多維項目反應(yīng)理論;變量篩選;LASSO;彈性網(wǎng)
隨著中國社會的發(fā)展進步,人們越來越多地使用心理測驗或量表來衡量特定人群在某方面的潛在特征,這些特征可以代表人的各種能力素養(yǎng)等不易直接觀測的信息。被測者的某種重要的能力素養(yǎng)往往由多個潛在特質(zhì)(或稱維度)構(gòu)成,而因此編制的心理測驗往往包含多個維度。迄今為止,多維心理測驗的應(yīng)用已拓展到工商業(yè)、醫(yī)學、教育等多個領(lǐng)域的研究及社會生活中。
應(yīng)用多維測驗的前提是明確每個題目考察的具體維度,以便解釋作答結(jié)果。在編制多維測驗時,需要根據(jù)心理學理論確定測驗考察的所有維度,各個題目具體考察了哪些維度只能粗略估計,而要確定測驗的題目和維度間的對應(yīng)關(guān)系,往往需要多次預(yù)試和判斷。在統(tǒng)計學和信息科學快速發(fā)展的今天,數(shù)據(jù)驅(qū)動方法可以服務(wù)于這類問題的實際應(yīng)用。本研究探討在已知多維測驗較少信息時,如何根據(jù)測驗的作答數(shù)據(jù),并從統(tǒng)計學變量篩選的角度,確定多維測驗題目所考察的維度,從而幫助測驗編制者和使用者更好地使用測驗[1]118-130。
自20世紀70年代,基于多維項目反應(yīng)理論(Multidimensional Item Response Theory, MIRT)開發(fā)的模型逐漸成為心理測驗的熱門統(tǒng)計模型[2]79-110,它可以擬合具有分類選項題的多維心理測驗數(shù)據(jù)。MIRT模型的代表性模型是多維兩參數(shù)Logistic模型,這里簡稱M2PL模型。該模型的自變量是潛變量,代表潛在特質(zhì)或維度,并被視為服從正態(tài)分布。當M2PL模型的自變量取固定的數(shù)值時,該模型即變成0~1響應(yīng)的logistic廣義線性模型。
本文基于M2PL模型,使用變量篩選方法中流行的壓縮估計法——LASSO(Least Absolute Shrinkage Selection Operator)方法和彈性網(wǎng)方法[3-4],識別多維測驗題目與維度間的對應(yīng)關(guān)系。LASSO近年來應(yīng)用十分廣泛[5-7],它最初是對線性回歸模型和廣義線性模型提出的變量篩選方法,通過對傳統(tǒng)參數(shù)估計方程增加L1范數(shù)的懲罰項構(gòu)造篩選變量的優(yōu)化問題。彈性網(wǎng)方法使用混合L1和L2范數(shù)的懲罰項構(gòu)造篩選變量的優(yōu)化問題。研究者發(fā)現(xiàn)坐標下降法是可以快速實現(xiàn)上述方法的便利算法[8],并給出了相應(yīng)的R軟件程序包:glmnet[9]。
本文簡要介紹M2PL模型、LASSO方法和彈性網(wǎng)方法,并在其理論基礎(chǔ)上針對題目為單項選擇的常見多維心理測驗,提出借助多維項目反應(yīng)理論模型和統(tǒng)計變量選擇方法的測驗題目的維度識別方法;進一步設(shè)計模擬實驗開展研究,并具體假設(shè)當M2PL模型擬合測驗數(shù)據(jù)時,分別使用LASSO和彈性網(wǎng)方法對多維測驗的題目與維度間考察關(guān)系進行識別,比較它們的識別效果;設(shè)計不同的測驗情境,以深入考察LASSO方法的效果。
(一)多維兩參數(shù)Logistic模型
(1)
(二)0~1響應(yīng)廣義線性模型下的變量篩選
(2)
(3)
彈性網(wǎng)優(yōu)化問題:
(4)
(三)基于LASSO或彈性網(wǎng)方法的多維心理測驗題目的維度識別
本節(jié)使用統(tǒng)計模擬方法[12]40-92,首先比較LASSO方法和彈性網(wǎng)方法對三維測驗的維度識別準確率;再針對效果較好的LASSO方法,分別對在二維和三維測驗的不同情境下的維度識別準確率進行比較。具體使用R軟件實現(xiàn)模擬實驗的程序編寫和程序包調(diào)用[13]3-73。
(一)LASSO和彈性網(wǎng)方法對測驗維度識別的比較
1. 研究設(shè)計與方法。本研究分別采用LASSO和彈性網(wǎng)進行變量篩選,比較兩種方法的效果。具體考慮題目數(shù)為J=21的測驗考察K=3個維度的被試能力,針對三維M2PL模型,這里采用研究者慣用的方法產(chǎn)生模型參數(shù)的真值。
最后,根據(jù)“最小deviance的一倍標準誤準則”選取合適的λ及其對應(yīng)的變量選擇結(jié)果。
表1 兩種三維測驗下兩種變量選擇方法的維度識別準確率表 單位:%
(二)LASSO方法對不同情境多維測驗的維度識別
2.研究結(jié)果。表2、表3分別為二、三維測驗的結(jié)果。由表2知:在6種測驗下,數(shù)據(jù)集的平均值普遍比較高;應(yīng)用潛變量真值的維度識別準確率均達90%以上,而用估計值的準確率也達80%以上,效果比較好。比較測驗間的判準率平均值發(fā)現(xiàn),在真值情況下測驗四、五達到最高99.17%;估計值情況下測驗五達到最高90.00%。
比較測驗一、二、三后發(fā)現(xiàn),對相同的W1而言,三種潛變量的協(xié)方差結(jié)構(gòu)下第三種的識別效果更好;比較測驗四、五、六發(fā)現(xiàn),對相同的W2而言,潛變量的協(xié)方差結(jié)構(gòu)下第二種的維度識別效果更好,說明潛變量的維度具有較小相關(guān)時的識別效果更好;比較測驗一和四、測驗二和五發(fā)現(xiàn),W1的識別效果比W2的略差;比較測驗三、六發(fā)現(xiàn),W1的識別效果比W2的稍好。
表2 LASSO方法獲得的不同類型二維測驗的維度識別準確率表 單位:%
由表3知,在六種測驗的每種情境下,用潛變量真值的維度識別準確率均達95%以上,用估計值的準確率也達70%以上,總體效果仍較好。
對測驗四、五、六,W4的識別效果整體較好,不同潛變量協(xié)方差結(jié)構(gòu)中前兩種的維度識別效果較好;測驗一、二、三的W3識別效果整體稍顯遜色,不同潛變量的協(xié)方差結(jié)構(gòu)的識別效果不分伯仲。三維測驗考察的維度較二維增加的同時,必然導致估計值下的識別準確率下降,但整體實驗結(jié)果仍比較理想。
表3 LASSO方法獲得的不同類型三維測驗的維度識別準確率表 單位:%
本文從多維項目反應(yīng)理論的M2PL模型出發(fā),借助統(tǒng)計變量選擇中的壓縮估計類方法,探索多維測驗的維度識別效果。通過模擬實驗,比較了LASSO和彈性網(wǎng)方法對三維測驗的維度識別效果,得出LASSO方法優(yōu)于彈性網(wǎng)方法的結(jié)論;對二維和三維的六種不同的測驗情境運用LASSO方法篩選測驗題目的維度,并從識別準確率的角度衡量該方法的效果。結(jié)果表明:本文的方法能夠從統(tǒng)計分析的角度較好地解決多維測驗的維度識別問題;本研究的特色是借助測驗作答數(shù)據(jù),從統(tǒng)計學變量篩選的角度,借助多維項目反應(yīng)理論模型和廣義線性模型間的關(guān)系,通過處理潛變量的取值并應(yīng)用變量選擇方法來篩選變量,在一定程度上可節(jié)約人工分析的時間和成本;在本研究基礎(chǔ)上,未來可進一步探索:針對實際的多維測驗及所收集到的作答數(shù)據(jù),進行維度識別的實證研究;將該方法推廣到多級評分的多維測驗的維度識別問題中;使用壓縮估計類的其他變量篩選方法,如SCAD方法做測驗的維度識別研究[15]。
[1] 高惠璇. 應(yīng)用多元統(tǒng)計分析[M]. 北京: 北京大學出版社, 2011.
[2]ReckaseMD.MultidimensionalItemResponseTheory[M].NewYork:Springer, 2009.
[3]TibshiraniR.RegressionShrinkageandSelectionviatheLasso[J].JournaloftheRoyalStatisticalSociety, 1996(1).
[4]HuiZ,TrevorH.RegularizationandVariableSelectionviatheElasticNet[J].JournaloftheRoyalStatisticalSociety, 2005, 67(2).
[5] 方匡南, 章貴軍, 張惠穎. 基于Lasso-logistic模型的個人信用風險預(yù)警方法[J]. 數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究, 2014(2).
[6] 李子強, 田茂再, 羅幼喜. 面板數(shù)據(jù)的自適應(yīng)Lasso分位回歸方法研究[J]. 統(tǒng)計與信息論壇, 2014(7).
[7] 李強, 王黎明. 基于LAD-LASSO方法的逐段常數(shù)序列中的變點估計[J]. 統(tǒng)計與信息論壇, 2015(5).
[8]FriedmanJ,HastieT,H?flingH,etal.PathwiseCoordinateOptimization[J].AnnalsofAppliedStatistics, 2007(2).
[9]FriedmanJ,HastieT,TibshiraniR.RegularizationPathsforGeneralizedLinearModelsviaCoordinateDescent[J].JournalofStatisticalSoftware, 2010(1).
[10]AgrestiA.CategoricalDataAnalysis[M]. 2nded.NewYork:Wiley, 2002.
[11]BrowneMW.AnOverviewofAnalyticRotationinExploratoryFactorAnalysis[J].MultivariateBehavioralResearch, 2001(1).
[12]RossMS. 統(tǒng)計模擬[M]. 北京: 機械工業(yè)出版社, 2013.
[13]湯銀才.R語言與統(tǒng)計分析[M]. 北京: 高等教育出版社, 2008.
[14]CaiL.High-dimensionalExploratoryItemFactorAnalysisbyaMetropolis-HastingsRobbins-MonroAlgorithm[J].Psychometrika, 2010(1).
[15]FanJ,LiR.VariableSelectionviaNonconcavePenalizedLikelihoodandItsOracleProperties[J].JournaloftheAmericanStatisticalAssociation, 2002,96(456).
(責任編輯:郭詩夢)
Item Dimension Identification of Psychological Tests based on Statistical Variable Selection Methods
SUN Jia-nan, YANG Wu-yue, CHEN Qiu
(School of Science, Beijing Forestry University, Beijing 100083, China)
Multidimensional psychological tests have been widely used to evaluate examinees' latent traits in all kinds of subject assessment. Although the possible latent traits or the so-called dimensions of the tests can be known to some extent, the dimensions probed by each item of the tests are still needed to identify for the application purpose. Based on multidimensional item response theory and the shrinkage estimation methods of statistical variable selection, this research explored to statistically identify the item-dimension correspondence relationship in some typical psychological tests. Simulation studies were conducted to investigate the performance of the proposed method and the results showed that the method based on LASSO did better than that based on the elastic net in terms of correctly identifying the dimensions of test items.
dimension identification of psychological tests; multidimensional item response theory models; variable selection; LASSO; elastic net
2016-03-25;修復日期:2016-07-18
中央高校基本科研業(yè)務(wù)費專項資金《心理與教育測評中新興統(tǒng)計模型的變量選擇方法的研究與開發(fā)》(BLX2014-31);北京林業(yè)大學北京市大學生科學研究與創(chuàng)業(yè)行動計劃《基于LASSO和彈性網(wǎng)方法的多維測驗項目的維度識別》(S201510022094)
孫佳楠,女,吉林長春人,理學博士,講師,研究方向:概率統(tǒng)計與應(yīng)用統(tǒng)計。
C912.6∶O212.4
A
1007-3116(2016)11-0054-06