劉香東
美國中小學(xué)計算機考試與紙筆考試的可比性研究:現(xiàn)狀與展望
劉香東
本文回顧了近十年來美國中小學(xué)有關(guān)計算機考試與紙筆考試可比性的實證研究狀況,闡述了計算機考試與紙筆考試可比性研究的實驗設(shè)計、樣本選擇、年級與學(xué)科的選擇,介紹了可比性研究的評價標準與工具,總結(jié)了可比性研究的階段性成果。在此基礎(chǔ)上,探討了未來計算機考試與紙筆考試可比性研究的發(fā)展方向,并對國內(nèi)開展相關(guān)研究提出一些建議。
計算機考試;紙筆考試;可比性研究
電腦與互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展為計算機考試的普及提供了可能。與傳統(tǒng)紙筆考試相比,計算機考試擁有一些突出的優(yōu)勢:標準化管理、內(nèi)容更新方便、可使用創(chuàng)新試題、閱卷和報告成績比較快捷。在從傳統(tǒng)紙筆考試到計算機考試的轉(zhuǎn)變過程中,受電腦普及率等因素的制約,有的地區(qū)和學(xué)校需要同時提供計算機考試與紙筆考試。但是,計算機考試與紙筆考試是否一致?考試成績是否等效?這些問題均值得研究。正因為如此,教育心理測試標準(The Standards for Educational and Psycho?logical Testing)(1999)和國際計算機考試與網(wǎng)上考試 標 準 (International Guidelines on Computer-Based and Internet-Delivered Testing)(2005)都要求對計算機考試與紙筆考試的應(yīng)用與結(jié)果進行可比性研究。
在美國,計算機考試(Computer-Based Test)和紙筆考試(Paper-and-Pencil Test)的可比性研究始于20世紀70年代,但真正的發(fā)展和走向繁榮還是近十年的事。本文總結(jié)了近十年美國中小學(xué)計算機考試與紙筆考試的可比性研究的主要成果,以期為國內(nèi)開展相關(guān)研究提供參考。本文主要針對計算機考試與紙筆考試的可比性研究,但對計算機自適應(yīng)考試(computer adaptive test)與紙筆考試的可比性研究同樣具有參考價值。
從實驗設(shè)計來看,計算機考試與紙筆考試的可比性研究一般采用重復(fù)測試(repeated measures or within-subject design)或獨立組測試(independent random groups or between-subjects design)兩種實驗設(shè)計方式。
重復(fù)測試設(shè)計是指對同一組學(xué)生計算機考試和紙筆考試的成績進行比較分析。重復(fù)測試設(shè)計的好處在于采取同一組學(xué)生,兩個考試成績不受學(xué)生能力水平差異的外在影響。但是,重復(fù)測試設(shè)計需要考慮到計算機考試與紙筆考試先后順序的影響。要平衡這種影響,一般讓一半的學(xué)生先進行計算機考試,然后再進行紙筆考試,同時讓另一半的學(xué)生先進行紙筆考試,然后再進行計算機考試。重復(fù)測試讓同一組學(xué)生在一段時間內(nèi)進行兩次內(nèi)容相同的考試,實施起來相對有些挑戰(zhàn)。
考慮到重復(fù)測試操作的難度,也有研究者使用獨立組測試。獨立組測試設(shè)計是指隨機選取兩組不同的學(xué)生,讓其分別參加計算機或紙筆考試,然后對兩組學(xué)生的成績進行比較分析。獨立組測試設(shè)計的好處在于操作難度較小,不用考慮計算機與紙筆考試先后順序的問題,但如果參加計算機考試與紙筆考試的兩組學(xué)生的能力相差懸殊,會影響可比性研究的真實結(jié)果。Wang等人進行的K-12數(shù)學(xué)科計算機考試與紙筆考試可比性研究的元分析(meta-analysis)包含44個可比性研究,其中14個采用重復(fù)測試,其余30個采用獨立組測試。采用重復(fù)測試的可比性研究中,有72%考慮了計算機與紙筆考試的先后順序[1]。Wang等人進行的K-12閱讀科可比性研究的元分析包括42個可比性研究,其中12個采用重復(fù)測試,其余30個采用獨立組測試。采用重復(fù)測試的可比性研究中,有89%考慮了計算機考試與紙筆考試的先后順序[2]。筆者進行的K-12各科計算機考試與紙筆考試可比性研究的元分析包含37個可比性研究,其中,有23個采用重復(fù)測試,其余14個采用獨立組測試。需要指出的是,因為重復(fù)測試和獨立組測試兩種實驗設(shè)計存在根本性區(qū)別,不能忽略不計,筆者收集了2007—2015年間最新發(fā)表的可比性研究,對其中的兩種實驗設(shè)計進行了單獨的元分析。從分析結(jié)果來看,近年來采用重復(fù)測試設(shè)計的比重在上升,但采用獨立組測試的設(shè)計仍占很大的比重。從研究選擇的樣本大小與取樣方式來看,在Wang等人的44個可比性研究中,48%的樣本數(shù)大于400人,32%的研究樣本在200~400人之間,其余小于200人;在取樣方式上,68%的研究采用隨機實驗(experimental/random?ized),其余采用非隨機實驗(quasi-experimental/ non-randomized)[1]。在Wang等人的42個可比性研究中,在樣本大小上,52%的樣本數(shù)大于400人,31%的研究在200~400人之間,其余小于200人;在取樣方式上,71%的研究采用隨機實驗,其余采用非隨機實驗[2]。在筆者的37個可比性研究中,采用獨立組測試的有57%的研究樣本量大于400人,采用重復(fù)測試的有70%的樣本量大于400人。綜上所述,約50%以上的研究選擇樣本量大于400人,約70%的研究采用隨機取樣方法。
從研究針對的年級與學(xué)科上來看,在Wang等人的44個針對數(shù)學(xué)的可比性研究中,38%的樣本來自高中,32%來自初中,27%來自小學(xué)[1]。在Wang等人的42個針對閱讀的可比性研究中,49%的樣本來自高中,18%來自初中,24%來自小學(xué)[2]。Kingston進行的K-12各科計算機考試與紙筆考試可比性研究的元分析涉及81個可比性研究。從年級來看,35%的樣本來自高中,32%來自初中,25%來自小學(xué);從學(xué)科來看,38%的樣本來自數(shù)學(xué),37%來自閱讀,11%來自語言(English language arts),11%來自科學(xué)[3]。在筆者的37個可比性研究中,從年級來看,22%的樣本來自高中,43%來自初中,35%來自小學(xué);從學(xué)科來看,48%的樣本來自數(shù)學(xué),26%來自閱讀,4%來自語言,22%來自科學(xué)與社會。綜上所述,大約一半以上的研究選擇初高中學(xué)生進行可比性研究,選擇數(shù)學(xué)和閱讀來進行可比性研究的也占到一半以上。針對小學(xué)生的研究較少,但近幾年其比重在上升。
從宏觀的評價標準來看,Wang和Kolen提出三項評估計算機自適應(yīng)考試與紙筆考試可比性的綜合標準:(1)效度標準;(2)心理測量特性或信度標準;(3)統(tǒng)計假設(shè)或考試情景標準[8]。這三項標準同樣適用于計算機考試與紙筆考試的可比性研究。Lottridge,Nicewander和Mitzel把可比性研究的效度標準解釋為:計算機考試與紙筆考試在內(nèi)容上要一致;兩個考試應(yīng)具有相同的因子結(jié)構(gòu)(factor struc?ture),相同的測量準確性;兩個考試的差異應(yīng)主要來源于難度,而且難度的差異可以通過等值消除;兩個考試應(yīng)該有相同的預(yù)測效度系數(shù),即兩個考試與另一個外部考試的相關(guān)系數(shù)相同[5]。Wang和Shin把心理測量特性或信度標準解釋為:分數(shù)分布的形狀;信度系數(shù);條件測量標準誤差(conditional stan?dard error of measurement)[6]。Wang和Shin把統(tǒng)計假設(shè)或考試情景標準解釋為:如果可比性研究是以項目反應(yīng)理論為基礎(chǔ),那么項目反應(yīng)理論的統(tǒng)計假設(shè)——單維度性(unidimensionality)和試題的獨立性(local independence)需要進行檢驗[6]。
從具體的評估工具來看,一般的可比性研究都對計算機考試與紙筆考試的平均值、標準差、效應(yīng)量(effect size)、相關(guān)系數(shù)以及分數(shù)的累計分布等進行對比分析,用t測試檢驗計算機考試與紙筆考試是否存在差異。最近以項目反應(yīng)理論為基礎(chǔ)的可比性研究逐漸增多,譬如對比計算機考試與紙筆考試的考試特性曲線(characteristic curves)、考試信息功能(information functions)、估計標準誤差(stan?dard error of estimate)以及題目參數(shù)(item parame?ters)等等[7-10]。
從具體研究問題來看,可比性研究涵蓋以下幾個方面:(1)某年級某學(xué)科的計算機考試與紙筆考試是否存在差異?(2)計算機考試與紙筆考試的差異是否受性別、年級和能力水平的影響?(3)學(xué)生在計算機考試與紙筆考試的整體考試(test level)與個別題目(item level)上是否存在差異?(4)計算機考試與紙筆考試差異來源的探索性分析[11]。
綜上所述,對可比性研究的評價工具很多。首先,要從宏觀上了解評價的綜合標準,然后再決定選擇何種具體工具來解決實際問題。其次,最好由簡入深。先從基本的平均值、標準差、t檢驗結(jié)果和相關(guān)系數(shù)開始,然后再考慮以項目反應(yīng)理論為基礎(chǔ)的一些比較工具等。最后,研究問題也最好從單學(xué)科單年級開始,如初二數(shù)學(xué)計算機考試與紙筆考試是否存在差異,然后再逐步提高到跨年級跨學(xué)科的比較,如對比初三與初二數(shù)學(xué)、語文計算機考試與紙筆考試的差異。
Bennett把計算機考試與紙筆考試可比性研究分為三大類:計算機考試與紙筆考試的對比;計算機考試平臺的比較;計算機考試與紙筆考試閱卷的對比[12]。本文借助這一分類來梳理近年來可比性研究的階段性成果,同時探討計算機考試與紙筆考試存在差異的原因。
從計算機考試與紙筆考試的對比來看,Wang等人以及Kingston的三個元分析的研究表明,計算機考試與紙筆考試的成績差異并不顯著[1-3]。在對計算機考試與紙筆考試的調(diào)節(jié)變量(moderator)上,Wang等人發(fā)現(xiàn)在數(shù)學(xué)科目上電腦傳遞算法對計算機考試與紙筆考試的差異影響顯著[1]。Wang等人發(fā)現(xiàn)在閱讀科目上不同的取樣方式(隨機還是非隨機)、樣本大小、電腦熟悉程度和電腦傳遞算法對計算機考試與紙筆考試的差異影響顯著[2]。Kingston發(fā)現(xiàn)不同的學(xué)科對計算機考試與紙筆考試的差異影響顯著,但年級的高低對計算機考試與紙筆考試的差異影響并不顯著[3]。
從計算機考試平臺的對比來看,針對顯示器大小、分辨率高低和頁面瀏覽速度快慢是否對學(xué)生成績產(chǎn)生影響,Bridgeman,Lennon和Jackenthal對357名高中學(xué)生進行了一項獨立組測試研究。結(jié)果表明,以上三個因素在數(shù)學(xué)科目上未帶來成績上的顯著差異,而在語文科目上,只有在高分辨率情境下,學(xué)生分數(shù)高四分之一個標準差[13]。此后,針對電腦熟練程度或電腦知識是否對計算機考試與紙筆考試的成績存在顯著影響,Higgins,Russell和Hoffmann對259名四年級小學(xué)生進行了一項閱讀的獨立組測試研究。紙筆考試結(jié)果表明,電腦熟練程度或電腦知識在閱讀科目上未帶來成績上的顯著差異,但使用滾動頁面功能進行長篇閱讀時,一些電腦不熟練的學(xué)生受到一定的影響。他們的研究表明,在計算機考試中提供加亮(highlighters)和回顧(review markers)選項有助于減少滾動頁面的影響。在他們的問卷調(diào)查中,大部分學(xué)生聲稱他們更喜歡選擇計算機考試[14]。Kingston討論了在數(shù)學(xué)紙筆考試中,學(xué)生可以直接在試卷邊緣空白處演算,然后在答題紙上寫答案,而在數(shù)學(xué)的計算機考試中學(xué)生必須要在草紙上演算。計算機考試比紙筆考試多了一個使用草紙的維度,未來的考試開發(fā)者可以考慮如何減少這一影響[3]。
從計算機考試與紙筆考試閱卷的對比來看,Russell和Tao調(diào)查研究了4、8和10年級學(xué)生論文手寫與打字對閱卷的影響。研究者從每個年級選擇大約60篇語文手寫論文,并將這些論文輸入電腦,最后對比手寫和打字的成績。結(jié)果表明,手寫比打字獲得的分數(shù)高。研究者認為,打字得分低可能有兩種原因:一是打字的文章中的錯誤更明顯,二是評分者對打字的論文的期望值要高[15]。
從計算機考試與紙筆考試差異的原因來看,Bennett認為二者差異主要來源于三點:(1)題目呈現(xiàn)形式不同帶來的差異,如計算機考試是一屏一題,而紙筆考試一頁幾題,兩者對圖片的展示效果也不一樣;(2)題目管理方式不同會帶來差異,有些試題要求監(jiān)考老師讀題并控制每一部分的時間,有些試題學(xué)生可以自己掌握時間;(3)學(xué)生對電腦的熟悉程度不同帶來的差異[12]。Lottridge,Nicewan?der和Mitzel的研究表明,計算機考試與紙筆考試的差異主要是源于題目難度的差異,但這一點可以通過等值進行調(diào)節(jié)[5]。Kolen認為,計算機考試與紙筆考試的差異源于五個方面:長篇文章閱讀的難易度、修改前面問題答案的難易度、考試是否有充足的時間、圖片與表格是否清晰以及點擊鼠標與填答題卡的差別[16]。筆者的一項研究對三個科目的題目按照只有文本、只有圖片和文本與圖片兼有進行分類,發(fā)現(xiàn)不同題目表現(xiàn)形式對計算機考試與紙筆考試的差異的影響不顯著。筆者應(yīng)用項目反應(yīng)理論對題目參數(shù)進行分析后發(fā)現(xiàn),題目的難度參數(shù)對計算機考試與紙筆考試的差異的影響占很大比例,這一結(jié)果與Lottridge,Nicewander和Mitzel的研究結(jié)果一致[5]。
綜上所述,大部分研究表明,計算機考試與紙筆考試的成績未發(fā)現(xiàn)顯著差異。國內(nèi)進行計算機考試與紙筆考試的可比性研究時應(yīng)注意調(diào)節(jié)變量的影響,如研究結(jié)果的解釋要考慮是否受到樣本大小、取樣方式以及學(xué)生電腦熟練程度的影響。目前,針對計算機考試平臺差異、計算機考試與紙筆考試的閱卷以及計算機考試與紙筆考試差異的來源上的研究不多,國內(nèi)也可以進行相關(guān)探索。
Li,Yi和Harris把計算機考試與紙筆考試可比性研究分為項目反應(yīng)理論下的分析(IRT analysis)、因子分析(factor analysis)、概化分析(generalizability analysis)和試題功能差異分析(differential item func?tioning)[10]。這四個方向也代表了計算機考試與紙筆考試可比性研究的發(fā)展趨勢,每個方向都可繼續(xù)分拆成若干個子課題進行研究。現(xiàn)有的研究多關(guān)注整體考試,未來研究也可多關(guān)注個別題目[18-19]。由于小學(xué)低年級學(xué)生對電腦掌握程度不高,對這一群體的可比性研究較少。隨著學(xué)校對小學(xué)低年級學(xué)生電腦培訓(xùn)的增加,未來的研究也可多關(guān)注小學(xué)生。
隨著電腦在學(xué)校的普及,計算機考試已成為可能。從GRE和托福改成計算機考試的情況來看,計算機考試有取代紙筆考試的趨勢。計算機考試有方便管理、評分快捷以及有利于應(yīng)用創(chuàng)新試題的優(yōu)勢。在美國,有的學(xué)校硬件齊備,可以滿足幾個班同時進行計算機考試。但是,一些鄉(xiāng)村小學(xué)校還沒有達到這樣的硬件標準,只能進行紙筆考試。這種情況下,必須對計算機考試與紙筆考試的可比性進行分析。國內(nèi)也會出現(xiàn)類似的問題,如一些學(xué)校硬件設(shè)備已經(jīng)滿足計算機考試,而其他一些學(xué)校還沒有條件進行計算機考試,這就需要進行計算機考試與紙筆考試的可比性研究。本文所梳理的美國的相關(guān)研究在實驗設(shè)計、樣本大小與取樣方式以及學(xué)科和年級選擇等方面為國內(nèi)進行可比性研究提供了借鑒,同時也在可比性研究的評價工具以及階段性成果方面提供了參考。期望國內(nèi)研究者進行相關(guān)的本土化研究,進而發(fā)表計算機考試與紙筆考試可比性研究的國際成果。
[1]WANG S,JIAO H,YOUNG M J,et al.A meta-analysis of testing mode effects in grade K-12 mathematics tests[J].Educational and Psychological Measurement,2007,67(2):219-238.
[2]WANG S,JIAO H,YOUNG M J,et al.Comparability of Computer-Based and Paper-and-Pencil Testing in K-12 Reading Assess?ments A Meta-Analysis of Testing Mode Effects[J].Educational and Psychological Measurement,2008,68(1):5-24.
[3]KINGSTON N M.Comparability of computer-and paper-adminis?tered multiple-choice tests for K-12 populations:A synthesis[J]. Applied Measurement in Education,2008,22(1):22-37.
[4]WANG T,KOLEN M J.Evaluating comparability in computerized adaptive testing:Issues,criteria and an example[J].Journal of Edu?cational Measurement,2001,38(1):19-49.
[5]LOTTRIDGE S M,NICEWANDER W A,MITZEL H C.A compari?son of paper and online tests using a within-subjects design and pro? pensity score matching study[J].Multivariate behavioral research, 2011,46(3):544-566.
[6]WANG H,SHIN C D.Comparability of computerized adaptive and paper-pencil tests[J].Test,Measurement and Research Service Bul?letin,2010,(13):1-7.
[7]KIM D H,HUYNH H.Comparability of computer and paper-andpencil versions of algebra and biology assessments[J].The Journal of Technology,Learning and Assessment,2007,6(4).
[8]KIM D H,HUYNH H.Computer-based and paper-and-pencil ad?ministration mode effects on a statewide end-of-course English test [J].Educational and Psychological Measurement,2008,68(4):554-570.
[9]BENNETT R E,BRASWELL J,ORANJE A,et al.Does it matter if I take my mathematics test on computer?A second empirical study of mode effects in NAEP[J].The Journal of Technology,Learning and Assessment,2008,6(9).
[10]LI D,YI Q,HARRIS D.Spring 2014 ACT test mode comparability study[R].Iowa City:ACT,2015.
[11]CHOI S W,TINKLER T.Evaluating comparability of paper-andpencil and computer-based assessment in a K-12 setting[C]//An?nual meeting of the National Council on Measurement in Educa?tion.New Orleans,LA,2002.
[12]BENNETT R E.Online assessment and the comparability of score meaning[C]//Annual conference of the International Association for Educational Assessment.Manchester,2003.
[13]BRIDGEMAN B,LENNON M L,JACKENTHAL A.Effects of Screen Size,Screen Resolution,and Display Rate on Computer-Based Test Performance[R].ETS Research Report Series,2001(2):i-23.
[14]HIGGINS J,RUSSELL M,HOFFMAN T.Examining the effect of computer-based passage presentation on reading test performance [J].Journal of Technology,Learning,and Assessment,2005,3(4).
[15]RUSSELL M,TAO W.The influence of computer-print on rater scores[J].Practical Assessment,Research and Evaluation,2004,9(1).
[16]KOLEN M J.Threats to score comparability with applications to performance assessments and computerized adaptive tests[J].Ed?ucational Assessment,1999,6(2):73-96.
[17]KENG L,MCKLARTY K L,DAVIS L L.Item-level Comparative Analysis of Online and Paper Administrations of the Texas Assess?ment of Knowledge and Skills[J].Applied Measurement in Educa?tion,2008(21):207-226.
[18]RANDALL J,SIRECI S,Li X,et al.Evaluating the Comparability of Paper-and Computer-Based Science Tests across Sex and SES Subgroups[J].Educational Measurement:Issues and Practice,2012(31):2-12.
Comparability Research of Computer-Based Testing and Paper-and-Pencil Testing: Present and Prospect
LIU Xiangdong
This paper reviews the empirical studies of mode comparison between computer-based and paper-andpencil testing for K-12,focusing on the experiment’s design,sample size,sampling methods and the subject and grade of current comparability studies.It also examines the criteria of mode comparison studies,the progress that has been made and the future trends.In addition,suggestions are put forward on how similar mode comparison studies can be made in China.
Computer-Based Testing;Paper-and-Pencil Testing;Comparability Study
G405
A
1005-8427(2016)11-0023-6
(責(zé)任編輯:陳寧)
劉香東,男,美國愛荷華大學(xué)心理測量系,在讀博士(美國愛荷華州 52246)