謝敏++++劉娟
摘要:在大規(guī)模教育測評中,經(jīng)常會(huì)遇到測評內(nèi)容的全面性與測評時(shí)間過長影響學(xué)生測評結(jié)果之間的矛盾,本文嘗試從簡化工具入手,選擇有代表性的、敏感度高的題目來達(dá)到測評目標(biāo)。
關(guān)鍵詞:大規(guī)模教育測評;工具簡化;敏感度
一、問題提出
在大規(guī)模的教育測評中,經(jīng)常會(huì)遇到以下問題,導(dǎo)致測評效果受到嚴(yán)重影響。
1.為全面考察學(xué)生、教師和學(xué)校發(fā)展?fàn)顩r,在大規(guī)模教育測評中,往往要求同時(shí)測評較多的內(nèi)容,以全方位對區(qū)域整體教育質(zhì)量狀況進(jìn)行評估。例如,對學(xué)生的評估中經(jīng)常少不了對學(xué)業(yè)成就的測評、對社會(huì)性發(fā)展(含情緒情感、行為、自我、價(jià)值觀等)的考察、對家庭環(huán)境的了解等,這些內(nèi)容都需要由學(xué)生來進(jìn)行作答,這樣每個(gè)學(xué)生的測評內(nèi)容就會(huì)很多。
2.測評內(nèi)容多也就意味著一個(gè)學(xué)生要完成測評的時(shí)間長。尤其是在社會(huì)性發(fā)展方面,涉及到情緒情感、親社會(huì)行為、不良行為、自我、價(jià)值觀等方方面面的內(nèi)容,且多是量表類的題目,考察學(xué)生在各方面的表現(xiàn)和感受。雖然對某個(gè)方面來說題量并不多,但將方方面面的內(nèi)容放在一起的時(shí)候,題量就大了。為滿足區(qū)域測評需求,基本上社會(huì)性發(fā)展問卷的測試時(shí)間都在60~80分鐘,包括幾百道題,而且各個(gè)題目之間沒有太多的起伏,均要求學(xué)生根據(jù)真實(shí)情況作答,這對于學(xué)生來說是個(gè)不小的負(fù)擔(dān)。不少的學(xué)生堅(jiān)持不下來,大部分學(xué)生在二十分鐘之后就會(huì)感到疲勞和不耐煩,開始隨意答、繞花答、不看題目統(tǒng)一選一個(gè)選項(xiàng),甚至干脆不作答。例如,我們在兩個(gè)區(qū)進(jìn)行測評都發(fā)現(xiàn),測評二十分鐘后,已有近20%的學(xué)生開始亂答。導(dǎo)致大家辛苦收集上來的數(shù)據(jù)實(shí)際上是不真實(shí)、不可靠的,提供不了準(zhǔn)確的信息。
3.測評內(nèi)容多卻不意味著每一個(gè)結(jié)果都能充分展開分析,造成資源浪費(fèi)。最終報(bào)告使用數(shù)據(jù)時(shí),是有側(cè)重的,并不是每一個(gè)變量都展開來進(jìn)行深入分析,有的變量只作為關(guān)聯(lián)變量使用,但測評的時(shí)候卻有幾十道題,這樣不僅花費(fèi)了大量時(shí)間作答,造成學(xué)生疲勞,影響作答效果,還浪費(fèi)了很多成本,如題本印刷、運(yùn)輸、數(shù)據(jù)錄入和清理等,消耗了大量人力、金錢和時(shí)間。
鑒于上述問題,為了在保證測評內(nèi)容的全面性,達(dá)到測評目標(biāo)的同時(shí),提高測評效果,節(jié)約成本,我們在努力思考有什么辦法可以很好地解決這個(gè)問題。
二、解決辦法
上述情況若是從成本各環(huán)節(jié)再節(jié)約,從作答環(huán)節(jié)再激發(fā)學(xué)生作答熱情,效果都會(huì)是有限的。工具作為整個(gè)測評過程中的核心內(nèi)容,應(yīng)從其本身入手解決這個(gè)問題。我們有如下思考:一方面,在確定測評目標(biāo)和測評內(nèi)容時(shí),應(yīng)考慮細(xì)致,明確哪些因素是要重點(diǎn)分析的,哪些因素是要做關(guān)聯(lián)分析的,做到每個(gè)因素都有“用武之地”,而不一味地貪多求全。另一方面,對于經(jīng)常作為關(guān)聯(lián)變量使用的和可作為關(guān)聯(lián)變量使用的工具進(jìn)行簡化,可分為兩種情況:
一是挑選敏感度高的題目,作為在某方面的典型表現(xiàn)進(jìn)行分析。這一分析至少包含下面幾項(xiàng)內(nèi)容:題總相關(guān)、因子載荷、選項(xiàng)分析、專家判斷或典型被試判斷題目對主題內(nèi)涵的代表性。
1.首先要保證題目所代表的行為表現(xiàn)或感受能較好地、直觀地反映該方面的內(nèi)涵。常用的方法是專家判斷(專家團(tuán)隊(duì)最好能包含領(lǐng)域?qū)<摇⒔逃龑W(xué)專家、測量學(xué)專家等)或是典型被試口頭報(bào)告作答思考過程,可以用評分或評定等級的方式,把需要簡化的各題目對主題內(nèi)涵的代表性進(jìn)行排序。
2.選項(xiàng)分布應(yīng)較為合適。計(jì)算各題各選項(xiàng)的人數(shù)百分比,看是否有人數(shù)分布很偏的情況,選項(xiàng)分布可以說明這道題所代表的行為表現(xiàn)或感受在學(xué)生中是否常見。若人數(shù)分布集中在某1~2個(gè)選項(xiàng)上,則說明在這道題上獲得的信息是很少的,對于評價(jià)來說就失去意義了。
3.區(qū)分度應(yīng)較高。對于分布偏正態(tài)的內(nèi)容可使用鑒別力指數(shù)D值來計(jì)算區(qū)分度,選擇D值至少在0.3以上的題目,對于分布偏態(tài)的內(nèi)容可使用題總相關(guān)來作為區(qū)分度指標(biāo),選擇r值至少在0.6以上的題目。
4.因子載荷應(yīng)較高。通過Mplus等軟件進(jìn)行驗(yàn)證性因素分析,根據(jù)擬合指數(shù)等各項(xiàng)指標(biāo)的結(jié)果,選擇因子載荷至少在0.5以上的題目。因子載荷值從測量學(xué)的角度說明了該題對整個(gè)維度(主題內(nèi)涵)的反映程度。
二是制訂簡版工具(Smith等,2000;Taylor等,2002)。制訂簡版工具的要求非常嚴(yán)格,在上述分析的基礎(chǔ)之上,還需要至少包含以下內(nèi)容:簡版與完整版之間的相關(guān)程度及簡版與剩余題目之間的相關(guān)程度(如相關(guān)不高需重新挑題)、簡版量表的內(nèi)部一致性、簡版量表的題總相關(guān)、挑選效標(biāo)資料分析簡版量表的區(qū)分效度和同時(shí)效度(在條件允許的情況下可分析重測信度)。只有當(dāng)上述指標(biāo)達(dá)到統(tǒng)計(jì)學(xué)要求時(shí)方能建立簡版工具,簡版工具與完整版工具的理論假設(shè)、維度結(jié)構(gòu)等需保持一致,僅在題量上進(jìn)行了縮減。
制訂簡版工具需要有更專業(yè)、更復(fù)雜的工作,這一工作尚未完成。作為嘗試,本文要重點(diǎn)講述的是第一種簡化測評工具的方法和結(jié)果。
三、分析過程
1.修訂內(nèi)容
考慮到“中國6~15歲兒童青少年心理發(fā)育特征調(diào)查”項(xiàng)目中有全國代表性的樣本且項(xiàng)目成果要進(jìn)行推廣,以及近幾年來一線測評工作需求,本次進(jìn)行簡化的內(nèi)容選擇“中國6~15歲兒童青少年心理發(fā)育特征調(diào)查”項(xiàng)目的社會(huì)性題本,涵蓋五個(gè)方面,分別是情緒、行為、自我、價(jià)值觀和社會(huì)信念,各方面主要包含的內(nèi)容如下:
模塊
測評內(nèi)容
情緒
生活滿意度、孤獨(dú)感、焦慮
行為
親社會(huì)行為、攻擊行為、校園被欺負(fù)行為、網(wǎng)絡(luò)成癮傾向
自我
自我認(rèn)識、自尊、自信、自制力
價(jià)值觀
金錢觀、環(huán)境保護(hù)、國家認(rèn)同、權(quán)力觀、學(xué)習(xí)觀、集體主義
社會(huì)信念
公正世界信念、積極社會(huì)信念
2.數(shù)據(jù)來源
數(shù)據(jù)主要來源于兩方面:一是“中國6~15歲兒童青少年心理發(fā)育特征調(diào)查”項(xiàng)目的4~9年級學(xué)生的全國代表性數(shù)據(jù)庫,二是北京師范大學(xué)腦與認(rèn)知科學(xué)研究院心理與學(xué)習(xí)評價(jià)中心近兩年來的幾個(gè)區(qū)域測評數(shù)據(jù)??紤]到數(shù)據(jù)的全國代表性、區(qū)域數(shù)據(jù)不完全包括上述五方面的內(nèi)容且不包括所有4~9年級,兩方面的數(shù)據(jù)以“中國6~15歲兒童青少年心理發(fā)育特征調(diào)查”項(xiàng)目為主,心理與學(xué)習(xí)評價(jià)中心的數(shù)據(jù)結(jié)果作為輔助和驗(yàn)證。
3.分析方法
首先,通過查閱五個(gè)方面最近幾年的最新研究成果,明確“中國6~15歲兒童青少年心理發(fā)育特征調(diào)查”項(xiàng)目社會(huì)性題本在這七個(gè)方面的內(nèi)容仍較為前沿。
其次,重點(diǎn)進(jìn)行了數(shù)據(jù)分析。分成三個(gè)階段進(jìn)行:
第一階段是進(jìn)行年級差異的分析,考慮到樣本量較大,確定差異是否顯著是以效應(yīng)值>0.2為標(biāo)準(zhǔn)的,有差異的年級分開計(jì)算,沒有差異的年級合并計(jì)算。
第二階段是對上述五個(gè)方面的內(nèi)容進(jìn)行選項(xiàng)分析、區(qū)分度分析、題總相關(guān)分析、一致性分析和驗(yàn)證性因素分析,根據(jù)各題的內(nèi)容和統(tǒng)計(jì)結(jié)果挑選內(nèi)容合適、敏感度高的
題目。
第三階段是對挑選出來的題目進(jìn)行統(tǒng)計(jì)計(jì)算,包括一致性分析、對原工具的解釋率、與原工具的年級發(fā)展趨勢的一致程度等。
4.挑選結(jié)果
以焦慮量表和孤獨(dú)感量表為例。
焦慮量表有28道題,包含生理焦慮、對人不安/恐懼、擔(dān)憂/過度敏感三個(gè)維度,經(jīng)過第二階段統(tǒng)計(jì)計(jì)算后,發(fā)現(xiàn)在生理焦慮和對人不安/恐懼兩個(gè)維度上區(qū)分度較高且因子載荷較高的題目是:“我總是感到不舒服。”“就算與別人在一起,我仍感到孤獨(dú)?!薄皠e的孩子比我幸福?!薄拔液茈y把心思放在功課上?!蔽覀冋J(rèn)為,這四道題目所代表的行為表現(xiàn)和感受不能很好地說明是否焦慮,因?yàn)檫€存在其他可能引發(fā)這四種表現(xiàn)的因素,而且,縱觀這兩個(gè)維度上的所有題,均有這方面的情況。因此,我們把挑題的重點(diǎn)放在擔(dān)憂/過度敏感維度上,在這個(gè)維度上,挑選出來較為合適的有五道題:“我很多時(shí)候都在擔(dān)心?!薄拔腋械骄o張?!薄拔液ε潞芏嗍虑?。”“我時(shí)常擔(dān)心糟糕的事情會(huì)落到我頭上。”“我擔(dān)心將來會(huì)發(fā)生什么?!眳^(qū)域數(shù)據(jù)也支持這一選擇。這五道題的一致性系數(shù)為0.693,對原量表的解釋率為67%。在四個(gè)區(qū)域的初二年級學(xué)生數(shù)據(jù)中,這五道題的一致性系數(shù)在0.76~0.84之間,對原量表的解釋率在71.2%~79.9%之間。這五道題的年級發(fā)展趨勢與原量表的對比如下,挑選后的五道題計(jì)算得到的年級發(fā)展趨勢更具合理性。
孤獨(dú)感量表有16道題,為單維度。經(jīng)過統(tǒng)計(jì)計(jì)算和內(nèi)容選擇,挑選出了六道題:“沒有人跟我玩?!薄皼]有人跟我一塊說話?!薄拔液茈y交朋友。”“在我需要幫助時(shí),我找不到人來幫我。”“我感到寂寞。”“我覺得孤單。”區(qū)域數(shù)據(jù)也支持這一選擇。這六道題的一致性系數(shù)為0.839,對原量表的解釋率為83.6%。三個(gè)區(qū)域的初二年級學(xué)生數(shù)據(jù)中,這六道題的一致性系數(shù)在0.84~0.93之間,對原量表的解釋率在82.5%~83.9%之間。這六道題的年級發(fā)展趨勢與原量表的對比如下:
在所有5個(gè)方面19項(xiàng)內(nèi)容中,挑題后的一致性系數(shù)在0.54~0.84之間,對原工具的解釋率在53%~94%之間,總體較好。挑題前這五個(gè)方面的總題量為215道,挑題后是70~75道,這些題對各項(xiàng)內(nèi)容的內(nèi)涵有較好的反映,且區(qū)分度、因子載荷均較高。若同時(shí)進(jìn)行測試,測試時(shí)間將大大節(jié)省。
在這19項(xiàng)內(nèi)容中,校園欺負(fù)行為、自制力、公正世界信念在小學(xué)和初中有不同的表現(xiàn),分為小學(xué)和初中兩個(gè)版本;自尊、自信、國家認(rèn)同和環(huán)境保護(hù)在4~5年級、6~9年級的表現(xiàn)有所不同,分為4~5年級、6~9年級兩個(gè)版本。
四、結(jié)論與討論
可見,經(jīng)過挑選之后的題目對原工具仍有較好的代表性,可以滿足測評所需,對提高大規(guī)模教育測評的效果有較好的促進(jìn)作用。第一,節(jié)省了測評時(shí)間,減少了被試疲勞和不耐煩情緒,提高了獲得真實(shí)、客觀數(shù)據(jù)的可能性;第二,節(jié)約了成本,題本印刷、數(shù)據(jù)錄入等成本都會(huì)因題量的減少而降低;第三,提高了結(jié)果報(bào)告的時(shí)效性,因各題的測量目標(biāo)明確且敏感度高,數(shù)據(jù)清理、數(shù)據(jù)分析等過程的時(shí)長減少且正確率提高,節(jié)省了中間過程的時(shí)間,也就為出具結(jié)果報(bào)告節(jié)省了時(shí)間,測評結(jié)果能更快地得到反饋,這就提高了結(jié)果報(bào)告的時(shí)效性,這對教育一線開展工作來說是非常重要的。
后續(xù)我們擬根據(jù)本次挑題的結(jié)果再次分析各項(xiàng)工具制訂簡版工具的可能性,并通過一系列的統(tǒng)計(jì)計(jì)算和專家論證工作,制訂可能的簡版工具。
不同的工具形式、工具內(nèi)容可以有不同的處理方法,本文是其中的一種嘗試。挑題之后并不代表原工具就可以不用了,使用哪個(gè)版本的工具需要根據(jù)測評目的來定,當(dāng)我們要重點(diǎn)分析該方面的表現(xiàn)時(shí),我們需要使用完整工具,當(dāng)我們只是將該方面作為關(guān)聯(lián)變量或簡單的現(xiàn)狀調(diào)查時(shí),可使用簡化的工具。
注:本文得到“中國6~15歲兒童青少年心理發(fā)育特征調(diào)查”項(xiàng)目辦公室支持。本文得到成都市錦江區(qū)“建立教育質(zhì)量評價(jià)監(jiān)測體系,促進(jìn)區(qū)域教育質(zhì)量全面提升”項(xiàng)目、“沈陽市教育質(zhì)量監(jiān)測與評估”項(xiàng)目和杭州市上城區(qū)“基于學(xué)生發(fā)展的區(qū)域教育質(zhì)量提升”項(xiàng)目的數(shù)據(jù)支持。
[1]Joanne Taylor, Frank P Deane. Development of a short form of the test anxiety inventory[J]. The Journal of General Psychology, 2002, 129(2),127-136.
[2]Jeffery M Stanton, Evan F Sinar, William K Balzer, Patricia C Smith. Issues and strategies for reducing the length of self-report scales[J]. Personnel Psychology, 2002,55,167-194.
欄目編輯 / 任玉丹.終校 / 黃才玲