張所帥?黃志軍
摘 要 群體自適應(yīng)設(shè)計(jì)是國(guó)際閱讀素養(yǎng)進(jìn)展研究(PIRLS)在2021年第五輪評(píng)估周期中的最大亮點(diǎn),尤其值得關(guān)注。群體自適應(yīng)設(shè)計(jì)采用有針對(duì)性的題冊(cè)抽樣做法使測(cè)試題目的能力分布與測(cè)試群體的能力分布相匹配,從而提高測(cè)試結(jié)果的精確度,減少不應(yīng)答現(xiàn)象的發(fā)生。群體自適應(yīng)設(shè)計(jì)與計(jì)算機(jī)自適應(yīng)測(cè)試互為表里、相輔相成,具有傳統(tǒng)紙筆測(cè)驗(yàn)無(wú)可比擬的優(yōu)越性。PIRLS 2021閱讀素養(yǎng)測(cè)試采用縱向自適應(yīng)設(shè)計(jì)的做法,根據(jù)不同國(guó)家和地區(qū)學(xué)生閱讀成就水平的不同,將相同內(nèi)容、不同難度的閱讀材料和測(cè)試題目按照一定的比例進(jìn)行靈活分配,朝著智能化、個(gè)性化、適應(yīng)性的測(cè)試方向邁出了堅(jiān)實(shí)的一步。這無(wú)論是對(duì)大規(guī)模學(xué)業(yè)水平測(cè)試,還是對(duì)日常過(guò)程性教學(xué)評(píng)價(jià),都有啟發(fā)意義。
關(guān)鍵詞 PIRLS 2021 閱讀素養(yǎng)測(cè)試 群體自適應(yīng)設(shè)計(jì)
2021年,國(guó)際閱讀素養(yǎng)進(jìn)展研究(Progress in International Reading Literacy Study,以下簡(jiǎn)稱PIRLS)迎來(lái)了第五輪評(píng)估周期,在保持閱讀素養(yǎng)測(cè)試?yán)砟詈涂蚣芙Y(jié)構(gòu)穩(wěn)定不變的前提下,借助現(xiàn)代教育評(píng)價(jià)理論和測(cè)量技術(shù)在“數(shù)字化評(píng)價(jià)方式”“測(cè)試文本類型”“背景問(wèn)卷內(nèi)容結(jié)構(gòu)”“群體自適應(yīng)設(shè)計(jì)”和“ePIRLS和digital PIRLS整合”等方面呈現(xiàn)出新的發(fā)展動(dòng)向,體現(xiàn)了與時(shí)俱進(jìn)、開拓創(chuàng)新的價(jià)值追求。其中,“群體自適應(yīng)題冊(cè)設(shè)計(jì)”變化最大,最能體現(xiàn)大規(guī)模測(cè)試評(píng)價(jià)的發(fā)展走向,尤其值得關(guān)注。
一、PIRLS 2021閱讀素養(yǎng)測(cè)試群體自適應(yīng)設(shè)計(jì)原理
在以往的測(cè)試評(píng)價(jià)中,為了確保結(jié)果的公平與公正,無(wú)論測(cè)試目標(biāo)對(duì)象的能力如何,所有人都要接受難度等級(jí)相同、題目數(shù)量也相同的試題。雖然以往的測(cè)試評(píng)價(jià)在形式上保證了測(cè)試結(jié)果的一致性,但是難以做到“量體裁衣”,因人施測(cè),不能真正反映測(cè)試目標(biāo)對(duì)象的真實(shí)能力水平,也不利于后續(xù)的改進(jìn)提升。隨著教育測(cè)量理論和技術(shù)的發(fā)展,在大規(guī)模測(cè)試評(píng)價(jià)中,通常會(huì)采用不同的測(cè)試題冊(cè)(booklets)以平衡測(cè)試內(nèi)容的覆蓋面和學(xué)生作答的負(fù)擔(dān)量,同時(shí)兼顧題冊(cè)難度與學(xué)生能力之間的匹配度,這便涉及測(cè)試群體的自適應(yīng)問(wèn)題。
測(cè)試群體的自適應(yīng)問(wèn)題是大規(guī)模適應(yīng)性評(píng)價(jià)的核心問(wèn)題。雖然測(cè)試評(píng)價(jià)的結(jié)果很重要,但是全面反映測(cè)試目標(biāo)對(duì)象的真實(shí)能力水平更重要。其背后的基本指導(dǎo)思想是實(shí)現(xiàn)測(cè)試評(píng)價(jià)的目的,測(cè)試題目對(duì)于目標(biāo)對(duì)象來(lái)說(shuō)不能太難,也不能太簡(jiǎn)單:如果分配給應(yīng)試者的任務(wù)太難,沒有人(或幾乎沒有人)能夠作答,那么題目本身就毫無(wú)意義;如果任務(wù)太簡(jiǎn)單,每個(gè)人都能正確作答,即便所得到的觀察分?jǐn)?shù)都一樣,也無(wú)法掩飾其在相關(guān)技能方面的不同。以上兩種情況都無(wú)法獲得有價(jià)值的作答信息,尤其對(duì)于低利害的學(xué)業(yè)水平測(cè)試評(píng)價(jià)來(lái)說(shuō)意義不大。
基于此,在大規(guī)模閱讀素養(yǎng)測(cè)試評(píng)價(jià)中,施測(cè)者通常試圖設(shè)計(jì)出符合目標(biāo)群體能力水平的任務(wù),并通過(guò)引出高技能水平和低技能水平應(yīng)試者作答的不同響應(yīng)來(lái)區(qū)分彼此之間的能力差異。在國(guó)家或地區(qū)層面,閱讀素養(yǎng)測(cè)試群體自適應(yīng)設(shè)計(jì)中,通常采用對(duì)測(cè)試題冊(cè)進(jìn)行有針對(duì)性的抽樣,以便更好地涵蓋測(cè)試中遇到的各種能力分布范圍,使題冊(cè)的能力分布與應(yīng)試者的能力分布相匹配,從而提高應(yīng)試者作答的積極性,減少測(cè)試題目水平上不應(yīng)答現(xiàn)象的發(fā)生。
測(cè)試群體的自適應(yīng)設(shè)計(jì)與計(jì)算機(jī)自適應(yīng)測(cè)試(computerized adaptive testing,CAT)互為表里、相輔相成,其背后的機(jī)理是一致的,并且測(cè)試群體的自適應(yīng)設(shè)計(jì)離不開計(jì)算機(jī)自適應(yīng)測(cè)試的輔助,試題的呈現(xiàn)和被試對(duì)試題的解答都是通過(guò)計(jì)算機(jī)完成的,而不是像傳統(tǒng)的紙筆測(cè)驗(yàn)?zāi)菢油ㄟ^(guò)被試能正確回答題目的多少來(lái)評(píng)價(jià)其能力。在這里,計(jì)算機(jī)不僅是媒體工具,還是智能化的決策者:它是以項(xiàng)目反應(yīng)理論為基礎(chǔ)建立大型題庫(kù),由計(jì)算機(jī)根據(jù)被試能力水平自動(dòng)選擇測(cè)試題目,最終對(duì)被試能力作出精確估計(jì)的一種新型測(cè)驗(yàn),其目的是通過(guò)被試正確回答題目難度的高低來(lái)評(píng)價(jià)其能力。計(jì)算機(jī)自適應(yīng)測(cè)試的過(guò)程大致可分為兩個(gè)階段,即試驗(yàn)性探查階段和精確估計(jì)真值階段。試驗(yàn)性探查階段主要是根據(jù)被試的隨機(jī)作答情況初步估計(jì)其能力初值;精確估計(jì)真值階段則是在前一階段的基礎(chǔ)上繼續(xù)施測(cè),累積信息量,進(jìn)一步修正能力估計(jì)值,最終實(shí)現(xiàn)精確考查被試能力的目的。
與傳統(tǒng)的紙筆測(cè)驗(yàn)和一般的計(jì)算機(jī)化測(cè)驗(yàn)相比,計(jì)算機(jī)自適應(yīng)測(cè)試具有無(wú)可比擬的優(yōu)越性。概括而言,其優(yōu)越性主要表現(xiàn)在以下幾個(gè)方面:一是可適當(dāng)減少考生作答試題的數(shù)量,二是能夠有效提高測(cè)量精度,三是有利于提高考試的安全性,四是能為考生提供個(gè)性化服務(wù),五是可以增加考生參加考試的靈活性,六是能實(shí)現(xiàn)計(jì)分與分?jǐn)?shù)報(bào)告的即時(shí)性。正是基于以上考慮,PIRLS閱讀素養(yǎng)測(cè)試積極探索群體自適應(yīng)設(shè)計(jì),采用縱向自適應(yīng)設(shè)計(jì)(Adaptive Longitudinal Designs)(這種設(shè)計(jì)是利用所在國(guó)家或地區(qū)學(xué)生之前評(píng)價(jià)周期中的能力表現(xiàn)信息,自適應(yīng)地將較難的測(cè)試內(nèi)容分配給高分組國(guó)家或地區(qū)的學(xué)生,將較容易的測(cè)試內(nèi)容分配給低分組國(guó)家或地區(qū)的學(xué)生。)進(jìn)行題庫(kù)開發(fā)與題冊(cè)合成。
二、PIRLS 2021閱讀素養(yǎng)測(cè)試群體自適應(yīng)設(shè)計(jì)方法
PIRLS測(cè)試評(píng)價(jià)的目標(biāo)對(duì)象是代表正式學(xué)校教育第四年的學(xué)生(在大多數(shù)國(guó)家和地區(qū)是四年級(jí)學(xué)生)。然而,隨著參與測(cè)試評(píng)價(jià)的國(guó)家和地區(qū)越來(lái)越多,彼此之間教育發(fā)展水平的差異性表現(xiàn)得越來(lái)越明顯,有的國(guó)家和地區(qū)大多數(shù)四年級(jí)學(xué)生仍處于發(fā)展基本閱讀技能階段,尚不能達(dá)到參與PIRLS閱讀素養(yǎng)評(píng)價(jià)的認(rèn)知發(fā)展水平。如何在更大范圍內(nèi)解決測(cè)試題冊(cè)難度與學(xué)生能力發(fā)展水平相匹配的問(wèn)題,便成了一個(gè)巨大的挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),PIRLS在2011年開發(fā)了prePIRLS(可理解為PIRLS的預(yù)備版),2016年又開發(fā)了PIRLS Literacy,通過(guò)提供難度較低評(píng)價(jià)版本的辦法來(lái)解決這一難題。該舉措雖然確保了能力分布處在低端發(fā)展水平學(xué)生能力覆蓋范圍,但是并沒有解決能力分布處在高端發(fā)展水平的學(xué)生對(duì)更具挑戰(zhàn)性測(cè)試材料和題目的需求問(wèn)題,同時(shí)另需單獨(dú)的評(píng)價(jià)版本,既增加了測(cè)試的成本,也提高了評(píng)價(jià)的復(fù)雜程度。
為了更好地解決參與國(guó)家和地區(qū)測(cè)試難度與學(xué)生成就水平相匹配的問(wèn)題,PIRLS 2021測(cè)試題冊(cè)采用了群體自適應(yīng)設(shè)計(jì)。所有參與國(guó)家和地區(qū)都采用統(tǒng)一的評(píng)價(jià)內(nèi)容,使用相同的閱讀材料和測(cè)試題目,但是不同難度的閱讀材料和測(cè)試題目在一個(gè)國(guó)家和地區(qū)的分配比例將根據(jù)學(xué)生的閱讀成就水平進(jìn)行靈活安排。簡(jiǎn)言之,新的題冊(cè)設(shè)計(jì)是基于難、中、易三個(gè)等級(jí)的閱讀材料和測(cè)試題目,將其合并成兩個(gè)不同難度等級(jí)的測(cè)試題冊(cè)。每個(gè)國(guó)家和地區(qū)都使用所有的題冊(cè)進(jìn)行測(cè)試,但難度較大和難度較小題冊(cè)的分配比例會(huì)隨著該國(guó)和地區(qū)學(xué)生閱讀成就水平的變化而變化。
具體來(lái)說(shuō),PIRLS 2021的測(cè)試題冊(cè)由18篇文章組成,其中有12篇文章來(lái)自PIRLS 2016(含PIRLS Literacy測(cè)試中的文章),作為縱向鏈接用作對(duì)閱讀發(fā)展趨勢(shì)的測(cè)量,另外6篇文章是2021年開發(fā)的。這18篇文章根據(jù)難易程度被劃分成難、中、易三個(gè)等級(jí),每個(gè)等級(jí)分別包括3篇文學(xué)類文章和3篇信息類文章。文章難易程度的區(qū)分依據(jù)的是學(xué)生群體對(duì)其正確作答的平均百分比,理想中合理的平均百分比:水平等級(jí)“難”組為40%,水平等級(jí)“中”組為60%,水平等級(jí)“易”組為80%。PIRLS 2021新開發(fā)的文章有意識(shí)地呼應(yīng)了以上難度級(jí)別要求,而之前已有文章的難度表現(xiàn)則稍顯遜色,特別是“難”和“中”等級(jí)的文章其難度值明顯偏高(見表1)。當(dāng)然,這只是過(guò)渡時(shí)期的暫時(shí)表現(xiàn),隨著更多趨勢(shì)性文章被更新的、更有針對(duì)性的文章取代,這樣的情況會(huì)有所改變。
如表2所示,PIRLS 2021中的18篇文章被編排成18本題冊(cè),每本題冊(cè)均包含兩篇文章,一篇是文學(xué)類文本,一篇是信息類文本。每一篇文章都會(huì)出現(xiàn)在兩本題冊(cè)中,每次與不同的文章相匹配。測(cè)試中,每名學(xué)生會(huì)被隨機(jī)分派一本題冊(cè)進(jìn)行作答。
表3呈現(xiàn)了每本題冊(cè)中文章配對(duì)的結(jié)果,箭頭的方向表示題冊(cè)中哪一篇文章會(huì)先出現(xiàn),例如箭頭從文章InfM1(16)指向LitD1(11),表明這兩篇文章會(huì)共同組成一本題冊(cè),文章InfM1(16)在LitD1(11)之前。另外,當(dāng)不同難度的文章在同一本題冊(cè)中配對(duì)時(shí),兩者中較容易的總是先出現(xiàn)。
18本題冊(cè)被分成兩個(gè)難度等級(jí):難度較大的題冊(cè)(9本)和難度較小的題冊(cè)(9本)。其中,難度較大的題冊(cè)由兩篇難度大的文章或一篇中等難度的文章和一篇難度大的文章組成;難度較小的題冊(cè)由兩篇容易的文章或一篇容易的文章和一篇中等難度的文章組成。
表4顯示了18本題冊(cè)的難度等級(jí)分配。其中,題冊(cè)1—題冊(cè)9的難度較大,題冊(cè)10—題冊(cè)18的難度較小。
由18篇文章所編排成的18本題冊(cè)會(huì)分發(fā)到每個(gè)國(guó)家和地區(qū),以確保所有參與評(píng)價(jià)的國(guó)家和地區(qū)測(cè)試的內(nèi)容相同。根據(jù)PIRLS先前周期測(cè)試結(jié)果或首次參與國(guó)家和地區(qū)實(shí)地試測(cè)表現(xiàn)中學(xué)生的平均閱讀能力,難易程度不同的題冊(cè)在分配中所占的比例是不同的。比如,學(xué)生成就表現(xiàn)較好的國(guó)家和地區(qū),難度較大題冊(cè)的分配比例更高;學(xué)生成就表現(xiàn)較差的國(guó)家和地區(qū),難度較小的題冊(cè)的分配比例更高。其最終目的是使每個(gè)國(guó)家和地區(qū)的測(cè)試難度與當(dāng)?shù)貙W(xué)生的閱讀能力更好地匹配。
根據(jù)閱讀成就量表得分情況,PIRLS把所有參與測(cè)試的國(guó)家和地區(qū)分成高、中、低三個(gè)水平層級(jí),以此確定不同難度等級(jí)題冊(cè)的分配比例:總體平均閱讀成就為550分或更高的國(guó)家和地區(qū),將隨機(jī)分配更多難度較大等級(jí)的題冊(cè)(70%),較少難度較小等級(jí)的題冊(cè)(30%);總體平均閱讀成就在量表中點(diǎn)、500分的國(guó)家和地區(qū),將分配相同比例難度較大等級(jí)的題冊(cè)(50%)和難度較小等級(jí)的題冊(cè)(50%);總體低于平均表現(xiàn)水平、450分或更低的國(guó)家和地區(qū),將分配較少比例難度較大等級(jí)的題冊(cè)(30%)和更多比例難度較小等級(jí)的題冊(cè)(70%)。具體如表5所示。
測(cè)試題冊(cè)群體自適應(yīng)設(shè)計(jì)可以說(shuō)是PIRLS 2021閱讀素養(yǎng)評(píng)價(jià)的最大亮點(diǎn)。這種創(chuàng)新的、自適應(yīng)的題冊(cè)設(shè)計(jì)徹底改變了PIRLS之前評(píng)價(jià)周期對(duì)不同閱讀水平國(guó)家和地區(qū)各類閱讀水平測(cè)試的做法,將所有的國(guó)家和地區(qū)統(tǒng)一到相同的模板中,提高了測(cè)試內(nèi)容的靈活性和測(cè)試結(jié)果的準(zhǔn)確性,值得推廣。
三、PIRLS 2021閱讀素養(yǎng)測(cè)試群體自適應(yīng)設(shè)計(jì)啟示
PIRLS積極面對(duì)現(xiàn)實(shí)訴求,順應(yīng)時(shí)代發(fā)展潮流,以計(jì)算機(jī)自適應(yīng)測(cè)試?yán)碚摵途W(wǎng)絡(luò)信息技術(shù)為基礎(chǔ),在2021年閱讀素養(yǎng)測(cè)試題冊(cè)中采取群體自適應(yīng)設(shè)計(jì),降低閱讀素養(yǎng)評(píng)價(jià)的復(fù)雜程度,提高閱讀素養(yǎng)測(cè)試的精確程度,朝著智能化、個(gè)性化、適應(yīng)性的方向邁出了堅(jiān)實(shí)的一步。這無(wú)論是對(duì)大規(guī)模學(xué)業(yè)水平測(cè)試,還是對(duì)日常過(guò)程性教學(xué)評(píng)價(jià),都有啟發(fā)意義。
為了全面實(shí)施素質(zhì)教育,著力提升教育質(zhì)量,強(qiáng)化教育督導(dǎo)監(jiān)管,確保教育投入和課程改革達(dá)到預(yù)期目標(biāo),近年來(lái),從國(guó)家到地方陸續(xù)開展了義務(wù)教育質(zhì)量監(jiān)測(cè)活動(dòng)。國(guó)家層面,教育部基礎(chǔ)教育質(zhì)量監(jiān)測(cè)中心自2015年起開展國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)工作。作為我國(guó)義務(wù)教育健康發(fā)展的“體檢儀”和“指揮棒”,國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)在開展過(guò)程中立足中國(guó)國(guó)情及教育教學(xué)實(shí)際,不斷發(fā)展特色,開拓創(chuàng)新,根據(jù)監(jiān)測(cè)工作實(shí)際需要,充分運(yùn)用信息技術(shù)和人工智能,不斷促進(jìn)監(jiān)測(cè)方法和手段升級(jí)。基于此,我國(guó)有關(guān)部門可以借鑒PIRLS 2021閱讀素養(yǎng)測(cè)試群體自適應(yīng)設(shè)計(jì)理念和做法,充分考慮不同地區(qū)教育質(zhì)量發(fā)展水平的差異性,因地制宜,使測(cè)試內(nèi)容和題目更具針對(duì)性。
除了“低利害”的義務(wù)教育質(zhì)量監(jiān)測(cè)以外,即便是“高利害”的中高考,也可借鑒其測(cè)試的理念和做法。目前每年的高考試卷仍是以“國(guó)家卷+地方卷”的格局呈現(xiàn)。即便是“國(guó)家卷”,每年也會(huì)面向不同地區(qū)命制不同的試題,具有了測(cè)試群體自適應(yīng)設(shè)計(jì)的雛形,但還有一定的進(jìn)步空間。根據(jù)相關(guān)文件要求,中考命題將“進(jìn)一步強(qiáng)化省級(jí)統(tǒng)籌,落實(shí)初中學(xué)業(yè)水平考試命題管理省級(jí)主體責(zé)任”,“積極創(chuàng)造條件穩(wěn)步推進(jìn)省級(jí)統(tǒng)一命題”。隨著命題權(quán)限的上移和試題覆蓋范圍的擴(kuò)大,為了提高命題測(cè)試的有效性,群體自適應(yīng)設(shè)計(jì)亦顯得尤為必要。
《深化新時(shí)代教育評(píng)價(jià)改革總體方案》明確提出:“堅(jiān)持科學(xué)有效,改進(jìn)結(jié)果評(píng)價(jià),強(qiáng)化過(guò)程評(píng)價(jià),探索增值評(píng)價(jià),健全綜合評(píng)價(jià),充分利用信息技術(shù),提高教育評(píng)價(jià)的科學(xué)性、專業(yè)性、客觀性?!痹u(píng)價(jià)具有多重功能,隨著課程改革的深入發(fā)展,教育評(píng)價(jià)的理念也在不斷更新,評(píng)價(jià)是動(dòng)態(tài)的、多元的、形成性和教育性的,評(píng)價(jià)的根本目的是促進(jìn)學(xué)生學(xué)習(xí),核心倫理在于讓學(xué)生受益。日常的過(guò)程性評(píng)價(jià)在學(xué)生的課程學(xué)習(xí)中居于重要地位,課堂教學(xué)、課后作業(yè)和階段性測(cè)驗(yàn)都應(yīng)秉持“教育性”“發(fā)展性”的原則,促進(jìn)學(xué)生的全面發(fā)展。因此,在日常的過(guò)程性測(cè)試評(píng)價(jià)中,同樣可以參照群體自適應(yīng)設(shè)計(jì)的模式,以便更好地促進(jìn)學(xué)生核心素養(yǎng)的發(fā)展。