□ 柴省三
基于項目反應(yīng)理論(Item Response Theory,IRT)的計算機自適應(yīng)性語言測試在測量信度(reliability)、測量效率和考試安全性等方面比傳統(tǒng)的紙筆測驗具有更大的優(yōu)勢[1],因此計算機自適應(yīng)性語言測試的理論和實踐問題正在成為遠程教育測量模式研究的熱點。為了推廣基于國際互聯(lián)網(wǎng)的遠程教育測量模式,為全球考生提供便捷的考試方式,美國教育測量服務(wù)中心(ETS)開發(fā)的英語作為外語的語言水平測試(TOEFL)已于2005 年正式推出了網(wǎng)絡(luò)版測量模式——TOEFL iBT[2]。全國大學(xué)英語四、六級考試(CET)委員會也從2008年開始進行了若干次遠程網(wǎng)絡(luò)考試的實驗研究,為全面實現(xiàn)CET 考試的遠程化、網(wǎng)絡(luò)化和自適應(yīng)性考試模式奠定了基礎(chǔ)。
中國漢語水平考試(HSK)是為測試母語非漢語者(主要是外國人和海外華僑)的漢語水平而設(shè)計的國家級標準化考試。隨著全球孔子學(xué)院教學(xué)模式和漢語國際推廣形勢的迅猛發(fā)展,參加HSK 考試的考生人數(shù)不斷增加。截止到2012 年底,HSK 已經(jīng)在全球超過95 個國家設(shè)立了近400 個考點(參見表1),考生人數(shù)已累計超過200 萬。HSK 具有考試規(guī)模大、考點分布廣和考生來源國家較多以及考生的母語背景多元等顯著特點。為了提高HSK 考試的信息化水平,給國內(nèi)外考點的考生提供個性化服務(wù)模式,從2010 年起,HSK 在美國、加拿大等國以及國內(nèi)的部分考點采用了紙筆測試(Paper-and-Pencil Testing,PPT)和計算機測試兩種模式并行進行施測,考生可以根據(jù)自己的實際需求選擇報考任意一種測量模式。每年有幾萬名考生在世界各地通過國際互聯(lián)網(wǎng)和計算機終端完成了遠程HSK 測試,在相當程度上提高了測量、評分和分數(shù)報告的效率,并為大規(guī)模遠程自適應(yīng)性測量系統(tǒng)的開發(fā)、推廣和普及積累了豐富的研究成果和實踐經(jīng)驗。
表1 HSK海外考點基本情況
然而,從測量的理論基礎(chǔ)和計算機操作的邏輯過程來看,無論是基于Internet的網(wǎng)絡(luò)版TOEFL考試還是HSK 考試都不是真正意義上的完全計算機自適應(yīng)性考試[3][4]。其中,TOEFL 遠程考試沒有完全實現(xiàn)計算機自適應(yīng)性考試的主要原因有兩個:其一是出于題庫維護成本和考試安全性的考慮;其二主要是因為部分考試內(nèi)容,特別是閱讀理解測試部分的考試題目,在計算機自適性選題參數(shù)和智能選題過程方面還存在諸多制約[5]。對于HSK的遠程考試而言,網(wǎng)絡(luò)版HSK仍然是以經(jīng)典測量理論(CTT)為基礎(chǔ)的紙筆測量模式的平行遷移。同樣,大學(xué)英語考試(CET)尚未完全采用CAT 考試的重要原因,除了考試規(guī)模、遠程技術(shù)、網(wǎng)速和考試安全等方面的因素之外,還因為在閱讀理解測驗的選題標準和參數(shù)體系方面尚存在一定的制約因素。由此可見,閱讀理解測驗中的智能選題方法和參數(shù)標準的確定問題,已經(jīng)成為國內(nèi)外大規(guī)模遠程自適應(yīng)性語言測試模式推廣與應(yīng)用中必須面對的最大挑戰(zhàn)之一[6][7][8]。基于上述考慮,本文將首先對計算機自適應(yīng)性遠程語言測試原理進行簡要介紹,然后參照國外最新研究成果,介紹以文本屬性參數(shù)為標準代替項目屬性參數(shù)作為計算機自適應(yīng)性考試的操作模式,以期本研究思路對未來中國漢語水平考試(HSK)和國內(nèi)其它語言測試在閱讀理解測驗的遠程CAT系統(tǒng)設(shè)計和開發(fā)過程方面提供借鑒。
遠程計算機自適應(yīng)性測試(Computer-Adaptive Testing,CAT)與基于計算機的考試(Computer-Based Testing,CBT)是當代計算機科學(xué)和互聯(lián)網(wǎng)技術(shù)相結(jié)合在遠程教育測量模式中的兩種重要考試方式[9][10]。其中,CBT 是傳統(tǒng)的紙筆測試方式(PPT)向網(wǎng)絡(luò)化和遠程化考試的平行遷移,其實施的遠程技術(shù)要求和題目的呈現(xiàn)方式已經(jīng)相對比較成熟,因而在提高測驗效率、完善考試內(nèi)容和分數(shù)處理自動化等方面均具有紙筆測試無法比擬的優(yōu)勢,而且其實際應(yīng)用和普及范圍比CAT 模式更廣泛;CAT 與CBT 相比最大的優(yōu)點在于:可以更充分地利用當代計算機科學(xué)和互聯(lián)網(wǎng)技術(shù),以項目反應(yīng)理論(IRT)為基礎(chǔ)設(shè)計自適應(yīng)性考試系統(tǒng)(CAT System),并為全球各地的考生提供“因材施考,按需施測”的個性化測量模式,在測量的科學(xué)性、測量誤差控制等方面具有獨特優(yōu)勢,是未來遠程語言測試模式發(fā)展的主流方向。
所謂遠程CAT 語言測試,就是以現(xiàn)代教育測量理論為基礎(chǔ),充分利用計算機科學(xué)和互聯(lián)網(wǎng)技術(shù)進行遠程考試組織和施測的方式。CAT 考試過程中,系統(tǒng)可以根據(jù)考生語言水平自動從統(tǒng)一的題庫(Item pool)中選擇題目并進行個性化遠程測量。盡管CAT 測量模式既可以采用非遠程、單機測驗形式,也可以借助互聯(lián)網(wǎng)進行遠程考試形式,但由于受題庫的物理存儲、安全和更新方面的限制,不可能在每次考試之前分別為每一個考生或部分考生預(yù)裝相同的題庫,特別是對于考試規(guī)模巨大、考點分布距離較遠的全球性語言測試而言,比如漢語水平考試(HSK)、TOEFL 等,更是如此。因此,計算機自適應(yīng)性考試(CAT)只有采用遠程測量模式才能充分發(fā)揮其優(yōu)勢。遠程CBT 考試與遠程CAT 考試的本質(zhì)區(qū)別在于:前者仍屬于定長、定時測驗,測試過程和測試內(nèi)容不具備任何自適應(yīng)性特征(adaptability),即所有考生無論其語言水平差異有多大,都必須在規(guī)定時間內(nèi)完成相同的測驗題目[11][12][13];而CAT考試則是一個根據(jù)考生語言水平不同可以自動進行智能化選題的考試技術(shù),因而考生在測驗中只需回答與自己語言水平相當?shù)念}目即可,一旦測驗滿足既定的誤差控制要求,系統(tǒng)將自動終止對該考生的測量過程,并提供在線分數(shù)報告。遠程CAT 測量系統(tǒng)的設(shè)計必須以遠程教育信息技術(shù)和項目反應(yīng)理論為先決條件(prerequisite),并以題庫、考生信息管理數(shù)據(jù)庫為基礎(chǔ),實現(xiàn)遠程考試中心和遠程考生終端的集成化管理(如圖1)。與傳統(tǒng)的紙筆測試模式相比,遠程CAT 語言測試模式具有如下明顯的優(yōu)勢:
圖1 遠程CAT語言測試組織示意圖
1.考試安排具有高度靈活性
現(xiàn)代網(wǎng)絡(luò)技術(shù)和計算機科學(xué)的發(fā)展使CAT 測量模式根據(jù)全球不同考點或不同考生的要求隨時提供遠程測試,而不必像傳統(tǒng)的紙筆測驗?zāi)菢硬捎萌?、全國統(tǒng)一的考試時間,考試安排(scheduling)更加靈活,并將考試對不同時區(qū)考生的時空限制降低到最低限度,因而考試的次數(shù)和時間安排也更符合考點和考生的實際需求。
2.測試過程更富有人性化
由于遠程CAT 語言測試模式采用的是自適應(yīng)性選題技術(shù),因此系統(tǒng)可以根據(jù)考生的語言水平自動選擇最接近考生語言能力的題目進行測量,而不必讓考生回答難度水平已經(jīng)明顯高于或明顯低于自己語言水平的題目。這樣,一方面有效地縮短了考試時間,提高了考試效率;另一方面也提高了測量的準確性,考試過程更符合個性化和人性化要求。
3.測試標準化程度更高
由于遠程CAT 測量模式完全由計算機系統(tǒng)控制,考試指令更加明確、規(guī)范和統(tǒng)一,考試程序完全相同,從而避免了在傳統(tǒng)的紙筆測試中因試卷印刷、監(jiān)考行為和指令發(fā)布等方面存在的無關(guān)因素對測量結(jié)果產(chǎn)生的干擾。
4.測驗內(nèi)容效度更高
在傳統(tǒng)的紙筆測試方式中,由于受測驗題目呈現(xiàn)方式的限制,語言測試的內(nèi)容或題目經(jīng)常因為脫離目標語言應(yīng)用情景而導(dǎo)致測驗任務(wù)缺乏真實性(authenticity),從而影響測驗的內(nèi)容效度。遠程CAT語言測試方法可以充分利用多媒體技術(shù)設(shè)計更加豐富和真實的考試內(nèi)容,不僅可以提高測驗任務(wù)的互動程度,而且還可以提高測驗的構(gòu)想效度(construct validity)[14][15]。
5.分數(shù)處理效率更高
遠程CAT 考試不僅可以對考生的表現(xiàn)情況進行在線(on-line)評分,還可以針對考生的測驗表現(xiàn)提供豐富的評價信息,因此測量模式更符合現(xiàn)代語言教學(xué)和語言測試的認知診斷性(diagnostic)發(fā)展趨勢。另一方面,評分過程比較客觀,分數(shù)處理準確性更高,考試結(jié)束后,考生可以立即獲得一個標準的分數(shù)報告(score report)。
除此之外,遠程CAT 語言測試在題庫的存儲、維護、等值、更新、激發(fā)考生動機以及確??荚嚢踩缘确矫嬉簿哂屑埞P測驗不具備的諸多優(yōu)點。
遠程計算機自適應(yīng)性語言測試系統(tǒng)的開發(fā)必須經(jīng)過兩個階段:第一階段是題庫的建設(shè),第二階段是基于題庫的遠程CAT 系統(tǒng)設(shè)計。所謂題庫就是大量測驗題目的集合,而且其中的每個測驗題目都必須被標注完整的參數(shù)體系(parameter system)。參數(shù)的估計是在對目標被試進行大樣本實測或預(yù)測基礎(chǔ)上獲得的。如果題庫中的題目沒有完整的描述性參數(shù)(比如難度、區(qū)分度和猜測度)指標,那么遠程CAT 測試系統(tǒng)的適應(yīng)性邏輯過程就無法實現(xiàn)[16],所以,題庫建設(shè)是實現(xiàn)CAT 測驗方式的必要條件。題庫的建設(shè)包括三個基本步驟(如圖2):
圖2 CAT測試題庫建設(shè)過程
1.命題與組卷
命題不僅是紙筆測驗方式的核心工作,同時也是題庫建設(shè)的必要條件。題庫的基本單位是試題(items),試題的質(zhì)量將直接影響題庫的性能。所以,命題工作必須要在專業(yè)命題人員的指導(dǎo)下,由專職漢語教師參照測試的目的和內(nèi)容,嚴格按照測驗細目表(specifications)的要求進行命題。在題目編寫結(jié)束以后,為了在測試基礎(chǔ)上獲得測驗題目的參數(shù)指標,首先要進行組卷工作(assembly)。組卷的過程應(yīng)參照擬采用的CBT 測量模式或紙筆測量模式的要求編制標準的定長測驗(fixed form test),以便對目標考生進行團體施測。
2.測試
在命題和組卷工作完成以后,再選擇目標考生進行實測或預(yù)測,以便獲得估計題目參數(shù)所需要的基本數(shù)據(jù)。實測是指以CBT 或PPT(紙筆測試)方式對考生進行正式測試的過程,考試結(jié)束后在為考生提供標準成績報告的同時,還要根據(jù)預(yù)先選擇的IRT模型繼續(xù)估計題目的參數(shù),并將符合參數(shù)指標要求的題目全部保存在題庫中,以便為進一步開發(fā)CAT 考試系統(tǒng)提供測量基礎(chǔ);預(yù)測(pretest)則是為了積累題庫中的題目數(shù)量或獲得題目參數(shù)而對部分考生進行的一種實驗性測試。題庫的規(guī)模只有在不斷積累紙筆測試或CBT 測試題目的基礎(chǔ)上才能達到一定的數(shù)量要求。如果題庫內(nèi)測驗題目的數(shù)量太少,在遠程CAT測試中的題目曝光率(item exposure)就無法控制,題目指標的分布就會不均衡,因而也就無法滿足大規(guī)模施測時對不同水平考生的適應(yīng)性測量要求[17]。
3.參數(shù)估計與等值
題庫不同于“卷庫”,它不是測驗題目的簡單積累或追加。題庫中的題目必須具備完整的描述參數(shù),否則系統(tǒng)就無法針對不同語言能力的考生從題庫中自動選擇適應(yīng)性題目。所以,在紙筆測試和CBT 測試結(jié)束以后,必須基于適當參數(shù)的IRT模型,借助計算機對每個測驗題目的區(qū)分度(參數(shù)a)、難度(參數(shù)b)和猜測度(參數(shù)c)等進行參數(shù)估計和標注,以便為遠程CAT 語言考試系統(tǒng)的實現(xiàn)提供智能化選題標準和進行能力估計的參數(shù)體系。在所有測驗題目的參數(shù)估計結(jié)束以后,還要對題目的參數(shù)進行等值化處理(equating),以便將它們統(tǒng)一到同一個單位系統(tǒng)上,確保題目參數(shù)的穩(wěn)定性、準確性和可比較性。
遠程CAT 語言測試模式的理論基礎(chǔ)是項目反應(yīng)理論(IRT)。項目反應(yīng)理論研究的主要內(nèi)容就是被試在測驗題目上的答對概率(反應(yīng)行為)與測驗題目所測的潛在能力或者說語言水平之間的函數(shù)關(guān)系(如圖3),即項目特征曲線(ICC)[18][19]。
圖3 項目特征曲線
項目特征曲線是以潛在特質(zhì)水平(θ)為橫坐標,以被試正確回答的概率值P(θ)為縱坐標,以此反應(yīng)項目為基本特征的曲線。其中b是該測驗項目的難度參數(shù),并與被試的能力水平θ 定義在同一個量表上,b 值的大小與項目特征曲線(ICC)斜率最大處在能力量表(橫坐標)上所對應(yīng)點的θ 值相等,也就是曲線拐點所對應(yīng)的能力值。項目的區(qū)分度由參數(shù)a表示,是曲線拐點處切線斜率的函數(shù),斜率越大,曲線在b 點附近就越陡峭,項目的區(qū)分度也就越大(a值越大),反之,a 值越小。項目的猜測度反映的是考生在不具備或沒有達到項目所測能力水平時隨機猜測的概率值的大小,通常用參數(shù)c表示。該模型也可以用以下三參數(shù)邏輯斯蒂克模型(logistic model)進行數(shù)學(xué)描述:
由上述項目特征曲線可出看出,不同能力水平的考生在同一個測驗題目上答對的概率不同,同一個考生在難度等參數(shù)不同的題目上答對的概率也不相同。因此借助上述模型和計算機技術(shù)就可以根據(jù)被試的能力水平和每個題目的具體參數(shù)從題庫中智能化地選擇題目。同時,系統(tǒng)也可以根據(jù)測驗題目的屬性參數(shù)和考生的表現(xiàn)情況估計考生的語言能力。由此保證測驗題目的難度水平與考生的能力水平最匹配,不同能力水平的考生可以不必回答完全相同的測驗題目,從而獲得最佳測驗精度和提高測驗的效率[20][21]。所以,根據(jù)測驗題目的屬性參數(shù)選擇測驗題目進行個性化測試是遠程CAT語言測試的關(guān)鍵環(huán)節(jié)。
實現(xiàn)遠程CAT 語言測試模式的基本條件包括三個主要方面:一是計算機科學(xué)和技術(shù);二是互聯(lián)網(wǎng)技術(shù);三是以IRT 為基礎(chǔ)的題庫建設(shè)和隨機選題方法。進入本世紀以來,計算機科學(xué)和國際互聯(lián)網(wǎng)技術(shù)的高速發(fā)展已經(jīng)為遠程CAT 測試模式的開發(fā)和普及奠定了良好的基礎(chǔ)。而基于題庫系統(tǒng)的參數(shù)結(jié)構(gòu)和自動選題技術(shù)則是目前制約國內(nèi)外包括TOEFL、CET 和HSK等遠程CAT測量模式實現(xiàn)的重要“瓶頸”之一。
一般情況下,大規(guī)模、綜合性語言測試通常都是由聽力、語法、閱讀和填空等若干分測驗構(gòu)成的集成式測驗體系,測驗中的很多題目都是基于共同的輸入材料所編制的,而不是由完全孤立的測驗項目所構(gòu)成的。比如在篇章型閱讀理解測驗中,考生只有在對一篇閱讀理解材料進行完整閱讀的基礎(chǔ)上,才能回答根據(jù)該閱讀材料編制的若干多項選擇題(multiplechoice items)。顯然,在遠程CAT 語言測試的實現(xiàn)過程中存在一個明顯的制約因素,即考試題目的智能選題過程是以測驗的項目為單位,還是以整篇閱讀材料為單位。如果完全按照三參數(shù)IRT理論的邏輯斯蒂克模型來選擇題目,就會發(fā)生不同測驗題目的難度值可能滿足對不同語言水平的考生的測量要求,但他們還必須閱讀相同材料的現(xiàn)象。此時,考生對不同測驗題目的回答情況并不能完全反映考生對同一篇閱讀材料的理解水平。為了克服上述因素對遠程CAT 測量模式的限制,國內(nèi)外大型語言測試機構(gòu)分別采用了一些相關(guān)的妥協(xié)方案。目前,TOEFL 考試采用了遠程“CAT+CBT”混合的測量模式,回避了閱讀理解題庫參數(shù)結(jié)構(gòu)和能力估計要求之間的矛盾,即對分離式客觀題采用完全CAT 測量方式,而對閱讀理解測驗則采用“定長”和“定時”的遠程CBT 測量模式。同時,ETS目前也正在進行基于文本難度參數(shù)法的多階段適應(yīng)性考試(Multistage Adaptive Test,MST)方法的對比實驗[22];國內(nèi)CET 考試則仍處在對遠程CBT 考試和CAT 考試的實驗研究和嘗試階段。中國漢語水平考試在遠程CBT 考試方面已經(jīng)取得了初步成功,但在未來HSK 遠程CAT 測試系統(tǒng)的設(shè)計構(gòu)想中,針對閱讀理解測驗的智能選題標準和題庫參數(shù)結(jié)構(gòu)體系的設(shè)計問題,將不可避免地成為影響測量系統(tǒng)設(shè)計成功與否的關(guān)鍵因素之一,或者說HSK 遠程CAT 測試模式的實現(xiàn)必須首先考慮閱讀理解測驗中題庫參數(shù)和選題的技術(shù)問題。
為了解決遠程CAT 閱讀理解測試模式中存在的上述諸多制約,國外遠程教育測量領(lǐng)域、信息技術(shù)領(lǐng)域和教育測量界的不少研究人員先后進行了若干實驗研究,并嘗試采用包括多級項目反應(yīng)模型(polytomous IRT)、題組反應(yīng)理論(TRT)模型等在內(nèi)的各種參數(shù)選擇標準。不過,由于這些方法目前尚處在理論探索階段,并且還存在其他許多不成熟的地方,所以上述模型并不能完全解決遠程CAT 閱讀理解測試的可行性問題[23]。
近年來,國外部分學(xué)者(Luecht et al,2006[24];Yang et al,2011[25])在大量蒙特卡洛(Monte Carlo method)實驗研究的基礎(chǔ)上提出了遠程CAT 閱讀測量模式的文本屬性參數(shù)法,亦稱之為文本難度參數(shù)法。文本難度參數(shù)法的應(yīng)用,不僅能夠充分發(fā)揮和挖掘CAT 測量模式的各種優(yōu)勢,克服智能選題參數(shù)的制約,還可以充分順應(yīng)計算機自適應(yīng)性語言測試發(fā)展的歷史趨勢。文本難度參數(shù)法的實現(xiàn)包括題庫參數(shù)的完善和測試過程的邏輯設(shè)計兩個階段。
所謂文本難度參數(shù)法(readability parameter approach),是為了解決傳統(tǒng)CAT 閱讀理解測驗題目選擇過程中存在的操作矛盾,采用文本難度參數(shù)作為考生語言能力的適應(yīng)性選題標準,實現(xiàn)對考生語言水平的遠程測量。文本難度參數(shù)法,也稱之為多階段法或文本路徑漫游法[26],即在CAT 測驗系統(tǒng)的智能選題中不是以測驗題目的屬性參數(shù)(a、b和c)為標準,而是以整篇閱讀材料的難度參數(shù)為標準進行文本的邏輯選擇。系統(tǒng)根據(jù)對被試閱讀能力的初步估計結(jié)果一旦選擇一篇閱讀材料,那么考生將在閱讀該文章的基礎(chǔ)上必須回答基于該文本編制的所有測驗題目,無論其中的個別測驗題目的難度是否完全與考生的能力水平相匹配。同時,系統(tǒng)在對被試的閱讀能力(θ)進行估計時則仍然以測驗項目的難度、區(qū)分度等項目屬性參數(shù)為基礎(chǔ)進行統(tǒng)計分析[27][28]。一方面可以有效地避免不同能力水平的考生雖然所回答的題目不同,但又必須閱讀同一篇閱讀材料的矛盾,另一方面還可以充分利用每個測驗題目的參數(shù)信息對被試的閱讀水平進行準確的估計,從而充分發(fā)揮和實現(xiàn)遠程CAT考試的潛在優(yōu)勢。
實現(xiàn)文本難度參數(shù)法的前提是必須對題庫的參數(shù)系統(tǒng)進行更新和完善,即在題庫建設(shè)階段,除了估計傳統(tǒng)的項目參數(shù)之外,還必須借助計量語言學(xué)(computational linguistics)的方法對每篇閱讀材料的難度或易讀度參數(shù)(readability,用參數(shù)R 表示)進行估計,同時由命題專家對文章的題材(topic,用參數(shù)T 表示)和體裁(genre,用參數(shù)G 表示)等屬性進行人工標注[29]。這樣題庫的參數(shù)體系除了包括一般項目特征維度以外,又額外增加了一組文章屬性和難度描述參數(shù)(如圖4)。其中文章屬性參數(shù)包括參數(shù)R、參數(shù)T 和參數(shù)G。這三個參數(shù)主要反映的是文章本身的難度和其他屬性,并且可以用做控制智能選題的邏輯路徑(logical routines)。而題目屬性參數(shù)則是由測量模型針對每個題目進行估計所得到的難度、區(qū)分度和猜測度等參數(shù),這些參數(shù)描述的對象是具體的測驗題目而不是整篇文章,它們主要用于對被試的綜合閱讀水平進行精確的估計[30][31]。
圖4 CAT閱讀測試題庫參數(shù)系統(tǒng)結(jié)構(gòu)
基于文本難度參數(shù)法實現(xiàn)遠程CAT 閱讀理解測試的基本原理是:考試的自適應(yīng)性智能選題的單位是以整篇閱讀材料為基礎(chǔ),文本選擇的標準是閱讀材料的屬性參數(shù),其中主要是參數(shù)R。同時,為了避免同一個考生在閱讀過程中重復(fù)閱讀難度不同但題材和體裁相同的文章,在文章選擇過程中還要參照參數(shù)T和參數(shù)G 作為文章選擇的二級和三級控制變量,從而保證考生閱讀的文章不僅在難度方面具有較高的適應(yīng)性,而且還可以有效地平衡文章題材和體裁的呈現(xiàn)頻率。文章選擇過程完成后,考生的閱讀能力值(θ)則完全是根據(jù)與文章相關(guān)的測驗題目的參數(shù)進行估計(如圖5)。具體的測驗過程包括初測和正式測量兩個核心階段。
圖5 基于文本難度參數(shù)的CAT閱讀測驗過程
1.初測階段
初測階段也稱之為摸底測試階段,主要是對所有被試的閱讀水平進行一個粗略的估計,以便判斷正式考試階段應(yīng)該為每個考生提供的閱讀材料的難度水平。因此考生在摸底階段的表現(xiàn)一般不計入考生最終的評價結(jié)果中。在初測階段,CAT 系統(tǒng)將根據(jù)文本的難度參數(shù)值為所有的考生隨機呈現(xiàn)一篇中等難度(以R 的平均值為依據(jù))的閱讀文章及其與該文章相關(guān)的j 個測驗題目(S1-Sj),考生閱讀完該文章和完成測驗題目后,系統(tǒng)立即根據(jù)題庫中的題目屬性參數(shù)(item attribute parameters)對 被 試 的 閱 讀 水 平(θ)進行估計,同時參照每個考生在初測階段的表現(xiàn)水平再決定正式考試階段將要閱讀的文本難度。
2.正式測量階段
如果考生在初測階段的表現(xiàn)水平較高,那么系統(tǒng)將采用隨機抽樣或分層隨機抽樣的方法,從題庫中選擇一篇比初測階段閱讀的文章更難的閱讀材料讓考生閱讀;反之,如果考生在初測階段的表現(xiàn)水平較低,那么系統(tǒng)就繼續(xù)選擇一篇比初測階段更簡單的文章讓考生閱讀。只要考生完成針對當前文本材料的閱讀過程并提交選擇答案后,系統(tǒng)將對考生的閱讀能力值進行即時估計,并判斷測驗是否滿足結(jié)束的標準。如果測驗的信息函數(shù)值(test information function)達到了事先設(shè)定的誤差控制要求,那么測驗即告結(jié)束。系統(tǒng)將估計考生的最終閱讀能力值和信度指標,然后進行分數(shù)處理和轉(zhuǎn)換,最后繼續(xù)進行其他部分的測驗。如果測驗尚未達到結(jié)束的標準,那么系統(tǒng)將按照上述邏輯過程為考生提供適當難度的閱讀文章和題目繼續(xù)測試,如此不斷循環(huán)直到考試滿足結(jié)束的條件。
文本難度參數(shù)模型在遠程CAT 閱讀理解測驗中的精髓在于:測試過程采用文本屬性參數(shù)(passage attribute parameters)和題目屬性參數(shù)分別滿足自適應(yīng)性考試的文章選擇和能力估計的測量要求,可以有效避免閱讀材料和測驗題目之間的邏輯脫節(jié)現(xiàn)象。這種測驗?zāi)J?,不但充分發(fā)揮了閱讀材料難度的語言學(xué)評價優(yōu)勢,避免了命題過程中引入的命題者構(gòu)想無關(guān)變異(construct-irrelevant variance)因素對測驗構(gòu)想效度的潛在威脅[32],而且還可以借助先進的計算機科學(xué)和信息技術(shù)將現(xiàn)代教育測量理論的自適應(yīng)性優(yōu)勢發(fā)揮,從而為考生提供更準確和更富有針對性、個性化的測驗服務(wù)。
以當代信息技術(shù)和項目反應(yīng)理論為基礎(chǔ)的遠程計算機自適應(yīng)性(CAT)漢語水平考試(HSK)是未來發(fā)展的必然趨勢,不少傳統(tǒng)的分離式(discrete)測驗題目盡管在測量效率和遠程CAT 的實現(xiàn)方面具有一定的優(yōu)勢,但是現(xiàn)代語言測試更追求對被試語言能力的綜合性評價,這種傳統(tǒng)的測驗方法已經(jīng)越來越難以適應(yīng)語言測試的效度要求。因此,要全面實現(xiàn)HSK 的遠程CAT 測量模式,必須首先解決閱讀理解測驗等綜合性測驗內(nèi)容的題目選擇問題。本文介紹的文本難度參數(shù)法,不僅可以解決閱讀材料的選擇單位問題,還可以充分利用測驗題目的微觀信息(題目屬性參數(shù))實現(xiàn)對被試閱讀能力的準確估計。當然,由于這種測量模式是基于英語考試的最新研究成果之一,國外針對英語閱讀材料的難度參數(shù)的計算機自動估計技術(shù)已經(jīng)相對比較成熟,而漢語閱讀文本難度的自動估計在準確性方面尚存在一定差距,因此,為了穩(wěn)妥、積極地開發(fā)、推廣和普及遠程自適應(yīng)性漢語水平考試(HSK),我們有必要結(jié)合漢語自身的特點,首先對漢語文本難度的計算機自動估計手段進行探索,然后采用文本難度參數(shù)法,在局部實驗的基礎(chǔ)上逐步實現(xiàn)HSK考試的完全遠程自適應(yīng)性測量模式。
[1]Jamieson J.Trends in computer-based second language assessment[J].Annual Review of Applied Linguistics,2005,(25):228-242.
[2][22]Fulcher G.Practical Language Testing[M].London:Hodder Education,2010.
[3]Sawaki Y.,Stricker L.,&Oranje A.Factor structure of the TOEFL Internet-based Test(iBT):Exploration in a field trial sample[R].Educational Testing Service.TOEFL Research Report:08-09.Revised November 2,2008,from Http://www.ets.org/Media Research/pdf/RR-08-09.pdf.
[4]唐進.計算機化語言測試題庫與CET4 的對比實驗研究[J].外國語言文學(xué),2011,(1):32—37.
[5]Ockey G J.Developments and Challenges in the Use of Computer-Based Testing for Assessing Second Language Ability [J].The Modern Language,2009,(93):836-847.
[6][20]Chalhoub-Deville M &Deville C.Computer adaptive testing in second language contexts [J].Annual Review of Applied linguistics,1999.(19):273-299.
[7][27][29]Chalhoub-Deville M.Issues in Computer-adaptive Testing of Reading Proficiency [M].Cambridge:Cambridge University Press,1999.
[8][18]蔡旻君,劉仁云.計算機輔助教育測量與評價[M].北京:中國水電出版社,2010.
[9]李建珍.教育傳播理論在信息化自主學(xué)習中的運用[J].電化教育研究,2006,(7):30-33.
[10]Rover C.Web-based language testing [J].Language Learning &Technology,2010,5(2):84-94.
[11]Sawaki Y.Comparability of conventional and computerized tests of reading in a second language [J].Language Learning &Technology,2001,(2):38-59.
[12][26]楊建原,柏檜,趙守盈.計算機自適應(yīng)性測驗開發(fā)的程序研究[J].中國考試,2012,(3):3-7.
[13][19]簡小珠,張敏強,彭春妹.計算機自適應(yīng)性測驗的測試流程與測試技術(shù)[J].教育測量與評價,2011,(12):9—14.
[14][32]Alderson J C.Assessing Reading [M].Cambridge:Cambridge University Press,2000.
[15][25][30]Yang M.Computer-Adaptive Testing of ESL Reading Proficiency[J].Read and Write Periodical,2011,(3):10-11.
[16]熊春明,吳瑞.紙筆測驗和計算機自適應(yīng)測驗的比較研究[J].計算機與現(xiàn)代化,2006,(9):28-35.
[17]Douglas D &Hegelheimer V.Assessing language using computer technology[J].Annual Review of Applied Linguistics,2007,27:115-132.
[23][24][28][3]Luecht R M,Brumfield T,Breithaupt K.A testlet assembly design for adaptive multistage tests [J].Applied Measurement in Education,2006,19(3):189-202.