摘 要: 基于Rasch模型,針對高中化學(xué)課程中的“結(jié)構(gòu)決定性質(zhì)”大概念,開展了大概念理解能力的垂直等值研究。研究結(jié)果顯示了不同年級學(xué)生在“結(jié)構(gòu)決定性質(zhì)”大概念理解能力上的表現(xiàn),為構(gòu)建高中化學(xué)大概念理解能力的定量監(jiān)測提供了方案。
關(guān)鍵詞: 結(jié)構(gòu)決定性質(zhì); Rasch模型; 大概念; 垂直等值
文章編號: 10056629(2024)10001407
中圖分類號: G633.8
文獻標(biāo)識碼: B
1 問題的提出
大概念是反映學(xué)科本質(zhì)、具有抽象性、概括性、統(tǒng)攝性和廣泛遷移價值的學(xué)科思想和觀念[1]。本研究以“結(jié)構(gòu)決定性質(zhì)”這一大概念為例,探討物質(zhì)宏觀性質(zhì)與微觀本質(zhì)之間的相互關(guān)系。該大概念反映了化學(xué)學(xué)科宏觀與微觀的關(guān)聯(lián)本質(zhì)[2],深入了解不同年級學(xué)生對該大概念的理解能力水平,具有較高的研究價值。如果使用同一測試工具在不同年級學(xué)生間進行測量,低年級的題目難度對高年級學(xué)生而言就變得過于簡單,難以有效測量高年級學(xué)生。且重復(fù)使用同一測試工具還可能存在練習(xí)效應(yīng),影響結(jié)果的準(zhǔn)確性。如果使用針對各年級的多套測試題,且測試題之間能進行有效的等值轉(zhuǎn)換,那么就可以很好地解決這一問題。基于Rasch模型的垂直等值便是一種有效的解決方案。
垂直等值關(guān)注學(xué)生大概念理解能力發(fā)展的連續(xù)性,通過將不同年級的測驗結(jié)果轉(zhuǎn)換到統(tǒng)一的分?jǐn)?shù)量尺上,可以追蹤學(xué)生在某一大概念理解能力上的增值情況,利于進行增值性評價。有研究者提出,增值評價是一種可以準(zhǔn)確掌握學(xué)生成長狀態(tài)、科學(xué)計算學(xué)生發(fā)展水平、詳細(xì)記錄學(xué)生增值軌跡的學(xué)生評價[3]。Young指出,大多數(shù)增值性評價需要一個垂直化的分?jǐn)?shù)量尺,以便將學(xué)生在連續(xù)幾個學(xué)年的成績進行比較,因此,用于增值性評價的測驗需要經(jīng)過良好的垂直等值設(shè)計[4]。
2 研究設(shè)計
2.1 垂直等值研究的思路與方法
垂直等值(vertical scaling)指的是在某一特質(zhì)領(lǐng)域內(nèi),建立一個評價參照體系,用于衡量縱向發(fā)展中不同水平群體或個體特質(zhì)水平的發(fā)展?fàn)顩r的過程[5]。通過梳理已有文獻,如閔尚超和何蓮珍的“構(gòu)建英語聽力能力發(fā)展性量表——IRT垂直等值的應(yīng)用”等,發(fā)現(xiàn)垂直等值研究通常包含以下幾個關(guān)鍵步驟:首先,明確進行垂直等值研究的目的,確定為何需要進行此研究;其次,編制雙向細(xì)目表,同時考慮學(xué)科特點和測試內(nèi)容的維度結(jié)構(gòu);接著,構(gòu)建發(fā)展性分?jǐn)?shù)量尺,并選擇合適的題目設(shè)計方法,如錨題設(shè)計、等組設(shè)計或錨測驗設(shè)計,以及分?jǐn)?shù)轉(zhuǎn)換方法,如Thurstone方法、Hieronymus方法或IRT方法;然后,選擇合適的分析軟件,如PARSCALE或WINSTEPS等[6];最后,報告垂直等值的結(jié)果并對數(shù)據(jù)進行解讀。本研究的思路與方法如圖1所示。
2.2 大概念理解能力垂直等值的合理性
大概念具有不同的知識層級結(jié)構(gòu),能夠反映學(xué)科的核心特質(zhì),并占據(jù)學(xué)科的中心地位[7]?;瘜W(xué)學(xué)科中的“結(jié)構(gòu)決定性質(zhì)”大概念層級結(jié)構(gòu)如下:一級主題概念包括“基于官能團、化學(xué)鍵與反應(yīng)類型來認(rèn)識有機化合物的一般思路”,而二級概念則涉及取代反應(yīng)、加成反應(yīng)等。大概念本身的知識層級遞進關(guān)系適合進行垂直等值。
高中化學(xué)課程遵循由淺入深的原則。在必修階段,學(xué)生僅需了解化學(xué)鍵的基本概念,如離子鍵和共價鍵的形成。隨著年級的提升,學(xué)生將逐漸學(xué)習(xí)更為復(fù)雜的結(jié)構(gòu)與性質(zhì)之間的聯(lián)系。進入選修階段,則需要掌握共價鍵的主要類型,并能利用鍵能、鍵長、鍵角等參數(shù)來解釋簡單分子的某些性質(zhì)[8]。這種連貫性確保了學(xué)習(xí)內(nèi)容的連續(xù)性和相關(guān)性,也為不同年級間的垂直等值提供了可能性。
在教育評價的需求方面,對核心概念或原理的調(diào)查有助于描繪不同年級學(xué)生概念理解的發(fā)展水平[9]。教育決策者或教師需要了解學(xué)生對大概念的理解情況,以便進行資源調(diào)配或教學(xué)調(diào)整,垂直等值就較好地提供了這樣一個評價框架。
3 研究實施
3.1 雙向細(xì)目表的編制
查閱文獻資料后發(fā)現(xiàn),目前在大概念的層級劃分上尚未有統(tǒng)一標(biāo)準(zhǔn)。有的采用跨學(xué)科、學(xué)科單元間、學(xué)科單元內(nèi)、學(xué)科課時內(nèi)的大概念劃分[10];有的則使用大概念、學(xué)科基本理解、學(xué)科基本概念和學(xué)科事實的分類[11];還有的采用學(xué)科大概念、主題大概念和學(xué)科基本觀念的劃分[12]。鑒于“結(jié)構(gòu)決定性質(zhì)”這一大概念在高中化學(xué)教材(人教版)中的呈現(xiàn)情況,為便于后續(xù)選題內(nèi)容,本研究采用了圖2所示的結(jié)構(gòu)層次。采用了自下而上的大概念提取方法,結(jié)合生活和教學(xué)經(jīng)驗,通過不斷追問、綜合具體案例和小概念來進行提?。?3]。同時,運用鄭長龍基于idea的主題大概念提取模型[14],并通過文獻研究進行了補充,最終構(gòu)建了該大概念如圖2的概念層級關(guān)系。
已有研究表明,隨著學(xué)生對學(xué)科基本理解的不斷加深和對基本概念的不斷豐富,他們對大概念的理解也會逐漸深化[15]。本研究采用Wiggins的理解六側(cè)面對學(xué)生大概念的理解能力進行測量,理解六側(cè)面是測量理解的有效辦法,可以從理解的某個側(cè)面中將事實性知識與真實的理解進行區(qū)分[16]。理解六側(cè)面對“大概念”作了詳細(xì)解釋,還闡述了這些側(cè)面如何豐富學(xué)生學(xué)習(xí)。由于此研究對象為學(xué)生對“結(jié)構(gòu)決定性質(zhì)”大概念的理解,對此我們沒有使用布魯姆目標(biāo)分類水平,其原因如下:大概念的理解指向?qū)W生高階思維的培養(yǎng)[17],而布魯姆分類法在高階思維能力評價上存在不足[18],布魯姆分類法中知識與理解的內(nèi)在關(guān)系和界線比較含糊[19]。因此采用Wiggins的理解的六側(cè)面對學(xué)生大概念的理解進行測量。
本研究采用了二段式測試,即第一段問題為選擇題或是非題,旨在檢測學(xué)生是否理解了相關(guān)問題的內(nèi)容。第二段問題則考查學(xué)生對第一段問題所給答案的理由,采用選擇題形式。每個題目的第一、二段均設(shè)唯一正確答案。第二段的干擾選項基于學(xué)生可能的誤解或與問題相關(guān)的不同觀點設(shè)計,這些觀點來源于已有研究文獻及教師的訪談。僅當(dāng)學(xué)生對兩段問題都回答正確時,才計為1分。這樣的設(shè)計既滿足了Rasch模型對項目局部獨立性的要求,又降低了學(xué)生猜題的可能性,提高了測量的效度。
結(jié)合Wiggins的“理解六側(cè)面”模型和高中化學(xué)課程標(biāo)準(zhǔn),從化學(xué)學(xué)科本體視角和學(xué)生學(xué)習(xí)視角出發(fā),構(gòu)建“結(jié)構(gòu)決定性質(zhì)”大概念理解能力的評估指標(biāo)。對于“神入”和“自知”兩個側(cè)面據(jù)研究實際情況進行了調(diào)整,“神入”隱含了經(jīng)驗前提,評估時需要注意學(xué)生回答和解釋問題時是否克服了自我中心主義[20],但學(xué)生自我中心主義有時并不容易被察覺。“自知”這一側(cè)面反映學(xué)生對理解局限、盲區(qū)、偏見等的自我認(rèn)識[21]。學(xué)生表達自我認(rèn)識的方式可能因人而異,這也會導(dǎo)致評分者在評估時產(chǎn)生較大偏差,難以統(tǒng)一標(biāo)準(zhǔn)。同時,這兩個側(cè)面通常需采用開放式問卷設(shè)計,會占用被測試者較長時間。課題組在預(yù)測試中發(fā)現(xiàn),由于答題疲勞,對此兩側(cè)面答題的學(xué)生數(shù)量極少。正式測試中將這兩個側(cè)面納入第二段問題的末尾(如E選項),采用開放性設(shè)計。最終問卷中學(xué)生選答此項人數(shù)極少,沒有統(tǒng)計價值,不列入后續(xù)分析。最終測試題目的內(nèi)容、題量和理解側(cè)面的情況詳見表1。
3.2 分?jǐn)?shù)量尺的構(gòu)建
等值設(shè)計采用錨題設(shè)計(共同題)模式,根據(jù)項目反應(yīng)理論,在不同年級的試卷之間設(shè)置錨題,以便于進行比較分析[22]。錨題設(shè)計(Common item design)是最常用的等值方法,它能夠有效地將不同年級學(xué)生的學(xué)業(yè)水平進行垂直等值[23],如圖3所示。鑒于“結(jié)構(gòu)決定性質(zhì)”這一大概念貫穿整個高中化學(xué)課程,設(shè)計的錨題均圍繞該大概念展開,以減少項目漂移(item drift)。
根據(jù)錨測驗題與獨立測驗題目是否同時進行,等值設(shè)計可以分為“內(nèi)錨設(shè)計模式”和“外錨設(shè)計模式”。此研究采用內(nèi)錨設(shè)計模式,如圖3所示。依據(jù)Inacre的建議,至少應(yīng)保留5個垂直錨題[24]。在考慮題目分值時,應(yīng)確保錨題分值至少占總分值的20%,并盡可能使錨題覆蓋所有測量方面[25]。因此,本研究在高一與高二年級之間設(shè)置了5個錨題,實際包含10個二段式題目。高二與高三年級之間的錨題數(shù)量為8個,實際包含16個二段式題目,這一數(shù)量符合要求。錨題覆蓋了概念理解的各個方面,具體數(shù)量及占比見表2。由于所有錨題均采用二段式設(shè)計,即20個一段式題目和20個對應(yīng)的二段式題目。如果題目數(shù)量過多,學(xué)生可能會出現(xiàn)作答疲勞,導(dǎo)致大量未作答項目,影響估計結(jié)果的收斂性[26]。因此,最終確定為高一年級20題、高二年級23題、高三年級26題,由于是二段式設(shè)計,實際題量分別為40題、46題、52題。
項目反應(yīng)理論(IRT)方法是基于被試的作答模式來估計其潛在能力值,這種方法能夠反映被試的實際能力分布,并且已經(jīng)成為構(gòu)建垂直等值量尺的主要方法[27]。因此,本研究借鑒此方法,采用二級計分法、單層面、單參數(shù)的二級Rasch模型。根據(jù)已有研究,當(dāng)構(gòu)建大型題庫時,采用固定參數(shù)標(biāo)定(FIPC)方法更為靈活、有效且節(jié)省時間[28],且固定項目參數(shù)估計在特定參數(shù)估計方法的應(yīng)用下能夠取得良好效果[29]。在此研究中,課題組篩選了近10年的各省高考題和學(xué)考題,建立了題庫。由于此研究專注于某一特定化學(xué)大概念的理解能力,題目的等級和考察范圍可以得到精確控制,題目的測量穩(wěn)定性較高,可以采用固定參數(shù)標(biāo)定法。
3.3 垂直等值分析
3.3.1 樣本情況
樣本為西南地區(qū)某縣三所高中的部分學(xué)生(全縣共有三所高中),根據(jù)歷年的高考化學(xué)排名情況,該縣高中教育水平在全市郊縣高中中屬于中等層次。因此,通過對這三所學(xué)校的學(xué)生進行測試,可以大致反映該市郊縣區(qū)中等層次學(xué)生對“結(jié)構(gòu)決定性質(zhì)”大概念的理解水平。本研究對含有化學(xué)科目的各類組合班級進行了整體隨機抽樣,最終樣本數(shù)分別為高一200人、高二236人和高三289人,這符合Rasch模型數(shù)據(jù)分析的要求。在正式測試前,所有年級都進行了小范圍內(nèi)的預(yù)測試。正式測試時間安排在各年級下學(xué)期期中,由于高三年級需要參加藝術(shù)和體育考試,測試時間稍作提前。所有年級測試時長均為40分鐘(含測試前相關(guān)說明),班級科任教師在場監(jiān)督作答。
3.3.2 數(shù)據(jù)可靠性分析
采用Winsteps 3.66.0軟件進行數(shù)據(jù)處理。Rasch測量模型的核心指標(biāo)包括測量工具的單維性、分離度、信度(針對題目和被試)以及題目難度與被試能力對應(yīng)圖(Wright Map)。在單維性檢驗方面,主要通過殘差主成分分析來進行,判斷依據(jù)是題目的因子載荷(Contrast Loading)值是否處于-0.4到0.4之間。經(jīng)過預(yù)測試并對部分題項進行修改,三個年級正式測試的結(jié)果顯示出良好的單維性,如圖4所示。在圖中僅有題項A的值超出了這一范圍。經(jīng)過查證,題項A對應(yīng)的是一道氧化還原類的闡明題目。該題目的正確選項有對實驗結(jié)果的闡明,也有操作層面的考察,考慮到題目設(shè)計的整體性,課題組決定保留該題目。
三套測試題的學(xué)生區(qū)分度從高一到高三遞增,高一年級的學(xué)生strata值為2.97,已非常接近3。由于高一年級學(xué)生才升入高中,對“結(jié)構(gòu)決定性質(zhì)”大概念相關(guān)內(nèi)容接觸少,導(dǎo)致層次偏少,該區(qū)分度和分層情況可以接受[30]。高二、高三年級strata值分別為3.09與4.04,區(qū)分度及分層情況符合要求。模型數(shù)據(jù)擬合指數(shù)INFIT (OUTFIT)的擬合指數(shù)MNSQ(mean square)值要求在0.7到1.3之間[31],ZSTD值通常要求在-2到+2之間。此研究中“點測量相關(guān)系數(shù)”PTMEA(Point-Measure Correlation)大部分在0.5以上,三個年級的測試結(jié)果均符合擬合指標(biāo)要求。
3.3.3 錨題質(zhì)量分析
在垂直等值過程中,如果錨題在兩個不同位置發(fā)揮的作用不同,容易產(chǎn)生項目漂移(item drift),這可能會嚴(yán)重影響垂直等值的效果[32]。因此,在設(shè)計錨題時,需要仔細(xì)考慮題目內(nèi)容,并通過簡潔、規(guī)范地表述減少情境效應(yīng)。為了提高錨題的質(zhì)量,采用錨題卡方值判定的方法[33]。計算公式如下:
(diA-diB-GAB)2N12·KK-1
diA表示錨題i在試卷A的難度值,diB表示錨題i在試卷B的難度值,GAB表示所有錨題在試卷A和試卷B的難度平均值之差,K表示錨題數(shù)量,N表示考生樣本數(shù)。錨題的卡方值越小質(zhì)量越好,卡方值大于3.84(自由度為1)的錨題為質(zhì)量較差的錨題,需要剔除[34]。通過計算發(fā)現(xiàn)這些錨題卡方值均遠(yuǎn)小于3.84,故錨題質(zhì)量較好。
為進一步提高錨題質(zhì)量并優(yōu)化錨題組?!板^題組”由上一級測試中的較容易題和下一級測試中較難題進行拼接,實現(xiàn)對上下兩個層級都具有代表性[35]。由懷特圖可知,例如高二錨題大部分難度較大,對高三學(xué)生而言此部分錨題難度較小。所有錨題均經(jīng)過課題組成員與專家討論,具有較高的效度。
4 研究結(jié)論及啟示
4.1 垂直等值結(jié)果
數(shù)據(jù)通過單維性檢驗后利用IAFILE命令對錨題進行參數(shù)固定。此研究以高二年級錨題為基準(zhǔn),分別對高一和高三進行參數(shù)固定,在winsteps軟件中選擇score table可以得到等值后對應(yīng)的Rasch分值,整理得表3。
通過散點圖發(fā)現(xiàn)原始分?jǐn)?shù)與Rasch分并不是線性關(guān)系,而是曲線關(guān)系,對曲線進行擬合可得到三個年級的原始分與Rasch分的回歸公式:
高一年級:Y1=0.0027x3-0.0840x2+1.0458x-6.0436(R2=0.996)
高二年級:Y2=0.0017x3-0.0600x2+0.8202x-4.1404(R2=0.993)
高三年級:Y3=0.0012x3-0.0484x2+0.7432x-2.9960(R2=0.991)
其中Y1、 Y2、 Y3分別表示高一、高二和高三年級測試中的Rasch分,x表示學(xué)生在二段式測試中獲得的原始得分。
4.2 垂直等值結(jié)果的分析與啟示
首先,通過年級與個人的等值分進行單因素方差分析,可以看出不同年級間等值后的Rasch平均分增量及差異(LSD法)如表4。
通過表4發(fā)現(xiàn)等值后各年級之間能力值有顯著差異。在“結(jié)構(gòu)決定性質(zhì)”大概念的理解上,高一至高二學(xué)生的Rasch分?jǐn)?shù)平均分增值量為1.74,高二至高三學(xué)生的Rasch分?jǐn)?shù)平均分增值量為1.03。表明高一至高二期間為“結(jié)構(gòu)決定性質(zhì)”大概念理解能力提升的關(guān)鍵期。教學(xué)中,我們應(yīng)將該大概念的教學(xué)期適當(dāng)前移至高一年級中后階段,利于提升學(xué)生“結(jié)構(gòu)決定性質(zhì)”大概念的理解能力。
其次,通過對學(xué)生“結(jié)構(gòu)決定性質(zhì)”大概念理解能力進行測量。結(jié)合分?jǐn)?shù)轉(zhuǎn)換表(表3),可以預(yù)測學(xué)生的大概念理解能力。例如,某高一學(xué)生測試原始分為16分,根據(jù)表3,可以知道其Rasch分為0.26。通過高二年級的回歸方程,求算出該生按高二試題測試得分,約為14分左右(考慮到試題難度的提升,分?jǐn)?shù)有所下降)。在生源、教學(xué)等條件穩(wěn)定的情況下,若按照平均分增值量1.74計算,該生的Rasch分在高二應(yīng)為2.00左右。通過回歸方程的反向計算,求出得分約為20分左右。這意味著該生在兩次測試間,對應(yīng)能力應(yīng)獲得約6分的增值。這有助于對學(xué)生在某一大概念理解能力上的發(fā)展進行預(yù)測,并跟蹤其進步情況。
再次,通過利用各題項等值后的MEASURE值,能夠了解從高一到高三各理解側(cè)面指標(biāo)表現(xiàn)的變化情況,如圖5所示。從圖中可以看出,解釋、闡明、應(yīng)用和洞察表現(xiàn)均呈現(xiàn)遞增趨勢。特別是在高二到高三期間,應(yīng)用側(cè)面指標(biāo)的提升速度高于高一到高二期間,這表明高三的復(fù)習(xí)對該大概念的理解在應(yīng)用側(cè)面上有顯著的促進作用。解釋、闡明和洞察理解側(cè)面的提升則在高一到高二階段更為顯著。
最后,由于研究時長和其他條件的限制,樣本僅限于某縣域內(nèi)的高中學(xué)生,因此研究成果的推廣范圍存在一定局限性。課題組后續(xù)將進行范圍更廣的測試,并開展其他化學(xué)大概念的研究。
參考文獻:
[1][2][14]鄭長龍. 大概念的內(nèi)涵解析及大概念教學(xué)設(shè)計與實施策略[J]. 化學(xué)教育(中英文), 2022, 43(13): 6~12.
[3]張苧予. 如何評價職業(yè)學(xué)校教師教學(xué)的有效性——基于學(xué)生知識圖譜增值模型的策略[J]. 中國職業(yè)技術(shù)教育, 2022, (17): 49~54.
[4]Young M. J. Vertical scales. In S. M. Downing and T. M. Haladyna (Eds.) [H]. Handbook of test development. Lawrence Erlbaum Associates Publishers, 2006.
[5]羅照盛. 項目反應(yīng)理論基礎(chǔ)[M]. 北京: 北京師范大學(xué)出版社, 2012: 80~81.
[6][27][29]王燁暉, 邊玉芳, 辛濤. 垂直等值的應(yīng)用及最新發(fā)展述評[J]. 心理學(xué)探新, 2011, 31(5): 472~476.
[7]何彩霞. 化學(xué)學(xué)科核心素養(yǎng)導(dǎo)向的大概念單元教學(xué)探討[J]. 化學(xué)教學(xué), 2019, (11): 44~48.
[8]錢秋萍, 吳俊明. 化學(xué)的分子思維及其教學(xué)[J]. 化學(xué)教學(xué), 2018, (10): 3~9.
[9]盧姍姍, 畢華林. 近二十年國際科學(xué)概念學(xué)習(xí)研究的內(nèi)容分析[J]. 全球教育展望, 2015, 44(4): 19~27+18.
[10]李松林. 以大概念為核心的整合性教學(xué)[J]. 課程·教材·教法, 2020, 40(10): 56~61.
[11][15]王欽忠. 用結(jié)構(gòu)化的教學(xué)內(nèi)容引導(dǎo)學(xué)生建構(gòu)知識——以高中化學(xué)“物質(zhì)的分類”教學(xué)為例[J]. 化學(xué)教學(xué), 2023, (4): 33~37.
[12]王換榮, 肖中榮. 學(xué)科大概念多重層級下的主題大概念教學(xué)路徑——以人教版(2019版)選擇性必修2《物質(zhì)結(jié)構(gòu)與性質(zhì)》為例[J]. 化學(xué)教學(xué), 2023, (9): 25~28.
[13]劉徽. “大概念”視角下的單元整體教學(xué)構(gòu)型——兼論素養(yǎng)導(dǎo)向的課堂變革[J]. 教育研究, 2020, 41(6): 64~77.
[16][20][21]格蘭特·威金斯, 杰伊·麥克泰格著. 閆寒冰, 宋雪蓮, 賴平譯. 追求理解的教學(xué)設(shè)計(第二版)[M]. 上海: 華東師范大學(xué)出版社, 2017:180,113~117.
[17]王光明, 甄祎明. 加拿大不列顛哥倫比亞省“知道—實踐—理解”課程模式及其啟示[J]. 課程·教材·教法, 2020, 40(10): 125~130.
[18]張浩, 吳秀娟, 王靜. 深度學(xué)習(xí)的目標(biāo)與評價體系構(gòu)建[J]. 中國電化教育, 2014, (7): 51~55.
[19]王斌華. 課程規(guī)劃導(dǎo)論(下)[J]. 外國教育資料, 1998, 27(1): 28~32.
[22][25]王磊. 基于學(xué)生核心素養(yǎng)的化學(xué)學(xué)科能力研究[M]. 北京: 北京師范大學(xué)出版社, 2017:44,45.
[23]黎光明, 梁正妍. 錨題比例與年級離散度對垂直等值的影響[J]. 江西師范大學(xué)學(xué)報(自然科學(xué)版), 2019, 43(1): 52~58.
[24]Linacre J M. A Users Guide to WINSTEPS MINISTEP Rasch-Model Computer Programs [EB/OL]. https://www.winsteps.com/manuals.htm, 2020.
[26]KANG T, PETERSEN N S. Linking Item Parameters to a Base Scale [J]. Asia Pacific Education Review, 2011, 13(2): 311~321.
[28]Arai, S. & Mayekawa, S. A Comparison of Equating Methods and Linking Designs for Developing an Item Pool under Item Response Theory [J]. Behaviormetrika, 2011, 38(1): 1~16.
[30]Fisher W P. Reliability, separation, strata statistics [J]. Rasch Measurement Transactions, 1992, (6): 238.
[31]Akase M. Longitudinalmeasurement of growth in vocabulary size using Rasch-based test equating [J]. Language Testing in Asia, 2022, 12(1): 1~20.
[32]Wells, C. S., Subkoviak, M. J., & Serlin, R. C. The effect of item parameter drift on examinee ability estimates[J]. Applied Psychologi-cal Measurement, 2002, 26(1), 77~87.
[33][34]呂劍濤. 標(biāo)準(zhǔn)化英語考試等值可行性研究[M]. 北京: 人民出版社, 2017:11~12.
[35]朱正才. 英語能力等級量表描述語量表化的可行性方案探討[J]. 中國考試, 2016,(4): 3~7.