袁碩 彭恒利
新疆學(xué)業(yè)水平質(zhì)量監(jiān)測(cè)漢語(yǔ)試卷的縱向量表化實(shí)證研究
袁碩 彭恒利
作為一種典型的增長(zhǎng)模型,縱向量表化(Vertical Scaling,也稱(chēng)垂直等值、垂直標(biāo)定等)方法常用于評(píng)估被試的學(xué)業(yè)或能力發(fā)展?fàn)顩r。本研究以新疆少數(shù)民族四至六年級(jí)學(xué)生在2011年至2013年三次學(xué)業(yè)水平質(zhì)量監(jiān)測(cè)漢語(yǔ)考試中的答題數(shù)據(jù)為樣本,采取共同題設(shè)計(jì)進(jìn)行數(shù)據(jù)收集,并運(yùn)用Thurstone方法和IRT同時(shí)標(biāo)定的方法進(jìn)行量表分?jǐn)?shù)構(gòu)建,最終完成了三個(gè)年級(jí)間的分?jǐn)?shù)連接,實(shí)現(xiàn)了對(duì)新疆雙語(yǔ)班四至六年級(jí)學(xué)生漢語(yǔ)學(xué)業(yè)水平增長(zhǎng)的測(cè)量,為學(xué)業(yè)水平監(jiān)測(cè)工作提供了可參考的量化指標(biāo)。
縱向量表化;Thurstone方法;IRT同時(shí)標(biāo)定;學(xué)業(yè)質(zhì)量監(jiān)測(cè)
《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》(以下簡(jiǎn)稱(chēng)《綱要》)明確提出,要“建立國(guó)家義務(wù)教育質(zhì)量基本標(biāo)準(zhǔn)和監(jiān)督制度”,完善“推進(jìn)素質(zhì)教育實(shí)施和創(chuàng)新人才培養(yǎng)”的考試招生制度。以此為藍(lán)圖,《教育部2012年工作要點(diǎn)》明確提出了“全面提高教育質(zhì)量,著力提升人才培養(yǎng)水平,構(gòu)建國(guó)家基礎(chǔ)教育質(zhì)量監(jiān)測(cè)評(píng)價(jià)體系,對(duì)基礎(chǔ)教育質(zhì)量進(jìn)行全面監(jiān)測(cè)和科學(xué)評(píng)價(jià)”的具體要求。
與國(guó)外重視學(xué)業(yè)成就概念,將教育測(cè)量領(lǐng)域的先進(jìn)技術(shù)廣泛應(yīng)用于學(xué)業(yè)質(zhì)量評(píng)價(jià)中的做法相比,以往國(guó)內(nèi)的學(xué)業(yè)評(píng)價(jià)制度仍強(qiáng)調(diào)“甄別與選拔”的功能,忽視了學(xué)業(yè)質(zhì)量評(píng)價(jià)在促進(jìn)學(xué)生全面發(fā)展、提高教師教學(xué)水平及改進(jìn)教學(xué)等方面的作用,以考試成績(jī)代表學(xué)業(yè)成就的“一考定終身”的狀況并未得到根本性扭轉(zhuǎn)。
為貫徹《綱要》的要求,近年來(lái),國(guó)內(nèi)相繼開(kāi)展了形式多樣的學(xué)業(yè)評(píng)價(jià)研究。在此背景下,新疆在雙語(yǔ)教育體系初步建成的基礎(chǔ)上,決定在全區(qū)進(jìn)行旨在檢驗(yàn)雙語(yǔ)教育質(zhì)量的學(xué)業(yè)水平質(zhì)量監(jiān)測(cè)工作。希望采用科學(xué)、有效的監(jiān)測(cè)手段,了解和掌握全疆雙語(yǔ)教學(xué)質(zhì)量的現(xiàn)狀和發(fā)展水平,研究提高雙語(yǔ)教學(xué)質(zhì)量的途徑和方法,探索雙語(yǔ)教學(xué)質(zhì)量監(jiān)測(cè)的有效手段和方式,為在全區(qū)逐步建立中小學(xué)雙語(yǔ)教學(xué)質(zhì)量保障體系,最終形成縣(市)、地州、自治區(qū)三級(jí)聯(lián)動(dòng)的監(jiān)測(cè)模式和工作機(jī)制奠定基礎(chǔ)。
新疆的雙語(yǔ)教學(xué)質(zhì)量監(jiān)測(cè)工作始于2011年,采用考試結(jié)合問(wèn)卷調(diào)查的方式進(jìn)行。監(jiān)測(cè)工作首先從漢語(yǔ)學(xué)科入手,采用等比例抽樣的方式,選取了七個(gè)地州的50個(gè)縣(市)雙語(yǔ)實(shí)驗(yàn)班的四年級(jí)和六年級(jí)學(xué)生進(jìn)行樣本采集。隨后兩年,采用同樣的方法,完成了四年級(jí)學(xué)生升入五年級(jí)和六年級(jí)的樣本采集工作。監(jiān)測(cè)工作委托專(zhuān)業(yè)測(cè)試機(jī)構(gòu)命制了四至六年級(jí)的學(xué)業(yè)水平質(zhì)量監(jiān)測(cè)漢語(yǔ)試卷,并設(shè)計(jì)了面向校長(zhǎng)、教師、學(xué)生的調(diào)查問(wèn)卷。漢語(yǔ)試卷遵循與中國(guó)少數(shù)民族漢語(yǔ)水平等級(jí)考試(MHK)相同的構(gòu)念命制而成。
從監(jiān)測(cè)目的來(lái)看,新疆進(jìn)行學(xué)業(yè)水平監(jiān)測(cè)不僅關(guān)注所測(cè)年級(jí)的學(xué)習(xí)狀況,更關(guān)注其發(fā)展趨勢(shì)和增長(zhǎng)狀況,這就是說(shuō),不只是靜態(tài)的監(jiān)測(cè),而是動(dòng)態(tài)的監(jiān)測(cè)。由此,一個(gè)現(xiàn)實(shí)的問(wèn)題是,如何刻畫(huà)學(xué)生的學(xué)業(yè)發(fā)展,實(shí)現(xiàn)跨年級(jí)的分?jǐn)?shù)連接?就跨年級(jí)的學(xué)業(yè)水平測(cè)驗(yàn)而言,各個(gè)水平測(cè)驗(yàn)所涉及的知識(shí)內(nèi)容、測(cè)試難度和參加測(cè)驗(yàn)學(xué)生的能力分布等均存在差異,而且每一個(gè)年級(jí)的教學(xué)目標(biāo)也不一致,通過(guò)同一個(gè)測(cè)試工具(比如編制一份包含所有測(cè)試年級(jí)學(xué)習(xí)內(nèi)容的試題)施測(cè)來(lái)評(píng)估其發(fā)展水平,測(cè)得的結(jié)果既不好解釋?zhuān)膊豢煽?,更無(wú)法滿(mǎn)足水平等值的條件。另一種方法是根據(jù)不同年級(jí)學(xué)生的實(shí)際情況,編制特定的測(cè)試工具(試卷)來(lái)施測(cè)。雖然這些不同的測(cè)試工具在構(gòu)念上相同,但在難度和測(cè)驗(yàn)內(nèi)容上均不一致,加之被試的水平也存在差異,其結(jié)果也無(wú)法直接進(jìn)行比較。
由此可見(jiàn),學(xué)業(yè)水平測(cè)試顯然不同于一般的成績(jī)測(cè)驗(yàn)和水平測(cè)驗(yàn),其特殊性加大了對(duì)學(xué)業(yè)發(fā)展進(jìn)行量化的難度。為解決這一難題,研究者提出了許多新的方法,以此實(shí)現(xiàn)跨年級(jí)的分?jǐn)?shù)連接,刻畫(huà)學(xué)生的學(xué)業(yè)水平發(fā)展情況。這些方法主要包括兩類(lèi)模型:增值模型和增長(zhǎng)模型(Briggs&Weeks,2009)。作為一種典型的增長(zhǎng)模型,縱向量表化(Vertical Scaling)是指在測(cè)驗(yàn)的構(gòu)念相同、信度相似,但考試難度和被試總體不同的情況下,將被試在符合上述條件的不同測(cè)驗(yàn)中的分?jǐn)?shù)轉(zhuǎn)換到同一個(gè)分?jǐn)?shù)尺度上進(jìn)行比較的過(guò)程,這一分?jǐn)?shù)尺度通常被稱(chēng)為縱向量表或發(fā)展性分?jǐn)?shù)量表(Developmental Scale)。在實(shí)現(xiàn)原始分轉(zhuǎn)換到量表分的同時(shí),研究者可以基于自身理論假設(shè)為這一量表分?jǐn)?shù)賦予各種意義,通過(guò)發(fā)展性量表來(lái)獲得學(xué)生在特定知識(shí)領(lǐng)域中的發(fā)展信息,并據(jù)此評(píng)估被試的學(xué)業(yè)水平或能力的發(fā)展情況。
據(jù)上,新疆學(xué)業(yè)水平監(jiān)測(cè)要實(shí)現(xiàn)其監(jiān)測(cè)目的,就要進(jìn)行系統(tǒng)設(shè)計(jì),不僅要遵照相同構(gòu)念,并根據(jù)所測(cè)年級(jí)的實(shí)際情況編制針對(duì)不同水平學(xué)生的試卷,也要采用縱向量表化的方法實(shí)現(xiàn)跨年級(jí)試卷間的分?jǐn)?shù)連接。
縱向量表化是“一個(gè)受多種因素影響的復(fù)雜過(guò)程”(Kolen and Brennan,2004),包括數(shù)據(jù)收集設(shè)計(jì)、測(cè)驗(yàn)內(nèi)容覆蓋范圍、測(cè)驗(yàn)結(jié)構(gòu)、量表分轉(zhuǎn)化方法甚至研究所使用的程序等環(huán)節(jié)在內(nèi),任何一者發(fā)生變化都可能影響到最終的結(jié)果。因此,數(shù)據(jù)的收集設(shè)計(jì)、量表分的構(gòu)建均需結(jié)合研究樣本的實(shí)際情況預(yù)先進(jìn)行精心設(shè)計(jì)。就本研究而言,具體包括數(shù)據(jù)收集設(shè)計(jì)、原始分?jǐn)?shù)計(jì)算、量表分?jǐn)?shù)轉(zhuǎn)換以及對(duì)發(fā)展性分?jǐn)?shù)量表進(jìn)行初步解釋等過(guò)程。
本研究所采用的樣本為新疆雙語(yǔ)實(shí)驗(yàn)班四至六年級(jí)學(xué)生2011—2013年度在新疆學(xué)業(yè)水平監(jiān)測(cè)漢語(yǔ)試卷上的答題數(shù)據(jù)。由于研究數(shù)據(jù)的選取對(duì)縱向量表化的研究結(jié)果存在一定程度的影響,為了使計(jì)算結(jié)果更有說(shuō)服力,最大限度減少重復(fù)測(cè)驗(yàn)導(dǎo)致的誤差因素,同時(shí)結(jié)合客觀情況,本研究將相鄰年級(jí)樣本分為“交集”和“總體”兩個(gè)研究組。其中,交集指參加過(guò)低年級(jí)學(xué)業(yè)水平監(jiān)測(cè)考試并升入高年級(jí)的學(xué)生,總體是指該年級(jí)包含“交集”部分考生在內(nèi)的全體考生。測(cè)驗(yàn)題目的命制兼顧了學(xué)業(yè)水平質(zhì)量監(jiān)測(cè)評(píng)價(jià)體系的完整性和延續(xù)性,以MHK考查“漢語(yǔ)實(shí)際運(yùn)用能力”的理念為命題依據(jù)。對(duì)四、五年級(jí)學(xué)生,使用根據(jù)MHK理念而研發(fā)的新試卷;對(duì)六年級(jí)學(xué)生,雖然使用的是MHK一級(jí)試卷,但通過(guò)共同題使五年級(jí)和六年級(jí)試卷間建立了聯(lián)系。監(jiān)測(cè)試卷是以《全日制民族中小學(xué)義務(wù)教育階段雙語(yǔ)教育漢語(yǔ)課程標(biāo)準(zhǔn)》為參考標(biāo)準(zhǔn)的標(biāo)準(zhǔn)參照式測(cè)驗(yàn),測(cè)量的結(jié)構(gòu)、覆蓋范圍、考察的能力以及題目的格式等都經(jīng)過(guò)了嚴(yán)格的規(guī)定,題目在命制過(guò)程中均經(jīng)過(guò)了專(zhuān)家組的審閱和試做。
在構(gòu)建發(fā)展性量表,或者進(jìn)行其他任何有關(guān)學(xué)業(yè)水平的測(cè)量時(shí),檢測(cè)不同等級(jí)的試卷是否都在測(cè)量同一構(gòu)念,即測(cè)驗(yàn)是否滿(mǎn)足單維性假設(shè),是保證測(cè)驗(yàn)分?jǐn)?shù)得到有效處理的重要前提條件。本研究以三個(gè)年級(jí)聽(tīng)力、閱讀、書(shū)寫(xiě)及作文四個(gè)分測(cè)驗(yàn)的原始分?jǐn)?shù)為對(duì)象,通過(guò)SPSS軟件(16.0)的主成分分析法進(jìn)行了因子分析。結(jié)果表明,測(cè)驗(yàn)呈現(xiàn)明顯的單維性特質(zhì),最終確定提取出一個(gè)具有高度解釋性的“因子”,將其定義為“綜合漢語(yǔ)交際能力”。這說(shuō)明測(cè)驗(yàn)考查學(xué)生實(shí)際漢語(yǔ)運(yùn)用能力的預(yù)期構(gòu)念得到了較好的滿(mǎn)足。
本研究的全部原始數(shù)據(jù)都經(jīng)過(guò)了專(zhuān)業(yè)的“雷同答卷判定程序”的處理,均為剔除了作弊嫌疑的“干凈”數(shù)據(jù)。具體信息如表1所示。
表1 原始數(shù)據(jù)信息
數(shù)據(jù)收集設(shè)計(jì)及量表分?jǐn)?shù)的構(gòu)建,是縱向量表化方法的研究過(guò)程中最重要的兩部分內(nèi)容。數(shù)據(jù)收集設(shè)計(jì)主要包括共同題設(shè)計(jì)(Common-item De?sign,CI design;Kolen and Brennan,2004)、共同組設(shè)計(jì)(Common-group Design,CG design)及量表測(cè)驗(yàn)設(shè)計(jì)(Scaling-test Design,SC design)三種傳統(tǒng)數(shù)據(jù)收集方法。量表分?jǐn)?shù)的構(gòu)建分為計(jì)算測(cè)驗(yàn)分?jǐn)?shù)的原始分及進(jìn)行分?jǐn)?shù)轉(zhuǎn)換兩個(gè)步驟,最終目的是將各年級(jí)測(cè)驗(yàn)原始分轉(zhuǎn)換到具有同一尺度的量表中使其相互可比,并向測(cè)驗(yàn)的使用者及相關(guān)教育機(jī)構(gòu)報(bào)告縱向量表化的研究結(jié)果。量表分?jǐn)?shù)的構(gòu)建方式主要包括Hieronymus方法、Thurstone方法及IRT方法。目前,對(duì)量表分?jǐn)?shù)的評(píng)價(jià)標(biāo)準(zhǔn)集中于三個(gè)方面:年級(jí)間的學(xué)業(yè)發(fā)展幅度的增減;年級(jí)間發(fā)展差異性的增減以及年級(jí)分布間隔的大小。
在縱向量表化的實(shí)證研究過(guò)程中,研究者需要做出很多決策,而不同的決策通常會(huì)得出不同的發(fā)展性分?jǐn)?shù)量表,進(jìn)而產(chǎn)生不同的報(bào)告分?jǐn)?shù),使相關(guān)教育者做出不同的決策。根據(jù)國(guó)外相關(guān)實(shí)證研究,結(jié)合現(xiàn)實(shí)因素的考量,本研究選取了Thurstone(1925)和Thurstone(1938)方法和IRT同時(shí)標(biāo)定方法(3PLM模型,使用Bilog Ver 3.09和Parscale Ver.4.1)進(jìn)行量表分?jǐn)?shù)的轉(zhuǎn)化,以從理論角度比較不同量表轉(zhuǎn)化方法以及不同軟件對(duì)研究結(jié)果的影響。最后,將通過(guò)量表分?jǐn)?shù)轉(zhuǎn)化計(jì)算出的平均數(shù)、標(biāo)準(zhǔn)差和在此基礎(chǔ)上計(jì)算得出的效應(yīng)值(Effect Size)作為學(xué)業(yè)增長(zhǎng)情況的參照指標(biāo)。
參加監(jiān)測(cè)的學(xué)生由當(dāng)?shù)亟逃块T(mén)抽樣選取,來(lái)自全疆的多個(gè)地區(qū)。在這一背景下,共同題設(shè)計(jì)顯然是最實(shí)際可行且最可靠的數(shù)據(jù)收集方法。四至六年級(jí)的監(jiān)測(cè)試卷均包括聽(tīng)力、閱讀和書(shū)面表達(dá)三部分,由于三個(gè)年級(jí)書(shū)面表達(dá)的題型不同,且均包括主觀性試題,因此,共同題只在聽(tīng)力和閱讀兩個(gè)分測(cè)驗(yàn)中設(shè)置,所有題目均為0、1記分的多項(xiàng)選擇題。共同題設(shè)計(jì)方案如圖1所示。
圖1 共同題設(shè)計(jì)方案
共同題選取的原則是選擇難度大且區(qū)分度高的題目。難度、區(qū)分度主要依據(jù)MCAT軟件計(jì)算出的題目通過(guò)率及點(diǎn)雙列相關(guān)這兩項(xiàng)指標(biāo)。根據(jù)以往等值研究的經(jīng)驗(yàn),確定共同題的選取標(biāo)準(zhǔn)是通過(guò)率低于0.5,點(diǎn)雙列相關(guān)大于0.3。
本研究所采用的量表分?jǐn)?shù)轉(zhuǎn)換方法包括Thur?stone方法及IRT方法兩種。
Thurstone方法方面,包括 Thurstone(1925)、Thurstone(1938)兩個(gè)版本。Thurstone方法的計(jì)算公式如式(1)、式(2)所示:
及
其中μL=0且σL=1
Thurstone方法在計(jì)算前需要進(jìn)行原始分?jǐn)?shù)轉(zhuǎn)換。原始分?jǐn)?shù)轉(zhuǎn)換是該方法兩個(gè)版本的不同點(diǎn)所在:在(1925)版本中,對(duì)兩個(gè)相鄰年級(jí)而言,通過(guò)被試的作答反應(yīng)計(jì)算每題的通過(guò)率(P值),然后通過(guò)反向累積正態(tài)函數(shù)(Inverse Cumulative Normal,也稱(chēng)Logit-transform,即Logit轉(zhuǎn)換)將每道題目的P值進(jìn)行正態(tài)化處理,轉(zhuǎn)換為Z分?jǐn)?shù);在(1938)版本中,通過(guò)兩個(gè)相鄰年級(jí)的原始分頻次分布(Raw Score Fre?quency Distribution)獲得同一年級(jí)內(nèi)每個(gè)被試原始分?jǐn)?shù)所對(duì)應(yīng)的百分等級(jí),然后對(duì)每個(gè)百分等級(jí)的值通過(guò)Logit轉(zhuǎn)換進(jìn)行正態(tài)化處理,使用經(jīng)正態(tài)轉(zhuǎn)換后的百分等級(jí)分?jǐn)?shù)取代正態(tài)轉(zhuǎn)換的P值。
其次,需對(duì)數(shù)據(jù)進(jìn)行效度檢驗(yàn),檢測(cè)數(shù)據(jù)是否滿(mǎn)足Thurstone方法的兩個(gè)假設(shè):假定年級(jí)內(nèi)考生的分?jǐn)?shù)呈正態(tài)分布;假定年級(jí)間考生的分?jǐn)?shù)呈線性相關(guān)。前者需要生成數(shù)據(jù)的雙變量散點(diǎn)圖(Bivariate Plot),后者需要計(jì)算兩者的皮爾遜相關(guān)系數(shù)(Pear?son Correlation)。效度檢驗(yàn)的目的是測(cè)試Thurstone方法是否得到了有效的使用。
IRT方法方面,本研究選取在滿(mǎn)足單維性假設(shè)條件下更為便捷、穩(wěn)定的同時(shí)標(biāo)定方法,即對(duì)所有水平測(cè)驗(yàn)上的所有反應(yīng)項(xiàng)目同時(shí)進(jìn)行參數(shù)估計(jì)。在IRT模型上選取對(duì)客觀性測(cè)驗(yàn)的計(jì)算結(jié)果更為精確的三參數(shù)模型(3PLM),如式(3)所示。同時(shí),分別通過(guò)Parscale(4.1版本)和Bilog(3.09版本)軟件進(jìn)行計(jì)算。
效應(yīng)值(Effect Size)方法將相鄰年級(jí)之間的分?jǐn)?shù)差異進(jìn)行了標(biāo)準(zhǔn)化處理,需要使用到量表分?jǐn)?shù)轉(zhuǎn)化方法計(jì)算出的平均數(shù)及標(biāo)準(zhǔn)差。效應(yīng)值與學(xué)生的學(xué)業(yè)水平發(fā)展程度呈正相關(guān):其值越高,表明學(xué)生學(xué)業(yè)水平的發(fā)展程度越高;反之亦然。
表2對(duì)不同縱向量表化方法的計(jì)算結(jié)果進(jìn)行了對(duì)比。表中的數(shù)值即為三個(gè)年級(jí)原始成績(jī)通過(guò)兩種分?jǐn)?shù)轉(zhuǎn)化方法所得到的發(fā)展性分?jǐn)?shù)量表,包括平均值、標(biāo)準(zhǔn)差以及效應(yīng)值三項(xiàng)指標(biāo)。
在所有的方法中,低年級(jí)的平均值都被設(shè)定為0,標(biāo)準(zhǔn)差被設(shè)定為1。其中,平均值指標(biāo)的正負(fù),反映的是學(xué)生漢語(yǔ)學(xué)業(yè)水平的增長(zhǎng)或降低;效應(yīng)值的大小反映的是學(xué)生漢語(yǔ)學(xué)業(yè)水平的增幅大小;標(biāo)準(zhǔn)差指標(biāo)跟1的大小關(guān)系,反映的是年級(jí)間漢語(yǔ)學(xué)業(yè)水平增長(zhǎng)差異性的擴(kuò)大或縮小。根據(jù)表2,本研究的具體結(jié)論包括下述三個(gè)方面:
表2 發(fā)展性分?jǐn)?shù)量表
(1)通過(guò)四種方式計(jì)算出的平均數(shù)和效應(yīng)值兩項(xiàng)指標(biāo)顯示,所有研究組學(xué)生的學(xué)業(yè)水平都實(shí)現(xiàn)了不同幅度的增長(zhǎng)。其中,五年級(jí)到六年級(jí)(總體)學(xué)生的漢語(yǔ)學(xué)業(yè)水平增幅最大(平均數(shù)指標(biāo)均值為0.36,效應(yīng)值指標(biāo)均值為0.87),五年級(jí)到六年級(jí)(交集)學(xué)生的學(xué)業(yè)水平增幅最?。ㄆ骄鶖?shù)指標(biāo)均值為0.07,效應(yīng)值指標(biāo)均值為0.22)。
這表明多次參加學(xué)業(yè)水平漢語(yǔ)測(cè)驗(yàn)的學(xué)生并沒(méi)有體現(xiàn)出更高幅度的學(xué)業(yè)水平增長(zhǎng),意味著學(xué)生整體實(shí)際漢語(yǔ)水平的高低,對(duì)于學(xué)業(yè)水平發(fā)展幅度的影響更為顯著。
(2)通過(guò)四種方式計(jì)算出的標(biāo)準(zhǔn)差指標(biāo)顯示,多數(shù)研究組學(xué)生的漢語(yǔ)學(xué)業(yè)水平增長(zhǎng)差異呈現(xiàn)了并不一致的發(fā)展趨勢(shì)。其中,4個(gè)研究組的標(biāo)準(zhǔn)差均值依次為0.86、1.00、0.92及1.16。
這表明兩個(gè)相鄰年級(jí)間學(xué)生的漢語(yǔ)學(xué)業(yè)水平增長(zhǎng)幅度與其學(xué)業(yè)水平增長(zhǎng)變異性發(fā)展并不呈線性相關(guān),即某一年級(jí)學(xué)生漢語(yǔ)學(xué)業(yè)水平幅度較大,并不意味著其中學(xué)業(yè)水平增幅低的學(xué)生與學(xué)業(yè)水平增幅高的學(xué)生之間的差距也變得更大,反之亦然。
(3)通過(guò)不同量表分?jǐn)?shù)轉(zhuǎn)化方法得到的結(jié)果顯示,各研究組學(xué)生的學(xué)業(yè)水平增幅或發(fā)展變異的程度并不一致:平均數(shù)指標(biāo)方面,Thurstone(1938)>Thurstone(1925)> IRT-Con(Parscale)> IRT-Con(Bilog),其均值依次為0.24、0.25、0.09及0.19,Thur?stone方法的計(jì)算結(jié)果顯示了更為顯著的學(xué)業(yè)水平增長(zhǎng);標(biāo)準(zhǔn)差指標(biāo)方面,IRT-Con(Parscale)> IRTCon(Bilog)> Thurstone(1938)> Thurstone(1925),四種方式計(jì)算出的均值依次為0.85、0.97、1.02及1.10,IRT同時(shí)標(biāo)定方法的計(jì)算結(jié)果顯示了更為顯著的學(xué)業(yè)增長(zhǎng)變異;效應(yīng)值指標(biāo)方面,Thurstone(1925)> IRT-Con(Parscale)> IRT-Con(Bilog)>Thurstone(1938)四種方式計(jì)算出的均值依次為0.84、0.21、0.51及0.65。
兩類(lèi)方法內(nèi)部,除了效應(yīng)值指標(biāo),Thurstone兩種方法及IRT同時(shí)標(biāo)定方法使用兩種軟件計(jì)算出的結(jié)果,均無(wú)顯著差異,結(jié)果較為接近。這一結(jié)論從實(shí)證角度再次證明了縱向量表化研究過(guò)程中,在研究樣本、數(shù)據(jù)收集方式等基本決策相同的情況下,不同量表分?jǐn)?shù)轉(zhuǎn)化方法計(jì)算出的結(jié)果存在差異。
本研究基于標(biāo)準(zhǔn)化的學(xué)業(yè)水平測(cè)驗(yàn),并進(jìn)行了單維性假設(shè)檢驗(yàn)及效度檢驗(yàn),其結(jié)果具有較強(qiáng)可靠性。研究結(jié)果證明縱向量表化方法適用于學(xué)業(yè)水平質(zhì)量監(jiān)測(cè)工作,同時(shí)從實(shí)證角度證明了新疆少數(shù)民族學(xué)生的漢語(yǔ)學(xué)業(yè)水平呈現(xiàn)出發(fā)展上升的趨勢(shì),為新疆學(xué)業(yè)水平質(zhì)量監(jiān)測(cè)漢語(yǔ)教學(xué)工作提供了可參考的量化指標(biāo)。研究結(jié)論如下:
(1)各年級(jí)之間的“交集”研究組是參加多次學(xué)業(yè)水平漢語(yǔ)測(cè)試的學(xué)生,但其結(jié)果顯示,他們并沒(méi)有體現(xiàn)出更高幅度的學(xué)業(yè)水平增長(zhǎng),這意味著學(xué)生整體水平的高低對(duì)于學(xué)業(yè)水平發(fā)展的影響更為顯著,說(shuō)明“為了考試而考試”的應(yīng)試教育方式并不會(huì)帶來(lái)更好的成績(jī)。學(xué)校應(yīng)致力于提升實(shí)際教學(xué)水平,學(xué)生應(yīng)通過(guò)更為有效的學(xué)習(xí)和應(yīng)用,才能切實(shí)提升漢語(yǔ)水平與漢語(yǔ)考試成績(jī)。
(2)兩個(gè)相鄰年級(jí)間學(xué)生的漢語(yǔ)學(xué)業(yè)水平增長(zhǎng)幅度與其學(xué)業(yè)水平增長(zhǎng)差異性并不呈線性相關(guān),即學(xué)業(yè)水平增長(zhǎng)幅度大,并不意味著增幅低的學(xué)生與增幅高的學(xué)生之間的差距也變得更大。但標(biāo)準(zhǔn)差指標(biāo)中大部分研究組的結(jié)果都小于1,說(shuō)明低水平學(xué)生的漢語(yǔ)學(xué)業(yè)水平發(fā)展幅度多大于高水平學(xué)生的漢語(yǔ)學(xué)業(yè)水平發(fā)展幅度,即兩者的差距在縮小。意味著學(xué)生整體基礎(chǔ)方面,有了較為明顯的提高。
從本研究可以看出,縱向量表化主要以某一特定范圍的學(xué)生總體為研究對(duì)象,而增值性評(píng)價(jià)主要針對(duì)每個(gè)學(xué)生、教師及每所學(xué)校進(jìn)行個(gè)體評(píng)價(jià)研究,兩種研究的結(jié)果相結(jié)合,可以為考生、學(xué)校、教育主管機(jī)構(gòu)等相關(guān)方面提供更具有參考性、更為科學(xué)的量化評(píng)價(jià)指標(biāo)及更為全面的反饋信息,有利于教育行政部門(mén)今后開(kāi)展更加科學(xué)、公正、積極、健康的教育評(píng)價(jià)工作,實(shí)施更具針對(duì)性的教學(xué)指導(dǎo)與規(guī)劃。
[1]Andrews,K.M.The effects of scaling design and scaling method on the primary score scale associated with a multi-level achieve?ment test[C].Unpublished doctoral dissertation,The University of Iowa,Iowa City.1995.
[2]Briggs,D.C.&Weeks,J.P.The Impact of Vertical Scaling Deci?sions on Growth Interpretations[J].Educational Measurement:Is?sues and Practice,2009,28(4),3-14.
[3]Brennan,R.L.Educational measurement(4th edition)[M].ACE/Praeger.2006.
[4]Kolen,M.J and Brennan,R.L.Test Equating,Scaling and Linking:Methods and Practices(Second Edition)[M].New York:Springer-Verlag New York Inc.2004.
[5]Kyoko Ito,Robert C.Sykes,and Lihua Yao.Concurrent and Sepa?rate Grade-Groups Linking Procedures for Vertical Scaling[J].Ap?plied Measurement in Education,2008,21,187-206.
[6]王燁暉,邊玉芳,辛濤.垂直等值的應(yīng)用及最新發(fā)展述評(píng)[J].心理學(xué)探新,2011,31(5):472-476.
[7]葉萌,辛濤.矩陣設(shè)計(jì)的垂直量尺化在大規(guī)模測(cè)驗(yàn)中的應(yīng)用[D].第十屆海峽兩岸心理與教育測(cè)量學(xué)術(shù)研討會(huì)——暨全國(guó)教育與心理測(cè)量學(xué)術(shù)年會(huì)文集,2012:125.
[8]張布和.我國(guó)學(xué)業(yè)成就評(píng)價(jià)改革現(xiàn)狀及對(duì)策[J].中國(guó)教育學(xué)刊,2009(4):50-53.
(責(zé)任編輯 周黎明)
An Empirical Study on Vertical Scaling in Chinese Test the Quality Test of Academic Achievement in Xinjiang
YUAN Shuo and PENG Hengli
As a typical growth model,Vertical Scaling is a method that aims at measuring and evaluating students’academic performance and learning ability.This research qualifies the improvement of Chinese proficiency of Han-Uygur Bilingual students from 4th grade to 6th grade in Xinjiang by collecting sample from the results of Chinese test in the Quality Test of Academic Achievement from 2011 to 2013.Same questions are designed to collect the data.The method of Thurstone and IRT concurrent calibration are adopted to construct the scaled score and achieve the score linking among the chosen three grades.By quantifying the improvement of students’Chinese academic development in the sample,this study provides referable quantitative indicators to assess academic performance.
Vertical Scaling;Thurstone;IRT Concurrent Calibration;Quality Monitoring for Academic Achievement
G405
A
1005-8427(2014)07-0003-7
本文系國(guó)家語(yǔ)委“十二五”科研規(guī)劃重點(diǎn)項(xiàng)目(編號(hào):ZD1125-6)的研究成果之一。
袁 碩,男,國(guó)家圖書(shū)館外文采編部,助理館員(北京 100081)
彭恒利,男,北京語(yǔ)言大學(xué)教育測(cè)量研究所,副研究員(北京 100083)