[摘要]“證據(jù)推理”能力強(qiáng)調(diào)從已有經(jīng)驗(yàn)、問題情境中識別、轉(zhuǎn)換、形成證據(jù),利用證據(jù)進(jìn)行推理,從而獲得結(jié)論、解決問題的關(guān)鍵能力?;跍y量評價(jià)理論的探討,確立測評工具研制的思路,利用前期研究中確立的“證據(jù)推理”能力的內(nèi)涵結(jié)構(gòu),參考PISA試題,研究設(shè)計(jì)了試測工具。利用效標(biāo)關(guān)聯(lián)設(shè)計(jì)和Rasch分析方法檢驗(yàn)工具的信效度。根據(jù)數(shù)據(jù)結(jié)果對其進(jìn)行修正,最終形成更為科學(xué)、信效度高、實(shí)用性好的“證據(jù)推理”能力測評工具。研究中測評工具的開發(fā)思路和方法,可以為素養(yǎng)、能力測評工作提供一定的借鑒。
[關(guān)鍵詞]“證據(jù)推理”能力;測評工具;Rasch分析;實(shí)證檢驗(yàn)
[中圖分類號]G424.74[文獻(xiàn)標(biāo)識碼]A
[文章編號]1673—1654(2023)05—050—011
基金項(xiàng)目本文系浙江省社科規(guī)劃課題“基于項(xiàng)目式學(xué)習(xí)發(fā)展學(xué)生科學(xué)思維能力的跨學(xué)科實(shí)踐和測評研究”(課題編號:23NDJC133YB)的階段性研究成果之一。
學(xué)科核心素養(yǎng)是不同學(xué)科培養(yǎng)人的指引,是課程目標(biāo),也是評價(jià)依據(jù)。其中,理科課程對推理思維的培養(yǎng)顯示出高度的重視[1],在各科目的課程標(biāo)準(zhǔn)文件中有著不同但明確的表達(dá),如數(shù)學(xué)學(xué)科中的“邏輯推理”、物理學(xué)科中的“科學(xué)思維”、化學(xué)學(xué)科中的“證據(jù)推理”、生物學(xué)科中的“理性思維”等。雖然表達(dá)各異,但對于科學(xué)研究的本質(zhì)過程與思維要求,學(xué)界形成了共識,如“基于事實(shí)證據(jù)和科學(xué)推理對不同觀點(diǎn)和結(jié)論提出質(zhì)疑、批判,進(jìn)而提出創(chuàng)造性見解”[2]是科學(xué)思維的要求,也是科學(xué)素養(yǎng)的體現(xiàn)。本研究關(guān)注的是“基于證據(jù)的推理”能力素養(yǎng),嘗試開發(fā)能夠測評這種構(gòu)念的工具,并利用實(shí)證數(shù)據(jù)進(jìn)行檢驗(yàn)、修正。
在前期研究的基礎(chǔ)上,確立“證據(jù)推理”能力這一構(gòu)念的內(nèi)涵、結(jié)構(gòu);與之相匹配,選擇測評工具的內(nèi)容載體,使每個(gè)項(xiàng)目都有明確的水平要求,每個(gè)水平層次都有多個(gè)項(xiàng)目來測查;結(jié)合專家審議的方式初步構(gòu)建出測評的工具,由此保證其內(nèi)容效度和表面效度。繼而利用實(shí)證校驗(yàn)(empirical validation)的方式對工具進(jìn)行質(zhì)量檢驗(yàn),將試測工具與經(jīng)典的LCTSR(LawsonsClassroomTestofScientific Reasoning)相比較,進(jìn)行效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)?;赗asch測量模型對測試數(shù)據(jù)進(jìn)行質(zhì)量分析;依據(jù)參數(shù)結(jié)果,結(jié)合訪談,進(jìn)行項(xiàng)目的修正、優(yōu)化,最終獲得質(zhì)量檢驗(yàn)合格的測評工具。
一、測評對象的內(nèi)涵結(jié)構(gòu)
測評對象為“證據(jù)推理”能力,首先需要對該構(gòu)念進(jìn)行界定。結(jié)合新課標(biāo)中學(xué)科核心素養(yǎng)的闡釋,及國內(nèi)外文件中對能力素養(yǎng)的表達(dá),將“證據(jù)推理”能力(Evidence-based Reasoning Competence,ERC)定義為:在科學(xué)學(xué)習(xí)中,從已有經(jīng)驗(yàn)、問題情境中識別、轉(zhuǎn)換、形成證據(jù),利用證據(jù)進(jìn)行推理,從而獲得結(jié)論、解決問題的能力表現(xiàn)[3]。識別、篩選證據(jù),轉(zhuǎn)換、形成證據(jù),應(yīng)用、評價(jià)證據(jù)等過程是科學(xué)探究和科學(xué)實(shí)踐的重要環(huán)節(jié),是科學(xué)工作者展開科學(xué)研究、得到科學(xué)發(fā)現(xiàn)的基本過程。關(guān)注于“基于證據(jù)的推理”能力,也即“證據(jù)推理”能力,對科學(xué)學(xué)習(xí)和教學(xué)具有重要意義。
基于理論探討和德爾菲調(diào)查法,整合“證據(jù)”和“推理”兩方面的復(fù)雜性,逐步構(gòu)建形成了可操作的、多水平遞進(jìn)的“證據(jù)推理”能力框架(Framework of Evidencebased Reasoning Competence,F(xiàn)ERC)[4]。最終的框架確立了6個(gè)水平,在每一級推理復(fù)雜性水平之下各有兩個(gè)子水平(a與b),在證據(jù)復(fù)雜性上交叉體現(xiàn),如表1所示??蚣芊从沉藢W(xué)生“證據(jù)推理”能力的不同水平表現(xiàn),即測評對象的內(nèi)涵結(jié)構(gòu)。
在此框架中,證據(jù)的復(fù)雜性(CE)從三個(gè)方面去刻畫,涉及證據(jù)的顯現(xiàn)程度(以E表示顯性,I表示隱性)、情境熟悉度(以F表示熟悉,U表示陌生),以及所需證據(jù)的數(shù)量(S表示單一證據(jù),M表示多重證據(jù));推理的復(fù)雜性(CR)劃分為三個(gè)層級,初級水平、過渡水平和高級水平。例如,當(dāng)學(xué)生解答問題時(shí),遭遇一個(gè)陌生情境(U),線索不明(I),而且所需利用的證據(jù)較多(M),在這種復(fù)雜性表征的組合情況下(MIU),其解決問題的困難程度自然最高;若學(xué)生遇到的是熟悉的情境(F),僅需單一證據(jù)(S),而且顯而易見(E),這種證據(jù)復(fù)雜性(SEF)對思維的要求最低。
二、測評工具的設(shè)計(jì)
依據(jù)測評工具開發(fā)的理論基礎(chǔ),按照研制思路,參照測量構(gòu)念的水平框架,進(jìn)行測評工具的設(shè)計(jì)。
(一)項(xiàng)目編制的原則
測量是以被試對工具項(xiàng)目的作答反應(yīng)區(qū)分被試的能力水平,工具項(xiàng)目的難度表征需從主客體兩方面考慮[5]。被試群體是根據(jù)測量理論或?qū)嶋H情況挑選出的樣本,而項(xiàng)目本身的復(fù)雜程度則是在工具研制過程中必須設(shè)計(jì)、考慮的。從項(xiàng)目或工具客體的影響來看,項(xiàng)目的新穎性、邏輯結(jié)構(gòu)[6]、情境設(shè)置、任務(wù)要求等問題本身的屬性影響著項(xiàng)目的難度,其本質(zhì)是關(guān)系復(fù)雜性(relational complexity)的作用[7]。
本研究所關(guān)注的是學(xué)生在科學(xué)領(lǐng)域的能力表現(xiàn),因此內(nèi)容涉及科學(xué)學(xué)習(xí)、科學(xué)知識方面,這是項(xiàng)目設(shè)計(jì)可供選擇的情境來源和內(nèi)容依托?!白C據(jù)推理”能力的測查項(xiàng)目應(yīng)注重情境的創(chuàng)設(shè),在解決問題的過程中,從項(xiàng)目的情境中挖掘“證據(jù)”,在頭腦中進(jìn)行轉(zhuǎn)換,運(yùn)用推理思維去作答。根據(jù)水平框架(表1),證據(jù)所依托的內(nèi)容載體應(yīng)從顯性/隱性、熟悉/陌生等多個(gè)方面去設(shè)計(jì)。
例如,大型的國際測評項(xiàng)目PISA就是以“能力”測評為核心目標(biāo),以“情境”為主要載體,依據(jù)包含“能力”“知識”和“態(tài)度”的科學(xué)框架,開發(fā)了科學(xué)能力測評工具[8]。一般不要求學(xué)過有關(guān)的知識,只需根據(jù)題目情境、文字說明(提供信息)、圖表(如條形圖)等,加以分析、轉(zhuǎn)換,提取出有價(jià)值的“證據(jù)”,結(jié)合題目前面所提供的信息(類似于科學(xué)常識、道理)建立出正確的關(guān)系(運(yùn)用推理思維),這樣才能正確解答問題[9]。題目的呈現(xiàn)形式和情境要求增加了解答的難度,主要涉及可能不熟悉的情境,甚至非常陌生,是被試解決問題的障礙之一;題目中的圖像解讀,需要被試從中提取“證據(jù)”,建立簡單的數(shù)學(xué)關(guān)系或因果關(guān)系等,做出推斷。此外,與PISA一樣,還需設(shè)計(jì)詳細(xì)的評分標(biāo)準(zhǔn)和編碼,尤其是對于非選擇題(如建構(gòu)反應(yīng)題)。
基于以上分析,項(xiàng)目設(shè)計(jì)主要遵循了以下原則:①項(xiàng)目中盡量不涉及具體的學(xué)科知識要求;②以不同的情境為載體;③以多種形式表現(xiàn)證據(jù)及其復(fù)雜性,如圖表、文字等混合呈現(xiàn);④能力要求依據(jù)框架而來,水平層次具體而清晰;⑤避免冗長多余的表述增加閱讀負(fù)擔(dān)等。據(jù)此,結(jié)合專家小組審議的建議保證基本的表面效度,開發(fā)了適于測查學(xué)生“證據(jù)推理”能力的工具。
(二)項(xiàng)目對應(yīng)與評分
參考PISA 2006的科學(xué)樣題①,初步編制的測評工具共有25個(gè)項(xiàng)目,包含12個(gè)單項(xiàng)選擇題(P01,P02,P06,P07,P08,P10,P11,P14,P15,P18,P19,P23);13個(gè)建構(gòu)反應(yīng)題,其中8個(gè)1分題(P03,P04,P05,P09,P16,P17,P20,P25),5個(gè)2分題(P12,P13,P21,P22,P24),滿分為30分。工具項(xiàng)目的情境豐富,涉及科學(xué)的多個(gè)領(lǐng)域,涉及的證據(jù)來源于生活現(xiàn)象、實(shí)驗(yàn)現(xiàn)象、科學(xué)常識、科學(xué)史料、數(shù)據(jù)資料等。
在項(xiàng)目設(shè)計(jì)的過程中,需要從顯現(xiàn)度、情境熟悉度和所需證據(jù)數(shù)量三個(gè)方面考慮每道題所呈現(xiàn)的“證據(jù)”,確保每道題都有一個(gè)水平歸屬,不至于出現(xiàn)某水平上沒有可測的項(xiàng)目,或者某項(xiàng)目的水平不明的情況。試測項(xiàng)目與框架水平的對應(yīng)情況如表2所示。
例如項(xiàng)目P01,是一道選擇題,正確答案是D。題目涉及的情境是齲齒問題,被試很熟悉,而且解題所需的證據(jù)可以直接從題干中獲得,利用簡單的信息即可推理得到“細(xì)菌產(chǎn)生酸性物質(zhì)”,能力水平要求低。而項(xiàng)目P12要求通過實(shí)驗(yàn)情境(以圖示和文字說明)推導(dǎo)出壓強(qiáng)(或壓力)的影響因素,解題的證據(jù)并不復(fù)雜,但需要從圖中對比、轉(zhuǎn)換才能獲?。╝與b相比增加了重量或質(zhì)量),比較隱性,而且相比于齲齒、沙灘或雪地上的行走,被試并不熟悉利用小凳子和海綿做實(shí)驗(yàn)的這種特定情境,下一步做出正確推理,回答出影響因素并不難。項(xiàng)目P12是建構(gòu)反應(yīng)題,獲得滿分(2分)還需要正確、完整地回答出因素與結(jié)果之間的關(guān)系,可參考評分標(biāo)準(zhǔn)示例。
項(xiàng)目示例(P01):
生活在我們口腔中的細(xì)菌會導(dǎo)致齲齒(牙齒蛀蝕)。對于齲齒,我們查找到以下信息:
·導(dǎo)致齲齒的細(xì)菌以糖為食物;
·糖能轉(zhuǎn)化成酸性物質(zhì);
·酸性物質(zhì)會破壞牙齒表面;
·刷牙對預(yù)防齲齒有幫助。
(1)(1分)為什么細(xì)菌會造成齲齒?()(P01)
A細(xì)菌產(chǎn)生琺瑯質(zhì)B細(xì)菌產(chǎn)生糖
C細(xì)菌產(chǎn)生礦物質(zhì)D細(xì)菌產(chǎn)生酸性物質(zhì)
項(xiàng)目示例(P12):
人在沙灘或雪地上行走,會在沙灘或雪地上留下腳印,即壓力會使物體的表面產(chǎn)生凹陷的效果。為探究影響壓力效果的相關(guān)因素,開展實(shí)驗(yàn)(如下圖所示),通過比較海綿凹陷的程度,得出結(jié)論。
(1)(2分)對比a與b,你能發(fā)現(xiàn)影響壓力效果的因素之一是什么?并請用一兩句話描述這個(gè)結(jié)論。(P12)
評分標(biāo)準(zhǔn)示例(P12):
以下回答計(jì)2分:正確回答了因素,并且正確描述或?qū)Ρ攘爽F(xiàn)象及壓力大小的作用效果。
·可能的回答:因素是重物(壓力)的大?。ǘ嗌伲?;受力面相同時(shí)(或描述出圖a與b都是凳子腳作用于海綿),壓力越大(或說明加上重物),壓力的作用效果越明顯。
以下回答計(jì)1分:正確回答了因素;但僅描述或?qū)Ρ攘爽F(xiàn)象,未描述作用效果與壓力大小這個(gè)變量之間的關(guān)系。
·可能的回答:因素是重物(壓力)的大?。ǘ嗌伲?;圖a壓得淺,圖b壓得深。
以下回答計(jì)0分:因素回答錯(cuò)誤(即使現(xiàn)象對比的描述正確,也計(jì)為完全錯(cuò)誤);或因素與現(xiàn)象對比均錯(cuò)誤;或僅作答一部分且錯(cuò)誤。
·可能的回答:因素是接觸面;重物大,作用效果明顯。
未填答記-3(缺失值)
在統(tǒng)計(jì)編碼時(shí),將沒有作答的記為缺失值(編碼為-3),而非賦0分;得分即編碼數(shù)字;選擇題回答正確則編碼為1,錯(cuò)誤為0,未作答的缺失情況同樣編碼為-3;卷面最低得分為0,最高分為30分。
三、測評工具的檢驗(yàn)
除了利用專家審議的方法保證工具的內(nèi)容效度、表面效度之外,還應(yīng)運(yùn)用試測收集實(shí)證數(shù)據(jù)的方式進(jìn)行質(zhì)量分析。本研究進(jìn)行了試測,使用效標(biāo)關(guān)聯(lián)的方法及Rasch測量模型進(jìn)行數(shù)據(jù)分析。
(一)試測概述
在正式的試測之前,挑選部分樣本進(jìn)行了小范圍測試,以檢視ERC工具施測時(shí)可能發(fā)生的情況,如測試時(shí)長、學(xué)生閱讀題項(xiàng)所遇到的問題等。之后挑選樣本進(jìn)行試測,基本流程和數(shù)據(jù)處理方式概述如下。
1.測試實(shí)施的流程
以效標(biāo)關(guān)聯(lián)效度(criterion validity)為指標(biāo)檢驗(yàn)“證據(jù)推理”能力(ERC)測評工具的實(shí)用效度(pragmatic validity)。許多研究采用LCTSR[10-11]進(jìn)行推理能力的評價(jià)和分析,其內(nèi)容效度已然得到證實(shí)[12-13],因此可以將LCTSR作為一個(gè)基準(zhǔn),來檢視另一個(gè)測量工具,以二者的相關(guān)性來說明新的測量工具是否具有效標(biāo)效度。
試測包含兩次測試。首先利用LCTSR對被試樣本進(jìn)行測試,回收測試數(shù)據(jù);在一周后,對同一批樣本進(jìn)行“證據(jù)推理”能力的測試。在兩次測試過程中,由班主任或任課教師主試,向?qū)W生簡要說明測試的基本情況,強(qiáng)調(diào)根據(jù)題目信息進(jìn)行作答(兩次測試的卷首位置均提供了說明),測試時(shí)間均為30分鐘。
2.試測的樣本選擇
兩次測試的樣本來自S市的兩所初級中學(xué)(YC與YL),包含八、九兩個(gè)年級,這兩所中學(xué)的基本情況類似,教學(xué)質(zhì)量位于區(qū)內(nèi)中等水平,數(shù)據(jù)分析時(shí),并不比較學(xué)校差異,將樣本混合進(jìn)行整體考查。
發(fā)放的測試卷共有627份,其中YC中學(xué)248人,八年級154人,九年級94人;YL中學(xué)379人,八年級186人,九年級193人。剔除未作答的答卷(缺失處理),前后兩次測試的有效樣本率均達(dá)到95%以上。被試的基本情況如表3所示,參加LCTSR測試的有效樣本數(shù)為N=582,ERC測試的有效樣本共有593人,兩個(gè)測試均是男生略多于女生,8年級略多于9年級。
3.數(shù)據(jù)的處理方式
施測之后,評閱所收集的問卷,評閱人為課程與教學(xué)論專業(yè)的博士生1名、碩士生1名,評閱之前對其進(jìn)行培訓(xùn)和指導(dǎo),嚴(yán)格按照評分標(biāo)準(zhǔn)進(jìn)行。對于建構(gòu)反應(yīng)題,評判不一致時(shí)需互相商議,仍無法達(dá)成一致則交由專家組決斷。
以LCTSR測試的結(jié)果為標(biāo)桿,與同樣本下的ERC測試結(jié)果相比對,計(jì)算相關(guān)系數(shù)表征后一工具的效度。然后,運(yùn)用Rasch測量模型對本輪試測結(jié)果進(jìn)行具體分析,以期對ERC測評工具進(jìn)行質(zhì)量檢驗(yàn),更為重要的是獲得工具修正的依據(jù)。
(二)試測結(jié)果
按照第二輪試測的流程,利用SPSS 22.0對測試的數(shù)據(jù)進(jìn)行描述分析和校標(biāo)效度檢驗(yàn),利用WINSTEPS 3.72.0進(jìn)行Rasch分析。
1.描述統(tǒng)計(jì)與效標(biāo)效度
信度系數(shù)為Cronbachsα=0.809(N=593),表明ERC測評工具的內(nèi)部一致性信度良好,可以認(rèn)為25個(gè)項(xiàng)目所測查的是同一種構(gòu)念[14]。
將ERC與LCTSR測試進(jìn)行匹配,共計(jì)552名被試作答了兩次測試,二者得分的相關(guān)系數(shù)為0.527(Pearson積差相關(guān)),統(tǒng)計(jì)顯著(p = 0.000,N=552),即顯著的中度相關(guān),說明用于試測的ERC測評工具具有較好的實(shí)用效度。
總的來說,SPSS分析獲得的信效度系數(shù)反映試測工具的質(zhì)量良好。對于“證據(jù)推理”能力這一構(gòu)念,它與科學(xué)推理能力既有共性,又有區(qū)別。與測量科學(xué)推理能力的LCTSR工具有顯著的相關(guān)性即可印證二者的共同之處,說明試測工具能夠?qū)W(xué)生的“推理能力”構(gòu)念進(jìn)行測評;而本研究的ERC測評又不只如此,其研究的問題或?qū)ο笫菍W(xué)生在科學(xué)學(xué)習(xí)領(lǐng)域,基于“證據(jù)”進(jìn)行“推理”的能力。
2.Rasch分析的結(jié)果
參考WINSTEPS使用手冊及Rasch模型應(yīng)用的實(shí)證研究[15],對試測數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析,參照比對使用手冊中的參數(shù)指標(biāo)進(jìn)行評價(jià)。
(1)總體質(zhì)量分析
將所有的觀測值數(shù)據(jù)(N=627)導(dǎo)入WINSTEPS中進(jìn)行運(yùn)算,軟件自動(dòng)識別出缺失(missing)或缺少作答(lacking responses)的觀測值34個(gè),即共計(jì)593個(gè)被試(person)的回答視為有效(valid responses),所有25個(gè)項(xiàng)目(item)均被估算,結(jié)果如表4所示。在Rasch模型中,將項(xiàng)目的難度估計(jì)值(Measure)固定為0,此時(shí)被試的Measure即反映了被試的平均能力水平,就本研究而言,即被試的ERC水平為0.35(Rasch分),略高于項(xiàng)目難度值,差距并不大,說明該工具項(xiàng)目合適于該輪試測樣本的ERC測評。
結(jié)合表中的其他參數(shù)可以說明工具的總體質(zhì)量,這些參數(shù)均有其可以接受的取值范圍。模型誤差(Model Error)反映了實(shí)際觀測值與理論模型值之間的差異,被試和項(xiàng)目的誤差值均較小,接近于0,說明利用工具收集的觀測值(observation)能夠較為準(zhǔn)確地反映真實(shí)情況,即學(xué)生的ERC;Infit與Outfit反映的是觀測數(shù)據(jù)與模型之間的擬合度,分別包含MNSQ與ZSTD兩個(gè)值,對本研究的被試和項(xiàng)目而言,其MNSQ趨近于1,ZSTD趨近于0,皆十分理想(perfect),說明ERC測評工具的觀測值與Rasch理論的理想模型適配良好;分離度(Separation)參數(shù)表示工具項(xiàng)目區(qū)分被試能力的程度,值越大說明區(qū)分得越好,從表中可以看到,項(xiàng)目的分離度大(9.98),被試的分離度接近于2(1.92),在可以接受(acceptable)的范圍[16-17];信度(Reliability)系數(shù)說明的是觀測結(jié)果的一致性、穩(wěn)定性,信度愈高表示測量誤差值愈低,進(jìn)行某個(gè)構(gòu)念的測評時(shí),希望所獲得的觀測值不會因形式或時(shí)間的改變而有所變動(dòng),試測工具的項(xiàng)目難度測量信度值(0.99)趨近于1,被試能力測量的信度(0.79)低于項(xiàng)目信度,但仍屬于信度良好的范圍內(nèi)。
基于Rasch模型假設(shè),以上參數(shù)結(jié)果說明ERC試測工具的總體質(zhì)量特征良好。但在被試分離度上略有欠缺,而且有可能存在其他未能反映的問題,還需進(jìn)行深入細(xì)致的檢驗(yàn)和分析。
(2)單維性的分析
滿足單維性(unidimensionality)是“好測量”(good measurement)的特征之一,將試測后的觀測值進(jìn)行多維度檢查(multidimensionality investigations),得到標(biāo)準(zhǔn)化殘差分析的有關(guān)數(shù)據(jù)(表5)。
Rasch測量模型是利用基于標(biāo)準(zhǔn)的主成分分析(PCA,principle components analysis)(正交不旋轉(zhuǎn))對原始分(raw score)進(jìn)行檢驗(yàn)。在以上標(biāo)準(zhǔn)化殘差表中,無法解釋的原始總方差(Raw unexplained variance)下的“對比”(contrast)最為關(guān)鍵,它反映了按照主成分分析能否分解出某成分(component)或因素(factor)不能由Rasch測量解釋,但這些成分或因素又需要被解釋。當(dāng)?shù)谝粋€(gè)成分的殘差大于2時(shí),則需要進(jìn)一步審視項(xiàng)目的觀測值,找到是什么原因產(chǎn)生了這個(gè)“脫離”維度(off-dimensional)的成分。單維性即檢測是否有可能的“威脅”存在,存在非Rasch模型才能解釋那些“無法解釋”(unexplained)的部分,而這正是表中的“對比”(contrasts)所報(bào)告的內(nèi)容。
就本研究的試測工具而言,第1個(gè)成分的殘差為1.8<2,滿足單維性要求,說明工具項(xiàng)目經(jīng)Rasch模型檢驗(yàn),即使是“無法解釋”的部分也未發(fā)現(xiàn)威脅Rasch測量的因素,可以認(rèn)為觀測值都能夠由Rasch測量下的項(xiàng)目難度、被試能力及評定結(jié)構(gòu)等進(jìn)行解釋。根據(jù)表中的數(shù)據(jù),測量所能解釋的原始方差(Raw variance explained by measures)占原始分?jǐn)?shù)總體方差(Total raw variance in observations)的31.6%,不算很高,但是因?yàn)椴淮嬖诘?個(gè)維度,則數(shù)據(jù)在統(tǒng)計(jì)意義上仍是可控的,方差解釋率良好,可以不必修正工具或樣本[18]。
按照對數(shù)尺度(logarithmically scaled),以表中方差值的百分比為縱坐標(biāo),呈現(xiàn)出各成分方差的碎石圖(圖1)。圖中字母T、U、M、P、I代表的是不同方差;數(shù)字1~5則表示分解的可能成分(components),它們所占百分比皆在3%~4%,由圖可以清晰地比對出各自的差異不大,再次印證了試測工具的項(xiàng)目僅測量了一個(gè)ERC構(gòu)念。
為探查測評工具中更加細(xì)節(jié)的問題,提供工具完善的線索和方向,對25個(gè)項(xiàng)目進(jìn)行了具體的分析。圖2所示的標(biāo)準(zhǔn)殘差對比圖(Standardized Residual Contrast Plot)直觀呈現(xiàn)了所有項(xiàng)目的載荷系數(shù)(loading)與項(xiàng)目難度估計(jì)值(item measure)的關(guān)系。圖中的字母表示的是不同的項(xiàng)目,此處共有25個(gè),當(dāng)縱坐標(biāo)的數(shù)值超過[-0.4,0.4]區(qū)間范圍時(shí),即不滿足單維性檢驗(yàn)。
由圖2可知,項(xiàng)目A(P12)、B(P13)與C(P21)超出規(guī)定的參數(shù)范圍,需要在工具優(yōu)化的過程中重新審視,仔細(xì)考慮是否存在其他因素影響這些項(xiàng)目對于ERC的測查。
(3)項(xiàng)目作答分析
對于工具所有項(xiàng)目的作答情況,可以進(jìn)行細(xì)致對比分析,例如對于選擇題,某些選項(xiàng)如無人選擇,則需重新考慮選項(xiàng)的設(shè)置。而本輪試測中,所有選擇題(共12個(gè)單項(xiàng)選擇的項(xiàng)目)的選項(xiàng)均有被試作答。
建構(gòu)反應(yīng)評分題,包括012計(jì)分題(5個(gè))及01計(jì)分題(8個(gè))。如圖3所示,以012計(jì)分題的作答概率曲線為例,橫坐標(biāo)表示的是被試能力與項(xiàng)目難度估計(jì)值之間的差值(Person [MINUS] Item MEASURE),縱坐標(biāo)表示對被試作答評分(0,1,2)的概率。在臨界值(threshold)位置,被試獲得兩種分?jǐn)?shù)的概率相等,即曲線交叉處的縱坐標(biāo)相等。圖示的3條曲線界限明顯,能至少涵蓋[-3,3]的能力區(qū)間,并在恰當(dāng)?shù)哪芰c(diǎn)有峰值,如能力最高的被試獲得最高分(3分)的幾率最大,或者說能力最高的被試才最有可能獲得最高分。根據(jù)項(xiàng)目的作答曲線,本輪試測工具在各評分等級之間區(qū)分度較好,能夠合理說明不同能力學(xué)生的得分幾率的大小,符合Rasch模型的基本理論假設(shè)。
此外,基于Rasch模型對觀測項(xiàng)目的分布及擬合情況進(jìn)行分析,結(jié)果發(fā)現(xiàn),除了少數(shù)項(xiàng)目需要再修正,工具能夠基本涵蓋被試樣本的能力水平,與模型擬合較好,對于ERC這一構(gòu)念的考查和估計(jì)是“有效的”。至此,通過LCTSR測試及ERC試測,對測評工具進(jìn)行了質(zhì)量分析,數(shù)據(jù)結(jié)果表明,該工具的信效度良好,滿足Rasch理論模型的假設(shè),但仍有一些項(xiàng)目需要修正、完善。
四、測評工具的修正
基于Rasch模型對ERC測評工具進(jìn)行質(zhì)量分析的過程中,不僅獲得了工具質(zhì)量的參數(shù),也發(fā)現(xiàn)了存在問題的項(xiàng)目。在項(xiàng)目修正過程中,主要依據(jù)量化的數(shù)據(jù)結(jié)果,同時(shí)還調(diào)查了答題者的實(shí)際感受,由此更加全面地考慮如何改進(jìn)工具的項(xiàng)目??傮w來看,試測工具的項(xiàng)目修正主要涉及剔除質(zhì)量較差的項(xiàng)目,修改計(jì)分題的評分標(biāo)準(zhǔn),或者改變題型和試題表述等方面。
在數(shù)據(jù)支持和訪談分析相結(jié)合的基礎(chǔ)上,我們修正了其他單維性不良、水平不一致、擬合指數(shù)不好的項(xiàng)目。我們也重新梳理了各項(xiàng)目的表述、措辭,某些項(xiàng)目的復(fù)雜性編碼、能力水平的歸屬等。而且在細(xì)節(jié)的修改上,質(zhì)性的訪談方法更為有效。例如,項(xiàng)目P14預(yù)設(shè)的證據(jù)復(fù)雜性編碼為MEF,即需要多重的、顯性化證據(jù),題目情境是面包制作過程中的發(fā)酵這類生活現(xiàn)象,屬于熟悉的情境。但經(jīng)訪談發(fā)現(xiàn),學(xué)生并不熟悉面團(tuán)發(fā)酵,訪談對象表示“聽說過這個(gè)詞,不過不懂”“猜測應(yīng)該是有氣體產(chǎn)生”等??梢?,該項(xiàng)目的情境熟悉度并不符合預(yù)設(shè),其證據(jù)復(fù)雜性編碼應(yīng)為MEU。定量的數(shù)據(jù)結(jié)果與質(zhì)性分析的合理結(jié)合有助于挖掘數(shù)據(jù)表層之下的意義,這些修正、調(diào)整對準(zhǔn)確、深入分析學(xué)生的能力表現(xiàn)很有必要。
經(jīng)過檢驗(yàn)和優(yōu)化,最終形成的ERC工具包含23個(gè)項(xiàng)目,滿分25分,與框架水平的對應(yīng)情況如表6所示。
五、結(jié)語
本研究從測量理論的闡釋出發(fā),擇定以IRT為指導(dǎo),采用紙筆測驗(yàn),以Rasch模型為數(shù)據(jù)檢驗(yàn)的方法,確立了ERC測評工具研制的思路,并依此進(jìn)行具體的描述和討論。結(jié)合專家審議,依據(jù)“證據(jù)推理”能力的內(nèi)涵結(jié)構(gòu),以盡量少的學(xué)科內(nèi)容要求和情境創(chuàng)設(shè)為準(zhǔn)則,參考PISA試題,編制了試測工具。其后利用實(shí)證方法檢驗(yàn)工具的信效度,此處包含效標(biāo)關(guān)聯(lián)效度的設(shè)計(jì),以及Rasch分析方法的應(yīng)用,以求更加科學(xué)全面地實(shí)施工具檢驗(yàn)。
在效標(biāo)關(guān)聯(lián)效度的驗(yàn)證及Rasch模型的數(shù)據(jù)檢驗(yàn)之下,得到了工具質(zhì)量良好的結(jié)論,同時(shí)也獲得了工具修正的線索和啟發(fā);針對試測工具中值得重新審視的項(xiàng)目,從評分標(biāo)準(zhǔn)、題型、情境表達(dá)等方面予以改進(jìn),甚至剔除,以求獲得更為科學(xué)的、信效度優(yōu)秀的、實(shí)用性好的測評工具。
研究采用的測評工具開發(fā)思路和方法,可以為素養(yǎng)、能力測評工作提供一定的借鑒和啟發(fā)。本研究所開發(fā)的工具不依托于某特定學(xué)科,以求單純考查學(xué)生的關(guān)鍵能力,因此能適用于物理、化學(xué)等多個(gè)科學(xué)學(xué)科,在實(shí)際教學(xué)評實(shí)踐中,也可根據(jù)需要進(jìn)行適當(dāng)改編。但工具的應(yīng)用、推廣,也需要更大樣本的測量調(diào)查。而且,測量過程中所挑選的樣本,所應(yīng)用的統(tǒng)計(jì)方法對工具質(zhì)量及樣本表現(xiàn)的分析等都有影響,對各種質(zhì)量參數(shù)的結(jié)果也需謹(jǐn)慎采納,有必要結(jié)合深入的質(zhì)性分析技術(shù),實(shí)現(xiàn)進(jìn)一步的優(yōu)化。
參考文獻(xiàn):
[1]核心素養(yǎng)研究課題組.中國學(xué)生發(fā)展核心素養(yǎng)[J].中國教育學(xué)刊,2016,(10):1-3.
[2]教育部.普通高中物理課程標(biāo)準(zhǔn)[M/S].北京:人民教育出版社,2017:4-5.
[3]羅瑪.從科學(xué)推理到證據(jù)推理:內(nèi)涵的探討[J].化學(xué)教學(xué),2019,(09):3-6.
[4]羅瑪.“證據(jù)推理”能力的水平框架構(gòu)建——基于德爾菲調(diào)查[J].化學(xué)教學(xué),2021,(03):13-18.
[5]羅瑪,王祖浩.教育考試中試題難度的測評研究——影響因素、評估方法及啟示[J].教育測量與評價(jià),2016,(9):52-57.
[6] Fynewever H. A Research Methodology for Studying What Makes Some Problems Difficult to Solve [J]. International Journal of Science Education,2010,32(16):2167-2184.
[7]辛自強(qiáng).關(guān)系-表征復(fù)雜性模型的檢驗(yàn)[J].心理學(xué)報(bào),2003,35(4):504-513.
[8] OECD. Measuring Student Knowledge and Skills:The PISA 2000 Assessment of Reading,Mathematical and Scientific Literacy. Education and Skills [Z]. Sourceoecd Education & Skills,2000.
[9] OECD.Cresswell J,Vayssettes S.Assessing Scientific,Reading and Mathematical Literacy:A Framework for PISA 2006 [Z]. 2006.
[10] Lawson A E.The Development and Validation of A Classroom Test of Formal Reasoning [J]. Journal of Research in Science Teaching, 1978,15(1):11-24.
[11] Lawson A E. The Generality of Hypothetico-deductive Reasoning:Making Scientific Thinking Explicit [J]. American Biology Teacher,2000,62(7):482-495.
[12] Bao L,Cai T,et al. Learning and Scientific Reasoning [J]. Science,2009,323(5914):227-237.
[13] Lee C Q,She H C.Facilitating StudentsConceptual Change and Scientific Reasoning Involving the Unit of Combustion [J].Research in Science Education,2010,40(4):479-504.
[14]榮泰生.AMOS與研究方法[M].重慶:重慶大學(xué)出版社,2010:81-83.
[15] Sondergeld T A,Johnson C C.Using Rasch Measurement for the Development and Use of Affective Assessments in Science Education Research [J]. Science Education,2014,98(4):581-613.
[16] Lamar M M.Using and Developing Measurement Instruments in Science Education:A Rasch Modeling Approach [J]. Science Education,2012,96(1):183–185.
[17] Mok M M,Cheong C Y,Moore P J,et al.The Development and Validation of the Self-directed Learning Scales(SLS)[J]. Journal of Applied Measurement,2006,7(4):418-449.
[18] Linacre J. M. A Users Guide to WINSTEPS / MINISTEP:Rasch-model Computer Programs [M]. Chicago,IL:WINSTEPs. com,2011:333-337.
The Development and Validation of the Measurement Instrument of the Evidence-based Reasoning Competency
Luo Ma
College of Teacher Education,Ningbo University. Ningbo,Zhejiang,315211
Abstract:Thecompetencyof“Evidence-basedReasoning”(EBR)emphasizedtheidentification,transformation and formation of scientific evidence,using evidence to reason and reach a conclusion,leading to the problem-solving. This study begun with the discussion of the theory on measurement and evaluation in order to identify the process of instrument development.Based on the structure of the construct of EBR competency,according to our previous study,and the PISA instrument,this study designed an instrument for pilot test.It used the criterion-related examination and Rasch analysis to test the reliability and validity of the instrument after the pilot test.According to the data results,the modification of the instrument was conducted to obtain the valid and reliable,practical and scientific instrument for EBR competency measurement.And the development process and method applied in this study would provide some reference and inspiration for ability assessment and measurement.
Key words:Evidence-based Reasoning(EBR)Competency,Measurement Instrument,Rasch Analysis,Empirical Examination
①PISA 2006科學(xué)的樣題,來源鏈接為https://www.docin.com/p-53392617.html。