張笑笑, 單 娜
(1.長春工業(yè)大學 數(shù)學與統(tǒng)計學院, 吉林 長春 130012;2.東北師范大學 心理學院, 吉林 長春 130024)
立德樹人是中國教育的根本任務,而發(fā)展核心素養(yǎng)是進行“立德樹人”這一任務的重要舉措,以核心素養(yǎng)為基礎的教學與測評是中國素質(zhì)教育深化改革面臨的重要問題[1]。 科學素養(yǎng)是學生核心素養(yǎng)的關鍵成分,是培養(yǎng)高素質(zhì)國民和促進社會高質(zhì)量發(fā)展的重要基礎[2]。科學素養(yǎng)的概念隨著時代的發(fā)展而不斷發(fā)生變化,為了對科學素養(yǎng)進行客觀地測量與評價,國際學生評估項目(Programme for International Student Assessment,PISA)在《PISA2015科學框架草案》中指出,科學素養(yǎng)指作為一個有反思意識的公民能夠參與討論與科學有關的問題,提出科學見解的能力,包括三種主要的科學能力:1)科學地解釋現(xiàn)象;2)評價和設計科學探究;3)科學地解釋數(shù)據(jù)和證據(jù)。 PISA是經(jīng)濟合作與發(fā)展組織(簡稱OECD)舉辦的國際大規(guī)模測驗,其測評設計十分嚴謹,對試題編制、測評框架都做了詳細論證和考察,可以保證測評結果的科學性,是當前最主要的國際教育評價項目之一。
近年來,很多學者研究了PISA對學生科學素養(yǎng)的測評問題。劉克文等[3]從PISA2015科學素養(yǎng)測試內(nèi)容及特點進行分析,梳理了科學素養(yǎng)這一概念的發(fā)展,指出PISA2015更加注重科學知識的建立過程和認知上的評價;黃鳴春等[2]對2000-2018年PISA科學素養(yǎng)測評體系設計進行分析,發(fā)現(xiàn)試題整合了知識、能力和情景三方面,在測評方面具有先進性,能夠為參與國教育改革提供參考;李川[4]從PISA2015科學素養(yǎng)測試公開試題的特點進行分析,建議在實際的科學教學中,應該加強學生對科學本質(zhì)的理解。針對PISA數(shù)據(jù)的統(tǒng)計分析,目前采用的研究方法主要包括經(jīng)典測量理論[5]和項目反應理論[6],并且對數(shù)據(jù)中的缺失值沒有進行有效處理。因此,需在PISA科學素養(yǎng)的測評框架下發(fā)展新的數(shù)據(jù)分析方法來實現(xiàn)對科學素養(yǎng)準確而全面的評估。
基于經(jīng)典測量理論和項目反應理論對學生科學素養(yǎng)的評估,主要關心學生宏觀層次的能力水平,而沒有對學生內(nèi)部知識結構和加工技能進行評估,具有相同能力的學生可能具有不同的認知結構和加工技能[7]。為了解學生知識結構和加工技能的掌握狀態(tài),認知診斷模型應運而生。目前,已經(jīng)有100多種認知診斷模型,例如線性Logistic模型、規(guī)則空間模型、融合模型和DINA模型等。其中,DINA模型主要用于0-1評分數(shù)據(jù),因其具有較高的診斷率,模型易于理解以及操作簡單被廣泛使用。例如韓樂艷[8]使用DINA模型對初中物理教學設計和應用進行研究,發(fā)現(xiàn)DINA模型不僅提高了補救教學的針對性,而且提升了學生的學習效率;張煥[9]在高中“氧化還原反應”學習中利用DINA模型進行了診斷分析,從而更好地了解學生的知識掌握狀態(tài),并據(jù)此給出補救性的建議。
因此,本研究使用DINA模型對PISA2015數(shù)據(jù)所反映的中國學生科學素養(yǎng)進行診斷分析,為中國學生科學素養(yǎng)的評估和提升提供參考。
在進行DINA模型介紹時,需要了解以下兩個定義。
1.2.1Q矩陣
學生內(nèi)部的認知屬性是無法觀察到的,Q矩陣描述了測驗題目和認知屬性之間的關系。Q矩陣由I行K列組成,行表示測驗題目,列表示認知屬性,矩陣的元素是0或1。qik表示Q矩陣的第i行第k列元素,qik=1表示題目i考察了屬性k;反之,qik=0。
1.2.2 屬性掌握模式
若考察K個獨立屬性,則有2K種屬性掌握模式。例如3個獨立屬性,即K=3,則共有8種屬性掌握模式,分別記為(000, 100, 010, 001, 110, 101, 011, 111),其中“000”表示3個屬性均未掌握,“100”表示只掌握第1個屬性,其他類似。
令Yni為學生n(n=1,2,…,N)在題目i上的作答反應,其中Yni=1表示學生n正確作答題目i,Yni=0表示學生n錯誤作答題目i。在DINA模型中,屬性掌握狀態(tài)和觀察到的題目之間的關系可以表示為
(1)
式中:P(Yni=1)----學生n在題目i上的正確作答概率;
si----失誤參數(shù);
gi----猜測參數(shù);
αnk----學生n在屬性k上的掌握狀態(tài),αnk=1表示學生n掌握屬性k,αnk=0表示學生n不掌握屬性k;
qik----Q矩陣的元素。
在DINA模型中,由學生的屬性掌握狀態(tài)αk和Q矩陣可以得到一個潛在的反應向量ηni,表示為
(2)
ηni=1表示學生n掌握了正確回答題目i所需的所有屬性,否則,ηni=0。
但在現(xiàn)實情況下,學生作答時可能會遇到兩種情況:
1)由于外界干擾,即使學生掌握了作答題目的所需屬性,也可能因為失誤而答錯題目;
2)盡管學生沒有掌握作答題目所需屬性,仍可能因為猜測而答對題目。
在DINA模型中,題目i的失誤參數(shù)si定義為
si=P(Yni=0|ηni=1),
(3)
表示學生n掌握了題目i所需的屬性而答錯題目i的失誤概率。
題目i的猜測參數(shù)gi定義為
gi=P(Yni=1|ηni=0),
(4)
表示學生n未掌握題目i所有必需屬性而猜對該題的猜測概率。
DINA模型只涉及“失誤”參數(shù)和“猜測”參數(shù),操作簡單,易于理解,在實際應用中十分廣泛。雖然DINA模型可以通過邊際最大似然估計法得到參數(shù)的無偏估計,但是該方法無法解決數(shù)據(jù)中的缺失值問題[10]。文中采用貝葉斯MCMC算法實現(xiàn)對DINA模型的參數(shù)估計,因此可以有效地解決數(shù)據(jù)中的缺失問題[11],并使用R軟件中的R2jags包調(diào)取JAGS軟件來實現(xiàn)貝葉斯MCMC參數(shù)估計[12]。
PISA于2000年開始實施,每三年進行一次,測試對象年齡為15~16歲,必須是接受學校教育的學生,以便了解完成義務教育之后的學生是否具備適應未來生活的能力。測試從三個方面進行,每次測試以閱讀素養(yǎng)、數(shù)學素養(yǎng)和科學素養(yǎng)其中的一個領域為主,實施的第一年以閱讀素養(yǎng)為主,2006年和2015年都以科學素養(yǎng)為主。
PISA2015科學素養(yǎng)示意圖如圖1所示。
圖1 PISA2015科學素養(yǎng)示意圖
《PISA2015技術報告》[13]把科學素養(yǎng)解讀為三種主要的科學能力:
1)科學地解釋現(xiàn)象;
2)評估和設計科學研究;
3)科學地解釋數(shù)據(jù)和證據(jù)。
使用文獻[13]題池分類(2015 field trial and main survey cluster)中S02所包含的18道測試題目中的中國樣本,共有957名學生,將數(shù)據(jù)中“not reached”和“no response”設定為缺失值NA,因為在實際作答時,往往會出現(xiàn)數(shù)據(jù)缺失的情況,如果直接刪除缺失數(shù)據(jù),會導致評估結果不準,而全貝葉斯MCMC算法可以根據(jù)其他參數(shù)的估計值計算出缺失值的后驗分布,這是一種“自動填補”過程,無需做其他設定。此外,在這18道題目中,有一個三級評分題目,即DS498Q04,將它轉化為二級評分數(shù)據(jù),即0→0,1→0,2→1。最終得到學生n=957在i=18個題目上的二級評分數(shù)據(jù)。屬性與題目之間的對應關系(即Q矩陣)見表1。
表1 PISA2015題目的Q矩陣
全體學生各題目得分率見表2。
表2 全體學生各題目得分率 %
首先計算全體學生在每個題目上的得分率,可從整體把握每個題目的作答情況。由表2可以得知學生在題目CS256Q01的得分率為89.8%,表明大部分學生都答對了該題目,DS326Q01、DS326Q02、CS326Q03、CS478Q02、CS478Q03、CS413Q06、CS413Q05、DS498Q04、CS425Q05和CS425Q02的得分率分別為67.3%、72.0%、51.0%、51.8%、70.6%、52.1%、76.8%、65.5%、66.9%和62.4%,表明一半以上學生在這幾個題目上都能答對,CS478Q01、CS413Q04、CS498Q02、CS498Q03和DS425Q03的得分率在40%~50%,表明答對這幾個題目的學生人數(shù)不足一半,CS326Q04和DS425Q04的得分率分別為19.2%和27.4%,表明大部分學生不能正確作答這兩個題目。由此可見,學生在題目CS326Q04和DS425Q04所測試的內(nèi)容上存在困難。
使用DINA模型對PISA2015科學素養(yǎng)數(shù)據(jù)進行擬合的過程如下,使用兩條馬爾可夫鏈,每條鏈包含10 000次迭代,其中預熱5 000次迭代,稀疏值1,最終剩余10 000次迭代用于參數(shù)估計。使用Brooks S P等[14]提出的潛在量尺縮減因子(PSRF)進行參數(shù)估計收斂性判斷,文中所有參數(shù)的PSRF值均小于1.2,表示參數(shù)估計已收斂。模型-數(shù)據(jù)擬合值見表3。
表3 模型-數(shù)據(jù)擬合值
表3中ppp為0.4,說明模型擬合數(shù)據(jù)較好。
后驗預測概率ppp越接近0.5,表明模型擬合數(shù)據(jù)效果越好;ppp<0.05或ppp>0.95,表明模型擬合數(shù)據(jù)效果不好。
使用DINA模型對PISA2015數(shù)據(jù)進行分析后得到的參數(shù)估計值見表4。
表4 測試題目的參數(shù)估計值
一般認為猜測參數(shù)和失誤參數(shù)小于0.4,1-slip-guess>0說明DINA模型的診斷是有效的。從表4可以看出,1-slip-guess均大于0,失誤參數(shù)和猜測參數(shù)大部分都小于0.4,失誤參數(shù)的平均值為0.269,猜測參數(shù)的平均值為0.374,說明DINA模型擬合效果較好。從表中可以看到,CS256Q01和CS413Q05的猜測值分別為0.847和0.655,說明學生在這兩個題目上的猜測參數(shù)過大,學生可能沒有掌握這兩個題目所需的屬性;CS326Q04和DS425Q04的失誤參數(shù)分別為0.675和0.582,學生在這兩個題目上的失誤參數(shù)大,有可能學生掌握了這兩個題目所需的屬性,但是由于受到干擾,導致這種情況產(chǎn)生。
認知診斷可以對學生的屬性掌握狀態(tài)提供詳細的診斷報告,使學生了解自己的薄弱之處, 從而進行有針對性的補救。比如兩個學生281和611的總分相同,都是12分,但他們的屬性掌握模式不同,總分相同的兩個學生的屬性掌握模式見表5。
表5 總分相同兩個學生的屬性掌握模式
由表5可以看出,兩個學生的總分相同,但是他們在每個題目上的作答反應不盡相同。兩個學生的屬性掌握模式也不同,學生281掌握了屬性q2和q3,沒有掌握屬性q1,所以要針對屬性q1進行加強學習;學生611掌握了屬性q1和q2,沒有掌握屬性q3,所以要加強屬性q3的學習。
基于DINA模型分析PISA2015中國學生科學素養(yǎng)數(shù)據(jù),能夠為參與這一測評學生的科學素養(yǎng)狀態(tài)提供詳細的診斷分析,從而可以根據(jù)每一名學生的科學素養(yǎng)掌握情況進行針對性地訓練,為中國學生科學素養(yǎng)的提高和素質(zhì)教育改革提供參考。