詹沛達(dá) 于照輝 李菲茗 王立君
?
一種基于多階認(rèn)知診斷模型測(cè)評(píng)科學(xué)素養(yǎng)的方法
詹沛達(dá) 于照輝 李菲茗 王立君
(浙江師范大學(xué)教師教育學(xué)院, 金華 321004)
科學(xué)素養(yǎng)是指作為一名有反思意識(shí)的公民所具有的解決科學(xué)問(wèn)題和運(yùn)用科學(xué)理念的能力。為實(shí)現(xiàn)在認(rèn)知診斷中對(duì)科學(xué)素養(yǎng)的測(cè)評(píng), 本文基于PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架首次提出科學(xué)素養(yǎng)包含的三階潛在結(jié)構(gòu), 使用新提出的多階認(rèn)知診斷模型對(duì)PISA 2015科學(xué)測(cè)評(píng)數(shù)據(jù)進(jìn)行分析, 并通過(guò)模擬研究探究新模型的心理測(cè)量學(xué)性能。結(jié)果表明:(1)新模型能夠較好地分析包含三階潛在結(jié)構(gòu)的科學(xué)素養(yǎng); (2)科學(xué)知識(shí)對(duì)科學(xué)素養(yǎng)的影響最大, 科學(xué)背景次之, 科學(xué)能力的影響最小; (3)全貝葉斯MCMC算法能夠?yàn)樾履P吞峁┹^精準(zhǔn)的參數(shù)估計(jì)。
科學(xué)素養(yǎng); 認(rèn)知診斷; PISA; DINA模型
“科學(xué)技術(shù)推動(dòng)了生產(chǎn)力的發(fā)展、經(jīng)濟(jì)的繁榮和社會(huì)的進(jìn)步, 促進(jìn)了人們的生產(chǎn)方式、生活方式和思維方式的變革??茖W(xué)技術(shù)的快速發(fā)展對(duì)每一位公民的科學(xué)素養(yǎng)提出了新的要求” (中華人民共和國(guó)教育部, 2017)。實(shí)際上, 關(guān)于如何提高個(gè)體或公民的科學(xué)素養(yǎng)是一個(gè)交叉學(xué)科問(wèn)題, 它一直以來(lái)都是科學(xué)教育、教育心理學(xué)和學(xué)習(xí)科學(xué)等學(xué)科領(lǐng)域的學(xué)者們共同關(guān)注的重難點(diǎn)??茖W(xué)素養(yǎng)是一個(gè)不斷發(fā)展的概念, 它的內(nèi)涵和界定方式會(huì)隨時(shí)代發(fā)展而發(fā)生改變(see Miller, 1983; OECD, 2006)。2017年, 《義務(wù)教育小學(xué)科學(xué)課程標(biāo)準(zhǔn)》將“科學(xué)素養(yǎng)”定義為“了解必要的科學(xué)技術(shù)知識(shí)及其對(duì)社會(huì)與個(gè)人的影響, 知道基本的科學(xué)方法, 認(rèn)知科學(xué)本質(zhì), 樹立科學(xué)思想, 崇尚科學(xué)精神, 并具備一定的運(yùn)用它們處理實(shí)際問(wèn)題、參與公共事務(wù)的能力”, 從本質(zhì)上講, 該定義就是說(shuō)“科學(xué)素養(yǎng)是指作為一名有反思意識(shí)的公民所具有的解決科學(xué)問(wèn)題和運(yùn)用科學(xué)理念的能力” (OECD, 2016)。
為實(shí)現(xiàn)對(duì)科學(xué)素養(yǎng)的客觀測(cè)評(píng), 國(guó)際學(xué)生評(píng)估項(xiàng)目(Programme for International Student Assessment, PISA)在2015年把科學(xué)素養(yǎng)的內(nèi)涵劃分為科學(xué)能力(Competencies)、科學(xué)知識(shí)(Knowledge)、科學(xué)背景(Contexts)和科學(xué)態(tài)度(Attitudes)四個(gè)相互關(guān)聯(lián)的維度, 并給出了相應(yīng)的測(cè)評(píng)或評(píng)估框架, 見圖1。這就要求學(xué)生在一定的科學(xué)背景中, 根據(jù)自己的科學(xué)態(tài)度, 運(yùn)用科學(xué)知識(shí)來(lái)解決科學(xué)問(wèn)題, 從而展現(xiàn)出自己的科學(xué)能力(劉克文, 李川, 2015)。PISA 2015測(cè)評(píng)框架是在PISA 2006科學(xué)測(cè)評(píng)框架(OECD, 2006)的基礎(chǔ)上修訂而來(lái)的, 其發(fā)展主要體現(xiàn)在對(duì)科學(xué)知識(shí)維度的更詳細(xì)劃分。科學(xué)測(cè)評(píng)框架的逐步完善, 是在實(shí)踐基礎(chǔ)上不斷重新認(rèn)識(shí)科學(xué)素養(yǎng)的結(jié)果。可以說(shuō), PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架是目前最新最具可操作性的科學(xué)素養(yǎng)測(cè)評(píng)框架。
除具有可操作性的測(cè)評(píng)框架外, 一個(gè)適宜測(cè)評(píng)方法也同樣重要。適宜的測(cè)評(píng)方法應(yīng)能夠匹配測(cè)評(píng)框架, 并能夠?qū)崿F(xiàn)對(duì)科學(xué)素養(yǎng)客觀且準(zhǔn)確的評(píng)價(jià)。然而, 目前國(guó)內(nèi)外已有研究絕大多數(shù)只是對(duì)公民或中小學(xué)學(xué)生科學(xué)素養(yǎng)的問(wèn)卷調(diào)查(e.g., Roos, 2014; 高宏斌, 2011; 秦浩正, 錢源偉, 2008), 這僅是對(duì)科學(xué)素養(yǎng)整體現(xiàn)狀的大致了解。而且這些調(diào)查多采用自我報(bào)告法, 主觀性較強(qiáng), 存在一定的社會(huì)贊許性。僅有少許研究關(guān)注到了對(duì)科學(xué)素養(yǎng)的測(cè)評(píng)(e.g., 胡詠梅, 楊素紅, 盧珂, 2012)。除研究方法有待改進(jìn)外, 目前絕大多數(shù)研究所使用的測(cè)評(píng)/數(shù)據(jù)分析方法和理論也較為落后, 仍以經(jīng)典測(cè)量理論為主(e.g., Roos, 2014; 任磊, 張超, 何薇, 2013), 僅有個(gè)別研究使用到了題目作答理論(item response theory, IRT)模型(e.g., 胡詠梅等, 2012)。另外, 需要強(qiáng)調(diào)的是盡管PISA為科學(xué)素養(yǎng)建構(gòu)了多維結(jié)構(gòu), 但數(shù)據(jù)分析時(shí)仍使用了單維IRT模型(OECD, 2017)。即PISA現(xiàn)有的測(cè)評(píng)方法并不匹配測(cè)評(píng)框架, 其主要原因之一是因?yàn)镻ISA更關(guān)注的是國(guó)家/經(jīng)濟(jì)體的整體現(xiàn)狀而非個(gè)體參與者, 所以對(duì)個(gè)體使用一個(gè)籠統(tǒng)的單維潛在特質(zhì)可以簡(jiǎn)化整體研究的復(fù)雜性。而當(dāng)把個(gè)體視為測(cè)評(píng)主體時(shí), 就需要更復(fù)雜的測(cè)評(píng)方法(e.g., Zhan, Jiao, & Liao, 2018)。綜上所述, 為在PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架下實(shí)現(xiàn)對(duì)科學(xué)素養(yǎng)客觀且準(zhǔn)確的測(cè)評(píng), 需要嘗試從新的視角切入, 使用或開發(fā)更適宜的測(cè)評(píng)方法。
圖1 PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架(來(lái)源:OECD (2016)第23頁(yè)圖2.2).
近些年, 隨著認(rèn)知心理學(xué)的發(fā)展, 研究者們逐漸發(fā)現(xiàn)被試在完成某項(xiàng)任務(wù)時(shí)常需要多種能力的相互配合, 因此, 早期心理測(cè)量模型中的單維性假設(shè)并不符合實(shí)際(Reckase, 2009; Wang & Chen, 2004; 康春花, 辛濤, 2010; 詹沛達(dá), 王文中, 王立君, 2013)。另外, 除了簡(jiǎn)單的總分外, 人們也希望能從被試的實(shí)際作答情況中獲得更豐富的信息, 以便對(duì)被試做出更客觀的評(píng)價(jià)和補(bǔ)救?;诖? 認(rèn)知診斷測(cè)評(píng)(cognitive diagnostic assessment, CDA)在近一二十年內(nèi)受到了國(guó)內(nèi)外學(xué)者的更多關(guān)注(Rupp, Templin, & Henson, 2010; 涂冬波, 蔡艷, 丁樹良, 2012)。CDA是指在心理與教育測(cè)量學(xué)中對(duì)個(gè)體認(rèn)知過(guò)程、加工技能或知識(shí)結(jié)構(gòu)(統(tǒng)稱為屬性)的診斷性測(cè)評(píng)。作為一種將形成性評(píng)價(jià)和終結(jié)性評(píng)價(jià)相結(jié)合的綜合評(píng)價(jià)形式(詹沛達(dá), 陳平, 邊玉芳, 2016), CDA的初衷是通過(guò)測(cè)評(píng)個(gè)體對(duì)屬性的掌握狀態(tài)為教師或干預(yù)者提供診斷反饋報(bào)告, 進(jìn)而幫助他們實(shí)施補(bǔ)救教學(xué)或有針對(duì)性的干預(yù)(Zhan et al., 2018)。CDA改變了以往評(píng)價(jià)方法重結(jié)果、輕過(guò)程的弊端, 符合當(dāng)前我國(guó)一些教育政策導(dǎo)向。比如:《基礎(chǔ)教育課程改革綱要(試行)》中“改變課程評(píng)價(jià)過(guò)分強(qiáng)調(diào)甄別與選拔的功能, 發(fā)揮評(píng)價(jià)促進(jìn)學(xué)生發(fā)展、教師提高和改進(jìn)教學(xué)實(shí)踐的功能”的具體目標(biāo)。因此, 如何在CDA中實(shí)現(xiàn)對(duì)科學(xué)素養(yǎng)的測(cè)評(píng)是一個(gè)兼具理論意義和實(shí)踐意義的議題。
下文中, 我們首先將對(duì)PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架做進(jìn)一步解讀, 明確該框架所包含的三階潛在結(jié)構(gòu); 其次, 對(duì)現(xiàn)有的高階認(rèn)知診斷模型(higher- order cognitive diagnosis model; HO-CDM)進(jìn)行介紹并闡明其局限性; 然后, 提出一種新的多階認(rèn)知診斷模型(multi-order CDM; MO-CDM), 以期在CDA中滿足對(duì)三階或更高階潛在特質(zhì)的分析需求, 并匹配PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架, 實(shí)現(xiàn)對(duì)科學(xué)素養(yǎng)的準(zhǔn)確測(cè)評(píng)。再然后, 我們以PISA 2015科學(xué)測(cè)評(píng)數(shù)據(jù)分析為例來(lái)說(shuō)明新模型的現(xiàn)實(shí)可應(yīng)用性, 并對(duì)數(shù)據(jù)分析結(jié)果進(jìn)行解讀。最后, 通過(guò)一個(gè)模擬研究來(lái)探究新模型的參數(shù)估計(jì)返真性。
PISA 2015認(rèn)為科學(xué)素養(yǎng)的核心是科學(xué)能力, 而科學(xué)能力的展現(xiàn)需要在特定的科學(xué)背景下輔以足夠的科學(xué)知識(shí), 并受到科學(xué)態(tài)度的影響。這4個(gè)維度相輔相成, 共同組成了科學(xué)素養(yǎng), 即科學(xué)素養(yǎng)是科學(xué)能力、科學(xué)知識(shí)、科學(xué)背景和科學(xué)態(tài)度的高階/高位概念, 個(gè)體科學(xué)素養(yǎng)的高低決定了他在這4個(gè)維度方面的表現(xiàn)情況。進(jìn)一步, 根據(jù)《PISA 2015測(cè)評(píng)與分析框架》(OECD, 2016):
(1) 科學(xué)能力又被細(xì)分為3種子能力, 分別是科學(xué)地解釋現(xiàn)象、評(píng)估和設(shè)計(jì)科學(xué)探究和科學(xué)地解釋數(shù)據(jù)和證據(jù)。即科學(xué)能力是3這子能力的高階概念, 個(gè)體科學(xué)能力的高低決定了其3項(xiàng)子能力的高低;
(2) 科學(xué)知識(shí)又被細(xì)分為3種子知識(shí), 分別是內(nèi)容性知識(shí)、程序性知識(shí)和認(rèn)知性知識(shí)。即科學(xué)知識(shí)是這3種子知識(shí)的高階概念, 個(gè)體對(duì)科學(xué)知識(shí)的掌握程度決定了其對(duì)3種子知識(shí)的掌握程度;
(3) 科學(xué)背景又被細(xì)分為3種子背景, 分別是個(gè)人的、當(dāng)?shù)?國(guó)家的和全球的。即科學(xué)背景是這3個(gè)子背景的高階概念, 個(gè)體對(duì)科學(xué)背景的熟悉程度影響著其對(duì)3種子背景的熟悉程度;
(4) 科學(xué)態(tài)度又被細(xì)分為3種子態(tài)度, 分別是對(duì)科學(xué)的興趣、評(píng)估科學(xué)探究方法的價(jià)值和環(huán)境意識(shí)。即科學(xué)態(tài)度是這3種子態(tài)度的高階概念, 個(gè)體的科學(xué)態(tài)度影響其3種子態(tài)度。
綜上所述, 基于PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架, 科學(xué)素養(yǎng)包含三階潛在結(jié)構(gòu), 如圖2所示。其中, 第三階潛在特質(zhì)為科學(xué)素養(yǎng), 是PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架中的最高階概念; 第二階潛在特質(zhì)包括:科學(xué)能力、科學(xué)知識(shí)、科學(xué)背景和科學(xué)態(tài)度, 是該測(cè)評(píng)框架中的4個(gè)主要概念; 而第一階潛在特質(zhì)為科學(xué)地解釋現(xiàn)象、評(píng)估和設(shè)計(jì)科學(xué)探究等12項(xiàng), 是該測(cè)評(píng)框架中的低階概念。
為在CDA中實(shí)現(xiàn)對(duì)科學(xué)素養(yǎng)的測(cè)評(píng), 需要一種能夠分析科學(xué)素養(yǎng)三階潛在結(jié)構(gòu)的CDM。鑒于目前尚未有CDM能夠處理三階潛在結(jié)構(gòu), 這就需要我們建構(gòu)新的模型, 以期滿足測(cè)評(píng)需求。
在心理學(xué)和教育學(xué)中, 潛在特質(zhì)除了可能存在多維性外, 還可能進(jìn)一步存在層階關(guān)系, 這被稱為高階(層階)潛在特質(zhì), 比如, 圖2所示的科學(xué)素養(yǎng)所包含的三階潛在結(jié)構(gòu); 再比如, 韋氏成人智力量表中也測(cè)量了三階潛在特質(zhì):第一階中包含了13個(gè)子測(cè)驗(yàn)并分別測(cè)量了一種潛在特質(zhì), 在第二階中這13種潛質(zhì)就被歸為4種外延更廣的潛在特質(zhì)(言語(yǔ)能力、知覺推理、工作記憶和信息加工速度), 而在第三階中這4種潛在特質(zhì)又包含在一般智力之中(Ryan & Schnakenberg-Ott, 2003)。
高階潛在特質(zhì)的概念是建構(gòu)在多維潛在特質(zhì)概念之上的, 用于描述多個(gè)潛在特質(zhì)之間可能存在的結(jié)構(gòu)關(guān)系?;诖? 研究者們開發(fā)了兩類不同的高階心理測(cè)量模型(陳飛鵬, 詹沛達(dá), 王立君, 陳春曉, 蔡毛, 2015):基于多維IRT模型建構(gòu)的高階IRT模型(de la Torre & Song, 2009; Huang, Wang, Chen, & Su, 2013; Rijmen, Jeon, von Davier, & Rabe- Hesketh, 2014)和基于CDM建構(gòu)的高階認(rèn)知診斷模型(HO-CDM) (de la Torre & Douglas, 2004; Templin, Henson, Templin, & Roussos, 2008; Zhan, Wang, & Li, in press), 本文聚焦于后者。
在CDA中, 鑒于被試對(duì)屬性的掌握可能受到一個(gè)(或多個(gè))更高階的潛在特質(zhì)的影響且為減少參數(shù)估計(jì)的數(shù)量, de la Torre和Douglas(2004)提出了高階潛在結(jié)構(gòu)模型
圖2 PISA 2015科學(xué)素養(yǎng)所包含的三階潛在結(jié)構(gòu)
圖3 CDA中二階潛在特質(zhì)與屬性間的關(guān)系示例圖
注:θ為第二階潛在特質(zhì); α為(第一階)屬性;為總屬性數(shù)量;為總題目數(shù)量
3.2.1 多階潛在結(jié)構(gòu)模型(MO-LSM)
基于條件獨(dú)立性假設(shè), MO-LSM假設(shè)當(dāng)給定更高一階的潛在特質(zhì)時(shí), 各低階潛在特質(zhì)之間相互獨(dú)立。需要說(shuō)明的是, 盡管式(3)在理論上能夠處理多階的潛在特質(zhì), 但考慮到現(xiàn)實(shí)測(cè)驗(yàn)情境中出現(xiàn)四階潛在特質(zhì)的可能性已經(jīng)較小, 且為匹配PISA 2015科學(xué)素養(yǎng)所包含的三階潛在結(jié)構(gòu), 本研究聚焦于僅包含1個(gè)第三階潛在特質(zhì)的三階潛在結(jié)構(gòu)模型, 如圖4, 該模型可被描述為:
圖4 CDA中第三階潛在特質(zhì)與屬性間的關(guān)系示例圖.
注:θ為第三階潛在特質(zhì); θ為第二階潛在特質(zhì); α為(第一階)屬性;為總屬性數(shù)量;為總題目數(shù)量。
3.2.2 MO-DINA模型
通常, CDM由兩部分組成:測(cè)量模型和潛在結(jié)構(gòu)模型(Rupp et al., 2010), 前者定義了被試作答題目的正確概率, 后者描述了屬性之間的結(jié)構(gòu)關(guān)系。在3.2.1中, 我們已經(jīng)定義了MO-LSM, 為提高參數(shù)估計(jì)的精度和效率, 我們選用引入題目?jī)?nèi)特征依賴性的貝葉斯DINA模型(Zhan, Jiao, Liao, & Bian, 2018)作為測(cè)量模型, 模型詳述見附錄。
本研究采用全貝葉斯馬爾可夫鏈蒙特卡洛(MCMC)算法來(lái)實(shí)現(xiàn)對(duì)MO-DINA模型的參數(shù)估計(jì), 并基于JAGS軟件(Version 4.3.0)實(shí)現(xiàn)。各待估計(jì)參數(shù)的先驗(yàn)分布詳見附錄, 相應(yīng)的JAGS代碼也可向作者索取。關(guān)于如何使用JAGS實(shí)現(xiàn)對(duì)貝葉斯CDM的參數(shù)估計(jì), 可參閱Zhan、Jiao、Man和Wang (in press)。
通過(guò)對(duì)PISA 2015科學(xué)測(cè)評(píng)數(shù)據(jù)的分析, 呈現(xiàn)出MO-DINA模型的現(xiàn)實(shí)需求和可應(yīng)用性?;谏衔闹袑?duì)科學(xué)素養(yǎng)所包含的三階潛在結(jié)構(gòu)劃分, 在針對(duì)科學(xué)素養(yǎng)的測(cè)評(píng)中, 我們想測(cè)評(píng)被試在所有第一階、第二階和第三階潛在特質(zhì)(屬性)上的表現(xiàn)情況。因此, 本研究欲回答兩個(gè)問(wèn)題:(1) MO-DINA模型是否適用于測(cè)評(píng)含三階潛在結(jié)構(gòu)的科學(xué)素養(yǎng)?如果可以, 那么(2)科學(xué)素養(yǎng)的子維度中哪個(gè)對(duì)它的影響最大?即在PISA 2015中, 科學(xué)素養(yǎng)的核心維度是哪個(gè)?
4.2.1 多階潛在特質(zhì)設(shè)定
根據(jù)本文第2節(jié)的內(nèi)容, PISA 2015科學(xué)素養(yǎng)包含了三階潛在結(jié)構(gòu), 各階潛在特質(zhì)的名稱及它們之間的結(jié)構(gòu)關(guān)系見圖2。在數(shù)據(jù)分析時(shí), 我們依據(jù)MO-DINA模型將模型參數(shù)與多階潛在特質(zhì)進(jìn)行匹配,第三階潛在特質(zhì):θ→科學(xué)素養(yǎng); 第二階潛在特質(zhì):θ→科學(xué)能力, θ→科學(xué)知識(shí), θ→科學(xué)背景; 第一階潛在屬性:A1→科學(xué)地解釋現(xiàn)象, A2→評(píng)估和設(shè)計(jì)科學(xué)探究, A3→科學(xué)地解釋數(shù)據(jù)和證據(jù), A4→內(nèi)容性知識(shí), A5→過(guò)程性知識(shí), A6→認(rèn)知性知識(shí), A7→個(gè)人背景, A8→地區(qū)/國(guó)家背景, A9→全球背景。需要說(shuō)明的是, 在第二階潛在特質(zhì)中, 因?yàn)榭茖W(xué)態(tài)度是通過(guò)學(xué)生問(wèn)卷來(lái)獲取的, 并不包含在認(rèn)知題目數(shù)據(jù)中, 所以本研究暫不涉及。
4.2.2 被試與題目
根據(jù)《PISA 2015技術(shù)報(bào)告》(OECD, 2017)的“附錄A:題池的分類(Item Pool Classification)”, 數(shù)據(jù)清理過(guò)程如下:(1)選用“2015 field trial and main survey cluster”中S01所包含的18道題目, 共47548人; (2)選用中國(guó)(QCH)樣本, 共1079人; (3)將數(shù)據(jù)中“not reached”和“no response”等設(shè)定為缺失值NA; (4)刪除在18題中全部缺失作答的3名被試, 剩余1076人; (5)將剩余所有缺失值視為完全隨機(jī)缺失。全貝葉斯MCMC算法可以根據(jù)其他參數(shù)的估計(jì)值計(jì)算出缺失值的后驗(yàn)分布, 這是一種“自動(dòng)填補(bǔ)”的過(guò)程, 無(wú)需做其他設(shè)定。另外, DS519Q01原為三級(jí)評(píng)分題目(i.e.,Y∈{0, 1, 2}), 限于MO-DINA模型暫只能處理二級(jí)評(píng)分題目, 我們將該題目分?jǐn)?shù)二級(jí)化:0→0, 1→0, 2→1。最終, 清理后的數(shù)據(jù)包含= 1076人在= 18題上的二級(jí)評(píng)分?jǐn)?shù)據(jù)。屬性與題目之間的對(duì)應(yīng)關(guān)系(i.e., Q矩陣)見表1。
表1 PISA 2015科學(xué)測(cè)驗(yàn)部分題目的Q矩陣
注:空白為“0”; 選用“2015 field trial and main survey cluster” = S01的題目。
三模型均使用兩條馬爾可夫鏈(隨機(jī)起點(diǎn)), 每條鏈包含10, 000次迭代, 其中預(yù)熱5, 000次迭代, 稀疏值1。最終剩余10, 000次迭代用于參數(shù)估計(jì)。使用潛在量尺縮減因子(PSRF) (Brooks & Gelman, 1998)進(jìn)行參數(shù)估計(jì)收斂檢驗(yàn), 本研究中所有參數(shù)的PSRF均小于1.2, 表示參數(shù)估計(jì)已收斂。
本研究使用AIC、BIC和DIC作為模型?數(shù)據(jù)相對(duì)擬合指標(biāo), 指標(biāo)值越小的模型表明該模型與數(shù)據(jù)的擬合相對(duì)更好。另外, 本研究使用后驗(yàn)預(yù)測(cè)模型檢驗(yàn)(posterior predictive model checking, PPMC)來(lái)評(píng)估模擬?數(shù)據(jù)絕對(duì)擬合指標(biāo), 其中后驗(yàn)預(yù)測(cè)概率(), 接近0.5則表明模型與數(shù)據(jù)擬合, 小于0.05或大于0.95則表示該模型不擬合該數(shù)據(jù)。
表2呈現(xiàn)了3個(gè)模型的各項(xiàng)模型?數(shù)據(jù)擬合指標(biāo)值。首先, 根據(jù)值, 3個(gè)模型均擬合該數(shù)據(jù)。其次, 4個(gè)相對(duì)擬合指標(biāo)都判斷DINA模型的相對(duì)擬合最差, 說(shuō)明針對(duì)該數(shù)據(jù)應(yīng)考慮高階潛在結(jié)構(gòu)。然后, 在4個(gè)相對(duì)擬合指標(biāo)中, –2LL和AIC均判斷MO-DINA模型的相對(duì)擬合更好, 而BIC和DIC則判斷HO-DINA模型的相對(duì)擬合更好, 這是由BIC和DIC對(duì)模型復(fù)雜性的懲罰相對(duì)更高導(dǎo)致的。另外, 由于HO-DINA模型是MO-DINA模型的特例(i.e., 約束γ= 1), 似然函數(shù)比檢驗(yàn)(Δ–2LL = 13,= 3,< 0.05)認(rèn)為兩模型差異顯著, 應(yīng)選擇MO-DINA模型。最后, 再結(jié)合本研究的研究目的和問(wèn)題, 我們綜合認(rèn)為MO-DINA模型更適宜于本研究。下文將基于MO-DINA模型的分析結(jié)果進(jìn)行解讀。
表2 PISA 2015科學(xué)測(cè)驗(yàn)部分題目數(shù)據(jù)的模型?數(shù)據(jù)擬合指標(biāo)值.
表3 PISA 2015科學(xué)測(cè)驗(yàn)部分題目的參數(shù)估計(jì)值.
注:95% CI = 95%貝葉斯可信區(qū)間;g= 猜測(cè)參數(shù),s= 失誤參數(shù);IDI= 題目區(qū)分度.
表4 PISA 2015科學(xué)測(cè)驗(yàn)部分題目的題目均值向量和方差協(xié)方差矩陣估計(jì)值.
表3呈現(xiàn)了題目參數(shù)的估計(jì)值。整體看這18道題的質(zhì)量一般, 有個(gè)別題目的猜測(cè)參數(shù)或失誤參數(shù)達(dá)到了0.8左右。這點(diǎn)根據(jù)題目區(qū)分度(IDI= 1 –s–g) (de la Torre, 2008)也能夠發(fā)現(xiàn), 部分題目的區(qū)分度已經(jīng)低于0.2。這其中可能原因是(1)測(cè)驗(yàn)Q矩陣不完備(K?hn & Chiu, 2017); (2)題目涉及了Q矩陣以外的其他屬性。另外, 表4呈現(xiàn)了logit轉(zhuǎn)換后的題目參數(shù)的均值向量和方差協(xié)方差矩陣, 可以看到兩類題目參數(shù)之間呈高程度負(fù)相關(guān), 這符合Zhan等人(2018)的觀點(diǎn)。
就高階潛在特質(zhì)的估計(jì)值而言, 首先, 1個(gè)第三階潛在特質(zhì)和3個(gè)第二階潛在特質(zhì)的估計(jì)值整體分布形態(tài)基本一致, 這是因?yàn)樗鼈冎g的相關(guān)性較高(3個(gè)回歸系數(shù)分別為:0.847 (= 0.094)、0.973 (= 0.025)和0.927 (= 0.057), 因此, 它們之間相關(guān)系數(shù)約為0.8)。需要說(shuō)明的是, 特質(zhì)之間在統(tǒng)計(jì)上有高相關(guān)并不一定代表它們是同一個(gè)特質(zhì)。比如, 盡管身高和體重之間呈高相關(guān), 但兩者絕非同一種特質(zhì)。因此, 當(dāng)特質(zhì)之間存在高相關(guān)時(shí), 能否用一個(gè)籠統(tǒng)的高階特質(zhì)來(lái)囊括它們是需要做進(jìn)一步理論判定的?;赑ISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架, 我們認(rèn)為這3個(gè)第二階潛在特質(zhì)在定義和內(nèi)涵上都是不一樣的, 不應(yīng)將它們視為同一特質(zhì)。另外, 我們還使用HO-DINA模型和單維兩參數(shù)Logistic模型(Birnbaum, 1968)分析了該批數(shù)據(jù), 發(fā)現(xiàn)MO-DINA模型中的第三階潛在特質(zhì)估計(jì)值與HO-DINA模型的高階潛在特質(zhì)估計(jì)值的相關(guān)系數(shù)為0.996, 且與單維兩參數(shù)Logistic模型的潛在特質(zhì)估計(jì)值的相關(guān)系數(shù)為0.936, 表明三者對(duì)“科學(xué)素養(yǎng)”的估計(jì)值具有高相關(guān)性, 同時(shí)也表明MO-DINA模型可提供更多的分析結(jié)果信息。
圖5呈現(xiàn)了高階潛在結(jié)構(gòu)參數(shù)的估計(jì)值, 包括第三階與第二階潛在特質(zhì)之間的回歸系數(shù)和第二階潛在特質(zhì)與屬性之間的屬性區(qū)分度參數(shù)。首先, 3個(gè)回歸系數(shù)均接近于1, 說(shuō)明PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架中把科學(xué)能力、科學(xué)知識(shí)和科學(xué)背景作為科學(xué)素養(yǎng)的主要組成部分的做法是合理的。其次, 根據(jù)這3個(gè)回歸系數(shù)的大小可知:對(duì)科學(xué)素養(yǎng)而言, 科學(xué)知識(shí)的影響最大, 科學(xué)背景的影響次之, 科學(xué)能力的影響最小。然后, 根據(jù)屬性區(qū)分度的大小可發(fā)現(xiàn), (1)科學(xué)地解釋現(xiàn)象對(duì)科學(xué)能力的影響最大; (2)過(guò)程性知識(shí)對(duì)科學(xué)知識(shí)的影響最大; (3)地區(qū)/國(guó)家背景對(duì)科學(xué)背景的影響最大。
表5呈現(xiàn)了個(gè)別被試的診斷結(jié)果示例。使用MO-DINA模型進(jìn)行分析時(shí), 除了能夠得到9個(gè)屬性的診斷分類結(jié)果外, 還能夠得到被試在多階潛在特質(zhì)上的估計(jì)值。以2號(hào)和23號(hào)被試為例, 盡管兩者在屬性模式上完全一樣, 但他們?cè)诙嚯A潛在特質(zhì)上的表現(xiàn)還是有所差異的, 說(shuō)明它們對(duì)屬性的掌握概率存在差異。
總體而言, 根據(jù)對(duì)PISA 2015科學(xué)測(cè)驗(yàn)數(shù)據(jù)的分析結(jié)果, 可以說(shuō)MO-DINA模型滿足本文的分析需求, 在匹配PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架的基礎(chǔ)上, 實(shí)現(xiàn)了對(duì)科學(xué)素養(yǎng)的客觀測(cè)評(píng)。
在探討完MO-DINA模型的現(xiàn)實(shí)可應(yīng)用性后, 我們通過(guò)一個(gè)簡(jiǎn)單的模擬研究來(lái)探討它的參數(shù)估計(jì)返真性。模擬研究中的部分設(shè)定參考上文的實(shí)證數(shù)據(jù)分析結(jié)果, 使用圖7中的三階潛在結(jié)構(gòu), 即第三階潛在特質(zhì)1個(gè), 第二階潛在特質(zhì)3個(gè), 屬性= 9個(gè); 題目數(shù)量設(shè)定為= 30, Q矩陣設(shè)定見圖6; 題目參數(shù)按如下方法生成:(logit(g), logit(s))’ = (β, δ)’ ~(μ, Σ), 其中μ= μ= –2.197, Σ = [1, –0.6; –0.6, 1]; 屬性截距向量λ= (–1, 0, 1, –1, 0, 1, –1, 0,1), 所有屬性區(qū)分度均設(shè)定為λ1= 1.5, 即假設(shè)屬性之間為中等程度相關(guān); 被試量設(shè)定為= 1, 000, 第三階潛在特質(zhì)從標(biāo)準(zhǔn)正態(tài)分布中生成, 第三階與第二階潛在特質(zhì)之間的3個(gè)載荷均設(shè)定為γ= 0.8, 即假設(shè)各二階潛在特質(zhì)之間相關(guān)系數(shù)為0.64。模擬研究中, 迭代次數(shù)、預(yù)熱次數(shù)等與實(shí)證研究中的保持一致, 本研究中所有參數(shù)的PSRF均小于1.2, 表示參數(shù)估計(jì)已收斂。另外, 使用偏差(Bias)、均方根誤差(RMSE)和皮爾遜相關(guān)系數(shù)(Cor)來(lái)探究連續(xù)變量(e.g., 題目參數(shù), 潛在特質(zhì))的返真性。使用屬性正確判準(zhǔn)率(ACCR)和屬性模式正確判準(zhǔn)率(PCCR)來(lái)探究屬性的返真性。
圖5 PISA 2015科學(xué)測(cè)驗(yàn)中潛在結(jié)構(gòu)參數(shù)估計(jì)值(基于MO-DINA模型).
注:括號(hào)內(nèi)為95%貝葉斯可信區(qū)間.
表5 PISA 2015科學(xué)測(cè)驗(yàn)部分題目數(shù)據(jù)的診斷結(jié)果示例(基于MO-DINA模型).
注:括號(hào)內(nèi)為95%貝葉斯可信區(qū)間.
圖6 模擬研究中的K × I的Q’ 矩陣. 灰色表示“1”, 白色表示“0”.
圖7 模擬研究中題目參數(shù)的返真性.
注: bias = 偏差; RMSE = 均方根誤差.
圖7呈現(xiàn)了題目參數(shù)返真性。就Bias而言, 絕大多數(shù)題目的參數(shù)Bias小于0.01, 猜測(cè)參數(shù)和失誤參數(shù)的Bias的平均絕對(duì)值分是0.002和0.004。就RMSE而言, 所有題目參數(shù)的RMSE均小于0.05, 猜測(cè)參數(shù)和失誤參數(shù)的RMSE的均值分別是0.018和0.026。還可發(fā)現(xiàn), 猜測(cè)參數(shù)的RMSE隨著題目測(cè)查的屬性數(shù)量的增加而下降, 而失誤參數(shù)的RMSE隨著題目測(cè)查的屬性數(shù)量的增加而增加, 這與以往一些研究的結(jié)論是一致的(e.g., de la Torre, 2009; Zhan, Jiao, Liao, et al., 2018)。此外, 猜測(cè)參數(shù)和失誤參數(shù)的Cor分別是0.981和0.964, 即題目參數(shù)的估計(jì)值與真值之間呈高相關(guān)。整體而言, MO-DINA模型的題目越參數(shù)返真性較好。
圖8呈現(xiàn)了屬性參數(shù)的ACCR。9個(gè)屬性的ACCR均高于0.900, 表明單個(gè)屬性的參數(shù)估計(jì)返真性很好。另外, PCCR為0.512, 考慮到屬性數(shù)量為9, 即有512種可能的屬性模式需要被估計(jì), 根據(jù)已有研究經(jīng)驗(yàn), 該判準(zhǔn)率符合預(yù)期。
圖8 模擬研究中屬性參數(shù)的屬性正確判準(zhǔn)率(ACCR).
表6呈現(xiàn)了高階潛在特質(zhì)參數(shù)的返真性。首先, 4個(gè)高階潛在特質(zhì)的返真性類似, 1, 000名被試的bias的平均絕對(duì)值約為0.1, RMSE的均值約為0.69, Cor均高于0.7。參考以往關(guān)于HO-DINA模型的研究結(jié)果(e.g., de la Torre & Douglas, 2004; de la Torre, 2009; Zhan et al., 2018), 整體而言, 高階潛在特質(zhì)參數(shù)的返真性良好, 滿足實(shí)際應(yīng)用需求。
表6 模擬研究中高階潛在特質(zhì)參數(shù)的返真性.
注:bias = 偏差; RMSE = 均方根誤差; Cor = 皮爾遜相關(guān)系數(shù).
表7 模擬研究中潛在結(jié)構(gòu)參數(shù)的返真性
注:bias = 偏差; RMSE = 均方根誤差; Cor = 皮爾遜相關(guān)系數(shù); λ0= 屬性難度參數(shù), λ1= 屬性區(qū)分度參數(shù), γ, γ, γ= 第三階與第二階潛在特質(zhì)之間的回歸系數(shù).
表7呈現(xiàn)了高階潛在結(jié)構(gòu)參數(shù)的返真性。首先, 對(duì)于屬性難度參數(shù)的返真性優(yōu)于屬性區(qū)分度參數(shù)的返真性, 與以往關(guān)于HO-DINA模型的研究結(jié)論一致。其次, 第三階潛在特質(zhì)與3個(gè)第二階潛在特質(zhì)之間回歸系數(shù)的返真性也較好, RMSE均小于0.08。整體而言, 潛在結(jié)構(gòu)參數(shù)的返真性較好。
為實(shí)現(xiàn)對(duì)科學(xué)素養(yǎng)的客觀且準(zhǔn)確的測(cè)評(píng), 本文首先根據(jù)PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架, 提出了科學(xué)素養(yǎng)所包含的三階潛在結(jié)構(gòu)。然后, 鑒于當(dāng)前尚未有CDM能夠處理包含三階潛在結(jié)構(gòu)的數(shù)據(jù), 我們提出了多階認(rèn)知診斷建模思路, 并以DINA模型為例, 建構(gòu)了多階DINA (MO-DINA)模型。新模型采用全貝葉斯MCMC算法實(shí)現(xiàn)參數(shù)估計(jì)。新模型與PISA 2015科學(xué)素養(yǎng)測(cè)評(píng)框架相匹配, 滿足對(duì)科學(xué)素養(yǎng)的客觀且準(zhǔn)確測(cè)評(píng)的需求。之后, 本文以PISA 2015科學(xué)測(cè)驗(yàn)數(shù)據(jù)分析為例來(lái)說(shuō)明新模型的現(xiàn)實(shí)需求和可應(yīng)用性。最后, 通過(guò)一個(gè)模擬研究來(lái)探究新模型的參數(shù)估計(jì)返真性。實(shí)證研究結(jié)果表明當(dāng)測(cè)驗(yàn)數(shù)據(jù)結(jié)構(gòu)存在多階潛在結(jié)構(gòu)或者數(shù)據(jù)分析者需要了解被試在多階潛在特質(zhì)方面的表現(xiàn)時(shí), 可考慮使用MO-DINA模型。模擬研究結(jié)果表明本文提出的全貝葉斯MCMC算法能夠?yàn)镸O-DINA模型提供較好的參數(shù)估計(jì)返真性。
本文中, 盡管MO-DINA模型是針對(duì)PISA 2015科學(xué)素養(yǎng)所包含的三階潛在結(jié)構(gòu)而提出的, 且因?yàn)镸O-DINA模型是HO-DINA模型的拓廣, 所以理論上該模型也可以適用于其他包含二階及以上階潛在結(jié)構(gòu)的測(cè)驗(yàn), 比如國(guó)際數(shù)學(xué)和科學(xué)趨勢(shì)研究(TIMSS)和(中國(guó))國(guó)家義務(wù)教育階段教育質(zhì)量監(jiān)測(cè)等大規(guī)模測(cè)驗(yàn)均包含了多階潛在結(jié)構(gòu)。當(dāng)然, 本研究并不是為了說(shuō)明任何包含多階潛在結(jié)構(gòu)的測(cè)驗(yàn)或者任何針對(duì)科學(xué)素養(yǎng)的測(cè)驗(yàn)都需要使用MO-DINA模型來(lái)進(jìn)行分析, 而只是從“為學(xué)習(xí)而評(píng)價(jià)(assessment for learning)”的新測(cè)評(píng)理念出發(fā), 向讀者提供一種新的測(cè)評(píng)視角和方法, 以期進(jìn)一步豐富數(shù)據(jù)分析模型的可選項(xiàng)。在實(shí)踐中, 我們除了可根據(jù)測(cè)驗(yàn)編制的理論和實(shí)際測(cè)驗(yàn)需求等來(lái)選擇分析模型外, 還可以嘗試使用數(shù)據(jù)驅(qū)動(dòng)方法, 依據(jù)模型?數(shù)據(jù)擬合指標(biāo)(e.g., AIC、BIC和DIC等)來(lái)選擇合適的模型, 進(jìn)而得到客觀的、準(zhǔn)確的以及滿足需要的數(shù)據(jù)分析結(jié)果。
需要強(qiáng)調(diào)的是, 一般存在3個(gè)及以上的低階潛在特質(zhì)時(shí)才會(huì)考慮使用高階模型。具體而言, 對(duì)于二階LSM (見式(1)), 當(dāng)= 3時(shí), 使用無(wú)結(jié)構(gòu)潛在結(jié)構(gòu)模型需要估計(jì)2– 1 = 7個(gè)結(jié)構(gòu)參數(shù), 而使用二階LSM僅需要估計(jì)6個(gè)參數(shù)(包含3個(gè)屬性區(qū)分度和3個(gè)屬性難度); 而對(duì)于第三階與第二階潛在特質(zhì)而言, 當(dāng)?shù)诙A潛在特質(zhì)屬性數(shù)量為3時(shí), 直接估計(jì)3者之間的相關(guān)系數(shù)和估計(jì)第三階與第二階潛在特質(zhì)之間的載荷均需要3參數(shù), 而當(dāng)?shù)诙A潛在特質(zhì)數(shù)量大于3時(shí), 則使用高階結(jié)構(gòu)可以減少待估計(jì)參數(shù)數(shù)量。比如, 就圖5的三階潛在結(jié)構(gòu)而言, 直接使用DINA模型需要估計(jì)2– 1 = 511個(gè)結(jié)構(gòu)參數(shù), 使用MO-DINA模型僅需要估計(jì)21個(gè)結(jié)構(gòu)參數(shù)(包含9個(gè)屬性區(qū)分度、9個(gè)屬性難度和3個(gè)載荷), 可以大幅降低待估計(jì)參數(shù)數(shù)量。但若使用包含三個(gè)維度的二階DINA模型, 則同樣需要估計(jì)21個(gè)結(jié)構(gòu)參數(shù)(包含9個(gè)屬性區(qū)分度、9個(gè)屬性難度和3個(gè)相關(guān)系數(shù)), 但此時(shí)就無(wú)法實(shí)現(xiàn)對(duì)“科學(xué)素養(yǎng)”維度的測(cè)量。因此, 是否選用高階模型, 可以從理論(測(cè)驗(yàn)框架)和模型簡(jiǎn)約兩個(gè)角度進(jìn)行考慮, 但究竟高階模型是否合理, 最終還要回歸到理論, 因?yàn)椴⒉皇撬袧撛谔刭|(zhì)都適合建構(gòu)高階結(jié)構(gòu)。比如, 大五人格的五個(gè)維度就不應(yīng)用高階潛在特質(zhì)“性格”去解釋, 因?yàn)閺睦碚撋现v人格的五個(gè)維度應(yīng)該是獨(dú)立的(盡管數(shù)據(jù)分析結(jié)果會(huì)存在低相關(guān))。
盡管本研究將科學(xué)素養(yǎng)劃分為了三階潛在結(jié)構(gòu), 但第一階的屬性粒度仍然較大, 而通常CDA可能更適用于測(cè)評(píng)一些粒度較小的屬性(see Leighton & Gierl, 2007; 詹沛達(dá)等, 2016)。實(shí)際上, 基于PISA 2015科學(xué)測(cè)評(píng)框架, 本研究中的第一階屬性還能夠進(jìn)一步劃分為粒度更小的概念, 比如, A1“科學(xué)地解釋現(xiàn)象”還能夠進(jìn)一步劃分為“回憶并應(yīng)用適當(dāng)?shù)目茖W(xué)知識(shí)(Recall and apply appropriate scientifc knowledge)”和“提供解釋性假設(shè)(Offer explanatory hypotheses)”等小粒度概念, 詳見OECD (2016)的表2.4a。盡管理論上我們可以使用包含四階潛在結(jié)構(gòu)的MHO-DINA模型做進(jìn)一步分析, 但受限于《PISA 2015技術(shù)報(bào)告》中并未呈現(xiàn)題目與小粒度概念之間的具體對(duì)應(yīng)關(guān)系(即沒有相應(yīng)的Q矩陣), 所以本文暫只關(guān)注到對(duì)科學(xué)素養(yǎng)所包含的三階潛在結(jié)構(gòu)的測(cè)評(píng)。另外, 如有需要, 后續(xù)還可以嘗試使用三階IRT模型(e.g., Huang et al., 2013)來(lái)分析該數(shù)據(jù), 并與本文的分析結(jié)果進(jìn)行對(duì)比研究。
當(dāng)然, 由于能力和精力有限, 本研究仍有一些局限值得后續(xù)做出進(jìn)一步探究, 比如:(1)盡管本文主要關(guān)注的是潛在結(jié)構(gòu)模型, 但仍僅使用了DINA模型作為測(cè)量模型, 后續(xù)可嘗試探究基于其他測(cè)量模型時(shí)的性能; (2)未考慮屬性之間可能存在的層級(jí)結(jié)構(gòu)(Leighton, Gierl, & Hunka, 2004), 如何將屬性層級(jí)結(jié)構(gòu)引入到多階潛在結(jié)構(gòu)中值得今后進(jìn)一步關(guān)注(e.g., Zhan, Ma, Jiao & Ding, in press); (3)僅涉及二分屬性, 而未考慮更為精細(xì)的多分屬性(Karelitz, 2004), 如何將MO-LSM拓廣到多分屬性是一個(gè)有意義的話題(e.g., Zhan, Wang et al., in press); (4)假設(shè)多階潛在結(jié)構(gòu)建構(gòu)合理, 而現(xiàn)實(shí)測(cè)驗(yàn)中多階潛在結(jié)構(gòu)的界定可能會(huì)存在偏差, 在這種情況下MO- DINA模型的表現(xiàn)情況值得做進(jìn)一步研究; (5) MO- DINA模型僅考慮了單一的作答數(shù)據(jù)源, 并未考慮諸如題目作答時(shí)間、鼠標(biāo)點(diǎn)擊次序數(shù)據(jù)等過(guò)程性數(shù)據(jù), 如何將過(guò)程性數(shù)據(jù)引入到當(dāng)前建模思路中非常值得關(guān)注(e.g., Liu, Liu, & Li, 2018; Zhan et al., 2018); (6) MO-DINA模型僅針對(duì)橫斷測(cè)驗(yàn)數(shù)據(jù), 暫無(wú)法處理縱向測(cè)驗(yàn)數(shù)據(jù), 后續(xù)可嘗試對(duì)其做進(jìn)一步拓廣(e.g., Li, Cohen, Bottge, & Templin, 2016; Zhan, Jiao, Liao & Li, in press); (7)實(shí)證數(shù)據(jù)分析中, 未考慮科學(xué)態(tài)度維度, 如何將由學(xué)生問(wèn)卷測(cè)評(píng)的科學(xué)態(tài)度和由認(rèn)知題目測(cè)評(píng)的其他3個(gè)維度一同納入到對(duì)科學(xué)素養(yǎng)的測(cè)評(píng)中值得今后做進(jìn)一步探索。
Birnbaum, A. (1968).. In F. M. Lord & M. R. Novick (Eds.). Statistical theories of mental test scores. Addison- Wesley, Reading, MA.
Brooks, S. P., & Gelman, A. (1998). General methods for monitoring convergence of iterative simulations.. 7(4), 434–455.
Chen, F., Zhan, P., Wang, L., Chen, C., & Cai, M. (2015). The development and application of higher-order item response models., 150–157.
[陳飛鵬, 詹沛達(dá), 王立君, 陳春曉, 蔡毛. (2015). 高階項(xiàng)目反應(yīng)模型的發(fā)展與應(yīng)用., 150–157.]
de la Torre, J. (2008). An empirically-based method of Q-matrix validation for the DINA model: Development and applications.(4), 343–362.
de la Torre, J. (2009).DINA model and parameter estimation: A didactic.(1)115 –130.
de la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.(3), 333–353.
de la Torre, J., & Song, H. (2009). Simultaneously estimation of overall and domain abilities: A higher-order IRT model approach.(8), 620–639.
Gao, H. B. (2011). Results of the eighth survey on Chinese citizens' scientific literacy were released., 63–64.
[高宏斌. (2011). 第八次中國(guó)公民科學(xué)素養(yǎng)調(diào)查結(jié)果發(fā)布., 63–64.]
Hu, Y., Yang, S., & Lu, K. (2012). The research of assessment tools of adolescents’ scientific literacy and its quality analysis.16–21.
[胡詠梅, 楊素紅, 盧珂. (2012). 青少年科學(xué)素養(yǎng)測(cè)評(píng)工具研發(fā)及質(zhì)量分析.16–21.]
Huang, H.-Y., Wang, W.-C., Chen, P.-H., & Su, C.-M. (2013). Higher-order item response models for hierarchical latent traits.(8), 619– 637.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory., 258–272.
Karelitz, T. M. (2004).(Unpublished doctoral dissertation). University of Illinois at Urbana-Champaign
Kang, C., & Xin, T. (2010). New development in test theory: multidimensional item response theory.(3), 530–536
[康春花, 辛濤. (2010). 測(cè)驗(yàn)理論的新發(fā)展:多維項(xiàng)目反應(yīng)理論.(3), 530–536.]
K?hn, H.-F., & Chiu, C.-Y. (2017). A procedure for assessing the completeness of the Q-matrices of cognitively diagnostic tests.(1), 112–132
Leighton, J., & Gierl, M. (Eds.). (2007).. Cambridge University Press.
Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka’s rule-space approach.(1), 205–237.
Li, F., Cohen, A., Bottge, B, & Templin, J. (2016). A latent transition analysis model for assessing change in cognitive skills.(2), 181–204.
Liu, H., Liu, Y., & Li, M. (2018). Analysis of process data of PISA 2012 computer-based problem solving: Application of the modified multilevel mixture IRT model..
Liu, K., Li, C. (2015). The content and characteristic of PISA 2015 draft science framework.(7), 98–105.
[劉克文, 李川. (2015). PISA 2015科學(xué)素養(yǎng)測(cè)試內(nèi)容及特點(diǎn).(7), 98–105.]
Macready, G. B., & Dayton, C. M. (1977). The use of probabilistic models in the assessment of mastery.(2), 99–120.
Miller, J. D. (1983). Scientific literacy: A conceptual and empirical review.,(2), 29–48.
OECD. (2006).. Paris: PISA, OECD Publishing
OECD. (2016).. Paris: PISA, OECD Publishing
OECD. (2017).. Paris: PISA, OECD Publishing
Qin, H., & Qian, Y. (2008). A survey report on Shanghai adolescents’ scientific literacy.(24), 31–35.
[秦浩正, 錢源偉. (2008). 上海青少年科學(xué)素養(yǎng)調(diào)查報(bào)告.(24), 31–35.]
Reckase, M. D. (2009).. New York: Springer.
Ren, L., Zhang, C., & He, W. (2013). Constructing and anallysis of the model of how the factors affect the scientific literacy of Chinese citizens and a comparative investigation., 983–990.
[任磊, 張超, 何薇. (2013). 中國(guó)公民科學(xué)素養(yǎng)及其影響因素模型的建構(gòu)與分析.(7), 983–990.]
Rijmen, F., Jeon, M., von Davier, M., & Rabe-Hesketh, S. (2014). A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys.(4), 235–256.
Roos, J. M. (2014). Measuring science or religion? A measurement analysis of the National Science Foundation sponsored science literacy scale 2006–2010.(7), 797–813.
Rupp, A. A., Templin, J., & Henson, R. A. (2010).New York, NY: Guilford Press
Ryan, J. J., & Schnakenberg-Ott, S. D. (2003). Scoring reliability on the Wechsler Adult Intelligence Scale-Third Edition (WAIS-III).(2), 151–159.
Templin, J. L., Henson, R. A., Templin, S. E., & Roussos, L. (2008). Robustness of hierarchical modeling of skill association in cognitive diagnosis models.(7), 559–574.
The Ministry of Education of the People's Republic of China. (2017).Retrieved June 2, 2017, from http://www.moe.edu.cn/srcsite/A26/s8001/201702/t20170215_296305.html
[中華人民共和國(guó)教育部. (2017).. 2017-06-02取自http://www.moe.edu.cn/srcsite/A26/ s8001/201702/t20170215_296305.html]
Tu, D., Cai, Y., & Ding, S. (2012).. Beijing: Beijing Normal University Publishing Group.
[涂冬波, 蔡艷, 丁樹良. (2012).. 北京: 北京師范大學(xué)出版社。]
Wang, W.-C., & Chen, P.-H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing.(5), 295–316.
Zhan, P., Chen, P., & Bian, Y. (2016). Using confirmatory compensatory multidimensional IRT models to do cognitive diagnosis.(10), 1347–1356.
[詹沛達(dá), 陳平, 邊玉芳. (2016). 使用驗(yàn)證性補(bǔ)償多維IRT模型進(jìn)行認(rèn)知診斷評(píng)估.(10), 1347–1356.]
Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times.(2), 262–286.
Zhan, P., Jiao, H., Liao, D., & Li, F. (in press). A longitudinal higher-order diagnostic classification model.
Zhan, P., Jiao, H., Liao, M., & Bian, Y. (2018). Bayesian DINA modeling incorporating within-item characteristic dependency.. Advanced online publication. URL https://doi.org/10.1177/0146621618781594
Zhan, P., Jiao, H., Man, K., & Wang, L. (in press). Using JAGS for Bayesian cognitive diagnosis modeling: A tutorial..
Zhan, P., Ma, W., Jiao, H., & Ding, S. (in press). A sequential higher-order latent structural model for hierarchical attributes in cognitive diagnostic assessments.
Zhan, P., Wang, W.-C., & Li, X. (in press). A partial mastery, higher-order latent structural model for polytomous attributes in cognitive diagnostic assessments.
Zhan, P., Wang, W.-C., & Wang, L. (2013). Testlet response theory: an introduction and new developments.(12), 2265–2280.
[詹沛達(dá), 王文中, 王立君. (2013). 項(xiàng)目反應(yīng)理論新進(jìn)展之題組反應(yīng)理論.(12), 2265?2280.]
測(cè)量模型選用引入題目?jī)?nèi)特征依賴性的貝葉斯DINA模型(Zhan, Jiao, Liao, & Bian, 2018), 可表示為:
式中,Y為被試作答題目的結(jié)果; Ψ= (β, δ)’為logit量尺上滿足二元正態(tài)分布的題目參數(shù)向量(兩者通常為負(fù)相關(guān)), 它們與常規(guī)DINA模型中的猜測(cè)和失誤參數(shù)之間的關(guān)系為:logit(g) = β, logit(s) = δ;q為Q矩陣中元素,q= 1表示題目考查了屬性, 反之,q= 0。將該模型與正文中式(4)相結(jié)合即可得到MO-DINA模型。
其次, 關(guān)于題目參數(shù)的先驗(yàn)分布, 參考Zhan, Jiao, Liao等人(2018), 設(shè)定如下:
μ = (μ, μ)’為logit轉(zhuǎn)換后的題目參數(shù)均值, Σ為方差協(xié)方差矩陣, 有
ρ為logit轉(zhuǎn)換后的題目參數(shù)之間的相關(guān)系數(shù)。其中, μ和μ的超先驗(yàn)(hyper-prior)分布分別設(shè)定為μ~(–1.096, 4)和μ~(–1.096, 4), 鑒于logit(–1.096) ≈ 0.25, 所以該設(shè)定與四則一選擇題的理論猜測(cè)概率相符合; 另外, 設(shè)定Σ ~ InvWishart(R, 2), 其中R為二維單位矩陣。
再有, 關(guān)于高階潛在特質(zhì)參數(shù), 參考Huang等人(2013), 設(shè)定如下:
最后, 關(guān)于高階潛在結(jié)構(gòu)參數(shù), 參考Zhan, Jiao和Liao (2018), 設(shè)定如下:
Using a multi-order cognitive diagnosis model to assess scientific literacy
ZHAN Peida; YU Zhaohui; LI Feiming; WANG Lijun
(College of Teacher Education, Zhejiang Normal University, Jinhua 321004, China)
In PISA 2015, scientific literacy is defined as “the ability to engage with science-related issues, and with the ideas of science, as a reflective citizen”. There are four interdependent dimensions are specified in the scientific literacy assessment framework for PISA 2015: Competencies, Knowledge, Contexts, and Attitudes. Given that knowledge of scientific literacy contributes significantly to individuals’ personal, social, and professional lives, it is of vital importance to find an objectively and accurately assessment method for scientific literacy. However, only unidimensional IRT models were used in the analysis in PISA 2015. Which means that the analysis model does not match with such a multidimensional assessment framework. It is desired to develop a new analysis model. This study attempts to measure scientific literacy in cognitive diagnostic assessment for the first time.
According to the scientific literacy assessment framework for PISA 2015, a third-order latent structure for scientific literacy is first pointed out. Specifically, the scientific literacy is treated as the third-order latent trait; Competencies, Knowledge, Contexts, and Attitudes are all treated as second-order latent traits; And nine subdomains, e.g., explain phenomena scientifically and content knowledge, were treated as first-order traits (or attributes). Unfortunately, however, there is still a lack of cognitive diagnosis models that can deal with such a third-order latent structure. To this end, a multi-order DINA (MO-DINA) model was developed in this study. The new model is an extension of the higher-order (HO-DINA) model, which is similar to the third-order IRT models. To illustrate the application and advantages of the MO-DINA model, a sub-data of PISA 2015 science assessment data were analyzed. Items were chosen from the S01 cluster, and participants were chosen from China. After data cleaning, 1076 participants with 18 items were retained. Three models were fitted to this sub-data and compared, the MO-DINA model, in which the third-order latent structure of scientific literacy was considered; the HO-DINA model, in which the scientific literacy was treated as a second-order latent trait and contacted with attributes directly; and the DINA model.
All three models appear to provide a reasonably good fit to data according to the posterior predictive model checking. According to the –2LL, AIC, BIC, and DIC, the DINA model fits the data worst, and the MO-DINA model fits the data best, the results of MO-DINA model are used to make further interpretations. The results indicated that (1) the quality of 18 items are not good enough; (2) The correlations among second-order latent traits are high (0.8, approximately); (3) Knowledge has the greatest influence on scientific literacy, Contexts second, and Competencies least; (4) Explain phenomena scientifically, procedural knowledge, and local/national has the greatest influence on Competencies, Knowledge, and Contexts, respectively. In addition, a simulation study was conducted to evaluate the psychometric properties of the proposed model. The results showed that the proposed Bayesian MCMC estimation algorithm can provide accurate model parameter estimation.
Overall, the proposed MO-DINA model works well in real data analysis and simulation study and meets the needs of assessment for PISA 2015 scientific literacy which included a third-order latent structure.
scientific literacy; cognitive diagnosis; PISA; DINA model
10.3724/SP.J.1041.2019.00734
2018-09-21
* 國(guó)家自然科學(xué)基金青年基金項(xiàng)目(31600908)、浙江省自然科學(xué)基金項(xiàng)目(LY16C090001)、教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目(19YJC190025)和浙江省教育科學(xué)規(guī)劃重點(diǎn)課題(2019SB112)資助。
詹沛達(dá), E-mail: pdzhan@gmail.com
B841