劉妍+戴靜+石小戀+牛雨+祝嘉鈺+顧小清
【摘 要】
隨著科學(xué)技術(shù)的進(jìn)步,計(jì)算機(jī)技術(shù)正逐步與認(rèn)知診斷理論結(jié)合,形成計(jì)算機(jī)化自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)(Computerized Adaptive Test for Cognitive Diagnosis, CD-CAT)的評(píng)測(cè)方式。用CD-CAT進(jìn)行教育測(cè)量評(píng)估有著諸多優(yōu)勢(shì),但是目前國(guó)內(nèi)尚缺乏計(jì)算機(jī)化自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)的實(shí)驗(yàn)研究與大規(guī)模的實(shí)踐應(yīng)用。本研究運(yùn)用內(nèi)容分析法,以“計(jì)算機(jī)自適應(yīng)測(cè)試”和“計(jì)算機(jī)認(rèn)知診斷測(cè)驗(yàn)”為關(guān)鍵詞進(jìn)行搜索,結(jié)果表明:國(guó)內(nèi)于2006年開始逐步開展CD-CAT研究,近幾年的研究熱點(diǎn)主要聚焦在理論概況(占總樣本的比例為15%)和現(xiàn)狀綜述(占總樣本的比例為74%)方面,具體內(nèi)容包括確定屬性、認(rèn)知診斷模型和流程方法,也有小規(guī)模的測(cè)試實(shí)驗(yàn),如英語、化學(xué)等學(xué)科?;诖?,運(yùn)用UCINET將“研究者派系”可視化,發(fā)現(xiàn)領(lǐng)域科研合作緊密,但是整體合作疏遠(yuǎn),小團(tuán)隊(duì)研究更加集中。最后,文章介紹了國(guó)內(nèi)外CD-CAT實(shí)踐案例,闡述了認(rèn)知診斷評(píng)價(jià)在教育領(lǐng)域的發(fā)展方向和策略,期望對(duì)國(guó)內(nèi)教育評(píng)價(jià)走向CD-CAT有所啟發(fā)。
【關(guān)鍵詞】 教育評(píng)估;認(rèn)知診斷理論;認(rèn)知診斷模型;計(jì)算機(jī)化自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)
【中圖分類號(hào)】 G434 【文獻(xiàn)標(biāo)識(shí)碼】 B 【文章編號(hào)】 1009-458x(2017)04-0042-09
一、研究背景
隨著計(jì)算機(jī)技術(shù)、通信設(shè)備和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,教育信息化的發(fā)展面臨著重大變革,由數(shù)據(jù)主導(dǎo)的“大時(shí)代”正在走入教育領(lǐng)域,進(jìn)而滲透到教育發(fā)展與改革的戰(zhàn)略中。復(fù)雜的、數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化教學(xué)一般需要提供非線性的教學(xué)輔導(dǎo),以及能夠滿足學(xué)習(xí)者個(gè)別化、具有差異的認(rèn)知水平和能力水平的診斷評(píng)估。因而,以認(rèn)知診斷測(cè)驗(yàn)為代表的新一代測(cè)驗(yàn)理論應(yīng)運(yùn)而生,能夠解釋學(xué)生在推理和解決問題過程中所用到的知識(shí)和技能,并提供關(guān)于學(xué)生知識(shí)技能掌握情況的診斷信息,同時(shí)保證測(cè)驗(yàn)的“公平性”,為“因材施教”和“個(gè)性化”教學(xué)提供可能。
Mislevy等(1993)指出,統(tǒng)計(jì)測(cè)驗(yàn)理論的發(fā)展可以分為經(jīng)典測(cè)驗(yàn)理論(Classical Test Theory, CTT)階段、概化理論階段和項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)階段。CTT和IRT 都屬于標(biāo)準(zhǔn)測(cè)驗(yàn)理論。標(biāo)準(zhǔn)測(cè)驗(yàn)理論視所測(cè)的心理特質(zhì)為一個(gè)單純的“統(tǒng)計(jì)結(jié)構(gòu)”,目的在于從宏觀上給個(gè)體一個(gè)整體的評(píng)估。隨著心理測(cè)量學(xué)和認(rèn)知心理學(xué)的進(jìn)一步發(fā)展和現(xiàn)代教育技術(shù)水平的進(jìn)步,學(xué)習(xí)者更加渴求獲得更具體的、細(xì)微水平的測(cè)量與診斷評(píng)估。Frederiksen、Mislevy和Bejar(1993)編著的Test theory for a new generation of tests正式出版,標(biāo)志著新一代測(cè)量理論的誕生。如圖1所示,認(rèn)知診斷評(píng)估逐步走入歷史舞臺(tái),強(qiáng)調(diào)“能力水平”和“認(rèn)知水平”維度能夠被同時(shí)診斷,不再僅僅是單一的宏觀維度的“知識(shí)水平”。計(jì)算機(jī)化自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)(Computerized Adaptive Test for Cognitive Diagnosis, CD-CAT)是計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)理論和認(rèn)知診斷理論相結(jié)合的產(chǎn)物,目的是達(dá)到“因材施教”“量體裁衣”式的自適應(yīng)診斷,根據(jù)學(xué)習(xí)者當(dāng)前狀態(tài),選取與之相適應(yīng)的題目進(jìn)行測(cè)試,進(jìn)而診斷學(xué)習(xí)者能力水平和認(rèn)知水平,以診斷報(bào)告的方式為學(xué)習(xí)者提供提升的建議和策略。
縱觀計(jì)算機(jī)技術(shù)與統(tǒng)計(jì)測(cè)驗(yàn)的結(jié)合,其發(fā)展分為兩個(gè)階段:其一是以項(xiàng)目反應(yīng)理論(IRT)為代表的標(biāo)準(zhǔn)計(jì)算機(jī)自適應(yīng)測(cè)量階段;其二指新一代測(cè)量理論的計(jì)算機(jī)自適應(yīng)階段(認(rèn)知診斷是其核心內(nèi)容)。項(xiàng)目反應(yīng)理論的特點(diǎn)是以概率函數(shù)的形式來描述項(xiàng)目作答反映結(jié)果是如何受到被試能力水平和項(xiàng)目特征聯(lián)合作用的影響。自適應(yīng)測(cè)驗(yàn)起源于Alfred Binet(1904)開發(fā)的智力測(cè)驗(yàn),根據(jù)被試的不同特質(zhì)水平和題目的不同難度與區(qū)分度,對(duì)被試實(shí)測(cè)不同的測(cè)驗(yàn)題目,使這些題目與被試的實(shí)際水平盡可能相適應(yīng),這樣使測(cè)驗(yàn)更具有針對(duì)性,從而每施測(cè)一道題就能獲得最大的信息量。
當(dāng)現(xiàn)代技術(shù)手段——計(jì)算機(jī)引入到測(cè)量領(lǐng)域中,計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing, CAT)由此誕生,由計(jì)算機(jī)自動(dòng)從題庫中選擇合適的題目給學(xué)習(xí)者作答,一方面能夠在學(xué)習(xí)者做完后自動(dòng)評(píng)估其能力水平,給出適合學(xué)習(xí)者的下一道題目;另一方面能夠自動(dòng)設(shè)定終止規(guī)則,即當(dāng)達(dá)到能夠評(píng)估學(xué)習(xí)者能力的題目數(shù)后,測(cè)試會(huì)自動(dòng)停止。之后,運(yùn)用CAT思想與認(rèn)知診斷理論結(jié)合,從題庫中選擇最適合學(xué)習(xí)者水平和最能區(qū)分水平能力的題目作答,對(duì)其知識(shí)狀態(tài)達(dá)到最恰當(dāng)?shù)脑u(píng)估。CD-CAT更多關(guān)注被試掌握模式的自適應(yīng),根據(jù)可觀察的行為和反應(yīng),推測(cè)潛在的知識(shí)結(jié)構(gòu)和技能掌握情況。例如,獲得相同分?jǐn)?shù)的學(xué)生不能夠體現(xiàn)個(gè)體差異,如果在測(cè)驗(yàn)中能夠?qū)W(xué)生作答反應(yīng)、知識(shí)反應(yīng)和能力診斷,從而能夠進(jìn)一步提出補(bǔ)救措施。CD-CAT的流程包括:開始測(cè)試—初始題目選擇—估計(jì)被試當(dāng)前狀態(tài)—選題策略—認(rèn)知診斷計(jì)量模型—終止條件—診斷報(bào)告。對(duì)于CD-CAT的研究目前處于探索開發(fā)階段,組成CD-CAT各個(gè)階段的問題仍需要摸索和實(shí)踐應(yīng)用,例如如何確定知識(shí)狀態(tài)和表征能力屬性、認(rèn)知診斷模型的應(yīng)用研究,如何選擇初始題目,以及題庫的開發(fā)、建設(shè)與維護(hù)等方面。
綜上所述,為了從整體上把握CD-CAT在國(guó)內(nèi)的發(fā)展脈絡(luò),厘清發(fā)展現(xiàn)狀和研究聚焦,提出實(shí)施CD-CAT的科研建議和實(shí)施策略,分別從以下方面進(jìn)行分析:一方面,以時(shí)間(2005-2015年)為軸,考察關(guān)于“認(rèn)知診斷自適應(yīng)測(cè)試”文獻(xiàn)的研究情況,采用內(nèi)容分析方法對(duì)已有百余篇中英文文獻(xiàn)進(jìn)行內(nèi)容分析,并通過數(shù)據(jù)的可視化表征和社會(huì)網(wǎng)絡(luò)分析工具,探討其研究重心和內(nèi)容;另一方面,通過分析國(guó)內(nèi)外已有CD-CAT平臺(tái)和項(xiàng)目的實(shí)踐情況,總結(jié)和借鑒國(guó)外實(shí)施經(jīng)驗(yàn),為我國(guó)今后的CD-CAT研究提供發(fā)展策略。
二、研究過程
(一) 研究方法與工具
本研究主要采用文獻(xiàn)研究法、內(nèi)容分析法和數(shù)據(jù)可視化的方法,通過對(duì)有效文獻(xiàn)的各類屬性進(jìn)行分析和標(biāo)識(shí),從而獲得不同維度的計(jì)量分析結(jié)果,即對(duì)本質(zhì)內(nèi)容進(jìn)行不同方面、由淺入深、層層遞進(jìn)的非線性分析。研究主要借助軟件管理軟件NoteExpress、數(shù)據(jù)處理軟件SPSS 20.0和詞云生成平臺(tái)Tagxedo。首先,界定研究?jī)?nèi)容和范圍CD-CAT;然后,團(tuán)隊(duì)成員分別對(duì)2005-2015年的文章進(jìn)行篩選,梳理成為研究樣本;接著,根據(jù)已有文獻(xiàn)確定分析維度,以理論概述、現(xiàn)狀實(shí)踐、研究方法等為分析內(nèi)容,對(duì)樣本進(jìn)行統(tǒng)計(jì)和處理。
(二) 數(shù)據(jù)收集
采用內(nèi)容分析法對(duì)2005-2015年國(guó)內(nèi)發(fā)表的關(guān)于自適應(yīng)認(rèn)知診斷的文獻(xiàn)進(jìn)行比較、分析、綜合,對(duì)研究?jī)?nèi)容和現(xiàn)狀進(jìn)行梳理和總結(jié)。為了研究的嚴(yán)謹(jǐn)性和數(shù)據(jù)分析的準(zhǔn)確性,將學(xué)術(shù)論文與畢業(yè)論文分開統(tǒng)計(jì),中文數(shù)據(jù)庫來源有“中國(guó)知網(wǎng)”和“萬方數(shù)據(jù)庫”,以“認(rèn)知診斷”和“認(rèn)知診斷自適應(yīng)測(cè)驗(yàn)”為關(guān)鍵詞進(jìn)行搜索,與教育測(cè)量和教育技術(shù)領(lǐng)域相關(guān)的文獻(xiàn)匯總?cè)缦拢褐形膶W(xué)術(shù)期刊檢索到140篇,學(xué)位論文68篇;CSSCI期刊主要集中在《北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》《教學(xué)學(xué)報(bào)》《心理科學(xué)》《心理科學(xué)進(jìn)展》和《心理學(xué)探新》等。為了對(duì)比中英文文獻(xiàn)關(guān)于結(jié)果分析中初步印象部分的差異,即關(guān)注焦點(diǎn)可視化部分,選取以“Computerized Adaptive Test for Cognitive Diagnosis”和“Cognitive Diagnosis”為關(guān)鍵詞,在Computers & Education、 Computers in Human Behavior和Journal of Computer Assisted Learning(數(shù)據(jù)庫分別為ScienceDirect、SpringerLink、Wiley Online和ERIC)等教育技術(shù)專業(yè)相關(guān)期刊中搜集到論文66篇。
本研究進(jìn)行了兩輪文獻(xiàn)搜索和文獻(xiàn)篩選,共有5名團(tuán)隊(duì)成員參與,針對(duì)不同期刊進(jìn)行分工。第一輪主要對(duì)目標(biāo)期刊和目標(biāo)關(guān)鍵詞進(jìn)行“地毯式”搜索,得到中文文獻(xiàn)233篇,英文論文79篇,利用文獻(xiàn)管理工具NoteExpress將其分類保存;第二輪采用內(nèi)容分析法對(duì)自適應(yīng)認(rèn)知診斷文獻(xiàn)的關(guān)鍵詞、作者、研究主題進(jìn)行分類,最終確定中文文獻(xiàn)140篇,英文文獻(xiàn)66篇。對(duì)作者進(jìn)行分析的主要目的是對(duì)不同研究“帶頭人”和研究單位的分布進(jìn)行研究,以辨識(shí)其影響力和規(guī)模。首先,主要對(duì)文獻(xiàn)的研究主題進(jìn)行分析。團(tuán)隊(duì)成員基于文獻(xiàn)閱讀和積累對(duì)計(jì)算機(jī)自適應(yīng)測(cè)試、認(rèn)知診斷、自適應(yīng)認(rèn)知診斷測(cè)試的過程進(jìn)行分類,討論之后達(dá)成一致,構(gòu)建初步框架;其次,在上述框架基礎(chǔ)上,根據(jù)文獻(xiàn)的關(guān)鍵詞進(jìn)行記錄。如《小學(xué)數(shù)學(xué)“圖形與幾何”認(rèn)知診斷測(cè)驗(yàn)的編制》一文中,以認(rèn)知診斷、多策略、多級(jí)評(píng)分和Q矩陣為關(guān)鍵詞,對(duì)多策略的多級(jí)評(píng)分認(rèn)知診斷算法(多級(jí)評(píng)分廣義聚類判別法,GDD-P)進(jìn)行改進(jìn)與應(yīng)用,并且介紹了測(cè)驗(yàn)藍(lán)圖編制、Q矩陣,與單策略認(rèn)知診斷方法進(jìn)行對(duì)比,是對(duì)算法和理論的深入研究。因此,該文章涉及的分析內(nèi)容分別是:理論研究、Q矩陣、認(rèn)知診斷模型。該文章分析的一致性(5位成員)達(dá)到93%;最后,確定分析框架,對(duì)所有文獻(xiàn)進(jìn)行閱讀,完善文獻(xiàn)分析內(nèi)容。
(三) 結(jié)果分析
1. 初步印象:有哪些研究關(guān)注點(diǎn)
本研究選取數(shù)據(jù)可視化—詞云的表達(dá)方式展示樣本研究的核心內(nèi)容??紤]到支持中文統(tǒng)計(jì)的功能,選擇統(tǒng)計(jì)平臺(tái)Tagxedo(http://www.tagxedo.com/app.html),詞云支持中文輸入,對(duì)文字的輸入內(nèi)容、形狀等可以個(gè)性化定義(如圖2所示)。中文詞云中“認(rèn)知診斷”“規(guī)則空間模型”和“屬性”等頻
次最高,領(lǐng)銜關(guān)鍵詞說明了研究領(lǐng)域的聚焦,其中研究問題主要關(guān)注于學(xué)業(yè)評(píng)估診斷、認(rèn)知診斷模型驗(yàn)證與應(yīng)用(如DINA模型)、紙筆考試與計(jì)算機(jī)自適應(yīng)考試差異研究與效度研究??梢猿醪酵茢辔墨I(xiàn)研究集中于CD-CAT的知識(shí)屬性、認(rèn)知診斷模型研究等初步應(yīng)用階段。
為了使中英文文獻(xiàn)具有對(duì)照意義,同樣選取統(tǒng)計(jì)平臺(tái)Tagxedo進(jìn)行詞頻統(tǒng)計(jì)和可視化處理(如圖3所示)。英文詞云中顯示具體的應(yīng)用方法(蒙特卡羅模擬法)、語言程序(R語言)知識(shí)評(píng)估和學(xué)習(xí)干預(yù)成為僅次于測(cè)試、自適應(yīng)等的關(guān)鍵詞。從宏觀角度看,一方面,英文文獻(xiàn)的關(guān)注點(diǎn)更加聚焦,能夠?qū)?shí)際的認(rèn)知模型進(jìn)行測(cè)驗(yàn)和實(shí)踐應(yīng)用;另一方面,體現(xiàn)了自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)的價(jià)值和意義所在,對(duì)學(xué)生的個(gè)性化學(xué)習(xí)進(jìn)行指導(dǎo)和教學(xué)干預(yù),利用技術(shù)促進(jìn)測(cè)試診斷最大化的實(shí)現(xiàn)。
通過詞云分析,對(duì)CD-CAT的研究熱點(diǎn)有了初步了解。研究發(fā)現(xiàn),國(guó)內(nèi)的研究關(guān)鍵詞集中在理論基礎(chǔ)、算法改進(jìn)層面,與教育、學(xué)習(xí)等過程關(guān)聯(lián)較少;國(guó)外論文分析領(lǐng)域表示逐步通過技術(shù)方法“作用”于教育領(lǐng)域,與評(píng)估評(píng)價(jià)、反饋干預(yù)的實(shí)驗(yàn)與應(yīng)用關(guān)聯(lián)較多。如Sanja(2015)以C++面向?qū)ο缶幊陶n程為例,開發(fā)實(shí)現(xiàn)自適應(yīng)測(cè)試平臺(tái),選取實(shí)驗(yàn)組與對(duì)照組,分別用自適應(yīng)測(cè)試和筆紙測(cè)試進(jìn)行比較,結(jié)合問卷、訪談的分析方法對(duì)自適應(yīng)測(cè)試的過程、方法、優(yōu)勢(shì)、實(shí)驗(yàn)應(yīng)用進(jìn)行詳細(xì)闡述;Triantafillou(2008)以計(jì)算機(jī)自適應(yīng)測(cè)試?yán)碚摓榛A(chǔ),開發(fā)依托移動(dòng)設(shè)備的自適應(yīng)測(cè)試工具,將專家的評(píng)價(jià)靈活地運(yùn)用于教育評(píng)估過程之中。
2. 漸入佳境:局部剖析
樣本分析單元分別從研究創(chuàng)新點(diǎn)、發(fā)表時(shí)間、單位、數(shù)量、研究方法和理論支撐等方面展開,具體統(tǒng)計(jì)維度涵蓋認(rèn)知診斷測(cè)驗(yàn)題庫建立、初始題選擇、選題策略、認(rèn)知診斷計(jì)量模型、知識(shí)狀態(tài)估計(jì)方法、終止規(guī)則、原始題參數(shù)在線估計(jì)和屬性在線標(biāo)定、理論研究和實(shí)踐應(yīng)用等。
(1) CD-CAT研究歷程分析
借助NoteExpress 統(tǒng)計(jì)學(xué)術(shù)論文和學(xué)位論文發(fā)表情況,以圖4表現(xiàn)發(fā)展歷程。
作為“量體裁衣”式的測(cè)驗(yàn),CAT始于20世紀(jì)七八十年代。隨著網(wǎng)絡(luò)與科技進(jìn)步,自適應(yīng)測(cè)試可謂發(fā)揮到了極致,如GRE、GMAT、美國(guó)注冊(cè)管理會(huì)計(jì)師(CMA)等等。以認(rèn)知診斷理論為基礎(chǔ)的CD-CAT相比較于CAT,更加能夠利用項(xiàng)目屬性和認(rèn)知模型優(yōu)勢(shì),進(jìn)行診斷性的測(cè)驗(yàn)編制和評(píng)測(cè)。從圖4可以看出,我國(guó)的發(fā)展從2006年起步,2008年研究文獻(xiàn)逐步增多,例如曾彥鈞等人(2006)提出CD-CAT以認(rèn)知結(jié)構(gòu)為基礎(chǔ),在題庫建設(shè)、起始規(guī)則、選題策略、被試知識(shí)狀態(tài)估計(jì)、終止規(guī)則和曝光率等部分與傳統(tǒng)的CAT有很大區(qū)別。2011年,是學(xué)術(shù)論文和學(xué)位論文發(fā)展的高峰,之后學(xué)位論文研究數(shù)量所有下滑,期刊論文數(shù)量變化不大。
(2)CD-CAT研究?jī)?nèi)容分析
參照認(rèn)知診斷評(píng)估的主要步驟包括:①描述測(cè)量目的和確定屬性;②創(chuàng)建認(rèn)知模型;③設(shè)計(jì)測(cè)驗(yàn)Q矩陣;④開發(fā)或選擇認(rèn)知診斷模型(CDM);⑤評(píng)估Q矩陣和CDM;⑥模型參數(shù)估計(jì);⑦評(píng)估診斷與干預(yù)。其中有的步驟可能循環(huán)或者迭代。對(duì)文獻(xiàn)的研究?jī)?nèi)容進(jìn)行歸類(如表1所示)。
研究團(tuán)隊(duì)詳細(xì)閱讀140篇學(xué)術(shù)文獻(xiàn),發(fā)現(xiàn)很多文獻(xiàn)聚焦于診斷模型、Q矩陣,以及概況綜述和自適應(yīng)認(rèn)知診斷流程描述的研究,缺少完整的實(shí)踐應(yīng)用的成功案例。統(tǒng)計(jì)數(shù)據(jù)表明:
①相比較于國(guó)外CD-CAT,國(guó)內(nèi)相關(guān)研究進(jìn)程較慢,并且研究?jī)?nèi)容集中在理論概述和小規(guī)模的實(shí)驗(yàn)證明上,缺乏大規(guī)模應(yīng)用CD-CAT相關(guān)的文獻(xiàn)支持??梢姡瑖?guó)內(nèi)自適應(yīng)的教育評(píng)價(jià)方式應(yīng)用還未大范圍普及,通過技術(shù)診斷學(xué)習(xí)者的能力水平和知識(shí)水平,并且提供有效的教學(xué)干預(yù)的案例還不夠成熟。
②基礎(chǔ)理論研究占文獻(xiàn)總數(shù)的74.2%。例如,唐小娟、丁樹良和俞宗火(2012)提出計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)在認(rèn)知中的應(yīng)用,分別從認(rèn)知診斷模型、題庫建設(shè)、起始規(guī)則、選題策略、被試知識(shí)狀態(tài)和終止規(guī)則等幾部分進(jìn)行了詳細(xì)介紹。有64篇文獻(xiàn)(45.7%)對(duì)認(rèn)知診斷模型進(jìn)行介紹。截至2007年,常見的認(rèn)知診斷模型有補(bǔ)償模型LLTM(線性邏輯斯蒂克測(cè)驗(yàn)?zāi)P停┖蚆IRT-C等,非補(bǔ)償模型RSM(規(guī)則空間模型)、DINA(確定性輸入噪音與門模型)、HO-DINA(高階DINA模型)、RUM(融合模型)和AHM(屬性層級(jí)模型)。
③實(shí)驗(yàn)實(shí)踐比例為30%,其中有10%的文獻(xiàn)敘述了相應(yīng)的教育干預(yù)措施,例如數(shù)學(xué)、物理、化學(xué)和英語。康春花等(2015)以小學(xué)數(shù)學(xué)與幾何的知識(shí)點(diǎn)和問題解決能力作為認(rèn)知屬性的分類,定義了數(shù)學(xué)知識(shí)和認(rèn)知過程,并采用口語報(bào)告法對(duì)認(rèn)知模型進(jìn)行質(zhì)性驗(yàn)證,選取某校六年級(jí)1,128名學(xué)生進(jìn)行了測(cè)驗(yàn)。
近幾年,新模型的研究也為自適應(yīng)認(rèn)知診斷測(cè)試研究開拓了一片新天地,例如祝玉芳等(2009)的多級(jí)評(píng)分AHM模型,涂冬波等(2010)提出多級(jí)評(píng)分DINA模型。余娜(2009)提出診斷模型的評(píng)估問題由信度和效度決定,認(rèn)知診斷評(píng)估中信度采用校正之后的模型產(chǎn)生兩組平行的模擬考生,分布估計(jì)每組掌握情況,計(jì)算相同考生被劃分到相同屬性掌握狀態(tài)的百分比。
3. 升華:合作關(guān)系追蹤
科學(xué)領(lǐng)域的研究往往存在學(xué)術(shù)帶頭人,也往往會(huì)以學(xué)術(shù)帶頭人為核心形成研究領(lǐng)域的網(wǎng)絡(luò)關(guān)系。本研究借鑒魏順平等(2008)提出的新的n-派系定義,利用研究者合作關(guān)系網(wǎng)絡(luò)研究,建立“作者A-作者B”關(guān)聯(lián)關(guān)系。在社會(huì)網(wǎng)絡(luò)分析中,派系(subgroup)是社群中的一小群人關(guān)系特別緊密。
首先,借助Excel統(tǒng)計(jì)研究者與文獻(xiàn)之間的關(guān)聯(lián)表(如表2所示),以“作者-文獻(xiàn)-單位”的方式表現(xiàn)。
本研究中CD-CAT文獻(xiàn)量大于5篇的作者見表3,通過論文作者和機(jī)構(gòu)分析發(fā)現(xiàn),大部分文獻(xiàn)作者來源于高校和研究所,并且主要來源于江西師范大學(xué)的心理學(xué)院和計(jì)算機(jī)信息工程學(xué)院,以及北京師范大學(xué)心理學(xué)院。究其原因,計(jì)算機(jī)自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)研究屬于專業(yè)性較強(qiáng)、理論基礎(chǔ)扎實(shí)的研究領(lǐng)域,高校師生是新理念和方法的發(fā)起者和倡導(dǎo)者。認(rèn)知診斷測(cè)試的最終目的在于以K-12教育為代表的評(píng)估教育,能夠?qū)崿F(xiàn)學(xué)習(xí)者的自適應(yīng)學(xué)習(xí)和診斷評(píng)價(jià)。文獻(xiàn)分布說明研究?jī)?nèi)容處于高?!皩?shí)驗(yàn)室”階段,缺乏社會(huì)的廣泛關(guān)注、實(shí)踐和推廣應(yīng)用。
接下來,通過UCINET軟件呈現(xiàn)51個(gè)節(jié)點(diǎn),借助作者間的合作,觀察圖中度計(jì)算并排序,選出處于前列的若干位作者(假定中心作者為學(xué)術(shù)帶頭人),然后計(jì)算以“丁樹良”為中心的合作關(guān)系網(wǎng)絡(luò)圖,如表4所示。
由于文章作者合作較多,本研究以文獻(xiàn)篇數(shù)最多的“丁樹良”派系作為研究范例,將上表的矩陣導(dǎo)入U(xiǎn)CINET中,并繪圖(DRAW)得到科研合作關(guān)系網(wǎng)絡(luò)圖(如圖5)。
兩個(gè)節(jié)點(diǎn)的連線表示這兩個(gè)節(jié)點(diǎn)存在合作論文的關(guān)系,線條的粗細(xì)表示合作論文的篇數(shù),線條越粗,則合作論文數(shù)量越多。
采用UCINET 社會(huì)網(wǎng)絡(luò)分析軟件將這些派系進(jìn)行可視化處理。研究結(jié)果表明:
(1) 目前教育技術(shù)研究領(lǐng)域的合作類型主要為師生合作,較少跨校、跨區(qū)域合作;也存在少數(shù)的跨區(qū)域合作,因此形成了星狀輻射型。
(2) CD-CAT研究應(yīng)走出團(tuán)隊(duì)、校門,甚至跨越國(guó)界,開展跨校、跨區(qū)域、跨學(xué)科的科研合作,優(yōu)化研究團(tuán)隊(duì)構(gòu)成,從而進(jìn)一步提高研究質(zhì)量,加快知識(shí)擴(kuò)散。
三、CD-CAT研究項(xiàng)目現(xiàn)狀
接下來對(duì)國(guó)內(nèi)外認(rèn)知診斷自適應(yīng)測(cè)試的實(shí)驗(yàn)與應(yīng)用進(jìn)行詳細(xì)介紹。從上述文獻(xiàn)分析可知,國(guó)內(nèi)實(shí)踐案例較少,本研究團(tuán)隊(duì)經(jīng)過大量?jī)?nèi)容采集和梳理,選取相對(duì)規(guī)模較大的實(shí)驗(yàn)案例分別進(jìn)行闡述。而國(guó)外相對(duì)起步較早,2001年美國(guó)通過“No Child Left Behind Act of 2001”,表明有義務(wù)將施測(cè)結(jié)果告知學(xué)生和家長(zhǎng)。因此,診斷測(cè)試的價(jià)值和意義不再僅僅是提供分?jǐn)?shù),而是需要提供補(bǔ)救措施等。本研究列舉美國(guó)應(yīng)用較為廣泛的Smarter Balanced Assessment Consortium和最大的自適應(yīng)系統(tǒng)平臺(tái)Knewton,并分別闡釋。
2009年,教育部基礎(chǔ)教育司組織北京師范大學(xué)、江西師范大學(xué)和中央教育科學(xué)研究所(現(xiàn)中國(guó)教育科學(xué)研究院)等一大批研究學(xué)者,以數(shù)學(xué)和英語為考試切入點(diǎn),考察學(xué)生的核心知識(shí)和能力水平,以此命題進(jìn)行認(rèn)知診斷完成353道題目的編訂并且設(shè)定1套公共錨題,運(yùn)用DINA模型進(jìn)行診斷分析。
在北京師范大學(xué)心理學(xué)院劉紅云教授、美國(guó)伊利諾伊香檳分校張華華教授共同合作的“The development of computerized adaptive testing with cognitive diagnosis for an English achievement test in China”一文中介紹的研究,以國(guó)家基礎(chǔ)教育課程教材發(fā)展中心——學(xué)生學(xué)業(yè)質(zhì)量評(píng)價(jià)項(xiàng)目為依托,闡述了其在北京、大連等地進(jìn)行計(jì)算機(jī)認(rèn)知診斷的大規(guī)模測(cè)試的情況。由于軟件和硬件以及專業(yè)技能的限制,將CD-CAT應(yīng)用于學(xué)校項(xiàng)目是一個(gè)巨大的挑戰(zhàn),該項(xiàng)目克服傳統(tǒng)C/S(Client/Server)框架,將B/S(Browser/Server)架構(gòu)設(shè)計(jì)應(yīng)用于國(guó)內(nèi)的英語二級(jí)考試中。來自北京8所小學(xué)的584名學(xué)生首先參與了基于Web環(huán)境的測(cè)試,該測(cè)試有36道固定長(zhǎng)度題目,規(guī)定40分鐘內(nèi)完成。該實(shí)驗(yàn)驗(yàn)證了CD-CAT應(yīng)用于大規(guī)??荚嚨木薮鬂摿透咝?,同時(shí)參與測(cè)試的考生可以從中獲取技能掌握情況的診斷報(bào)告,為后續(xù)進(jìn)行學(xué)習(xí)干預(yù)和學(xué)習(xí)路徑調(diào)整提供了可能。此后,2011年1月,大約3萬名遼寧省大連市的五年級(jí)學(xué)生參加CD-CAT英語能力測(cè)試,該平臺(tái)利用網(wǎng)絡(luò)技術(shù)和自適應(yīng)診斷技術(shù),持續(xù)三天、同一時(shí)間承載2000人并發(fā)的測(cè)試。在此過程中,對(duì)題庫的優(yōu)化、采用香農(nóng)熵方法選題算法,以及內(nèi)容平衡和考試藍(lán)圖的限制的編制,都進(jìn)行了較好的實(shí)驗(yàn)。一方面,為學(xué)生和教師提供作答情況評(píng)定和診斷報(bào)告;另一方面,為研究者提供對(duì)CD-CAT效度全面審視的實(shí)踐機(jī)會(huì),為認(rèn)知診斷技術(shù)的大規(guī)模推廣奠定了堅(jiān)實(shí)的基礎(chǔ)。
美國(guó)也有諸多公司關(guān)注和投入CAT的領(lǐng)域,如ASSESSMENT SYSTEMS的Smarter Balanced評(píng)估 系統(tǒng)(http://www.smarterbalanced.org/practice-test/)。在能力測(cè)驗(yàn)方面,主要應(yīng)用于評(píng)估學(xué)生的英語和數(shù)學(xué)能力。2010年,美國(guó)針對(duì)K-12提出了全美教育標(biāo)準(zhǔn)(Common Core States Standards, 簡(jiǎn)稱CCSS),用于評(píng)估各個(gè)年級(jí)學(xué)生的數(shù)學(xué)能力和英語能力,并且已經(jīng)在全美46個(gè)州和哥倫比亞區(qū)施行。Smarter Balanced 評(píng)估系統(tǒng)利用強(qiáng)制性的終結(jié)性評(píng)價(jià)和可選的中期評(píng)估來提升計(jì)算機(jī)自適應(yīng)測(cè)試(CAT)的效率。在該評(píng)估系統(tǒng)中,計(jì)算機(jī)程序可以根據(jù)學(xué)生的響應(yīng)來調(diào)整整個(gè)評(píng)估問題的難度。例如,一個(gè)學(xué)生如果回答正確,則會(huì)收到一個(gè)更具挑戰(zhàn)性的題目,而一個(gè)不正確的答案產(chǎn)生一個(gè)更簡(jiǎn)單的問題。通過適應(yīng)學(xué)生的能力水平,系統(tǒng)推薦了一系列“量身定制”的測(cè)驗(yàn)問題給每個(gè)學(xué)生,可以快速識(shí)別哪些技能學(xué)生已經(jīng)掌握,哪些知識(shí)維度學(xué)生還沒有掌握。Smarter Balanced Practice Tests包括評(píng)分指南,現(xiàn)可用于三年級(jí)到八年級(jí)的英語、藝術(shù)和數(shù)學(xué)的認(rèn)知診斷,能夠?yàn)閷W(xué)習(xí)者提供一份可預(yù)覽的Smarter Balanced評(píng)估,清晰地反映每一位考生在當(dāng)前學(xué)習(xí)中每一門學(xué)科中的強(qiáng)項(xiàng)和弱項(xiàng),以及在未來學(xué)習(xí)中需要重點(diǎn)關(guān)注的領(lǐng)域。這種計(jì)算機(jī)評(píng)估能夠方便家長(zhǎng)、校長(zhǎng)和老師在很短的時(shí)間內(nèi)看到成效,并且通過這些診斷反饋,對(duì)學(xué)生因材施教,滿足其個(gè)性化學(xué)習(xí)需求。
此外,熟知的Knewton公司基于項(xiàng)目反應(yīng)理論,真實(shí)地測(cè)量出學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度,避免因題目的難易程度不同造成測(cè)量誤差。Knewton自適應(yīng)系統(tǒng)利用學(xué)生的歷史學(xué)習(xí)數(shù)據(jù)的網(wǎng)絡(luò)效應(yīng)來優(yōu)化推薦,提高學(xué)生學(xué)習(xí)效率。建立學(xué)生學(xué)習(xí)檔案,預(yù)設(shè)一些學(xué)習(xí)路徑點(diǎn)(根據(jù)知識(shí)技能圖譜),根據(jù)實(shí)際學(xué)生的使用數(shù)據(jù)(學(xué)習(xí)資源的使用效果和學(xué)習(xí)路徑點(diǎn)的學(xué)習(xí)效果),為后來的學(xué)習(xí)者推送下一個(gè)學(xué)習(xí)路徑點(diǎn)和學(xué)習(xí)資源。
綜上所述,國(guó)外CD-CAT發(fā)展已經(jīng)將智能學(xué)習(xí)系統(tǒng)、評(píng)估系統(tǒng)和教育測(cè)評(píng)融入其中。雖然從應(yīng)用角度來說,“自適應(yīng)”的成分居多,“認(rèn)知”的成分較少,但是將診斷功能結(jié)合到計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中,已經(jīng)成為研究熱點(diǎn)之一,吸引了眾多學(xué)者繼續(xù)推進(jìn)CD-CAT的實(shí)施應(yīng)用。雖然國(guó)內(nèi)很多研究者已經(jīng)意識(shí)到CD-CAT的優(yōu)勢(shì),也有研究者提出了中國(guó)教育進(jìn)展評(píng)估基于CD-CAT的改進(jìn)與展望,但是實(shí)踐應(yīng)用還處于研究或者起步階段。例如實(shí)際教學(xué)過程中,對(duì)相同分?jǐn)?shù)的學(xué)生還不能從能力和認(rèn)知水平角度進(jìn)行很好的診斷和評(píng)估,教師往往僅根據(jù)個(gè)人經(jīng)驗(yàn)來判斷學(xué)生的知識(shí)掌握狀態(tài)和認(rèn)知錯(cuò)誤,其教學(xué)設(shè)計(jì)與教學(xué)干預(yù)不能滿足學(xué)生的個(gè)性化需求。
四、對(duì)我國(guó)教育評(píng)價(jià)診斷的啟示
新一代測(cè)驗(yàn)理論階段在認(rèn)知水平的研究范式下產(chǎn)生,強(qiáng)調(diào)測(cè)驗(yàn)應(yīng)同時(shí)在宏觀能力水平和微觀認(rèn)知水平下進(jìn)行,認(rèn)知水平的研究應(yīng)深入到被試作答的認(rèn)知加工過程,其目的在于診斷認(rèn)知能力結(jié)構(gòu),亦在于揭示不同被試的認(rèn)知加工特點(diǎn),是能力水平研究的深入。認(rèn)知診斷實(shí)現(xiàn)了傳統(tǒng)教育考試無法企及的診斷功能,它在實(shí)踐中的運(yùn)用價(jià)值是不言而喻的:根據(jù)診斷結(jié)果,學(xué)生可以有針對(duì)性地學(xué),教師可以有針對(duì)性地教;教育教學(xué)機(jī)構(gòu)部門來說則可以了解當(dāng)前教育情況,為教育規(guī)劃及教育決策的制定提供依據(jù)。
計(jì)算機(jī)自適應(yīng)認(rèn)知診斷測(cè)試在教育評(píng)估中具有重要的發(fā)展意愿,目前混合式的學(xué)習(xí)環(huán)境中需要個(gè)性化的、實(shí)時(shí)的、及時(shí)的診斷和評(píng)估報(bào)告。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,MOOC等一大批在線課程蜂擁而至,但縱觀眾多網(wǎng)絡(luò)課程和實(shí)踐研究,其中缺少對(duì)學(xué)習(xí)者“量體裁衣”式的診斷評(píng)估。同時(shí),在我國(guó)教育的測(cè)評(píng)中,紙筆考試仍舊保留重要地位,然而缺少有效甄別、準(zhǔn)確評(píng)估和學(xué)習(xí)知識(shí)建議等內(nèi)容。同時(shí),隨著高考改革的實(shí)施與推進(jìn),構(gòu)建健全的教育評(píng)價(jià)體系顯得尤為重要。通過針對(duì)學(xué)習(xí)過程、學(xué)習(xí)能力評(píng)價(jià)的綜合診斷方法,可以提升學(xué)生綜合素質(zhì)。華南師范大學(xué)心理學(xué)院張敏強(qiáng)教授談到如何運(yùn)用認(rèn)知診斷方法與技術(shù)來評(píng)價(jià)學(xué)生的認(rèn)知能力,從而讓學(xué)生知道自己優(yōu)勢(shì)在哪里、不足在哪里、有什么方法可以補(bǔ)救。
因此,本研究結(jié)合我國(guó)發(fā)展現(xiàn)狀與需求和國(guó)外已有應(yīng)用研究的優(yōu)勢(shì),對(duì)國(guó)內(nèi)教育評(píng)價(jià)如何走向CD-CAT提出以下建議:
(一)教育評(píng)估方面
相比經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論,認(rèn)知診斷理論能把認(rèn)知過程與測(cè)量手段結(jié)合起來,不僅能對(duì)考生的整體水平做出評(píng)價(jià),還可以將考生的認(rèn)知結(jié)構(gòu)模式化,利用合適的測(cè)量模型對(duì)不同的認(rèn)知結(jié)構(gòu)模式進(jìn)行診斷,從而定時(shí)考察學(xué)生的認(rèn)知結(jié)構(gòu)和個(gè)體差異。認(rèn)知診斷方法可以應(yīng)用于會(huì)考、能力水平考試;課堂上運(yùn)用認(rèn)知診斷功能,可以幫助教師分析學(xué)生的優(yōu)勢(shì)和不足,不僅能對(duì)學(xué)生的整體水平進(jìn)行評(píng)價(jià),還能將學(xué)生的認(rèn)知結(jié)構(gòu)模式化,通過數(shù)據(jù)定量地分析出學(xué)生的認(rèn)知結(jié)構(gòu)和個(gè)體差異,這樣得到的信息量“大”且“細(xì)”,有助于個(gè)性化教學(xué)的實(shí)現(xiàn)。
1. 重視測(cè)量工具的研究和應(yīng)用
實(shí)現(xiàn)個(gè)性化的測(cè)試平臺(tái)和題庫,不僅需要熟悉測(cè)量理論,還需要掌握測(cè)量模型和工具、計(jì)算機(jī)程序、統(tǒng)計(jì)程序等,因而需要有關(guān)教育部門與研究團(tuán)隊(duì)投入人力、物力,依托信息技術(shù)、網(wǎng)絡(luò)技術(shù)和硬件設(shè)備開發(fā)有價(jià)值的題庫和測(cè)試平臺(tái)。
2. 對(duì)教師進(jìn)行評(píng)測(cè)培訓(xùn)
認(rèn)知診斷測(cè)試過程中,教師不僅能夠依據(jù)經(jīng)驗(yàn)和教學(xué)目標(biāo)提供考試題目,而且需要對(duì)學(xué)生所需的認(rèn)知水平和能力水平進(jìn)行詳細(xì)劃分,與研究團(tuán)隊(duì)配合共同繪制測(cè)驗(yàn)藍(lán)圖,從而確定測(cè)試屬性和知識(shí)點(diǎn)。因此,教育評(píng)測(cè)的培訓(xùn)是教學(xué)過程中必不可少的工具,對(duì)教師的專業(yè)培訓(xùn)尤其重要。
3. 題庫和測(cè)試平臺(tái)的地位
相比較紙筆考試,CD-CAT能夠更快地獲知考試成績(jī)或者錄取結(jié)果,測(cè)試能夠不受時(shí)間和地點(diǎn)限制,考試環(huán)境更加舒適和個(gè)性化。通過搭建題庫和測(cè)試平臺(tái),能夠保障和實(shí)現(xiàn)認(rèn)知診斷自適應(yīng)測(cè)試:既快速獲取診斷結(jié)果、報(bào)告,又可實(shí)施大規(guī)模題庫,保障大部分學(xué)生的考試題目難度和區(qū)分度一致,為教育公平提供可能。
(二)科研創(chuàng)新方面
打造精銳團(tuán)隊(duì),延伸研究深度。從文獻(xiàn)數(shù)據(jù)分析說明,目前我國(guó)研究“派系”較為集中,能夠拓展實(shí)踐應(yīng)用的驅(qū)動(dòng)項(xiàng)目較少。因此,應(yīng)當(dāng)加強(qiáng)跨團(tuán)隊(duì)、跨區(qū)域甚至跨國(guó)界的學(xué)術(shù)交流和合作,共享資源與經(jīng)驗(yàn),共同豐富和深化CD-CAT。
(三)實(shí)踐應(yīng)用方面
1. 利用現(xiàn)有資源進(jìn)行校際合作
將紙質(zhì)閱卷向計(jì)算機(jī)閱卷轉(zhuǎn)化,不僅要注意測(cè)驗(yàn)內(nèi)容的平移,還要開發(fā)計(jì)算機(jī)自適應(yīng)系統(tǒng)。根據(jù)國(guó)情,可以考慮具體個(gè)別學(xué)科先行的策略,借鑒國(guó)外經(jīng)驗(yàn)從不同學(xué)科、學(xué)段探究學(xué)業(yè)水平發(fā)展趨勢(shì),對(duì)影響學(xué)生能力發(fā)展的各種因素進(jìn)行調(diào)研,從認(rèn)知模型中尋找能夠與影響因素結(jié)合且能為學(xué)習(xí)者提供可選擇的、具有層級(jí)關(guān)系的學(xué)習(xí)路徑;聯(lián)動(dòng)家長(zhǎng)、教師和學(xué)校管理者共同組建“診斷評(píng)估生態(tài)圈”,促進(jìn)每一個(gè)學(xué)生的個(gè)性化和均衡發(fā)展。
2. 區(qū)域化合作,共同推進(jìn)CD-CAT實(shí)驗(yàn)
開發(fā)具有大量試題測(cè)試的題庫,操作環(huán)節(jié)具有保密性、安全性,機(jī)器性能的差異能夠被云計(jì)算所克服,從而能夠進(jìn)行異地同時(shí)或同地異時(shí)的考試。通過云平臺(tái)持續(xù)地將優(yōu)質(zhì)題目添加到題庫,進(jìn)而保證了陳題被淘汰,新題被“涌出”。云計(jì)算可以通過網(wǎng)絡(luò)使儲(chǔ)存在“云”上的教育服務(wù)與資源通過終端設(shè)備傳遞給每個(gè)有需要的人,這樣共享優(yōu)質(zhì)的教育資源,有助于促進(jìn)教育公平;而且把教育資源儲(chǔ)存在“云”上也可以節(jié)省購(gòu)買這些硬件資源所需要的成本,減少服務(wù)器及所需基礎(chǔ)設(shè)施的更新維護(hù)、人工管理和能源消耗費(fèi)用,降低教育成本。
[參考文獻(xiàn)]
陳秋梅,張敏強(qiáng). 2010. 認(rèn)知診斷模型發(fā)展及其應(yīng)用方法述評(píng)[J]. 心理科學(xué)進(jìn)展(3):522-529.
丁樹良. 2013. 認(rèn)知診斷分類中心的確定[J].心理學(xué)探新,33(5):396-401.
杜文平. 2016. 認(rèn)識(shí)改變和踐行教育評(píng)價(jià)——高考與中小學(xué)教育質(zhì)量綜合評(píng)價(jià)改革研討會(huì)綜述[J]. 中國(guó)考試(1): 59-63.
康春花. 2015. 小學(xué)數(shù)學(xué) “圖形與幾何” 認(rèn)知診斷測(cè)驗(yàn)的編制[J]. 教育測(cè)量與評(píng)價(jià)(10):4-8.
劉聲濤,戴海崎,周駿. 2006. 新一代測(cè)驗(yàn)理論——認(rèn)知診斷理論的源起與特征[J]. 心理學(xué)探新,26(4):73-77.
羅照盛. 2012. 項(xiàng)目反應(yīng)理論基礎(chǔ)[M]. 北京:北京師范大學(xué)出版社.
唐小娟. 2012. 計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)在認(rèn)知診斷中的應(yīng)用[J]. 心理科學(xué)進(jìn)展,20(4):616-626.
涂冬波. 2011. HO-DINA模型的MCMC參數(shù)估計(jì)及模型性能研究[J].心理科學(xué),34(6):1476-1481.
涂冬波. 2012. 認(rèn)知診斷理論方法與應(yīng)用[M]. 北京:北京師范大學(xué)出版社.
汪文義. 2015. 教育認(rèn)知診斷評(píng)估理論與技術(shù)研究[M]. 北京:北京師范大學(xué)出版集團(tuán).
魏順平,傅騫,路秋麗. 2008. 教育技術(shù)研究領(lǐng)域研究者派系分析與可視化研究[J]. 開放教育研究,14(1):79-85.
余娜. 2009. 認(rèn)知診斷理論的新進(jìn)展[J]. 考試研究(3):22-34.
曾彥鈞. 2006. 基于認(rèn)知結(jié)構(gòu)之適應(yīng)性診斷測(cè)驗(yàn)系統(tǒng)的防猜測(cè)選題策略[J]. 測(cè)驗(yàn)統(tǒng)計(jì)年刊(14):37-51.
張華華. 2013. 以自適應(yīng)的計(jì)算機(jī)考試改進(jìn)學(xué)業(yè)評(píng)價(jià). http://big5.workercn.cn/theory.workercn.cn/c/2013/03/20/130320103120673445 957.html
張華華. 2015. 自適應(yīng)測(cè)評(píng)和個(gè)體化教學(xué) ——伊利諾伊大學(xué)教授張華華. http://it.ccnu.edu.cn/shownews/index/2015_12/28/749.html
祝玉芳. 2009. 基于等級(jí)反應(yīng)模型的屬性層級(jí)方法[J]. 心理學(xué)報(bào)(3):267-275.
祝玉芳,王黎華,丁樹良,汪文義. 2015. 多策略的多級(jí)評(píng)分認(rèn)知診斷方法的開發(fā)[J]. 江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,39(4):371-376.
?isar, S. M., ?isar, P., & Pinter, R. (2016). Evaluation of knowledge in Object Oriented Programming course with computer adaptive tests. Computers & Education, 92, 142-160.
Frederiksen, N., Mislevy, R. J., & Bejar, I. (Eds.). (1993). Test theory for a new generation of tests. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.
Liu, H., Ding, S., & Chang, H. (2009). Developing cognitive diagnostic cat for chinese k-12 education: An innovative assessment for improving student learning. Paper presented at the annual meeting of National Council on Measurement in Education, San Diego, CA., 29, 262-277.
Liu, H. Y., You, X. F., Wang, W. Y., Ding, S. L., & Chang, H. H. (2013). The development of computerized adaptive testing with cognitive diagnosis for an English achievement test in China. Journal of classification, 30(2), 152.
Mislevy, R. J., Sheehan, K. M., & Wingersky, M. (1993). How to equate tests with little or no data. Journal of Educational Measurement, 30(1), 55-78.
Nichols, S. L., Glass, G. V., & Berliner, D. C. (2005). High-Stakes Testing and Student Achievement: Problems for the No Child Left Behind Act. Appendices. Education Policy Research Unit.
Roussos, L. A., DiBello, L. V., Stout, W., Hartz, S. M., Henson, R. A., & Templin, J. L. (2007). The fusion model skills diagnosis system. Cognitive diagnostic assessment for education: Theory and applications, 275-318.
Triantafillou, E., Georgiadou, E., & Economides, A. A. (2008). The design and evaluation of a computerized adaptive test on mobile devices. Computers & Education, 50(4), 1319-1330.
收稿日期:2016-04-11
定稿日期:2016-07-19
作者簡(jiǎn)介:劉妍,博士研究生;戴靜,石小戀,牛雨,祝嘉鈺,碩士研究生;顧小清,教授,博士生導(dǎo)師,本文通訊作者。華東師范大學(xué)教育信息技術(shù)系(200000)。
責(zé)任編輯 郝 丹
編 校 韓世梅