認(rèn)知診斷理論在計(jì)算機(jī)自適應(yīng)測(cè)試中的應(yīng)用與啟示

2017-06-06 11:03劉妍戴靜石小戀牛雨祝嘉鈺顧小清

中國(guó)遠(yuǎn)程教育 2017年4期

劉妍+戴靜+石小戀+牛雨+祝嘉鈺+顧小清

【摘要】

隨著科學(xué)技術(shù)的進(jìn)步，計(jì)算機(jī)技術(shù)正逐步與認(rèn)知診斷理論結(jié)合，形成計(jì)算機(jī)化自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)（Computerized Adaptive Test for Cognitive Diagnosis， CD-CAT）的評(píng)測(cè)方式。用CD-CAT進(jìn)行教育測(cè)量評(píng)估有著諸多優(yōu)勢(shì)，但是目前國(guó)內(nèi)尚缺乏計(jì)算機(jī)化自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)的實(shí)驗(yàn)研究與大規(guī)模的實(shí)踐應(yīng)用。本研究運(yùn)用內(nèi)容分析法，以“計(jì)算機(jī)自適應(yīng)測(cè)試”和“計(jì)算機(jī)認(rèn)知診斷測(cè)驗(yàn)”為關(guān)鍵詞進(jìn)行搜索，結(jié)果表明：國(guó)內(nèi)于2006年開始逐步開展CD-CAT研究，近幾年的研究熱點(diǎn)主要聚焦在理論概況（占總樣本的比例為15%）和現(xiàn)狀綜述（占總樣本的比例為74%）方面，具體內(nèi)容包括確定屬性、認(rèn)知診斷模型和流程方法，也有小規(guī)模的測(cè)試實(shí)驗(yàn)，如英語、化學(xué)等學(xué)科?；诖?，運(yùn)用UCINET將“研究者派系”可視化，發(fā)現(xiàn)領(lǐng)域科研合作緊密，但是整體合作疏遠(yuǎn)，小團(tuán)隊(duì)研究更加集中。最后，文章介紹了國(guó)內(nèi)外CD-CAT實(shí)踐案例，闡述了認(rèn)知診斷評(píng)價(jià)在教育領(lǐng)域的發(fā)展方向和策略，期望對(duì)國(guó)內(nèi)教育評(píng)價(jià)走向CD-CAT有所啟發(fā)。

【關(guān)鍵詞】教育評(píng)估；認(rèn)知診斷理論；認(rèn)知診斷模型；計(jì)算機(jī)化自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)

【中圖分類號(hào)】 G434 【文獻(xiàn)標(biāo)識(shí)碼】 B 【文章編號(hào)】 1009-458x（2017）04-0042-09

一、研究背景

隨著計(jì)算機(jī)技術(shù)、通信設(shè)備和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展，教育信息化的發(fā)展面臨著重大變革，由數(shù)據(jù)主導(dǎo)的“大時(shí)代”正在走入教育領(lǐng)域，進(jìn)而滲透到教育發(fā)展與改革的戰(zhàn)略中。復(fù)雜的、數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化教學(xué)一般需要提供非線性的教學(xué)輔導(dǎo)，以及能夠滿足學(xué)習(xí)者個(gè)別化、具有差異的認(rèn)知水平和能力水平的診斷評(píng)估。因而，以認(rèn)知診斷測(cè)驗(yàn)為代表的新一代測(cè)驗(yàn)理論應(yīng)運(yùn)而生，能夠解釋學(xué)生在推理和解決問題過程中所用到的知識(shí)和技能，并提供關(guān)于學(xué)生知識(shí)技能掌握情況的診斷信息，同時(shí)保證測(cè)驗(yàn)的“公平性”，為“因材施教”和“個(gè)性化”教學(xué)提供可能。

Mislevy等（1993）指出，統(tǒng)計(jì)測(cè)驗(yàn)理論的發(fā)展可以分為經(jīng)典測(cè)驗(yàn)理論（Classical Test Theory， CTT）階段、概化理論階段和項(xiàng)目反應(yīng)理論（Item Response Theory， IRT）階段。CTT和IRT 都屬于標(biāo)準(zhǔn)測(cè)驗(yàn)理論。標(biāo)準(zhǔn)測(cè)驗(yàn)理論視所測(cè)的心理特質(zhì)為一個(gè)單純的“統(tǒng)計(jì)結(jié)構(gòu)”，目的在于從宏觀上給個(gè)體一個(gè)整體的評(píng)估。隨著心理測(cè)量學(xué)和認(rèn)知心理學(xué)的進(jìn)一步發(fā)展和現(xiàn)代教育技術(shù)水平的進(jìn)步，學(xué)習(xí)者更加渴求獲得更具體的、細(xì)微水平的測(cè)量與診斷評(píng)估。Frederiksen、Mislevy和Bejar（1993）編著的Test theory for a new generation of tests正式出版，標(biāo)志著新一代測(cè)量理論的誕生。如圖1所示，認(rèn)知診斷評(píng)估逐步走入歷史舞臺(tái)，強(qiáng)調(diào)“能力水平”和“認(rèn)知水平”維度能夠被同時(shí)診斷，不再僅僅是單一的宏觀維度的“知識(shí)水平”。計(jì)算機(jī)化自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)（Computerized Adaptive Test for Cognitive Diagnosis， CD-CAT）是計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)理論和認(rèn)知診斷理論相結(jié)合的產(chǎn)物，目的是達(dá)到“因材施教”“量體裁衣”式的自適應(yīng)診斷，根據(jù)學(xué)習(xí)者當(dāng)前狀態(tài)，選取與之相適應(yīng)的題目進(jìn)行測(cè)試，進(jìn)而診斷學(xué)習(xí)者能力水平和認(rèn)知水平，以診斷報(bào)告的方式為學(xué)習(xí)者提供提升的建議和策略。

縱觀計(jì)算機(jī)技術(shù)與統(tǒng)計(jì)測(cè)驗(yàn)的結(jié)合，其發(fā)展分為兩個(gè)階段：其一是以項(xiàng)目反應(yīng)理論（IRT）為代表的標(biāo)準(zhǔn)計(jì)算機(jī)自適應(yīng)測(cè)量階段；其二指新一代測(cè)量理論的計(jì)算機(jī)自適應(yīng)階段（認(rèn)知診斷是其核心內(nèi)容）。項(xiàng)目反應(yīng)理論的特點(diǎn)是以概率函數(shù)的形式來描述項(xiàng)目作答反映結(jié)果是如何受到被試能力水平和項(xiàng)目特征聯(lián)合作用的影響。自適應(yīng)測(cè)驗(yàn)起源于Alfred Binet（1904）開發(fā)的智力測(cè)驗(yàn)，根據(jù)被試的不同特質(zhì)水平和題目的不同難度與區(qū)分度，對(duì)被試實(shí)測(cè)不同的測(cè)驗(yàn)題目，使這些題目與被試的實(shí)際水平盡可能相適應(yīng)，這樣使測(cè)驗(yàn)更具有針對(duì)性，從而每施測(cè)一道題就能獲得最大的信息量。

當(dāng)現(xiàn)代技術(shù)手段——計(jì)算機(jī)引入到測(cè)量領(lǐng)域中，計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)（Computerized Adaptive Testing， CAT）由此誕生，由計(jì)算機(jī)自動(dòng)從題庫中選擇合適的題目給學(xué)習(xí)者作答，一方面能夠在學(xué)習(xí)者做完后自動(dòng)評(píng)估其能力水平，給出適合學(xué)習(xí)者的下一道題目；另一方面能夠自動(dòng)設(shè)定終止規(guī)則，即當(dāng)達(dá)到能夠評(píng)估學(xué)習(xí)者能力的題目數(shù)后，測(cè)試會(huì)自動(dòng)停止。之后，運(yùn)用CAT思想與認(rèn)知診斷理論結(jié)合，從題庫中選擇最適合學(xué)習(xí)者水平和最能區(qū)分水平能力的題目作答，對(duì)其知識(shí)狀態(tài)達(dá)到最恰當(dāng)?shù)脑u(píng)估。CD-CAT更多關(guān)注被試掌握模式的自適應(yīng)，根據(jù)可觀察的行為和反應(yīng)，推測(cè)潛在的知識(shí)結(jié)構(gòu)和技能掌握情況。例如，獲得相同分?jǐn)?shù)的學(xué)生不能夠體現(xiàn)個(gè)體差異，如果在測(cè)驗(yàn)中能夠?qū)W(xué)生作答反應(yīng)、知識(shí)反應(yīng)和能力診斷，從而能夠進(jìn)一步提出補(bǔ)救措施。CD-CAT的流程包括：開始測(cè)試—初始題目選擇—估計(jì)被試當(dāng)前狀態(tài)—選題策略—認(rèn)知診斷計(jì)量模型—終止條件—診斷報(bào)告。對(duì)于CD-CAT的研究目前處于探索開發(fā)階段，組成CD-CAT各個(gè)階段的問題仍需要摸索和實(shí)踐應(yīng)用，例如如何確定知識(shí)狀態(tài)和表征能力屬性、認(rèn)知診斷模型的應(yīng)用研究，如何選擇初始題目，以及題庫的開發(fā)、建設(shè)與維護(hù)等方面。

綜上所述，為了從整體上把握CD-CAT在國(guó)內(nèi)的發(fā)展脈絡(luò)，厘清發(fā)展現(xiàn)狀和研究聚焦，提出實(shí)施CD-CAT的科研建議和實(shí)施策略，分別從以下方面進(jìn)行分析：一方面，以時(shí)間（2005-2015年）為軸，考察關(guān)于“認(rèn)知診斷自適應(yīng)測(cè)試”文獻(xiàn)的研究情況，采用內(nèi)容分析方法對(duì)已有百余篇中英文文獻(xiàn)進(jìn)行內(nèi)容分析，并通過數(shù)據(jù)的可視化表征和社會(huì)網(wǎng)絡(luò)分析工具，探討其研究重心和內(nèi)容；另一方面，通過分析國(guó)內(nèi)外已有CD-CAT平臺(tái)和項(xiàng)目的實(shí)踐情況，總結(jié)和借鑒國(guó)外實(shí)施經(jīng)驗(yàn)，為我國(guó)今后的CD-CAT研究提供發(fā)展策略。

二、研究過程

（一）研究方法與工具

本研究主要采用文獻(xiàn)研究法、內(nèi)容分析法和數(shù)據(jù)可視化的方法，通過對(duì)有效文獻(xiàn)的各類屬性進(jìn)行分析和標(biāo)識(shí)，從而獲得不同維度的計(jì)量分析結(jié)果，即對(duì)本質(zhì)內(nèi)容進(jìn)行不同方面、由淺入深、層層遞進(jìn)的非線性分析。研究主要借助軟件管理軟件NoteExpress、數(shù)據(jù)處理軟件SPSS 20.0和詞云生成平臺(tái)Tagxedo。首先，界定研究?jī)?nèi)容和范圍CD-CAT；然后，團(tuán)隊(duì)成員分別對(duì)2005-2015年的文章進(jìn)行篩選，梳理成為研究樣本；接著，根據(jù)已有文獻(xiàn)確定分析維度，以理論概述、現(xiàn)狀實(shí)踐、研究方法等為分析內(nèi)容，對(duì)樣本進(jìn)行統(tǒng)計(jì)和處理。

（二）數(shù)據(jù)收集

采用內(nèi)容分析法對(duì)2005-2015年國(guó)內(nèi)發(fā)表的關(guān)于自適應(yīng)認(rèn)知診斷的文獻(xiàn)進(jìn)行比較、分析、綜合，對(duì)研究?jī)?nèi)容和現(xiàn)狀進(jìn)行梳理和總結(jié)。為了研究的嚴(yán)謹(jǐn)性和數(shù)據(jù)分析的準(zhǔn)確性，將學(xué)術(shù)論文與畢業(yè)論文分開統(tǒng)計(jì)，中文數(shù)據(jù)庫來源有“中國(guó)知網(wǎng)”和“萬方數(shù)據(jù)庫”，以“認(rèn)知診斷”和“認(rèn)知診斷自適應(yīng)測(cè)驗(yàn)”為關(guān)鍵詞進(jìn)行搜索，與教育測(cè)量和教育技術(shù)領(lǐng)域相關(guān)的文獻(xiàn)匯總?cè)缦拢褐形膶W(xué)術(shù)期刊檢索到140篇，學(xué)位論文68篇；CSSCI期刊主要集中在《北京師范大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版）》《教學(xué)學(xué)報(bào)》《心理科學(xué)》《心理科學(xué)進(jìn)展》和《心理學(xué)探新》等。為了對(duì)比中英文文獻(xiàn)關(guān)于結(jié)果分析中初步印象部分的差異，即關(guān)注焦點(diǎn)可視化部分，選取以“Computerized Adaptive Test for Cognitive Diagnosis”和“Cognitive Diagnosis”為關(guān)鍵詞，在Computers & Education、 Computers in Human Behavior和Journal of Computer Assisted Learning（數(shù)據(jù)庫分別為ScienceDirect、SpringerLink、Wiley Online和ERIC）等教育技術(shù)專業(yè)相關(guān)期刊中搜集到論文66篇。

本研究進(jìn)行了兩輪文獻(xiàn)搜索和文獻(xiàn)篩選，共有5名團(tuán)隊(duì)成員參與，針對(duì)不同期刊進(jìn)行分工。第一輪主要對(duì)目標(biāo)期刊和目標(biāo)關(guān)鍵詞進(jìn)行“地毯式”搜索，得到中文文獻(xiàn)233篇，英文論文79篇，利用文獻(xiàn)管理工具NoteExpress將其分類保存；第二輪采用內(nèi)容分析法對(duì)自適應(yīng)認(rèn)知診斷文獻(xiàn)的關(guān)鍵詞、作者、研究主題進(jìn)行分類，最終確定中文文獻(xiàn)140篇，英文文獻(xiàn)66篇。對(duì)作者進(jìn)行分析的主要目的是對(duì)不同研究“帶頭人”和研究單位的分布進(jìn)行研究，以辨識(shí)其影響力和規(guī)模。首先，主要對(duì)文獻(xiàn)的研究主題進(jìn)行分析。團(tuán)隊(duì)成員基于文獻(xiàn)閱讀和積累對(duì)計(jì)算機(jī)自適應(yīng)測(cè)試、認(rèn)知診斷、自適應(yīng)認(rèn)知診斷測(cè)試的過程進(jìn)行分類，討論之后達(dá)成一致，構(gòu)建初步框架；其次，在上述框架基礎(chǔ)上，根據(jù)文獻(xiàn)的關(guān)鍵詞進(jìn)行記錄。如《小學(xué)數(shù)學(xué)“圖形與幾何”認(rèn)知診斷測(cè)驗(yàn)的編制》一文中，以認(rèn)知診斷、多策略、多級(jí)評(píng)分和Q矩陣為關(guān)鍵詞，對(duì)多策略的多級(jí)評(píng)分認(rèn)知診斷算法（多級(jí)評(píng)分廣義聚類判別法，GDD-P）進(jìn)行改進(jìn)與應(yīng)用，并且介紹了測(cè)驗(yàn)藍(lán)圖編制、Q矩陣，與單策略認(rèn)知診斷方法進(jìn)行對(duì)比，是對(duì)算法和理論的深入研究。因此，該文章涉及的分析內(nèi)容分別是：理論研究、Q矩陣、認(rèn)知診斷模型。該文章分析的一致性（5位成員）達(dá)到93%；最后，確定分析框架，對(duì)所有文獻(xiàn)進(jìn)行閱讀，完善文獻(xiàn)分析內(nèi)容。

（三）結(jié)果分析

1. 初步印象：有哪些研究關(guān)注點(diǎn)

本研究選取數(shù)據(jù)可視化—詞云的表達(dá)方式展示樣本研究的核心內(nèi)容?？紤]到支持中文統(tǒng)計(jì)的功能，選擇統(tǒng)計(jì)平臺(tái)Tagxedo（http：//www.tagxedo.com/app.html），詞云支持中文輸入，對(duì)文字的輸入內(nèi)容、形狀等可以個(gè)性化定義（如圖2所示）。中文詞云中“認(rèn)知診斷”“規(guī)則空間模型”和“屬性”等頻

次最高，領(lǐng)銜關(guān)鍵詞說明了研究領(lǐng)域的聚焦，其中研究問題主要關(guān)注于學(xué)業(yè)評(píng)估診斷、認(rèn)知診斷模型驗(yàn)證與應(yīng)用（如DINA模型）、紙筆考試與計(jì)算機(jī)自適應(yīng)考試差異研究與效度研究?？梢猿醪酵茢辔墨I(xiàn)研究集中于CD-CAT的知識(shí)屬性、認(rèn)知診斷模型研究等初步應(yīng)用階段。

為了使中英文文獻(xiàn)具有對(duì)照意義，同樣選取統(tǒng)計(jì)平臺(tái)Tagxedo進(jìn)行詞頻統(tǒng)計(jì)和可視化處理（如圖3所示）。英文詞云中顯示具體的應(yīng)用方法（蒙特卡羅模擬法）、語言程序（R語言）知識(shí)評(píng)估和學(xué)習(xí)干預(yù)成為僅次于測(cè)試、自適應(yīng)等的關(guān)鍵詞。從宏觀角度看，一方面，英文文獻(xiàn)的關(guān)注點(diǎn)更加聚焦，能夠?qū)?shí)際的認(rèn)知模型進(jìn)行測(cè)驗(yàn)和實(shí)踐應(yīng)用；另一方面，體現(xiàn)了自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)的價(jià)值和意義所在，對(duì)學(xué)生的個(gè)性化學(xué)習(xí)進(jìn)行指導(dǎo)和教學(xué)干預(yù)，利用技術(shù)促進(jìn)測(cè)試診斷最大化的實(shí)現(xiàn)。

通過詞云分析，對(duì)CD-CAT的研究熱點(diǎn)有了初步了解。研究發(fā)現(xiàn)，國(guó)內(nèi)的研究關(guān)鍵詞集中在理論基礎(chǔ)、算法改進(jìn)層面，與教育、學(xué)習(xí)等過程關(guān)聯(lián)較少；國(guó)外論文分析領(lǐng)域表示逐步通過技術(shù)方法“作用”于教育領(lǐng)域，與評(píng)估評(píng)價(jià)、反饋干預(yù)的實(shí)驗(yàn)與應(yīng)用關(guān)聯(lián)較多。如Sanja（2015）以C++面向?qū)ο缶幊陶n程為例，開發(fā)實(shí)現(xiàn)自適應(yīng)測(cè)試平臺(tái)，選取實(shí)驗(yàn)組與對(duì)照組，分別用自適應(yīng)測(cè)試和筆紙測(cè)試進(jìn)行比較，結(jié)合問卷、訪談的分析方法對(duì)自適應(yīng)測(cè)試的過程、方法、優(yōu)勢(shì)、實(shí)驗(yàn)應(yīng)用進(jìn)行詳細(xì)闡述；Triantafillou（2008）以計(jì)算機(jī)自適應(yīng)測(cè)試?yán)碚摓榛A(chǔ)，開發(fā)依托移動(dòng)設(shè)備的自適應(yīng)測(cè)試工具，將專家的評(píng)價(jià)靈活地運(yùn)用于教育評(píng)估過程之中。

2. 漸入佳境：局部剖析

樣本分析單元分別從研究創(chuàng)新點(diǎn)、發(fā)表時(shí)間、單位、數(shù)量、研究方法和理論支撐等方面展開，具體統(tǒng)計(jì)維度涵蓋認(rèn)知診斷測(cè)驗(yàn)題庫建立、初始題選擇、選題策略、認(rèn)知診斷計(jì)量模型、知識(shí)狀態(tài)估計(jì)方法、終止規(guī)則、原始題參數(shù)在線估計(jì)和屬性在線標(biāo)定、理論研究和實(shí)踐應(yīng)用等。

（1） CD-CAT研究歷程分析

借助NoteExpress 統(tǒng)計(jì)學(xué)術(shù)論文和學(xué)位論文發(fā)表情況，以圖4表現(xiàn)發(fā)展歷程。

作為“量體裁衣”式的測(cè)驗(yàn)，CAT始于20世紀(jì)七八十年代。隨著網(wǎng)絡(luò)與科技進(jìn)步，自適應(yīng)測(cè)試可謂發(fā)揮到了極致，如GRE、GMAT、美國(guó)注冊(cè)管理會(huì)計(jì)師（CMA）等等。以認(rèn)知診斷理論為基礎(chǔ)的CD-CAT相比較于CAT，更加能夠利用項(xiàng)目屬性和認(rèn)知模型優(yōu)勢(shì)，進(jìn)行診斷性的測(cè)驗(yàn)編制和評(píng)測(cè)。從圖4可以看出，我國(guó)的發(fā)展從2006年起步，2008年研究文獻(xiàn)逐步增多，例如曾彥鈞等人（2006）提出CD-CAT以認(rèn)知結(jié)構(gòu)為基礎(chǔ)，在題庫建設(shè)、起始規(guī)則、選題策略、被試知識(shí)狀態(tài)估計(jì)、終止規(guī)則和曝光率等部分與傳統(tǒng)的CAT有很大區(qū)別。2011年，是學(xué)術(shù)論文和學(xué)位論文發(fā)展的高峰，之后學(xué)位論文研究數(shù)量所有下滑，期刊論文數(shù)量變化不大。

（2）CD-CAT研究?jī)?nèi)容分析

參照認(rèn)知診斷評(píng)估的主要步驟包括：①描述測(cè)量目的和確定屬性；②創(chuàng)建認(rèn)知模型；③設(shè)計(jì)測(cè)驗(yàn)Q矩陣；④開發(fā)或選擇認(rèn)知診斷模型（CDM）；⑤評(píng)估Q矩陣和CDM；⑥模型參數(shù)估計(jì)；⑦評(píng)估診斷與干預(yù)。其中有的步驟可能循環(huán)或者迭代。對(duì)文獻(xiàn)的研究?jī)?nèi)容進(jìn)行歸類（如表1所示）。

研究團(tuán)隊(duì)詳細(xì)閱讀140篇學(xué)術(shù)文獻(xiàn)，發(fā)現(xiàn)很多文獻(xiàn)聚焦于診斷模型、Q矩陣，以及概況綜述和自適應(yīng)認(rèn)知診斷流程描述的研究，缺少完整的實(shí)踐應(yīng)用的成功案例。統(tǒng)計(jì)數(shù)據(jù)表明：

①相比較于國(guó)外CD-CAT，國(guó)內(nèi)相關(guān)研究進(jìn)程較慢，并且研究?jī)?nèi)容集中在理論概述和小規(guī)模的實(shí)驗(yàn)證明上，缺乏大規(guī)模應(yīng)用CD-CAT相關(guān)的文獻(xiàn)支持?？梢姡瑖?guó)內(nèi)自適應(yīng)的教育評(píng)價(jià)方式應(yīng)用還未大范圍普及，通過技術(shù)診斷學(xué)習(xí)者的能力水平和知識(shí)水平，并且提供有效的教學(xué)干預(yù)的案例還不夠成熟。

②基礎(chǔ)理論研究占文獻(xiàn)總數(shù)的74.2%。例如，唐小娟、丁樹良和俞宗火（2012）提出計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)在認(rèn)知中的應(yīng)用，分別從認(rèn)知診斷模型、題庫建設(shè)、起始規(guī)則、選題策略、被試知識(shí)狀態(tài)和終止規(guī)則等幾部分進(jìn)行了詳細(xì)介紹。有64篇文獻(xiàn)（45.7%）對(duì)認(rèn)知診斷模型進(jìn)行介紹。截至2007年，常見的認(rèn)知診斷模型有補(bǔ)償模型LLTM（線性邏輯斯蒂克測(cè)驗(yàn)?zāi)Ｐ停┖蚆IRT-C等，非補(bǔ)償模型RSM（規(guī)則空間模型）、DINA（確定性輸入噪音與門模型）、HO-DINA（高階DINA模型）、RUM（融合模型）和AHM（屬性層級(jí)模型）。

③實(shí)驗(yàn)實(shí)踐比例為30%，其中有10%的文獻(xiàn)敘述了相應(yīng)的教育干預(yù)措施，例如數(shù)學(xué)、物理、化學(xué)和英語。康春花等（2015）以小學(xué)數(shù)學(xué)與幾何的知識(shí)點(diǎn)和問題解決能力作為認(rèn)知屬性的分類，定義了數(shù)學(xué)知識(shí)和認(rèn)知過程，并采用口語報(bào)告法對(duì)認(rèn)知模型進(jìn)行質(zhì)性驗(yàn)證，選取某校六年級(jí)1，128名學(xué)生進(jìn)行了測(cè)驗(yàn)。

近幾年，新模型的研究也為自適應(yīng)認(rèn)知診斷測(cè)試研究開拓了一片新天地，例如祝玉芳等（2009）的多級(jí)評(píng)分AHM模型，涂冬波等（2010）提出多級(jí)評(píng)分DINA模型。余娜（2009）提出診斷模型的評(píng)估問題由信度和效度決定，認(rèn)知診斷評(píng)估中信度采用校正之后的模型產(chǎn)生兩組平行的模擬考生，分布估計(jì)每組掌握情況，計(jì)算相同考生被劃分到相同屬性掌握狀態(tài)的百分比。

3. 升華：合作關(guān)系追蹤

科學(xué)領(lǐng)域的研究往往存在學(xué)術(shù)帶頭人，也往往會(huì)以學(xué)術(shù)帶頭人為核心形成研究領(lǐng)域的網(wǎng)絡(luò)關(guān)系。本研究借鑒魏順平等（2008）提出的新的n-派系定義，利用研究者合作關(guān)系網(wǎng)絡(luò)研究，建立“作者A-作者B”關(guān)聯(lián)關(guān)系。在社會(huì)網(wǎng)絡(luò)分析中，派系（subgroup）是社群中的一小群人關(guān)系特別緊密。

首先，借助Excel統(tǒng)計(jì)研究者與文獻(xiàn)之間的關(guān)聯(lián)表（如表2所示），以“作者-文獻(xiàn)-單位”的方式表現(xiàn)。

本研究中CD-CAT文獻(xiàn)量大于5篇的作者見表3，通過論文作者和機(jī)構(gòu)分析發(fā)現(xiàn)，大部分文獻(xiàn)作者來源于高校和研究所，并且主要來源于江西師范大學(xué)的心理學(xué)院和計(jì)算機(jī)信息工程學(xué)院，以及北京師范大學(xué)心理學(xué)院。究其原因，計(jì)算機(jī)自適應(yīng)認(rèn)知診斷測(cè)驗(yàn)研究屬于專業(yè)性較強(qiáng)、理論基礎(chǔ)扎實(shí)的研究領(lǐng)域，高校師生是新理念和方法的發(fā)起者和倡導(dǎo)者。認(rèn)知診斷測(cè)試的最終目的在于以K-12教育為代表的評(píng)估教育，能夠?qū)崿F(xiàn)學(xué)習(xí)者的自適應(yīng)學(xué)習(xí)和診斷評(píng)價(jià)。文獻(xiàn)分布說明研究?jī)?nèi)容處于高?！皩?shí)驗(yàn)室”階段，缺乏社會(huì)的廣泛關(guān)注、實(shí)踐和推廣應(yīng)用。

接下來，通過UCINET軟件呈現(xiàn)51個(gè)節(jié)點(diǎn)，借助作者間的合作，觀察圖中度計(jì)算并排序，選出處于前列的若干位作者（假定中心作者為學(xué)術(shù)帶頭人），然后計(jì)算以“丁樹良”為中心的合作關(guān)系網(wǎng)絡(luò)圖，如表4所示。

由于文章作者合作較多，本研究以文獻(xiàn)篇數(shù)最多的“丁樹良”派系作為研究范例，將上表的矩陣導(dǎo)入U(xiǎn)CINET中，并繪圖（DRAW）得到科研合作關(guān)系網(wǎng)絡(luò)圖（如圖5）。

兩個(gè)節(jié)點(diǎn)的連線表示這兩個(gè)節(jié)點(diǎn)存在合作論文的關(guān)系，線條的粗細(xì)表示合作論文的篇數(shù)，線條越粗，則合作論文數(shù)量越多。

采用UCINET 社會(huì)網(wǎng)絡(luò)分析軟件將這些派系進(jìn)行可視化處理。研究結(jié)果表明：

（1）目前教育技術(shù)研究領(lǐng)域的合作類型主要為師生合作，較少跨校、跨區(qū)域合作；也存在少數(shù)的跨區(qū)域合作，因此形成了星狀輻射型。

（2） CD-CAT研究應(yīng)走出團(tuán)隊(duì)、校門，甚至跨越國(guó)界，開展跨校、跨區(qū)域、跨學(xué)科的科研合作，優(yōu)化研究團(tuán)隊(duì)構(gòu)成，從而進(jìn)一步提高研究質(zhì)量，加快知識(shí)擴(kuò)散。

三、CD-CAT研究項(xiàng)目現(xiàn)狀

接下來對(duì)國(guó)內(nèi)外認(rèn)知診斷自適應(yīng)測(cè)試的實(shí)驗(yàn)與應(yīng)用進(jìn)行詳細(xì)介紹。從上述文獻(xiàn)分析可知，國(guó)內(nèi)實(shí)踐案例較少，本研究團(tuán)隊(duì)經(jīng)過大量?jī)?nèi)容采集和梳理，選取相對(duì)規(guī)模較大的實(shí)驗(yàn)案例分別進(jìn)行闡述。而國(guó)外相對(duì)起步較早，2001年美國(guó)通過“No Child Left Behind Act of 2001”，表明有義務(wù)將施測(cè)結(jié)果告知學(xué)生和家長(zhǎng)。因此，診斷測(cè)試的價(jià)值和意義不再僅僅是提供分?jǐn)?shù)，而是需要提供補(bǔ)救措施等。本研究列舉美國(guó)應(yīng)用較為廣泛的Smarter Balanced Assessment Consortium和最大的自適應(yīng)系統(tǒng)平臺(tái)Knewton，并分別闡釋。

2009年，教育部基礎(chǔ)教育司組織北京師范大學(xué)、江西師范大學(xué)和中央教育科學(xué)研究所（現(xiàn)中國(guó)教育科學(xué)研究院）等一大批研究學(xué)者，以數(shù)學(xué)和英語為考試切入點(diǎn)，考察學(xué)生的核心知識(shí)和能力水平，以此命題進(jìn)行認(rèn)知診斷完成353道題目的編訂并且設(shè)定1套公共錨題，運(yùn)用DINA模型進(jìn)行診斷分析。

在北京師范大學(xué)心理學(xué)院劉紅云教授、美國(guó)伊利諾伊香檳分校張華華教授共同合作的“The development of computerized adaptive testing with cognitive diagnosis for an English achievement test in China”一文中介紹的研究，以國(guó)家基礎(chǔ)教育課程教材發(fā)展中心——學(xué)生學(xué)業(yè)質(zhì)量評(píng)價(jià)項(xiàng)目為依托，闡述了其在北京、大連等地進(jìn)行計(jì)算機(jī)認(rèn)知診斷的大規(guī)模測(cè)試的情況。由于軟件和硬件以及專業(yè)技能的限制，將CD-CAT應(yīng)用于學(xué)校項(xiàng)目是一個(gè)巨大的挑戰(zhàn)，該項(xiàng)目克服傳統(tǒng)C/S（Client/Server）框架，將B/S（Browser/Server）架構(gòu)設(shè)計(jì)應(yīng)用于國(guó)內(nèi)的英語二級(jí)考試中。來自北京8所小學(xué)的584名學(xué)生首先參與了基于Web環(huán)境的測(cè)試，該測(cè)試有36道固定長(zhǎng)度題目，規(guī)定40分鐘內(nèi)完成。該實(shí)驗(yàn)驗(yàn)證了CD-CAT應(yīng)用于大規(guī)?？荚嚨木薮鬂摿透咝?，同時(shí)參與測(cè)試的考生可以從中獲取技能掌握情況的診斷報(bào)告，為后續(xù)進(jìn)行學(xué)習(xí)干預(yù)和學(xué)習(xí)路徑調(diào)整提供了可能。此后，2011年1月，大約3萬名遼寧省大連市的五年級(jí)學(xué)生參加CD-CAT英語能力測(cè)試，該平臺(tái)利用網(wǎng)絡(luò)技術(shù)和自適應(yīng)診斷技術(shù)，持續(xù)三天、同一時(shí)間承載2000人并發(fā)的測(cè)試。在此過程中，對(duì)題庫的優(yōu)化、采用香農(nóng)熵方法選題算法，以及內(nèi)容平衡和考試藍(lán)圖的限制的編制，都進(jìn)行了較好的實(shí)驗(yàn)。一方面，為學(xué)生和教師提供作答情況評(píng)定和診斷報(bào)告；另一方面，為研究者提供對(duì)CD-CAT效度全面審視的實(shí)踐機(jī)會(huì)，為認(rèn)知診斷技術(shù)的大規(guī)模推廣奠定了堅(jiān)實(shí)的基礎(chǔ)。

美國(guó)也有諸多公司關(guān)注和投入CAT的領(lǐng)域，如ASSESSMENT SYSTEMS的Smarter Balanced評(píng)估系統(tǒng)（http：//www.smarterbalanced.org/practice-test/）。在能力測(cè)驗(yàn)方面，主要應(yīng)用于評(píng)估學(xué)生的英語和數(shù)學(xué)能力。2010年，美國(guó)針對(duì)K-12提出了全美教育標(biāo)準(zhǔn)（Common Core States Standards，簡(jiǎn)稱CCSS），用于評(píng)估各個(gè)年級(jí)學(xué)生的數(shù)學(xué)能力和英語能力，并且已經(jīng)在全美46個(gè)州和哥倫比亞區(qū)施行。Smarter Balanced 評(píng)估系統(tǒng)利用強(qiáng)制性的終結(jié)性評(píng)價(jià)和可選的中期評(píng)估來提升計(jì)算機(jī)自適應(yīng)測(cè)試（CAT）的效率。在該評(píng)估系統(tǒng)中，計(jì)算機(jī)程序可以根據(jù)學(xué)生的響應(yīng)來調(diào)整整個(gè)評(píng)估問題的難度。例如，一個(gè)學(xué)生如果回答正確，則會(huì)收到一個(gè)更具挑戰(zhàn)性的題目，而一個(gè)不正確的答案產(chǎn)生一個(gè)更簡(jiǎn)單的問題。通過適應(yīng)學(xué)生的能力水平，系統(tǒng)推薦了一系列“量身定制”的測(cè)驗(yàn)問題給每個(gè)學(xué)生，可以快速識(shí)別哪些技能學(xué)生已經(jīng)掌握，哪些知識(shí)維度學(xué)生還沒有掌握。Smarter Balanced Practice Tests包括評(píng)分指南，現(xiàn)可用于三年級(jí)到八年級(jí)的英語、藝術(shù)和數(shù)學(xué)的認(rèn)知診斷，能夠?yàn)閷W(xué)習(xí)者提供一份可預(yù)覽的Smarter Balanced評(píng)估，清晰地反映每一位考生在當(dāng)前學(xué)習(xí)中每一門學(xué)科中的強(qiáng)項(xiàng)和弱項(xiàng)，以及在未來學(xué)習(xí)中需要重點(diǎn)關(guān)注的領(lǐng)域。這種計(jì)算機(jī)評(píng)估能夠方便家長(zhǎng)、校長(zhǎng)和老師在很短的時(shí)間內(nèi)看到成效，并且通過這些診斷反饋，對(duì)學(xué)生因材施教，滿足其個(gè)性化學(xué)習(xí)需求。

此外，熟知的Knewton公司基于項(xiàng)目反應(yīng)理論，真實(shí)地測(cè)量出學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度，避免因題目的難易程度不同造成測(cè)量誤差。Knewton自適應(yīng)系統(tǒng)利用學(xué)生的歷史學(xué)習(xí)數(shù)據(jù)的網(wǎng)絡(luò)效應(yīng)來優(yōu)化推薦，提高學(xué)生學(xué)習(xí)效率。建立學(xué)生學(xué)習(xí)檔案，預(yù)設(shè)一些學(xué)習(xí)路徑點(diǎn)（根據(jù)知識(shí)技能圖譜），根據(jù)實(shí)際學(xué)生的使用數(shù)據(jù)（學(xué)習(xí)資源的使用效果和學(xué)習(xí)路徑點(diǎn)的學(xué)習(xí)效果），為后來的學(xué)習(xí)者推送下一個(gè)學(xué)習(xí)路徑點(diǎn)和學(xué)習(xí)資源。

綜上所述，國(guó)外CD-CAT發(fā)展已經(jīng)將智能學(xué)習(xí)系統(tǒng)、評(píng)估系統(tǒng)和教育測(cè)評(píng)融入其中。雖然從應(yīng)用角度來說，“自適應(yīng)”的成分居多，“認(rèn)知”的成分較少，但是將診斷功能結(jié)合到計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中，已經(jīng)成為研究熱點(diǎn)之一，吸引了眾多學(xué)者繼續(xù)推進(jìn)CD-CAT的實(shí)施應(yīng)用。雖然國(guó)內(nèi)很多研究者已經(jīng)意識(shí)到CD-CAT的優(yōu)勢(shì)，也有研究者提出了中國(guó)教育進(jìn)展評(píng)估基于CD-CAT的改進(jìn)與展望，但是實(shí)踐應(yīng)用還處于研究或者起步階段。例如實(shí)際教學(xué)過程中，對(duì)相同分?jǐn)?shù)的學(xué)生還不能從能力和認(rèn)知水平角度進(jìn)行很好的診斷和評(píng)估，教師往往僅根據(jù)個(gè)人經(jīng)驗(yàn)來判斷學(xué)生的知識(shí)掌握狀態(tài)和認(rèn)知錯(cuò)誤，其教學(xué)設(shè)計(jì)與教學(xué)干預(yù)不能滿足學(xué)生的個(gè)性化需求。

四、對(duì)我國(guó)教育評(píng)價(jià)診斷的啟示

新一代測(cè)驗(yàn)理論階段在認(rèn)知水平的研究范式下產(chǎn)生，強(qiáng)調(diào)測(cè)驗(yàn)應(yīng)同時(shí)在宏觀能力水平和微觀認(rèn)知水平下進(jìn)行，認(rèn)知水平的研究應(yīng)深入到被試作答的認(rèn)知加工過程，其目的在于診斷認(rèn)知能力結(jié)構(gòu)，亦在于揭示不同被試的認(rèn)知加工特點(diǎn)，是能力水平研究的深入。認(rèn)知診斷實(shí)現(xiàn)了傳統(tǒng)教育考試無法企及的診斷功能，它在實(shí)踐中的運(yùn)用價(jià)值是不言而喻的：根據(jù)診斷結(jié)果，學(xué)生可以有針對(duì)性地學(xué)，教師可以有針對(duì)性地教；教育教學(xué)機(jī)構(gòu)部門來說則可以了解當(dāng)前教育情況，為教育規(guī)劃及教育決策的制定提供依據(jù)。

計(jì)算機(jī)自適應(yīng)認(rèn)知診斷測(cè)試在教育評(píng)估中具有重要的發(fā)展意愿，目前混合式的學(xué)習(xí)環(huán)境中需要個(gè)性化的、實(shí)時(shí)的、及時(shí)的診斷和評(píng)估報(bào)告。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，MOOC等一大批在線課程蜂擁而至，但縱觀眾多網(wǎng)絡(luò)課程和實(shí)踐研究，其中缺少對(duì)學(xué)習(xí)者“量體裁衣”式的診斷評(píng)估。同時(shí)，在我國(guó)教育的測(cè)評(píng)中，紙筆考試仍舊保留重要地位，然而缺少有效甄別、準(zhǔn)確評(píng)估和學(xué)習(xí)知識(shí)建議等內(nèi)容。同時(shí)，隨著高考改革的實(shí)施與推進(jìn)，構(gòu)建健全的教育評(píng)價(jià)體系顯得尤為重要。通過針對(duì)學(xué)習(xí)過程、學(xué)習(xí)能力評(píng)價(jià)的綜合診斷方法，可以提升學(xué)生綜合素質(zhì)。華南師范大學(xué)心理學(xué)院張敏強(qiáng)教授談到如何運(yùn)用認(rèn)知診斷方法與技術(shù)來評(píng)價(jià)學(xué)生的認(rèn)知能力，從而讓學(xué)生知道自己優(yōu)勢(shì)在哪里、不足在哪里、有什么方法可以補(bǔ)救。

因此，本研究結(jié)合我國(guó)發(fā)展現(xiàn)狀與需求和國(guó)外已有應(yīng)用研究的優(yōu)勢(shì)，對(duì)國(guó)內(nèi)教育評(píng)價(jià)如何走向CD-CAT提出以下建議：

（一）教育評(píng)估方面

相比經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論，認(rèn)知診斷理論能把認(rèn)知過程與測(cè)量手段結(jié)合起來，不僅能對(duì)考生的整體水平做出評(píng)價(jià)，還可以將考生的認(rèn)知結(jié)構(gòu)模式化，利用合適的測(cè)量模型對(duì)不同的認(rèn)知結(jié)構(gòu)模式進(jìn)行診斷，從而定時(shí)考察學(xué)生的認(rèn)知結(jié)構(gòu)和個(gè)體差異。認(rèn)知診斷方法可以應(yīng)用于會(huì)考、能力水平考試；課堂上運(yùn)用認(rèn)知診斷功能，可以幫助教師分析學(xué)生的優(yōu)勢(shì)和不足，不僅能對(duì)學(xué)生的整體水平進(jìn)行評(píng)價(jià)，還能將學(xué)生的認(rèn)知結(jié)構(gòu)模式化，通過數(shù)據(jù)定量地分析出學(xué)生的認(rèn)知結(jié)構(gòu)和個(gè)體差異，這樣得到的信息量“大”且“細(xì)”，有助于個(gè)性化教學(xué)的實(shí)現(xiàn)。

1. 重視測(cè)量工具的研究和應(yīng)用

實(shí)現(xiàn)個(gè)性化的測(cè)試平臺(tái)和題庫，不僅需要熟悉測(cè)量理論，還需要掌握測(cè)量模型和工具、計(jì)算機(jī)程序、統(tǒng)計(jì)程序等，因而需要有關(guān)教育部門與研究團(tuán)隊(duì)投入人力、物力，依托信息技術(shù)、網(wǎng)絡(luò)技術(shù)和硬件設(shè)備開發(fā)有價(jià)值的題庫和測(cè)試平臺(tái)。

2. 對(duì)教師進(jìn)行評(píng)測(cè)培訓(xùn)

認(rèn)知診斷測(cè)試過程中，教師不僅能夠依據(jù)經(jīng)驗(yàn)和教學(xué)目標(biāo)提供考試題目，而且需要對(duì)學(xué)生所需的認(rèn)知水平和能力水平進(jìn)行詳細(xì)劃分，與研究團(tuán)隊(duì)配合共同繪制測(cè)驗(yàn)藍(lán)圖，從而確定測(cè)試屬性和知識(shí)點(diǎn)。因此，教育評(píng)測(cè)的培訓(xùn)是教學(xué)過程中必不可少的工具，對(duì)教師的專業(yè)培訓(xùn)尤其重要。

3. 題庫和測(cè)試平臺(tái)的地位

相比較紙筆考試，CD-CAT能夠更快地獲知考試成績(jī)或者錄取結(jié)果，測(cè)試能夠不受時(shí)間和地點(diǎn)限制，考試環(huán)境更加舒適和個(gè)性化。通過搭建題庫和測(cè)試平臺(tái)，能夠保障和實(shí)現(xiàn)認(rèn)知診斷自適應(yīng)測(cè)試：既快速獲取診斷結(jié)果、報(bào)告，又可實(shí)施大規(guī)模題庫，保障大部分學(xué)生的考試題目難度和區(qū)分度一致，為教育公平提供可能。

（二）科研創(chuàng)新方面

打造精銳團(tuán)隊(duì)，延伸研究深度。從文獻(xiàn)數(shù)據(jù)分析說明，目前我國(guó)研究“派系”較為集中，能夠拓展實(shí)踐應(yīng)用的驅(qū)動(dòng)項(xiàng)目較少。因此，應(yīng)當(dāng)加強(qiáng)跨團(tuán)隊(duì)、跨區(qū)域甚至跨國(guó)界的學(xué)術(shù)交流和合作，共享資源與經(jīng)驗(yàn)，共同豐富和深化CD-CAT。

（三）實(shí)踐應(yīng)用方面

1. 利用現(xiàn)有資源進(jìn)行校際合作

將紙質(zhì)閱卷向計(jì)算機(jī)閱卷轉(zhuǎn)化，不僅要注意測(cè)驗(yàn)內(nèi)容的平移，還要開發(fā)計(jì)算機(jī)自適應(yīng)系統(tǒng)。根據(jù)國(guó)情，可以考慮具體個(gè)別學(xué)科先行的策略，借鑒國(guó)外經(jīng)驗(yàn)從不同學(xué)科、學(xué)段探究學(xué)業(yè)水平發(fā)展趨勢(shì)，對(duì)影響學(xué)生能力發(fā)展的各種因素進(jìn)行調(diào)研，從認(rèn)知模型中尋找能夠與影響因素結(jié)合且能為學(xué)習(xí)者提供可選擇的、具有層級(jí)關(guān)系的學(xué)習(xí)路徑；聯(lián)動(dòng)家長(zhǎng)、教師和學(xué)校管理者共同組建“診斷評(píng)估生態(tài)圈”，促進(jìn)每一個(gè)學(xué)生的個(gè)性化和均衡發(fā)展。

2. 區(qū)域化合作，共同推進(jìn)CD-CAT實(shí)驗(yàn)

開發(fā)具有大量試題測(cè)試的題庫，操作環(huán)節(jié)具有保密性、安全性，機(jī)器性能的差異能夠被云計(jì)算所克服，從而能夠進(jìn)行異地同時(shí)或同地異時(shí)的考試。通過云平臺(tái)持續(xù)地將優(yōu)質(zhì)題目添加到題庫，進(jìn)而保證了陳題被淘汰，新題被“涌出”。云計(jì)算可以通過網(wǎng)絡(luò)使儲(chǔ)存在“云”上的教育服務(wù)與資源通過終端設(shè)備傳遞給每個(gè)有需要的人，這樣共享優(yōu)質(zhì)的教育資源，有助于促進(jìn)教育公平；而且把教育資源儲(chǔ)存在“云”上也可以節(jié)省購(gòu)買這些硬件資源所需要的成本，減少服務(wù)器及所需基礎(chǔ)設(shè)施的更新維護(hù)、人工管理和能源消耗費(fèi)用，降低教育成本。

[參考文獻(xiàn)]

陳秋梅，張敏強(qiáng). 2010. 認(rèn)知診斷模型發(fā)展及其應(yīng)用方法述評(píng)[J]. 心理科學(xué)進(jìn)展（3）：522-529.

丁樹良. 2013. 認(rèn)知診斷分類中心的確定[J].心理學(xué)探新，33（5）：396-401.

杜文平. 2016. 認(rèn)識(shí)改變和踐行教育評(píng)價(jià)——高考與中小學(xué)教育質(zhì)量綜合評(píng)價(jià)改革研討會(huì)綜述[J]. 中國(guó)考試（1）： 59-63.

康春花. 2015. 小學(xué)數(shù)學(xué) “圖形與幾何” 認(rèn)知診斷測(cè)驗(yàn)的編制[J]. 教育測(cè)量與評(píng)價(jià)（10）：4-8.

劉聲濤，戴海崎，周駿. 2006. 新一代測(cè)驗(yàn)理論——認(rèn)知診斷理論的源起與特征[J]. 心理學(xué)探新，26（4）：73-77.

羅照盛. 2012. 項(xiàng)目反應(yīng)理論基礎(chǔ)[M]. 北京：北京師范大學(xué)出版社.

唐小娟. 2012. 計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)在認(rèn)知診斷中的應(yīng)用[J]. 心理科學(xué)進(jìn)展，20（4）：616-626.

涂冬波. 2011. HO-DINA模型的MCMC參數(shù)估計(jì)及模型性能研究[J].心理科學(xué)，34（6）：1476-1481.

涂冬波. 2012. 認(rèn)知診斷理論方法與應(yīng)用[M]. 北京：北京師范大學(xué)出版社.

汪文義. 2015. 教育認(rèn)知診斷評(píng)估理論與技術(shù)研究[M]. 北京：北京師范大學(xué)出版集團(tuán).

魏順平，傅騫，路秋麗. 2008. 教育技術(shù)研究領(lǐng)域研究者派系分析與可視化研究[J]. 開放教育研究，14（1）：79-85.

余娜. 2009. 認(rèn)知診斷理論的新進(jìn)展[J]. 考試研究（3）：22-34.

曾彥鈞. 2006. 基于認(rèn)知結(jié)構(gòu)之適應(yīng)性診斷測(cè)驗(yàn)系統(tǒng)的防猜測(cè)選題策略[J]. 測(cè)驗(yàn)統(tǒng)計(jì)年刊（14）：37-51.

張華華. 2013. 以自適應(yīng)的計(jì)算機(jī)考試改進(jìn)學(xué)業(yè)評(píng)價(jià). http：//big5.workercn.cn/theory.workercn.cn/c/2013/03/20/130320103120673445 957.html

張華華. 2015. 自適應(yīng)測(cè)評(píng)和個(gè)體化教學(xué) ——伊利諾伊大學(xué)教授張華華. http：//it.ccnu.edu.cn/shownews/index/2015_12/28/749.html

祝玉芳. 2009. 基于等級(jí)反應(yīng)模型的屬性層級(jí)方法[J]. 心理學(xué)報(bào)（3）：267-275.

祝玉芳，王黎華，丁樹良，汪文義. 2015. 多策略的多級(jí)評(píng)分認(rèn)知診斷方法的開發(fā)[J]. 江西師范大學(xué)學(xué)報(bào)：自然科學(xué)版，39（4）：371-376.

?isar， S. M.， ?isar， P.， & Pinter， R. （2016）. Evaluation of knowledge in Object Oriented Programming course with computer adaptive tests. Computers & Education， 92， 142-160.

Frederiksen， N.， Mislevy， R. J.， & Bejar， I. （Eds.）. （1993）. Test theory for a new generation of tests. Hillsdale， NJ： Lawrence Erlbaum Associates， Inc.

Liu， H.， Ding， S.， & Chang， H. （2009）. Developing cognitive diagnostic cat for chinese k-12 education： An innovative assessment for improving student learning. Paper presented at the annual meeting of National Council on Measurement in Education， San Diego， CA.， 29， 262-277.

Liu， H. Y.， You， X. F.， Wang， W. Y.， Ding， S. L.， & Chang， H. H. （2013）. The development of computerized adaptive testing with cognitive diagnosis for an English achievement test in China. Journal of classification， 30（2）， 152.

Mislevy， R. J.， Sheehan， K. M.， & Wingersky， M. （1993）. How to equate tests with little or no data. Journal of Educational Measurement， 30（1）， 55-78.

Nichols， S. L.， Glass， G. V.， & Berliner， D. C. （2005）. High-Stakes Testing and Student Achievement： Problems for the No Child Left Behind Act. Appendices. Education Policy Research Unit.

Roussos， L. A.， DiBello， L. V.， Stout， W.， Hartz， S. M.， Henson， R. A.， & Templin， J. L. （2007）. The fusion model skills diagnosis system. Cognitive diagnostic assessment for education： Theory and applications， 275-318.

Triantafillou， E.， Georgiadou， E.， & Economides， A. A. （2008）. The design and evaluation of a computerized adaptive test on mobile devices. Computers & Education， 50（4）， 1319-1330.

收稿日期：2016-04-11

定稿日期：2016-07-19

作者簡(jiǎn)介：劉妍，博士研究生；戴靜，石小戀，牛雨，祝嘉鈺，碩士研究生；顧小清，教授，博士生導(dǎo)師，本文通訊作者。華東師范大學(xué)教育信息技術(shù)系（200000）。

責(zé)任編輯郝丹

編校韓世梅

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

認(rèn)知診斷理論在計(jì)算機(jī)自適應(yīng)測(cè)試中的應(yīng)用與啟示