国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于基尼指數(shù)的雙目標CD-CAT選題策略*

2020-12-15 08:32:48王曉慶涂冬波
心理學報 2020年12期
關鍵詞:基尼后驗題庫

羅 芬 王曉慶 蔡 艷 涂冬波

(1 江西師范大學心理學院,南昌 330022)

(2 江西師范大學計算機信息工程學院,南昌 330022)

1 引言

終結性評價用一個連續(xù)標量θ(常稱為潛在特質或能力)來刻畫學生在某個學習階段的學習效果,基于項目反應理論(item response theory,IRT)的計算機化自適應測驗(computerized adaptive testing,CAT)以“量體裁衣”的方式能更高效地實施終結性評估。形成性評價用一個離散向量α(常稱為潛在認知模式或知識狀態(tài))來幫助教師了解每個學生的潛在認知狀態(tài),為教師提供教學反饋,以便更好地“因材施教”,這有利于學生學業(yè)和教師職業(yè)發(fā)展,基于認知診斷理論(cognitive diagnostic theory,CDT)的CAT 以“個性化”測驗方式快速診斷被試認知的長處和短板。教學需要終結性評價與形成性評價相互結合,既關注結果又關注過程,使學習過程和對學習結果的評價達到和諧統(tǒng)一。IRT-CAT 關注終結性評價,CD-CAT (cognitive diagnostic computerized adaptive testing,CD-CAT)關注形成性評價,兩者結合的雙目標 CD-CAT (dual objective CD-CAT,Dual-CAT)可以將它們的優(yōu)勢互補,從而更好地完成測驗目標。

Dual-CAT 的兩個重點研究主題:一是建構題庫的心理計量學指標,正如IRT-CAT 依賴于項目反應模型(item response method,IRM),CD-CAT 依賴于認知診斷模型(cognitive diagnostic model,CDM),Dual-CAT 也依賴于測驗模型,測驗模型與題庫的心理計量學指標息息相關?,F(xiàn)有文獻,只有統(tǒng)一模型(unified model,也稱為 fusion model) (Hartz,2002; Rupp et al.,2010)和高階模型(de la Torre &Douglas,2004)將被試的知識狀態(tài)α與能力θ建構在一個模型中,但統(tǒng)一模型所含參數(shù)較多,在統(tǒng)計上難以估計(Hartz,2002),因此實際應用較少。而高階模型采用層級結構,將潛在特質視為比潛在屬性更高層的一般能力,能力θ與項目的正確作答概率之間的關系是通過被試知識狀態(tài)α間接相關,只有當屬性個數(shù)較多時(例如大于10),能力θ的估計才會比較準確(de la Torre & Douglas,2004; Hsu & Wang,2015; Huang,2020)。因此Dual-CAT 的選題策略研究大多并不基于上述兩種模型而采用分離建模的方法,使用統(tǒng)一模型還是使用分離建模這兩種方式?jīng)Q定了選題策略的構造方法也不同,對于分離建模方式需要IRM 和CDM 的模型參數(shù),如何為這兩套模型參數(shù)建立聯(lián)系是實施Dual-CAT 的基礎。

de la Torre 和Douglas (2004)的研究表明對于同一批數(shù)據(jù),高階模型估計的θ與IRT 中2PLM(two-parameter logistic model)模型估計的θ有較高的相關性; Wang 等人(2014)的研究也表明,單維項目反應模型(IRM)和DINA 模型(Junker & Sijtsma,2001)在屬性間高度相關或線性層級相關時,能夠很好地擬合相同的數(shù)據(jù),他們的研究為分離建模方式提供了支持,采用兩步估計方法通過考慮各自的心理模型可獲得穩(wěn)定的α和θ估計(Kang et al.,2017)。

二是選題策略。選題策略是實施Dual-CAT 的關鍵技術,優(yōu)良的選題策略應該既能達到較高的分類精度和估計精度以滿足測驗目的,又能保證較為均勻的題庫利用率以提高題庫安全,還需具有較快的運算速度以滿足實時響應的需求,研究者們圍繞這個目標提出了多種選題策略。

IRT-CAT 和CD-CAT 的選題策略分別注重潛在特質的評估和潛在認知結構的評估,如何將這兩者有效地結合起來?學者們提出了若干種適合Dual-CAT 的選題策略,文獻中已有的Dual-CAT 選題策略主要有兩類:第一類是影子測驗選題法; 第二類是組合策略選題法。

McGlohen 和Chang (2008)在分離建模方式下討論了影子測驗選題法與IRT-CAT 和CD-CAT 的單一目標選題法的性能:(1)利用IRT-CAT 中最大信息量策略(maximum fisher information,MFI) (Lord,1980)或極大化Kullback-Leibler (KL) (Chang & Ying,1996)信息量策略選擇適合被試當前估計能力的項目,測驗結束再估計被試的知識狀態(tài); (2)利用CD-CAT 中的極小化香農(nóng)熵策略(Shannon entropy,SHE)或極大化KL 信息量(Tatsuoka,2002; Xu et al.,2003)選擇適合被試當前知識狀態(tài)估計值的項目,測驗結束再估計被試的能力; (3)適應被試當前能力估計值和知識狀態(tài)估計值的影子測驗(shadow test)選題,即先根據(jù)被試能力估計值,采用(1)的方法構建最合適的影子題庫,再從影子題庫中采用(2)的方法選取最適合當前知識狀態(tài)估計值的項目作為下一題的備選。他們將這三種方案在能力θ估計精度、認知狀態(tài)α分類精度和項目曝光控制等3 個指標上進行對比,研究結果表明影子測驗選題的表現(xiàn)更優(yōu)。

杜宣宣(2010)也采用了影子測驗選題法,與McGlohen 和Chang (2008)不同之處在于,他先構建最適合當前知識狀態(tài)估計值的影子題庫,再從影子題庫中選取最適合當前能力估計值的項目作為下一題的備選,并在不同屬性層級結構下對能力θ估計精度、知識狀態(tài)α分類精度等指標進行對比,他的研究結果也表明與單一目標選題策略相比,影子測驗選題的表現(xiàn)更優(yōu)。

McGlohen 和Chang (2008)、杜宣宣(2010)的影子測驗選題是兩步估計法,有學者認為(Cheng,2007;Dai et al.,2016)兩步“局部優(yōu)化”的組合并不一定保證“良好的綜合結果”,更理想的項目選擇方法應該在一個步驟內(nèi)同時考慮以獲得更適合的項目,因此提出基于的組合策略選題法。

Cheng (2007)和Dai 等人(2016)用線性加權組合的指標代替影子測驗選題,是關于的信息量,如MFI 或KL等,是關于的信息量,如SHE、KL、PWKL(posterior-weighted KL) (Cheng,2009)、MPWKL(modified PWKL) (Kaplan et al.,2015)和PWACDI(posterior-weighted attribute cognitive discrimination index) (Zheng & Chang,2016)等。他們的研究表明在能力θ估計精度、認知狀態(tài)α分類精度和項目曝光控制等3 個指標上,與影子測驗選題法相比,合成指標表現(xiàn)更優(yōu)。

Wang 等人(2012)也基于分離建模方式,將對被試知識狀態(tài)的診斷視為約束條件,使用IRT-CAT中最大優(yōu)先級指標方法(maximum priority index,MPI) (Cheng & Chang,2009)來選題,即一種乘法組合策略:,使得IRT-CAT既可以測量被試能力又能對被試認知狀態(tài)進行分類。他們的研究表明,由KL 信息量構造的MPI 指標能夠獲得較好的測量精度。

綜合來看,組合策略相對于影子測驗選題法而言,能更加細致地刻畫之間相互作用對選題的影響。究竟采用加法組合策略還是乘法組合策略,與采用何種信息量度量有關。Zheng 等人(2018)對比了多種信息量的加法組合策略和乘法組合策略,他們的研究結果表明這兩種組合方式在不同信息量下各有優(yōu)劣。

加法組合策略的研究有Cheng (2007)的兩種KL 信息量組合的DIM (dual information method)策略,Wang 等人(2014)為消除KL 和PWKL 信息量差異提出的ASI (aggregate standardized information method)策略和ARI (aggregate ranked information method)策略,Kang 等人(2017)用對稱KL 信息量提出的JSD (Jensen shannon divergence)策略以及KL和MPWKL 信息量組合的MASI (modified ARI)和MARI (modified ASI)等。

乘法組合策略的研究有Wang 等人(2012)提出的MPI 的加權策略,Dai 等人(2016)用對數(shù)轉換消除MFI 信息量和SHE 信息量量綱差異,將加法組合策略轉換為乘法組合策略的 DWI (dapperness with information)策略,Zheng 等人(2018)提出的 IPA(information product approach)策略等。

這些選題策略在一定條件下,都有各自的優(yōu)勢,或精度較高但因運算量大選題耗時較多,如IPA 策略; 或精度稍低但可預先計算減少選題用時,如ASI 策略; 或精度更低但用時少且題庫利用率較均勻,如JSD 策略。另外這些選題策略,還可能存在因兩種信息量量綱差異較大造成合成指標有所偏向,或因進行轉換以消除量綱差異所帶來的信息損失等問題。我們希望開發(fā)一種對而言量綱比較統(tǒng)一的信息指標,既保證估計精度和分類精度較高,又能兼顧題庫利用率均勻性且選題耗時較少的新策略。

在CD-CAT 中,大多采用貝葉斯決策對被試進行分類,被試的知識狀態(tài)類別是一個隨機變量,當類條件概率和先驗概率已知的情況下,通過貝葉斯公式計算被試屬于每個類別的后驗概率,將被試的類別決策為后驗概率大的一類,理論上已證明這種決策的平均錯誤率最低(張學工,2010,pp.14-15),因此貝葉斯決策通常也稱最小錯誤率貝葉斯決策。研究表明(陳平 等,2011; 韓雨婷 等,2018; Wang& Chang,2011),基于被試知識狀態(tài)類別的后驗概率所構造的選題策略(Zheng & Chang,2016)和基于被試能力估計置信區(qū)間的后驗概率所構造的選題策略具有較高分類精度和估計精度,如CD-CAT 中的香農(nóng)熵策略(Tatsuoka,2002; Xu et al.,2003)和多維IRT-CAT 中連續(xù)熵(也稱微分熵)策略(Wang &Chang,2011; 韓雨婷 等,2018)。

熵用于度量隨機變量不確定性,熵越大,隨機變量的不確定性就越大。在CD-CAT 中,用熵度量被試知識狀態(tài)類別后驗概率的變化,然后采用貝葉斯決策根據(jù)被試知識狀態(tài)類別的后驗概率進行分類,熵的變化直接反映各類別后驗概率的變化,因而基于熵所構建的選題策略的分類準確性較高,如香農(nóng)熵策略(Tatsuoka,2002; Xu et al.,2003)。統(tǒng)計學中,基尼指數(shù)也是一種度量隨機變量不確定性的指標,并應用于決策樹的分類算法,如既有基于熵的ID3 算法(Quinlan,1986)和C4.5 算法(Quinlan,1993),也有基于基尼指數(shù)的CART 算法(Breiman et al.,1984),這些算法都是機器學習中的經(jīng)典算法(周志華,2016)。

本研究擬采用基尼指數(shù)構建雙目標CD-CAT的選題策略。基尼指數(shù)和熵有共性也有差異。兩者的共性在于它們都可以度量隨機變量的不確定性程度且既可以處理連續(xù)型隨機變量又可以處理離散型隨機變量。設離散型隨機變量X所有可能取的值為x v(v=1,2,…,V),X取各個可能值的概率p{X=xv}=p v,v=1,2,…,V,且,那么隨機變量X的熵可以表示為:,隨機變量X的基尼指數(shù)可以表示為:。令f(y)=-lny,在y=1 處進行一階泰勒展開(忽略高階無窮小),f(y)=f(1)+f′(1)(y-1)+O(·)≈1-y,因此,在pv=1處熵可近似轉化為:=Gini(X)1摘自https://www.jianshu.com/p/75518e6a5c64,說明在極值點處,信息熵和基尼指數(shù)取得相同值。從數(shù)學表達式上看,熵對隨機變量的概率使用對數(shù)加權,反映的是一種非線性關系,而基尼指數(shù)使用線性加權,反映的是一種線性關系。熵的計算公式中含有對數(shù)運算,基尼指數(shù)只需求平方和,因此基于基尼指數(shù)構造的選題策略會和香農(nóng)熵選題策略一樣具有較高的分類精度,而運算速度快于香農(nóng)熵策略,且基尼指數(shù)的線性加權方式對測驗過程中各類別的后驗概率變化更加敏感,從而有助于擴大選題范圍,有利于提高題庫利用率。

本文利用基尼指數(shù)的上述優(yōu)良性質,提出基于基尼指數(shù)的選題策略,期望新策略能保證測量精度,同時兼顧題庫利用均勻性并能快速實時響應,為同時兼顧宏觀能力評估和微觀認知診斷提供新的更優(yōu)的方法。

2 已有雙目標CD-CAT選題策略簡述

我們介紹三種有代表性的Dual-CAT 的選題策略。ASI 策略是加法組合策略的代表,通過標準化消除了兩種信息量量綱差異后再將轉換后的信息量進行線性加權; IPA 策略是乘法組合策略的代表;JSD 策略是題庫利用率最均勻且選題耗時最少的選題策略代表。

2.1 ASI 策略

Cheng (2009)提出用PWKL 策略代替KL 策略,極大地提高了被試的知識狀態(tài)α(α是一個0 和1 構成的向量)的分類精度,設測驗測量K個獨立屬性,被試的知識狀態(tài)有2K類,測驗結束將被試劃分到其中的一類,PWKL 選題策略的目標函數(shù)為:

其中Rt為被試作答t題后的剩余題庫。j為剩余題庫中的項目,c=1,2,…2K為被試知識狀態(tài)的類別下標,αc為 2K種知識狀態(tài)的第c個類別,π t(αc|Y)為在t個項目的得分模式Y=(Y1,Y2,...,Yt)下類別cα的后驗概率,Yj為被試在項目j的得分,y為項目的可能得分,對于兩級評分項目而言,y=0或1,為被試知識狀態(tài)的當前估計值,為給定CDM 和已知時,被試作答第j題的答對概率。

Chang 和Ying (1996)用KL 策略代替MFI 策略來測量被試的能力θ(θ是一個連續(xù)變量),以克服當作答項目比較少時能力估計不準確的問題,KL選題策略的目標函數(shù)為:

其中δ建議取,t為被試已作答的項目數(shù),為能力θ的當前估計值,為給定IRT中的IRM 和已知時,被試作答第j題的答對概率。

其中w為權重。

2.2 IPA 策略

Zheng 和Chang (2016)提出適用于CD-CAT 短測驗的PWACDI (posterior-weighted attribute cognitive discrimination index)選題策略,PWACDI 選題策略的目標函數(shù)為:

其中,u和v為被試知識狀態(tài)的類別下標,αu和αv為 2K種知識狀態(tài)中不相同的兩個類別,PWDjuv為根據(jù)項目j構造的2K× 2K的KL 信息矩陣,矩陣內(nèi)的元素為任意兩個知識狀態(tài)的期望加權KL 距離。all relevant cells 是指PWDjuv矩陣中兩種不同知識狀態(tài)αu和αv所對應位置的所有元素,且這兩種知識狀態(tài)僅在第k個屬性值是不同的,其他屬性值相同。PWACDI 選題策略與被試當前知識狀態(tài)估計值無關,并且注重區(qū)分2K種模式中,那些差異較小的模式,這不同于PWKL 策略。

Zheng 等人(2018)提出適用于雙目標CD-CAT的IPA 策略,認為該策略能提供一個統(tǒng)一的框架來連接其他的雙目標選題策略,將“權重”視為與IRT信息相等的對應項,則不需考慮公式(10)中的權重。信息量乘法的選題策略的目標函數(shù)為:

Pj可以是或PWACDIj等其他CDCAT 的選題策略,根據(jù)Zheng 等人(2018)的研究,的表現(xiàn)更好。

2.3 JSD 策略

Kang 等人(2017)提出JSD 選題策略,不同于PWKL 策略,它是對稱的KL 信息,令,JSD選題策略的目標函數(shù)為:

特別說明,為了更清楚的描述JSD 策略,我們補充了一些符號,因此本文中JSD 選題策略中的表達式與原文(Kang et al.,2017)不是完全相同,但沒有改變選題策略本身的含義。

3 基于基尼指數(shù)的雙目標CD-CAT選題策略

本研究分別定義了基于被試知識狀態(tài)類別的后驗概率和基于被試能力估計置信區(qū)間的后驗概率的基尼指數(shù),并將兩者組合構成基于基尼指數(shù)的雙目標CD-CAT 新策略,以期達成高精度、高題庫利用率和快速反饋的測驗需求。

3.1 基于基尼指數(shù)的CD-CAT 選題策略

設測驗考查K個屬性,在t個項目的得分模式Y=(Y1,Y2,…,Yt)下類別αc(c=1,2,…,2K)的后驗概率為π t(αc|Y)(簡記為π t(αc))且,根據(jù)基尼指數(shù)的定義(李航,2012),則被試知識狀態(tài)類別后驗概率的基尼指數(shù)定義為:

πt為t個項目的反應模式Y=(Y1,Y2,…,Yt)下知識狀態(tài)類別后驗概率的集合,π0(αc)是類別αc的先驗概率,一般取1/2K,p h(αc)為給定CDM 下知識狀態(tài)為cα的被試答對第h題的概率,Yh為被試在項目h的得分,其他符號的含義同第2 節(jié)。

Gini_CD(πt)刻畫在t個項目的反應模式Y=(Y1,Y2,…,Yt)下,被試知識狀態(tài)類別后驗概率分布的離散程度,其值越小則概率分布越集中,即一個或某些類別的后驗概率會遠大于其他類別,從而有助于提高貝葉斯決策對被試分類的準確性。遍歷并選擇剩余題庫中使Gini_CD(πt,Yj)取得最小值的項目j作為下一題的候選。

由于被試對候選項目j的作答反應Yj未知,對于兩級評分項目,Yj的值為0 或1 (即y=0 或1),定義被試知識狀態(tài)類別后驗概率的期望基尼指數(shù):

由全概率公式

Gini_CD選題策略的目標函數(shù)為:

Rt為被試的剩余題庫,即從剩余題庫中選擇具有最小E[Gini_CD(πt,Yj)]的項目j。

3.2 基于基尼指數(shù)的IRT-CAT 選題策略

由于被試對候選項目j的作答反應Yj未知,對于兩級評分項目,Yj的值為0 或1(即y=0 或1),定義能力估計值的置信區(qū)間后驗概率的期望基尼系數(shù):

Gini_IRT選題策略的目標函數(shù)為:

Rt為被試的剩余題庫,即從剩余題庫中選擇具有最小的項目j。

3.3 組合策略

Cheng (2007)和Wang 等人(2014)提出將基于被試知識狀態(tài)的KL 信息函數(shù)和能力的KL 信息函數(shù)進行加權線性組合以得到單一信息量形式的雙目標選題策略,如公式(8)和(10)。Zheng 等人(2018)提出將兩個函數(shù)相乘的雙目標選題策略,如公式(16)。由于乘法運算更加費時。我們采用Cheng(2007)和Wang 等人(2014)的線性加權和方式獲得基于基尼指數(shù)的雙目標選題策略目標函數(shù)。

本文提出的新策略基于兩個隨機變量后驗概率的基尼指數(shù)構造的新指標,由于每個隨機變量后驗概率的取值范圍為[0,1],且后驗概率的累加和為1,這兩個后驗概率構造的基尼指數(shù)指標的量綱不會有很大差異,不需要像Wang 等人(2014)將兩個KL 信息量進行標準化再進行線性組合,因轉化還是會帶來信息損耗,新策略的合成方法保持了原有信息。

Gini 選題策略的目標函數(shù)為:

其中,w是權重,根據(jù)Wang 等人(2014)的建議,在高質量題庫中建議使用理論權重w=1 -t/TL,t為已做答項目數(shù),TL為預設的測驗長度。

4 模擬實驗設計

為考察不同CDM、被試不同知識狀態(tài)分布以及不同測驗長度下新策略的性能及其與其他選題策略的比較,開展了Monte Carlo 模擬實驗研究。實驗考察了3 種CDM (G-DINA,DINA,R-RUM)× 3種被試知識狀態(tài)的分布(高階模型、高相關多元正態(tài)模型和低相關多元正態(tài)模型)×4 種測驗長度(5、10、15、20)=36 種情形下新策略的表現(xiàn)。

4.1 認知診斷模型

在飽和模型G-DINA (de la Torre,2011)和縮減模型(DINA,R-RUM) (Hartz,2002; Junker & Sijtsma,2001)下討論各選題策略表現(xiàn)。G-DINA 模型在適當約束條件下可簡化為不同的縮減模型:若G-DINA所有主效應和低階交互效應值為 0,則其簡化為DINA 模型; 若對數(shù)連接函數(shù)的所有交互效應的值為0,則可得R-RUM。

4.2 題庫參數(shù)和被試知識狀態(tài)

4.2.1 模擬題庫項目的屬性向量

設題庫考察5 個獨立屬性,每個項目最多考察3 個屬性即共種項目屬性向量,每種屬性向量重復10 次,可得題庫中250 個項目的屬性向量。

4.2.2 模擬被試知識狀態(tài)的真值

被試知識狀態(tài)采用兩種方式模擬,一種采用HO-CDM (Wang et al.,2012,2014; Huang,2020),另一種采用多元正態(tài)分布生成(Dai et al.,2016;Kang et al.,2017)??疾爝@兩種模擬方式是因為他們的作答反應數(shù)據(jù)可以同時擬合CDM 和IRT 的模型,也是雙目標CD-CAT 中常用的模擬方法。

(1)被試知識狀態(tài)用HO-CDM (de la Torre &Douglas,2004)生成。高階模型假定考生是否掌握某個屬性與泛化的潛在能力有關。通過logit 鏈接,給定高階能力θi,被試i掌握屬性k的概率定義為:,類似 I RT 中的2PLM 模型,其中λ1k和λ0k是區(qū)分度參數(shù)和位置參數(shù),θi~N(0,1),lnλ1k~N(0,1) (將值的約束在[0.2,2.5]區(qū)間范圍內(nèi)),λ0k~N(0,1),另生成隨機數(shù)r,r~uniform(0,1),如果P(αik|θi)≥r,則令αik=1,否則令αik=0 (Ma & de la Torre,2020)。

(2)被試知識狀態(tài)用多元正態(tài)模型生成。采用多元正態(tài)閾值模型(均值為0; 變量間的相關分別設0.8,0.2 兩種水平,分別代表屬性間存在高相關和低相關)生成被試真實屬性掌握模式,用0 作為截斷點獲得離散值知識狀態(tài)(Ma & de la Torre,2020)。

4.2.3 模擬題庫CDM 項目參數(shù)和IRT 模型參數(shù)

采用第 1 節(jié)介紹的分離建模方法構建題庫,CDM 模型分別采用G-DINA、DINA 和R-RUM 模型,IRT 模型采用2PLM,這些模型是研究和實踐中經(jīng)常使用的模型。

題庫參數(shù)用R 軟件中的GDINA 包和mirt 包模擬和估計。

以G-DINA 模型和被試的知識狀態(tài)采用高相關多元正態(tài)模型生成為例介紹題庫項目參數(shù)的模擬。

(1)根據(jù)GDINA 包(Ma & de la Torre,2020)的說明文檔,CDM 參數(shù)的設定可以采用三種方法。第一種方法,為每個項目指定猜測參數(shù)p(0)和失誤參數(shù)1-p(1),其中,p(0)表示未掌握項目任何一個考察屬性的被試正確作答概率,p(1)表示掌握了項目所有考察屬性的被試正確作答概率,其他類型的被試作答概率從[p(0),p(1)]中生成,需符合約束單調性原則,即掌握項目考察屬性個數(shù)多的被試的正確作答概率大于掌握項目所考察屬性個數(shù)少的被試的正確作答概率; 第二種方法,為每個項目的每種知識狀態(tài)指定答對概率; 第三種方法,為每個項目指定G-DINA 模型中的delta 參數(shù)。

因第一種方法簡單易操作,本研究采用第一種方法,利用GDINA 包中的simGDINA 函數(shù)模擬G-DINA模型的項目參數(shù),設p(0)~uniform(0.05,0.25),p(1)~uniform(0.75,0.95),其他掌握了項目所考察的部分屬性的被試正確作答概率從[p(0),p(1)]中生成,正確作答概率保證單調性。

(2)因為2PLM 的項目參數(shù)估計需要1000 以上樣本才能獲得較好的精度,本文利用高相關多元正態(tài)模型模擬3000 個被試的知識狀態(tài),根據(jù)已知的每個項目屬性向量和G-DINA 模型的項目參數(shù)獲得每個被試在每個項目上的正確作答概率p,另外生成隨機數(shù)r,r~uniform(0,1),如果p≥r,則令得分為1,否則令得分為0,即獲得3000×250 的完全得分陣(Wang et al.,2012,2014)。將得分陣用R 軟件中的mirt 包(Chalmers,2012)中mirt 函數(shù)擬合2PLM可得題庫中250 個項目的區(qū)分度和難度參數(shù),用R軟件中的GDINA 包中GDINA 函數(shù)對G-DINA 模型參數(shù)進行校正,以獲得更準確的參數(shù)。

按照上述方法,可以獲得相應的 3(G-DINA,DINA,R-RUM)×3(高階模型、高相關多元正態(tài)模型和低相關多元正態(tài)模型)=9 種題庫的CDM 的參數(shù)和2PLM 參數(shù)。

4.2.4 模擬被試能力的真值

被試對項目的反應是根據(jù)CDM 模型模擬生成,模擬被試作答題庫所有項目的反應數(shù)據(jù),將反應數(shù)據(jù)用期望后驗算法(Bock & Mislevy,1982)估計被試的能力值作為其真值(Wang et al.,2012,2014; Dai et al.,2016; Kang et al.,2017)。

4.3 選題策略

DIM 策略(Cheng,2007)是首個將兩個KL 信息量進行線性組合的策略,ASI 策略將兩個信息量標準化以消除兩個信息量的量綱差異后再線性組合,根據(jù)Wang 等人(2014)的研究結果,ASI 策略優(yōu)于DIM 策略。根據(jù)Zheng 等人(2016,2018)的研究結果,PWACDI 策略在短測驗上的分類精度優(yōu)于PWKL 策略,PWACDI*KL 策略和DWI 策略(Dai et al.,2016)都屬于雙信息量的乘法組合策略IPA,研究(Zheng et al.,2016,2018)表明,PWACDI*KL 在一簇IPA 策略中表現(xiàn)更好。JSD 策略(Kang et al.,2017)基于被試當前知識狀態(tài)估計值和能力估計值的對稱KL 信息選題,在選題過程中不需要積分運算,因此運算簡單,選題速度很快,根據(jù) Kang 等人(2017)的研究,JSD 策略與其他策略相比在選題用時和題庫利用均勻性上有較大的優(yōu)勢。

本文將Gini 策略與ASI 策略(Wang et al.,2014)、IPA 中的代表 PWACDI*KL 策略 (Zheng et al.,2018),JSD (Kang et al.,2017)策略在9 種題庫下進行對比,從測量精度(包含知識狀態(tài)分類精度和能力估計精度)、題庫利用均勻性和選題用時等方面考查新策略的性能。

4.4 終止規(guī)則

實驗均采用定長測驗,定長測驗設置了4 個水平:5、10、15 和20 題。

4.5 評價指標

4.5.1 知識狀態(tài)分類精度指標

模式判準率是評價知識狀態(tài)分類精度的指標,值越大,分類精度越高。

其中I(·) 表示當條件·為TRUE 時,計數(shù)為1,否則為0。N為被試人數(shù)。是被試知識狀態(tài)的估計值,αi是被試知識狀態(tài)的真值。

4.5.2 能力估計精度指標

用Bias和RMSE作為能力估計精度的指標。值越小,參數(shù)返真性越高。

4.5.3 題庫使用均勻性指標

卡方值和測驗重疊率是評價題庫使用均勻性的重要指標,值越小,題庫使用越均勻,利用率越高。

其中mj為項目j的曝光次數(shù),L為題庫容量,TL設定的測驗長度,其他變量含義同上。

4.5.4 選題用時

其中,Ti為第i個被試完成測驗所需時間(單位:秒)。由于模擬研究的時間消耗主要在選題上,其他用時可忽略不計,因此TC即為選題耗時。值越小,選題速度越快。

4.6 CAT 實施過程

整個CAT 的程序,運行于Python 3,硬件配置為4 核處理器Intel Core i5 1.9GHz,內(nèi)存8G。以G-DINA 模型和高相關多元正態(tài)模型模擬被試知識狀態(tài)的實驗條件為例,說明CAT 的實施過程。

(1)選擇對應實驗條件下在R 環(huán)境中用GDINA包和mirt 包構建的題庫(細節(jié)參照第4.2 節(jié));

(2)采用高相關多元正態(tài)模型模擬被試的知識狀態(tài)作為被試知識狀態(tài)的真值,并模擬被試采用G-DINA 模型作答題庫所有題,用期望后驗法估計其能力值作為被試能力真值(細節(jié)參照第4.2 節(jié));

(3)隨機分配3 題給被試作答,根據(jù)初始3 題的反應,估計被試知識狀態(tài)初值和能力初值;

(4)分別采用Gini 策略,ASI 策略,IPA 策略,JSD策略選題進入各自CAT 的過程,被試每作答一個項目,采用最大后驗法估計被試知識狀態(tài)和采用期望后驗法估計被試能力;

(5)重復(4)直到滿足測驗停止要求;

(6)測驗結束后根據(jù)每種策略下的最終被試知識狀態(tài)估計值和被試能力估計值計算第4.5 節(jié)中的評價指標。

為消除隨機效應,每次模擬1000 個被試,每種實驗條件重復10 次,計算每種實驗條件下各評價指標的平均值(見第5 節(jié)的表格,SD表示其標準差)。

5 實驗結果

5.1 分類精度的比較

表1 表明,Gini 策略和IPA 策略的模式判準率遠高于ASI 策略和JSD 策略,且整體而言Gini 策略的模式判準率略高于IPA 策略,這兩種策略在不同實驗條件下的模式判準率均超過95%且標準差都較小,說明他們的分類結果穩(wěn)定可靠,可適用于不同CDM 的題庫或多種CDM 混合題庫。

圖1 是各選題策略在不同測驗長度上的表現(xiàn),隨測驗長度的增加,各選題策略的模式判準率逐漸提高。Gini 策略和IPA 策略的變化曲線非常相似,增長最快,始終保持最好的判準率。在短測驗(TL<15)中,Gini、IPA 和ASI 策略的模式判準率很接近,在中長測驗(TL>15)后,ASI 策略的增長速度要低于前兩者。與表1 的結論相同,Gini 和IPA 策略在不同實驗條件下的變化曲線沒有太大差異,因此他們在短測驗和中長測驗下均能獲得較好的分類精度。

5.2 能力估計精度的比較

表2 表明,除在DINA 模型下屬性間低相關的實驗條件外,4 種策略對能力估計基本是無偏的。ASI 策略的估計偏差最小,其次是Gini 策略。IPA策略具有最小的能力估計均方差值,與之相比,Gini策略稍稍差一些,但最大差異也僅有0.04。當屬性間高相關時,4 種選題策略的能力估計均方差值非常接近,最大差異僅有0.03,而在其他條件下,最大差異達0.22,這說明屬性間高相關時,4 種選題策略均可用,而其他條件下可優(yōu)先考慮IPA 和Gini策略。Gini 和IPA 策略的能力估計精度與CDM 有關,Gini 策略所受影響更小一些。ASI 和JSD 策略的能力估計精度既與CDM 有關又與被試知識狀態(tài)分布有關。

表1 20 題各選題策略的模式判準率均值及標準差

圖1 不同測驗長度的模式判準率

表2 20 題各選題策略的Bias 和RMSE

圖2 表明隨測驗長度的增加被試能力估計的均方差值在下降,即參數(shù)估計精度在上升,Gini 和IPA 策略均方差值下降速度最快,且兩種策略的下降曲線基本相同,JSD 策略的下降趨勢最慢。當屬性間高相關時,4 種選題策略的曲線基本重合,在其他條件下,與圖1 類似,在短測驗(TL<15)中,Gini、IPA 和ASI 策略的曲線基本一致,在中長測驗(TL>15)后,ASI 策略不如前兩者。因此Gini 和IPA 策略在短測驗和中長測驗下均能獲得較好的能力估計精度。

5.3 題庫使用均勻性的比較

表3 表明,JSD 策略的題庫利用均勻性優(yōu)于其他3 種策略。Gini 和IPA 策略的題庫利用率指標值相近,整體而言,Gini 策略的題庫利用均勻性稍好于IPA 策略,且兩者均好于ASI 策略。當在DINA模型下屬性間高相關時,4 種選題策略的題庫利用率指標值比較接近,而在其他條件下差異較大。4種選題策略的題庫利用均勻性指標既與CDM 有關,又與被試知識狀態(tài)的分布有關。

圖3 表明,隨測驗長度的增加,各選題策略的卡方值在下降,即題庫使用均勻性逐漸提高。每種選題策略在不同條件下的曲線變化基本相似,JSD 的下降曲線最好,其次是Gini 策略,當在DINA 模型下屬性間高相關時,4 種選題策略的下降曲線基本重合。

5.4 選題用時的比較

表4 表明,JSD 策略的選題用時最少,其次是ASI 策略,接著是Gini 策略,用時最多的IPA 策略。IPA 策略的選題用時是Gini 策略的近10 倍。每種選題策略在不同條件下用時基本不變,因為選題時間主要與選題策略算法的運算量,屬性個數(shù)和題庫容量有關,當屬性個數(shù)確定和題庫容量已知,選題算法的運算量起決定性作用。

圖2 不同測驗長度的能力估計均方差

表3 20 題各選題策略的題庫使用均勻性指標

圖3 不同測驗長度的卡方值

表4 20 題各選題策略的選題用時指標(單位:秒)

6 總結和討論

6.1 總結

本文利用基尼指數(shù)的優(yōu)良性質,構造一種新的雙目標CD-CAT 的選題策略,模擬實驗表明新策略的測量精度較高,兼顧題庫利用均勻性并能快速實時響應,為同時兼顧宏觀能力評估和微觀認知診斷提供了新的更優(yōu)的方法。

實驗考察了3 種CDM 和3 種不同被試知識狀態(tài)分布下,4 種雙目標選題策略(Gini 策略、ASI 策略、IPA 策略和JSD 策略)的表現(xiàn),綜合來看,得到如下結論:(1) Gini 策略和IPA 策略在分類精度指標,能力估計精度指標和題庫使用均勻性指標上均具有相似的表現(xiàn),測量精度高且受CDM 模型和被試知識狀態(tài)分布的影響較小,可以適用于實際測驗中含多種認知診斷模型的混合題庫??傮w而言,Gini策略稍好于IPA 策略,且Gini 策略的選題用時僅為IPA 策略的十分之一; (2) Gini 策略和ASI 策略都是兩種信息量線性加權的組合策略,在短測驗時,兩種選題策略在測量精度指標上的表現(xiàn)很接近,而在中長測驗時,雖然ASI 策略的用時是Gini 策略的1/3,但ASI 策略的測量精度和題庫使用均勻性均不如Gini 策略; (3) Gini 策略與JSD 策略相比,JSD策略在題庫使用均勻性和選題用時指標上有較大的優(yōu)勢,但其測量精度遠不如Gini 策略。

綜上所述,短測驗時,Gini 策略、IPA 策略和ASI 策略均有較好的測量精度,都值得推薦。對于中長測驗時,對于屬性個數(shù)少和題庫容量較小的情況下,推薦使用Gini 策略和IPA 策略,而當屬性個數(shù)增多和題庫容量增大時,推薦使用Gini 策略。當屬性間高相關且屬性個數(shù)非常多和題庫容量非常大時,推薦使用ASI 策略和JSD 策略,ASI 策略的測驗精度稍高于JSD 策略。

6.2 討論

Gini 策略是基于被試知識狀態(tài)類別的后驗概率和被試能力估計置信區(qū)間的后驗概率構造的,因此受CDM 和被試知識狀態(tài)分布的影響較小,這種構造方法直接反映后驗概率的變化且采用了最小錯誤率貝葉斯決策確定被試的知識狀態(tài),因而測量的精度也非常高?;嶂笖?shù)的線性加權方式,使得其對后驗概率的變化相比熵而言更加敏感,從而有助于擴大選題范圍提高題庫利用均勻性,且加法運算速度較快,能滿足Dual-CAT 實時響應的需求。

在某些條件下(如被試的知識狀態(tài)由高階模型生成),Gini 策略的能力估計精度會稍低于IPA 策略,而此時Gini 策略的模式判準率會稍高于IPA 策略,可能的原因是組合策略中能力的信息量和知識狀態(tài)的信息量共同作用選擇下一題,兩種信息量在選題過程中互相均衡的結果。Zheng 和Chang (2016)指出當已知題庫參數(shù),公式(3)中的KL 信息量可以預先計算,縮短了ASI 策略的選題用時,而Gini 策略是定義在隨機變量后驗概率,必須根據(jù)被試的作答反應實時計算,因此選題用時會稍有增加。

JSD 策略僅計算基于當前估計值的KL 距離,運算量小,選題非???而Gini 策略需考慮有限集合和區(qū)間范圍內(nèi)后驗概率變化,需要求和與積分運算,因此選題耗時會超過ASI 策略和JSD 策略。當測驗長度較短時,能力估計值和被試知識狀態(tài)估計值偏離真值較遠,基于他們當前估計值的JSD 策略的選題范圍比較寬泛,從而使得題庫的利用率會更加均勻; Gini 策略不依賴于能力和知識狀態(tài)的當前估計值,而依賴于他們的概率分布,選題會更趨集中。

Gini 策略的測驗精較高,但其題庫利用率不如JSD 策略。Wang 等人(2011)的研究表明限制漸進法(Restrictive Progressive Method:RP)和限制閾值法(Restrictive Threshold Method:RT)能均衡測量精度和項目曝光率,下一步研究擬將Gini 策略與RP 和RT 方法結合,提高Gini 策略的題庫利用均勻性。測量精度和題庫利用均勻性是一對相互沖突的指標。使用控制項目曝光技術后,題庫利用均勻性會更好,但也會帶來測量精度下降的不利影響,如何權衡需要進一步研究。另外,使用控制項目曝光技術后,各選題策略之間的差異是否會消除,也有待進一步研究。當屬性個數(shù)較多時和題庫容量較大時,Gini 策略的選題用時可能會超過用戶的期望值(延時超2 秒) (Nah,2004),下一步研究擬將Gini 策略與動態(tài)搜索算法(Zheng & Wang,2017)結合,對其優(yōu)化以減少選題用時。

本文采用分離建模的方法獲得兩類模型的參數(shù)來構建Dual-CAT 的題庫,題庫項目是否完全擬合所關注的模型還需要進一步探查以期獲得更準確的測量結果。文中Dual-CAT 的題庫參數(shù)的建立過程是先模擬CDM 的參數(shù)和項目的屬性向量,根據(jù)CDM 模型獲得反應數(shù)據(jù),然后用反應數(shù)據(jù)估計IRT 參數(shù),這是目前研究中常用的方法(Dai et al.,2016; Kang et al.,2017; Wang et al.,2012,2014),能否采用先模擬IRT 的項目參數(shù),根據(jù)IRT 模型獲得反應數(shù)據(jù),然后用反應數(shù)據(jù)估計CDM 參數(shù)和項目屬性向量的方法構建題庫?在這種方式構建題庫下各選題策略的表現(xiàn)有待進一步探查。

隨著測驗數(shù)據(jù)的復雜性和測驗要求的限定,選題策略的發(fā)展也要適應新測驗形式的發(fā)展,比如屬性多級化項目測驗(涂冬波,蔡艷,2015)、多級評分項目測驗(蔡艷 等,2016)、多維項目測驗(韓雨婷等,2018; Hsu & Wang,2019)、多階段CD-CAT (羅芬 等,2018; Kaplan & de la Torre,2020)、融入非統(tǒng)計約束的多階段測驗(Lin & Chang,2019; Liu et al.,2018)以及結合反應時的CAT 測驗(Fan et al.,2012;Huang,2020),可探討基于基尼指數(shù)的選題策略在這些測驗場景下的效果及其應用。

猜你喜歡
基尼后驗題庫
Wimbledon Tennis
“勾股定理”優(yōu)題庫
“軸對稱”優(yōu)題庫
基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
“軸對稱”優(yōu)題庫
“整式的乘法與因式分解”優(yōu)題庫
貝葉斯統(tǒng)計中單參數(shù)后驗分布的精確計算方法
卷入選戰(zhàn)的布基尼
一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
雷達學報(2017年6期)2017-03-26 07:53:04
強制“脫衫”
汨罗市| 普兰县| 永修县| 穆棱市| 延庆县| 永定县| 全椒县| 塔河县| 长岛县| 许昌市| 绥芬河市| 邳州市| 隆化县| 乳源| 乃东县| 罗定市| 义马市| 临潭县| 松阳县| 吴旗县| 宜黄县| 余庆县| 黎城县| 濮阳县| 兴业县| 东台市| 旅游| 鲜城| 呼和浩特市| 巧家县| 双桥区| 来宾市| 武穴市| 阳谷县| 樟树市| 西城区| 贺州市| 张北县| 巴东县| 工布江达县| 无为县|