劉霖 戴經(jīng)國(guó) 袁輝勇
摘要:當(dāng)前,在線測(cè)評(píng)系統(tǒng)得到廣泛應(yīng)用,選題策略成為發(fā)揮系統(tǒng)效能的關(guān)鍵,傳統(tǒng)的選題策略存在檢驗(yàn)精度不夠、試題曝光不均衡,題庫(kù)安全性差等不足,論文提出一種新的自適應(yīng)選題策略,先對(duì)題庫(kù)進(jìn)行基于難度的分區(qū),區(qū)內(nèi)再按區(qū)分度二次分層,建立相應(yīng)選擇量模型,通過反饋機(jī)制,選出信息量最大的試題。實(shí)驗(yàn)表明新策略在保證檢測(cè)效能的前提下有效地降低了試卷重復(fù)率,保證了題庫(kù)的安全性。
關(guān)鍵詞:自適應(yīng)策略;信息量;隨機(jī)抽樣法
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)32-0007-04
目前,計(jì)算機(jī)教學(xué)中廣泛采用在線訓(xùn)練平臺(tái)與個(gè)性化隨機(jī)測(cè)試相結(jié)合。測(cè)試過程中,如何有效地進(jìn)行試題選擇成為考評(píng)檢驗(yàn)學(xué)生學(xué)習(xí)效果的關(guān)鍵,然而傳統(tǒng)的自適應(yīng)試題生成策略存在著試題曝光率過高、試卷重復(fù)、檢驗(yàn)效果不佳等不如人意的地方,影響到系統(tǒng)的有效利用及學(xué)生學(xué)習(xí)效果檢驗(yàn)。因此,提出一種改進(jìn)的選擇策略成為在線訓(xùn)練平臺(tái)的關(guān)鍵。
1經(jīng)典的試題選擇策略
選題策略是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中最關(guān)鍵的部分。自適應(yīng)測(cè)驗(yàn)過程中,系統(tǒng)會(huì)根據(jù)使用者的表現(xiàn)從測(cè)驗(yàn)題庫(kù)中選擇最合適的項(xiàng)目進(jìn)行。廣泛應(yīng)用的在線選題策略主要有:最大信息量法和a分層法。
其中a代表了試題的區(qū)分度,c用于對(duì)不確定因素的估值,稱為猜測(cè)因子,b用于表示試題的難度。從以上模型提示項(xiàng)目正比于區(qū)分度,反比于猜測(cè)因子,試題難度越高越能檢驗(yàn)使用者的真實(shí)能力。最大信息量策略的核心是通過收集使用者的能力信息,然后再在未選擇的試題中選擇最大信息量試題。此策略過程為收集使用者的相關(guān)測(cè)試結(jié)果,如果初次使用則可以預(yù)設(shè)定一個(gè)能力初值,依能力值對(duì)未選擇的試題計(jì)算信息量,選出最大信息量的試題供測(cè)試者使用,再依據(jù)使用試題的結(jié)果進(jìn)行反饋,重新估計(jì)能力值,按新的能力值再對(duì)選定的試題進(jìn)行排序,選擇直到滿足結(jié)束條件為止。
此策略應(yīng)用十分廣泛,在此基礎(chǔ)上,研究者也對(duì)策略進(jìn)行了進(jìn)一步的改善,主要有極大加權(quán)信息量法、最大全局信息量法,貝葉斯法等。此類策略試題區(qū)分度與試題信息量成正比,在難度與猜測(cè)因子確定的條件下,此策略會(huì)優(yōu)先選擇高區(qū)分度的試題。實(shí)際使用過程中試題的利用率不均衡,過多使用的試題容易過早暴露于后繼使用者面前,造成檢驗(yàn)結(jié)構(gòu)失真。
1.2 a分層法
a分層策略先對(duì)試題按區(qū)分度等級(jí)進(jìn)行劃分區(qū)間。策略對(duì)試題的選擇過程是:由先驗(yàn)數(shù)據(jù)估計(jì)使用者的能力值(即使用者的能力特征),無(wú)先驗(yàn)數(shù)據(jù)者可以預(yù)估一個(gè)值;由使用者的檢測(cè)步數(shù)值從對(duì)應(yīng)的分層中選擇試題。依據(jù)選擇的試題難度與使用者能力值的匹配度,并把此匹配度反饋給使用者。由反饋結(jié)果再調(diào)整選擇合適的分層再選出試題。反復(fù)循環(huán),直到滿足停止條件。a分層可以避免高區(qū)分度試題過度選中,有利于較好的檢測(cè)出使用者的能力。另外,使用過程中,每次要對(duì)題庫(kù)中沒使用的試題計(jì)算信息量,增加了資源消耗。
a分層策略在進(jìn)行層次劃分時(shí)沒考慮試題參數(shù)之間的相關(guān)性,它對(duì)試題理想化為每個(gè)分層中均會(huì)有不同難度的試題供選擇,但實(shí)際應(yīng)用中高區(qū)分度分層中通常高難度試題較多,高區(qū)分度區(qū)間中難找到低難度試題,無(wú)法保證檢測(cè)試題的平衡控制,檢驗(yàn)精度比最大信息量法差,同時(shí)實(shí)際使用過程中,由于計(jì)算量大,a分層策略效率更低。
2一種新的自適應(yīng)選題策略
2.1設(shè)計(jì)思想
選題策略中,信息量能較好地反映出使用者的能力,最大信息量法具有較好的能力檢驗(yàn)度,但高區(qū)分度的試題過度使用,不利于題庫(kù)的安全。a分層策略降低了測(cè)試精度。隨后研究者提出了信息量分層法與漸近信息量法(GMIR)作為改進(jìn)策略.漸進(jìn)信息量法和信息量分層法是自適應(yīng)選題策略的變種。
M表示模型中測(cè)試總步數(shù),已經(jīng)完成的步數(shù)用m表示,θm-1對(duì)應(yīng)測(cè)試步數(shù)為m-1時(shí)反映出來(lái)的能力得分,a、b、c分別代表試題的區(qū)分度、難度和猜測(cè)因子。每次使用時(shí)總是計(jì)算模型左側(cè)值最大的試題作為被選試題提供給使用者。
為了進(jìn)一步優(yōu)化使用效果,研究者在a分層基礎(chǔ)上提出試題信息量分層,每次試題難度和使用者能力值最吻合的試題被選中。以上的思想均是在測(cè)評(píng)準(zhǔn)確度與選題曝光率上進(jìn)行改進(jìn)。
受此啟發(fā),新方法基于難度與區(qū)分度進(jìn)行多級(jí)分層,信息量(精度)正比于試題區(qū)分度,試題難度與使用者能力如果吻合越好,信息量(精度)會(huì)越大;對(duì)于題庫(kù),統(tǒng)計(jì)上有如下規(guī)律:試題呈現(xiàn)正態(tài)分布,在(-3,3)區(qū)間內(nèi)使用者的能力與難度相吻合,信息量最大,測(cè)試最準(zhǔn)確,但通常試題題庫(kù)較大,每次匹配會(huì)耗費(fèi)大量時(shí)間。因此,使用分層的方式,依據(jù)難度進(jìn)行題庫(kù)分層,即先按難度進(jìn)行一級(jí)分層以優(yōu)化選題效率,并有利于使用者的能力值與難度進(jìn)行匹配,然后再依據(jù)區(qū)分度進(jìn)行二次分層,通過二次分層保證試題處于合理的曝光次數(shù)下,有效的提升選題測(cè)驗(yàn)的精度。
2.2策略設(shè)計(jì)
新方法在使用過程中先基于難度分層,可記為難度b分層,能使難度均勻分布,二次分層考慮曝光率,解決了題庫(kù)的安全暴露問題,提高了題庫(kù)的安全性,同時(shí)也保證了低區(qū)分度試題的有效利用性。再通過策略模型選擇合適的試題。
依托反應(yīng)理論中定義的選題策略信息量,精度可由信息量體現(xiàn),自適應(yīng)選題策略信息量可以用每個(gè)試題的信息量與其概率積的累加和表示,如公式(5)。
此模型中項(xiàng)目i的信息量用Ii(2)表示,試題(項(xiàng)目)的£越大,越有可能被抽中,因子的引入用以調(diào)節(jié)高區(qū)分度試題的曝光率,使其在合理范圍內(nèi),也讓低區(qū)分度的試題能合理利用,同時(shí)保證了試題形成的檢驗(yàn)有效性。
2.3算法實(shí)現(xiàn)
使用時(shí)先對(duì)試題題庫(kù)進(jìn)行兩級(jí)分層,先按難度分層,檢驗(yàn)步數(shù)設(shè)為N,則難度分層數(shù)k滿足N<=k<=2N,難度分層可以使用如下兩種方法:1)等量難度劃分;2)等距難度劃分。等量難度劃分保證了項(xiàng)目數(shù)相等,但需要關(guān)注可能存在難度跨度不均衡性問題,等距劃分保證難度值均衡,但需要關(guān)注項(xiàng)目數(shù)分布均衡性問題,防止出現(xiàn)部分項(xiàng)目曝光過高問題,具體情況視應(yīng)用題庫(kù)不同而選擇。二級(jí)分層依據(jù)項(xiàng)目區(qū)分度a進(jìn)行,采用等量劃分方式,其層內(nèi)項(xiàng)目數(shù)可計(jì)算為每層的項(xiàng)目總數(shù)除以分層數(shù)k:
m=M1/K(21)
新策略算法可做如下簡(jiǎn)要描述:
(1)無(wú)反饋時(shí),設(shè)置使用者初始能力值,初始區(qū)分度層c為1,如有反饋結(jié)果,則難度分層G與區(qū)分度層c所對(duì)應(yīng)的層數(shù)按反饋結(jié)果得出,難度層G取得與能力值相對(duì)應(yīng)的層數(shù)。
(2)在G與C層中選出試題,記錯(cuò)誤次數(shù)W=0,按模型計(jì)算分層項(xiàng)目的曝光率與信息量。
(3)按模型計(jì)算出對(duì)應(yīng)分層中所有項(xiàng)目(試題)的選擇量,把選擇量最大的項(xiàng)目推薦給使用者。
(4)用戶使用推薦項(xiàng)目進(jìn)行測(cè)評(píng),并依據(jù)所選項(xiàng)目情況計(jì)算使用者能力值。
(5)若使用者測(cè)試結(jié)果正確,則G層數(shù)與c層數(shù)分別加1,若使用者測(cè)試結(jié)果錯(cuò)誤,則錯(cuò)誤標(biāo)ii2W=W+1,若w=2,降低難度G=G-1,若G=0,則設(shè)置G=1,若R=1,則改變二級(jí)分層數(shù)C=C+1。
(6)判斷難度層G與區(qū)分層c,苦c,>K(層數(shù))則中止,算法結(jié)束,否則反饋檢驗(yàn)結(jié)果轉(zhuǎn)步1。
其流程圖如圖1。
3實(shí)驗(yàn)測(cè)試
3.1實(shí)驗(yàn)方法
新策略的真實(shí)環(huán)境檢驗(yàn)需要組織大量人員進(jìn)行不同策略的選題試驗(yàn),開銷極大,并且耗時(shí)較長(zhǎng)。因此,本策略采用蒙特卡洛模擬法進(jìn)行驗(yàn)證。各策略的理論基礎(chǔ)是項(xiàng)目反應(yīng)理論,而依據(jù)此理論,難度、區(qū)分度、猜測(cè)因子均滿足概率分布,使用者的能力也滿足(-3,3)的正態(tài)分布。項(xiàng)目反應(yīng)理論的使用者能力值是在某個(gè)項(xiàng)目中的概率預(yù)測(cè),所以其選題及答題也可以用隨機(jī)抽樣方法進(jìn)行模擬,也即蒙特卡洛方法模擬驗(yàn)證嘲。
蒙特卡洛模擬屬于統(tǒng)計(jì)方法或者隨機(jī)抽樣方法對(duì)策略的應(yīng)用進(jìn)行模擬,實(shí)驗(yàn)中依據(jù)試題的概率分布情況,生成滿足實(shí)際概率分布情況的隨機(jī)數(shù),以策略選題模型得出各隨機(jī)數(shù)的選取情況從而推導(dǎo)出各策略的近似解。其精度取決于樣本點(diǎn)的大小,生成的隨機(jī)數(shù)不能具有關(guān)聯(lián)性,樣本越大越精確,通??紤]計(jì)算代價(jià)與精度,會(huì)生成適量的隨機(jī)樣本點(diǎn)。
本案實(shí)驗(yàn)過程描述為:(1)在(-3,3)區(qū)間生成500個(gè)正態(tài)分布的隨機(jī)能力值;(2)正態(tài)分布區(qū)間(-3,3)中生成不同項(xiàng)目難度數(shù)1000個(gè),項(xiàng)目隨機(jī)區(qū)分度在0-1中隨機(jī)生成;(3)選中一個(gè)還沒使用的模擬能力值;(4)以此能力值為依據(jù)進(jìn)行選題測(cè)試;(5)以能力值模擬進(jìn)行多種策略選題;(6)記錄各測(cè)驗(yàn)數(shù)據(jù),如果所有能力值被使用完成,則結(jié)束,否則轉(zhuǎn)(3)。實(shí)驗(yàn)效果從策略中的關(guān)鍵參數(shù)進(jìn)行比較得到驗(yàn)證。
3.2實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)表明最大信息量法平均誤差與均方誤差均最小,但其需要在選題時(shí)有全部信息,通常作為理想狀態(tài),可以作為其他策略的參照。a分層策略有較好誤差值,從方差看其廣泛使用時(shí)誤差更大,效果不好,具有隨機(jī)性。漸進(jìn)最大信息量法比a分層法更好;新策略雖然誤差平均值相比最大信息量法略差優(yōu)于其他策略,但方差比較小,說明平均而言,其精度是最高的。
(2)曝光率
測(cè)試時(shí)對(duì)試題按區(qū)分度進(jìn)行排序,區(qū)分度越高,編號(hào)越靠后,對(duì)每種策略測(cè)試其試題曝光率,實(shí)驗(yàn)結(jié)果見圖3。
實(shí)驗(yàn)結(jié)果表明,最大信息量法曝光率過于集中,a分層法在試題的曝光率較好,新策略曝光率較均衡,同一難度區(qū)間內(nèi)存在二次分層中有小部分曝光率偏高,但不突出,能保證試卷的有效利用與安全性。
(3)試題測(cè)驗(yàn)效率
用以體現(xiàn)測(cè)驗(yàn)過程中提供的信息量指標(biāo),以測(cè)評(píng)試題反映學(xué)生(測(cè)試者)真實(shí)能力的水平參數(shù)。此參數(shù)用試題測(cè)驗(yàn)過程中,提供信息量的平均值,用如下公式計(jì)算:
3.3實(shí)驗(yàn)結(jié)論
綜上,新策略在曝光率、曝光均衡性方面均優(yōu)于最大信息量法,同時(shí)具有較好的檢驗(yàn)效果。新策略在測(cè)驗(yàn)精度和準(zhǔn)確度上與最大信息量法相比差距并不大,優(yōu)于其他策略,但是卻大幅改進(jìn)了最大信息量法部分項(xiàng)目高曝光率和高區(qū)分度項(xiàng)目重復(fù)率高問題,保證了題庫(kù)的安全性。全面考慮后,新策略具有較好的綜合優(yōu)越性,具有較好的應(yīng)用價(jià)值。
4結(jié)論
選題策略是影響在線測(cè)評(píng)系統(tǒng)有效性的基礎(chǔ)。文章針對(duì)傳統(tǒng)選題策略存在的不足,提出了基于難度分層后結(jié)合區(qū)分度分層的方式對(duì)題庫(kù)進(jìn)行多級(jí)分層,依據(jù)相關(guān)理論建立模型,基于模型選擇最大信息量的試題給使用者。本方案能結(jié)合a分層法與最大信息量法的優(yōu)點(diǎn),在確保測(cè)量的準(zhǔn)確性與精度的基礎(chǔ)上降低了最大信息量法的曝光率與均衡性,有效地降低試題的重復(fù)次數(shù),綜合性能最優(yōu)。為在線測(cè)評(píng)系統(tǒng)發(fā)揮更大效果奠定了基礎(chǔ)。