基于sigmoid函數(shù)的題目難度值動(dòng)態(tài)調(diào)整算法的設(shè)計(jì)

2020-03-23 05:56莫懷訓(xùn)劉曉瑞

軟件工程 2020年2期

莫懷訓(xùn) 劉曉瑞

摘 ?要：本文主要針對(duì)各級(jí)各類(lèi)信息化教學(xué)或考試系統(tǒng)中的題庫(kù)題目難度值進(jìn)行討論，分析如何進(jìn)行分布計(jì)算并動(dòng)態(tài)調(diào)整。本文將難度值定義為錯(cuò)誤率，即錯(cuò)誤次數(shù)/調(diào)用總次數(shù)，再進(jìn)一步分析發(fā)現(xiàn)根據(jù)本定義直接進(jìn)行計(jì)算的方法需要進(jìn)行改進(jìn)，可用sigmoid函數(shù)進(jìn)行擬合，并在此基礎(chǔ)上設(shè)計(jì)出分布計(jì)算算法和線性疊加算法。通過(guò)本方法，各終端無(wú)須額外存儲(chǔ)其他數(shù)據(jù)，僅根據(jù)當(dāng)前題目回答錯(cuò)誤情況即可更新難度值;同時(shí)也無(wú)須連線中心服務(wù)器，可獨(dú)立分布計(jì)算，然后線性疊加即可獲得最終難度值。因此可在一定程度上降低整個(gè)題庫(kù)系統(tǒng)設(shè)計(jì)的難度，同時(shí)也可以看出本方法對(duì)存儲(chǔ)敏感型和去中心的任務(wù)具有一定參考價(jià)值。

關(guān)鍵詞：題目難度值;sigmoid函數(shù);分布計(jì)算;線性疊加

中圖分類(lèi)號(hào)：TP301 ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

1 ? 引言（Introduction）

在信息化教學(xué)系統(tǒng)及目前各級(jí)各類(lèi)等級(jí)考試系統(tǒng)中，題庫(kù)是其中的重要內(nèi)容，它承擔(dān)著對(duì)學(xué)員訓(xùn)練、考核以及選拔等重要功能。題庫(kù)中基本元素就是題目，而題目的形式、內(nèi)容、難度等特征就是題庫(kù)根據(jù)考核目標(biāo)抽取題目組成測(cè)試卷需要考量的基礎(chǔ)數(shù)據(jù)。其中試卷整體難度值和試題難度分布情況是組卷系統(tǒng)考慮的非常重要的兩個(gè)指標(biāo)，而試卷整體難度值、難度分布很明顯是基于試卷各題目難度值來(lái)計(jì)算的[1]。

從實(shí)際情況來(lái)看，我們一般根據(jù)經(jīng)驗(yàn)或過(guò)往的大量統(tǒng)計(jì)數(shù)據(jù)來(lái)確定一道題目的難度值，很明顯這樣效率低下而且往往并不一定符合實(shí)際情況。特別是一道題目面對(duì)不同學(xué)員群體時(shí)，難度值實(shí)際上是不同的，例如某一道電工計(jì)算題對(duì)于職業(yè)學(xué)校普通學(xué)生可能難度值較高，但對(duì)于經(jīng)過(guò)培訓(xùn)的考證學(xué)員可能難度值中等。因此我們需要針對(duì)難度值設(shè)計(jì)一種計(jì)算方法，使得題目難度值在使用中動(dòng)態(tài)調(diào)整，并逐漸符合實(shí)際情況[2]。

2 ? 題目難度值的定義（Definition of difficulty value）

對(duì)于一道題目，其難度值可以從得分率、平均完成時(shí)長(zhǎng)、錯(cuò)誤率等維度去考慮。目前各級(jí)各類(lèi)理論考試題庫(kù)中，最常見(jiàn)的題型是選擇題，實(shí)際上填空題、計(jì)算題、判斷題等都可以變形為選擇題而不減弱其測(cè)試效果，所以很多理論題庫(kù)甚至只有選擇題[3]。而對(duì)于選擇題，一般不存在部分得分，因此使用錯(cuò)誤率去代表難度值就比得分率合理。另外在一般考試過(guò)程中，試題作答沒(méi)有順序要求，考生可以根據(jù)實(shí)際情況靈活選擇試卷前后的題目來(lái)作答，因此準(zhǔn)確統(tǒng)計(jì)一道題目的平均完成時(shí)長(zhǎng)較為困難。所以在本文中，題目難度值主要根據(jù)本題在實(shí)際使用中的錯(cuò)誤率來(lái)代表[4]，公式如下：

其中，總次數(shù)=錯(cuò)誤次數(shù)+正確次數(shù)。錯(cuò)誤率越高代表難度越高，調(diào)用的次數(shù)越多該值會(huì)越趨近于實(shí)際難度。從公式可以總結(jié)出難度值分布應(yīng)該具備的基本規(guī)律如下：

難度值在0—1。

當(dāng)錯(cuò)誤次數(shù)趨近于總次數(shù)時(shí)，難度值趨高，為1時(shí)表示難度最高。

當(dāng)正確次數(shù)趨近于總次數(shù)時(shí)，難度值趨低，為0時(shí)表示難度最低。

當(dāng)正確次數(shù)=錯(cuò)誤次數(shù)時(shí)，難度值=0.5，與總次數(shù)無(wú)關(guān)。

3 ?難度值計(jì)算方法的初步分析（A preliminary analysis of the calculation method of difficulty value）

對(duì)于一道未知難度的題目，最開(kāi)始很自然可以假設(shè)學(xué)員做錯(cuò)的概率與正確的概率一樣。即假設(shè)如已經(jīng)調(diào)用次數(shù)為10000，則錯(cuò)誤次數(shù)為5000，那么難度值初始值為0.5。

難度值隨著錯(cuò)誤次數(shù)增加的表達(dá)式y(tǒng)=（5000+x）/（10000+x），如圖1所示。難度值隨著正確次數(shù)增加的表達(dá)式y(tǒng)=5000/（10000+x），如圖2所示。根據(jù)表達(dá)式易看出，調(diào)整次數(shù)初始假設(shè)值，對(duì)曲線的基本形態(tài)沒(méi)有影響，但對(duì)難度值隨著錯(cuò)誤次數(shù)變化快慢有較大影響。

首先我們需要針對(duì)每道題單獨(dú)存儲(chǔ)錯(cuò)誤次數(shù)及調(diào)用次數(shù)，隨著系統(tǒng)規(guī)模的擴(kuò)大和用戶(hù)使用人次的增加，最終可能會(huì)導(dǎo)致存儲(chǔ)需求超出預(yù)算;其次錯(cuò)誤次數(shù)增加及正確次數(shù)增加，實(shí)際表達(dá)式不一樣，不利于將來(lái)對(duì)系統(tǒng)進(jìn)一步的分析;最重要的是如果起始假設(shè)總調(diào)用次數(shù)太小，則難度值對(duì)錯(cuò)誤次數(shù)太敏感，波動(dòng)大，起始假設(shè)總調(diào)用次數(shù)過(guò)大，則難度值又變化不明顯，兩者都會(huì)導(dǎo)致動(dòng)態(tài)調(diào)整時(shí)間過(guò)長(zhǎng)，對(duì)系統(tǒng)使用造成不便，而應(yīng)該假設(shè)為多少則難以進(jìn)行合理分析。

4 ?難度值計(jì)算方法的優(yōu)化（Optimization of calculation method）

4.1 ? 基于sigmoid函數(shù)的擬合

仔細(xì)考察上面圖1和圖2。如果我們把錯(cuò)誤次數(shù)定義為正值，正確次數(shù)定義為負(fù)值，即圖2以y軸對(duì)稱(chēng)翻轉(zhuǎn)，然后把它們連接在一起。我們可以很容易發(fā)現(xiàn)連接圖形與sigmoid函數(shù)圖像非常相似，如圖3所示[5]。

4.2 ? 精度系數(shù)k的估算

精度系數(shù)主要根據(jù)題庫(kù)面向?qū)ο蟮姆秶鷣?lái)確定。

例如本項(xiàng)目題庫(kù)主要面對(duì)本校中職生源，而我校一屆機(jī)電類(lèi)中職生約300人，本題庫(kù)題目生命周期暫定為10年，則對(duì)應(yīng)人數(shù)約3000人，每人每學(xué)期針對(duì)某一道題可能會(huì)作答四次，即學(xué)習(xí)時(shí)一次，復(fù)習(xí)時(shí)一次，期中測(cè)試一次，期末考試一次。也就是每道題可能會(huì)被作答12000人次。假設(shè)對(duì)于某道題，有95%的同學(xué)人次錯(cuò)誤，即大約有11000次錯(cuò)誤，則錯(cuò)誤凈值x=11000-（12000-11000）=10000，難度值y應(yīng)約等于1;同理如有95%的同學(xué)正確，則x=-10000，y約等于0。

查閱表1可知k取值范圍在（0.00001—0.0001）。經(jīng)過(guò)實(shí)驗(yàn)，k取0.0004，如圖4所示。從圖中可以看出，此時(shí)當(dāng)x≥10000時(shí)，難度值y≈1;當(dāng)x≤-10000時(shí)，難度值y≈0;當(dāng)x=0，即一半人錯(cuò)誤一半人正確時(shí)，難度值y=0.5。曲線對(duì)難度值變化擬合度非常高，完全符合本文第2點(diǎn)對(duì)難度值總結(jié)的四條基本規(guī)律。

4.3 ? 分布計(jì)算的合并處理

我們題目難度值可以在后臺(tái)根據(jù)數(shù)據(jù)統(tǒng)一計(jì)算，這種方法比較簡(jiǎn)單，但需設(shè)置一個(gè)中心服務(wù)器來(lái)處理。

如果難度值與錯(cuò)誤凈值在一定的范圍內(nèi)呈線性關(guān)系，那么難度值可分布在各終端獨(dú)立計(jì)算，需要合并時(shí)線性疊加即可。觀察圖5可發(fā)現(xiàn)難度值變化曲線是分3段近似線性的。因此我們可以將其線性化，得到疊加計(jì)算方法。

對(duì)于點(diǎn)（0，0.5）兩側(cè)鄰域的曲線，其一階導(dǎo)數(shù)，二階導(dǎo)數(shù)，也就是說(shuō)對(duì)于該點(diǎn)兩側(cè)鄰域的曲線等價(jià)于直線，將該點(diǎn)代入后可得，所以我們采用直線來(lái)擬合點(diǎn)（0，0.5）兩側(cè)的曲線。

隨著鄰域的不斷擴(kuò)大，擬合誤差也不斷增大。當(dāng)擬合直線與y=1、y=0分別相交后，擬合直線分別轉(zhuǎn)變?yōu)閥=1、y=0。交點(diǎn)分別為、，因?yàn)?，所以，故此時(shí)誤差達(dá)到最大。如果我們對(duì)誤差要求較高，則應(yīng)適當(dāng)調(diào)整擬合直線的斜率，使得最大誤差符合我們的要求。

因此如果誤差?y≈0.12合適的話，我們可以將難度值曲線簡(jiǎn)化為三段折線：以點(diǎn)（0，0.5）為中心，在的范圍內(nèi)，近似為直線;在的范圍內(nèi)近似為直線y=1;在的范圍內(nèi)近似為直線y=0。

（2）疊加算法

假設(shè)目前對(duì)于某道題，我們從兩個(gè)終端分別獲得難度值、，那么疊加方法如下：

對(duì)于區(qū)間，其中n為可能的總?cè)舜螖?shù)，而難度值函數(shù)自變量x是錯(cuò)誤凈值，也就是x=錯(cuò)誤人次數(shù)-正確人次數(shù)，所以一般來(lái)說(shuō)本區(qū)間應(yīng)該覆蓋了x的很大部分取值范圍。因此我們首先考慮以直線來(lái)進(jìn)行疊加。對(duì)于，有，對(duì)于，有，所以，從本式可以看出，擬合直線斜率的調(diào)整完全不影響疊加算法的結(jié)果。

如果，則表明難度值進(jìn)入到擬合直線y=1的區(qū)域，故此時(shí)y=1;

如果，則表明難度值進(jìn)入到擬合直線y=0的區(qū)域，故此時(shí)y=0。

5 ? 算法設(shè)計(jì)（Design of algorithm）

5.1 ? 遞推計(jì)算方法的推導(dǎo)

如果考慮到存儲(chǔ)優(yōu)化及計(jì)算過(guò)程優(yōu)化，我們往往希望不需存儲(chǔ)所有次數(shù)的情況，只要存儲(chǔ)最新的操作情況即可更新難度值，那么我們必須設(shè)計(jì)出遞推算法。其推導(dǎo)過(guò)程如下：

容易導(dǎo)得難度值函數(shù)的微分。

而，在本問(wèn)題中自變量x每一次最小的變化為1，即。

所以，因此可得難度值遞推公式如下：

6 ? 結(jié)論（Conclusion）

本算法的優(yōu)點(diǎn)在于動(dòng)態(tài)調(diào)整算法簡(jiǎn)單可行，對(duì)于題目只需要存儲(chǔ)當(dāng)前難度值，然后根據(jù)當(dāng)前作答的正確或錯(cuò)誤情況動(dòng)態(tài)調(diào)整即可;同時(shí)本算法可以使得難度值計(jì)算分布在各終端進(jìn)行，當(dāng)進(jìn)行合并時(shí)只需線性疊加即可，特別的是，我們發(fā)現(xiàn)擬合直線根據(jù)精度要求調(diào)整斜率完全不影響疊加算法。另外給出了擬合實(shí)際數(shù)據(jù)的精度系數(shù)k的預(yù)估方法，并有較合理可信的解釋。因此本算法的優(yōu)化方法對(duì)一些存儲(chǔ)敏感型或去中心化的任務(wù)具有一定的參考價(jià)值。

本算法的缺點(diǎn)在于主要只考慮了錯(cuò)誤率對(duì)于題目難度值的影響。對(duì)于某些可能采用單題應(yīng)答時(shí)間限制或者可以部分得分的考試形式，題目難度值還應(yīng)考慮平均完成時(shí)間或者得分率。因此本算法還需進(jìn)一步完善，以期適應(yīng)更多不同的題庫(kù)系統(tǒng)。

參考文獻(xiàn)（References）

[1] 李俊杰，張建飛，胡杰，等.基于自適應(yīng)題庫(kù)的智能個(gè)性化語(yǔ)言學(xué)習(xí)平臺(tái)的設(shè)計(jì)與應(yīng)用[J].現(xiàn)代教育技術(shù)，2018，28（10）：5-11.

[2] 王玥.自適應(yīng)測(cè)驗(yàn)中題庫(kù)的構(gòu)建及其有效性檢驗(yàn)[D].山東師范大學(xué)，2019.

[3] 劉憲爽，吳華明，肖文波，等.改進(jìn)的雙Sigmoid函數(shù)變步長(zhǎng)自適應(yīng)算法及在OCT中的應(yīng)用[J].電子學(xué)報(bào)，2019，47（01）：234-240.

[4] 張春霞.基于Matlab的自動(dòng)組卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué)，2018.

[5] 葉勇，劉秀華，葉琰，等.基于LaTeX的題庫(kù)管理與組卷系統(tǒng)設(shè)計(jì)[J].西南師范大學(xué)學(xué)報(bào)（自然科學(xué)版），2018，43（03）：181-186.

作者簡(jiǎn)介：

莫懷訓(xùn)（1978-），男，碩士，高級(jí)講師.研究領(lǐng)域：電氣自動(dòng)化，計(jì)算機(jī)控制，智能教育技術(shù).

劉曉瑞（1980-），女，碩士，講師.研究領(lǐng)域：前端設(shè)計(jì)技術(shù)，數(shù)據(jù)庫(kù)，青少年計(jì)算機(jī)社區(qū)教育.

軟件工程2020年2期

軟件工程的其它文章: 分布式計(jì)算機(jī)應(yīng)用水平考試系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); 基于虛擬化技術(shù)設(shè)計(jì)信息安全攻防實(shí)訓(xùn)環(huán)境; 基于深度學(xué)習(xí)與二維離散小波分解特征相融合的adaboost人臉識(shí)別模型; 基于區(qū)塊鏈的對(duì)賬系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); 計(jì)算思維為導(dǎo)向的大學(xué)計(jì)算機(jī)基礎(chǔ)教學(xué)研究; 高校新興交叉學(xué)科課程構(gòu)建的探索

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于sigmoid函數(shù)的題目難度值動(dòng)態(tài)調(diào)整算法的設(shè)計(jì)