張忠 宋繼紅 付笑晗
摘 要:近年來,隨著眾包的發(fā)展,對(duì)工作者的準(zhǔn)確率估計(jì)越來越受到關(guān)注。而作為一種特殊的眾包形式,學(xué)生互評(píng)也被MOOC平臺(tái)(大規(guī)模開放式在線課程)廣泛應(yīng)用。本篇文章研究MOOC課程中的在線互評(píng)機(jī)制,通過結(jié)合學(xué)生互評(píng)質(zhì)量與學(xué)生的學(xué)習(xí)能力對(duì)其互評(píng)能力做出估計(jì),以此設(shè)計(jì)互評(píng)分配算法。通過更精準(zhǔn)地分配互評(píng)任務(wù),得到更符合學(xué)生作業(yè)質(zhì)量情況的互評(píng)結(jié)果。
關(guān)鍵詞:MOOC;推薦互評(píng);眾包;質(zhì)量控制;分配算法
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:In recent years,with the rapid development of crowd-sourcing,estimating the precision ratio of crowd workers has attracted more and more attention.As a special form of crowd-sourcing,peer grading has been used by most of Massive Open Online Courses (MOOCs).This paper studies peer grading mechanism in MOOCs,and estimates students' peer grading ability through a combination of their peer assessment and study ability,so as to design an allocation algorithm and achieve more accurate results in compliance with students' works by means of more accurate assignments of peer assessment.
Keywords:MOOC;peer grading;crowd-sourcing;quality control;allocation algorithm
1 引言(Introduction)
近年來,隨著大型在線開放課程MOOC平臺(tái)的流行,使得越來越多的人可以通過觀看視頻的形式學(xué)習(xí)具有大學(xué)水平的在線課程。然而,新型互聯(lián)網(wǎng)科技雖然可以讓學(xué)生獲取視頻資源,同時(shí)也使得對(duì)學(xué)生給出的復(fù)雜的、開放式的作業(yè)進(jìn)行評(píng)估和反饋的能力大大受限,例如數(shù)學(xué)證明、設(shè)計(jì)問題和文章等形式的作業(yè)[1]。相比較于學(xué)校中常規(guī)的課程,MOOC課程的規(guī)模是非常大的,每個(gè)課程通常超過20000名學(xué)生,因此,學(xué)生直接互評(píng)作業(yè)機(jī)制的引入勢(shì)在必行[2]。
同學(xué)間的互評(píng)之所以受到質(zhì)疑和挑戰(zhàn),是因?yàn)閷W(xué)生的知識(shí)和能力與教師存在很大的差距,因此把單純而隨機(jī)地通過給學(xué)生分配互評(píng)任務(wù)得到的互評(píng)評(píng)價(jià)結(jié)果作為課程的反饋在一定程度上會(huì)遭到學(xué)生的質(zhì)疑。而在大規(guī)模的在線課程中,學(xué)生的能力、語言又不盡相同,這可能給學(xué)生的互評(píng)帶來新的挑戰(zhàn)[3]。因此,本文的主要思路是在沒有黃金標(biāo)準(zhǔn)[4]的條件下,結(jié)合學(xué)生以往的互評(píng)工作經(jīng)驗(yàn)對(duì)學(xué)生的評(píng)價(jià)能力進(jìn)行估計(jì),并設(shè)計(jì)互評(píng)分配算法。
2 互評(píng)質(zhì)量控制的簡述(Overview of quality control of peer grading)
學(xué)生互評(píng)本質(zhì)上是一種眾包,而眾包是一種將任務(wù)通過互聯(lián)網(wǎng)外包給個(gè)人的方法。這種方法將具有特殊需求的任務(wù)分布式地發(fā)放出去,其目的是結(jié)合群眾的智慧。然而眾包之所以受到很多爭(zhēng)議,正是由于參與眾包任務(wù)的工作者大多不是專業(yè)人士。如果任務(wù)涉及了專業(yè)的知識(shí),那么并不能保證工作者們給出的結(jié)果的準(zhǔn)確性[5]。
目前,三大MOOC平臺(tái)之一的Coursera已經(jīng)將互評(píng)機(jī)制引入課程學(xué)習(xí)的過程中。學(xué)生的作業(yè)全部需要上傳到服務(wù)器,每個(gè)作業(yè)包含一個(gè)評(píng)估準(zhǔn)則,它描述了該作業(yè)的打分標(biāo)準(zhǔn)[6]。在學(xué)生評(píng)閱之前,工作人員大約需要完成12份作業(yè)的評(píng)閱工作,其中8份用來對(duì)每個(gè)學(xué)生進(jìn)行訓(xùn)練,剩下的4份用來估計(jì)學(xué)生評(píng)閱的準(zhǔn)確率。學(xué)生在每個(gè)作業(yè)的評(píng)閱過程都包含兩個(gè)階段:校正和評(píng)價(jià)。
在學(xué)生完成校正過程后,便開始正式的評(píng)閱過程。在此過程中,學(xué)生會(huì)被分配五份作業(yè)進(jìn)行評(píng)閱。但學(xué)生不知道這五份作業(yè)中的一份是工作人員所評(píng)閱過的作業(yè),這份作業(yè)用來對(duì)學(xué)生評(píng)閱的準(zhǔn)確度進(jìn)行評(píng)估。綜上所述,每個(gè)學(xué)生會(huì)收到四份隨機(jī)分配的其他同學(xué)的作業(yè),以及一份與工作人員共同評(píng)閱的作業(yè)。本算法應(yīng)用于在線互評(píng)系統(tǒng)中,將學(xué)生評(píng)閱質(zhì)量估計(jì)與學(xué)習(xí)能力結(jié)合起來進(jìn)行學(xué)生評(píng)閱作業(yè)的分配,實(shí)現(xiàn)以更小的評(píng)閱數(shù)目得到更準(zhǔn)確的評(píng)閱結(jié)果。
3 評(píng)閱質(zhì)量估計(jì)方法及實(shí)驗(yàn)分析(Estimation method and experiment analysis on Quality of Peer Grading)
3.1 問題定義
每次發(fā)布的作業(yè)會(huì)有k個(gè)評(píng)分標(biāo)準(zhǔn),而每個(gè)評(píng)分標(biāo)準(zhǔn)又分為m個(gè)不同的評(píng)分。因此每個(gè)學(xué)生對(duì)某一作業(yè)給出的反饋為一組k維的向量S,而每份作業(yè)又會(huì)交給隨機(jī)選擇的n個(gè)人進(jìn)行評(píng)閱,那么作業(yè)ti得到的反饋為一個(gè)由n個(gè)向量組成的集合,用表示該集合:
為作業(yè)ti得到的學(xué)生s1的評(píng)分。為中的第k個(gè)元素,則表示集合中每個(gè)向量的第k個(gè)元素組成的集合:
3.2 學(xué)生能力估計(jì)
在所有學(xué)生都完成評(píng)閱之后,我們可以得到由學(xué)生的評(píng)閱數(shù)據(jù)所產(chǎn)生的集合。若想對(duì)學(xué)生的評(píng)閱質(zhì)量進(jìn)行估計(jì),那么需要得到每個(gè)作業(yè)的各標(biāo)準(zhǔn)分?jǐn)?shù)。由于互評(píng)的特點(diǎn),自身能力較強(qiáng)的同學(xué)傾向于給出較平均分更低的結(jié)果,而能力較弱的同學(xué)又有很大的幾率給出較平均分更高的結(jié)果[1]。每份作業(yè)的評(píng)閱者都會(huì)包含能力較強(qiáng)和較弱的學(xué)生,因此我們需要在n個(gè)評(píng)閱結(jié)果中將最高分和最低分去除,以將偏差較大的數(shù)據(jù)點(diǎn)去除。
定義1 表示作業(yè)ti的標(biāo)準(zhǔn)分?jǐn)?shù),則有:
其中為的第k個(gè)標(biāo)準(zhǔn)所得分?jǐn)?shù),是由集合所有向量的第k個(gè)元素的集合去除最大值和最小值后取均值得出。對(duì)所有k∈(1,n)進(jìn)行計(jì)算后可以得到一個(gè)n維向量,則將該向量作為作業(yè)ti的標(biāo)準(zhǔn)分?jǐn)?shù),我們以此分?jǐn)?shù)向量各元素的和來代表上傳了作業(yè)ti的學(xué)生s的能力估計(jì)值as,既:
3.3 評(píng)價(jià)質(zhì)量估計(jì)
在前面介紹了對(duì)學(xué)生能力估計(jì)的方法,所得到的估計(jì)值結(jié)果質(zhì)上是作業(yè)ti的標(biāo)準(zhǔn)分?jǐn)?shù),那么只要計(jì)算某學(xué)生給出的作業(yè)ti的評(píng)分與標(biāo)準(zhǔn)分?jǐn)?shù)之間的偏差,便可以對(duì)學(xué)生的評(píng)價(jià)質(zhì)量進(jìn)行估計(jì)。
而計(jì)算該偏差需要選取適當(dāng)?shù)木嚯x函數(shù)。歐氏距離和余弦相似度被廣泛應(yīng)用于計(jì)算用戶評(píng)分的相似度。但是余弦相似度函數(shù)只能判斷出兩個(gè)評(píng)分方向上的相似程度,而無法識(shí)別距離上的相似程度。因此,我們選用歐氏距離來計(jì)算學(xué)生評(píng)分與標(biāo)準(zhǔn)得分之間的相似度。設(shè)兩個(gè)向量、的相似度為:
則學(xué)生si對(duì)作業(yè)ti評(píng)價(jià)的偏差為。由于每份作業(yè)會(huì)被n名同學(xué)評(píng)閱,為了保證平均分配,那么每個(gè)學(xué)生同樣需要評(píng)閱n份作業(yè)。即只要綜合學(xué)生評(píng)閱的n份作業(yè)的偏差均值便可以求得學(xué)生評(píng)閱的總體偏差。
定義2 設(shè)為學(xué)生s的總體偏差,則有:
3.4 歸一化和排序
依據(jù)3.2節(jié)和3.3節(jié)中所敘述的方法,我們可以分別計(jì)算出學(xué)生s的評(píng)價(jià)質(zhì)量估計(jì)值ds和學(xué)習(xí)能力估計(jì)值as。但所得ds和as的標(biāo)量卻并不相同,因此并不能將兩個(gè)估計(jì)值簡單相加和比較,而是需要依據(jù)各自的范圍區(qū)間分別對(duì)兩個(gè)值進(jìn)行歸一化,將兩個(gè)標(biāo)量映射到一個(gè)相同的范圍,以產(chǎn)生相互可比較的結(jié)果。
由于所有學(xué)生完成某次課程作業(yè)的互評(píng)工作后,評(píng)閱數(shù)據(jù)已經(jīng)不再變動(dòng),即不會(huì)再有新生成的數(shù)據(jù)集加入,因此我們可以采用離差標(biāo)準(zhǔn)化的方法的同時(shí)將ds和as歸一化。用D代表所有學(xué)生的評(píng)價(jià)質(zhì)量估計(jì)值d所產(chǎn)生的集合,則對(duì)學(xué)生s的歸一化方法如式(5)所示:
(5)
同理,對(duì)as采用相同的方法歸一化后,便可通過賦予相應(yīng)的線性系數(shù)加權(quán)產(chǎn)生本次作業(yè)的評(píng)閱估計(jì)值es:
(6)
在MOOC中,由于在一門課程的學(xué)習(xí)周期中教師會(huì)布置多次作業(yè),若只考慮學(xué)生單次的評(píng)閱偏差,并不能準(zhǔn)確地反映學(xué)生的真實(shí)能力。因此本文采用跟蹤評(píng)閱質(zhì)量的方法對(duì)學(xué)生的互評(píng)能力進(jìn)行估計(jì)。將本次的評(píng)閱結(jié)果估計(jì)值和以往作業(yè)的估計(jì)值賦予一定的權(quán)值后結(jié)合起來,形成該學(xué)生的總體評(píng)閱估計(jì)值。用Sk代表學(xué)生s在完成第k次作業(yè)的評(píng)閱后得到的估計(jì)值es。
3.5 分層評(píng)閱
根據(jù)求得的總體估計(jì)值es,我們可以得到學(xué)生的評(píng)閱結(jié)果排名R。設(shè)某次作業(yè)參與評(píng)閱的學(xué)生總數(shù)為n。首先,在R中選取排名靠前的k個(gè)學(xué)生作為上層學(xué)生,其他的學(xué)生作為下層學(xué)生,則我們的目的是盡可能地將上層學(xué)生和下層學(xué)生按比例分配作為每份作業(yè)的評(píng)閱者,即假設(shè)每份作業(yè)的評(píng)閱人數(shù)為m,那么對(duì)于任意提交的作業(yè),我們要選取或名上層學(xué)生來評(píng)閱。例如每份作業(yè)要求10人來評(píng)閱,而我們從排名中選取前60%的學(xué)生作為上層學(xué)生,則每份作業(yè)應(yīng)該由6名上層學(xué)生和4名下層學(xué)生評(píng)閱。
在整個(gè)分配的過程中,我們采用了同班級(jí)回避的方法。因?yàn)槿绻徊扇∵@樣的策略,那么可能會(huì)存在同一個(gè)班級(jí)甚至同一個(gè)寢室的學(xué)生相互評(píng)閱。若學(xué)生在完成作業(yè)的過程中存在相互討論的情況,那么會(huì)影響最終評(píng)閱的準(zhǔn)確性。
(1)實(shí)驗(yàn)數(shù)據(jù)集描述
在本實(shí)驗(yàn)中,我們共計(jì)選取789名學(xué)生參加此次實(shí)驗(yàn)。這些學(xué)生共同參與大學(xué)計(jì)算機(jī)相關(guān)課程,共有48課時(shí),經(jīng)歷12周完成教學(xué)任務(wù)。其中在課程中期依次布置三次作業(yè):數(shù)據(jù)處理作業(yè)、圖片處理作業(yè)和科技論文寫作。數(shù)據(jù)集統(tǒng)計(jì)見表1。
(2)實(shí)驗(yàn)過程
每次作業(yè)的評(píng)閱過程中,對(duì)學(xué)生提交的作業(yè)會(huì)分配10名學(xué)生進(jìn)行評(píng)閱。而每次作業(yè)會(huì)由教師根據(jù)課程的需要制定7—10個(gè)評(píng)分標(biāo)準(zhǔn),學(xué)生會(huì)根據(jù)作業(yè)的完成質(zhì)量在評(píng)閱時(shí)對(duì)每個(gè)評(píng)分標(biāo)準(zhǔn)給出0—5的打分。
在課程的第一次作業(yè)中,老師會(huì)將課程的作業(yè)發(fā)布在網(wǎng)上。然后通過班級(jí)回避的隨機(jī)分配算法分配學(xué)生之間的評(píng)閱關(guān)系。最后,學(xué)生登錄互評(píng)系統(tǒng)并完成在線評(píng)閱。整個(gè)過程是單盲實(shí)驗(yàn),學(xué)生既無法知道他所評(píng)閱的作業(yè)來自哪一位同學(xué),又無法知道自己的作業(yè)被哪些同學(xué)評(píng)閱。這會(huì)盡量使得學(xué)生給出的評(píng)閱分?jǐn)?shù)不存在作弊的行為。第一次作業(yè)所得到的結(jié)果作為下一次作業(yè)分配算法的輸入數(shù)據(jù)。
在第二次作業(yè)中,為了直觀地比較實(shí)驗(yàn)結(jié)果,我們通過學(xué)號(hào)把這些學(xué)生分為四組,其中第一組不做任何特殊的處理,只是依據(jù)班級(jí)回避的策略進(jìn)行隨機(jī)分配。而第二、三、四組學(xué)生使用第一次作業(yè)的評(píng)閱結(jié)果作為上述分層評(píng)閱的分配算法的輸入數(shù)據(jù),對(duì)學(xué)生進(jìn)行排序和分配。其中第二組學(xué)生依據(jù)第一次作業(yè)的評(píng)閱結(jié)果,選取60%的學(xué)生作為上層學(xué)生;第三組選取70%的學(xué)生作為上層學(xué)生;第四組選取80%的學(xué)生作為上層學(xué)生。而代表學(xué)生能力估計(jì)和評(píng)價(jià)能力所占比重的權(quán)值k1和k2則各設(shè)置為0.5。
而在第三次作業(yè)中,仍然沿用第二次作業(yè)的分組方法進(jìn)行評(píng)閱分配,但與其不同的是將前兩次作業(yè)的評(píng)閱估計(jì)結(jié)果作為輸入數(shù)據(jù),實(shí)現(xiàn)迭代的計(jì)算過程。由于相比較來說,學(xué)生當(dāng)次作業(yè)的評(píng)閱結(jié)果要比之前的評(píng)閱結(jié)果更為重要,因此我們?cè)O(shè)置權(quán)值a1=0.25,a2=0.75。
(3)實(shí)驗(yàn)結(jié)果
得到學(xué)生的評(píng)閱結(jié)果后,我們通過計(jì)算每個(gè)學(xué)生各個(gè)評(píng)分標(biāo)準(zhǔn)所得所有分?jǐn)?shù)的均值作為該標(biāo)準(zhǔn)所得的最終分?jǐn)?shù)。設(shè)學(xué)生s1對(duì)學(xué)生s2的某一評(píng)分標(biāo)準(zhǔn)t1的評(píng)分為g1,s2的t1標(biāo)準(zhǔn)的最終得分為g,用ε表示該分?jǐn)?shù)的偏差,則ε=g1-g。假設(shè)某學(xué)生的某個(gè)標(biāo)準(zhǔn)的最終得分為3.8分,那么無論是4或5分都是正確的分?jǐn)?shù),即|ε|<1。因此,我們可以根據(jù)所有學(xué)生評(píng)閱的打分情況統(tǒng)計(jì)出其中給出正確結(jié)果的學(xué)生票數(shù)的比例。更高的正確比例代表著這組學(xué)生有著更為一致的評(píng)閱結(jié)果,其評(píng)閱準(zhǔn)確程度也會(huì)更高。實(shí)驗(yàn)結(jié)果詳見表2和表3。
可以看出在根據(jù)第一次作業(yè)計(jì)算排名后所分出的排名靠前的學(xué)生相比較靠后的學(xué)生普遍具有更高的一致性。其中將上層學(xué)生的百分比設(shè)置為60%時(shí)取得了較好的結(jié)果,|ε|<1的比例相差5.9%,而當(dāng)選取80%的學(xué)生作為上層學(xué)生時(shí),該比例相差3.6%。
而在第三次作業(yè)的評(píng)閱中,由于結(jié)合了第二次的評(píng)閱結(jié)果估計(jì)值以及當(dāng)前的評(píng)閱情況,因此產(chǎn)生了好的結(jié)果。可以看出,設(shè)置60%的上層學(xué)生依然產(chǎn)生了最好的結(jié)果,上層學(xué)生和下層學(xué)生|ε|<1的比例相差17.7%,而相差最小的是按照7:3分配上下層學(xué)生的9%,大于第二次作業(yè)中的相差的最大值5.9%。這說明結(jié)合以往的估計(jì)值會(huì)大大提升算法的魯棒性,可以更好地識(shí)別出評(píng)閱更為準(zhǔn)確的學(xué)生。而將上層學(xué)生和下層學(xué)生的比例設(shè)置為6:4時(shí)得到了最好的結(jié)果,因而可以看出算法對(duì)評(píng)閱
4 結(jié)論(Conclusion)
本文通過結(jié)合學(xué)生評(píng)閱能力和學(xué)習(xí)能力來對(duì)互評(píng)中學(xué)生的評(píng)閱準(zhǔn)確性做出估計(jì),準(zhǔn)確地識(shí)別出評(píng)閱工作中的上層學(xué)生和下層學(xué)生。在后續(xù)的工作中,我們將研究如何通過算法所產(chǎn)生的估計(jì)值轉(zhuǎn)化為對(duì)學(xué)生評(píng)閱準(zhǔn)確率的估計(jì),進(jìn)而將此算法應(yīng)用于更為一般的眾包系統(tǒng)中,實(shí)現(xiàn)對(duì)眾包工作者的工作能力估計(jì),以及實(shí)現(xiàn)使用更少的上層眾包工作者來實(shí)現(xiàn)較為準(zhǔn)確的結(jié)果,以此來降低發(fā)布眾包任務(wù)的成本。
參考文獻(xiàn)(References)
[1] Kulkarni.C,Wei K.P,Le H.Peer and self assessment in massive online classes[J].ACM Transactions on Computer-Human Interaction,2013(39):1-32.
[2] Joglekar.M,Garcia-Molina.H,Parameswaran.A.Evaluating the crowd with confidence[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2013:686-694.
[3] Guo.S,Parameswaran.A,Garcia-Molina.H So who won?:dynamic max discovery with the crowd[C].ACM SIGMOD International Conference on Management of Data.ACM,2012:385-396.
[4] Welinder.P,Perona.P.Online crowdsourcing:Rating annotators and obtaining cost-effective labels[C].Computer Vision and Pattern Recognition Workshops.IEEE,2010:25-32.
[5] Bellare.K,Iyengar.S,Parameswaran.A,et al.Active Sampling for Entity Matching with Guarantees[J].ACM Transactions on Knowledge Discovery from Data,2013,7(3):12.
作者簡介:
張 忠(1990-),男,碩士生.研究領(lǐng)域:推薦系統(tǒng).
宋繼紅(1963-),女,碩士,副教授.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò)通信,計(jì)算機(jī)網(wǎng)絡(luò)遠(yuǎn)程控制,嵌入式技術(shù).
付笑晗(1990-),男,碩士,工程師.研究領(lǐng)域:大數(shù)據(jù)信息安全.