熊 瑤 孫開鍵
慕課學(xué)生互評(píng)誤差糾正方法及其比較
熊 瑤 孫開鍵
學(xué)生互評(píng)是廣泛用于慕課的一種評(píng)價(jià)方法,然而學(xué)生評(píng)估者本身存在比較大的評(píng)分誤差。本文著重介紹和比較可用于糾正慕課學(xué)生互評(píng)誤差的方法。這些方法總體分為兩大類,即對(duì)學(xué)生評(píng)估者進(jìn)行前期糾正的方法和對(duì)評(píng)分結(jié)果進(jìn)行后期糾正的方法。文中總結(jié)的絕大部分方法目前都還沒有被實(shí)際運(yùn)用在慕課學(xué)生互評(píng)中。希望通過本文對(duì)慕課學(xué)生互評(píng)以及糾正學(xué)生評(píng)分誤差方法的介紹,可以讓更多的教育研究者參與對(duì)慕課的評(píng)價(jià)系統(tǒng)進(jìn)行改善的研究。
慕課;學(xué)生互評(píng);誤差糾正
近些年,大規(guī)模開放在線課程(massive open on?line course,MOOC,中文稱為“慕課”)已經(jīng)成為高等教育中的熱門話題。慕課有幾個(gè)主要特點(diǎn)值得說明。首先,它是在線課程,課程內(nèi)容是循序漸進(jìn)的,有規(guī)定的開課結(jié)課時(shí)間,有老師的講義,有需要按時(shí)完成的作業(yè)和考試,以及學(xué)生的討論等,這些都和傳統(tǒng)的大學(xué)課程相似。它的最主要的特點(diǎn)是規(guī)模很龐大,具體體現(xiàn)在學(xué)生數(shù)量上。一門慕課平均能夠吸引兩萬名學(xué)生(Jordan,2014)。最后,慕課通常是對(duì)所有人免費(fèi)開放的。不過也有一些例外,比如Udacity會(huì)對(duì)參與的學(xué)生收取每月大約200美元的學(xué)費(fèi)。通常這些收費(fèi)的項(xiàng)目也會(huì)給完成課程要求的學(xué)生提供慕課證書。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,慕課也使學(xué)生間互動(dòng)以及學(xué)生社群的發(fā)展得到更好的支持。比如,“慕課學(xué)院”(http://mooc.guokr.com/)給中國(guó)大量的慕課學(xué)習(xí)者提供了一個(gè)課外分享和交流的平臺(tái)。慕課與傳統(tǒng)的自學(xué)考試有很大的區(qū)別,慕課主要以學(xué)習(xí)體驗(yàn)為導(dǎo)向,大部分慕課學(xué)生不以拿到證書為目的,而自學(xué)考試更注重通過考試得到學(xué)位。
在全世界范圍內(nèi),慕課平臺(tái)已經(jīng)得到很好的發(fā)展。主要以英語(yǔ)授課的平臺(tái),比如Coursera,edX和Udacity吸引了大量的用戶群。值得一提的是,Coursera上的大部分課程內(nèi)容都已被各國(guó)學(xué)生志愿者翻譯成多種不同的語(yǔ)言,因此非英語(yǔ)為母語(yǔ)的世界各地的學(xué)生也能夠順利地進(jìn)行學(xué)習(xí)。在中國(guó),以中文授課的平臺(tái)也吸引了大量的學(xué)習(xí)者,比如“慕課網(wǎng)”(http://www.imooc.com/)和“中國(guó)大學(xué)MOOC”(http://www.icourse163.org/)。其中“慕課網(wǎng)”與別的慕課平臺(tái)稍有不同,它提供的課程主要是短課程,比如幾個(gè)小時(shí),并且不設(shè)定學(xué)生的學(xué)習(xí)進(jìn)度。
慕課給高等教育帶來了革新。它為所有人提供了一個(gè)免費(fèi)或低費(fèi)用接受高等教育的機(jī)會(huì)。慕課學(xué)生需要的僅僅是一臺(tái)電腦以及暢通的網(wǎng)絡(luò)。有人認(rèn)為它也許會(huì)對(duì)傳統(tǒng)的高等教育帶來沖擊,因?yàn)槟秸n相對(duì)于傳統(tǒng)的課堂教育更加高效,具體體現(xiàn)在開設(shè)一門慕課的成本分?jǐn)偟矫總€(gè)學(xué)生身上相對(duì)于傳統(tǒng)的課堂教育有所減少(Hollands&Tirthali, 2014)。慕課也許為降低高等教育成本提供了一種可能。但是,同時(shí)也有學(xué)者認(rèn)為慕課部分取代傳統(tǒng)高等教育的未來還存在很多挑戰(zhàn),最主要的挑戰(zhàn)是如何提供一個(gè)信效度高的評(píng)價(jià)機(jī)制對(duì)學(xué)生的學(xué)習(xí)成果進(jìn)行評(píng)估(Sandeen,2013)。學(xué)生也許在慕課中有好的學(xué)習(xí)體驗(yàn),但是現(xiàn)有的慕課評(píng)價(jià)系統(tǒng)還無法作出準(zhǔn)確可信賴的評(píng)估。目前常用于慕課的評(píng)估方法最主要的還是機(jī)器評(píng)分,機(jī)器評(píng)分局限于客觀題的評(píng)分,比如單項(xiàng)選擇題。論文自動(dòng)評(píng)分是一種更加智能的機(jī)器評(píng)分,主要應(yīng)用于慕課學(xué)生的寫作評(píng)分(Balfour,2013)。然而,論文自動(dòng)評(píng)分的算法還有局限性,它能夠準(zhǔn)確無誤地指出詞匯或語(yǔ)法的錯(cuò)誤,卻不能有效地識(shí)別寫作中的修辭手法等比較高級(jí)的寫作手法(Graesser&McNamara,2012),因此它只能局限用于程式化的寫作中,對(duì)于比較富有創(chuàng)造力的創(chuàng)作型作業(yè)的評(píng)分技術(shù)還不夠成熟。另外一種常用于慕課評(píng)分的是學(xué)生互評(píng)(peer assess?ment),Coursera對(duì)于開放性試題和作業(yè)都是采取學(xué)生互評(píng)的方式(Balfour,2013)。學(xué)生互評(píng)是一種人工評(píng)分方式,主要用于對(duì)開放性的作業(yè)進(jìn)行評(píng)分。通常在傳統(tǒng)的課堂教育中,這種開放性作業(yè)都是教師或者助教負(fù)責(zé)評(píng)分。然而在規(guī)模浩大的慕課中,教師評(píng)分工作量太大,于是學(xué)生互評(píng)成為一種可行的并被廣泛應(yīng)用的方法。
慕課中學(xué)生互評(píng)的過程通常包括幾個(gè)典型的步驟。就以Coursera上的《地圖與地理空間革命》(https://www.coursera.org/course/maps)課程中的學(xué)生互評(píng)作為例子(Robinson et al.,2015),這門課只有一次開放性作業(yè),因此也只有一次學(xué)生互評(píng)活動(dòng)。在課程的最后一周,學(xué)生運(yùn)用在本課程中學(xué)到的地理知識(shí)和地圖繪制技能按照教師的要求自定義繪制并上傳一張富含信息的電子地圖。在學(xué)生上交電子地圖之后,有一段學(xué)生互評(píng)的時(shí)間,上交了自己作業(yè)的學(xué)生有權(quán)利隨機(jī)給別的學(xué)生地圖評(píng)分以及提供反饋意見。課程系統(tǒng)上,建議每個(gè)學(xué)生評(píng)6張地圖,但是學(xué)生有自主權(quán),可以選擇評(píng)更多或更少。在評(píng)分完成后,學(xué)生會(huì)收到其他學(xué)生對(duì)他本人作業(yè)地圖的評(píng)分結(jié)果。與其他的慕課課程活動(dòng)類似,學(xué)生互評(píng)也是基于學(xué)生自愿的原則進(jìn)行的。有的學(xué)生選擇上交作業(yè)但是不參加學(xué)生互評(píng),但實(shí)際上大部分上交了作業(yè)的學(xué)生都參與了這個(gè)學(xué)生互評(píng)的環(huán)節(jié)。通常在一門慕課中,會(huì)有一次到幾次的學(xué)生互評(píng)活動(dòng)。
學(xué)生互評(píng)在傳統(tǒng)教育中扮演著重要的角色,它能夠減輕教師負(fù)擔(dān)并且讓學(xué)生通過評(píng)價(jià)他人的作業(yè)加深自己的認(rèn)知(Topping,2009)。不過由于學(xué)生的知識(shí)水平和評(píng)價(jià)能力還不夠成熟,學(xué)生互評(píng)在傳統(tǒng)教育中一般只用于提供形成性評(píng)估,它還不太能勝任總結(jié)性評(píng)估。在慕課中,學(xué)生有很大自主權(quán),他們進(jìn)行自主學(xué)習(xí),負(fù)責(zé)自己的學(xué)習(xí)進(jìn)度以及評(píng)估自己和同學(xué)的學(xué)習(xí)成果。與傳統(tǒng)的學(xué)生互評(píng)一樣,慕課中的學(xué)生互評(píng)也面臨著同樣的問題,因?yàn)楹芏鄬W(xué)生還處于積累知識(shí)的階段,可能還不完全具備充足的知識(shí)和能力對(duì)同學(xué)的作業(yè)或作品進(jìn)行準(zhǔn)確有效的評(píng)價(jià)。同時(shí),由于在慕課中開放性試題和作業(yè)很多時(shí)候只能依賴于學(xué)生互評(píng)這一項(xiàng)評(píng)估手段,學(xué)生作為評(píng)估者所存在的問題更加凸顯出來。
近年來,一批研究者,包括教育研究者和計(jì)算機(jī)科學(xué)家,對(duì)慕課中的學(xué)生互評(píng)進(jìn)行了研究分析,并提出一些可用于糾正學(xué)生評(píng)估者評(píng)分誤差的方法。另外,筆者也總結(jié)出一些還未應(yīng)用但有潛力被應(yīng)用于慕課學(xué)生互評(píng)中以糾正評(píng)估者誤差的方法。這些方法總體來說都是以提高學(xué)生互評(píng)結(jié)果的準(zhǔn)確度和信度為目的,大體可以分為兩個(gè)大類。第一類方法主要是對(duì)學(xué)生評(píng)估者(peer rater)進(jìn)行前期糾正或測(cè)試,第二類方法主要是對(duì)學(xué)生互評(píng)結(jié)果進(jìn)行后期糾正。本文將分析比較這兩類不同的方法。
2.1 對(duì)學(xué)生評(píng)估者進(jìn)行前期糾正的方法
對(duì)學(xué)生評(píng)估者進(jìn)行前期糾正的方法是在學(xué)生互評(píng)發(fā)生之前對(duì)學(xué)生評(píng)估者存在的誤差進(jìn)行糾正或估計(jì)。通常有一個(gè)外在的無誤差的標(biāo)準(zhǔn),可以通過訓(xùn)練讓學(xué)生接近這個(gè)標(biāo)準(zhǔn),從而減少學(xué)生可能存在的評(píng)分誤差,或者根據(jù)估算學(xué)生與外在標(biāo)準(zhǔn)之間的差距而給學(xué)生評(píng)估者不同的權(quán)重,從而使誤差較小的評(píng)估者在實(shí)際評(píng)分中能得到更大的權(quán)重,而降低誤差較大的評(píng)估者在實(shí)際評(píng)分中的影響。
當(dāng)涉及人工評(píng)分的時(shí)候,對(duì)于評(píng)估者的前期培訓(xùn)有助于他們更好地理解評(píng)分規(guī)則,從而減少由于對(duì)評(píng)分規(guī)則的誤解而產(chǎn)生的誤差。系統(tǒng)的有針對(duì)性的培訓(xùn)能夠使學(xué)生評(píng)估者更有效地進(jìn)行評(píng)估,并提供有建設(shè)性的反饋意見,從而幫助被評(píng)估者進(jìn)行反思和學(xué)習(xí)(e.g.,Saito,2008;Sluijsmans,Brand-Gruwel,&van Merri?nboer,2002)。例如,在Min(2006)的研究中闡述了對(duì)于學(xué)生評(píng)估者進(jìn)行系統(tǒng)培訓(xùn)的價(jià)值,在對(duì)18個(gè)學(xué)生評(píng)估者進(jìn)行課上集體培訓(xùn)和課后一對(duì)一的培訓(xùn)后,評(píng)估者提供的反饋意見能更多的被采納,從而提高了學(xué)生的學(xué)習(xí)效果。然而,這種系統(tǒng)有針對(duì)性的培訓(xùn)比較難于在學(xué)生評(píng)估者數(shù)量眾多的慕課中實(shí)施。對(duì)于慕課學(xué)生評(píng)估者的培訓(xùn),大概只能局限于對(duì)評(píng)分規(guī)則進(jìn)行講解和示范,針對(duì)每個(gè)學(xué)生評(píng)估者的個(gè)性化培訓(xùn)很難實(shí)現(xiàn)。Li et al.(2015)指出目前的關(guān)于學(xué)生評(píng)估的文獻(xiàn)中似乎并不能確定前期培訓(xùn)能起到實(shí)質(zhì)性的作用。這也許跟現(xiàn)有的培訓(xùn)學(xué)生評(píng)估者的形式和質(zhì)量有關(guān)。目前鮮有研究者做過針對(duì)慕課學(xué)生評(píng)估者進(jìn)行培訓(xùn)的調(diào)查研究。已有的慕課平臺(tái)也尚未把前期培訓(xùn)作為重要的環(huán)節(jié)納入考量。這里存在著較大的研究缺口有待今后補(bǔ)充。
雖然前期培訓(xùn)較難在慕課中系統(tǒng)實(shí)施,但是有些慕課平臺(tái)提供了對(duì)學(xué)生評(píng)估者進(jìn)行前期校驗(yàn)的方法,目的在于根據(jù)學(xué)生評(píng)估者在校驗(yàn)過程中的評(píng)估準(zhǔn)確性給每個(gè)評(píng)估者計(jì)算出一個(gè)權(quán)重,這個(gè)權(quán)重決定了此評(píng)估者在之后真正的評(píng)估中的價(jià)值。比如Coursera就采取了定標(biāo)學(xué)生評(píng)估(Calibrated Peer Review,CPRTM)的方法應(yīng)用于學(xué)生互評(píng)中(http://cpr. molsci.ucla.edu/Home.aspx)(Balfour,2013)。定標(biāo)學(xué)生評(píng)估的方法是美國(guó)加州大學(xué)洛杉磯分校的研究者研發(fā)出來的基于網(wǎng)絡(luò)的學(xué)生評(píng)估工具。它的基本思想是學(xué)生評(píng)估者的評(píng)分準(zhǔn)確度可以通過他在同一個(gè)作業(yè)上與教師評(píng)分之間的差距得到。換言之,學(xué)生在同一個(gè)作業(yè)上的評(píng)分與教師的評(píng)分越接近,表示這個(gè)學(xué)生評(píng)估者越可信賴。定標(biāo)學(xué)生評(píng)估是在真正的學(xué)生評(píng)估之前的一個(gè)短暫的培訓(xùn)校驗(yàn)過程,目的在于讓學(xué)生了解評(píng)分標(biāo)準(zhǔn)以及進(jìn)行實(shí)際練習(xí),更重要的是由此得到一個(gè)評(píng)估者能力指數(shù)(Reviewer Competency Index,RCI)代表此評(píng)估者的準(zhǔn)確度。在這個(gè)校驗(yàn)過程中,每個(gè)學(xué)生都會(huì)對(duì)幾個(gè)樣本作業(yè)進(jìn)行評(píng)估,這幾個(gè)樣本作業(yè)是已經(jīng)由教師評(píng)過分的,所以學(xué)生的評(píng)分與教師評(píng)分之間的差距可以由此得出,再進(jìn)行一些算術(shù)變換,可以計(jì)算出每個(gè)學(xué)生的評(píng)估者能力指數(shù)。這個(gè)指數(shù)的具體算法目前還未能從已有文獻(xiàn)中找到,因?yàn)槎?biāo)學(xué)生評(píng)估的平臺(tái)已經(jīng)被商業(yè)化了。需要用這個(gè)平臺(tái)的教育機(jī)構(gòu)需要付費(fèi)才能使用。
實(shí)際上,Coursera在對(duì)這個(gè)定標(biāo)學(xué)生評(píng)估的應(yīng)用時(shí)不同于最初設(shè)定。以斯坦福大學(xué)的《人機(jī)交互》(https://class.coursera.org/hci)這門課上應(yīng)用的定標(biāo)學(xué)生評(píng)估為例,它與傳統(tǒng)的定標(biāo)學(xué)生評(píng)估有所不同。首先,這個(gè)校驗(yàn)過程并不發(fā)生在真正的學(xué)生互評(píng)之前,而是跟學(xué)生互評(píng)一起進(jìn)行(Piech et al., 2013),也就是說,在學(xué)生按時(shí)完成并上交他們的作業(yè)之后,進(jìn)行學(xué)生互評(píng)的過程中,個(gè)別的學(xué)生作業(yè)會(huì)被選取出來當(dāng)作樣本分發(fā)給學(xué)生評(píng)估者。這里的樣本作業(yè)是已經(jīng)被教師評(píng)過分而且會(huì)被很多的學(xué)生評(píng)分,如果假設(shè)教師評(píng)分是準(zhǔn)確無誤的話,這個(gè)作業(yè)本身的準(zhǔn)確分?jǐn)?shù)是已知的。同時(shí)別的非樣本作業(yè)也隨機(jī)分發(fā)給學(xué)生評(píng)估者,因此每個(gè)學(xué)生評(píng)估者都會(huì)收到一兩個(gè)樣本作業(yè)以及三四個(gè)非樣本作業(yè)進(jìn)行評(píng)分。很明顯,這個(gè)定標(biāo)互評(píng)的著重點(diǎn)是在定標(biāo),而不注重估評(píng)者培訓(xùn)。雖然學(xué)生評(píng)估者能力指數(shù)也能從這個(gè)過程中得出,但是教師也可以選擇不使用這個(gè)指數(shù)。目前暫無文獻(xiàn)記錄Coursera平臺(tái)上的慕課有真正使用過定標(biāo)學(xué)生評(píng)估這個(gè)工具。它只是給教師提供了一個(gè)選擇,而具體用或不用以及怎么用都取決于負(fù)責(zé)這門課的教師。
另外,在定標(biāo)學(xué)生評(píng)估方法的基礎(chǔ)上,也有研究者提出了一個(gè)擴(kuò)展的版本——可靠度指數(shù)(Cred?ibility Index,CI)(Suen,2014;Xiong,Goins,Suen, Pun,&Zang,2014)。可靠度指數(shù)類似于評(píng)估者能力指數(shù),可用于賦予評(píng)估者不同的權(quán)重。相對(duì)評(píng)估者能力指數(shù),可靠度指數(shù)不僅涵括了評(píng)估者的準(zhǔn)確度,也包括評(píng)估者的信度和適應(yīng)性。準(zhǔn)確度是指與教師評(píng)分的一致性,這個(gè)與定標(biāo)學(xué)生評(píng)估中的評(píng)估者能力指數(shù)一致,信度被定義為評(píng)估者對(duì)于某個(gè)固定作業(yè)評(píng)分的一致性,適應(yīng)性被定義為評(píng)估者對(duì)不同的作業(yè)評(píng)分準(zhǔn)確度的一致性??煽慷戎笖?shù)是這三個(gè)指數(shù)的整合,對(duì)評(píng)估者評(píng)估能力有更全面的體現(xiàn)。在計(jì)算可靠度指數(shù)的過程中,需要每個(gè)學(xué)生評(píng)估者對(duì)至少兩個(gè)已知準(zhǔn)確分?jǐn)?shù)的樣本作業(yè)進(jìn)行評(píng)估,給出評(píng)分的同時(shí)也給出對(duì)每個(gè)樣本作業(yè)能給到的最高得分和最低得分,因此對(duì)同一個(gè)樣本作業(yè),學(xué)生評(píng)估者需要給出三個(gè)分?jǐn)?shù):作業(yè)得分、最高得分和最低得分。準(zhǔn)確度還是按跟教師評(píng)分的差距進(jìn)行計(jì)算,與教師評(píng)分差距越大,準(zhǔn)確度越低。信度的計(jì)算是按對(duì)同一個(gè)作業(yè)給出的最高得分和最低得分的差距計(jì)算,差距越大說明信度越低。適應(yīng)性是按對(duì)不同樣本作業(yè)的準(zhǔn)確度的差異計(jì)算得到,準(zhǔn)確度越一致,適應(yīng)性越大。具體的計(jì)算公式請(qǐng)參考Xiong et al.(2014)。可靠性指數(shù)是對(duì)評(píng)估者能力指數(shù)的一個(gè)補(bǔ)充,理論上來說應(yīng)該更能反映一個(gè)學(xué)生評(píng)估者的評(píng)分能力。然而,這個(gè)指數(shù)還只有一個(gè)雛形,還未被用真正用于實(shí)際的慕課學(xué)生互評(píng)中,進(jìn)一步的測(cè)試和完善還有待日后研究。
2.2 對(duì)學(xué)生評(píng)分結(jié)果進(jìn)行后期糾正的方法
除了前期糾正學(xué)生評(píng)估者的方法以外,糾正學(xué)生評(píng)分誤差的方法還包括另外一類,就是對(duì)學(xué)生評(píng)分結(jié)果進(jìn)行后期糾正。這類方法旨在通過分析已有的學(xué)生評(píng)分?jǐn)?shù)據(jù),對(duì)學(xué)生評(píng)估者的評(píng)分偏差和評(píng)分信度進(jìn)行考量,從而估算學(xué)生上交作業(yè)的真分?jǐn)?shù)。這個(gè)真分?jǐn)?shù)是剔除了評(píng)分者誤差之后所得到的更準(zhǔn)確的分?jǐn)?shù),它誤差更小,更能反應(yīng)學(xué)生的真實(shí)水平。這些方法總體也可以分為兩大類,一類是在機(jī)器學(xué)習(xí)領(lǐng)域提出的一些統(tǒng)計(jì)模型,另一類是屬于項(xiàng)目反應(yīng)理論(Item Response Theory)的范疇。
Piech et al.(2013)提出了一個(gè)可以實(shí)際應(yīng)用于慕課學(xué)生互評(píng)中估計(jì)學(xué)生作業(yè)真分?jǐn)?shù)的統(tǒng)計(jì)模型,并且把這個(gè)統(tǒng)計(jì)模型運(yùn)用到兩門慕課學(xué)生互評(píng)的數(shù)據(jù)中。用貝葉斯方法對(duì)參數(shù)進(jìn)行估計(jì),結(jié)果顯示用模型化的方法得到的真分?jǐn)?shù)比用原始數(shù)據(jù)更加準(zhǔn)確。在Piech提出的模型中,他假設(shè)學(xué)生給出的實(shí)際分?jǐn)?shù)是正態(tài)分布的,以作業(yè)真分?jǐn)?shù)和學(xué)生評(píng)估者偏差的差值為平均值,以學(xué)生評(píng)估者信度的倒數(shù)為方差,如下所示:
其中,znj表示學(xué)生評(píng)估者j給學(xué)生作業(yè)n評(píng)分的標(biāo)準(zhǔn)z-分,這個(gè)模型把評(píng)分都轉(zhuǎn)化為標(biāo)準(zhǔn)z-分,因此原本數(shù)據(jù)由類別數(shù)據(jù)(categorical data)轉(zhuǎn)化為連續(xù)數(shù)據(jù)(continuous data);tn是指學(xué)生作業(yè)n的真分?jǐn)?shù);bj是指評(píng)估者j的偏差,正數(shù)表示評(píng)估者較嚴(yán)厲(severe),負(fù)數(shù)表示評(píng)估者評(píng)分較寬容(lenient);τj是指學(xué)生評(píng)估者j的信度,評(píng)估者信度越大,評(píng)分的方差就越小。tn,bj和τj都被作為參數(shù)進(jìn)行估計(jì)。因此在慕課學(xué)生互評(píng)中,每個(gè)學(xué)生作業(yè)都會(huì)有一個(gè)真分?jǐn)?shù),每個(gè)學(xué)生評(píng)估者都會(huì)有一個(gè)偏差和一個(gè)信度參數(shù)。這個(gè)方法最近又被應(yīng)用在一個(gè)傳統(tǒng)課堂的學(xué)生互評(píng)中(Sajjadi,Alamgir,&von Luxburg,2015),但是結(jié)果顯示用這個(gè)方法估計(jì)出來的真分?jǐn)?shù)并不優(yōu)于直接用原本數(shù)據(jù)。由此可見,這個(gè)模型并不能適用于所有的學(xué)生互評(píng)的情況。具體適用于什么情況,需要注意什么,還有待研究。
另外一個(gè)類似但是略有不同的模型是Goldin(2012)提出的。Goldin提出這個(gè)模型時(shí)并沒有實(shí)際應(yīng)用到慕課學(xué)生互評(píng)中,只是用到了一個(gè)小班的傳統(tǒng)課堂的學(xué)生互評(píng)中。一個(gè)有28個(gè)學(xué)生的小班,Goldin收集了學(xué)生互評(píng)的結(jié)果,同時(shí)收集了教師評(píng)分的結(jié)果,用這些分?jǐn)?shù)去估計(jì)學(xué)生作業(yè)的真分?jǐn)?shù)和學(xué)生評(píng)估者的誤差。與Piech的模型不同的是,Goldin的模型加入了題目的難度系數(shù)作為參數(shù),因?yàn)镚oldin的模型適用于多個(gè)不同開放型題目的評(píng)分,而Piech的模型只局限于單個(gè)開放型題目。或者說Goldin的模型也適用于對(duì)同一個(gè)作業(yè)的多個(gè)分解評(píng)分(analytic scoring),而Piech的模型只適用于綜合評(píng)分(holistic scoring)。統(tǒng)計(jì)模型如下所示:
其中,ynij是指學(xué)生評(píng)估者j給學(xué)生n的作業(yè)題目i的評(píng)分,tni是學(xué)生n的作業(yè)題目(或標(biāo)準(zhǔn))i的真分?jǐn)?shù),學(xué)生的真分?jǐn)?shù)是多維的,不是一個(gè)單一分?jǐn)?shù),維度由題目(或標(biāo)準(zhǔn))的數(shù)量決定;di是指題目(或標(biāo)準(zhǔn))i的難度系數(shù),bj是指學(xué)生評(píng)估者j的評(píng)分偏差,1/τj是試題i的合并的方差。在這個(gè)模型里,沒有考慮評(píng)估者的信度,把τi改成τj才是評(píng)估者信度。如果我們更關(guān)心的是評(píng)估者的信度而不是試題本身的方差,可以把這個(gè)參數(shù)改成τj;insn是教師給學(xué)生n的綜合分?jǐn)?shù),在這個(gè)模型中,設(shè)定教師只給出綜合分?jǐn)?shù);β是一個(gè)列向量,包含多個(gè)系數(shù);α0是截距;γ表示教師評(píng)分信度。在這個(gè)模型中,學(xué)生的評(píng)分與教師評(píng)分被設(shè)定為線性關(guān)系。Piech的模型可以認(rèn)為是Goldin的模型的一個(gè)簡(jiǎn)化版,因?yàn)镚oldin的模型加入了教師的評(píng)分,并且可以適用于多題目或多標(biāo)準(zhǔn)的評(píng)分,因?yàn)樗O(shè)定了每個(gè)題目不一樣的難度系數(shù)。如果忽略教師的評(píng)分以及使用學(xué)生綜合評(píng)分,那么Goldin的模型就基本簡(jiǎn)化成為Piech的模型。
Piech的模型和Goldin的模型有一個(gè)共同的潛在假設(shè),即假設(shè)學(xué)生的評(píng)分是一個(gè)連續(xù)變量,因?yàn)樵谶@兩個(gè)模型中,是用正態(tài)分布來設(shè)定分?jǐn)?shù)分布。事實(shí)上,人工評(píng)分量表往往都不是連續(xù)的,而是類別分?jǐn)?shù),比如從1到9的整數(shù)分?jǐn)?shù)。實(shí)際上,在教育測(cè)量領(lǐng)域已有的項(xiàng)目反應(yīng)理論中,也能找到適用于人工評(píng)分的模型,這些模型能夠直接處理類別分?jǐn)?shù)。在人工評(píng)分中使用得比較廣泛的一個(gè)方法是由Linacre(1989)提出的多面Rasch模型(Manyfacet Rasch Measurement,MFRM),其中比較常用的是三面Rasch評(píng)分模型(Three-facet Rasch Rating Scale Model)。這三個(gè)面分別是指:被評(píng)估者、評(píng)估者和試題。它的數(shù)學(xué)公式如下所示:
其中,pnijk指學(xué)生n的作業(yè)試題i得到評(píng)估者j打分為k的概率;tn是指學(xué)生n的真分?jǐn)?shù)或真實(shí)能力;di指試題i的難度系數(shù);bj指評(píng)估者j的評(píng)分誤差;fk是一個(gè)增量參數(shù),表示由得分k-1跳到k需要的能力上的增量,這里的fk只有一個(gè)下標(biāo),表示對(duì)于所有的試題和評(píng)估者都設(shè)定同樣的增量參數(shù);當(dāng)然,fk也可以被替換為fik或者fjk來表示不同的試題或評(píng)估者會(huì)有不同的增量參數(shù);k是一個(gè)可以從0到K的系數(shù),K是量表的滿分,設(shè)定f0=0。
多面Rasch模型被廣泛用于人工評(píng)分中估計(jì)被評(píng)估者的真實(shí)水平(Basturka,2008;Farrokhi&Es?fandiari,2011;Smith&Kulikowich,2004),同時(shí)它也有被用于慕課學(xué)生互評(píng)的潛力。不過有一個(gè)問題值得注意,就是慕課學(xué)生互評(píng)中學(xué)生評(píng)估者數(shù)量很大,而且缺失數(shù)據(jù)的量也很龐大,因此需要估計(jì)的參數(shù)很多,觀測(cè)到的數(shù)據(jù)卻比較有限,所以運(yùn)用多面Rasch模型在慕課學(xué)生互評(píng)中的實(shí)際效果還有待考量。
除了多面Rasch模型以外,Patz(2002)提出了一個(gè)更新的多層評(píng)分模型(Hierarchical Rater Model,HRM),也屬于項(xiàng)目反應(yīng)理論的范疇。與多面Rasch模型的不同之處在于,它是一個(gè)雙層模型,包括了第一層由評(píng)估者的評(píng)分來估計(jì)被評(píng)作業(yè)的真分?jǐn)?shù),第二層由被評(píng)作業(yè)的真分?jǐn)?shù)來估計(jì)被評(píng)估者的真實(shí)水平。這里的被評(píng)作業(yè)真分?jǐn)?shù)與之前的三個(gè)模型不同,它不是連續(xù)變量,而是一個(gè)類別變量。這個(gè)真分?jǐn)?shù)可以定義為在理想無誤差狀況下,被評(píng)作業(yè)應(yīng)得的最公平的分?jǐn)?shù)。如果原始評(píng)分標(biāo)準(zhǔn)是從1分到9分,那么這個(gè)真分?jǐn)?shù)也應(yīng)該是從1分到9分的整數(shù)分?jǐn)?shù)。這個(gè)模型的第一層的數(shù)學(xué)公式如下:
其中,xnij是指學(xué)生評(píng)估者j給學(xué)生作業(yè)n的試題i給出的評(píng)分,是實(shí)際的觀測(cè)到的數(shù)據(jù);ξni是指在無誤差的理想狀況下,該作業(yè)的真分?jǐn)?shù),是未知類別參數(shù);bj是評(píng)估者j的偏差;τj是指評(píng)估者j的信度。第二層模型是對(duì)理想真分?jǐn)?shù)和被評(píng)估者潛在能力的關(guān)系進(jìn)行建模,這兩個(gè)參數(shù)都不是實(shí)際觀測(cè)到的數(shù)據(jù),而是潛在參數(shù)。Patz(2002)提出第二層模型可以用多類項(xiàng)目反應(yīng)理論模型(Polytomous IRT Model),比如分部評(píng)分模型(Partial Credit Model)(Masters,1982)。除了多層評(píng)分模型以外,還有一些類似的方法被提出,比如Decarlo提出的信號(hào)檢測(cè)評(píng)分模型(Signal Detection Rater Model)(DeCarlo, Kim,&Johnson,2011)以及Wilson提出的評(píng)分包裹模 型(Rater Bundle Model)(Wilson&Hoskens, 2001)。這些方法都與Patz的方法有類似的效果。
多面Rasch模型和多層評(píng)分模型目前都未實(shí)際用于分析慕課學(xué)生互評(píng)的數(shù)據(jù),它們是可用于人工評(píng)分的一些通用模型,用于慕課學(xué)生互評(píng)的數(shù)據(jù)中的實(shí)際可行性和效果還有待實(shí)際驗(yàn)證。這兩個(gè)模型互有優(yōu)劣,比如多面Rasch模型所考慮的參數(shù)數(shù)量少一些,因?yàn)闆]有考慮到ξni這個(gè)理想無誤差分?jǐn)?shù)的參數(shù)。參數(shù)數(shù)量少也許在一般的人工評(píng)分情況下不一定很重要,但是在慕課學(xué)生互評(píng)中,參數(shù)數(shù)量少顯得很重要,因?yàn)閷?shí)際的觀測(cè)數(shù)據(jù)有限,如果需要估計(jì)的參數(shù)數(shù)量很多的話,對(duì)參數(shù)的估計(jì)結(jié)果不一定會(huì)很準(zhǔn)確。而多層評(píng)分模型的優(yōu)點(diǎn)也在于引入了ξni這個(gè)參數(shù),從而把不同的評(píng)估者對(duì)于同一個(gè)作業(yè)的評(píng)分存在的相關(guān)性進(jìn)行了更好的模擬,這樣的估計(jì)結(jié)果應(yīng)該更準(zhǔn)確(Patz et al.,2002)。
2.3 學(xué)生互評(píng)評(píng)分誤差糾正方法的比較
前面所分析的這些不同的方法雖然都有一個(gè)相同的功能,就是能計(jì)算出一個(gè)更加準(zhǔn)確的分?jǐn)?shù),以反映學(xué)生作業(yè)的真實(shí)水平。但是,這些方法也存在很多的差別,具體的差別大體可以分為三個(gè)方面:不同的假設(shè),不同的參數(shù)設(shè)置和參數(shù)估計(jì)方法,以及模型適用范圍的差別。
2.3.1 假設(shè)不同
不同的模型有內(nèi)在不同的假設(shè)。首先,對(duì)于真分?jǐn)?shù)的定義略有差別。定標(biāo)學(xué)生評(píng)估和可靠度指數(shù)這兩種方法,假設(shè)真分?jǐn)?shù)為無限接近教師評(píng)分的分?jǐn)?shù),因此這兩種方法的目標(biāo)都是對(duì)學(xué)生評(píng)分重新設(shè)定不同的權(quán)重,以讓估計(jì)的結(jié)果更加接近于教師的評(píng)分。多面Rasch模型以及Piech和Goldin的模型則假設(shè)真分?jǐn)?shù)是被評(píng)估者潛在的能力,是一個(gè)連續(xù)變量,而這個(gè)能力是從他對(duì)試題的答題狀況反映出來。多層評(píng)分模型略有不同,它假設(shè)的真分?jǐn)?shù)是理想狀態(tài)下學(xué)生作業(yè)應(yīng)該得到的準(zhǔn)確分?jǐn)?shù),是一個(gè)類別變量,但是同時(shí)它也會(huì)跟多面Rasch模型一樣,在另一個(gè)層面上由這個(gè)理想分?jǐn)?shù)估計(jì)出被評(píng)估者潛在的能力,這是能力參數(shù)的一個(gè)連續(xù)變量。
另外,這些不同的方法對(duì)于觀測(cè)到的學(xué)生評(píng)分?jǐn)?shù)據(jù)存在哪些誤差也有不同的假設(shè)。定標(biāo)學(xué)生評(píng)估方法假設(shè)學(xué)生的評(píng)分只存在一個(gè)準(zhǔn)確度上的誤差,可靠度指數(shù)方法則加入了信度和適應(yīng)度這兩個(gè)可能存在的誤差。多面Rasch模型也假設(shè)觀測(cè)到的評(píng)分存在準(zhǔn)確度上的誤差,同時(shí)由于它利用統(tǒng)計(jì)模型來估計(jì),因此也允許有隨機(jī)誤差的發(fā)生。而Piech和Goldin的模型在多面Rasch模型的基礎(chǔ)上,加入了學(xué)生評(píng)估者的信度作為參數(shù),因此每個(gè)評(píng)估者的信度也會(huì)被估計(jì)。多層評(píng)分模型跟Piech和Goldin的模型相似,既包含了評(píng)估者準(zhǔn)確度上的誤差也考量了評(píng)估者的信度。
最后,不同的方法其實(shí)都有一個(gè)共同的假設(shè),那就是學(xué)生評(píng)估者對(duì)不同的作業(yè)進(jìn)行評(píng)估時(shí)的準(zhǔn)確度、信度這些參數(shù)是保持不變的。有一個(gè)例外是可靠度指數(shù)這個(gè)方法,它提出了一個(gè)適應(yīng)性參數(shù),是用來考量評(píng)估者準(zhǔn)確度的穩(wěn)定性,它實(shí)際上假設(shè)了準(zhǔn)確度在不同的情況下可能會(huì)不一致。
2.3.2 參數(shù)設(shè)置和參數(shù)估計(jì)方法不同
前述不同方法的參數(shù)設(shè)置和參數(shù)估計(jì)方法有較大差異。定標(biāo)學(xué)生評(píng)估方法只有一個(gè)參數(shù),就是評(píng)估者的準(zhǔn)確度,并且對(duì)這個(gè)參數(shù)的估計(jì)只有一個(gè)點(diǎn)估計(jì),這個(gè)方法的一個(gè)缺點(diǎn)是缺乏有效方法來評(píng)估這個(gè)點(diǎn)估計(jì)的準(zhǔn)確性。可靠度指數(shù)方法加入了信度和適應(yīng)性,但是也用的是相同的點(diǎn)估計(jì)的方法,存在相同的缺點(diǎn)。多面Rasch模型在考量了評(píng)估者偏差的基礎(chǔ)上,加入了對(duì)試題難度系數(shù)的考慮,并且由于把原始數(shù)據(jù)當(dāng)類別變量,它也加入了增量參數(shù)。對(duì)這些參數(shù)的估計(jì),目前比較常用的是最大似然估計(jì)(Maximum Likelihood Estimation),可以用一些擬合指數(shù)(fit index)來評(píng)估估計(jì)結(jié)果的準(zhǔn)確性(Linacre,1989;Myford&Wolfe,2003,2004)。Piech和Goldin的模型中把數(shù)據(jù)當(dāng)連續(xù)變量,因此不需要增量參數(shù),但是它們都包含評(píng)估者的信度參數(shù)。對(duì)參數(shù)的估計(jì)采用的是貝葉斯估計(jì)的方法,也就是從參數(shù)的后驗(yàn)分布(posterior distribution)中得出估計(jì)結(jié)果。多層評(píng)分模型最大的區(qū)別是加入了一個(gè)中間參數(shù)ξni,即理想真分?jǐn)?shù),由于模型比較復(fù)雜,采用貝葉斯估計(jì)的方法可能更方便(Patz et al., 2002)。
慕課學(xué)生互評(píng)由于評(píng)估者數(shù)量很大,并且缺失數(shù)據(jù)的量也很大,因此用任何方法來估計(jì)參數(shù)都面臨著同樣的問題,即觀測(cè)數(shù)據(jù)有限,而需要估計(jì)的參數(shù)很多。因此簡(jiǎn)單的含參數(shù)較少的模型相對(duì)于復(fù)雜的模型可能更優(yōu)越,不過還有待后續(xù)研究進(jìn)行驗(yàn)證。
2.3.3 適用范圍不同
不同的方法各有其局限性。首先,大部分的方法都還沒有實(shí)際運(yùn)用在慕課學(xué)生互評(píng)數(shù)據(jù)中,它們的實(shí)際功能和缺陷還有待后續(xù)的實(shí)證研究進(jìn)行考證。理論上來說,這些方法都有一定的處理缺失數(shù)據(jù)的功能,但是對(duì)待慕課學(xué)生互評(píng)這種存在大范圍缺失數(shù)據(jù)的情況來說,它們的具體效果還有待考證。另外一個(gè)比較明顯的區(qū)別在于,在實(shí)際實(shí)施中,定標(biāo)學(xué)生評(píng)估和可靠度指數(shù)這兩種方法需要一個(gè)額外的定標(biāo)過程以得到對(duì)評(píng)估者評(píng)分能力的估計(jì),其他的方法就不需要這個(gè)過程。其次,定標(biāo)學(xué)生評(píng)估和可靠度指數(shù)這兩種方法可以適用于不同的評(píng)分量表,評(píng)分可以是類別的也可以是連續(xù)的。Piech和Goldin的方法更傾向于評(píng)分應(yīng)該是連續(xù)的。多面Rasch測(cè)量和多層評(píng)分模型則只適用于類別評(píng)分。最后,除了Piech的模型只能應(yīng)用于只有一個(gè)試題或只有綜合評(píng)分的情況,其他方法都能拓廣到含多個(gè)開放性試題或者分解評(píng)分的情況。
總的來說,慕課學(xué)生互評(píng)是一個(gè)比較新的科研課題,存在大量的研究缺口,很多的方法和研究都還停留在初步階段,有待更新。本文總結(jié)的絕大部分方法都還沒有被實(shí)際運(yùn)用在慕課學(xué)生互評(píng)中,所以它們的實(shí)際功能和缺陷還有待后續(xù)考證,只有在它的準(zhǔn)確性和有效性得到保證后,才能成為一個(gè)真正的能夠有效輔助學(xué)生學(xué)習(xí)以及提供有用反饋的工具。
參考文獻(xiàn)
[1]Balfour,S.P.Assessing writing in MOOCs:Automated Essay Scor?ing and Calibrated Peer ReviewTM[J].Journal of Research&Practice in Assessment,2013(8):40-48.
[2]Basturka,R.Applying the many-facet Rasch model to evaluate Pow?er Point presentation performance in higher education[J].Assess?ment&Evaluation in Higher Education,2008,33(4):431-444.
[3]DeCarlo,L.T.,Kim,Y.,&Johnson,M.S.A hierarchical rater mod?el for constructed responses,with a signal detection rater model[J]. Journal of Educational Measurement,2011,48(3):333-356.
[4]Farrokhi,F.,&Esfandiari,R.A many-facet Rasch model to detect halo effect in three types of raters[J].Theory and Practice in Lan?guage Studies,2011,1(11):1531-1540.
[5]Goldin,I.M.Accounting for peer reviewer bias with bayesian mod?els:Workshop on Intelligent Support for Learning Groups at the 11th International Conference on Intelligent Tutoring Systems[C]. Chania,Greece,2012.
[6]Graesser,A.C.,&McNamara,D.S.Automated analysis of essays and open-ended verbal responses[M]//APA handbook of research methods in psychology.Washington,DC:American Psychological Association,2012.
[7]Hambleton,R.K.,&Swaminathan,H.Item response theory:Princi?ples and applications[M].Hingham,MA:Kluwer Nijhoff Publishing, 1985.
[8]Hollands,F.M.,&Tirthali,D.Resource requirements and costs of developing and delivering MOOCs[J].The International Review of Research in Open and Distributed Learning,2014,15(5):113-133.
[9]Jordan,K.MOOC completion rates[EB/OL].[2015-11-10].http:// www.katyjordan.com/MOOCproject.html.
[10]Li,H.,Xiong,Y.,Zang,X.,Kornhaber,M.,Lyu,Y.,Chung,K.S., &Suen,H.K.Peer assessment in the digital age:A meta-analysis comparing peer and teacher ratings[J].Assessment&Evaluation in Higher Education,in press.(preprint available at http://www. tandfonline.com/doi/full/10.1080/02602938.2014.999746)
[11]Linacre,J.M.Many-facet Rasch measurement[D].Chicago:Uni?versity of Chicago,1989.
[12]Masters,G.N.A rasch model for partial credit scoring[J].Psy?chometrika,1982,47(2):149-174.
[13]Min,H.T.The effects of trained peer review on EFL students’re?vision types and writing quality[J].Journal of Second Language Writing,2006,15(2):118-141.
[14]Myford,C.M.,&Wolfe,E.W.Detecting and measuring rater ef?fects using many-facet Rasch measurement:Part I[J].Journal of Applied Measurement,2003,4(4):386-422.
[15]Myford,C.M.,&Wolfe,E.W.Detecting and measuring rater ef?fects using many-facet Rasch measurement:Part II[J].Journal of Applied Measurement,2004,5(2):189-227.
[16]Patz,R.J.,Junker,B.W.,Johnson,M.S.,&Mariano,L.T.The hi?erarchical rater model for rated test items and its application to large-scale educational assessment data[J].Journal of Educational and Behavioral Statistics,2002,27(4):341-384.
[17]Piech,C.,Huang,J.,Chen,Z.,Do,C.,Ng,A.,&Koller,D.Tuned models of peer assessment in MOOCs:The 6th International Confer?ence on Educational Data Mining[C].Memphis,Tennessee,2013.
[18]Robinson,A.C.,Kerski,J.,Long,E.C.,Luo,H.,DiBiase,D.,& Lee,A.Maps and the geospatial revolution:Teaching a massive open online course(MOOC)in geography[J].Journal of Geogra?phy in Higher Education,2015,39(1):65-82.
[19]Saito,H.EFL classroom peer assessment:Training effects on rat?ing and commenting[J].Language Testing,2008,25(4):553-581.
[20]Sajjadi,M.S.,Alamgir,M.,&von Luxburg,U.Peer grading in a course on algorithms and data structures:Machine learning algo?rithms do not improve over simple baselines:Workshop on Ma?chine Learning for Education,International Conference of Machine Learning[C].Lille,France,2015.
[21]Sandeen,C.Assessment’s place in the new MOOC world[J].Jour?nal of Research&Practice in Assessment,2013,8(1):5-12.
[22]Sluijsmans,D.M.A.,Brand-Gruwel,S.,&van Merri?nboer,J.J. G.Peer assessment training in teacher education:Effects on perfor?mance and perceptions[J].Assessment&Evaluation in Higher Ed?ucation,2002,27(5):443-454.
[23]Smith,E.V.,&Kulikowich,J.M.An application of generalizabili?ty theory and many-facet Rasch measurement using a complex problem-solving skills assessment[J].Educational and Psychologi?cal Measurement,2004,64(4):617-639.
[24]Suen,H.K.Peer assessment for massive open online courses(MOOCs)[J].The International Review of Research in Open and Distance Learning,2014,15(3):312-327.
[25]Topping,K.J.Peer assessment[J].Theory Into Practice,2009,48(1):20-27.
[26]Wilson,M.,&Hoskens,M.The rater bundle model[J].Journal of Educational and Behavioral Statistics,2001,26(3):283-306.
[27]Xiong,Y.,Goins,D.,Suen,H.K.,Pun,W.H.,&Zang,X.A pro?posed credibility index(CI)in peer assessment:Presentation at the annual meeting of the National Council on Measurement in Ed?ucation[C].Philadelphia,PA,2014.
A Comparison of Methods to Correct Errors in Peer Assessment Ratings in Massive Open Online Courses
XIONG Yao&Hoi K.Suen
Peer assessment is one of the most important assessment methods in Massive Open Online Courses(MOOCs),especially for open-ended assignments or projects.However,for the purpose of summative evaluation, peer assessment results are generally not trusted.This is because peer raters,who are novices,would produce more random errors and systematic biases in ratings than would expert raters,due to peer raters’lack of content expertise and rating experience.In this paper,two major approaches that are designed to improve the accuracy of peer assessment results are reviewed and compared.The first approach is designed to calibrate accuracy of individual peer raters before actual peer assessments so that differential weights can be assigned to raters based on accuracy. The second approach is designed to remedy peer rating errors post hoc.Differences in assumptions, parameterization and estimation methods,and implementation issues are discussed.The development of methods to improve MOOCs peer assessment results is still in its infancy.Most of the methods reviewed in this paper have yet to be implemented and evaluated in real-life applications.We hope the discussion and comparison of different methods in this paper will provide some theoretical and methodological background for further research into MOOC peer assessment.
MOOCs;Peer Assessment;Error Correction
G405
A
1005-8427(2016)01-0007-9
熊 瑤,女,賓夕法尼亞州立大學(xué)教育學(xué)院,在讀博士(美國(guó)賓夕法尼亞州 16802)
孫開鍵,男,賓夕法尼亞州立大學(xué)教育學(xué)院,杰出教授(美國(guó)賓夕法尼亞州 16802)