殷小娟,賈永華,林慶英
(閩江學(xué)院 外語系,福建 福州 350121)
“句酷網(wǎng)”和“冰果”自動評分效度的對比實(shí)證研究
殷小娟,賈永華,林慶英
(閩江學(xué)院 外語系,福建 福州 350121)
國內(nèi)研究者還未對“句酷網(wǎng)”和“冰果”這兩個平臺的評分效度差異進(jìn)行實(shí)證研究。對大學(xué)非英語專業(yè)3種題型作文文本的分析結(jié)果表明:“句酷網(wǎng)”和“冰果”的自動評定成績和人工評定成績之間存在顯著的正相關(guān)關(guān)系,相關(guān)程度存在差異,兩個平臺對不同類型作文的評定成績效度之間也有差異。
句酷網(wǎng);冰果;自動評分;效度;作文題型
網(wǎng)絡(luò)出版時間:2017-02-28 14:50
大數(shù)據(jù)時代為英語寫作的教學(xué)提供了大量輔助系統(tǒng)與工具,其中最受關(guān)注的是英語作文的在線自動評分系統(tǒng)。在國外,美國Noodletools公司開發(fā)的在線寫作輔助系統(tǒng)可以提供記筆記、寫大綱、生成參考文獻(xiàn)清單以及獨(dú)立或與同伴合作寫作等功能。在中國,北京詞網(wǎng)科技公司開發(fā)的批改網(wǎng)以及浙江大學(xué)外語學(xué)院和外研社與浙江增慧網(wǎng)絡(luò)有限公司合作開發(fā)的“冰果”軟件,是目前英語寫作教學(xué)中使用最多的兩個平臺,都可以為學(xué)生的作文及時評分并提供詞匯、語法和篇章等方面的實(shí)時在線反饋信息。這兩個平臺在幫助學(xué)生通過“多寫多練”提高英語寫作能力和減輕教師批改作文等工作量的同時,也儲存了大量和英語寫作教學(xué)相關(guān)的數(shù)據(jù)。
“大數(shù)據(jù)”分析是最近幾年的新興事物,將它應(yīng)用在外語教育研究中更是鮮見。中國學(xué)者的探索性研究在這個領(lǐng)域起到了前驅(qū)作用。王海嘯率先指出,“大數(shù)據(jù)時代,大學(xué)英語寫作應(yīng)以語言應(yīng)用為教學(xué)目的,多角度認(rèn)識作者﹑文本與讀者之間的關(guān)系,多維度地設(shè)計教學(xué)方案”[1]。錢文娟以“句酷網(wǎng)”為例探討了大數(shù)據(jù)時代高職英語寫作自動評分的新模式[2]。從研究成果看,將大數(shù)據(jù)時代和外語教學(xué)結(jié)合的研究成果屈指可數(shù),更不用說大數(shù)據(jù)時代下對英語寫作教學(xué)改革的研究。正因?yàn)槿绱?,大?shù)據(jù)時代英語寫作在線自動評分系統(tǒng)的應(yīng)用和評價亟待深入研究且意義深遠(yuǎn)。
日常教學(xué)中的作文批改任務(wù)對老師來說是非常繁重的,反饋不及時也是英語寫作教學(xué)中的常見問題。如何借助最新的科技成果提高英語作文的閱卷效率,從而減輕教師的工作負(fù)擔(dān),同時提高學(xué)生的寫作熱情成為國內(nèi)外研究者的重要課題。
相比而言,國外的作文自動評分系統(tǒng)開發(fā)和研究比中國起步較早。美國杜克大學(xué)1966年開發(fā)出第一套作文自動評分系統(tǒng)PEG(project essay grader),Valenti發(fā)現(xiàn)“PEG最新實(shí)驗(yàn)結(jié)果與評卷人的評分在多元回歸相關(guān)性上達(dá)到0.87”[3],但Kukich指出,“由于PEG采用對寫作質(zhì)量的間接測量而很容易被寫作者欺騙,比如寫出更長的文章”[4]。除此之外,國外較為成熟的自動評分系統(tǒng)還有IEA(intelligent essay assessor)、E-rater(electronic essay rater)以及Intelli Metric TM等。中國的相關(guān)研究相對滯后,雖然梁茂成主持開發(fā)的“大規(guī)??荚囉⒄Z作文自動評分系統(tǒng)”已于2005年申請了國家專利,但葛詩利和陳瀟瀟等卻認(rèn)為“由于該系統(tǒng)以淺層特征的統(tǒng)計分析為主,以及樣本數(shù)量、范圍的局限性,其評分模型與實(shí)用系統(tǒng)尚有一定的距離”[5]。最近幾年,中國一些企業(yè)和高校也合作開發(fā)了一些英語作文自動批改系統(tǒng),其中影響較大的要屬“冰果”和“句酷網(wǎng)”。據(jù)有關(guān)統(tǒng)計,中國有超過1 000所大學(xué)和中學(xué)正在試用“句酷”作文批改系統(tǒng),典型的學(xué)校有清華大學(xué)﹑復(fù)旦大學(xué)和南京大學(xué)等名校;“冰果”系統(tǒng)的用戶稍少,也達(dá)到450多所院校[6]104。
雖然這兩個系統(tǒng)的試用范圍較廣,相關(guān)的實(shí)證研究卻很有限。筆者通過“中國知網(wǎng)”數(shù)據(jù)庫反復(fù)檢索了1990-2014年“句酷網(wǎng)”相關(guān)文獻(xiàn),梳理后發(fā)現(xiàn)共有19篇期刊論文,其中12篇是2012年以后的最新研究成果。相關(guān)研究成果分為兩類:一類是純粹對句酷網(wǎng)功能的簡單介紹和優(yōu)缺點(diǎn)探討,如毛世花和陳曉麗對比了中美兩國的英語教學(xué)及大規(guī)??荚囍凶顬榱餍信c常用的作文自動評分系統(tǒng)E-rater和句酷的基本工作原理,并探討了其優(yōu)缺點(diǎn),為中國大學(xué)生英語寫作水平的提高提供參考[7]。另一類是實(shí)證研究,又分為3類:一是研究者試圖用實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證“句酷網(wǎng)”自動評分和人工評分的相關(guān)性和差異性,從而證明“句酷網(wǎng)”評分的效度和信度,但發(fā)現(xiàn)的結(jié)果并不太一致。何旭良從中國學(xué)習(xí)者語料庫里抽出樣本,對比“句酷網(wǎng)”作文評分語料庫里的原始分?jǐn)?shù)后發(fā)現(xiàn),兩者的克隆巴赫系數(shù)在0.6以上,但“句酷網(wǎng)”的評分和人工評分之間有顯著差異,批改網(wǎng)的分?jǐn)?shù)顯著高于人工評分[8]66。第二類實(shí)證研究主要探討“句酷網(wǎng)”的使用對受試英語寫作水平提高的作用。研究者證明,實(shí)驗(yàn)組在使用“句酷網(wǎng)”1學(xué)年后寫作成績明顯好于沒使用“句酷網(wǎng)”的控制組[9]。最后一類實(shí)證研究主要是以問卷或問卷結(jié)合訪談的方式調(diào)查學(xué)生和教師對句酷網(wǎng)的滿意度或具體使用意見。譬如,石曉玲的問卷調(diào)查結(jié)果表明,“雖然只有近一半(48%)的學(xué)生對使用‘句酷網(wǎng)’持特別喜歡和比較喜歡的態(tài)度,但大多數(shù)學(xué)生(86.8%)很希望并有信心(78.3%)能通過‘句酷網(wǎng)’提高自己的英語寫作水平”[10]。此外,也有研究發(fā)現(xiàn),“句酷網(wǎng)”在對學(xué)生作文是否離題的判斷上有一些偏差[11]。
相比之下,針對“冰果”系統(tǒng)的實(shí)證研究似乎更少,筆者同樣在“中國知網(wǎng)”中檢索了1990-2014年的有關(guān)研究記錄,整理后發(fā)現(xiàn)僅有12篇期刊論文。研究者從不同角度探討“冰果”系統(tǒng)的評分信度及對受試英語寫作能力的作用。一方面,有關(guān)“冰果”系統(tǒng)評分效度的研究結(jié)果不太一致。曾劍基于1學(xué)期的實(shí)驗(yàn),對255份學(xué)生作文樣本進(jìn)行等方差檢驗(yàn)方法和皮爾森相關(guān)性檢驗(yàn)后發(fā)現(xiàn),“在設(shè)定同樣得分均值的情況下,冰果系統(tǒng)的評分和人工評分有很強(qiáng)的正相關(guān),但冰果系統(tǒng)的評分更加集中,而人工評分更能準(zhǔn)確反映學(xué)生的個體差異”[9]108。但也有研究者發(fā)現(xiàn)“冰果”自動評分系統(tǒng)的內(nèi)在不一致性,如楊婷婷對比了同一批作文在“冰果”系統(tǒng)的“新評”成績(作文提交后立即生成的評分)和“冰評”成績(作文提交后48小時內(nèi)的再次評分),發(fā)現(xiàn)“兩者有統(tǒng)計意義上的顯著差異”[12];另一方面,有關(guān)“冰果”系統(tǒng)的使用對受試英語寫作學(xué)習(xí)的作用研究結(jié)果比較一致,如魯艷輝研究還發(fā)現(xiàn),“‘冰果’作文智能評分系統(tǒng)的使用除能提高學(xué)生的寫作文本質(zhì)量外,對改變學(xué)習(xí)者的學(xué)習(xí)策略有一定的促進(jìn)作用”[13]。
雖然分別針對“句酷網(wǎng)”和“冰果”系統(tǒng)的研究呈增多和加深之勢,卻鮮有研究者同時研究這兩個系統(tǒng)。有關(guān)“冰果”和“句酷”的對比研究,筆者在“中國知網(wǎng)”中迄今只查到1篇期刊論文,陳長進(jìn)只是簡單地對比了兩種系統(tǒng)的功能差異和各自的優(yōu)勢,卻沒有任何的實(shí)證數(shù)據(jù)[14]。所以,研究將用數(shù)據(jù)統(tǒng)計方法對比兩個系統(tǒng)的評分效度,從而豐富中國有關(guān)“句酷”和“冰果”自動評分系統(tǒng)的實(shí)證研究。
整個研究過程,從研究問題的設(shè)計、研究方法的采用以及數(shù)據(jù)的收集與分析3個層次進(jìn)行。
(一)研究問題
為了對“句酷網(wǎng)”和“冰果”兩個系統(tǒng)以及兩個系統(tǒng)與人工評定之間的關(guān)系分別考察,設(shè)計如下3個問題。
1.在對同一批受試完成的同一篇命題作文進(jìn)行系統(tǒng)自動評分前提下,“句酷網(wǎng)”﹑“冰果”和人工評定成績3者中兩兩之間有沒有呈正相關(guān)關(guān)系?
2.對同一批受試完成的同一篇命題作文的評分,“句酷網(wǎng)”﹑“冰果”和人工評定成績3者中兩兩之間有沒有顯著差異?
3.“句酷網(wǎng)”和“冰果”系統(tǒng)對不同類型的命題作文的評分信度有何差異?
(二)研究方法
本實(shí)驗(yàn)的52名受試均來自研究者授課的同一自然班——閩江學(xué)院2013級財務(wù)管理班,他們一周上兩次大學(xué)英語課,但是沒有單獨(dú)的寫作課。
1.研究對象
受試的年齡介于18~20周歲之間,他們在入學(xué)時經(jīng)過統(tǒng)一的英語水平考試,英語處于同一水平線上。所有受試的母語為漢語,英語為外語。參加本實(shí)驗(yàn)時受試是剛?cè)胄5拇笠恍律?/p>
2.寫作任務(wù)
研究者在分析歷年大學(xué)英語四﹑六級考試作文真題的同時,結(jié)合受試大一期間所用英語課本的話題內(nèi)容和類型特點(diǎn),選擇了觀點(diǎn)論證型﹑問題解決型和對比型3種作文類型作為大學(xué)一年級的寫作訓(xùn)練重點(diǎn)。但由于學(xué)生在一學(xué)年完成作文次數(shù)較多,本實(shí)驗(yàn)只選擇了其中3次作文任務(wù)的成績作為分析數(shù)據(jù)。這3次寫作任務(wù)描述和受試具體完成情況見表1。
表1 寫作任務(wù)描述及完成情況
3.實(shí)驗(yàn)過程
研究者(即筆者)在受試大一第一節(jié)英語課上介紹了“句酷網(wǎng)”的功能和使用方法,沒有告知受試本次實(shí)驗(yàn)?zāi)康?,但為了引起學(xué)生的注意和測出學(xué)生的真實(shí)水平,筆者告知受試每次寫作任務(wù)都會計入平時成績,而且特別強(qiáng)調(diào)“句酷網(wǎng)”有檢測抄襲功能。第一學(xué)期,筆者按每兩周一次作文的頻率①布置作文任務(wù),將作文題目和要求輸入到“句酷網(wǎng)”后得到一個作文序列號,再將作文序號告知受試。然后,受試按要求在規(guī)定時間(7~10天不等)寫好作文并提交至“句酷網(wǎng)”,受試可及時查到自己提交的作文成績和評語,也可以在規(guī)定寫作時間內(nèi)根據(jù)系統(tǒng)提示的錯誤修改作文后再次提交。作文提交截止時間結(jié)束后,研究者通過“句酷網(wǎng)”下載受試的作文成績和文本。隨后,為本實(shí)驗(yàn)數(shù)據(jù)分析需要,筆者選取了受試第一學(xué)年完成的比較有代表性的3次目標(biāo)作文任務(wù)(見表1),通過教師端口在“冰果”系統(tǒng)布置同一命題作文任務(wù),再注冊學(xué)生用戶在“冰果”系統(tǒng)里分別提交受試的4次作文文本,從而得到系統(tǒng)的評分成績和評語等。之后,筆者下載了受試的同一命題作文在“冰果”的評定成績。最后,筆者將受試的兩次作文文本分別打印兩份,由筆者(教師1)和另外一位教齡相當(dāng)?shù)耐?教師2)分別對所有受試的3次作文文本進(jìn)行人工評分。為保證數(shù)據(jù)的科學(xué)性,人工評分期間,兩位老師都不能查看作文的系統(tǒng)自動評定成績。
(三)數(shù)據(jù)收集與分析
研究者先后收集了受試3次作文的“句酷網(wǎng)”自動評分成績﹑“冰果”的自動評分成績以及教師1的人工評定成績和教師2的人工評定成績。研究員使用SPSS 19.0軟件對收集的數(shù)據(jù)進(jìn)行了統(tǒng)計分析。但因?yàn)槭茉囋?次作文任務(wù)中的完成情況不完全一樣,經(jīng)筆者篩查后每組樣本的數(shù)量分別為:作文1組46人,作文2組51人,作文3組48人。為了檢驗(yàn)“句酷網(wǎng)”和“冰果”的在線自動評分的效度,先對每次作文任務(wù)中兩種在線評閱成績和兩次人工成績兩兩之間分別進(jìn)行斯皮爾曼(Spearman)相關(guān)性檢驗(yàn),然后,對每次作文的4種成績進(jìn)行了單因素方差分析(One-way Anova Analysis)。
為了最直接地描述4組成績的差異和效度,研究者從多個角度對4組成績進(jìn)行研究。
(一)4組成績的描述性統(tǒng)計結(jié)果
研究者用SPSS 19.0對每次作文的4組成績的均值﹑標(biāo)準(zhǔn)差﹑最小值和最大值進(jìn)行了統(tǒng)計,結(jié)果如表2所示。
從表2看出,3次作文的兩次任務(wù)中(作文3除外),兩次人工評分結(jié)果平均都高于兩次機(jī)器評分結(jié)果,這說明“句酷網(wǎng)”和“冰果”采用的計算機(jī)評分標(biāo)準(zhǔn)比人工評分標(biāo)準(zhǔn)更加嚴(yán)格。值得注意的是,每次任務(wù)中“冰果”成績都是最低的,這說明“冰果”系統(tǒng)比“句酷網(wǎng)”的評分標(biāo)準(zhǔn)更加嚴(yán)格。而且“冰果”成績的標(biāo)準(zhǔn)方差也最大,說明“冰果”評定成績分布范圍更大,個體差別最大。從每組任務(wù)的最高分來看,人工成績和機(jī)器評定成績差別不是很大,但每組的最低分差別很大。這種結(jié)果其實(shí)也不難解釋:機(jī)器評分是“不留顏面”的,系統(tǒng)設(shè)置的最低分只要大于0,它就可以打出1分的最低分;但是人工評分是“講情面”的,只要不是空白卷或者完全脫題,老師很難給學(xué)生打出很低分。所以,本實(shí)驗(yàn)中機(jī)器評分的最低分都在60分的及格線以下,而人工評分的最低分都在及格分以上。
表2 四組成績的描述性數(shù)據(jù)
(二)4組成績的皮爾曼相關(guān)性檢驗(yàn)結(jié)果
為檢測每次作文中的4組成績的效度,研究者對兩兩之間進(jìn)行了斯皮爾曼(Spearman)相關(guān)性檢驗(yàn)。結(jié)果如表3所示:
表3 3次作文的4種成績兩兩之間的相關(guān)性檢驗(yàn)結(jié)果
注:**在0.01水平(雙側(cè))上顯著相關(guān)。
檢驗(yàn)結(jié)果顯示:3次作文中4組成績兩兩之間都呈正相關(guān)關(guān)系(P在0.01水平雙側(cè)上顯著相關(guān))。作文1中,“句酷網(wǎng)”和“冰果”兩者評定成績之間的斯皮爾曼相關(guān)系數(shù)為0.689**(P=0.000<0.010,“句酷網(wǎng)”與人工1和人工2成績之間的相關(guān)系數(shù)分別為0.345*(P=0.019>0.010)和0.559**(P=0.000<0.010;而“冰果”成績與人工1和人工2成績之間的斯皮爾曼相關(guān)系數(shù)則分別為0.416**(P=0.004<0.010和0.455**(P=0.001<0.010。有意思的是,人工1和人工2的兩次成績之間的相關(guān)系數(shù)最高,達(dá)到0.781**(P=0.000<0.010。這一結(jié)果已經(jīng)很接近Kroll[15]認(rèn)定的“語言寫作測試中滿意的標(biāo)準(zhǔn),即相關(guān)系數(shù)達(dá)到0.8”。在作文2任務(wù)中,“句酷網(wǎng)”和“冰果”成績之間的斯皮爾曼相關(guān)系數(shù)為0.580**(P=0.000<0.010),“句酷網(wǎng)”與人工1和人工2成績之間的相關(guān)系數(shù)分別為0.554**(P=0.000<0.010)和0.391**(P=0.005<0.010);而“冰果”成績與人工1與人工2成績之間的斯皮爾曼相關(guān)系數(shù)則分別為0.506**(P=0.000<0.010)和0.356*(P=0.010),兩次人工評定成績之間的相關(guān)系數(shù)是0.519**(P=0.000<0.010)。作文3中,“句酷網(wǎng)”和“冰果”成績之間的斯皮爾曼相關(guān)系數(shù)為0.667**(P=0.000<0.010);
“句酷網(wǎng)”與人工1和人工2成績之間的相關(guān)系數(shù)分別為0.351*(P=0.014>0.010)和0.443**(P=0.002<0.010)。“冰果”成績與人工1和人工2成績之間的斯皮爾曼相關(guān)系數(shù)則分別為0.401**(P=0.000<0.010)和0.510**(P=0.000<0.010),而兩次人工評定成績之間的相關(guān)系數(shù)是0.685**(P=0.000<0.010)。
(三)結(jié)果討論
研究主要有4個發(fā)現(xiàn):1. 3次作文任務(wù)中,兩次(作文3除外)人工評定成績在平均分上都明顯高于“句酷網(wǎng)”和“冰果”的自動評定成績,而且“冰果”的評定成績標(biāo)準(zhǔn)方差最大。2.同一任務(wù)中,兩種系統(tǒng)自動評分間的相關(guān)系數(shù)以及兩次人工評定成績之間的相關(guān)系數(shù)都明顯高于機(jī)器評分和人工評分的組間相關(guān)系數(shù)。3. 3種作文題型任務(wù)中,“句酷網(wǎng)”和“冰果”的在線自動評分和兩次人工評定分別都呈正相關(guān)關(guān)系,“句酷網(wǎng)”和“冰果”的自動評分結(jié)果在一定程度上是有效的和可信的。4.同一任務(wù)中,雖然“句酷網(wǎng)”和人工評定成績之間的相關(guān)系數(shù)與“冰果”的自動評定成績和人工評定成績之間的相關(guān)系數(shù)相差很小,但3次作文任務(wù)中有兩次(任務(wù)1和任務(wù)3)“冰果”的自動評定成績和人工評定成績相關(guān)系數(shù)更高。
上述的前兩個結(jié)果表明,“句酷網(wǎng)”和“冰果”系統(tǒng)對同一作文的評分標(biāo)準(zhǔn)比人工評分更為嚴(yán)格,因?yàn)閮蓚€系統(tǒng)都采用的是計算機(jī)自動評分技術(shù),對作文中的詞匯、句長和結(jié)構(gòu)等維度判斷更加靈敏,分值精確度較高,“句酷網(wǎng)”精確到了0.5,而“冰果”甚至精確到了0.1。所以,“句酷網(wǎng)”和“冰果”系統(tǒng)自動評分得出的分值范圍比較大,最高分和最低分相差較大。相比而言,人工評分更顯得主觀化一些。因?yàn)槿斯ぴu分一般習(xí)慣精確到1分(滿分100分的情況下),少數(shù)情況下最多精確到0.5分,根本不可能精確到0.1分;人工評分時更多的是對作文的內(nèi)容和結(jié)構(gòu)好壞的整體印象分,對其中的詞匯、句長和結(jié)構(gòu)等具體維度判斷就不如機(jī)器靈敏。值得注意的是,3次作文中人工評分的最低分都明顯高于機(jī)器的評分,這正是人工評分多會因?yàn)椤懊孀訂栴}”或者出于“鼓勵學(xué)生寫作”的原因,不會將沒有跑題的作文評分太低。所以,該實(shí)驗(yàn)中,兩個教師對3次作文中的最低評分都在及格分以上。也許還有一個重要原因:人工評分時教師更多地關(guān)注學(xué)生作文的內(nèi)容和思想等,而機(jī)器只能關(guān)注到作文中詞匯使用難度、句長和句式結(jié)構(gòu)等硬件,卻不能像教師一樣“欣賞”作文,機(jī)器評分可能對思想內(nèi)容較好而詞匯使用一般的學(xué)生作文評分偏低,評分成績大多情況下平均分低于人工評分結(jié)果。該研究在一定程度上證明了“句酷網(wǎng)”和“冰果”系統(tǒng)在線評分系統(tǒng)的科學(xué)性和有效性,它們比人工評分精確度和穩(wěn)定性都更高,這對把這兩個平臺應(yīng)用到英語寫作教學(xué)中具有積極的啟示意義。
更重要的是,該研究結(jié)果還揭示了同一任務(wù)中,“句酷網(wǎng)”和“冰果”成績之間、人工1和人工2成績之間的相關(guān)系數(shù)都比較高。這意味著,“句酷網(wǎng)”和“冰果”的機(jī)器自動評分標(biāo)準(zhǔn)比較一致,結(jié)果相似度較高。但相比而言,“冰果”的評分更為嚴(yán)格,平均分明顯比“句酷網(wǎng)”的評定結(jié)果低。同時,兩次人工評分的相關(guān)性顯著較高,這也說明人對美好事物的評判標(biāo)準(zhǔn)基本也是一樣的,實(shí)驗(yàn)中兩位教師在教齡相仿和教學(xué)經(jīng)驗(yàn)相似的情況下對同一批學(xué)生作文質(zhì)量的好壞判斷,結(jié)果整體上也是一致的。然而,3次作文中,人工評分都平均明顯高于“冰果”評分,3次中有兩次(作文1和作文2)人工評定成績高于“句酷網(wǎng)”評分,這與之前有些研究結(jié)果不一樣,因?yàn)楹涡窳及l(fā)現(xiàn)“句酷”批改網(wǎng)的分?jǐn)?shù)顯著高于人工評分[8]67。這也許能部分解釋之前的研究發(fā)現(xiàn)大部分學(xué)生仍然比較信任老師的人工評分,并不太歡迎智能作文評分系統(tǒng)。嚴(yán)格的機(jī)器評分結(jié)果也許更能真實(shí)地體現(xiàn)學(xué)生的寫作水平,但在日常寫作訓(xùn)練中卻不能像人工評分一樣起到很好的鼓勵作用。認(rèn)識到這一點(diǎn)對今后的英語寫作教學(xué)是非常有幫助的。
該研究的后兩個發(fā)現(xiàn)表明:“句酷網(wǎng)”和“冰果”的自動評分結(jié)果和人工評定成績都顯著相關(guān),這說明兩個在線作文評分系統(tǒng)的自動評分結(jié)果是有效的和可信的。這種結(jié)果也正好印證了前人的研究結(jié)果——“句酷網(wǎng)”或“冰果”的評定成績和人工評定成績相關(guān)[6]108。該研究也首次實(shí)證發(fā)現(xiàn)了“句酷網(wǎng)”和“冰果”對同一批作文的自動評分結(jié)果的差異:3次作文中有兩次(作文2除外),“冰果”的自動評分成績和兩個人工“評定”成績相關(guān)系數(shù)稍高于“句酷網(wǎng)”與人工評定成績的相關(guān)系數(shù)。3種作文題材中,“句酷網(wǎng)”對作文1和作文2(觀點(diǎn)論證型和對比型)的自動評分成績和兩次人工評定成績之間的相關(guān)系數(shù)比“冰果”與人工的相關(guān)系數(shù)平均較高(0.452>0.436;0.473>0.431);“冰果”對作文3(問題解決型)的自動評分和兩次人工評定成績之間的相關(guān)系數(shù)比“句酷網(wǎng)”與兩者的相關(guān)系數(shù)值平均較高(0.543>0.397)。這種結(jié)果揭示了兩個在線作文寫作系統(tǒng)對不同題型的英語作文的評分信度是有一些差異的,在日常教學(xué)中可以有效結(jié)合各自的優(yōu)勢使用這兩個寫作平臺。
實(shí)驗(yàn)結(jié)果表明:“句酷網(wǎng)”和“冰果”在線作文寫作系統(tǒng)評定成績和人工評定成績之間相關(guān)程度有一些差異,對不同類型作文的評定成績信度之間也有差異。同時研究還發(fā)現(xiàn),“句酷網(wǎng)”結(jié)果并不一定高于人工評定成績,而且還首次發(fā)現(xiàn)“冰果”自動評定的平均成績每次都顯著低于“句酷網(wǎng)”和人工評定成績。這種結(jié)果恰恰說明將兩個平臺應(yīng)用于英語寫作教學(xué)中應(yīng)該要注意的地方,在結(jié)合“句酷網(wǎng)”和“冰果”系統(tǒng)各自優(yōu)勢的前提下,重點(diǎn)突出學(xué)生通過兩個平臺“多寫、多練和多修改”的重要性和緊迫性。
注 釋:
① 該頻率的設(shè)置是為了和本校英語寫作教學(xué)要求保持一致,但由于研究者精力有限和本實(shí)驗(yàn)數(shù)據(jù)分析所需,本實(shí)驗(yàn)只選取了受試一學(xué)年中完成的15次作文中的3次作文成績作為分析數(shù)據(jù)。
[1] 王海嘯.大數(shù)據(jù)時代的大學(xué)英語寫作教學(xué)改革[J].現(xiàn)代遠(yuǎn)程教育研究,2014,(3):66-72.
[2] 錢文娟.大數(shù)據(jù)時代高職英語寫作自動評分新模式實(shí)踐[J].開封教育學(xué)院學(xué)報,2014,(10):175-177.
[3] Valenti S,Neff F,Cucchilarelli A.An overview of current research on automated essay grading[J].Journal of Information Technology Education,2003,(2):321-323.
[4] Kukich K.The Debate on automated essay grading[J].IEEE Intelligent systems,2000,(5):22-27.
[5] 葛詩利,陳瀟瀟.國外自動作文評分技術(shù)研究[J].外語電化教學(xué),2007,(5):25-29.
[6] 曾劍.冰果英語智能作文評閱系統(tǒng)在大學(xué)英語寫作教學(xué)中的應(yīng)用探討[J].梧州學(xué)院學(xué)報,2014,(1):104-108.
[7] 毛世花,陳曉麗.E-rater和句酷的對比研究及對提高大學(xué)生英語作文水平的啟示[J].高等函授學(xué)報:哲學(xué)社會科學(xué)版,2012,(5):20-21.
[8] 何旭良.句酷批改網(wǎng)英語作文評分的信度和效度研究[J].現(xiàn)代教育技術(shù),2013,(5):64-67.
[9] 顧成華,王麗.基于句酷批改網(wǎng)的大學(xué)英語寫作教學(xué)實(shí)證研究[J].揚(yáng)州大學(xué)學(xué)報:高教研究版,2012,(4):92-96.
[10] 石曉玲.在線寫作自動評改系統(tǒng)在大學(xué)英語寫作教學(xué)中的應(yīng)用研究——以句酷批改網(wǎng)為例[J].現(xiàn)代技術(shù)教育,2012,(10):67-71.
[11] 殷小娟,賈永華.國內(nèi)在線作文自動評分系統(tǒng)的效度研究——以句酷作文網(wǎng)為例[J].閩江學(xué)院學(xué)報,2015,(6):72-78.
[12] 楊婷婷.英語寫作自動評分系統(tǒng)的不一致性研究[J].社科縱橫,2012,(9):297-298.
[13] 魯艷輝,譚福民,彭舜.智能寫作評分系統(tǒng)在大學(xué)英語寫作中的實(shí)證研究[J].現(xiàn)代教育技術(shù),2012,(6):56-58.
[14] 陳長進(jìn).作文自動批改系統(tǒng)比較研究[J].科技視界,2013,(28):144-186.
[15] Kroll B.Second Language Writing[M].Cambridge:Cambridge University Press,1994.
(責(zé)任編輯 薛志清)
A Comparative Empirical Study on the Reliability of“Juku”and“Bingo”O(jiān)nline Autonomous Grading Systems
YIN Xiao-juan,JIA Yong-hua,LIN Qing-ying
(Department of Foreign Languages,Minjiang University,Fuzhou,Fujian 350121,China)
No empirical studies have been found to compare the reliability of“Juku”and“Bingo”online autonomous grading systems.To explore the effectiveness of the two systems,an empirical study has been conducted and three different types of English writing of non-English majors have been analyzed.The result shows that the autonomous grading results of both“Juku”and“Bingo”and the teachers’grading are significantly positively correlated.However,the positive correlation is slightly different between the two systems.Moreover,there are also differences in the reliability of grading different types of writing between the two autonomous grading systems.
“Juku”;“Bingo”;autonomous grading;reliability;type of English writing
2016-05-16
福建省中青年教師教育科研項(xiàng)目(JAS151317);福建省中青年教師教育科研A類項(xiàng)目(JAS14254);閩江學(xué)院教學(xué)實(shí)踐改革項(xiàng)目(MJUB2013026)
殷小娟(1981-),女,湖南省新寧縣人,閩江學(xué)院外語系講師,文學(xué)碩士,主要研究方向?yàn)榈诙Z言習(xí)得和英語教學(xué)。
H 315
A
2095-462X(2017)01-0091-06
http://kns.cnki.net/kcms/detail/13.1415.C.20170228.1450.052.html