国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

英語(yǔ)寫作AES系統(tǒng)評(píng)分效度的實(shí)證研究

2016-04-21 06:47:35王海軍

王海軍

(浙江工業(yè)大學(xué) 之江學(xué)院,浙江 杭州 310024)

?

英語(yǔ)寫作AES系統(tǒng)評(píng)分效度的實(shí)證研究

王海軍

(浙江工業(yè)大學(xué) 之江學(xué)院,浙江 杭州 310024)

摘要:英語(yǔ)寫作自動(dòng)評(píng)分系統(tǒng)(AES)在國(guó)外的英語(yǔ)寫作測(cè)試和教學(xué)領(lǐng)域應(yīng)用越來(lái)越廣泛,但國(guó)內(nèi)對(duì)其信、效度的實(shí)證研究還十分欠缺。以句酷網(wǎng)為例,從人分散度、相關(guān)性和等級(jí)一致性等方面研究了AES系統(tǒng)的評(píng)分效度。結(jié)果表明,盡管機(jī)器評(píng)分區(qū)分度不如人工評(píng)分,但其總的評(píng)分效度尚可,其結(jié)果的穩(wěn)定性可以滿足國(guó)內(nèi)英語(yǔ)寫作課堂教學(xué)的需要。

關(guān)鍵詞:英語(yǔ)寫作自動(dòng)評(píng)分系統(tǒng);評(píng)分效度;句酷

作文自動(dòng)評(píng)分技術(shù)(AES,Automated Essay Scoring)是計(jì)算機(jī)給作文評(píng)價(jià)和評(píng)分的技術(shù)[1],自二十世紀(jì)六十年代問(wèn)世以來(lái),已經(jīng)取得了長(zhǎng)足的進(jìn)步?,F(xiàn)階段,國(guó)外的寫作自動(dòng)評(píng)分技術(shù)不僅應(yīng)用于英語(yǔ)寫作的自動(dòng)評(píng)分,還在英語(yǔ)寫作的課堂教學(xué)實(shí)踐中發(fā)揮了越來(lái)越重要的作用。

機(jī)器自動(dòng)評(píng)分具有節(jié)時(shí)省力效率高的特點(diǎn),能使教師在很大程度上從繁重的寫作作業(yè)批閱中解放出來(lái)。國(guó)外的AES技術(shù)經(jīng)過(guò)多年的專家論證和實(shí)踐應(yīng)用已經(jīng)相當(dāng)成熟,其評(píng)分效度甚至高于人與人之間的評(píng)分效度。而國(guó)內(nèi)的AES系統(tǒng)由于起步較晚,其評(píng)分效度的實(shí)證研究目前還不多見。因此,本文以句酷網(wǎng)為例,分別從人分散度、相關(guān)性和等級(jí)一致性等指標(biāo)來(lái)檢驗(yàn)該系統(tǒng)的評(píng)分效度。

一、國(guó)內(nèi)外AES系統(tǒng)評(píng)分效度研究綜述

(一)評(píng)分效度研究的進(jìn)展

迄今為止,國(guó)外研發(fā)成功并投入使用的自動(dòng)評(píng)分系統(tǒng)有十余種[2],其中最具代表性的有PEG、IEA、E-rater、IntelliMetric和Writing RoadmapTM。它們各具特色,PEG重語(yǔ)言形式,IEA 重作文內(nèi)容,其余幾種則既重形式又重內(nèi)容[3]。相關(guān)研究表明,國(guó)外主流的自動(dòng)評(píng)分系統(tǒng)的評(píng)分效度指標(biāo)如相關(guān)度、一致度或回歸系數(shù)等數(shù)據(jù)都非常理想,可以達(dá)到0.9以上。IEA的自動(dòng)評(píng)分與人工評(píng)分之間的相關(guān)性為r=0.85[3]。而IntelliMetric的相關(guān)性也類似,達(dá)到了0.85~0.87,評(píng)分等級(jí)一致性(agreement)從1996年的50%左右上升到2002年的60%,相鄰一致性(分?jǐn)?shù)相差一個(gè)等級(jí))從95%左右上升到98%[1]。而E-rater的表現(xiàn)更好,其自動(dòng)評(píng)分與人工評(píng)分之間的等級(jí)一致性一直高于97%[3],相關(guān)系數(shù)已經(jīng)高達(dá)r=0.87~0.97[4]。相對(duì)而言,PEG的表現(xiàn)稍微遜色一些,機(jī)器評(píng)分與人工評(píng)分之間的相關(guān)性為0.71,但同一研究中的人工評(píng)分之間的相關(guān)性僅為0.62[5],遜色于機(jī)器評(píng)分。此外,有研究表明,PEG的多元回歸系數(shù)可以高達(dá)R=0.877[3]。

AES系統(tǒng)在中國(guó)起步較晚,從2005年梁茂成教授主持開發(fā)的“大規(guī)模考試英語(yǔ)作文自動(dòng)評(píng)分系統(tǒng)”算起,僅僅十年左右。除此之外,國(guó)內(nèi)現(xiàn)有以下幾種AES:write on,冰果,IntelliMetric, iWrite和2011年投入使用的“句酷批改網(wǎng)”(pigai.org)。

目前國(guó)內(nèi)有關(guān)AES的研究主要集中于冰果、句酷等AES系統(tǒng)的課堂應(yīng)用效果和對(duì)比人工批改與在線批改工具的差異等方面。而在評(píng)分效度方面,國(guó)內(nèi)主要有以下幾項(xiàng)研究:王鶯鶯通過(guò)對(duì)比200份作文的機(jī)器評(píng)分與人工評(píng)分研究了write on的評(píng)分效度[6]。結(jié)果表明,write on的機(jī)器評(píng)分與四名人工評(píng)分員的平均評(píng)分之間的平均相關(guān)性達(dá)到了0.62,評(píng)分效度尚可。何旭良對(duì)句酷網(wǎng)的評(píng)分效度研究結(jié)果表明:句酷批改網(wǎng)的自動(dòng)評(píng)分效度稍高一些(r=0.69),但評(píng)分顯著地高于人工評(píng)分,尚不能反映學(xué)生英語(yǔ)作文的真實(shí)水平[7]。同樣是研究句酷網(wǎng),汪珍珠的研究結(jié)論有些不同:句酷網(wǎng)的機(jī)器評(píng)分與人工評(píng)分的擬合度(R2)很低,只有0.45,評(píng)分效度遠(yuǎn)低于國(guó)外的主流AES[8]。這幾項(xiàng)研究的結(jié)果表明:與國(guó)外相比,國(guó)內(nèi)的AES系統(tǒng)評(píng)分效度盡管可以接受,但還不夠理想,僅處于國(guó)外AES系統(tǒng)初級(jí)階段的水平。

(二)評(píng)分效度研究的問(wèn)題

信度和效度對(duì)于任何語(yǔ)言測(cè)試來(lái)說(shuō)都是非常重要的指標(biāo)。信度是效度的基礎(chǔ),其通用定義是指測(cè)試結(jié)果是否可靠可信[9]。當(dāng)代效度觀認(rèn)為信度只是效度的一種證據(jù)。Messick認(rèn)為[10],在進(jìn)行效度驗(yàn)證時(shí)需要盡可能多地收集各種數(shù)據(jù),這其中就包括信度,信度也因此成了其效度框架的一部分。而Weir在針對(duì)考試效度所提出的社會(huì)認(rèn)知框架中將信度上升到了效度的高度,即評(píng)分效度(scoring validity)[11]。

就AES系統(tǒng)而言,由于自動(dòng)評(píng)分系統(tǒng)最終報(bào)告的是作文分?jǐn)?shù),傳統(tǒng)的評(píng)分效度評(píng)估方法在某些情況下就不適用于AES系統(tǒng)或不能為使用者提供足夠的信息量了[1]。因此,AES系統(tǒng)的評(píng)分效度主要指在評(píng)分標(biāo)準(zhǔn)相同的情況下,機(jī)器自動(dòng)評(píng)分與人工評(píng)分的相關(guān)性(consistency)或等級(jí)一致性(agreement)是否能達(dá)到人工評(píng)分的水平。而在實(shí)際操作中,我們不僅要考慮分?jǐn)?shù)能否正確地評(píng)定學(xué)生的寫作等級(jí)(classification accuracy)[1],還要考慮分?jǐn)?shù)的區(qū)分度(discrimination)或離散度,也就是李筱菊所說(shuō)的人分散度(person separability)[9],即分?jǐn)?shù)能否區(qū)分出受試者寫作水平的高低。除此之外,在考查評(píng)分效度時(shí)我們還需要考慮試題的難度(facility)等指標(biāo)[9]。

因此,在本研究中,AES系統(tǒng)的評(píng)分效度主要體現(xiàn)在相關(guān)性、等級(jí)一致性和人分散度上。

與國(guó)外相比,國(guó)內(nèi)的AES評(píng)分效度實(shí)證研究方面主要存在以下幾個(gè)問(wèn)題:第一,研究數(shù)量偏少,研究范圍偏窄。通過(guò)cnki搜索關(guān)鍵詞,截至2015年6月,僅搜到了三項(xiàng)有關(guān)國(guó)內(nèi)AES系統(tǒng)評(píng)分效度的實(shí)證研究:王鶯鶯(2012)[6]、何旭良(2013)[7]、汪珍珠、葉宬 (2014)[8]。根據(jù)上文的報(bào)告,有兩項(xiàng)研究的對(duì)象是句酷批改網(wǎng),一項(xiàng)是write on。目前還沒(méi)有針對(duì)冰果、IntelliMetric等AES系統(tǒng)的研究。第二,研究結(jié)論不一。王鶯鶯[6]與何旭良[7]的研究分別認(rèn)為write on和句酷的評(píng)分效度尚可(均高于0.6),其中句酷批改網(wǎng)的信度稍高一些。汪珍珠、葉宬的研究結(jié)論是句酷批改網(wǎng)的評(píng)分效度很低,擬合度R2僅為0.45[8]。此外,何旭良(2013)還發(fā)現(xiàn)句酷批改網(wǎng)的評(píng)分顯著地高于人工評(píng)分,尚不能反映學(xué)生英語(yǔ)作文的真實(shí)水平[7]。第三,結(jié)論無(wú)可比性。王鶯鶯[6]與何旭良[7]的研究使用了Pearson相關(guān)系數(shù),汪珍珠的研究所使用的方法為回歸分析,因此,前二者與后者的研究結(jié)論無(wú)可比性,只能通過(guò)他們的分析來(lái)判斷AES評(píng)分效度的高低。

(三)評(píng)分效度研究的趨勢(shì)

鑒于國(guó)內(nèi)AES評(píng)分效度研究中存在的上述問(wèn)題,本人認(rèn)為今后在實(shí)證研究中還應(yīng)在以下幾個(gè)方面取得突破:第一,建立系統(tǒng)科學(xué)的AES系統(tǒng)評(píng)分效度研究方法??梢越梃b國(guó)外的研究,統(tǒng)一AES系統(tǒng)評(píng)分研究所需數(shù)據(jù)的種類和研究方法,盡快建立AES系統(tǒng)評(píng)分效度研究的科學(xué)方法,解決不同研究的可比性問(wèn)題。第二,增加橫向和縱向的比較。如上所述,國(guó)內(nèi)AES系統(tǒng)評(píng)分效度的實(shí)證研究數(shù)量很少,僅涉及到句酷網(wǎng)和write on。迄今為止,還沒(méi)有研究涉及到橫向?qū)Ρ葒?guó)內(nèi)不同AES系統(tǒng)的評(píng)分效度。另外,有些AES系統(tǒng)(如句酷網(wǎng))的語(yǔ)料庫(kù)是不斷更新的,相應(yīng)地,其評(píng)分效度也會(huì)隨之發(fā)生變化,因此,我們需要大量的實(shí)證研究尤其是歷時(shí)研究對(duì)這種變化進(jìn)行跟蹤調(diào)查。第三,拓寬研究范圍。大學(xué)的英語(yǔ)教學(xué)及很多大型語(yǔ)言測(cè)試均要求學(xué)生掌握不同文體的寫作。到目前為止,國(guó)內(nèi)在文體對(duì)AES系統(tǒng)評(píng)分的影響方面的研究還處于空白。盡管國(guó)外的研究得出的結(jié)論是文體對(duì)AES系統(tǒng)評(píng)分的信、效度影響有限,只占10%~20%[1],但國(guó)內(nèi)的AES系統(tǒng)是否對(duì)不同文體存在偏頗性還有待于通過(guò)實(shí)證研究加以證明。

綜上所述,以句酷為代表的英語(yǔ)寫作網(wǎng)絡(luò)在線自動(dòng)評(píng)分系統(tǒng)在中國(guó)的英語(yǔ)寫作教學(xué)中發(fā)揮了越來(lái)越大的作用,但國(guó)內(nèi)對(duì)句酷網(wǎng)的研究主要集中在介紹其基本功能、特點(diǎn)、教學(xué)效果等方面,而其信、效度的實(shí)證研究還不多見。評(píng)分效度是任何語(yǔ)言測(cè)試的基礎(chǔ),沒(méi)有評(píng)分效度,其他效度就無(wú)從談起。因此,本文主要以實(shí)證研究的方式探討句酷網(wǎng)的評(píng)分效度。

天氣晴朗、水質(zhì)良好,小龍蝦活動(dòng)吃食旺盛宜多投餌,鮮活餌料的日投餌量按體重的8%,高溫、陰雨天氣、發(fā)病季節(jié)、活動(dòng)不正常少投餌,提高飼料利用率。

二、AES系統(tǒng)評(píng)分效度的實(shí)證研究

(一)研究樣本

本研究的試驗(yàn)對(duì)象為某大學(xué)2012級(jí)英語(yǔ)專業(yè)三年級(jí)的本科生。經(jīng)過(guò)分層抽樣,共有50名學(xué)生成為本研究的對(duì)象。試驗(yàn)時(shí)間為2014年10月,學(xué)生在教師布置英語(yǔ)寫作任務(wù)之后,通過(guò)句酷網(wǎng)提交一篇說(shuō)明文,與英語(yǔ)專業(yè)八級(jí)(TEM8)寫作難度相當(dāng)。

為了使人工評(píng)分和機(jī)器評(píng)分具有可比性,筆者將句酷網(wǎng)的作文打分標(biāo)準(zhǔn)設(shè)置成TEM8寫作打分格式,滿分為20分。同時(shí),由于句酷網(wǎng)的語(yǔ)料庫(kù)經(jīng)常更新,其評(píng)分的參數(shù)也會(huì)隨之改變,這勢(shì)必會(huì)影響不同時(shí)間提交的作文得分。因此,在所有作文均提交之后,2015年3月筆者又重新提交了這些作文,所得的分?jǐn)?shù)作為本研究的數(shù)據(jù)。

參與本研究評(píng)分的人工評(píng)分員共有三人,他們均有多年英語(yǔ)專業(yè)高年級(jí)寫作教學(xué)經(jīng)驗(yàn),并多次參加過(guò)英語(yǔ)寫作的閱卷工作。在人工評(píng)分之前,筆者按照TEM8寫作分項(xiàng)式評(píng)分法對(duì)這三位評(píng)分員進(jìn)行了嚴(yán)格的培訓(xùn)。評(píng)分員在經(jīng)過(guò)兩輪共計(jì)20篇樣文的評(píng)分培訓(xùn)之后,對(duì)TEM8作文評(píng)分標(biāo)準(zhǔn)的理解基本達(dá)到了一致水平。

(二)研究方法

本研究主要采用語(yǔ)言測(cè)試專家李筱菊[9]、Cizek & Page[1]有關(guān)語(yǔ)言測(cè)試評(píng)分效度的理論,從人分散度、相關(guān)性和等級(jí)一致性等指標(biāo)來(lái)探討句酷網(wǎng)的評(píng)分效度。主要的研究問(wèn)題包括:機(jī)器評(píng)分的難度、區(qū)分度、標(biāo)準(zhǔn)差等指標(biāo)是否能達(dá)到人工評(píng)分的水平,同理,機(jī)器評(píng)分的相關(guān)性和等級(jí)一致性是否能達(dá)到人工評(píng)分的水平。

Cizek & Page(2003)認(rèn)為,考后復(fù)考等傳統(tǒng)的評(píng)分效度評(píng)估方法是不適用于AES的[1]。同一批作文,只要參數(shù)設(shè)置相同,不同的計(jì)算機(jī)使用同一AES所給出的評(píng)分結(jié)果肯定是一樣的。因此,正如上文所述,對(duì)于AES系統(tǒng)而言,我們需要考查的是,在同一評(píng)分標(biāo)準(zhǔn)下,機(jī)器評(píng)分與人工評(píng)分之間的一致性(agreement)或相關(guān)性(correlation)是否能達(dá)到人與人之間的一致或相關(guān)水平。在本研究中,相關(guān)性指人工評(píng)分與機(jī)器評(píng)分的Pearson相關(guān)系數(shù),而分?jǐn)?shù)相差3分以內(nèi)(包括3分)即視為評(píng)分等級(jí)一致。此外,李筱菊(2001)認(rèn)為,考試結(jié)果的分?jǐn)?shù)要具有人分散度(person separability),即分?jǐn)?shù)分布要散開[9],其主要指標(biāo)包括區(qū)分度(discrimination)、標(biāo)準(zhǔn)差和難度。前人在AES評(píng)分效度的研究中對(duì)這些指標(biāo)鮮有報(bào)告,但相關(guān)性很高的兩組數(shù)據(jù)整體差異也有可能非常大,因此,筆者認(rèn)為在實(shí)證研究中有必要對(duì)這些數(shù)據(jù)進(jìn)行報(bào)告和對(duì)比。

(三)研究結(jié)果

第一,人分散度。如上所述,人分散度主要體現(xiàn)在難度、標(biāo)準(zhǔn)差和區(qū)分度等指標(biāo)上。表1報(bào)告了機(jī)器評(píng)分和人工評(píng)分的平均難度、標(biāo)準(zhǔn)差和區(qū)分度。從表1的結(jié)果來(lái)看,人工評(píng)分的平均難度值(0.70)稍低于機(jī)器評(píng)分(0.72),但相差不大。在標(biāo)準(zhǔn)差方面,人工評(píng)分(平均2.15)明顯好于機(jī)器評(píng)分(1.97),人工評(píng)分更加分散一些。但人工評(píng)分的標(biāo)準(zhǔn)差變化非常大(1.90~2.50),最低值甚至低于機(jī)器評(píng)分(R2=1.90),這說(shuō)明不同的人工評(píng)分員在評(píng)分時(shí)寬嚴(yán)度掌握不一致。機(jī)器評(píng)分的平均區(qū)分度(0.18)十分不理想,低于人工評(píng)分(平均0.24),評(píng)分員1的評(píng)分在區(qū)分學(xué)生的寫作能力方面稍好一些(0.29),但與標(biāo)準(zhǔn)差類似,人工評(píng)分的區(qū)分度起伏也很大(0.20~0.29)。

表1 機(jī)器評(píng)分與人工評(píng)分人分散度對(duì)照表(n=50)

注:A=機(jī)器評(píng)分;R=人工評(píng)分。

第二,相關(guān)性與等級(jí)一致性。表2報(bào)告了人工評(píng)分員之間、人工評(píng)分與機(jī)器評(píng)分之間的等級(jí)一致性和Pearson相關(guān)系數(shù)。從表2看,人工評(píng)分的等級(jí)一致性(0.90)與機(jī)器評(píng)分相當(dāng)(0.89),但人工評(píng)分的等級(jí)一致性(0.82~0.96)不如機(jī)器評(píng)分(0.86~0.92)穩(wěn)定。相對(duì)而言,人工評(píng)分的Pearson相關(guān)系數(shù)(0.65)要好于機(jī)器評(píng)分(0.59),但從穩(wěn)定性上來(lái)說(shuō),人工評(píng)分(0.61~0.73)和機(jī)器評(píng)分(0.53~0.63)都差強(qiáng)人意。

表2 機(jī)器評(píng)分與人工評(píng)分相關(guān)性和

三、AES系統(tǒng)評(píng)分效度的討論

上述數(shù)據(jù)的分析結(jié)果表明:句酷批改網(wǎng)自動(dòng)評(píng)分系統(tǒng)的評(píng)分區(qū)分度有待于提高,但總的來(lái)說(shuō),其評(píng)分效度尚可接受。

(一)評(píng)分效度的分析

在人分散度這個(gè)指標(biāo)上(表1),機(jī)器評(píng)分與人工評(píng)分的難度判斷幾乎是一致的,并未出現(xiàn)某些研究中報(bào)告的機(jī)器評(píng)分偏高問(wèn)題[7]。如前文所述,句酷網(wǎng)的語(yǔ)料庫(kù)一直處于不斷更新之中,其評(píng)分有越來(lái)越低的趨勢(shì),與人工評(píng)分越來(lái)越接近。但就標(biāo)準(zhǔn)差和區(qū)分度而言,機(jī)器評(píng)分明顯遜色于人工評(píng)分,這說(shuō)明機(jī)器評(píng)分在寫作能力的區(qū)分上不如人工評(píng)分。事實(shí)上,盡管人工評(píng)分的區(qū)分度好于機(jī)器評(píng)分,但二者均不理想。一般認(rèn)為,試題的區(qū)分度在0.3以上是比較理想的,而0.25左右僅僅是可以接受的水平。因此,如果說(shuō)人工評(píng)分的區(qū)分度(0.24)勉強(qiáng)過(guò)關(guān),則機(jī)器評(píng)分的區(qū)分度(0.18)還亟需提高。

就相關(guān)性而言,句酷網(wǎng)的自動(dòng)評(píng)分尚可接受。盡管機(jī)器評(píng)分與人工評(píng)分的相關(guān)性總的來(lái)說(shuō)只有0.59,但我們同時(shí)還發(fā)現(xiàn),就TEM8寫作評(píng)分來(lái)說(shuō),人工評(píng)分之間的相關(guān)性平均值也并不高,只有0.65(表2)。根據(jù)Stemler(2004)等人的研究,評(píng)分員之間的相關(guān)系數(shù)達(dá)到0.70左右才是可以接受的[12]。按照這個(gè)標(biāo)準(zhǔn),不僅句酷批改網(wǎng)的評(píng)分效度不理想,人工評(píng)分也不例外。然而,國(guó)外的AES系統(tǒng)早期階段的相關(guān)性也沒(méi)有達(dá)到0.70這個(gè)理想的數(shù)值。在PEG最早的一次實(shí)驗(yàn)中,人工評(píng)分員之間的平均相關(guān)性僅為0.55;在1994年的實(shí)驗(yàn)中,這一數(shù)值更低,僅0.49;即便是在信度最高的1995年的實(shí)驗(yàn)中,人工評(píng)分員之間的平均相關(guān)性也只有0.65[3]??梢?人工評(píng)分員之間想實(shí)現(xiàn)較理想的評(píng)分效度是很難的,更何況人工評(píng)分員與機(jī)器之間的相關(guān)性了。因此,與國(guó)外相比,本研究中的人工評(píng)分員之間的相關(guān)性是可以接受的,但機(jī)器評(píng)分的評(píng)分效度就稍稍偏低了,與前文所報(bào)告的處于高級(jí)階段的PEG的0.71[5]、IEA的0.85[3]還有差距,需要不斷完善。然而,國(guó)外的自動(dòng)評(píng)分系統(tǒng)多采用等級(jí)制,即5~6個(gè)等級(jí),而句酷網(wǎng)的TEM8寫作是從20分中為一篇作文選擇一個(gè)分?jǐn)?shù),甚至整數(shù)分?jǐn)?shù)后面還會(huì)出現(xiàn)半分,其評(píng)分難度無(wú)疑要大得多,因此,句酷網(wǎng)當(dāng)前的相關(guān)性尚可接受。

此外,在本研究中,機(jī)器評(píng)分(0.89)與人工評(píng)分(0.90)的等級(jí)一致性基本是一致的,同時(shí),機(jī)器評(píng)分的穩(wěn)定性明顯好于人工評(píng)分(表2)。這說(shuō)明,句酷批改網(wǎng)在執(zhí)行評(píng)分標(biāo)準(zhǔn)方面比人腦有優(yōu)勢(shì),其中一個(gè)主要原因在于機(jī)器在評(píng)分時(shí)不會(huì)受到時(shí)間、地點(diǎn)、疲勞狀態(tài)、精神狀態(tài)等眾多因素的影響。

綜上所述,句酷批改網(wǎng)的評(píng)分效度可以滿足風(fēng)險(xiǎn)較小的英語(yǔ)寫作的自動(dòng)評(píng)分,如寫作課的英語(yǔ)寫作作業(yè)等,但還不能滿足風(fēng)險(xiǎn)較大的大型考試的需要。因此,其評(píng)分效度特別是區(qū)分度等指標(biāo)仍有較大的提升空間。

(二)評(píng)分效度改進(jìn)的方法

國(guó)外主流的AES系統(tǒng)在自動(dòng)評(píng)分之前基本上都需要針對(duì)某次考試收集樣本,對(duì)系統(tǒng)進(jìn)行培訓(xùn)。一般而言,這種自動(dòng)評(píng)分方法對(duì)于該次考試的作文評(píng)分效度較高,但不能用于其他考試的自動(dòng)評(píng)分。事實(shí)也證明,國(guó)外的英語(yǔ)自動(dòng)評(píng)分系統(tǒng)的評(píng)分效度早已高于人工評(píng)分[1]。與國(guó)外不同,句酷批改網(wǎng)是基于語(yǔ)料庫(kù)的作文在線自動(dòng)評(píng)分系統(tǒng),不需要對(duì)系統(tǒng)進(jìn)行培訓(xùn),可以為任何題目的作文評(píng)分,其核心算法是計(jì)算學(xué)生提交的作文與語(yǔ)料庫(kù)之間的距離,再通過(guò)映射將距離轉(zhuǎn)化成作文分?jǐn)?shù)和評(píng)語(yǔ)。這種評(píng)分方法是把雙刃劍,優(yōu)缺點(diǎn)均很明顯。優(yōu)點(diǎn)是該自動(dòng)評(píng)分系統(tǒng)可以為任何作文評(píng)分,很適合于英語(yǔ)寫作的課堂教學(xué)。缺點(diǎn)是,不對(duì)系統(tǒng)進(jìn)行有針對(duì)性的培訓(xùn),句酷網(wǎng)在自動(dòng)評(píng)分時(shí)對(duì)內(nèi)容的判斷就沒(méi)有了充分的依據(jù)。因此,目前句酷批改網(wǎng)對(duì)于“跑題”等嚴(yán)重的內(nèi)容問(wèn)題還判斷不出來(lái)。即使作文跑題了,學(xué)生仍然可以利用較高級(jí)的詞匯和較長(zhǎng)的句子輕而易舉地“騙過(guò)”計(jì)算機(jī)。國(guó)內(nèi)研究者謝賢春就曾指出,為了取得高分,有些學(xué)生有意“欺詐”或“取悅”電腦,通過(guò)“寫長(zhǎng)”或簡(jiǎn)單地“重復(fù)”某些段落“騙得”高分[13]。克服這一缺陷需要計(jì)算機(jī)在人工智能方面取得突破,如簡(jiǎn)單知識(shí)的識(shí)別等。在目前階段,國(guó)內(nèi)機(jī)器自動(dòng)評(píng)分系統(tǒng)在評(píng)閱風(fēng)險(xiǎn)較大的作文時(shí)還需要人工輔助,特別是在內(nèi)容識(shí)別方面。

除此之外,為了提高評(píng)分效度,國(guó)內(nèi)的自動(dòng)評(píng)分系統(tǒng)在語(yǔ)料的選擇上應(yīng)有別于國(guó)外。二語(yǔ)寫作與母語(yǔ)寫作盡管總體模式相似,但二語(yǔ)作文使用的詞匯量更少,文本結(jié)構(gòu)更簡(jiǎn)單,形式連接方式往往多于內(nèi)容連接方式,在準(zhǔn)確性、流利性和有效性方面均遜色于母語(yǔ)作文,處于中介語(yǔ)階段[14]。這些特點(diǎn)決定了二語(yǔ)作文的評(píng)分標(biāo)準(zhǔn)應(yīng)不同于母語(yǔ)作文,語(yǔ)言與內(nèi)容應(yīng)同等重要。因此,筆者建議在選取語(yǔ)料時(shí)應(yīng)借鑒并改進(jìn)國(guó)外比較成熟的自動(dòng)評(píng)分系統(tǒng)的技術(shù):利用作文訓(xùn)練集對(duì)自動(dòng)評(píng)分系統(tǒng)進(jìn)行培訓(xùn),建立中介語(yǔ)語(yǔ)料庫(kù)。以TEM8寫作為例,應(yīng)不分題目和體裁地廣泛搜集代表各分?jǐn)?shù)段的作文,提取各個(gè)分?jǐn)?shù)段與內(nèi)容無(wú)關(guān)的淺層文本特征,用于培訓(xùn)自動(dòng)評(píng)分系統(tǒng)。這個(gè)訓(xùn)練集在每個(gè)分?jǐn)?shù)上都應(yīng)該有足夠的樣本,隨著樣本數(shù)量不斷累積,每個(gè)分?jǐn)?shù)的樣本都能構(gòu)成一個(gè)獨(dú)立的語(yǔ)料庫(kù),這樣對(duì)代表每個(gè)分?jǐn)?shù)的淺層文本特征的提取將會(huì)越來(lái)越精確,自動(dòng)評(píng)分在語(yǔ)言上的評(píng)分也會(huì)越來(lái)越接近人工評(píng)分。

從本研究來(lái)看,句酷網(wǎng)的整體評(píng)分效度是可以接受的,盡管不能滿足對(duì)評(píng)分效度和社會(huì)使用效度等要求較高的大型測(cè)試,但目前的水平可以滿足英語(yǔ)寫作教學(xué)的課后或課堂作業(yè)的自動(dòng)評(píng)分,這既能使英語(yǔ)寫作教師從繁重的作業(yè)批改任務(wù)中解放出來(lái),也有助于在英語(yǔ)寫作課上實(shí)施形成性評(píng)估這一先進(jìn)的評(píng)價(jià)手段。

參考文獻(xiàn):

[1] SHERMIS M D, BURSTEIN J. Automated essay scoring: A cross-disciplinary perspective[M]. Mahwah, NJ: Lawrence Erlbaum Associates, 2003:vii, xiii, 25-27,76,95,125-146,128,142-143.

[2] 石曉玲.在線寫作自動(dòng)評(píng)改系統(tǒng)在大學(xué)英語(yǔ)寫作教學(xué)中的應(yīng)用研究——以句酷批改網(wǎng)為例[J].現(xiàn)代教育技術(shù),2012(10):67-71.

[3] 梁茂成, 文秋芳. 國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J]. 外語(yǔ)電化教學(xué), 2007 (5): 18-24.

[4] CHOI I C. A validation of EFL essay assessment based on corpus indices and error analysis[J]. Multimedia-assisted language learning, 2012 (4): 39-60.

[5] SHERMIS M D, MZUMAIA H R, OLSON J, et al. On-line grading of students essays:PEG goes on the world wide web[J]. Assessment & education in higher education, 2001(3):247-259.

[6] 王鶯鶯.《新視野大學(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)的效度研究[J].當(dāng)代教育理論與實(shí)踐, 2012 (12): 139-142.

[7] 何旭良. 句酷批改網(wǎng)英語(yǔ)作文評(píng)分的信度和效度研究[J]. 現(xiàn)代教育技術(shù), 2013 (5): 64-67.

[8] 汪珍珠,葉宬. 英語(yǔ)作文在線批改模式的實(shí)證研究[J]. 長(zhǎng)沙鐵道學(xué)院學(xué)報(bào),2014 (1): 161-163.

[9] 李筱菊. 語(yǔ)言測(cè)試科學(xué)與藝術(shù)[M]. 第2版. 長(zhǎng)沙: 湖南教育出版社, 2001:34-36.

[10] MESSICK S. Validity[C]//Linn R L. Educational measurement (3rdEd.). NewYork: Ma cmillan, 1989:13.

[11] WEIR C J. Language testing and validation: an evidence-based approach [M]. Basin gstoke, Hampshire: Palg rave Ma cmillan, 2005:11-39.

[12] STEMLER S E. A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability[EB/OL].[2015-05-03].http://pareonline.net/getvn.asp?v=9&n=4.

[13] 謝賢春. 英語(yǔ)作文自動(dòng)評(píng)分及其效度、信度與可操作性探討[J].江西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2010(2):136-140.

[14] SILVA T.Toward an understanding of the distinct nature of L2 writing: The ESL research and its implications[J]. TESOL Quarterly, 1993(4):657-677.

(責(zé)任編輯:薛蓉)

An empirical research into scoring validity of AES

WANG Haijun

(Zhijiang College, Zhejiang University of Technology, Hangzhou 310024, China)

Abstract:Although AES is playing a more and more important part in English writing tests and teaching abroad, little empirical research has been carried out into its reliability and validity in China. The research, a case study of Juku AES, investigated its scoring validity from the perspectives of person separability, consistency and classification agreement. It is concluded that the scoring validity of Juku is so adequate as to satisfy the needs of English classroom writing tasks in spite of its relatively poorer discrimination.

Keywords:AES; scoring validity; Juku

中圖分類號(hào):H319

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1006-4303(2016)01-0089-05

作者簡(jiǎn)介:王海軍(1975—),男,黑龍江蘭西人,講師,碩士,從事語(yǔ)言教學(xué)與測(cè)試研究。

基金項(xiàng)目:浙江省社科規(guī)劃課題(16NDJC213YB);浙江省高等教育課堂教學(xué)改革研究項(xiàng)目(kg2013525);紹興市高等教育課堂教學(xué)改革項(xiàng)目(紹市教高[2014]135號(hào));浙江工業(yè)大學(xué)人文社科研究基金(GZ152105012800)

收稿日期:2015-09-03

萝北县| 乌海市| 清原| 佛学| 中方县| 连江县| 固原市| 杨浦区| 江永县| 沙田区| 万安县| 台山市| 西畴县| 民勤县| 四子王旗| 丰城市| 枣阳市| 万年县| 张掖市| 华池县| 湖南省| 阳新县| 宜城市| 富锦市| 历史| 四川省| 马公市| 什邡市| 长海县| 敦煌市| 突泉县| 永善县| 台南县| 大石桥市| 山东省| 普安县| 博客| 黔西| 叶城县| 正安县| 河池市|