趙慧 唐建敏
摘 要:英語寫作能力培養(yǎng)一直是大學(xué)英語教學(xué)的重點(diǎn)和難點(diǎn),目前自動(dòng)作文評(píng)分AES(Automated Essay Scoring)技術(shù)已得到廣泛應(yīng)用,但如何將其與大學(xué)英語寫作教學(xué)有效結(jié)合仍有待深入研究。鑒于此,根據(jù)我國大學(xué)英語寫作教學(xué)現(xiàn)狀,結(jié)合L2(Second Language)語言學(xué)習(xí)特點(diǎn),在分析AES技術(shù)相關(guān)原理基礎(chǔ)上,對(duì)大學(xué)英語寫作教學(xué)模式進(jìn)行分析研究。結(jié)果表明,當(dāng)前中國大學(xué)英語寫作教學(xué)需結(jié)合AES技術(shù)和L2語言學(xué)習(xí)特點(diǎn),構(gòu)建基于AES的大學(xué)英語教學(xué)模式,以激發(fā)學(xué)生學(xué)習(xí)興趣,提升學(xué)生英語寫作能力。
關(guān)鍵詞:自動(dòng)作文評(píng)分;英語寫作教學(xué);教學(xué)模式;自然語言處理
0 引言
大學(xué)英語“聽說讀寫譯”5種能力培養(yǎng)中,寫作能力培養(yǎng)難度相對(duì)較大,必要的訓(xùn)練和有效的反饋是提升學(xué)生寫作能力的有效途徑[1-2]。文獻(xiàn)[1]表明教師反饋非常受學(xué)生歡迎,特別是在錯(cuò)誤處標(biāo)注錯(cuò)誤類型等相關(guān)反饋;文獻(xiàn)[2]探討了評(píng)閱中指出錯(cuò)誤類型可能產(chǎn)生的效果。然而,與選擇題、翻譯題、填空題等題型相比,寫作練習(xí)往往只有參考答案,甚至沒有答案,只有分?jǐn)?shù)的評(píng)閱反饋或沒有針對(duì)性的反饋往往難以促進(jìn)學(xué)生寫作能力提升。詳盡的作文評(píng)閱反饋往往需要耗費(fèi)大量人力,這在當(dāng)前我國大學(xué)英語教學(xué)中較難實(shí)現(xiàn)[3]。
近年來,自動(dòng)作文評(píng)分AES(Automated Essay Scoring)技術(shù)也稱AWS(Automated Writing Scoring)或ATS(Automated Text Scoring)受到高度關(guān)注,并在GRE、TOEFL等考試中得到了成功應(yīng)用[4],極大減少了評(píng)閱者的工作量。文獻(xiàn)[4]就提升AES預(yù)測分?jǐn)?shù)相關(guān)性展開研究,主要面向以英語為第一語言的學(xué)習(xí)者;文獻(xiàn)[5]總結(jié)了AES技術(shù)的發(fā)展歷程及各階段的主要特點(diǎn);文獻(xiàn)[6]基于多元回歸、K近鄰和支持向量機(jī)3種方法對(duì)AES作了分析;文獻(xiàn)[7]以英語議論文為研究對(duì)象分析了AES和人工反饋對(duì)作文修改的影響;文獻(xiàn)[8]基于AES對(duì)大學(xué)英語寫作能力提升及寫作教學(xué)過程變化展開了研究;文獻(xiàn)[9]則對(duì)基于AES的自主寫作、多維反饋進(jìn)行了研究分析。已有研究對(duì)AES技術(shù)應(yīng)用于英語寫作教學(xué)持肯定態(tài)度,但都沒有將教學(xué)模式和AES技術(shù)特點(diǎn)相結(jié)合加以綜合考慮和研究。隨著自然語言處理技術(shù)的飛速發(fā)展,AES技術(shù)也獲得了長足進(jìn)步[10-18]。本文針對(duì)大學(xué)英語寫作教學(xué)現(xiàn)狀,結(jié)合L2語言學(xué)習(xí)特點(diǎn),在分析AES技術(shù)相關(guān)原理的基礎(chǔ)上,對(duì)大學(xué)英語寫作教學(xué)模式進(jìn)行分析研究。
1 問題提出
從20世紀(jì)80年代開始,我國高校非英語專業(yè)的英語寫作教學(xué)一般采用教師講授、批改為主,學(xué)生自我練習(xí)為輔的模式。在這種教學(xué)模式中,教師是教學(xué)活動(dòng)的中心,教師根據(jù)學(xué)生水平、教學(xué)內(nèi)容等選擇合適的寫作題目,由學(xué)生完成后逐篇批改,然后有選擇地進(jìn)行解析,并回答學(xué)生提問。學(xué)生也可以根據(jù)自己的興趣和條件自主開展寫作練習(xí),但一般不容易獲得反饋評(píng)價(jià)。在上述英語寫作教學(xué)模式中,教學(xué)程序完全由教師掌控,評(píng)價(jià)、反饋也完全依賴于教師。隨著大學(xué)生規(guī)模的擴(kuò)大,教師工作量加大,這種教學(xué)模式的效果也難以得到保證。
進(jìn)入21世紀(jì)后,智能評(píng)閱技術(shù)AES開始應(yīng)用于大學(xué)英語教學(xué)中。在國外,AES主要用于各類英語考試,如ETS的作文評(píng)閱[3-4];國內(nèi)高校正致力于將自動(dòng)作文評(píng)分AES技術(shù)與大學(xué)英語寫作教學(xué)相結(jié)合,并探究相應(yīng)的教學(xué)模式,以激發(fā)學(xué)生學(xué)習(xí)興趣,提升學(xué)生英語寫作能力。
2 相關(guān)概念及原理
2.1 基于統(tǒng)計(jì)的AESS
最早出現(xiàn)的AES技術(shù)大多基于統(tǒng)計(jì)的方法,這種技術(shù)大多借用了從小樣本數(shù)據(jù)獲取信息的思想[11]。AESS(AES based on Statistics)工作流程如圖1所示。整個(gè)流程可分為3部分:首先是前期準(zhǔn)備,其核心是作文評(píng)分標(biāo)準(zhǔn)需要由經(jīng)驗(yàn)豐富的教師完成,再根據(jù)評(píng)分標(biāo)準(zhǔn)確定選擇哪些文本表示特征以及評(píng)分準(zhǔn)則,并建立相應(yīng)的例程庫,這需要由軟件研發(fā)者與英語教師共同完成;其次由任課教師有選擇性地挑選特定數(shù)量的優(yōu)秀作文集合{e},然后在{e}上提取相關(guān)表示特征并建立AESS模型及其評(píng)分準(zhǔn)則(例如采用多元回歸或K-近鄰方法等),再由該模型完成每一份試卷{s}的判別;再次由任課教師對(duì)基于AESS技術(shù)的作文評(píng)閱結(jié)果進(jìn)行監(jiān)督。
從圖1可以看出,AESS系統(tǒng)中對(duì)最終結(jié)果的準(zhǔn)確度具有決定性影響的是由教師制定的作文評(píng)判標(biāo)準(zhǔn)以及據(jù)此標(biāo)準(zhǔn)選擇的特征。美國ETS(Educational Testing Service)中心制定了分別適用于TOEFL、GRE、TOEIC等不同類型考試的整體標(biāo)準(zhǔn),并將其應(yīng)用于E-rater系統(tǒng)中[3]。教學(xué)實(shí)踐中,大學(xué)英語作文評(píng)分標(biāo)準(zhǔn)通??梢杂成錇槿缦?類表示特征:①基本統(tǒng)計(jì)特征,包括但不局限于:作文的單詞數(shù)目、長單詞數(shù)目、每個(gè)句子的平均單詞個(gè)數(shù)、句子數(shù)目等;②句法特征,主要使用PoS(Part of Speech)標(biāo)簽[12]進(jìn)行衡量;③單詞拼寫錯(cuò)誤和句法錯(cuò)誤,前者的實(shí)現(xiàn)較為簡單,而后者需要根據(jù)上下文無關(guān)句法模型進(jìn)行句法樹搜索確定[13];④語義相關(guān)性特征,可以通過分析測試作文與優(yōu)秀作文之間的距離,如余弦相似距離確定。
AESS是早期自動(dòng)評(píng)閱技術(shù)的主流,但由于體現(xiàn)評(píng)分標(biāo)準(zhǔn)的特征沒有覆蓋語義、聚合度等深層作文特征,因此很容易被學(xué)生通過書寫長句、長單詞等方法欺騙。
2.2 基于機(jī)器學(xué)習(xí)的AESML
一個(gè)典型的AESML(AES based on Machine Learning)如圖2所示。與圖1所示的AESS不同,圖2中的AESML技術(shù)雖然也需要教師參與選擇并確定作文的表示特征,但其由計(jì)算機(jī)自動(dòng)建立作文評(píng)分模型,前提是需要提前獲得大量由教師批改過的且最好是由兩個(gè)或兩個(gè)以上教師的評(píng)分作文作為訓(xùn)練樣本集合{e}(后文稱其為標(biāo)簽樣本)。這些標(biāo)簽樣本需要涵蓋“優(yōu)、良、中、差”等所有不同級(jí)別的作文。在使用機(jī)器學(xué)習(xí)方法對(duì)標(biāo)簽樣本進(jìn)行訓(xùn)練時(shí),可以采用SVM(Supported Vector Machine)[14-15]、RF(Random Forest)[14,16]等不同的方法,或者將這些方法結(jié)合起來的Adaboost等[14]。不同的機(jī)器學(xué)習(xí)訓(xùn)練方法對(duì)最后的評(píng)分準(zhǔn)確度也有不同程度的影響。
2.3 基于深度學(xué)習(xí)的AESDL
AESDL(AES based on Deep Learning)比AESS評(píng)分相關(guān)度更好。但AESML也存在兩個(gè)問題:一是AESML輸出分?jǐn)?shù)與教師標(biāo)注分?jǐn)?shù)仍有一定距離;二是仍然需要手工選擇作文的表示特征。這兩個(gè)問題從本質(zhì)上看具有深刻的內(nèi)在聯(lián)系:低分作文的特征往往可以較好地歸類,而很多高分作文往往很難用事先指定的特征模型描述。例如優(yōu)秀作文中“文字優(yōu)美”的標(biāo)準(zhǔn),反映到表示特征上,基本要求是沒有錯(cuò)誤單詞,但這僅僅只是初步要求,“優(yōu)美”如何定義呢?最近幾年開始出現(xiàn)的AESDL解決了該問題。
如圖3所示,與AESS和AESML不同,AESDL不需要人工確定使用哪些表示特征。AESDL采用端到端(end-to-end)的學(xué)習(xí)方式,將大量經(jīng)過人工批閱具有標(biāo)簽(分?jǐn)?shù))的作文作為訓(xùn)練樣本,系統(tǒng)會(huì)自動(dòng)根據(jù)這些標(biāo)簽數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。AESDL一般可以使用RNN(Recurrent Neural Network)或LSTM(Long Short-Term Memory)神經(jīng)網(wǎng)絡(luò)[17-18]構(gòu)建。對(duì)AESDL完成訓(xùn)練后,輸入需要批閱的作文,系統(tǒng)會(huì)給出該作文相應(yīng)的分?jǐn)?shù)。相關(guān)研究表明,在ASAP數(shù)據(jù)集合上[15]使用LSTM的AESDL英語作文評(píng)閱系統(tǒng)的QWK(Quadratic Weighted Kappa)系數(shù)可以達(dá)到0.7,而皮爾遜相關(guān)系數(shù)則可以達(dá)到0.8甚至超過0.9[17-18]。這表明設(shè)計(jì)良好的AESDL系統(tǒng)所給出的評(píng)分與測試標(biāo)簽之間的相關(guān)性可能在某些情況下高于某些教師的評(píng)閱分?jǐn)?shù)相關(guān)性。
但是AESDL也存在一些問題:首先訓(xùn)練所需要的數(shù)據(jù)往往非常多,如ASAP(Automated Student Assessment Prize)數(shù)據(jù)集[20]包括8個(gè)種類,作文總數(shù)超過了12 000份,每份作文都有兩位或多位教師給出評(píng)分;其次,訓(xùn)練往往要花費(fèi)很長時(shí)間。筆者將基于LSTM的AESDL系統(tǒng)應(yīng)用于ASAP數(shù)據(jù)集上,當(dāng)參數(shù)epoch設(shè)為200時(shí),在PC上(CPU I7 3770, 內(nèi)存8G,顯卡NVida Gtx660 2G顯存)的訓(xùn)練時(shí)間超過了20小時(shí)。
3 大學(xué)英語寫作教學(xué)模式
本文從AESS 、AESML 、AESDL 這3種自動(dòng)作文評(píng)分系統(tǒng)的優(yōu)缺點(diǎn)入手,研究大學(xué)英語寫作教學(xué)模式。
3.1 3種AES方法優(yōu)缺點(diǎn)
從考試作文評(píng)分角度看,3種方法在評(píng)分精度上越來越高。但從高校英語寫作教學(xué)角度看,它們則各有優(yōu)缺點(diǎn),如表1所示。
從作文評(píng)分相關(guān)性角度看,AESDL是最優(yōu)的,但從教學(xué)角度看,AESDL提供的反饋往往只有一個(gè)分?jǐn)?shù),不利于學(xué)生寫作能力提升。換言之,從反饋角度看,除分?jǐn)?shù)外學(xué)生更需要明確的、有針對(duì)性的解釋,比如作文哪些方面還需改進(jìn)。因此,從該角度看,AESS和AESML反而具有更大優(yōu)勢。此外,在教學(xué)過程中評(píng)分標(biāo)準(zhǔn)也需要根據(jù)具體的教學(xué)對(duì)象、教學(xué)階段進(jìn)行靈活調(diào)整。比如,學(xué)生備考四、六級(jí)等階段或者其它學(xué)期特殊階段,AESDL、AESML由于需要的訓(xùn)練樣本多,訓(xùn)練也非常耗時(shí),反而不易實(shí)施。相對(duì)而言,AESS可以手動(dòng)調(diào)整參數(shù),需要的訓(xùn)練樣本數(shù)也較容易滿足。因此,大學(xué)英語寫作教學(xué)需要綜合上述3種方法各自優(yōu)點(diǎn)進(jìn)行。
3.2 本文模式
結(jié)合上述分析,本文設(shè)計(jì)了一種新的基于AES的大學(xué)英語寫作教學(xué)模式,其工作流程如圖4所示。主要包括如下階段:
(1)教師準(zhǔn)備階段。該階段需要由教師根據(jù)當(dāng)前教學(xué)對(duì)象、教學(xué)進(jìn)度和教學(xué)目標(biāo)設(shè)定當(dāng)前英語作文“優(yōu)、良、中、差”等各級(jí)別的評(píng)分標(biāo)準(zhǔn),并根據(jù)評(píng)分標(biāo)準(zhǔn)選擇所需要使用的作文表示特征集合,同時(shí)還需要積累各類標(biāo)簽數(shù)據(jù)。
(2)標(biāo)簽樣本訓(xùn)練建模階段。對(duì)搜集到的標(biāo)簽數(shù)據(jù)提取相應(yīng)特征,完成訓(xùn)練工作。在此階段需要根據(jù)標(biāo)簽數(shù)據(jù)的數(shù)量決定使用何種AES技術(shù)??紤]到作文解析的教學(xué)要求,所有情況下都要包含AESS模型。當(dāng)標(biāo)簽數(shù)據(jù)較少時(shí),例如不超過50份,只能使用AESS方法;當(dāng)標(biāo)簽數(shù)據(jù)小于400時(shí),建議使用ASEML方法;當(dāng)標(biāo)簽數(shù)據(jù)較多時(shí),推薦使用AESDL方法。
(3)作文評(píng)分階段。使用選定的AES方法對(duì)輸入的作文進(jìn)行評(píng)分,并輸出各種統(tǒng)計(jì)數(shù)據(jù)、錯(cuò)誤標(biāo)注等信息,包括整體信息和個(gè)體信息。
(4)評(píng)價(jià)階段。評(píng)價(jià)是促進(jìn)學(xué)生水平提升的重要手段和途徑[1,6,7,20],包括教師評(píng)價(jià)和學(xué)生評(píng)價(jià)。教師首先對(duì)評(píng)閱結(jié)果進(jìn)行評(píng)價(jià),包括評(píng)分是否準(zhǔn)確、錯(cuò)誤反饋是否準(zhǔn)確、是否有未包含的錯(cuò)誤等,然后將修正后的評(píng)閱結(jié)果反饋給學(xué)生。學(xué)生對(duì)獲得的評(píng)閱結(jié)果進(jìn)行評(píng)價(jià),重點(diǎn)是該評(píng)閱結(jié)果是否有助于提高學(xué)生寫作能力。
(5)反饋修正階段。教師根據(jù)學(xué)生反饋進(jìn)行調(diào)整,優(yōu)化模型參數(shù)、表示特征等,并再次布置題目。
3.3 需注意的問題
整個(gè)教學(xué)實(shí)施過程中需注意以下問題:
(1)根據(jù)教學(xué)目標(biāo)分階段設(shè)定評(píng)分準(zhǔn)則。準(zhǔn)確的分?jǐn)?shù)有利于衡量學(xué)生寫作水平,但是不同層次的學(xué)生水平不同,不能使用同一個(gè)標(biāo)準(zhǔn)。因此需要建立與當(dāng)前教學(xué)對(duì)象相適應(yīng)的多套評(píng)分準(zhǔn)則。不同的評(píng)分準(zhǔn)則意味著需要不同階段的大量標(biāo)簽樣本。
(2)標(biāo)簽樣本收集。目前比較完備的英語作文標(biāo)簽數(shù)據(jù)集來自ASAP[20],但這些數(shù)據(jù)基本上都是以英語為母語的美國學(xué)生的作文,用于我國大學(xué)英語日常教學(xué)的AES訓(xùn)練模型,可能會(huì)有較大偏差[21]。雖然文獻(xiàn)[22]提供了有效數(shù)據(jù)達(dá)9 864篇的中國學(xué)生英語作文,但這些作文都是沒有評(píng)分的。因此,需要不斷積累標(biāo)簽數(shù)據(jù)才能使AES模型更為有效。
(3)從實(shí)施角度講,本文基于AES的英語寫作教學(xué)模式更適用于學(xué)生自主練習(xí),與教師布置的題目互為補(bǔ)充,從而更好地提升學(xué)生英語寫作能力。教師在AES評(píng)價(jià)基礎(chǔ)上形成的最終評(píng)價(jià)往往對(duì)學(xué)生具有關(guān)鍵指引作用,但如何實(shí)現(xiàn)仍有待深入研究。
4 結(jié)語
將自動(dòng)作文評(píng)分相關(guān)技術(shù)引入大學(xué)英語寫作教學(xué)中,結(jié)合AES技術(shù)和L2語言學(xué)習(xí)特點(diǎn),建立基于AES的大學(xué)英語寫作教學(xué)新模式,有助于激發(fā)學(xué)生自主學(xué)習(xí)熱情,提升學(xué)生英語寫作能力,并擺脫過去大學(xué)英語教學(xué)中的“啞巴”英語陷阱。目前,相關(guān)技術(shù)尚處于初步應(yīng)用階段,不管是理論和操作程序上,還是評(píng)價(jià)方法和標(biāo)準(zhǔn)方面,都需繼續(xù)在實(shí)踐中進(jìn)一步完善。
參考文獻(xiàn):
[1] 金曉宏. 非英語專業(yè)大學(xué)生對(duì)不同形式英語寫作評(píng)改反饋的接受程度研究[J]. 外語研究,2016(5):58-62.
[2] 左年念. 外語作文評(píng)閱與學(xué)生寫作能力提高之間的關(guān)系——研究綜述[J]. 外語教學(xué)與研究,2002,34(5):55-59.
[3] 葛詩利,陳瀟瀟. 大學(xué)英語作文自動(dòng)評(píng)分研究中的問題及對(duì)策[J]. 山東外語教學(xué),2009,30(3):21-26.
[4] ATTALI Y,BURSTEIN J. Automated essay scoring with e-rater[R] V.2.[J]. Journal of Technology Learning & Assessment,2006,4(2):1-21.
[5] 王勃然,金檀,趙雯. 自動(dòng)寫作評(píng)價(jià)研究與實(shí)踐五十年——從單一、合作到交互[J]. 外語研究,2015(5):50-56.
[6] 葛詩利. 大學(xué)英語作文自動(dòng)評(píng)分方法比較研究[J]. 廣東外語外貿(mào)大學(xué)學(xué)報(bào),2010,21(3):87-90.
[7] 武永. 作文自動(dòng)評(píng)閱和人工反饋對(duì)大學(xué)生英語議論文修改的影響[D]. 北京:清華大學(xué),2016.
[8] 唐錦蘭, 吳一安. 寫作自動(dòng)評(píng)價(jià)系統(tǒng)在大學(xué)英語教學(xué)中的應(yīng)用研究[J]. 外語與外語教學(xué), 2012(4):56-62.
[9] 唐錦蘭. 探究寫作自動(dòng)評(píng)價(jià)系統(tǒng)在英語教學(xué)中的應(yīng)用模式[J]. 外語教學(xué)理論與實(shí)踐,2014(1):49-57.
[10] BURSTEIN J,MARCU D. Benefits of modularity in an automated essay scoring system [C]. Luxembourg:Proceedings from the Workshop on Using Toolsets and Architectures to Build NLP Systems, 18th International Conference on Computational Linguistics, 2000.
[11] FORMAN G,COHEN I. Learning from little: comparison of classifiers given little training, knowledge discovery in databases:PKDD [M]. Berlin: Springer, 2004.
[12] KRISTINA T,DAN K,CHRISTOPHER M,et al. Feature-rich part-of-speech tagging with a cyclic dependency network[C]. Proceedings of HLT-NAACL,2003:252-259.
[13] RONAN C,JASON W,LéON B,et al. natural language processing (almost) from scratch[J]. Journal of Machine Learning Research (JMLR),2011(12):2493-2537.
[14] LARKEY,L S. Automatic essay grading using text categorization techniques[C]. Melbourne:Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,1998:90-95.
[15] HAYKIN, SIMON.Neural networks and learning machines[M]. 申富饒,徐燁等,譯. 北京:機(jī)械工業(yè)出版社,2009.
[16] MITCHELL TOM M. Machine Learning[M]. 曾華軍,張銀奎,等,譯. 北京:機(jī)械工業(yè)出版社,2013.
[17] TAGHIPOUR K,NG H T. A neural approach to automated essay scoring[C]. Austin:Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016: 1882-1891.
[18] ALIKANIOTIS D,YANNAKOUDAKIS H,REI M. Automatic text scoring using neural networks[C]. Berlin: In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,2016.
[19] PICARD M. Second language learning theories(review)[J]. Language,2001,77(1):178-179.
[20] ASAP data [EB/OL].? https://www.kaggle.com/c/asap-aes/.
[21] 朱彥. 透過“反饋”之鏡,傾聽課堂之音——大學(xué)英語學(xué)習(xí)者對(duì)口頭糾錯(cuò)反饋的信念探究[J]. 外語與外語教學(xué),2016(1):33-40.
[22] 許家金. “中國學(xué)生萬篇英語作文語料庫”介紹[J]. 語料庫語言學(xué), 2016(2):108-112.
(責(zé)任編輯:孫 娟)