黃萬武 項頒
【摘要】本文依據(jù)語言測試領(lǐng)域的作文評分要素,對國外具有代表性的三種寫作機評系統(tǒng)原理和國內(nèi)主要的寫作機評應(yīng)用進行評介和比較,指出這些評分系統(tǒng)和軟件在評分信度和效度等方面優(yōu)勢和劣勢,并分析這些作文自動評分系統(tǒng)為我國自主開發(fā)作文自動評分系統(tǒng)所提供的借鑒作用。
【關(guān)鍵詞】寫作機評系統(tǒng)原理 寫作機評應(yīng)用 評分要素
寫作自動評分系統(tǒng)對能夠提高語言測試的效率和降低成本,本文著重介紹國外內(nèi)經(jīng)典的寫作機評原理,并簡要分析他們的優(yōu)缺點。
一、經(jīng)典的寫作機評原理
1.基于語言形式的機評系統(tǒng)——PEG。PEG于1966年由美國杜克大學(xué)的Ellis Page等人開發(fā)。PEG的設(shè)計者認為作文質(zhì)量有賴于作文的深層結(jié)構(gòu),而機器無法直接衡量,因此,他們以文本表層特征項為切入點,間接評價作文質(zhì)量。
PEG寫作機評分三階段:變量提取、多元回歸分析和把多元回歸得到的beta值代入計算機程序換算出作文得分。PEG首先收集了一部分人工評分后的作文,再利用自然語言處理技術(shù),從作文中提取若干個文本特征項,并在這些文本特征項與人工評分之間進行相關(guān)性分析。然后,Page選擇與人工評分相關(guān)的文本特征項作為自變量,把人工評分作為因變量,進行多元回歸分析,得到回歸方程?;貧w方程為每一個變量確定了beta值,這樣,在對新的作文進行評分時,PEG只需要提取這些變量,并把beta值代入回歸方程之中,就可以預(yù)測出這些作文的得分。PEG目前的程序中包含很多復(fù)雜的變量,但PEG的開發(fā)者們并沒有對這些 “復(fù)雜的變量”作出明確的界定。
2.基于內(nèi)容的機評系統(tǒng)——IEA。IEA(Intelligent Essay Assessor)是一種基于潛伏語義分析的作文自動評分系統(tǒng),由美國科羅拉多大學(xué)的Thomas Landauer等學(xué)者開發(fā)。不同于PEG,潛伏語義分析著重分析文本的內(nèi)容,而不是語言。
潛伏語義分析集理論與技術(shù)于一體。在理論層面上,它認為任何文本都有一個潛在的語義結(jié)構(gòu),這一潛在的語義結(jié)構(gòu)即全部詞匯的語義之和。然而,自然語言中存在大量的多詞同義和一詞多義現(xiàn)象,這對我們正確理解文本造成嚴(yán)重干擾。就技術(shù)而言,潛伏語義分析屬于一種矢量空間模型技術(shù),它可通過降維的方法,有效排除干擾,析取數(shù)據(jù)中的潛在語義結(jié)構(gòu)。潛在語義結(jié)構(gòu)可由一個詞匯項文檔矩陣來代表,矩陣中的每行表示一個詞匯項,每列表示一個文檔,而矩陣的每個單元格中的元素為相應(yīng)詞匯項在相應(yīng)文檔中出現(xiàn)的頻數(shù)。
運用矩陣代表潛在語義結(jié)構(gòu),可進行奇異值分解的矩陣運算,通過該運算,原來的矩陣可以被分解成為三個不同的矩陣。降維后,對這三個矩陣展開進一步的運算。該矩陣保持了原來矩陣中最重要的語義聯(lián)想關(guān)系,同時又屏蔽了大量的干擾信息。
將潛伏語義分析用于學(xué)生作文自動評分時,待評分的作文與范文均被視作矢量,完成矢量間的比較后,可得到每篇待評分作文與范文在內(nèi)容上的相似度評分。根據(jù)Landauer等人的報告,該系統(tǒng)所評出的作文得分與人工評分之間的相關(guān)性達到r=0.85。
3.基于層次結(jié)構(gòu)的機評系統(tǒng)——E-rater。E-rater是由美國教育考試處于20世紀(jì)90年代開發(fā),其目的是評估GMAT考試中的寫作水平。該系統(tǒng)利用了多項技術(shù),其中包括統(tǒng)計技術(shù)、矢量空間模型技術(shù)和自然語言處理技術(shù)。因此,它不僅能像PEG那樣評判作文的語言質(zhì)量,還能像IEA那樣評判作文的內(nèi)容質(zhì)量。另外,E-rater還可分析語篇結(jié)構(gòu)。類似于PEG,E-rater的評分方法基于線性回歸模型。E-rater圍繞三個層面評析作文的質(zhì)量:第一層為話語結(jié)構(gòu)(亦即篇章結(jié)
構(gòu)),主要靠在文本中搜索“To begin with”、“In conclusion”等篇章銜接詞的方法得以實現(xiàn);第二層為句法多樣化,根據(jù)作文中句子結(jié)構(gòu)的多樣化來評判作文的語言質(zhì)量;第三層為內(nèi)容。這里,E-rater通過矢量空間模型,檢測作文中是否包含了充足的與作文題目高度相關(guān)的主題詞。
研究表明,E-rater與人工評分之間的一致性一直高于97%。但E-rater的三個層次結(jié)構(gòu)中具體包括哪些變量,則是眾說紛紜。Kukich報告聲稱E-rater可析取100多個變量,Power et al.表示E-rater可析取50多個變量,而Attali和Burstein的報告則堅持認為最新版本的E-rater “依據(jù)有關(guān)理論對寫作能力的若干方面給予考慮”,只提取12個變量。
二、有代表性的寫作機評應(yīng)用
1.國外主要英語作文自動評價工具軟件。國外最有代表性的寫作機評應(yīng)用當(dāng)Writing Roadmap 2.0(WRM 2.0)。著名學(xué)者吳一安和唐錦蘭考察了機評系統(tǒng)WRM 2.0對高校英語寫作教學(xué)的影響。學(xué)研究表明,學(xué)生寫作能力、自主學(xué)習(xí)能力及寫作教學(xué)過程在一定程度上與WRM 2.0的應(yīng)用正相關(guān)。另外,他們得出結(jié)論,寫作教學(xué)應(yīng)從關(guān)注語言形式和寫作結(jié)果向關(guān)注內(nèi)容深度和寫作過程靠攏。蔣學(xué)清等對寫作機評系統(tǒng)在大學(xué)英語寫作中的教學(xué)應(yīng)用研究發(fā)現(xiàn),通過一學(xué)期的教學(xué),實驗組和對照組的英語寫作水平都有了明顯進步,且實驗組的進步幅度更大。這表明形成性評價方式和具有自動反饋功能的在線寫作工具可輔助學(xué)習(xí)者寫作。此外,王淑雯、楊玲結(jié)合教學(xué)實踐,介紹了在寫作教學(xué)中如何使用WRM 2.0為師生提供多元化反饋,最后闡述了該系統(tǒng)的長處和不足。周穎剖析了WRM 2.0寫作機評系統(tǒng)的問題,原因和對策。
2.國內(nèi)主要英語作文自動評價工具軟件。
(1)句酷批改網(wǎng)。批改網(wǎng)的核心算法是計算待評文本和標(biāo)準(zhǔn)語料庫之間的距離,再將對應(yīng)的距離映射為作文分?jǐn)?shù)和評語。技術(shù)要點是將每一篇輸入的作文分解成可測量的192個維度,分析過程充分利用了自然語言技術(shù)和機器學(xué)習(xí)的方法,每篇作文先被自動切分成句子,然后對每個句子進行深層語義分析,從中抽取詞、搭配、詞組等結(jié)構(gòu)化單元。主要功能包括分?jǐn)?shù)即刻顯現(xiàn)、圖文報表式作文分析結(jié)果抄襲檢測等。
(2)冰果英語智能作文評閱系統(tǒng)。它可以即時給出作文評分,并從詞匯、語法、文風(fēng)、內(nèi)容等方面給出反饋,但該系統(tǒng)目前無法做到對同一篇作文反復(fù)修改與評閱。
(3)TRP( Teaching Resource Program)教學(xué)資源平臺。它根據(jù)寫作教學(xué)需求,將數(shù)字化、網(wǎng)絡(luò)化與區(qū)域化教學(xué)平臺進行了有機的整合,并涵蓋了資源建設(shè)、平臺構(gòu)建、寫作學(xué)習(xí)、句型練習(xí)、語法測驗、作文評分、寫作研究與評語生成作為考試等功能。
(4)易改機評軟件。其主要功能包括:1)一鍵檢查:檢查英語文本拼寫、語法糾錯和文章風(fēng)格等;2)錯誤解釋:對錯誤類型和錯誤原因給予詳盡的解釋;3)寫作潤色:在維持原意的情況下為文本潤色。它采用了基于自然語言處理與機器學(xué)習(xí)相結(jié)合的糾錯方法,讓機器學(xué)習(xí)模型大量閱讀(一萬億詞級別)正確的英語,構(gòu)建一個極為精確的模型。每遇到一個輸入的句子,易改的后端模型會首先分析每個句子結(jié)構(gòu),然后通過實例語料模型中的上下文來判斷寫作是否有誤。
(5)大規(guī)??荚囉⒄Z作文自動評分系統(tǒng) EFL Assay Evaluator 1.0。它結(jié)合第二語言習(xí)得理論、語料庫語言學(xué)理論、測試學(xué)、統(tǒng)計學(xué),利用自然語言處理技術(shù),挖掘出穩(wěn)定的文本特征變量,構(gòu)建評分模型。但該軟件在研制過程中僅使用了1000多篇學(xué)生作文作為實驗樣本,與大規(guī)模考試中的作文總體樣本量差距較大,評分信度較低。另外,它難以判斷極具創(chuàng)新性的寫作文本的質(zhì)量,僅適用于對議論文和說明文體的作文進行評價。
三、結(jié)論
作文自動評分是利用多學(xué)科技術(shù)來模擬人工評分,從而高效評定作文質(zhì)量。一個合理的作文自動評分系統(tǒng)應(yīng)該充分利用統(tǒng)計技術(shù)、自然語言處理技術(shù)、信息檢索技術(shù)及其它可能利用的技術(shù),從作文文本中挖掘能夠直接反映作文質(zhì)量的文本特征項作為變量,有效地提高評分模型對作文質(zhì)量的預(yù)測能力。
參考文獻:
[1]Chung G.,& ONeil H.Jr.Methodological Approaches to Online Scoring of Essays[R](Report No.CSE-TR-461).Los Angeles.CA:University of California.Los Angeles Center for the Study of Evaluation 1997.
[2]Foltz,P.W.,Kintsch,W.& Landauer,T.K.The Measurement of Textual Coherence with Latent Semantic Analysis[J].Discourse Process.1998.25,285-308.
[3]Valenti,S.,Neri,F(xiàn).and Cucchiarelli,A.An Overview of Current Research on Automated Essay Grading[J].Journal of Information Technology Education.2003.2,112-130.
[4]桂詩春.潛伏語義分析的理論及其應(yīng)用[J].現(xiàn)代外語,2003, (1).
[5]蔣學(xué)清.探析自動作文評價系統(tǒng)對大學(xué)生英語寫作能力發(fā)展的影響[J].山東外語教學(xué),2011(6).
[6]雷曉東.英語作文自動評價系統(tǒng)技術(shù)的國內(nèi)研究與應(yīng)用[J].科技視界,2015(35).
[7]梁茂成,文秋芳.國外作文自動評分系統(tǒng)評述及啟示[J].外語電化教學(xué),2007(5).
[8]梁茂成.大規(guī)??荚囉⒄Z作文自動評分系統(tǒng)的研制[M].北京:外語教學(xué)與研究出版社,2012.
[9]王淑雯.如何利用Writing Roadmap 2.0進行在線英語寫作反饋[J].現(xiàn)代教育科技,2011(3).
[10]吳一安,唐錦蘭.融入自動評價系統(tǒng)的英語寫作實驗教學(xué)對高校英語教師的影響研究[J].外語電化教學(xué),2012(4).
[11]楊玲.作文自動評價系統(tǒng)在高水平學(xué)生英語寫作學(xué)習(xí)中的應(yīng)用[J].現(xiàn)代教育技術(shù),2013(5).
[12]周穎.在線形成性評價工具在英語寫作中的應(yīng)用——困難及對策探究[J].現(xiàn)代教育技術(shù),2011(9).
作者簡介:
黃萬武(1972.9-),男,副教授,碩士生導(dǎo)師,研究方向:外國語言學(xué)及應(yīng)用語言學(xué)。
項頒(1989.7-),女,湖北工業(yè)大學(xué)外國語學(xué)院研究生在讀,研究方向:外國語言學(xué)及應(yīng)用語言學(xué)。