句酷網(wǎng)、愛寫作系統(tǒng)評(píng)分效果的比較研究

2017-07-12 22:08:15任瑞娟高莉

讀與寫·教育教學(xué)版 2017年6期

關(guān)鍵詞：比較

任瑞娟+高莉

摘要：本文從分布差異，差值、均值差異，多元線性回歸差異三方面，比較句酷網(wǎng)、愛寫作系統(tǒng)對(duì)210份機(jī)輔英語寫作比賽文本的內(nèi)容、結(jié)構(gòu)、總分評(píng)分。發(fā)現(xiàn)句酷網(wǎng)評(píng)分分散，更能區(qū)分作文水平；兩系統(tǒng)的總分都具備一定的參考性；兩系統(tǒng)在總分、內(nèi)容、結(jié)構(gòu)三部分的評(píng)分都差異顯著；句酷網(wǎng)的評(píng)分注重結(jié)構(gòu)，無法識(shí)別內(nèi)容；愛寫作系統(tǒng)的評(píng)分內(nèi)容、結(jié)構(gòu)并重?？傮w而言，愛寫作系統(tǒng)的評(píng)分效果優(yōu)于句酷網(wǎng)。建議學(xué)生在寫作訓(xùn)練中，使用愛寫作系統(tǒng)的評(píng)分，有效提高寫作能力。

關(guān)鍵詞：英語作文評(píng)分比較句酷網(wǎng) 愛寫作系統(tǒng) 作文自動(dòng)評(píng)分系統(tǒng)

中圖分類號(hào)：H319 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-1578（2017）06-0003-02

1 引言

“走出去”戰(zhàn)略的深化，對(duì)英語學(xué)習(xí)者的寫作能力提出了更高的要求。因能檢驗(yàn)學(xué)習(xí)者的書面表達(dá)能力，作文是各類英語測試的必考題。一般要求學(xué)生圍繞特定話題，運(yùn)用所學(xué)語言知識(shí)、組織安排語言材料。作文評(píng)分由教師進(jìn)行，該過程的主觀性無法避免，所以保證評(píng)分的信、效度尤為關(guān)鍵。作文自動(dòng)評(píng)分系統(tǒng)（Automated Essay Scoring，以下簡稱“系統(tǒng)”）為提高評(píng)分的信、效度而研發(fā)，其前提是計(jì)算機(jī)軟、硬件性能的提升。系統(tǒng)是使用計(jì)算機(jī)程序模擬人工評(píng)分，對(duì)作文進(jìn)行快速、自動(dòng)評(píng)分的計(jì)算機(jī)技術(shù)。1966年，Ellis Batten Page成功研制了世界上第一個(gè)系統(tǒng)PEG（Project Essay Grader）。中國的系統(tǒng)研究始于本世紀(jì)初，以梁茂成、葛詩利、楊永林等為代表的學(xué)者研制了愛寫作系統(tǒng)、易格軟件、冰果系統(tǒng)、新視野系統(tǒng)、句酷網(wǎng)等系統(tǒng)。

2 文獻(xiàn)綜述

學(xué)界對(duì)系統(tǒng)的比較研究分為兩類。第一類是對(duì)系統(tǒng)的研制原理、評(píng)分效果的理論研究。韓寧介紹了美國幾個(gè)系統(tǒng)的基本原理，指出了這些系統(tǒng)的局限性，并說明了系統(tǒng)的恰當(dāng)使用方式。毛世花、陳曉麗闡述了E-rater和句酷網(wǎng)的評(píng)分原理，并討論了E-rater和句酷網(wǎng)的優(yōu)缺點(diǎn)。陳長進(jìn)分析了句酷網(wǎng)和冰果系統(tǒng)的評(píng)分機(jī)制，并簡單比較了句酷網(wǎng)和冰果系統(tǒng)的評(píng)分效果。第二類是有關(guān)系統(tǒng)評(píng)分效度的實(shí)證研究，以探求系統(tǒng)在評(píng)分實(shí)踐中的差異。楊婷婷以37份大學(xué)生的英語四級(jí)考試作文為樣本，通過皮爾遜相關(guān)分析和配對(duì)樣本T檢驗(yàn)，比較了冰果系統(tǒng)和新視野系統(tǒng)的評(píng)分，證明冰果系統(tǒng)和新視野系統(tǒng)的評(píng)分不一致。殷小娟等以145份大學(xué)生的寫作訓(xùn)練文本為例，用斯皮爾曼相關(guān)和單因素方差分析，分別對(duì)比了句酷網(wǎng)和冰果系統(tǒng)與人工評(píng)分間的相關(guān)性、差異性，證明句酷網(wǎng)和冰果系統(tǒng)的評(píng)分存在顯著差異。上述實(shí)證研究都運(yùn)用總體評(píng)分法，只涉及系統(tǒng)評(píng)分的總分比較，實(shí)用性有待進(jìn)一步完善。通過比較句酷網(wǎng)、愛寫作系統(tǒng)的評(píng)分效果，本文旨在幫助學(xué)生在寫作訓(xùn)練中選擇合適的系統(tǒng)，有效提高寫作能力。

3 研究過程

本文用定量研究法。樣本是某大學(xué)機(jī)輔英語寫作比賽的真實(shí)文本210份，數(shù)據(jù)是句酷網(wǎng)（http：//www.pigai.org/）、愛寫作系統(tǒng)（http：//iwrite.unipus.cn）的評(píng)分結(jié)果，數(shù)據(jù)收集有三步。第一步：分別登錄兩系統(tǒng)，按比賽要求布置作文。第二步：分別將兩系統(tǒng)的設(shè)置改為——總分100分，內(nèi)容、結(jié)構(gòu)各占比40%、25%。第三步：分別輸入文本到兩系統(tǒng)，由其自動(dòng)評(píng)分，并記錄結(jié)果。句酷網(wǎng)、愛寫作系統(tǒng)的評(píng)分都標(biāo)明了總分，并顯示內(nèi)容、結(jié)構(gòu)兩維度的評(píng)分比例。將兩個(gè)比例分別與40、25相乘，即為兩維度的評(píng)分。最后用SPSS 20.0對(duì)句酷網(wǎng)、愛寫作系統(tǒng)的評(píng)分結(jié)果進(jìn)行統(tǒng)計(jì)分析。本文從分布差異，差值、均值差異，多元線性回歸差異三方面比較兩系統(tǒng)的英語作文評(píng)分。

3.1 分布差異

句酷網(wǎng)的評(píng)分中，總分含60個(gè)值，介于15.5——87.0之間；內(nèi)容評(píng)分含36個(gè)值，介于12.8——39.2之間；結(jié)構(gòu)評(píng)分含24個(gè)值，介于13.25——23.75之間。愛寫作系統(tǒng)的評(píng)分中，總分含37個(gè)值，介于31——82之間；內(nèi)容評(píng)分含18個(gè)值，介于13.2——34.0之間；結(jié)構(gòu)評(píng)分含8個(gè)值，介于18——25之間。表1是比率排在前六的兩系統(tǒng)在總分、內(nèi)容、結(jié)構(gòu)三部分的評(píng)分。句酷網(wǎng)的評(píng)分分布為：總分中，74.0的最多，隨之是65.0、70.5、77.5、78.5、79.0，有25.72%的是這六個(gè)分值；內(nèi)容評(píng)分中，31.2的最多，隨之是28.8、29.2、29.6、33.2、30.8，有34.27%的是這六個(gè)分值；結(jié)構(gòu)評(píng)分中，21.75的最多，隨之是20.75、20.50、21.00、21.25、22.00，有50.48%的是這六個(gè)分值。愛寫作系統(tǒng)的評(píng)分分布為：總分中，56的最多，隨之是55、70、54、60、63，有33.32%的是這六個(gè)分值；內(nèi)容評(píng)分中，23.2的最多，隨之是20.0、18.0、21.2、22.0、25.2，有64.75%的是這六個(gè)分值；結(jié)構(gòu)評(píng)分中，25的最多，隨之是23、21、22、20、19，有97.14%的是這六個(gè)分值。

3.2 差值、均值差異

表2是兩系統(tǒng)評(píng)分差值的比率分布。完全一致率指兩系統(tǒng)評(píng)分相同；相鄰吻合率指兩系統(tǒng)評(píng)分差值在0.0—10.0間（總分）、0.0—4.0間（內(nèi)容評(píng)分）、0.0—2.5間（結(jié)構(gòu)評(píng)分）（梁茂成，2012）。由表可知，兩系統(tǒng)評(píng)分的相鄰吻合一致率（包含完全一致率、相鄰吻合率）方面，結(jié)構(gòu)最高、總分居中、內(nèi)容最低。兩系統(tǒng)評(píng)分差值的最大值方面，內(nèi)容最大、結(jié)構(gòu)居中、總分最小。兩系統(tǒng)評(píng)分差值的最小值方面，總分、內(nèi)容、結(jié)構(gòu)都有相同評(píng)分。兩系統(tǒng)評(píng)分差值的均值方面，內(nèi)容最大、總分居中、結(jié)構(gòu)最小。兩系統(tǒng)評(píng)分差值的最頻值方面，內(nèi)容最大、總分居中、結(jié)構(gòu)最小。

本文對(duì)兩系統(tǒng)在總分、內(nèi)容、結(jié)構(gòu)三部分的評(píng)分做了配對(duì)樣本T檢驗(yàn)。檢驗(yàn)結(jié)果如表3，該表顯示：總分中，兩系統(tǒng)評(píng)分差異顯著（t=16.714，df=209，p<0.05），句酷網(wǎng)評(píng)分顯著比愛寫作系統(tǒng)評(píng)分高（MD = 11.74）；內(nèi)容評(píng)分中，兩系統(tǒng)評(píng)分差異顯著（t=16.890，df=209，p<0.05），句酷網(wǎng)評(píng)分顯著比愛寫作系統(tǒng)評(píng)分高（MD=8.16）；結(jié)構(gòu)評(píng)分中，兩系統(tǒng)評(píng)分差異顯著（t=-9.580，df=209，p<0.05），句酷網(wǎng)評(píng)分顯著比愛寫作系統(tǒng)評(píng)分低（MD=-2.12）。

3.3 多元線性回歸差異

本文還分別對(duì)兩系統(tǒng)在總分、內(nèi)容、結(jié)構(gòu)三部分的評(píng)分做了多元線性回歸分析，結(jié)果如下。對(duì)句酷網(wǎng)評(píng)分的多元線性回歸分析滿足誤差成正態(tài)分布及誤差和預(yù)測變量不相關(guān)的前提假定；兩個(gè)預(yù)測變量中，“結(jié)構(gòu)評(píng)分”這一變量與因變量顯著相關(guān)（表4）；強(qiáng)制回歸結(jié)果顯示，兩個(gè)變量對(duì)總分有良好的預(yù)測作用（表5），R2為0.364，即“內(nèi)容評(píng)分”、“結(jié)構(gòu)評(píng)分”構(gòu)成的組合可解釋總分36.4%的變異；兩個(gè)預(yù)測變量中，“結(jié)構(gòu)評(píng)分”（Beta=0.632）的標(biāo)準(zhǔn)化回歸系數(shù)較高，說明結(jié)構(gòu)評(píng)分越高，總分越高；標(biāo)準(zhǔn)化回歸方程為：總分=0.632×結(jié)構(gòu)評(píng)分+0.241×內(nèi)容評(píng)分。對(duì)愛寫作系統(tǒng)評(píng)分的多元線性回歸分析滿足誤差成正態(tài)分布及誤差和預(yù)測變量不相關(guān)的前提假定；兩個(gè)預(yù)測變量都與因變量顯著相關(guān)（表4）；強(qiáng)制回歸結(jié)果顯示，兩個(gè)變量對(duì)總分有良好的預(yù)測作用（表5），R2為0.406，即“內(nèi)容評(píng)分”、“結(jié)構(gòu)評(píng)分”構(gòu)成的組合可解釋總分40.6%的變異；兩個(gè)預(yù)測變量中，“內(nèi)容評(píng)分”（Beta=0.503）的標(biāo)準(zhǔn)化回歸系數(shù)較高，說明內(nèi)容評(píng)分越高，總分越高；標(biāo)準(zhǔn)化回歸方程為：總分=0.503×內(nèi)容評(píng)分+0.361×結(jié)構(gòu)評(píng)分。

4 結(jié)論

基于上文的數(shù)據(jù)分析，本文有以下結(jié)論。兩系統(tǒng)對(duì)各部分獨(dú)立評(píng)分、互不影響，但評(píng)分差異明顯。句酷網(wǎng)評(píng)分較分散，說明句酷網(wǎng)能明確區(qū)分水平相近的作文。兩系統(tǒng)對(duì)各部分的評(píng)分高低不一，說明兩系統(tǒng)的內(nèi)部一致性不穩(wěn)定。句酷網(wǎng)評(píng)分的最高分高、最低分低，說明句酷網(wǎng)對(duì)好作文寬松、差作文嚴(yán)厲，總體嚴(yán)厲度變化較大。相對(duì)內(nèi)容評(píng)分、結(jié)構(gòu)評(píng)分而言，兩系統(tǒng)總分差值的誤差最小，說明兩系統(tǒng)的總分都有一定的參考性。句酷網(wǎng)的不同評(píng)分與結(jié)構(gòu)最相關(guān)，愛寫作系統(tǒng)的不同評(píng)分與內(nèi)容最相關(guān)；說明兩系統(tǒng)評(píng)分的側(cè)重點(diǎn)不同。此外，句酷網(wǎng)的不同評(píng)分與內(nèi)容評(píng)分的變化無關(guān)，說明句酷網(wǎng)無法識(shí)別作文的內(nèi)容。兩系統(tǒng)評(píng)分差異顯著，句酷網(wǎng)評(píng)分注重結(jié)構(gòu)，無法識(shí)別內(nèi)容；愛寫作系統(tǒng)評(píng)分內(nèi)容、結(jié)構(gòu)并重?？傮w而言，愛寫作系統(tǒng)評(píng)分效度優(yōu)于愛寫作系統(tǒng)。建議學(xué)生在寫作訓(xùn)練中，使用愛寫作系統(tǒng)的評(píng)分，明確了解作文的內(nèi)容、結(jié)構(gòu)，有效提高寫作能力。

參考文獻(xiàn)：

[1] 陳長進(jìn).作文自動(dòng)批改系統(tǒng)比較研究[J].科技視界，2013（30）：144-145.

[2] 葛詩利，陳瀟瀟.中國EFL學(xué)習(xí)者自動(dòng)作文評(píng)分探索[J].外語界，2007（5）：43-50.

[3] 韓寧.幾個(gè)英語作文自動(dòng)評(píng)分系統(tǒng)的原理與評(píng)述[J].中國考試，2009（3）：38-44.

[4] 梁茂成.中國學(xué)生英語作文自動(dòng)評(píng)分模型的構(gòu)建[M].北京：外語教學(xué)與研究出版社，2011.

[5] 梁茂成.大規(guī)?？荚囉⒄Z作文自動(dòng)評(píng)分系統(tǒng)的研制[M].北京：高等教育出版社，2012.

[6] 梁茂成，文秋芳.國外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語電化教學(xué)，2007（10）：18-24.

[7] 毛世花，陳曉麗.E-rater和句酷的對(duì)比研究及對(duì)提高大學(xué)生英語作文水平的啟示[J].高等函授學(xué)報(bào)，2012（5）：20-21.

[8] 武尊民.英語測試的理論與實(shí)踐[M].北京：外語教學(xué)與研究出版社，2003.

[9] 許宏晨.第二語言研究中的統(tǒng)計(jì)案例分析[M].北京：外語教學(xué)與研究出版社，2013.

[10] 楊婷婷.英語寫作自動(dòng)評(píng)分系統(tǒng)的不一致性研究[J].社科縱橫，2012（3）：297-298.

[11] 楊永林，全冬.認(rèn)知的理念，實(shí)用的視角——信息技術(shù)在外語教學(xué)中的應(yīng)用[J].外語電化教學(xué)，2011（11）：47-51.

[12] 殷小娟，賈永華，林慶英.“句酷網(wǎng)”和“冰果”自動(dòng)評(píng)分效度的對(duì)比實(shí)證研究[J]. 河北北方學(xué)院學(xué)報(bào)，2017（1）：1-11.

[13] Dikli， S. An Overview of Automated Scoring of Essays[J]. Journal of Technology， Learning， and Assessment， 2006（8）：4-30.

作者簡介：任瑞娟（1992-），山西呂梁人，西北農(nóng)林科技大學(xué)外語系碩士在讀，研究方向：二語習(xí)得。

高莉（1976-），陜西寶雞人，西北農(nóng)林科技大學(xué)外語系副教授，研究方向：認(rèn)知語言學(xué)、二語習(xí)得。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

句酷網(wǎng)、愛寫作系統(tǒng)評(píng)分效果的比較研究

句酷網(wǎng)、愛寫作系統(tǒng)評(píng)分效果的比較研究