王德亮++周莉++林敦來++高淼
【摘 要】在線考試與測評是未來發(fā)展的趨勢,本文主要介紹了一種英語在線考試的最新模式。該模式被命名為HiE測評系統(tǒng),力圖對學習者的英語綜合能力提供在線測評與反饋。該系統(tǒng)充分利用了現(xiàn)代教育技術、自然語言處理技術以及人機互動技術,在最大程度上實現(xiàn)了自動的英語能力在線測評與反饋。試測結果顯示,該系統(tǒng)安全可靠,具有較高的信度和效度,值得推廣。
【關鍵詞】在線測評;英語考試;HiE測評系統(tǒng)
【中圖分類號】G434 【文獻標識碼】B
【論文編號】1671-7384(2015)09-0065-04
英語在線考試是指通過計算機網(wǎng)絡系統(tǒng)實現(xiàn)試題庫的建立、選題組卷、上機考試、閱卷評分的英語考試。與傳統(tǒng)的紙筆考試相比,在線考試有著無可比擬的優(yōu)越性:在線考試效率較高,只要有電腦終端,考生可以大規(guī)模參加;試題質(zhì)量有保障,通過構建試題庫,可以有效控制考題的信度和效度穩(wěn)定在同一水平上;對于施測,在線考試可以節(jié)省大量的人力物力成本,不需要試卷印刷、運輸保密等環(huán)節(jié);閱卷效率較高,有些在線考試已經(jīng)實現(xiàn)了自動評分,可以節(jié)約大量的評卷費用和時間。隨著計算機技術、網(wǎng)絡技術的進一步發(fā)展,在線考試是未來考試模式的發(fā)展方向,在不久的將來,一定會取代傳統(tǒng)的紙筆測試。
到目前為止,在英語在線測試方面做得比較成功的是美國教育考試服務中心(ETS)主辦的托福和GRE考試,國內(nèi)還沒有很成功的大規(guī)模考試系統(tǒng)案例。我國是英語學習大國,中國學習英語的人口數(shù)量全球最多。2013年,教育部《全國教育事業(yè)發(fā)展統(tǒng)計公報》的數(shù)據(jù)顯示,目前中國有近3億人的龐大英語培訓消費群體,英語培訓機構總數(shù)量超過5萬家,市值已經(jīng)超過300億元 。對于這么龐大的英語學習群體,我們有必要探索開發(fā)我們自己的英語在線測試體系。本課題組以此為研究目標,做了積極的探索,本文內(nèi)容即是我們的探索成果。
英語在線考試的現(xiàn)狀
隨著計算機技術和網(wǎng)絡科技的不斷進步,英語在線測試自然而然地就被提上了日程。到現(xiàn)在為止,這方面的研究和探索已經(jīng)取得了很多成果。綜觀這方面的文獻和成果,我們發(fā)現(xiàn)存在兩個問題,一方面,英語在線測試還停留在科研探索階段,主要表現(xiàn)為關于系統(tǒng)開發(fā)的研究成果主要是計算機編程方向的碩士論文,核心刊物上發(fā)表的文獻很少;另一方面,國內(nèi)期刊上發(fā)表的成果顯示,開發(fā)的在線評測系統(tǒng)大多是小規(guī)模,很多都是在自己學校和院系試用的,沒有做到大面積推廣,而且大多數(shù)系統(tǒng)只針對聽力、閱讀和寫作的測試,口語沒有被包括在其中。
究其原因,主要有以下幾點。
首先,英語在線評測是一個系統(tǒng)工程,其中涉及方面很多,包括試題庫的建設、網(wǎng)站架構、程序設計、市場推廣等,需要多方面人力物力的投入。任何一個環(huán)節(jié)跟不上,這個事情都不會成功。比如,在線評測需要電腦終端,如果一所學校連電腦都沒有,他們是無法參加這個評測的。國家已經(jīng)注意到這方面的問題,并在大力推進教育信息化。《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》指出“信息技術對教育發(fā)展具有革命性影響,必須予以高度重視。把教育信息化納入國家信息化發(fā)展整體戰(zhàn)略,超前部署教育信息網(wǎng)絡。到2020年,基本建成覆蓋城鄉(xiāng)各級各類學校的教育信息化體系,促進教育內(nèi)容、教學手段和方法現(xiàn)代化?!彼?,英語在線評測也應及時跟上國家發(fā)展的脈搏,在科研和實踐方面做出表率。
其次,英語在線評測不能大規(guī)模使用的一個比較大的原因是沒有政府管理部門的支持和協(xié)調(diào)。如果政府管理部門認識到在線評測的優(yōu)勢,未來取代傳統(tǒng)的大規(guī)??荚囍械募埞P測試是非常有可能的。另外,我國英語考試眾多,且相互之間不認可、不抵用,導致我們不管是升學、畢業(yè)、入職、升職還是出國,都需要參加相應的英語考試,這一點一直被人所詬病。正因為此,教育部已經(jīng)認識到了這個問題,并有所行動,試圖解決這個矛盾。2014年10月30日,教育部組織召開了專門的會議,力圖建立統(tǒng)一的外語能力測評體系,實現(xiàn)我國外語教育與測評的 “車同軌、量同衡” 。如果我們實行統(tǒng)一測評體系下的在線測試系統(tǒng),上面的問題也能迎刃而解。
再次,中國的英語在線測評系統(tǒng)沒有成功的原因在于缺乏先進的計算機技術,存在設計缺陷,不夠人性化,不注重用戶體驗,導致了它的優(yōu)勢沒有發(fā)揮出來。比如,目前報道的現(xiàn)行系統(tǒng)中都沒有專門的反饋系統(tǒng)。參試者參加完考試之后,最多只能得到一個分數(shù),與學習者和教師沒有形成互動。另外,在線系統(tǒng)中客觀題比較容易實現(xiàn),主觀題有一定難度,尤其是主觀題的判分,還需要人工干預。另外,口語部分不容易施測,尤其是口試的評判也需要人工完成。
在前期調(diào)研的基礎上,本課題組嘗試開發(fā)了自己的系統(tǒng),命名為“HiE測評系統(tǒng)”,力圖避免以上的缺陷,即使不能完全避免,也在最大程度上進行優(yōu)化。
HiE測評系統(tǒng)
1. 研發(fā)背景
2013年初,北京市海淀區(qū)教育科學研究所啟動了一項重大語言教學類項目——“海淀英語學習社區(qū)建設” (簡稱“海e社區(qū)”)。本項目的目的是針對海淀區(qū)中小學英語聽說互動教學及測評系統(tǒng)開展工具研發(fā)及實驗研究,研究海淀區(qū)中小學英語聽說教學的目標體系和內(nèi)容體系,并基于智能語音交互技術和互聯(lián)網(wǎng)技術的靈活性、交互性,實現(xiàn)英語聽說的個性化和互動式教學。
北師大團隊從2014年1月開始承建海e社區(qū)的測評系統(tǒng),即HiE測評系統(tǒng)。本子項目的最終目標是研制開發(fā)一套完整的英語綜合能力在線評測系統(tǒng)。此系統(tǒng)將充分利用現(xiàn)代教育技術、自然語言處理技術以及人機互動技術,在最大程度上實現(xiàn)全自動的英語能力在線測評和反饋。除了個別的口試題型(如自由問答)和作文題需要人工干預外,其他部分都可以實現(xiàn)自動評分。本系統(tǒng)可以在保證水平一致的情況下實現(xiàn)自動組卷,并為每一位參試者提供成績分析和反饋報告,為參試者提供英語聽、說、讀、寫各方面的優(yōu)勢和劣勢分析,為其今后的學習指明努力的方向。具體項目內(nèi)容包括測試框架研制、樣題研制、命題人員培訓、試題驗收和審核、試測、評分標準的制定。
2. 系統(tǒng)簡介
經(jīng)過充分的需求調(diào)研、原型設計和研發(fā)調(diào)試,目前HiE測評系統(tǒng)已完成階段性開發(fā)任務并發(fā)布上線(網(wǎng)址為http://www.haielearning.com)。HiE測評系統(tǒng)作為海e社區(qū)中的一個重要平臺,其入口直接集成在海e社區(qū)的導航欄目上。教師可通過 “測評”欄目進入測評中心,學生則可通過“測評中心”的欄目入口進入(如圖1、圖2)。
圖1 教師端入口界面
圖2 學生端入口界面
測評流程體系構架包含教師組卷和分發(fā)流程、學生上機考試流程、教師管理和閱卷流程、測評結果反饋等過程。這些流程及功能都與測評云端服務器鏈接,進行實時精準的數(shù)據(jù)交互,從而實現(xiàn)規(guī)?;?、標準化、即時性的測評過程(如圖3)。
圖3 測評體系架構
從測評系統(tǒng)功能上劃分,“測評中心”主要包含組卷系統(tǒng)、考務系統(tǒng)、閱卷系統(tǒng)和反饋系統(tǒng)四個子系統(tǒng)。其中,組卷系統(tǒng)包含了題庫模塊、組卷模塊、分發(fā)模塊;考務系統(tǒng)包含了題型模塊、流控模塊、收卷模塊;閱卷系統(tǒng)包含了自動閱卷模塊和人工閱卷模塊;反饋系統(tǒng)包含了統(tǒng)計模塊、分析模塊、反饋模塊和查詢模塊(如圖4)。
圖4 測評功能構架
3. 試測數(shù)據(jù)分析
2014年10月17日,項目組在北京市某中學進行了首次試測活動。
(1)參試者基本情況
選取了初中三年級的兩個平行班,為了避免出現(xiàn)水平偏差,打亂了班級差異,全部按學號的單雙號進行抽取,分成兩組,單號組41人,雙號組39人。為了確保兩組的水平?jīng)]有顯著性差異,根據(jù)期中考試成績做了一個獨立樣本T檢驗,檢驗結果如表1、表2所示。
從表中可以看出p=.869(>.05),表示兩組學生的成績沒有顯著性差異。
試測當天,兩個組做了不同的試題,單號組參加在線測試(機考),雙號參加紙筆考試(筆考),機考使用的是HiE-4的樣題,筆考使用的是KET(劍橋英語等級考試 Key English Test)。
(2)內(nèi)部效度檢驗
為了驗證HiE試題的有效性,我們根據(jù)參加機考的學生答題和得分情況,做了試題內(nèi)容一致性檢驗,如表3所示。
由統(tǒng)計數(shù)據(jù)可知,本套試題的內(nèi)部一致性檢驗得分為α=0.736??傮w說來還是比較滿意的。現(xiàn)在看來,影響該信度指數(shù)的因素主要有兩個:第一,考生樣本量較小(共41人);第二,試測當天,因網(wǎng)絡故障,影響了一部分學生的答題,有一部分考生的聽力或口語部分沒有記錄。即使在這樣的情況下,我們試題的內(nèi)部一致性系數(shù)仍然達到了0.7以上,這已經(jīng)是很不錯的成績了。如果將來進一步改善機考條件,改進考試流程控制,我們確信內(nèi)部效度得分還能提高。
(3)外部效度檢驗
首先,比較了期中考試與KET的相關性,找出既參加期中考試,又參加了KET筆試的同一組學生的數(shù)據(jù),比較它們的相關性,結果如表4所示。
表4 KET與期中考試的相關性
KET成績 期中考試
KET成績 Pearson 相關性
顯著性(雙側)
N 1
39 .933**
.000
39
期中考試 Pearson 相關性
顯著性(雙側)
N .933**
.000
39 1
39
**. 在 .01 水平(雙側)上顯著相關。
從數(shù)據(jù)中可以看出,Pearson相關系數(shù)為.933,在.01的水平上顯著相關。因為KET是很權威的國際考試,期中考試與其相關系數(shù)得分很高,說明這次期中考試是非??煽康?。
然后,又將既參加期中考試,又參加了機考的同一組學生的成績做了相關檢驗。因為期中考試沒有考口語,所以機考的成績中也剔除了口語的得分,最后的數(shù)據(jù)分析結果如表5所示。
表5 期中考試與機考的相關性
期中考試 機考(除口語)
期中考試 1
41 .647**
.000
41
機考
(除口語) .647**
.000
41 1
41
**. 在 .01 水平(雙側)上顯著相關。
從表格中可以看出,相關系數(shù)為0.647,在0.01的水平上顯著相關,這說明機考試題也是可靠的。
3. 優(yōu)勢分析
相比傳統(tǒng)的紙筆測評,HiE測評系統(tǒng)具有以下明顯優(yōu)勢。
第一,以分層評價標準體系為核心。評價體系是決定學習行為取向的規(guī)范和準則,是評判學習活動效果的客觀依據(jù),在本系統(tǒng)的設計中具有提綱挈領的作用。北師大團隊在充分調(diào)研國際上通用的托福、雅思、SAT、劍橋英語以及《加拿大語言測試等級標準2000》《21世紀外語學習標準》《歐洲語言共同參照框架》評價系統(tǒng)的基礎上,基于國家課標,結合區(qū)域特色,研制了“HiE”六級評價標準體系,即HiE1-HiE6。其中HiE1-HiE2相當于小學英語的入口與出口,HiE3相當于初中中期水平,HiE4相當于初中畢業(yè)水平,HiE5相當于高中中期水平,HiE6相當于高中畢業(yè)水平。該評價體系圍繞綜合能力的考查開展,在難度和范圍上略高于國內(nèi)現(xiàn)有同類測評,整體上和國際二語習得測評標準接近。作為一個分層綜合能力評價標準體系,它不以年級段為基準,只以學生的實際綜合能力為考查目標,學生可以在任意年級參與測評,測評結果代表了學生的能力等級。
第二,以多維度評價標簽為手段。為了全方位考查學生的英語綜合能力,以上述評價標準為基礎,北師大團隊對考題進行了縝密的設計。每道考題都從不同考查層面設計多維評價標簽,包括知識點構成、語言技能分項、認知能力等級、難度級別、綜合能力覆蓋等。這些評價標簽的屬性結合測評結果,既能夠宏觀地分析學生的整體英語水平,又能夠從各個維度上對學生的分項能力進行評價。所有考題都由北京市海淀區(qū)中小學英語教研員、英語學科帶頭人、骨干教師、一線英語教師負責完成,北師大專家負責審定工作。
第三,以網(wǎng)絡化測評模式為載體。和傳統(tǒng)的紙筆考試模式不同,HiE測評系統(tǒng)完全基于網(wǎng)絡環(huán)境,在整體框架上包括組卷系統(tǒng)、考務系統(tǒng)、閱卷系統(tǒng)、反饋系統(tǒng),在試題類型上覆蓋聽說讀寫各個環(huán)節(jié),在考試過程中支持自動組卷,在閱卷過程中支持部分主觀題型如口語題型和全部客觀題型的自動評閱。它跨越了地理和時間的限制,使得測評的組織和管理更加便捷高效。相比傳統(tǒng)紙筆考,它能夠收集更多有價值的數(shù)據(jù)信息,從而支持后續(xù)服務的提供。
第四,以基于數(shù)據(jù)的多級反饋為目的。反饋是HiE測評系統(tǒng)的核心輸出目標。通過評價標準體系中各項能力標簽的構建和后臺數(shù)據(jù)的分析挖掘,系統(tǒng)可以自動生成基于學生測評過程和結果的反饋信息,同時結合多次測評的過程性分析和群體性測評數(shù)據(jù)的綜合結果,實現(xiàn)為每名學生提供個性化的測評報告,為每位老師提供針對性的教學反饋,為每所學校提供準確的質(zhì)量分析,為每個區(qū)域提供詳實的教學評估的多級反饋功能。
結 語
HiE測評系統(tǒng)參照國家英語課程標準,結合當前國際英語教育評價的理論與實踐,基于計算機輔助英語測試的相關研究,充分利用現(xiàn)代教育技術、自然語言處理技術以及人機互動技術,避免了傳統(tǒng)紙筆測試的局限性;可以為各級教育主管部門、教學研究機構、學校、教師、家長、學生提供英語學習效果的相關信息;是當前測評領域從“對學習的評價”轉向“促學評價”,乃至“以評帶學”的重要實踐。
參考文獻
鄒宏.基于WEB的英語在線考試系統(tǒng)的設計與實現(xiàn)[D].電子科技大學碩士論文. 2012.
張瑞.英語在線考試及批閱系統(tǒng)的設計與實現(xiàn)[D].重慶大學碩士論文. 2009.
周穎.自動組卷在線測試系統(tǒng)的設計與實現(xiàn)[D].電子科技大學碩士論文.2012.
周越美,孫曉龍,張韌弦.寫作課程的無紙化考試研究[J]. 外語界. 2009(3).
朱音爾,張肖瑩.基于網(wǎng)絡的大學英語機考探索與實踐[J]. 外語電化教學, 2009(2).
邱東林,季佩英,萬江波,程寅.大學英語聽說機考嘗試[J]. 外語界. 2005(4).
(作者單位:北京師范大學 北京市海淀區(qū)教育科學研究所 北京師范大學 中央財經(jīng)大學)