孫海洋 劉 彬
近年來隨著信息化手段的廣泛應(yīng)用,計算機輔助口語考試已成為很多學(xué)校和考試機構(gòu)嘗試的新型考試形式,隨之而來的研究也不斷深入,呈上升趨勢。
口語測試分為直接型和半直接型(semi-direct oral test)(Clark,1975):前者的典型形式就是面試型口試(oral proficiency interview),由受過培訓(xùn)的考官主持并當(dāng)場評分,內(nèi)容包括對話、討論和角色表演等;半直接型口試即考生和考官之間沒有面對面的交流,利用統(tǒng)一的錄音、視頻或者書面材料獲取考生的口語表達樣本,并進行即時錄音,考試結(jié)束后評分員根據(jù)考試錄音評分,主要包括錄音口試(tape-mediated oral test,又叫模擬面試simulated oral proficiency interview)和機助口試(computer-assisted oral test)兩種形式。直接型口試的最大優(yōu)點是能夠讓考生與考官之間、考生之間開展互動交流,因而具有真實性。
以往的研究結(jié)果表明,直接型面試可以較為真實地測試考生的交際能力,但其評分信度比較低(Shohamy et al.,1986);而且無法滿足大規(guī)模口語測試的需要。而半直接型口試缺乏交互性,不夠真實,但由于實行評分和考試相分離,避免了面試中考官的情緒或其他突發(fā)事件等可變因素影響考生發(fā)揮,因此其信度往往高于直接型口試。而對于錄音口試和機助口試這兩種半直接型口試形式,后者充分利用了現(xiàn)代計算機技術(shù),操作方便且能更好地模擬真實生活中的交際情境,不僅能很好地滿足高校大規(guī)模口語測試的需求,同時又可以避免錄音設(shè)備易出故障的問題,因此受到越來越多的重視。
筆者所在學(xué)校長期以來一直采用直接型面試口試形式,為了解決面試口試存在的問題,實行考評分離,降低考試成本,我們決定探索計算機輔助口試的信度和效度,為大規(guī)模口語測試提供可行性依據(jù)和支持。
國外的大型機助口語考試很多,例如美國圣地亞哥大學(xué)開發(fā)的D-VOCI(Digital Video Oral Communication Interview),美國應(yīng)用語言學(xué)研究中心開發(fā)的COPI(Computerized Oral Proficiency Instrument)(蔡基剛,2005;Malabonga,Kenyon&Carpenter,2005),托??荚囈灿?005年在全球開始實施基于計算機的網(wǎng)絡(luò)化口語考試,將聽與說,讀與說結(jié)合在一起測試(李玉平,2009)。
國內(nèi)目前已經(jīng)投入使用或者正在開發(fā)的機助口語測試有上海市和廣東省的高考和中考英語口試(王保云,2006),復(fù)旦大學(xué)的聽說機考嘗試(邱東林等,2005),大學(xué)英語四、六級計算機口語測試(蔡基剛,2005),英語專業(yè)四級機輔口試(文秋芳、趙學(xué)熙,1998)等。以往這些機助口試的內(nèi)容、任務(wù)類型以及所測能力如表1所示。
在大學(xué)英語四、六級機考口試全面推出之后,與之相關(guān)的研究也如雨后春筍般大量涌現(xiàn)。主要有效度、信度、公正性、可操作性、可推廣性、反駁作用等方面的研究。對比傳統(tǒng)面試和機助口試形式的研究包括以下幾項:尹楠等(2010)采用定性和定量相結(jié)合的方法對比了兩種口試形式對考生口語流利性的影響,發(fā)現(xiàn)在非互動的口語任務(wù)中學(xué)生在機考狀態(tài)下表達更流暢一些,而在如討論、辯論等的互動任務(wù)中,學(xué)生錯誤更多,語速較慢;蔡基剛(2005)對比了學(xué)生在兩種口試形式下的成績,發(fā)現(xiàn)機助口試的信度和效度都要高于傳統(tǒng)面試,而且考試成本有顯著的降低。高丙梁(2007)的研究對比了3個班學(xué)生兩次機助口試和一次面試成績,通過學(xué)生的調(diào)查問卷認(rèn)為機助口試是一種有效的測試形式,能反映學(xué)生的真實水平。
綜上所述,有關(guān)機助口試的實踐和研究在我國已經(jīng)全面展開,然而從測試學(xué)角度比較兩種考試形式對考生成績影響的實證研究并不多。本研究擬采用測試學(xué)的方法探究兩種考試形式的信度和效度,并對學(xué)生在兩種考試形式中所取得的成績進行比較,通過實證的方法來驗證機助口試是否能取代傳統(tǒng)面試。
本研究旨在對比學(xué)生在面試和機試兩種考試形式中口語成績的差異,比較兩種考試的信度和效度,為開展計算機輔助口試提供實證依據(jù)。具體研究問題有3個:(1)兩種考試形式下學(xué)生在每項任務(wù)的考試成績是否有顯著差異?(2)哪種考試形式的信度更高?(3)哪種考試形式的效度更高?
采取學(xué)生自愿報名的原則,報名學(xué)生有40余人,最終參加兩次測試的只剩30位研一學(xué)生。這些學(xué)生參加了筆者所在學(xué)校的入學(xué)分級考試,考試成績均在60分以上。
表1 以往機助口試的考試任務(wù)類型及語言功能
研究者前期對所在系的老師和在校碩士生進行了一個小型調(diào)查,了解學(xué)生在將來的學(xué)習(xí)和工作中需要使用英語的任務(wù)類型。根據(jù)調(diào)查結(jié)果,經(jīng)研究組成員最后協(xié)商確定,碩士生口試機考任務(wù)包括朗讀,描述圖片,提問和口頭作文4項。其中朗讀、描述圖片及口頭作文是常見的考試任務(wù)類型。之所以將提問納入考查范疇有兩個原因:第一是由于我們有相當(dāng)一部分學(xué)生在上學(xué)期間或者以后的科研工作中要參加國際會議,而國際會議上作為參會聽眾的提問和作為發(fā)言人對于聽眾所提問題的確認(rèn),是學(xué)生應(yīng)該具備的一項技能;第二是被調(diào)查老師們反映,學(xué)生們在課堂上問老師問題時往往只重視關(guān)鍵詞和要表達的意思(focus on meaning),而忽視了問題的語法準(zhǔn)確性,這樣往往問出的問題不清楚、不準(zhǔn)確,別人也不知所云。為此,我們設(shè)定機試的提問任務(wù)為學(xué)生根據(jù)所聽材料提3個問題:兩個細節(jié)理解問題(local question),1個整體理解問題(global question)或 引 申 問 題(implication question)。為了體現(xiàn)出面試的互動性,提問任務(wù)其實是一個情景對話(Stansfield,C,W.&D.M.Kenyon,1992),要求考生在給定情景中問考官問題以達成目的。
研究者從項目組成員所提供的每項任務(wù)中抽選一個考試任務(wù),準(zhǔn)備考試指令錄音并將其拷貝到藍鴿平臺的考試電腦程序中,預(yù)留出考生準(zhǔn)備及答題時間,生成自動考試程序。由于機試和面試都是同一批學(xué)生,我們在面試和機試中采用了兩套內(nèi)容不同但難度相當(dāng)?shù)娜蝿?wù)。
機考在機房進行。在正式考試任務(wù)之前有5個熱身問題,考生邊聽指令錄音邊按照要求回答問題,指令及準(zhǔn)備和答題時間共20分鐘左右。系統(tǒng)自動對學(xué)生的回答錄音,打包拷貝錄音供評分。兩位老師分別評分。面試有兩位考官,一位負(fù)責(zé)跟學(xué)生交流,兩人單獨評分。每位學(xué)生考試時間15分鐘左右。
兩次考試的評分均采用整體評分的方法,評分老師按照0~6的等級對考生在每個任務(wù)的表現(xiàn)打整體分。朗讀評分綜合考慮語音語調(diào),語速和節(jié)奏,流利性和連貫性;提問評分綜合考慮問題的適切性、準(zhǔn)確性和表達的流利性;而描述圖片和口頭作文綜合考慮語言運用的準(zhǔn)確性、表達的連貫性和任務(wù)完成情況。
首先采用SPSS對比了兩種口試形式中學(xué)生成績的差異,然后用FACETS對學(xué)生在兩次考試中各項任務(wù)的成績進行多側(cè)面Rasch模型分析,考查兩種考試形式下各項任務(wù)的信度和效度。
配對樣本t檢驗結(jié)果(見表2)顯示,學(xué)生在兩種考試形式中的朗讀成績沒有顯著差異(p>0.05),這表明用機試來考查朗讀能力沒有問題。而學(xué)生圖片描述和提問的面試成績顯著高于機試成績,這可能是由于學(xué)生剛開始面對機器還不太適應(yīng),但是在面試中考官會給學(xué)生各種提示,引導(dǎo)學(xué)生產(chǎn)出更多的句子??陬^作文成績是機試顯著高于面試,這完全出乎我們的意料之外??赡茉蚴菍W(xué)生在機試環(huán)境中更放松,表達更自如。
表2 兩種口試形式各任務(wù)成績的配對樣本t檢驗
FACETS分析結(jié)果顯示,機試的分隔指數(shù)和信度指數(shù)均高于面試(見表3),這表明,相比較面試而言,機試更能將不同能力的學(xué)生區(qū)分開來。
表4是兩種考試形式下各任務(wù)側(cè)面的FACETS統(tǒng)計量對比。面試結(jié)果顯示,朗讀最簡單(難易度指數(shù)為-0.69),學(xué)生該任務(wù)得分最高,口頭作文最難(難易度指數(shù)為0.40),學(xué)生得分最低;機試結(jié)果中同樣是朗讀最容易(難易度指數(shù)為-1.41),但提問最難(難易度指數(shù)為2.38)。面試提問任務(wù)的加權(quán)均方擬合值為1.24,不在0.8~1.2的合理范圍之內(nèi),此任務(wù)效度較低,不能很好地區(qū)分考生的語言能力。此外,面試中朗讀任務(wù)的加權(quán)均方擬合值(1.20)亦在不合理范圍的邊緣,表明此任務(wù)的效度和區(qū)分度不夠好,不能很好的區(qū)分學(xué)生的能力高低。而機試中所有任務(wù)的加權(quán)均方擬合值均在可接受范圍之內(nèi)。
從評分員側(cè)面的統(tǒng)計數(shù)據(jù)來看(見表5),機試和面試的四位評分員評分一致性總體來說比較好,除了面試的1號評分員打分比較集中外(加權(quán)均方擬合值為0.73),其他3位評分員的評分加權(quán)均方擬合值均在正常指標(biāo)范圍內(nèi)(0.8~1.2)。但是4位評分員的嚴(yán)厲度還是有顯著差異的(分隔指數(shù)信度為0.90,固定卡方值在0.01水平顯著)。
表3 兩種考試形式的個人分隔指數(shù)和信度指數(shù)對比
表4 兩種考試形式各任務(wù)側(cè)面統(tǒng)計量對比
表5 兩種考試形式評分員側(cè)面統(tǒng)計量對比
相對而言,機試的信度高于面試(信度指數(shù)0.90>0.69),機試更能將不同能力的學(xué)生區(qū)分開來。這可能是由于面試中的朗讀和提問任務(wù)效度不高而引起(加權(quán)均方擬合值不在正常指標(biāo)范圍)。盡管面試中的一位評分員打分相對比較集中,但考生在朗讀和提問兩項任務(wù)的分?jǐn)?shù)變異太大,尤其是提問,能力高的考生在這兩項任務(wù)反而得了低分,反之亦然。但兩種形式下的學(xué)生朗讀成績的平均分并無顯著差異,究其原因,面試中的朗讀除了考試指令外再無別的提示,沒有考官和考生的互動,考生只是被動地朗讀所給材料,和機試的情況無差異。即使朗讀任務(wù)不能很好地區(qū)分不同口語能力的考生,它也往往是口語考試必不可少的一部分。這是對考生語音語調(diào)的基本要求,目的不是區(qū)分考生能力,而是看考生是否達到要求。從性質(zhì)上說,朗讀這個考試任務(wù)是典型的標(biāo)準(zhǔn)參照考試任務(wù),考生達到一定標(biāo)準(zhǔn)即可,而不是非要將學(xué)生的能力按高低排名。這也與我們的考試目標(biāo)吻合:我們的目標(biāo)是考查非英語專業(yè)碩士生的口語水平,看他們是否達到了大綱所規(guī)定和要求的程度,語音語調(diào)是最基本的要求之一。
面試中的提問任務(wù)效度不好,而這個任務(wù)卻是所有任務(wù)中考官與考生互動最多的一個。面試中的提問是考官先給一個有關(guān)旅游的話題,讓考生問問題,考官來做簡短的回答,考生再根據(jù)回答繼續(xù)提問。而機試中的提問只是讓考生就所聽講座錄音提出3個問題,評分老師根據(jù)問題的準(zhǔn)確性和與講座內(nèi)容的相關(guān)性來給分。試后對學(xué)生訪談了解到,在他們的學(xué)習(xí)生活中提問的機會比較少,這些研一的學(xué)生很少有人參加過國際會議,往往是被問,因此他們還不太習(xí)慣提問這種考試任務(wù)。而在面試中,由于與面試官有互動,有些其他任務(wù)發(fā)揮不太好的學(xué)生反而取得了較好的成績,造成了這個任務(wù)的效度較低。
從時間成本上來講,機試節(jié)省了施考和評分的時間,有利于大規(guī)模口試的開展。過去筆者所在的學(xué)校對碩士生口語水平的考查只是基于任課教師課堂測試,形式單一,由于在短時間內(nèi)要考查多個人,只能采用兩人對話的形式,無法全面考查學(xué)生的口語能力。機助口試的實施不僅會有效地提高測試的效率,信度和效度,而且會促進學(xué)生對于口語水平的重視,提高口語表達能力,是對以學(xué)習(xí)為導(dǎo)向的測試的理念(Learning-Oriented test,Saville,2013)的最好闡釋。
基于以上的分析和討論,本研究發(fā)現(xiàn)機試的信度高于面試;學(xué)生在機試中有兩項任務(wù)的成績顯著地低于面試,分別是圖片描述和提問,而機試中的口頭陳述這項任務(wù)的成績顯著地高于面試。這些結(jié)果表明口試形式的變化對考試結(jié)果造成了一定的影響。但多側(cè)面Rasch測量分析顯示,面試任務(wù)本身也存在問題,效度不高,同樣的任務(wù),通過機試的形式反而提高了效度和信度。由此可見,在測試學(xué)生非互動性口語能力時,機試完全可以取代面試作為大規(guī)??谡Z考試的形式。
[1] Clark,J.L.Theoretical and technical considerations in oral proficiency test.In Randall L.J.&Spolsky,B(Eds.),Testing Language Proficiency[M].Virginia:Center for Applied Linguistics.1975:10-28.
[2] Malabonga,V.,Kenyon,D.M.&Carpenter,H.Self-assessment,preparation and response time on a computerized oral proficiency test[M].Language Testing,2005,22(1):59-92.
[3] Saville,N.A systematic view of language assessment[C].Keynote speech given at Perspectives on language learning,teaching and assessment in China conference,2013.
[4] Shohamy,E.,Reves,T.&Bejerano,Y.Introducing a new comprehensive test of oral proficiency[J].English Language Teaching Journal,1986,40:212-220.
[5] Stansfield,C,W.&D.M.Kenyon.The development and validation of a simulated oral proficiency interview[J].The Modern Language Journal,1992,76(2):129-141.
[6] 蔡基剛.大學(xué)英語四、六級計算機口語測試效度、信度和可操作性研究[J].外語界,2005(4):66-75.
[7] 高丙梁.計算機口試與面試的比較研究[J].外語電話教學(xué),2007(2):73-75.
[8] 李玉平.大規(guī)模計算機輔助英語口語測試效果實證研究[J].外語界,2009(4):69-76.
[9] 尹楠,鄭玉榮,王麗麗,辛丹.機輔與面試對口語流利性影響的對比研究[J].外語與外語教學(xué),2010(3):25-29.
[10] 邱東林,季配英,萬江波,程寅.大學(xué)英語聽說機考嘗試[J].外語界,2005(4):76-79.
[11] 王保云.外語口試的形式評析[J].外語電化教學(xué),2006(2):60-64.
[12] 文秋芳,趙學(xué)熙.全國英語四級錄音口試評分的實踐與研究[J].解放軍外國語學(xué)院學(xué)報,1998(2):52-55.