機助口試和傳統(tǒng)面試的對比研究

2015-07-06 00:36:46孫海洋

中國考試 2015年8期

孫海洋劉彬

1 研究背景

近年來隨著信息化手段的廣泛應(yīng)用，計算機輔助口語考試已成為很多學(xué)校和考試機構(gòu)嘗試的新型考試形式，隨之而來的研究也不斷深入，呈上升趨勢。

口語測試分為直接型和半直接型（semi-direct oral test）（Clark，1975）：前者的典型形式就是面試型口試（oral proficiency interview），由受過培訓(xùn)的考官主持并當(dāng)場評分，內(nèi)容包括對話、討論和角色表演等；半直接型口試即考生和考官之間沒有面對面的交流，利用統(tǒng)一的錄音、視頻或者書面材料獲取考生的口語表達樣本，并進行即時錄音，考試結(jié)束后評分員根據(jù)考試錄音評分，主要包括錄音口試（tape-mediated oral test，又叫模擬面試simulated oral proficiency interview）和機助口試（computer-assisted oral test）兩種形式。直接型口試的最大優(yōu)點是能夠讓考生與考官之間、考生之間開展互動交流，因而具有真實性。

以往的研究結(jié)果表明，直接型面試可以較為真實地測試考生的交際能力，但其評分信度比較低（Shohamy et al.,1986）；而且無法滿足大規(guī)模口語測試的需要。而半直接型口試缺乏交互性，不夠真實，但由于實行評分和考試相分離，避免了面試中考官的情緒或其他突發(fā)事件等可變因素影響考生發(fā)揮，因此其信度往往高于直接型口試。而對于錄音口試和機助口試這兩種半直接型口試形式，后者充分利用了現(xiàn)代計算機技術(shù)，操作方便且能更好地模擬真實生活中的交際情境，不僅能很好地滿足高校大規(guī)模口語測試的需求，同時又可以避免錄音設(shè)備易出故障的問題，因此受到越來越多的重視。

筆者所在學(xué)校長期以來一直采用直接型面試口試形式，為了解決面試口試存在的問題，實行考評分離，降低考試成本，我們決定探索計算機輔助口試的信度和效度，為大規(guī)模口語測試提供可行性依據(jù)和支持。

2 文獻綜述

國外的大型機助口語考試很多，例如美國圣地亞哥大學(xué)開發(fā)的D-VOCI（Digital Video Oral Communication Interview），美國應(yīng)用語言學(xué)研究中心開發(fā)的COPI（Computerized Oral Proficiency Instrument）（蔡基剛，2005；Malabonga，Kenyon&Carpenter，2005），托?？荚囈灿?005年在全球開始實施基于計算機的網(wǎng)絡(luò)化口語考試，將聽與說，讀與說結(jié)合在一起測試（李玉平，2009）。

國內(nèi)目前已經(jīng)投入使用或者正在開發(fā)的機助口語測試有上海市和廣東省的高考和中考英語口試（王保云，2006），復(fù)旦大學(xué)的聽說機考嘗試（邱東林等，2005），大學(xué)英語四、六級計算機口語測試（蔡基剛，2005），英語專業(yè)四級機輔口試（文秋芳、趙學(xué)熙，1998）等。以往這些機助口試的內(nèi)容、任務(wù)類型以及所測能力如表1所示。

在大學(xué)英語四、六級機考口試全面推出之后，與之相關(guān)的研究也如雨后春筍般大量涌現(xiàn)。主要有效度、信度、公正性、可操作性、可推廣性、反駁作用等方面的研究。對比傳統(tǒng)面試和機助口試形式的研究包括以下幾項：尹楠等（2010）采用定性和定量相結(jié)合的方法對比了兩種口試形式對考生口語流利性的影響，發(fā)現(xiàn)在非互動的口語任務(wù)中學(xué)生在機考狀態(tài)下表達更流暢一些，而在如討論、辯論等的互動任務(wù)中，學(xué)生錯誤更多，語速較慢；蔡基剛（2005）對比了學(xué)生在兩種口試形式下的成績，發(fā)現(xiàn)機助口試的信度和效度都要高于傳統(tǒng)面試，而且考試成本有顯著的降低。高丙梁（2007）的研究對比了3個班學(xué)生兩次機助口試和一次面試成績，通過學(xué)生的調(diào)查問卷認(rèn)為機助口試是一種有效的測試形式，能反映學(xué)生的真實水平。

綜上所述，有關(guān)機助口試的實踐和研究在我國已經(jīng)全面展開，然而從測試學(xué)角度比較兩種考試形式對考生成績影響的實證研究并不多。本研究擬采用測試學(xué)的方法探究兩種考試形式的信度和效度，并對學(xué)生在兩種考試形式中所取得的成績進行比較，通過實證的方法來驗證機助口試是否能取代傳統(tǒng)面試。

3 研究設(shè)計及方法

3.1 研究目的和問題

本研究旨在對比學(xué)生在面試和機試兩種考試形式中口語成績的差異，比較兩種考試的信度和效度，為開展計算機輔助口試提供實證依據(jù)。具體研究問題有3個：（1）兩種考試形式下學(xué)生在每項任務(wù)的考試成績是否有顯著差異？（2）哪種考試形式的信度更高？（3）哪種考試形式的效度更高？

3.2 被試

采取學(xué)生自愿報名的原則，報名學(xué)生有40余人，最終參加兩次測試的只剩30位研一學(xué)生。這些學(xué)生參加了筆者所在學(xué)校的入學(xué)分級考試，考試成績均在60分以上。

表1 以往機助口試的考試任務(wù)類型及語言功能

3.3 考試任務(wù)

研究者前期對所在系的老師和在校碩士生進行了一個小型調(diào)查，了解學(xué)生在將來的學(xué)習(xí)和工作中需要使用英語的任務(wù)類型。根據(jù)調(diào)查結(jié)果，經(jīng)研究組成員最后協(xié)商確定，碩士生口試機考任務(wù)包括朗讀，描述圖片，提問和口頭作文4項。其中朗讀、描述圖片及口頭作文是常見的考試任務(wù)類型。之所以將提問納入考查范疇有兩個原因：第一是由于我們有相當(dāng)一部分學(xué)生在上學(xué)期間或者以后的科研工作中要參加國際會議，而國際會議上作為參會聽眾的提問和作為發(fā)言人對于聽眾所提問題的確認(rèn)，是學(xué)生應(yīng)該具備的一項技能；第二是被調(diào)查老師們反映，學(xué)生們在課堂上問老師問題時往往只重視關(guān)鍵詞和要表達的意思（focus on meaning），而忽視了問題的語法準(zhǔn)確性，這樣往往問出的問題不清楚、不準(zhǔn)確，別人也不知所云。為此，我們設(shè)定機試的提問任務(wù)為學(xué)生根據(jù)所聽材料提3個問題：兩個細節(jié)理解問題（local question），1個整體理解問題（global question）或引申問題（implication question）。為了體現(xiàn)出面試的互動性，提問任務(wù)其實是一個情景對話（Stansfield,C,W.&D.M.Kenyon，1992），要求考生在給定情景中問考官問題以達成目的。

研究者從項目組成員所提供的每項任務(wù)中抽選一個考試任務(wù)，準(zhǔn)備考試指令錄音并將其拷貝到藍鴿平臺的考試電腦程序中，預(yù)留出考生準(zhǔn)備及答題時間，生成自動考試程序。由于機試和面試都是同一批學(xué)生，我們在面試和機試中采用了兩套內(nèi)容不同但難度相當(dāng)?shù)娜蝿?wù)。

3.4 考試過程及評分

機考在機房進行。在正式考試任務(wù)之前有5個熱身問題，考生邊聽指令錄音邊按照要求回答問題，指令及準(zhǔn)備和答題時間共20分鐘左右。系統(tǒng)自動對學(xué)生的回答錄音，打包拷貝錄音供評分。兩位老師分別評分。面試有兩位考官，一位負(fù)責(zé)跟學(xué)生交流，兩人單獨評分。每位學(xué)生考試時間15分鐘左右。

兩次考試的評分均采用整體評分的方法，評分老師按照0～6的等級對考生在每個任務(wù)的表現(xiàn)打整體分。朗讀評分綜合考慮語音語調(diào)，語速和節(jié)奏，流利性和連貫性；提問評分綜合考慮問題的適切性、準(zhǔn)確性和表達的流利性；而描述圖片和口頭作文綜合考慮語言運用的準(zhǔn)確性、表達的連貫性和任務(wù)完成情況。

3.5 數(shù)據(jù)分析方法

首先采用SPSS對比了兩種口試形式中學(xué)生成績的差異，然后用FACETS對學(xué)生在兩次考試中各項任務(wù)的成績進行多側(cè)面Rasch模型分析，考查兩種考試形式下各項任務(wù)的信度和效度。

4 研究結(jié)果

4.1 考試成績對比分析

配對樣本t檢驗結(jié)果（見表2）顯示，學(xué)生在兩種考試形式中的朗讀成績沒有顯著差異（p＞0.05），這表明用機試來考查朗讀能力沒有問題。而學(xué)生圖片描述和提問的面試成績顯著高于機試成績，這可能是由于學(xué)生剛開始面對機器還不太適應(yīng)，但是在面試中考官會給學(xué)生各種提示，引導(dǎo)學(xué)生產(chǎn)出更多的句子?？陬^作文成績是機試顯著高于面試，這完全出乎我們的意料之外?？赡茉蚴菍W(xué)生在機試環(huán)境中更放松，表達更自如。

表2 兩種口試形式各任務(wù)成績的配對樣本t檢驗

4.2 信度和效度分析

FACETS分析結(jié)果顯示，機試的分隔指數(shù)和信度指數(shù)均高于面試（見表3），這表明，相比較面試而言，機試更能將不同能力的學(xué)生區(qū)分開來。

表4是兩種考試形式下各任務(wù)側(cè)面的FACETS統(tǒng)計量對比。面試結(jié)果顯示，朗讀最簡單（難易度指數(shù)為-0.69），學(xué)生該任務(wù)得分最高，口頭作文最難（難易度指數(shù)為0.40），學(xué)生得分最低；機試結(jié)果中同樣是朗讀最容易（難易度指數(shù)為-1.41），但提問最難（難易度指數(shù)為2.38）。面試提問任務(wù)的加權(quán)均方擬合值為1.24，不在0.8～1.2的合理范圍之內(nèi)，此任務(wù)效度較低，不能很好地區(qū)分考生的語言能力。此外，面試中朗讀任務(wù)的加權(quán)均方擬合值（1.20）亦在不合理范圍的邊緣，表明此任務(wù)的效度和區(qū)分度不夠好，不能很好的區(qū)分學(xué)生的能力高低。而機試中所有任務(wù)的加權(quán)均方擬合值均在可接受范圍之內(nèi)。

從評分員側(cè)面的統(tǒng)計數(shù)據(jù)來看（見表5），機試和面試的四位評分員評分一致性總體來說比較好，除了面試的1號評分員打分比較集中外（加權(quán)均方擬合值為0.73），其他3位評分員的評分加權(quán)均方擬合值均在正常指標(biāo)范圍內(nèi)（0.8～1.2）。但是4位評分員的嚴(yán)厲度還是有顯著差異的（分隔指數(shù)信度為0.90，固定卡方值在0.01水平顯著）。

表3 兩種考試形式的個人分隔指數(shù)和信度指數(shù)對比

表4 兩種考試形式各任務(wù)側(cè)面統(tǒng)計量對比

表5 兩種考試形式評分員側(cè)面統(tǒng)計量對比

5 討論

相對而言，機試的信度高于面試（信度指數(shù)0.90＞0.69），機試更能將不同能力的學(xué)生區(qū)分開來。這可能是由于面試中的朗讀和提問任務(wù)效度不高而引起（加權(quán)均方擬合值不在正常指標(biāo)范圍）。盡管面試中的一位評分員打分相對比較集中，但考生在朗讀和提問兩項任務(wù)的分?jǐn)?shù)變異太大，尤其是提問，能力高的考生在這兩項任務(wù)反而得了低分，反之亦然。但兩種形式下的學(xué)生朗讀成績的平均分并無顯著差異，究其原因，面試中的朗讀除了考試指令外再無別的提示，沒有考官和考生的互動，考生只是被動地朗讀所給材料，和機試的情況無差異。即使朗讀任務(wù)不能很好地區(qū)分不同口語能力的考生，它也往往是口語考試必不可少的一部分。這是對考生語音語調(diào)的基本要求，目的不是區(qū)分考生能力，而是看考生是否達到要求。從性質(zhì)上說，朗讀這個考試任務(wù)是典型的標(biāo)準(zhǔn)參照考試任務(wù)，考生達到一定標(biāo)準(zhǔn)即可，而不是非要將學(xué)生的能力按高低排名。這也與我們的考試目標(biāo)吻合：我們的目標(biāo)是考查非英語專業(yè)碩士生的口語水平，看他們是否達到了大綱所規(guī)定和要求的程度，語音語調(diào)是最基本的要求之一。

面試中的提問任務(wù)效度不好，而這個任務(wù)卻是所有任務(wù)中考官與考生互動最多的一個。面試中的提問是考官先給一個有關(guān)旅游的話題，讓考生問問題，考官來做簡短的回答，考生再根據(jù)回答繼續(xù)提問。而機試中的提問只是讓考生就所聽講座錄音提出3個問題，評分老師根據(jù)問題的準(zhǔn)確性和與講座內(nèi)容的相關(guān)性來給分。試后對學(xué)生訪談了解到，在他們的學(xué)習(xí)生活中提問的機會比較少，這些研一的學(xué)生很少有人參加過國際會議，往往是被問，因此他們還不太習(xí)慣提問這種考試任務(wù)。而在面試中，由于與面試官有互動，有些其他任務(wù)發(fā)揮不太好的學(xué)生反而取得了較好的成績，造成了這個任務(wù)的效度較低。

從時間成本上來講，機試節(jié)省了施考和評分的時間，有利于大規(guī)模口試的開展。過去筆者所在的學(xué)校對碩士生口語水平的考查只是基于任課教師課堂測試，形式單一，由于在短時間內(nèi)要考查多個人，只能采用兩人對話的形式，無法全面考查學(xué)生的口語能力。機助口試的實施不僅會有效地提高測試的效率，信度和效度，而且會促進學(xué)生對于口語水平的重視，提高口語表達能力，是對以學(xué)習(xí)為導(dǎo)向的測試的理念（Learning-Oriented test，Saville,2013）的最好闡釋。

6 結(jié)語

基于以上的分析和討論，本研究發(fā)現(xiàn)機試的信度高于面試；學(xué)生在機試中有兩項任務(wù)的成績顯著地低于面試，分別是圖片描述和提問，而機試中的口頭陳述這項任務(wù)的成績顯著地高于面試。這些結(jié)果表明口試形式的變化對考試結(jié)果造成了一定的影響。但多側(cè)面Rasch測量分析顯示，面試任務(wù)本身也存在問題，效度不高，同樣的任務(wù)，通過機試的形式反而提高了效度和信度。由此可見，在測試學(xué)生非互動性口語能力時，機試完全可以取代面試作為大規(guī)?？谡Z考試的形式。

[1] Clark,J.L.Theoretical and technical considerations in oral proficiency test.In Randall L.J.&Spolsky,B（Eds.）,Testing Language Proficiency[M].Virginia:Center for Applied Linguistics.1975：10-28.

[2] Malabonga,V.,Kenyon,D.M.&Carpenter,H.Self-assessment,preparation and response time on a computerized oral proficiency test[M].Language Testing,2005,22（1）：59-92.

[3] Saville,N.A systematic view of language assessment[C].Keynote speech given at Perspectives on language learning,teaching and assessment in China conference,2013.

[4] Shohamy,E.,Reves,T.&Bejerano,Y.Introducing a new comprehensive test of oral proficiency[J].English Language Teaching Journal,1986,40：212-220.

[5] Stansfield,C,W.&D.M.Kenyon.The development and validation of a simulated oral proficiency interview[J].The Modern Language Journal,1992,76（2）：129-141.

[6] 蔡基剛.大學(xué)英語四、六級計算機口語測試效度、信度和可操作性研究[J].外語界，2005（4）：66-75.

[7] 高丙梁.計算機口試與面試的比較研究[J].外語電話教學(xué)，2007（2）：73-75.

[8] 李玉平.大規(guī)模計算機輔助英語口語測試效果實證研究[J].外語界，2009（4）：69-76.

[9] 尹楠，鄭玉榮，王麗麗，辛丹.機輔與面試對口語流利性影響的對比研究[J].外語與外語教學(xué)，2010（3）：25-29.

[10] 邱東林，季配英，萬江波，程寅.大學(xué)英語聽說機考嘗試[J].外語界，2005（4）：76-79.

[11] 王保云.外語口試的形式評析[J].外語電化教學(xué)，2006（2）：60-64.

[12] 文秋芳，趙學(xué)熙.全國英語四級錄音口試評分的實踐與研究[J].解放軍外國語學(xué)院學(xué)報，1998（2）：52-55.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡