(東北大學(xué)外國(guó)語學(xué)院 遼寧 沈陽 110819)
一直以來,我國(guó)的研究者們都在不斷地對(duì)計(jì)算機(jī)輔助語言測(cè)試的歷史和現(xiàn)狀進(jìn)行研究,一方面是對(duì)計(jì)算機(jī)輔助語言測(cè)試在國(guó)內(nèi)外的發(fā)展追蹤研究,另一方面也試圖結(jié)合中國(guó)教育和測(cè)試的實(shí)際情況,順應(yīng)語言測(cè)試今后在互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等高新技術(shù)的發(fā)展趨勢(shì),努力沖破傳統(tǒng)考試的缺點(diǎn)和局限,為我國(guó)的語言測(cè)試發(fā)展做出不懈努力。
從周珊珊(2018)對(duì)2011-2015年國(guó)外語言測(cè)試研究熱點(diǎn)的綜述中發(fā)現(xiàn),近幾年國(guó)外對(duì)計(jì)算機(jī)輔助語言測(cè)試的研究逐漸減少,說明在新托福(網(wǎng)考)改革的風(fēng)浪過后,學(xué)者們對(duì)計(jì)算機(jī)輔助語言的研究熱度大幅下降。但盡管如此,國(guó)外對(duì)計(jì)算機(jī)輔助語言測(cè)試的研究取得了十分顯著的成效。計(jì)算機(jī)輔助語言測(cè)試打破傳統(tǒng)書面測(cè)試的時(shí)間和空間的限制,發(fā)揮其巨大的互聯(lián)互通、及時(shí)可控的優(yōu)勢(shì),成為語言測(cè)試研究的未來式。相對(duì)地,在我國(guó)計(jì)算機(jī)輔助語言測(cè)試研究現(xiàn)狀中,張艷和張俊(2017)對(duì)1999-2015年我國(guó)外語類主要核心期刊上發(fā)表的相關(guān)研究論文為主要依據(jù),對(duì)我國(guó)計(jì)算機(jī)輔助語言測(cè)試研究的進(jìn)行概括和總結(jié),并對(duì)取得的成就和存在的問題進(jìn)行思考和分析。同時(shí)隨著新托??荚囋谌澜绶秶膫鞑ズ驼J(rèn)可,其測(cè)試的信度和效度也成為許多學(xué)者研究的重點(diǎn),無論是從考試形式,還是從信效度分析,對(duì)我國(guó)英語教學(xué)和考試改革都具有重要而深刻的啟示。
在我國(guó),每年都有龐大的學(xué)生群體參加中國(guó)設(shè)置的語言測(cè)試,這些考試均采用書面答題的形式。而對(duì)于一些有出國(guó)留學(xué)打算和工作目的的學(xué)生們來說,托福、雅思、GMAT等國(guó)外設(shè)置的考試也逐漸走入學(xué)習(xí)生活。但目前來講,在眾多的語言測(cè)試中,托??荚噷?shí)現(xiàn)完全的網(wǎng)考,成為計(jì)算機(jī)輔助語言測(cè)試的典型代表,這無疑是一項(xiàng)重大的測(cè)試改革?,F(xiàn)如今,國(guó)內(nèi)外對(duì)計(jì)算機(jī)輔助語言測(cè)試的研究正在不斷地更新和深入,對(duì)新托福的測(cè)試信效度也從未停止腳步,但對(duì)計(jì)算機(jī)輔助語言測(cè)試和新托福(網(wǎng)考)兩者的相互關(guān)系進(jìn)行的深刻討論和研究卻不算多。
計(jì)算機(jī)技術(shù)對(duì)語言測(cè)試與評(píng)估越來越產(chǎn)生著巨大的影響。特別在測(cè)試管理、試題設(shè)計(jì)編寫、任務(wù)呈現(xiàn)、評(píng)分、成績(jī)分析與報(bào)道等方面,計(jì)算機(jī)的高效率受到越來越多大規(guī)模語言測(cè)試開發(fā)和管理者的青睞(Alderson&Banerjee 2002)。計(jì)算機(jī)輔助語言測(cè)試是指受試者直接在計(jì)算機(jī)上操作進(jìn)行的語言測(cè)試;還可指教師在計(jì)算機(jī)上對(duì)掃描到計(jì)算機(jī)里的試題進(jìn)行批閱,并對(duì)測(cè)試的結(jié)果進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析或形成成績(jī)報(bào)表。新托福考試便是受試者直接在計(jì)算機(jī)上進(jìn)行語言測(cè)試,而我國(guó)目前大多數(shù)的考試采取網(wǎng)上閱卷的形式,都是計(jì)算機(jī)輔助語言測(cè)試的范疇?,F(xiàn)代語言測(cè)試的語言學(xué)基礎(chǔ)經(jīng)歷了數(shù)次革新,測(cè)量學(xué)理論由經(jīng)典測(cè)試?yán)碚?Classical Test Theory)發(fā)展到概化理論(Generalizability Theory)和項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)(李清華 2006)。
提到計(jì)算機(jī)輔助語言測(cè)試的同時(shí),有必要對(duì)計(jì)算機(jī)自適應(yīng)性語言測(cè)試進(jìn)行解釋和說明,新托福便是基于這樣的系統(tǒng)環(huán)境。計(jì)算機(jī)自適應(yīng)性語言測(cè)試是基于項(xiàng)目反應(yīng)理論(Item Response Theory or IRT)的一種測(cè)試,它又被稱作“量體裁衣測(cè)試”(Tailor Test),是一種基于具備大容量和大跨度的題庫(kù)運(yùn)行的計(jì)算機(jī)測(cè)試系統(tǒng)。在這種系統(tǒng)的運(yùn)作模式下,通過實(shí)時(shí)網(wǎng)絡(luò)傳輸監(jiān)控受試者的具體答題情況,同步地進(jìn)行試題難度調(diào)整,最后自動(dòng)生成一套與測(cè)試者語言能力對(duì)等的試題,并對(duì)受試者的答題情況給予相應(yīng)的考量和評(píng)估。
網(wǎng)絡(luò)化語言測(cè)試只是在計(jì)算機(jī)輔助測(cè)試(CAT)單機(jī)測(cè)試的基礎(chǔ)上發(fā)展出來的,基于網(wǎng)絡(luò)的語言測(cè)試,IBT最理想的形式仍然是自適應(yīng)性的語言測(cè)試,被稱為基于網(wǎng)絡(luò)的個(gè)性化適應(yīng)性語言測(cè)試。新托??荚囀沁@種形式的典型模式。這種測(cè)試可增強(qiáng)語言測(cè)試的真實(shí)性,對(duì)試題題目給出詳細(xì)的分析,并為考生提供人性化的成績(jī)報(bào)告單。
TOEFL意識(shí)到語言能力是一個(gè)連續(xù)的、動(dòng)態(tài)的、不斷變化發(fā)展的過程。TOEFL IBT 考試方式充分應(yīng)用了聽后再說(1isten to speak)、讀后再說(read to speak)、聽讀后再說(1isten and read to speak)、聽讀后再寫(1isten and read to write)的創(chuàng)新模式,對(duì)語言技能進(jìn)行綜合測(cè)試,同時(shí)更為全面地對(duì)考生的語言能力進(jìn)行測(cè)評(píng)。Bachman(1990)提出交際語言能力(CLA,Communicative Language Ability),由語言能力(language competence)、策略能力(strategic competence) 和心理生理機(jī)制( psycho-physiological mechanisms)三部分組成。它的這一模式有兩個(gè)顯著的特點(diǎn),一是對(duì)語言交際能力的認(rèn)識(shí)更為全面、深刻,二是指出了測(cè)試工具與目標(biāo)語言情境的關(guān)系。此外,他還提出了語言測(cè)試的“真實(shí)性程度”( degree of authenticity) 問題,把它作為開發(fā)、評(píng)價(jià)一項(xiàng)測(cè)試時(shí)的標(biāo)準(zhǔn)(李清華2006)。
TOEFL考試比較徹底地從重視語言形式轉(zhuǎn)向重視語言運(yùn)用,主要體現(xiàn)在從語法和詞匯到組句成章,從語法能力到語言能力,從語言能力到交際能力,從交際能力到語用能力到跨文化交際能力。但由于TOEFL考試對(duì)語法功能的削弱,也會(huì)使一些學(xué)生對(duì)語法等基礎(chǔ)語言知識(shí)的忽略,這也是在語言教育和學(xué)習(xí)中需要提起重視的一點(diǎn),無論是語言基礎(chǔ)知識(shí)還是語言應(yīng)用能力都是同等重要的。
托??荚囈罂忌来瓮瓿勺x、聽、說、寫四個(gè)部分的測(cè)試,每個(gè)部分滿分30 分,總120分。閱讀、聽力、口語、寫作四個(gè)部分各有側(cè)重,話題涉及文學(xué)、政治、經(jīng)濟(jì)、科學(xué)、藝術(shù)等多個(gè)學(xué)科,甚至創(chuàng)設(shè)了真實(shí)的校園生活、學(xué)術(shù)報(bào)告等客觀情境,但是難度分寸又恰到好處,并不要求考生能對(duì)專業(yè)領(lǐng)域進(jìn)行深入研究,對(duì)專業(yè)詞匯的掌握也不做過多的要求。
同時(shí),根據(jù)計(jì)算機(jī)輔助語言測(cè)試的特點(diǎn),考生所獲取的試卷題目決不僅僅是若干試題的簡(jiǎn)單組合,這就需要一個(gè)強(qiáng)大的試題庫(kù)。試題庫(kù)的創(chuàng)建需要對(duì)試題進(jìn)行分析和管理,試題庫(kù)中的試題不僅需要考慮題目的難度值,還須考慮區(qū)分度和答案的可猜測(cè)度以及使用歷史及行為特征(使用次數(shù),被高分及低分學(xué)生答對(duì)的次數(shù))等。這就需要題庫(kù)數(shù)據(jù)庫(kù)的建設(shè)緊跟時(shí)代的步伐,不斷更新題庫(kù)的內(nèi)容和形式相應(yīng)地調(diào)整數(shù)據(jù)庫(kù)。在建設(shè)中需要投入大量的人力和物力對(duì)計(jì)算機(jī)輔助語言測(cè)試,還需計(jì)算機(jī)輔助語言測(cè)試工作者不斷優(yōu)化和完善。
計(jì)算機(jī)輔助語言測(cè)試使呈現(xiàn)方式從通過傳統(tǒng)的紙張、答題卡演變到電腦顯示屏,答題方式也從紙筆、橡皮演變到鼠標(biāo)和鍵盤。在傳統(tǒng)的紙筆測(cè)試中,受試者只能看到靜態(tài)的文字圖畫等輸入,并以同樣的方式輸出答案。而計(jì)算機(jī)輔助語言測(cè)試使試卷呈現(xiàn)方式更加多樣化。
一方面,計(jì)算機(jī)輔助語言測(cè)試提高了語言測(cè)試的真實(shí)性,但另一方面也對(duì)受試者提出了新的挑戰(zhàn)。在這種新的測(cè)試方式下,受試者能否發(fā)揮出真實(shí)的語言水平受到廣泛質(zhì)疑。在新托??荚囍?,變化最大的部分要屬寫作部分,從過去的紙筆寫作完全演變成使用計(jì)算機(jī)打字。受試者很有可能因?yàn)樵囶}表現(xiàn)方式的不同而有不同的考試表現(xiàn),比如針對(duì)那些并不經(jīng)常使用計(jì)算機(jī)的考生,對(duì)計(jì)算機(jī)的基本操作不熟練或者打字速度太慢的話,勢(shì)必會(huì)影響考試的心態(tài)和成績(jī),這也在一定程度上影響了計(jì)算機(jī)語言測(cè)試的效度。甚至有學(xué)生對(duì)使用計(jì)算機(jī)考試顯示出更強(qiáng)烈的焦慮感,比如在TOEFL的口語考試中,聲音洪亮清晰勢(shì)必會(huì)有優(yōu)勢(shì),但這對(duì)一些內(nèi)向害羞的考生勢(shì)必造成無形的壓力,他們很可能在這種情境中無法發(fā)揮出他自己正常的語言水平。而由考試成績(jī)帶來的挫敗感也無益于那些原本自信心不強(qiáng)的考生,而那些試圖不斷刷分的同學(xué)也未必能支付起高昂的考試費(fèi)用,這無疑是計(jì)算機(jī)輔助語言測(cè)試面對(duì)的最巨大的挑戰(zhàn)。
在硬件設(shè)備方面,計(jì)算機(jī)的硬件設(shè)備更新?lián)Q代的速度也無比之快,在眾多的托??紙?chǎng)中,誰都無法預(yù)料自己將會(huì)和哪一臺(tái)計(jì)算機(jī)結(jié)緣,因此考生很有可能會(huì)面臨考場(chǎng)中所使用的計(jì)算機(jī)狀況糟糕的問題,也可能在考試時(shí)計(jì)算機(jī)軟件和硬件發(fā)生故障,受試者的心態(tài)容易受到影響,如果無法及時(shí)調(diào)整的話,發(fā)揮失常也極為可能,甚至有的考生會(huì)因?yàn)榭荚囍惺褂玫挠?jì)算機(jī)“用不習(xí)慣”而影響考試成績(jī)。
在評(píng)分系統(tǒng)方面,托??荚囍饕窃诳谡Z部分和寫作部分的評(píng)價(jià)方面進(jìn)行了巨大轉(zhuǎn)變。在TOEFL口語考試中,由于計(jì)算機(jī)評(píng)價(jià)系統(tǒng)的客觀化,對(duì)考生的口音或者是感冒的鼻音也會(huì)做出判斷,而考生是否能克服這些主觀因素發(fā)揮出真實(shí)的水。寫作考試的評(píng)價(jià)要求評(píng)分系統(tǒng)根據(jù)受試者的綜合寫作能力比如語法、句法、詞匯和修辭的綜合運(yùn)用能力進(jìn)行酌情打分,這對(duì)于用計(jì)算機(jī)評(píng)分軟件進(jìn)行評(píng)分是一種巨大的挑戰(zhàn),預(yù)示著在保證計(jì)算機(jī)輔助語言測(cè)試的評(píng)價(jià)效度方面仍然需要不斷地完善。
本文簡(jiǎn)要論述了計(jì)算機(jī)輔助語言測(cè)試的定義和其理論依據(jù),并以新托福考試為例,分析了計(jì)算機(jī)輔助語言測(cè)試的優(yōu)勢(shì)和其在語言測(cè)試中存在著的不夠完善的因素。在目前的計(jì)算機(jī)以及信息技術(shù)發(fā)展環(huán)境下,CAT還不能完全取代人工,成為英語語言測(cè)試的主體。尤其在考生量極大的中國(guó),以當(dāng)前的發(fā)展水平和實(shí)力,我們尚無法建造龐大數(shù)量的語言實(shí)驗(yàn)室,更無法創(chuàng)設(shè)優(yōu)質(zhì)的試題數(shù)據(jù)庫(kù)。
但CAT的交互性測(cè)試方面存在問題,但是并不影響人機(jī)協(xié)作式的英語語言測(cè)試模式的不斷發(fā)展。隨著大數(shù)據(jù)采集、語音識(shí)別、計(jì)算機(jī)人工智能等技術(shù)的不斷完善,計(jì)算機(jī)輔助語言測(cè)試的前景必將更為廣闊,翻譯、寫作等主觀題評(píng)分的信度和效度必將不斷提高,同時(shí)為語言測(cè)試提供更為客觀、經(jīng)濟(jì)、高效的評(píng)價(jià)方式。