王茹茹
(安徽科技學院外國語學院,安徽鳳陽233100)
?
多題多卷模式下的四級寫作測試等效性驗證
王茹茹
(安徽科技學院外國語學院,安徽鳳陽233100)
摘要:基于復本信度檢驗理論,采用MANOVA和CFA分析方法對多題多卷模式下的大學英語寫作測試進行了復本信度檢驗。實驗結(jié)果顯示:平行四級寫作測試在難度、區(qū)分度和構(gòu)念上具有較強的一致性。本實驗的價值在于,實踐上消除四級考試相關(guān)方對多題多卷模式改革的疑慮,在理論上提供比較完善的復本信度檢驗框架和方法。
關(guān)鍵詞:寫作測試;等效;驗證
為了杜絕作弊行為,打擊兜售答案牟利的不法行為,2012年12月起,大學英語四六級考試進行了“多題多卷”模式改革。所謂“多題多卷”,就是在同一個考場里同時使用多套試卷,每套試卷的考試時長、題目順序設置、題目總量完全相同,但是題目不同。從語言測試社會學的角度審視,這次改革的實質(zhì)就是運用平行卷命題技術(shù)來防止泄題等作弊問題,以保證測試的公平性。除了預防作弊,平行卷在挽救考試意外事故、測量學業(yè)進步等方面亦能發(fā)揮重要作用。
平行卷又叫復本卷、替代卷,指兩份或者多份試卷如果能夠互相替代,就可以稱其為彼此的平行卷。平行卷的總體要求是彼此之間具有較高的一致性和可比性,這種一致性和可比性即為試卷的平行性。平行性是衡量平行卷一致性的重要標準,這種平行性指的是平行卷之間的同質(zhì)性和等值性。具體而言,平行卷除了題目不同,其所測特質(zhì)、內(nèi)容范圍、題量、題型結(jié)構(gòu)、考查的能力層次、效度、難易度、區(qū)分度、測驗的長度、測驗時間、考查比例分布等方面要做到高度等值、同量、等效?!白鳛闇y量工具,一個測試要有效度,它首先必須可信”[1]。語言測試信度不高,其整體效度就難以保證。如果平行卷沒有在上述指標上做到一致或至少大體一致,就會導致平行卷之間在難度、區(qū)分度、效度等方面存在較大差異,從而造成考試的不公平。
雖然平行卷的等效性如此重要,但是既有的研究對其關(guān)注卻嚴重不足。國內(nèi)的平行卷研究主要集中在高等教育自學考試方面,諸如,林文廣先生研究了基于三段式命題和雙審制身體的自考平行試卷庫生成模式[2];趙海燕和王橋影從理論和實踐上探索了高等教育自學考試復本試卷的設計及其平行性控制、平行性的評價維度和平行性的試后初步評價等問題[3];孫恒以浙江省高考中信息技術(shù)試卷為例,研究了大規(guī)模教育考試平行試卷的設計[4]。但,在外語平行卷研究方面,僅有張紅霞和王同順對TEM4平行模擬測試的信度檢驗進行了研究[5]及張穎、盧燕、馮攀、何佳就醫(yī)師資格考試醫(yī)學綜合筆試“一卷多式”等效性問題進行了探索[6]。
在國外,平行卷研究主要出現(xiàn)在上個世紀。如Stansfield and Ross很早就從理論上指出,指出平行卷研究具有實踐和理論價值,是語言測試研究的重要議題,平行卷研究可以從效度和信度兩個方面開展[7];Brown, Hilgers, & Marsella開展了對大學寫作分班寫作測試(Writing Placement Exam?inations)的平行性研究,發(fā)現(xiàn)某大學連續(xù)兩年的分班寫作測試并不平行,從而對該測試的效度和公平性造成威脅[8];本世紀來,Breland, Lee, Najari?an, and Muraki分析了TOEFL CBT寫作測試成績在性別上的差異性,Weir and Wu調(diào)查了臺灣普通英語能力測試(the General English Proficien?cy Test)中三份口語測試的信度和內(nèi)容效度,認為該考試的信度和效度均不符合平行卷要求[9]。
由此可見,國內(nèi)外對平行卷的研究嚴重不足,國外對平行卷的研究時間較早,國內(nèi)對平行卷的研究雖然時間較近,但是主要集中于高度教育自學考試領域,對外語平行卷的研究幾乎缺位。
大學英語四六級考試的多題多卷改革,目的是解決屢禁不絕的作弊問題,但是必須保證平行卷之間的較高的同質(zhì)性和等值性,如果不能保證這一點,這個改革的危害遠大于作弊所帶來的危害。因為平行卷的不等值造成的不公具有全面性、系統(tǒng)性、公開性,作弊帶來的不公平只具有局部性、偶然性、隱蔽性。因此,對多題多卷模式下的四六級考試信度進行檢驗,為提高平行卷的同質(zhì)性和等值性提供借鑒和參考,已成當務之急。為此,本文通過對大學英語四級考試中的寫作測試進行信度檢驗,借以考查多題多卷模式下的四六級考試平行卷質(zhì)量。
因為平行試卷要求各子卷在內(nèi)容、題量、難易度、權(quán)重、試卷格式、所測的能力水平方面高度一致,所以其考試結(jié)果也應該具有一致性,這種考試結(jié)果的一致性就是復本信度,也叫等效性。從理論上,McDonald認為,平行卷考試結(jié)果的真分數(shù)、誤差分數(shù)應該具有一致性,各卷誤差分數(shù)應該與真分數(shù)不相關(guān),各誤差分數(shù)之間也互不相關(guān)。事實上,我們只能獲得觀察分數(shù),不可能獲得真分數(shù)和誤差分數(shù),為此,Cronbach提出基于了觀察分數(shù)的復本信度的估計方法:各平行卷考試分數(shù)或結(jié)果在平均值、方差和因子結(jié)構(gòu)是否存在統(tǒng)計學上的顯著差異,如果這些指標無顯著差異,說明平行卷信度可靠,否則信度則不可靠。但是,在實際操作中,只有考試分數(shù)的平均值、方差被認為是平行卷檢驗的最重要指標,很少有人用因子結(jié)構(gòu)恒等性對平行卷進行信度估計,這可能是因為因子結(jié)構(gòu)檢驗的方法過于復雜所致。事實上,因子結(jié)構(gòu)恒等性檢驗是更為嚴格的信度檢驗,它能夠考察平行卷考查的寫作能力數(shù)量、寫作能力之間的相關(guān)、寫作能力結(jié)構(gòu)是否一致,作為信度檢驗方法更為令人信服。在實踐中,學者張紅霞、王同順用spearman等級相關(guān)法對TEM4平行模擬試題進行復本信度檢測,孫恒先生則用因子分析和難度比較法對高考試題信息技術(shù)試題進行復本信度檢測,張穎、趙海燕、王橋影等學者以均值為難度指標,以方差為區(qū)分度指標,對醫(yī)學專業(yè)考試的復本信度進行檢驗。觀照復本信度估計理論,這些檢驗方法只涉及到復本信度估計的一個或幾個方面,尚不全面。
基于復本信度檢驗理論,本研究對2013年12月多題多卷模式下的大學英語四級考試中的3個平行寫作測試成績的內(nèi)容、語法、連貫、長度等4個變量進行如下假設并對假設進行檢驗,其中Y1,Y2,Y3分別代表平行寫作測試1-3:
(1)4個變量的方差一致,用公式表示如下:
(2)4個變量的平均值一致,用公式表示如下:
(3)3個平行卷考查的寫作能力結(jié)構(gòu)一致,用公式表示如下:ΛΨΛ′(Y1)=ΛΨΛ′(Y2)=ΛΨΛ′(Y3).如果假設成立,則復本信度達到要求,否則,復本信度不符合要求。
(一)樣本抽取和變量設定
樣本是研究者所在大學(公立二本理工科院校)理工科和文科專業(yè)中隨機抽取的大二上學期學生58人,為了保證樣本的代表性,注意了樣本學生的專業(yè)平衡和性別平衡,其中,文科、理科和工科學生分別為18人、20人和20人,男生和女生分別為30和28人。
(二)研究工具
四級寫作測試題:2013年12月大學英語四級寫作測試題。該次四級考試給出了3個平行寫作測試,從測試形式上來看,均是提示性圖畫作文,題目給出一幅漫畫,畫面底下有話中人物的對話內(nèi)容或漫畫說明,要求考生對圖畫進行簡單的描述,并且根據(jù)圖畫所表示的主題進行論述;從寫作內(nèi)容要求上來看,三個平行寫作測試都是高度關(guān)注社會熱點,作文的內(nèi)容關(guān)于網(wǎng)絡、關(guān)于手機、關(guān)于人際溝通等;從圖畫數(shù)量(1幅)、寫作時長(30分鐘)和寫作長度(120-180詞)來看,三個寫作測試也都是保持一致。下面對三個寫作測試題目進行簡要描述,同時為了研究的方便,對其分別編碼:
第一個題目(Y1):圖畫表現(xiàn)的是一對夫婦正在通過網(wǎng)絡與兒子交流,畫面底部的英文提示是丈夫通過網(wǎng)絡跟兒子的留言:“親愛的Andy,你還好嗎?我和你媽媽都還好,我和你媽媽都很想念你,希望你平安。希望下次你電腦壞了,下樓來找東西吃時,我們能見到你。愛你的爸爸和媽媽?!甭嫷闹黝}是網(wǎng)絡對人們溝通的影響。
第二道題目(Y2):圖畫中展現(xiàn)的是師生對話,一個學生拿著手機對父親說:“如果我一旦掌握了谷歌搜索,這不就是所有我需要接受的教育了嗎?”漫畫的主題是網(wǎng)絡對教育的影響。
第三道題目(Y3):圖片是一個漫畫,漫畫底部的英文提示是:很多人在過馬路,過馬路的時候,他們眼睛盯著自己的手機,卻用拐杖來探路。漫畫主題是手機對人們生活的影響。
圖1四級寫作測試圖片
(三)實驗程序
實施寫作測試:平行卷寫作測試分三場進行,每場測試30分鐘,要求所有的樣本學生都參加,并且在答題紙上標明真實的姓名;為了消除疲勞效應,測試為每天一場,每場一題。
評分:考試完畢后,對考生的寫作成績從內(nèi)容、語法、連貫、長度等四個方面進行評分。內(nèi)容指作文是否與主題相關(guān),連貫是語篇的段落和思想在意義或功能上互相聯(lián)系的程度,語法指的是詞形、短語和句子是否符合規(guī)則,長度指除開標點外的詞語數(shù)量。對內(nèi)容、語法、連貫的評分基于0-4級量表評分,允許給0.5分,評分標準參照Bae and Bachman (2010)的研究成果,為了節(jié)省篇幅,這里不對評分標準進行闡述。為了保證評分的準確性,內(nèi)容、語法、連貫等分別由兩位高校教齡10年以上、副高職稱以上老師評分,最終成績?yōu)槿齻€分數(shù)的平均值,正式評分之前進行評分培訓和試評,在正式評分時,如果發(fā)現(xiàn)兩位老師的評分等級差異超過1.5,則要求再評。作文長度由一個老師評分,最后把通過統(tǒng)計把每份作文的長度轉(zhuǎn)換到5級量表中相應的級別。
數(shù)據(jù)收集和分析:考試完畢后,以內(nèi)容、語法、連貫、長度為因變量,以平行卷編碼為自變量,把數(shù)據(jù)輸入SPSS16.0進行統(tǒng)計分析。對于假設1,采用多元方差分析(MANOVA)進行檢驗;對于假設2,采用方差齊性檢驗進行驗證;對于假設3,采用驗證性因子分析(CFA)進行檢驗。
為了保證評分信度,本文用斯皮爾曼等級相關(guān)對評分信度進行了檢驗,檢驗結(jié)果顯示,內(nèi)容、連貫、語法等方面的評分者相關(guān)系數(shù)圍分別為.801、.821和.952之間,說明評分信度很高,評分一致性較強,評分結(jié)果有效。剔除無效答卷5份,有效樣本答卷為53份。表1顯示,3份平行寫作測試的各項成績在均值和標準差等指標上的差異不是很大,內(nèi)容分數(shù)的均值和標準差范圍分別為1.88-2.02和0.71-0.77,連貫分數(shù)的均值和標準差范圍分別為2.00-2.04和0.70-0.82,語法分數(shù)的均值和標準差范圍分別為2.18-2.27和0.60-0.65,長度分數(shù)的均值和標準差范圍分別為3.73-.95和 0.89-1.03,憑直覺判斷,三份平行寫作測試的內(nèi)容、連貫、語法和長度等項目上的成績似乎在均值和標準差方面無顯著差異。下面采用單因素方差分析(One-way ANOVA)對假設1和假設2進行驗證。
表1描述性統(tǒng)計
(一)假設1和假設2檢驗
單因素方差檢驗設計如下:以平行卷為自變量,自變量有三個水平,分別是平行卷1、平行卷2和平行卷3;以內(nèi)容、語法、連貫、長度為因變量,多重比較方法為LSD(用T檢驗完成組間成對均值的比較)。如表2,Levene’s test方差齊性檢驗結(jié)果為:內(nèi)容分數(shù),p = .686;連貫分數(shù),p = .512;語法分數(shù),p = .765;長度分數(shù),p = .068;df1 = 2, df2 = 50。方差齊性的差異性顯著水平均大于.05,特別是內(nèi)容、連貫、語法等變量的p值在.512-.765之間,遠遠大于.05的差異顯著性水平,所以,四級平行寫作卷內(nèi)容、連貫、語法、長度成績等4個指標方差齊性的假設不能被拒絕,可以認為4個指標的方差相等。
如表2,單因素方差分析結(jié)果也顯示,內(nèi)容分數(shù)、連貫分數(shù)、語法分數(shù)和長度分數(shù)等指標的均數(shù)在平行卷之間差異未達到不顯著水平,其F值分別為1.432、1.233、1.533、1.823,都屬于較低水平;P值在0.162-0.817之間,都大大高于0.05顯著性水平。說明三份平行卷在內(nèi)容、連貫、語法、長度成績上的均值非常接近。原假設可以接受:內(nèi)容、連貫、語法、等的長度成績均數(shù)在平行卷間一致。
表2方差檢驗結(jié)果
(二)假設3檢驗
圖2 英語寫作能力結(jié)構(gòu)模型
為了驗證四級寫作測試中的三份平行卷是否考查了相同的寫作能力結(jié)構(gòu),本實驗對考試成績進行了結(jié)構(gòu)恒等性檢驗。一般來說,外語寫作能力結(jié)構(gòu)由內(nèi)容的切題性、命題的連貫性、語法的正確性、文本的長度等因素構(gòu)成,且各個因素之間既有獨立性,又存在相關(guān)性。據(jù)此,本文運用Amos軟件繪制圖1所示的寫作能力結(jié)構(gòu)模型,模型由潛變量(大圓圈)、觀察變量(方框)、測量誤差變量(小圓圈)構(gòu)成,雙箭頭表示變量間的相關(guān)或協(xié)方差,單箭頭表示潛變量對觀察變量路徑系數(shù),單箭頭出發(fā)端的變量是自變量,單箭頭所指的變量為因變量。在本模型中,潛在變量分別為內(nèi)容、連貫和語法,但是不包括長度因素,觀察變量為兩位評分老師對內(nèi)容、連貫和語法的評分。
之所以把文本長度排除在結(jié)構(gòu)方程模型的潛變量之外,是因為潛變量要求用至少2個觀察變量來顯示,而本實驗中,考慮到長度評分比較客觀,文本長度只由一人評分,意味文本長度因素只有一個觀察變量,不符合建模要求;再者,在結(jié)構(gòu)恒等性檢驗中,模型中的因素多少并不重要,重要的是能夠驗證納入模型的協(xié)方差、方差、因素負荷等指標在各個群組之間具有恒等性。
本實驗執(zhí)行的是較為嚴格多群組結(jié)構(gòu)恒等性檢驗,通過多群組分析(Multiple-Group Analysis)程序,設三個平行卷考試成績的因素負荷、潛變量的協(xié)方差、方差相等。采用ML(最大似然)進行估計,估計的結(jié)果(表3)表明假設成立。表3顯示:卡方值P=0.147,大于0.05顯著性概率;Chisquare/df(卡方自由度比)=1.27,也在適配標準1-3之間;RMSEA=0.024,為良好水平;CFI、GFI分別為0.934和0.965,都大于0.90,符合適配標準。因此,主要適配指標全部達到模型適配標準,表明寫作能力結(jié)構(gòu)模型的因素符合、潛變量協(xié)方差、方差具有恒等性,假設3四級平行寫作測試考查的寫作能力結(jié)構(gòu)相同成立。
表3模型適配度估計結(jié)果
通過對假設1和假設2進行檢驗,沒有發(fā)現(xiàn)內(nèi)容、連貫、語法或長度等方面成績的方差和均數(shù)在平行卷之間存在差異。語言測試理論認為,均數(shù)可以代表測試的難度,因此,均數(shù)一致就可以說明四級寫作平行卷在內(nèi)容、連貫、語法等方面的難度一致,能夠使考生寫出長度大致相等的文本。從考生立場上來說,難度相等也意味著考生展示寫作能力的機會平等。
方差是表示成績分數(shù)的離散程度,從語言測試學來看,它可以代表區(qū)分度。三份平行卷在內(nèi)容、連貫、語法和長度上的方差齊性,說明四級寫作平行測試在區(qū)分度上有較高的一致性。難度和區(qū)分度是評價試卷的重要指標,從難度和區(qū)分度來看,四級寫作平行卷在設計上還是比較成功的。
運用結(jié)構(gòu)恒等性檢驗,驗證了假設3,三份四級寫作卷寫作能力結(jié)構(gòu)模型中的潛變量因素負荷、潛變量之間的協(xié)方差、因變量的方差等都具有相等性,說明結(jié)構(gòu)模型適用于每份平行卷。協(xié)方差用來測量因素之間的相關(guān),協(xié)方差在三份寫作平行卷之間具有恒等性,說明每份試卷的因素相關(guān)基本相同,平行卷考查了相同的寫作能力:內(nèi)容、連貫和語法;因素負荷具有恒等性,說明結(jié)構(gòu)因素(內(nèi)容、連貫和語法)對考生的成績影響是相同的;方差具有恒等性,說明三份寫作平行卷具有同樣的區(qū)分度,這與假設1的中的One-way ANO?VA的方差齊性驗證結(jié)構(gòu)相吻合。以往的類似研究主要以因子分析(factor analysis)來檢驗平行卷結(jié)構(gòu)的一致性[4],因子分析只能比較平行卷的因子構(gòu)成數(shù)量、因子負荷等系數(shù),與之相比,結(jié)構(gòu)恒等性檢驗照顧了因子負荷、因子之間的相關(guān)、因子的路徑系數(shù)等、因子方差等等多重可比性指標,顯得更為完善和科學,也更嚴格。
總之,從因子方差、均數(shù)、結(jié)構(gòu)的一致性來說,多題多卷模式中的大學英語四級平行寫作測試具有較高的復本信度,從難度、區(qū)分度、考查的寫作能力等值方面來說,多題多卷模式中的寫作測試命題是成功的。本次的研究對象是圖畫+提示型的寫作題目,未來我們還可以對其它形式的四級寫作平行卷進行檢驗。
本次實驗的價值如下:(1)實踐價值在于,檢驗了大學英語四級寫作平行卷的信度,消除了大學英語四級考試相關(guān)方對多題多卷的疑慮;(2)理論價值在于,為平行卷等效檢驗提供了比較科學和周密的理論框架和檢驗方法。能夠為其它題型(如完型填空、閱讀理解、多項選擇)或其它種類的外語測試平行卷信度檢驗提供理論方面的啟示和實踐方面的借鑒。過去的平行信度檢驗只顧及難度、區(qū)分度、結(jié)構(gòu)等其中一個或兩個方面,本實驗則把這些因素全部納入檢驗范圍,并且采取了提供了的操作性較強的的方法。
平行卷具有多重功用,它不僅有杜絕作弊的功能,還可以在修補考試意外、準確評價學業(yè)進步評估中起到關(guān)鍵作用。如果一次外語考試因為地震、火災等不可抗拒的意外事故失敗,我們可以用其平行卷取而代之;在教學或科研中,如果想了解被試的學業(yè)進步情況,可以用平行卷進行前測和后測,再比較兩者的差異。所以,對平行卷的命題和檢驗進行研究頗具重要性。
參考文獻:
[1]Heaton, J. B. Writing English language tests[M]. Bei?jing: Foreign Language Teaching and Research Press, 2000.162—165.
[2]林文廣.基于三段式命題和雙審制審題的自考平行試卷庫生成模式[J].中國考試,2006(8):26-33.
[3]趙海燕,王橋影.高等教育自學考試復本試卷平行性的試后初步評價[J].中國考試,2011(5):13-19.
[4]孫恒.大規(guī)模教育考試平行試卷的設計[J].教育科學,2011 (6):13-16.
[5]張紅霞,王同順.TEM4平行模擬測試信度及差異檢驗[J].教育與現(xiàn)代化,2003(4):23-29.
[6]張穎,盧燕,馮攀,何佳.醫(yī)師資格考試醫(yī)學綜合筆試“一卷多式”等效性研究[J].中國考試,2012(2):44-49.
[7]Stansfield, C. W., & Ross, J. A long- term research agenda for the Test of Written English[J]. Language Test?ing, 1988(5): 160–186.
[8]Brown, J. D., Hilgers, T., & Marsella, J. Essay prompts and topics: Minimizing the effect of differences [J]. Written Communication, 1991( 8): 532–555.
[9]Weir, C. J., & Wu, J. R. W. Establishing test form and individual task comparability: A case study of a semi-direct speaking test[J]. Language Testing, 2006, 23: 167–197.
責任編校秋晨
作者簡介:王茹茹(1984-),女,山東巨野人,安徽科技學院外國語學院助教。
基金項目:安徽省省級質(zhì)量工程項目“大規(guī)模在線開放課程(MOOC)示范項目大學英語讀寫”(2014mooc037)
收稿日期:2015-12-18
中圖分類號:H319
文獻標識碼:A
文章編號:2095-0683(2016)01-0146-06