侯仁鋒 今井新悟 丸山浩明
(縣立廣島大學(xué),日本廣島7348558;筑波大學(xué),日本茨城3058577)
計算機(jī)自適應(yīng)性漢語考試的開發(fā)
侯仁鋒 今井新悟 丸山浩明
(縣立廣島大學(xué),日本廣島7348558;筑波大學(xué),日本茨城3058577)
我們正在開發(fā)一個新型考試,從使用方法和考試形式來說,可稱之基于網(wǎng)絡(luò)的計算機(jī)自適應(yīng)性漢語考試(C-CAT:Chinese Computerized Adaptive Test)。C-CAT的最大特點是,基于項目反應(yīng)理論(IRT:Item Response Theory)開發(fā),試題自身具有絕對的尺度,計算機(jī)自動分配給最適應(yīng)被試能力的試題,考試過程是一個動態(tài)性的,能在短時間內(nèi)更客觀、更準(zhǔn)確地測試出被試的能力水平。本文首先根據(jù)被試特點,論及了該考試的性格和測試內(nèi)容框架。之后從理論和實踐上探討了為什么開發(fā),其可能性何在?在此基礎(chǔ)上,考察了IRT和CAT在目前一些大規(guī)模漢語考試上的應(yīng)用。最后,在簡約地介紹了計算機(jī)考試發(fā)展的來龍去脈的基礎(chǔ)上,闡述了該考試系統(tǒng)設(shè)計、特點、C-CAT的構(gòu)成和優(yōu)勢所在。
漢語考試;計算機(jī)自適應(yīng)性考試;項目反應(yīng)理論;研制開發(fā)
隨著信息時代的到來,語言考試也開始了計算機(jī)在線測試,漢語考試也不例外。我們基于項目反應(yīng)理論(IRT:Item Response Theory)正在研究開發(fā)的“漢語計算機(jī)自適應(yīng)性考試”(C-CAT:Chinese Adaptive Test),是一種新型考試,計算機(jī)將根據(jù)考生水平自動給出適合考生能力的試題,可在短時間,以少量試題準(zhǔn)確地測試出考生水平,可大大地提高考試效率。
這一考試系統(tǒng)的構(gòu)建,需要三個條件,分別是計算機(jī)、網(wǎng)絡(luò)、以及項目反應(yīng)理論。前兩者是硬件,后一項屬于理論應(yīng)用,也可稱為軟件,三者缺一不可。項目反應(yīng)理論本身已有50多年的歷史,高性能的計算機(jī)、高速度的網(wǎng)絡(luò)的出現(xiàn),才使這個考試有了可能。從這個意義上說,計算機(jī)自適應(yīng)性考試的研究開發(fā)和構(gòu)建是時代的產(chǎn)物。
無論什么考試,在設(shè)計之前,必須了解清楚考試對象,即生源狀態(tài)??梢哉f這是設(shè)計考試最重要的依據(jù)之一,關(guān)系到考試的目的。為了把握考生的情況,有必要從量和質(zhì)(水平)兩方面進(jìn)行調(diào)查。這里,首先我們想規(guī)定本考試的主要對象是學(xué)習(xí)漢語的日本人。當(dāng)然,因為C-CAT是在線考試,所以也不能排除其他國家的漢語教育機(jī)構(gòu)和漢語學(xué)習(xí)者個人利用本考試的可能性。盡管如此,我們還是以學(xué)習(xí)漢語的日本人為本考試的主要對象,是為本考試設(shè)計的前提。那么,日本的漢語學(xué)習(xí)者的現(xiàn)狀如何呢?下面從量和質(zhì)兩個方面進(jìn)行討論。
(一)考試對象的量
首先,根據(jù)漢語水平考試(HSK)的日本網(wǎng)站(http://www.hsk.jp/about/business)顯示,“日本國內(nèi)學(xué)習(xí)漢語的人數(shù)一直呈上升趨勢,已突破200萬人”。這可以說是近年來漢語學(xué)習(xí)者的保有量。從這一數(shù)據(jù)看,日本可以說是世界上公認(rèn)的漢語學(xué)習(xí)者最多的國家之一。
此外,根據(jù)郭(2014)的論文,“全日本大學(xué)漢語專業(yè)的學(xué)生每年不超過1000人,而選修2外漢語的學(xué)生,每年近16萬。可以說是日本學(xué)習(xí)漢語人數(shù)最多的基地。而大部分學(xué)生又都是從零基礎(chǔ)開始……”由此可知,日本大學(xué)生漢語學(xué)習(xí)者非常多。
同時,根據(jù)《日本新華僑報網(wǎng)絡(luò)版》(2015)的報道[1],“(標(biāo)題)為何日本人海外留學(xué)目的地首選中國?近年來,隨著全球化經(jīng)濟(jì)形勢不斷發(fā)展,日本學(xué)生對赴海外留學(xué)關(guān)注度高漲。日本文部科學(xué)省日前公布的統(tǒng)計數(shù)據(jù)顯示,2012年度赴海外留學(xué)的日本學(xué)生6萬138人,較上一年增加2637人,時隔8年增加。其中,將中國作為留學(xué)目的地的日本人數(shù)最多,超過2萬1000人。”不難推斷,這些人中,漢語學(xué)習(xí)者應(yīng)該不在少數(shù),而且未來將出現(xiàn)高水平的學(xué)習(xí)者。
(二)考試對象的質(zhì)
再來看一下漢語檢定考試(中國語検定)考生的情況。根據(jù)日本漢語檢定協(xié)會在其主頁上公布的數(shù)據(jù)顯示,5年間(2010—2014)實際考生人數(shù)如表1所示。
表1 2010—2014年考生人數(shù)
為更直觀地觀察各級別考生人數(shù)分布,按級別的累計人數(shù)做成了柱狀圖,圖一。準(zhǔn)4級水平最低,依次遞進(jìn),1級最高。
從圖一可知,參加3級考試的考生最多,其他各級別考生人數(shù)的分布一目了然。
圖一 考生級別分布
(三)考察
由上表和上圖可知,考試對象有三個特點。第一,日本漢語學(xué)習(xí)者和考生都很多,而且考生幾乎都是大學(xué)生,為該考試提供了開發(fā)前提。第二,學(xué)習(xí)者大部分都為初級或中級入門水平,為該考試系統(tǒng)的定位提供了依據(jù)。第三,因此本考試必須反映教學(xué)水平,試題庫中應(yīng)多收納初、中級試題。
語言測試依據(jù)的理論模型主要有兩種,一是“經(jīng)典測試?yán)碚摚–TT:Classical Test Theory)”,二是“項目反應(yīng)理論”。兩種理論模型對現(xiàn)代語言測試的開發(fā),保證質(zhì)量,保證考試的信度和效度都有重要意義。如前所述,本考試的研究開發(fā)依據(jù)的是項目反應(yīng)理論。為了理解項目反應(yīng)理論的應(yīng)用,這里有必要首先簡單介紹一下經(jīng)典測試?yán)碚摰膽?yīng)用。
目前,絕大多數(shù)的一般考試,都是依據(jù)經(jīng)典測試?yán)碚撛O(shè)計和開發(fā)的。依據(jù)經(jīng)典測試?yán)碚撛O(shè)計的考試,其試題的難易度和區(qū)分度是根據(jù)參加考試的所有考生的答對率算出來的。由此可知,即使是同一份試卷,考生水平高試題就顯得相對容易,而水平低試題就顯得相對難,也就是說試題本身不具有絕對的難易度。例如,100分的試卷,考生考了90分,無法判斷這90分是因為考生水平高所得,還是因為試題過于容易所得??芍?,某個考生的水平是一定的,如果考生群體發(fā)生變化,該考生的成績(排名)也會隨之改變。即,經(jīng)典測試?yán)碚摰牡梅质强忌后w和試題相互依賴的,不會得到一個恒定的成績,所以考試結(jié)果缺少信度。這也是經(jīng)典考試?yán)碚摫辉嵅〉淖畲笤?。為改善這一問題,便出現(xiàn)了項目反應(yīng)理論。
相對于經(jīng)典測試?yán)碚摰木窒扌?,項目反?yīng)理論旨在使考生能力與試題相對獨立,使試題的難易度和區(qū)分度等特性與考生群體相對獨立,以使試題具有恒定不變的參數(shù)(難易度)。
關(guān)于項目反應(yīng)理論的論文和研究成果有很多,需要詳細(xì)參考的可自行查閱。這里,我們僅從在考試中的應(yīng)用角度,引用今井(2012:157)的研究進(jìn)行簡單介紹:
“項目反應(yīng)理論使用的是邏輯回歸得分,從而使經(jīng)典測試?yán)碚摬豢赡茏龅降脑囶}等化成為了可能。因此,可以對每個人的整體試卷的難易度都會進(jìn)行自動調(diào)節(jié),算出不變的成績(得分)。這樣就消除了考生群體變化所造成的成績變化。此外,根據(jù)項目反應(yīng)理論,能力值在理論上是無限的,但在實際考試中,能力值一般會收斂在某個范圍之內(nèi),因此可以將能力值轉(zhuǎn)換成百分制,便于理解。由此,該考試可以做到無論是誰、在任何時間參加考試,不管考幾次,都會隨機(jī)配置一套最適合該考生能力的試題,而得到不會發(fā)生變化的分?jǐn)?shù),保證了得分的可信度,也就是保證了考試的穩(wěn)定性。因此也就可以做到考生和考生,自己和自己(在一定的間隔時間內(nèi))進(jìn)行比較?!北究荚囅到y(tǒng)也是如此應(yīng)用項目反應(yīng)理論進(jìn)行研究開發(fā)和構(gòu)建。
考試如果按照使用媒介分類,可以分成二大類。一是Pencil&Paper Test(PPT)式的考試,另一種是使用計算機(jī)作為終端的考試。后者又分為Computer Based Testing(CBT)和Computerized Adaptive Test(CAT)兩種方式。最初的計算機(jī)考試只是單純地將PPT式考試計算機(jī)化,進(jìn)而發(fā)展出只有靠計算機(jī)才能實現(xiàn)的命題形式和考試形式。在此基礎(chǔ)上,CBT繼續(xù)發(fā)展,而出現(xiàn)了Computerized Adaptive Test(CAT)。
計算機(jī)測試從CBT發(fā)端,通過引入前文所述的IRT,經(jīng)過預(yù)測,事先給試題賦予難易度和區(qū)分度等參數(shù)成為了可能。在CAT中,將導(dǎo)入試題庫的這種試題,根據(jù)考生答題情況,會隨機(jī)給出不同難易度的試題。為了更好地理解這個原理,這里我們以所有人都經(jīng)歷過的視力檢查為例進(jìn)行說明。視力檢查時,檢查者會給出一個比較大的文字或圓環(huán),詢問被檢查者是否能夠看到文字或圓環(huán)缺口,根據(jù)被檢查者的回答,檢查者會給出下面的文字或圓環(huán),或大或小。這正與答題情況相仿,答對了會給相對難一些的試題,答錯了會給相對容易一些的試題。CAT的這種測試方式,可大大地縮短考試時間,也能提高考試精度。這里可以看到,雖然每個考生的試題都是動態(tài)的,但由于基于項目反應(yīng)理論對試題的難易度進(jìn)行了等化,因此保證了得分的不變性和可信性。
為了了解IRT和CAT在漢語考試中的運(yùn)用情況,我們對目前現(xiàn)行的幾個大型漢語考試進(jìn)行了分析,應(yīng)用情況如下。
目前,在日本舉行的大型漢語考試主要有漢語檢定考試(中國語検定)、漢語交際能力考試檢定(TECC)、漢語水平考試(HSK)、實用漢語等級認(rèn)定考試(C.TEST)等。前兩個是日本開發(fā)的,后兩個是中國開發(fā)的。
(一)漢語檢定考試(中國語検定)
該考試是一般財團(tuán)法人日本漢語檢定協(xié)會開發(fā)實施的。從考試設(shè)計、級別劃分,到使用紙質(zhì)試卷和原始分等,可以看出是典型的基于經(jīng)典測試?yán)碚撻_發(fā)的考試。
(二)漢語交際能力檢定(TECC:Test of Communicative Chinese)
最佳反應(yīng)溫度窗口內(nèi)停留時間指還原劑在爐膛適合溫度區(qū)間停留時間。增加停留時間能夠使傳質(zhì)過程和化學(xué)反應(yīng)比較充分,可以提高NOx的脫除率。
這個考試最大的特點之一,就是如其主頁上公布的“TECC的分?jǐn)?shù)是基于項目反應(yīng)理論算出的”??梢娭皇欠?jǐn)?shù)計算應(yīng)用了項目反應(yīng)理論,但考試本身不是計算機(jī)自適應(yīng)性考試。因為計算機(jī)自適應(yīng)性考試是根據(jù)考生對每道試題的回答來決定出下一道試題,紙質(zhì)試卷無法做到這種動態(tài)考試。
(三)漢語水平考試(HSK:hanyushuipingkaoshi)
在數(shù)種漢語考試中,HSK是世界漢語教學(xué)中知名度最廣的。據(jù)其日本實施委員會運(yùn)營的網(wǎng)站說明,該考試的特征是“聽力、閱讀、寫作分別記分。分?jǐn)?shù)的計算運(yùn)用了TOEIC等歐美考試廣泛應(yīng)用的項目反應(yīng)理論”??梢?,這個考試也是基于項目反應(yīng)理論算出分?jǐn)?shù)的。雖然該考試也有CBT形式,但從考試實施形態(tài)看,仍然不是計算機(jī)自適應(yīng)性考試。
(四)實用漢語水平認(rèn)定考試(C.TEST:Test of Practical Chinese)
C.TEST是北京語言大學(xué)漢語考試研究中心開發(fā)的一個考試,其目的是供非留學(xué)為目的的學(xué)習(xí)者測試漢語水平。該考試劃分多個等級,報分詳細(xì),考生可以很詳細(xì)地了解自己的水平,得分算法是否依據(jù)了項目反應(yīng)理論尚不可知。此外,該考試不是CBT,也不是自適應(yīng)性考試。
從上述概況可知,漢語考試還沒有一個真正意義上的計算機(jī)自適應(yīng)性考試。但據(jù)了解,日本有個別大學(xué)開發(fā)了這種小規(guī)模的考試。鑒于這種現(xiàn)狀,我們正在研究開發(fā)可以測試通用漢語水平的CAT考試系統(tǒng)。
(一)TOEFL
TOEFL是世界上最知名的考試之一,由美國最大的考試實施團(tuán)隊Educational Testing Service(ETS)開發(fā),該考試曾在一段時間內(nèi)使用過CAT,但隨著新考試形式TOEFL-iBT的出現(xiàn)而放棄了使用。TOEFL-iBT是CBT而非CAT。此外,使用CAT的英語考試還有“GMAT MBA標(biāo)準(zhǔn)考試”、“CASEC日語母語者英語考試”等。
該考試名稱為“J-CAT(Japanese Computerized Adaptive Test)日語計算機(jī)自適應(yīng)性考試”,是測試非日語母語者日語能力的考試,是在線運(yùn)行的CAT。經(jīng)過近10年的運(yùn)行,系統(tǒng)穩(wěn)定,考生眾多,與其他考試相關(guān)性也很高。因此,我們開發(fā)的漢語CAT考試也主要使用了該系統(tǒng),并作了一些改進(jìn)。
C-CAT由系統(tǒng)和試題庫兩大部分組成,系統(tǒng)基本利用了J-CAT系統(tǒng),在該系統(tǒng)上搭載了漢語試題庫而構(gòu)成。
(一)采用模型
首先由專家出題,然后進(jìn)行預(yù)測。使用考生答題數(shù)據(jù),對每道試題基于項目反應(yīng)理論計算出難易度參數(shù)。項目反應(yīng)理論有使用一個參數(shù)的單參數(shù)模型,二個參數(shù)的雙參數(shù)模型,三個參數(shù)的三參數(shù)模型,C-CAT采用的是單參數(shù)模型(Rasch Model)。這也是歐洲和澳洲標(biāo)準(zhǔn)的參數(shù)模型[2],有很好的實用性[3]。
(二)測試領(lǐng)域和對象
C-CAT是使用計算機(jī),經(jīng)由網(wǎng)絡(luò),測試漢語熟練程度的考試。只要計算機(jī)在線,無論何時何地均能免費參加考試??荚囉陕犃Α⒃~匯、語法、閱讀4部分組成,答題形式是標(biāo)準(zhǔn)的四選一題型。
C-CAT是測試一般性漢語能力的考試,而非測試特殊目的的漢語能力考試。
考試對象是日本國內(nèi)外漢語學(xué)習(xí)者。學(xué)習(xí)者可以通過個人注冊,參加考試了解自己的漢語水平,過一段時間(推薦6個月以上)再次參加考試,可以確認(rèn)自身漢語能力提高情況。當(dāng)然,大學(xué)等教育機(jī)構(gòu)、公司等團(tuán)體也可以像一般考試那樣利用本考試。
聽力、詞匯、語法、閱讀各單元滿分是100分,合計400分??荚嚱Y(jié)束直接顯示成績。提供成績證書,可下載保存或直接打印。考試不分級別,無論什么水平都能同樣參加考試,因此無需預(yù)先決定參加哪一級考試。系統(tǒng)會根據(jù)考生漢語水平,自動給出不同的試題。
(三)C-CAT的機(jī)制
在線C-CAT系統(tǒng),首先服務(wù)器從試題庫中選出幾道試題,經(jīng)由網(wǎng)絡(luò)發(fā)送到考生的計算機(jī)終端,考生看著屏幕進(jìn)行解答。答題結(jié)果再經(jīng)由網(wǎng)絡(luò)傳回,服務(wù)器基于項目反應(yīng)理論對考生的解答進(jìn)行運(yùn)算,推測出考生的初次能力值。之后,從試題庫中檢索出難易度最符合該能力考生的試題,再次發(fā)送到考生終端。如此反復(fù),當(dāng)能力值誤差收斂到一定范圍內(nèi)時,考試結(jié)束,便確定了其最終能力值。
下面是自適應(yīng)性考試給出試題和推測能力值變化關(guān)系的示意圖?!鸨硎净卮鹫_,×表示回答錯誤?;卮鹫_會再出稍微難一點兒的試題,回答錯誤會出稍微簡單的試題,這樣反復(fù)下去,誤差漸漸縮小,難易度的變化也漸漸減小,最終能力值收斂到一定(設(shè)定)范圍。
圖二 自適應(yīng)性考試給出試題和能力值收斂關(guān)系示意圖(引自今井(2012:8))
當(dāng)考生作答了相當(dāng)數(shù)量的試題后,因為某種原因而誤差沒有減小到標(biāo)準(zhǔn)值以內(nèi),此時,只要回答的試題超過一定(設(shè)定)數(shù)量,考試也會結(jié)束。
以上一系列流程均自動運(yùn)行,且系統(tǒng)是根據(jù)不同考生給出相應(yīng)的試題,因此被稱為自適應(yīng)性考試。
C-CAT是在線計算機(jī)自適應(yīng)性考試,以漢語學(xué)習(xí)者為對象,不受時間地點限制,可以隨時參加考試。主要具有以下優(yōu)點:
(1)考試基于項目反應(yīng)理論設(shè)計,實現(xiàn)了不依賴考生群體的恒定的測試尺度,有較高的信度。
(2)由于使用了計算機(jī)開發(fā)試題和考試,能命制出紙質(zhì)考試無法實現(xiàn)的試題以及實現(xiàn)動態(tài)性考試,可提高考試的真實性(authenticity)。
(3)系統(tǒng)根據(jù)考生答題情況而給出最適合該考生的試題,考試針對性強(qiáng),能提高考試效率,縮短考試時間,并且能提高考試精度。
(4)考試結(jié)束,即時顯示考試成績。
(5)免去使用大量紙張,堪稱環(huán)??荚?。
注釋:
[1]源自《日本新華僑報網(wǎng)》(網(wǎng)絡(luò)版作者:郭桂玲發(fā)布時:2015/04/09)http://www.jnocnews.jp/news/show.a(chǎn)spx?id=80632
[2]“為了解決這個問題,丹麥數(shù)學(xué)家Rasch,G.提出了一個解決模型,這就是將考生能力值和試題難度分別獨立,不相互依賴。其后,以芝加哥大學(xué)Wright,B.氏為中心,對該模型進(jìn)行了研究與普及推廣,在歐洲和澳洲被視為標(biāo)準(zhǔn)的語言測試分析模型?!保ɡ钤阪€2015:219)。
[3]“三個模型各有特點:雙參數(shù)模型在推算準(zhǔn)確性上見長,三參數(shù)模型在獲得信息量上見長,而單參數(shù)模型則在‘實用性’上見長(大友賢二1991:2)。單參數(shù)模型也使用開發(fā)者的名字稱為Rasch Model模型,在采樣標(biāo)本較少(100-200)時可用且有效(大友賢二1991:2),這個模型在選題時必須剔除掉區(qū)別度底的試題,才能發(fā)揮出其'實用性'的優(yōu)勢。在語言測試研究中,這一參數(shù)模型使用的最多。”(石田敏子《日語測試入門》大修館書店1992:216)。
大友賢二:《項目反應(yīng)理論-TOEFL?TOEIC的機(jī)制-》,《電子信息通信學(xué)會雜志》,2009年第12期。
今井新悟編著,赤木彌生、中園博美:《J-CAT正式指南計算機(jī)自動評分日語考試》,東京:COCO出版,2012年。
菊池賢一、今井新悟、中村洋一、平村健勝:《關(guān)于日語計算機(jī)自適應(yīng)性考試J-CAT》,《日本行動計量學(xué)會第38屆大會抄錄集》,2010年。
李在鎬:《日語教育用語言測試指南》,東京:kuroshio出版,2015年。
石田敏子:《日語測試入門》,東京:大修館書店,1992年。
小山由紀(jì)江:《測試的歷史變遷與計算機(jī)自適應(yīng)性測試的意義》,《New Directions》,2010年。
The Development of Chinese Computerized Adaptive Test
HOU Renfeng&Imai Shingo&Maruyama Hiroaki
(Prefectural University of Hiroshima,Hiroshima 7348558 Japan;University of Tuskuba,ibaraki3058577 Japan)
We are developing a new type of test,which is called Chinese Computerized Adaptive Test(C-CAT)due to themethods and forms that it uses.The advantages of C-CAT are distinct and overwhelming.Based on the Item Response Theory(IRT),C-CAT can perform as a perfectmeasure,with computer automatically allocating test itemswhich is in compliance with the examinee’s level.It has a dynamic testing process and can estimate objectively and accurately the ability of the examinee in a short time.This paper discusses features and content framework of the test according to the characteristics of the subject,and then explores,theoretically and practically,the reasons and possibility of the development of C-CAT.On this basis,the survey is carried out on the current application of IRT and CAT in some largescale Chinese tests.Finally,the paper introduces briefly the development of the computer-based test and illustrates the design,characteristics,C-CAT structure and advantages of the test system.
Chinese tests;Computerized Adaptive Test;Item Response Theory;Development
H195
A
2221-9056(2017)03-0362-07
10.14095/j.cnki.oce.2017.03.009
2017-01-15
侯仁鋒,縣立廣島大學(xué)教授,語言學(xué)研究生,研究方向為漢語教學(xué)、語言測試。Email:hourenfeng@gmail.com
今井新悟,筑波大學(xué)教授,語言學(xué)博士,研究方向為日語教育、計算機(jī)自適應(yīng)性考試。Email:imai.shingo@gmail.com
丸山浩明,縣立廣島大學(xué)教授,文學(xué)博士,研究方向為漢語教學(xué)、明清小說。Email:maruyama@pu-h(huán)iroshima.a(chǎn)c.jp
本文系日本國家科研基金項目,課題:計算機(jī)自適應(yīng)性漢語考試的開發(fā)與驗證。該文為研究的部分成果。(本稿は、科學(xué)研究助成金基盤研究(B)(研究課題:コンピュ一タ適応型中國語テストの開発と検証、課題番號15H03225)による研究成果の一部である。)