摘要:隨著社會(huì)的發(fā)展標(biāo)準(zhǔn)化測(cè)試的出現(xiàn),對(duì)標(biāo)準(zhǔn)化測(cè)試的科學(xué)性要求越來(lái)越高,測(cè)試的質(zhì)量評(píng)價(jià)對(duì)教學(xué)管理和教學(xué)計(jì)劃至關(guān)重要。詞匯量的測(cè)試在語(yǔ)言教學(xué)中可以幫助老師很好的了解學(xué)習(xí)者詞匯知識(shí)的掌握情況,對(duì)教師的教學(xué)提供很大的幫助,該文對(duì)詞匯量評(píng)估計(jì)算與預(yù)測(cè)方法,提出了一種實(shí)踐評(píng)估模型。
關(guān)鍵詞:語(yǔ)言詞匯;測(cè)試;算法
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)14-0248-03
1 研究背景及意義
一種語(yǔ)言包括語(yǔ)言知識(shí)和語(yǔ)言技能,詞匯知識(shí)就在一定程度上就是代表語(yǔ)言知識(shí),詞匯不僅是語(yǔ)言的基礎(chǔ),這是衡量一個(gè)學(xué)生英語(yǔ)學(xué)習(xí)水平的一個(gè)不可或缺的重要指標(biāo)。由于詞匯量的掌握程度可以反映學(xué)習(xí)能,所以詞匯學(xué)習(xí)與教學(xué)、詞匯的測(cè)量這個(gè)研究方向備受?chē)?guó)內(nèi)外研究者的關(guān)注,其中研究學(xué)習(xí)者的語(yǔ)言詞匯定量測(cè)試的研究最受研究者與教學(xué)的關(guān)注。
對(duì)語(yǔ)言詞匯研究的方向很多,例如對(duì)詞匯量的測(cè)定方法也很多。其研究的重要性也是多方面的:語(yǔ)言詞語(yǔ)的定量測(cè)試可以促進(jìn)學(xué)習(xí),幫助教師更準(zhǔn)確的了解學(xué)生詞匯發(fā)展的水平,有助于老師改進(jìn)教學(xué)方向。通過(guò)這種定量的檢測(cè),可以幫助老師更好地了解學(xué)習(xí)的語(yǔ)言基礎(chǔ),更好地掌握學(xué)習(xí)者的學(xué)習(xí)情況,有助于老師改進(jìn)和提高教學(xué)水平,這也是老師區(qū)別基礎(chǔ)好的學(xué)生與基礎(chǔ)不好的學(xué)生的一個(gè)重要手段。
詞匯量測(cè)量是國(guó)際間跨文化研究的重要方法。所以,要想針對(duì)學(xué)習(xí)者的語(yǔ)言知識(shí)和語(yǔ)言能力進(jìn)行測(cè)試,就必須對(duì)學(xué)習(xí)者的語(yǔ)言詞匯水平進(jìn)行測(cè)試,語(yǔ)言詞匯的測(cè)試結(jié)果可以間接的反映學(xué)習(xí)者的語(yǔ)言知識(shí)水平。到目前為止,國(guó)內(nèi)外的研究者已經(jīng)提出很多的測(cè)試方法,也有了一些比較成熟的測(cè)試?yán)碚摗2贿^(guò)關(guān)于語(yǔ)言詞匯量的測(cè)試定量研究有一個(gè)明顯差異。首先,測(cè)定的結(jié)果差異性很大;其次,使用的基礎(chǔ)語(yǔ)料庫(kù)的不同,以及使用的特種值不同;有的需要測(cè)試大量的語(yǔ)言詞匯才得出結(jié)果,而且需要測(cè)試的覆蓋范圍比較大,測(cè)試的時(shí)間比較長(zhǎng)。即便是對(duì)同一語(yǔ)言水平的測(cè)試者進(jìn)行詞匯量調(diào)查,不同的測(cè)試手段對(duì)同一個(gè)測(cè)試者測(cè)試的結(jié)果差別也很大。這就是本文提出的用少量語(yǔ)言詞匯測(cè)試測(cè)試出一個(gè)較為準(zhǔn)確的水平,提出一個(gè)探索似的測(cè)試算法理論。不過(guò)這個(gè)算法的正在逐步的實(shí)現(xiàn),我自行設(shè)計(jì)的《一種語(yǔ)言學(xué)習(xí)及智能測(cè)試平臺(tái)V1.0》就是對(duì)這個(gè)算法的系統(tǒng)實(shí)現(xiàn),而且本系統(tǒng)已經(jīng)得到國(guó)家版權(quán)局的著作權(quán)的登記,目前該軟件在我們學(xué)校部署給學(xué)生使用。測(cè)試的結(jié)果數(shù)據(jù)為后續(xù)算法的改進(jìn)提供大量的數(shù)據(jù)支持,對(duì)以后的語(yǔ)言詞匯測(cè)試的算法探索提供重要的數(shù)據(jù)。
2 相關(guān)理論及數(shù)學(xué)模型的創(chuàng)建
本文主要的研究?jī)?nèi)容就是提出基于關(guān)聯(lián)性模型的詞匯測(cè)試算法,對(duì)目前語(yǔ)言詞匯定量測(cè)定工具中的理論數(shù)學(xué)模型的討論。文章中提出的關(guān)聯(lián)性模型就是馬爾可夫鏈模型。馬爾可夫鏈就是描述了某一個(gè)結(jié)果的產(chǎn)生,取決于它前面的有限個(gè)狀態(tài)[1] 。已經(jīng)測(cè)試過(guò)的多個(gè)詞匯的特征值決定下一個(gè)測(cè)試詞匯的特征值的出現(xiàn),也就測(cè)試的下一個(gè)詞的特征值關(guān)聯(lián)了它前面的多個(gè)詞的特征值。
語(yǔ)言詞匯的定量測(cè)試首要的工作就是選取一個(gè)恰當(dāng)?shù)脑~匯庫(kù),不是語(yǔ)言中的所有詞匯都可以作為測(cè)試樣例。除此之外,還要參考國(guó)內(nèi)外的研究者的一些研究成果相結(jié)合,以及一個(gè)區(qū)域的教學(xué)水平和教學(xué)習(xí)慣相結(jié)合。選擇語(yǔ)言詞匯庫(kù)的方法目前常用的有兩種,一種是詞典法;另一種是使用詞匯頻率表法。詞匯頻率表是依據(jù)詞頻表選擇一定頻率的詞來(lái)測(cè)試。通常情況下,人會(huì)先記住使用頻率高的詞匯 [2],人們對(duì)低頻率詞匯的使用少,所有不容易記住。這就是語(yǔ)言詞匯頻率對(duì)學(xué)習(xí)者的學(xué)習(xí)影響的一個(gè)因素,對(duì)不同使用頻率的詞匯有著明顯的差別。因此,學(xué)習(xí)者對(duì)各語(yǔ)言詞匯使用頻率等級(jí)的詞匯掌握情況可以反映出他對(duì)該語(yǔ)言知識(shí)的掌握情況。中國(guó)教育部對(duì)語(yǔ)言詞匯的大綱要求,尤其是對(duì)中小學(xué)英語(yǔ)詞匯的要求,可以大概的統(tǒng)計(jì)出英語(yǔ)詞匯的使用量在1.3萬(wàn)左右。本文中提出的語(yǔ)言詞匯的測(cè)試就以英語(yǔ)詞匯作為測(cè)試樣例。 英語(yǔ)語(yǔ)言詞匯庫(kù)的選擇是根據(jù)《英國(guó)國(guó)家語(yǔ)料庫(kù)》得出的使用頻率最高的2萬(wàn)個(gè)詞匯[3]。從這個(gè)語(yǔ)料庫(kù)中在進(jìn)行部分的篩選就精簡(jiǎn)后得到本文中使用的詞匯庫(kù)。例如:同一個(gè)詞的不同屬性的詞,選取它的名詞形式就可以。這樣對(duì)語(yǔ)料庫(kù)進(jìn)行篩選后剩下大概1.5萬(wàn)個(gè)詞匯。本文使用的語(yǔ)言詞匯庫(kù)就是這1.5萬(wàn)個(gè)詞,并把剩下的詞匯庫(kù)進(jìn)行難度級(jí)別的劃分,劃分為10個(gè)難度級(jí)別。
對(duì)測(cè)試語(yǔ)言詞匯建立數(shù)學(xué)模型設(shè),假設(shè)被測(cè)試詞匯的使用頻率特征值記作[idn (n∈N?)],就是詞匯的詞頻作為特征值。詞匯的測(cè)試狀態(tài)記作[Fn (n∈N?)],其中對(duì)象特征值為[idn]對(duì)應(yīng)的詞匯測(cè)試為[Fn=1],表示測(cè)試正確,否則記記[Fn=0];測(cè)試對(duì)象的特征變化值[tn (n∈N?)];表示從[idn]到[idn+1]的變化值;加權(quán)值[ζn]; [xn]表示為測(cè)試難度系數(shù)值;用 [f(x)]來(lái)計(jì)算特征值, 當(dāng)然它的取值為[x (x∈(0,10)];最后用一個(gè)測(cè)試矩陣來(lái)記錄測(cè)試的結(jié)果, 這個(gè)矩陣記著[R]矩陣;可變鄰域函數(shù)[ψn(t)]和[φn(x)],表示該特征值的詞匯鄰域詞匯特種值,如果該特種詞測(cè)試正確,則[idn]鄰域內(nèi)的詞匯測(cè)試通過(guò);如果測(cè)試錯(cuò)誤,則認(rèn)為[idn]領(lǐng)域內(nèi)的詞匯沒(méi)有掌握,而這個(gè)鄰域大小由[ψn(t)]和[φn(x)]兩個(gè)函數(shù)來(lái)決定。
3 測(cè)試的算法及實(shí)現(xiàn)步驟
數(shù)學(xué)模型建立之后開(kāi)始測(cè)評(píng)算法, 首先,確定數(shù)據(jù)庫(kù)中詞匯的某種特征值為[1......i (i∈N?)],并每隔1500個(gè)詞劃分一個(gè)級(jí)別,共劃分10個(gè)級(jí)別,多余的詞匯規(guī)劃為最后一個(gè)級(jí)別;
其次,選取特種初始值[id0],任意從第一級(jí)中選取一個(gè)詞匯的特種值作為初始特征值賦給[id0],第一個(gè)級(jí)別的詞匯特征值范圍[1,1500],即[id0∈1,1500],并確定詞匯難度系數(shù)[x0=1];計(jì)算第一個(gè)測(cè)試詞匯的對(duì)應(yīng)的特征值:即[id1=id0+f(x0)];對(duì)被測(cè)對(duì)象特征值[id1]對(duì)應(yīng)的詞匯的選項(xiàng)進(jìn)行判斷;如果被測(cè)對(duì)象特征值[id1]對(duì)應(yīng)的詞匯的 選項(xiàng)正確,則定義標(biāo)記[F1=1];如果被測(cè)對(duì)象特征值[id1]對(duì)應(yīng)的詞匯的選項(xiàng)錯(cuò)誤,則定義標(biāo)記[F1=0];
最后,得出了測(cè)試評(píng)價(jià)對(duì)象矩陣[R],對(duì)矩陣進(jìn)行相應(yīng)的計(jì)算得出結(jié)果,如果在某個(gè)特征值[idn],當(dāng)測(cè)試者的標(biāo)記[Fn]為1時(shí),則認(rèn)為在[idn]鄰域中的詞匯都能掌握,否則認(rèn)為沒(méi)有掌握,但這這個(gè)鄰域由鄰域函數(shù)[ψn(x)]和[φn(x)]來(lái)確定的。即[idn]的左鄰域值和右鄰域值是由這兩個(gè)函數(shù)來(lái)確定的,而且不同的 [idn]的鄰域大小也可以不同,則測(cè)試者的詞匯測(cè)評(píng)域估計(jì)值為:
式子中a表示測(cè)試判斷對(duì)的總個(gè)數(shù),b表示測(cè)試判斷錯(cuò)的總個(gè)數(shù);
其流程圖如下:
以下就是本算法邏輯的進(jìn)一步的實(shí)現(xiàn)描述過(guò)程,已知:測(cè)試語(yǔ)言詞匯特征值[idn (n∈N?)] ;狀態(tài)值[Fn=1]表示測(cè)試正確,[Fn=0]表示測(cè)試錯(cuò)誤;加權(quán)值為[ζn];特征差值計(jì)算函數(shù)選為[f(x)=k1+Aea+bx]的函數(shù)族之一, 實(shí)例化該函數(shù)時(shí)以語(yǔ)言詞匯語(yǔ)料庫(kù)詞頻為準(zhǔn),語(yǔ)料庫(kù)的最大上限為一萬(wàn)五千個(gè)詞。對(duì)象特征函數(shù)的最大值也不可能超語(yǔ)料的上限,所以函數(shù)中的常量初始化為[k=15000], 初始值[A=id0],[a+bx=-x]。則最終實(shí)例化的[f(x)]為:[f(x)=150001+id0e-x] ,如果把[f(x)]實(shí)例為更簡(jiǎn)單的函數(shù)也可以,只要能滿(mǎn)足該函數(shù)是隨著緩慢遞增的函數(shù),而差值是一個(gè)緩慢遞減的函數(shù)型即可。本文中使用的就是上述實(shí)例的函數(shù)進(jìn)行計(jì)算,對(duì)象特征值變化函數(shù)[f(x)];對(duì)象特征值變化量[tn-1];測(cè)試評(píng)價(jià)矩陣[R]表示測(cè)試者測(cè)試的結(jié)果;可變鄰域函數(shù)為然后進(jìn)行測(cè)評(píng)計(jì)算,具體步驟如下:
下面是對(duì)本文中的算法的一個(gè)測(cè)試樣例:使用語(yǔ)料庫(kù)中詞匯使用頻率作為特征值;測(cè)試7個(gè)詞匯,初始值[id0=1200];加權(quán)值[ζn=0] ,測(cè)試的難度系數(shù) [x0=1],根據(jù)算法流程圖 [id1=id0+f(x0)]算出第一分測(cè)試詞匯的特征值:[id1=1200+33=1233],并且判斷[F1=1],則[x1=x0+1 =2];根據(jù)式子計(jì)算[id2=id1+t1 ],再計(jì)算[id3],[id3=id2+t2 ];本實(shí)例的難度系數(shù)總后為:[xn=12343.54.55.5];某個(gè)[idn]值時(shí)[F= =1]則左右虛線內(nèi)的單詞可以,認(rèn)為是掌握的,根據(jù)常用15000詞分成10級(jí),假設(shè)各級(jí)的鄰域函數(shù)值為:
對(duì)象特征值生成函數(shù)[f(x)=150001+1200e-x];
對(duì)象特征值生成函數(shù)的,根據(jù)圖1則得出的:
最后得出[R]矩陣:
根據(jù)測(cè)試流程圖中的值一次判斷條件,得出算法結(jié)果:
通過(guò)上述的算法實(shí)例計(jì)算,可以大概得出該測(cè)試者的詞匯量為4400個(gè)詞,結(jié)合圖1的實(shí)例,測(cè)試者是連續(xù)7道,第4道錯(cuò)誤的測(cè)試詞匯的結(jié)果。
4 結(jié)束語(yǔ)
本文提出的算法主要是依據(jù)英國(guó)國(guó)家語(yǔ)料庫(kù)編制的詞頻作為詞匯樣本,其權(quán)威性還有待商榷。該算法主要是針對(duì)怎么樣產(chǎn)生測(cè)試的詞匯,測(cè)試詞匯之間的一個(gè)關(guān)聯(lián)性,使得下一個(gè)測(cè)試詞匯有已經(jīng)測(cè)試的詞匯的狀態(tài)來(lái)決定,具有馬爾可夫的性質(zhì)。至于關(guān)聯(lián)程度是有待研究,以及多維下的馬爾可夫模型也是今后研究的問(wèn)題。
參考文獻(xiàn):
[1] 王秋艷.詞匯測(cè)試[D].重慶大學(xué), 2012.
[2] 姜君.第二語(yǔ)言詞匯知識(shí)及其測(cè)試模式[D].中國(guó)石油大學(xué),2006:48-50.
[3] 白金榮、覃春華.CET詞匯測(cè)試與詞匯教學(xué)[J].河池師范高等專(zhuān)科學(xué)校學(xué)報(bào):社會(huì)科學(xué)版,2000:28-123.
[4] 戴煒棟.現(xiàn)代英語(yǔ)語(yǔ)言學(xué)概論[M].上海:上海外語(yǔ)教育出版社.2001:17-45.
[5] 桂詩(shī)春.標(biāo)準(zhǔn)化考試—理論、原則與方法[M].廣州:廣東高等教育出版社,1986:1-200.
[6] Halliday,M.A.K. An Introduction to Functional Grammar.2nd edition[M].北京:外語(yǔ)教學(xué)與研究出版社,2000.
[7] Lyons J.Linguisti Semantics.An Introduction[M].北京:外語(yǔ)教學(xué)與研究出版社,2000.
[8] 陳建清.研發(fā)MP3輔助學(xué)習(xí)功能培養(yǎng)學(xué)生英語(yǔ)學(xué)習(xí)習(xí)慣[A].江蘇省教育學(xué)會(huì)2006年年會(huì)論文集(英語(yǔ)專(zhuān)輯)[C]. 江蘇省教育出版社,2006.
[9] 羅勝.一種基于馬爾科夫的詞匯量測(cè)試與評(píng)估方法[P].中國(guó)受權(quán)公告號(hào):CN203514554U.2015.
[10] 羅勝.一種詞匯量的測(cè)試與評(píng)估方法[P].中國(guó)受權(quán)中公告號(hào):CN203513154U.2015.