吳生蕾 任 杰
閱讀理解是語言測(cè)試的考查重點(diǎn),把握閱讀理解試題的難度有利于平衡語言測(cè)試的整體難度。根據(jù)影響因素不同,難度可分為相對(duì)難度和絕對(duì)難度[1]。絕對(duì)難度由試題本身決定,而相對(duì)難度來源于試題與考生兩個(gè)方面:源于試題本身的難度,影響因素主要有知識(shí)點(diǎn)、問題情境、提問方式、試題考查的學(xué)生的認(rèn)知層次等;源于考生的難度,影響因素主要有考生群體的能力水平、教師的教學(xué)方法等。因不步及對(duì)考生群體的研究,本文中閱讀理解主式題的難度指絕對(duì)難度。
對(duì)于閱讀理解試題來說,題目難度來源于閱讀文本與題目設(shè)置兩方面。閱讀理解測(cè)試研究專家奧德森認(rèn)為,文本選擇與題目設(shè)置對(duì)控制閱讀理解試題的難度是同等重要的[2]。幺書君認(rèn)為,HSK聽力試題的難度受聽力語料類型、試題題型、題目的提問方式與提問角度等因素影響,認(rèn)為無情節(jié)和觀點(diǎn)的聽力語料難度較高;在題型上,判斷題難度高于選擇題;對(duì)具有概括性事物提問的試題難度較高[3]。閱讀理解試題的題目材料與聽力試題的題目材料有相似之處,二者都由成段的或成篇的文本材料和提問的題目構(gòu)成。因此,與文本材料、題目設(shè)置影響聽力試題的難度類似,文本材料、題目設(shè)置也影響閱讀理解試題的難度。
許多學(xué)者從內(nèi)容效度、閱讀能力角度研究影響閱讀理解試題難度的因素,前者主要包括對(duì)文本易讀性、文本題材、話題、體裁等的研究。荊溪昱從文本的信息量、句法難度和語義難度角度提出適用于中文教材的易讀性公式[4]。Drum等的研究表明,詞匯頻數(shù)、高頻次與低頻詞數(shù)量、詞匯認(rèn)知、語法控制、具有迷惑性的選項(xiàng)、句子長度等因素對(duì)題目難度有重要影響[5]。王佶旻研究發(fā)現(xiàn),文章的題材、題干類型與選項(xiàng)字?jǐn)?shù)會(huì)影響試題難度[6]。
有研究者認(rèn)為閱讀能力的核心是“理解”,圍繞“理解”從人們解答閱讀理解客觀題的認(rèn)知過程入手,將對(duì)于不同認(rèn)知對(duì)象且具有不同難度水平的閱讀理解進(jìn)行縱向分級(jí)。武永明將閱讀能力從低到高分為四種,分別是最基本的認(rèn)讀字詞句的能力、理解主要內(nèi)容的能力、進(jìn)行評(píng)價(jià)鑒賞的分析能力以及要求最高的創(chuàng)造運(yùn)用能力等[7]。楊帥將閱讀能力由低到高分為四個(gè)等級(jí),將題目對(duì)考生閱讀能力的要求作為試題難度的影響因素[8]。
由于計(jì)算機(jī)具有非常強(qiáng)大的運(yùn)算大數(shù)據(jù)的能力以及較高的運(yùn)算速度,能夠高效地分析處理數(shù)據(jù)并挖掘數(shù)據(jù)的潛在規(guī)律,1995年,Perkins等學(xué)者使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建試題難度的預(yù)測(cè)模型,將機(jī)器學(xué)習(xí)算法引入了試題的難度預(yù)估領(lǐng)域[9]。在閱讀理解測(cè)試方面,韓菡對(duì)漢語水平考試中的閱讀理解試題進(jìn)行了難度預(yù)估研究,使用BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)建立了試題難度的預(yù)估模型;研究結(jié)果顯示,預(yù)估難度和實(shí)測(cè)難度在0.01水平下顯著相關(guān)[10]。付佩宣使用BP網(wǎng)絡(luò)模型,將選取出的實(shí)用漢語水平認(rèn)定考試閱讀理解題目的難度影響因素作為訓(xùn)練網(wǎng)絡(luò)的初始輸入變量進(jìn)行試驗(yàn),之后增加輸入變量繼續(xù)進(jìn)行試驗(yàn),結(jié)果顯示預(yù)估難度與真實(shí)難度的相關(guān)達(dá)到了0.61[11]。張玄采用樸素貝葉斯分類器對(duì)某考試的言語理解與表達(dá)部分進(jìn)行了難度預(yù)估研究,其預(yù)估的準(zhǔn)確率為64.5%,遠(yuǎn)超過專家預(yù)測(cè)的24.5%的準(zhǔn)確率[12]。龔晨曦采用樸素貝葉斯和文本相似度方法進(jìn)行了試題難度預(yù)估,得出基于以上兩種模型的難度預(yù)估準(zhǔn)確率均高于專家預(yù)估的準(zhǔn)確率,相較于文本相似度模型,樸素貝葉斯模型的性能更好[13]。
本研究以難度預(yù)估為主題,將支持向量機(jī)的機(jī)器學(xué)習(xí)方法用于語言測(cè)試之中,選取了支持向量機(jī)的分類模型和回歸模型對(duì)HSK初、中等的常規(guī)閱讀理解試題進(jìn)行難度預(yù)估。
在二維平面中,將兩類樣本點(diǎn)劃分開來的是一條線,在三維空間中,將兩類不同樣本劃分開的是一個(gè)平面,而在n維空間(n>3)中,這個(gè)將樣本分類的平面被稱為分類超平面。支持向量機(jī)(Support Vector Machines,SVM)是一種二分類的線性分類器,根據(jù)距離分類超平面最近的點(diǎn),即支持向量計(jì)算兩個(gè)類別間的最大間隔,建立分類超平面模型。它不僅能夠?yàn)榫€性可分的原始數(shù)據(jù)構(gòu)建線性分類器,也能夠?yàn)榉蔷€性可分的原始數(shù)據(jù)建立線性分類器。
在許多分類任務(wù)的原始樣本空間內(nèi),(類別)與(數(shù)據(jù)特征)之間的關(guān)系是非線性的,可能并不存在能將兩個(gè)不同類別的樣本正確劃分的分類超平面,于是選擇核函數(shù)定義一個(gè)高維特征空間,將非線性可分的數(shù)據(jù)映射到高維空間,使原始數(shù)據(jù)在高維空間變?yōu)榫€性可分,選擇了不適合的核函數(shù)會(huì)導(dǎo)致分類模型的性能不佳。
徑向基核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)以及線性核函數(shù)是四種較為常用的核函數(shù),這四種核函數(shù)的表達(dá)式如下。
核函數(shù)的作用范圍是由參數(shù)γ決定的。為了選擇出合適的核函數(shù),于是允許模型對(duì)部分樣本的分類出現(xiàn)錯(cuò)誤,以保證大部分樣本點(diǎn)被更好地分類。因此引入懲罰因子與松弛變量兩個(gè)參數(shù),表示對(duì)模型犯錯(cuò)的容忍度。懲罰因子C為常數(shù)且C>0,C越大,則會(huì)要求更多的樣本均滿足約束條件。松弛變量(slack variables)ξ可以調(diào)節(jié)模型對(duì)誤差的容忍范圍,ξ越大,模型對(duì)誤差的容忍越高。
本研究的試題樣本選自HSK初等、中等的八套試卷,由閱讀理解第二部分的210道試題組成,包括試題的閱讀材料、題干、選項(xiàng)以及題目的IRT難度參數(shù)等數(shù)據(jù)。本研究對(duì)210道試題的難度進(jìn)行了類別與數(shù)值的預(yù)估,采用R-4.0.4軟件進(jìn)行數(shù)據(jù)處理和可視化分析。
(一)確定難度的影響因素
本研究從文本特征、題目特征兩方面挖掘難度的影響因素。從以下幾個(gè)方面進(jìn)行HSK初、中等閱讀理解試題的文本特征研究。
1.文本題材??忌膶W(xué)科、背景知識(shí)影響其對(duì)閱讀材料的理解程度,當(dāng)試題的閱讀文本選取了冷門的題材,就會(huì)對(duì)閱讀的難度造成較大影響,因此本研究將文本題材分為10類,對(duì)語料進(jìn)行了標(biāo)注。
2.文本體裁??忌鷮?duì)不同體裁文章的閱讀能力是不相同的,這與對(duì)特定體裁的閱讀能力的培養(yǎng)和訓(xùn)練有關(guān)。HSK初、中等閱讀理解閱讀文本的體裁主要有記敘、議論、說明三種。
3.文本易讀性。荊溪昱的易讀性公式為:易讀性=17.5255+0.0024X1+0.04415X2-18.3344X3(X1、X2、X3分別代表文章字?jǐn)?shù)、文章句子的平均長度、文章中熟悉詞語所占的比重)。因此,本研究確定了文本字?jǐn)?shù)、平均句子長度和熟悉詞比重等三個(gè)影響難度的因素。
在計(jì)算熟悉詞比重時(shí),首先借助NLPIRICTCLAS漢語分詞系統(tǒng)對(duì)樣本題目的閱讀文本進(jìn)行分詞標(biāo)注,之后對(duì)分詞結(jié)果進(jìn)行人工檢查,參照HSK初、中等的考試詞匯大綱對(duì)分詞結(jié)果進(jìn)行調(diào)整,最后借助自編程序計(jì)算HSK初、中等所應(yīng)掌握的甲、乙、丙三個(gè)等級(jí)的詞匯數(shù)量占總詞匯數(shù)量的比重。
題目包括題干和選項(xiàng),因此題目特征也應(yīng)從題干特征與選項(xiàng)特征兩方面考慮,包括以下幾點(diǎn):
1.題干對(duì)閱讀能力的要求。本研究根據(jù)題干的提問,將題目對(duì)閱讀能力的要求按照從低到高分為微觀理解能力、整體感知能力、解釋推理能力和評(píng)價(jià)鑒賞能力四個(gè)等級(jí)。
2.選項(xiàng)長度。選項(xiàng)字?jǐn)?shù)越多意味著選項(xiàng)包含的信息越豐富,對(duì)題目難度以及答題所用的時(shí)間均有影響。
3.題目中熟悉詞所占的比重。計(jì)算題干、選項(xiàng)中的熟悉詞比重。
4.干擾項(xiàng)數(shù)量。當(dāng)干擾項(xiàng)不符合題干要求但符合語料大意,或者干擾項(xiàng)的觀點(diǎn)與人一般的邏輯思維習(xí)慣相一致時(shí),會(huì)對(duì)考生產(chǎn)生迷惑,增加題目難度。
(二)支持向量分類模型的難度預(yù)估
1.對(duì)題目難度因素進(jìn)行編碼
通過對(duì)HSK初、中等閱讀理解文本的分析,以200字為一個(gè)區(qū)間將閱讀文本字?jǐn)?shù)分為兩個(gè)水平;以20個(gè)字符為一個(gè)區(qū)間將平均句長因素劃分為三個(gè)水平;樣本題目中,文本的熟悉詞的比重均在60%以上,于是以10%為間隔將其分為四個(gè)水平。
對(duì)于文本因素的具體分類情況如表1所示。
表1基于文本特征的難度影響因素編碼表
通過對(duì)HSK初、中等閱讀理解題目的分析,210個(gè)題目樣本的熟悉詞比重在30.77%~100%之間,由于熟悉詞比重低于60%的題目數(shù)量極少,考慮到等級(jí)中的題目樣本數(shù)量,將熟悉詞比重在80%以下的試題分為一個(gè)等級(jí),并以10%為區(qū)間將熟悉詞比重在80%以上的部分分為兩個(gè)等級(jí);以16個(gè)字符為一個(gè)等級(jí),將選項(xiàng)長度分為三個(gè)等級(jí);將選項(xiàng)中符合閱讀文本大意的或者符合人的思維習(xí)慣的錯(cuò)誤選項(xiàng)作為干擾項(xiàng),干擾項(xiàng)的數(shù)量有0、1、2、3四種。表2是基于題目特征的難度影響因素的編碼表。
表2基于題目特征的難度影響因素編碼表
本研究使用基于IRT模型的難度值,為了控制各難度類別中題目數(shù)量差異對(duì)模型效果的影響,將試題難度按照題目數(shù)量劃分四個(gè)等級(jí),使各等級(jí)的題目數(shù)量盡量接近,并且考慮等級(jí)臨界處的題目難度值,確保各等級(jí)的題目難度值不相同。劃分結(jié)果見表3。
表3 根據(jù)題目數(shù)量的難度等級(jí)劃分
2.構(gòu)建支持向量分類模型
支持向量機(jī)進(jìn)行分類首先需要輸入訓(xùn)練樣本,讓分類器學(xué)習(xí)數(shù)據(jù)的特征、模式,進(jìn)而找到分類函數(shù),建立分類模型。本研究將210道閱讀理解試題的難度與九個(gè)影響因素?cái)?shù)據(jù)分成十份數(shù)據(jù)集,在訓(xùn)練集上使用十折交叉驗(yàn)證法訓(xùn)練模型。在模型的訓(xùn)練過程中,對(duì)其進(jìn)行交叉驗(yàn)證時(shí)采用了四種常用的核函數(shù),即多項(xiàng)式核函數(shù)、徑向基核函數(shù)、線性核函數(shù)以及sigmoid核函數(shù)。其準(zhǔn)確率,即參照核函數(shù)所建立起的支持向量分類模型的結(jié)果如表4;其中,總體準(zhǔn)確率的計(jì)算方式是:正確預(yù)測(cè)的題目數(shù)量除以預(yù)測(cè)集的題目數(shù)量,各類別的準(zhǔn)確率是該類別上正確預(yù)測(cè)的題目數(shù)量除以預(yù)測(cè)集中該類別的題目數(shù)量,而類別平均準(zhǔn)確率是各類別的準(zhǔn)確率的平均值。
表4四種核函數(shù)交叉驗(yàn)證的平均預(yù)測(cè)準(zhǔn)確率
根據(jù)表4可以看出徑向基核函數(shù)的效果最好??傮w預(yù)測(cè)準(zhǔn)確率最高的是徑向基核函數(shù),其次是sigmoid核函數(shù)。類別平均準(zhǔn)確率最高的是線性核函數(shù),其次是徑向基核函數(shù)?;诙囗?xiàng)式核函數(shù)的分類模型在level2與level3上的準(zhǔn)確率為0。sigmoid核函數(shù)在總體及各類別上的準(zhǔn)確率也較好。
以總體預(yù)測(cè)準(zhǔn)確率最高的徑向基核函數(shù)建立支持向量分類模型,并采用網(wǎng)格搜索法,在sigma(1,210)及C(2-10,2)的范圍內(nèi)選擇出最優(yōu)sigma參數(shù)和懲罰因子的取值,可以參照?qǐng)D1觀察參數(shù)選擇的熱力圖。圖1縱坐標(biāo)代表的是核參數(shù)sigma,橫坐標(biāo)代表的是懲罰因子C。
圖1徑向基核函數(shù)的核參數(shù)熱力圖
據(jù)圖1可知,當(dāng)C=1.3555,sigma=1時(shí),以徑向基核函數(shù)構(gòu)建的支持向量分類模型進(jìn)行難度預(yù)測(cè)的錯(cuò)誤率最低,為0.25,即此時(shí)模型的預(yù)測(cè)效果最好,預(yù)測(cè)準(zhǔn)確率為75%。
(三)支持向量回歸模型的難度值預(yù)估
以試題難度作為因變量,以文本題材、文本體裁、文本字?jǐn)?shù)、平均句子長度、文本熟悉詞所占比重、選項(xiàng)長度、題目熟悉詞比重、干擾項(xiàng)數(shù)量以及題目的能力要求等九個(gè)變量作為自變量,選擇以下四種核函數(shù):多項(xiàng)式核函數(shù)、線性核函數(shù)、徑向基核函數(shù)以及sigmoid核函數(shù),對(duì)訓(xùn)練集和測(cè)試集進(jìn)行劃分時(shí)使用十折交叉驗(yàn)證法,進(jìn)行支持向量回歸。四種核函數(shù)十次交叉驗(yàn)證的均方誤差結(jié)果如表5所示。
表5十折交叉驗(yàn)證難度預(yù)測(cè)的均方誤差
為了更清晰地顯示四種核函數(shù)的均方誤差差異,將表5中數(shù)據(jù)以折線圖的形式呈現(xiàn),如圖2所示。
圖2四種核函數(shù)的均方誤差圖
根據(jù)表圖2及表5可以看出,sigmoid核函數(shù)的均方誤差波動(dòng)最小,預(yù)測(cè)效果最穩(wěn)定。多項(xiàng)式核函數(shù)的均方誤差波動(dòng)最大,其均方誤差的最大值與最小值相差0.3以上。從十次交叉驗(yàn)證的均方誤差均值來看,以徑向基核函數(shù)構(gòu)建的支持向量回歸模型的平均均方誤差最小,其十次結(jié)果的平均均方誤差為0.503,sigmoid核函數(shù)和多項(xiàng)式核函數(shù)的平均均方誤差也較小,分別為0.522和0.526。
表6是使用徑向基核函數(shù)進(jìn)行支持向量回歸的一個(gè)測(cè)試集中試題的預(yù)測(cè)難度值與實(shí)際難度值的對(duì)比。
表6徑向基核函數(shù)的預(yù)測(cè)難度與實(shí)際難度的對(duì)比
由于徑向基核函數(shù)是十個(gè)均方誤差的均值最小的,因而選擇核函數(shù)作為支持向量回歸模型時(shí),徑向基核函數(shù)為最優(yōu)選項(xiàng),在懲罰因子C∈[0,10]及gamma∈[2-10,2]的范圍內(nèi)經(jīng)十折交叉驗(yàn)證選出支持向量回歸模型的最優(yōu)核參數(shù),最優(yōu)模型的核函數(shù)及核參數(shù)選擇如表7所示。
表7最優(yōu)支持向量回歸模型的核函數(shù)及核參數(shù)
本研究的支持向量回歸采用徑向基核函數(shù),且核參數(shù)取值為C=3.37495及gamma=0.0009765625時(shí)模型效果最佳。采用優(yōu)化后的最佳模型對(duì)樣本題目數(shù)據(jù)進(jìn)行十折交叉驗(yàn)證,得到的十次均方誤差及其均值如表8所示。
表8最佳支持向量回歸模型交叉驗(yàn)證的均方誤差
最佳支持向量回歸模型進(jìn)行十折交叉驗(yàn)證的平均均方誤差為0.492,比徑向基核函數(shù)進(jìn)行核參數(shù)優(yōu)化前的0.503更小。表9是一個(gè)測(cè)試集中試題的預(yù)測(cè)難度值與實(shí)際難度值。
表9最優(yōu)模型預(yù)測(cè)難度與實(shí)際難度的對(duì)比
為了更清楚地呈現(xiàn)模型的預(yù)測(cè)效果,圖3繪制了支持向量回歸預(yù)測(cè)的試題難度與實(shí)測(cè)的試題難度的折線圖。
圖3實(shí)際難度與預(yù)測(cè)難度對(duì)比圖
由圖3可知,支持向量回歸模型對(duì)閱讀理解試題的難度預(yù)測(cè)結(jié)果與實(shí)際難度值差距較大,二者在折線圖上的波動(dòng)趨勢(shì)并不一致,且模型的預(yù)測(cè)難度值始終在-0.5至0.3之間,說明支持向量回歸模型對(duì)閱讀理解試題難度值的預(yù)測(cè)精度不理想。
根據(jù)計(jì)算出來的難度預(yù)估效果的評(píng)價(jià)指標(biāo),本研究得出的結(jié)論如下:
(一)支持向量機(jī)的最優(yōu)分類模型對(duì)難度預(yù)估的準(zhǔn)確率能夠達(dá)到75%,支持向量機(jī)的最優(yōu)回歸模型的預(yù)測(cè)難度值與實(shí)際難度值的均方誤差的平均值為0.492,但其預(yù)測(cè)的難度值集中在(-0.5,0.2)之間,趨于預(yù)測(cè)為中間難度。說明支持向量機(jī)方法用于閱讀理解試題的題目難度預(yù)估是可行的,能夠?qū)︻}目的難度類別進(jìn)行區(qū)分,但對(duì)于難度值的預(yù)測(cè)精度不佳。
(二)在使用支持向量機(jī)方法構(gòu)建分類與回歸模型時(shí),分別選擇了徑向基核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)以及線性核函數(shù)四種核函數(shù),其中多項(xiàng)式核函數(shù)在兩種模型中的表現(xiàn)均不佳,徑向基核函數(shù)在兩種模型中的表現(xiàn)均較好。
在研究過程中,本研究也存在以下不足之處:
在對(duì)難度的影響因素進(jìn)行等級(jí)分類時(shí),很難兼顧類別的細(xì)致程度與每一類別的樣本量,類別劃分越精細(xì),每一類別中所包含的樣本量必然會(huì)減少,導(dǎo)致對(duì)這一類別預(yù)估的誤差變大。本研究將題材按照學(xué)科劃為了生物、化學(xué)、醫(yī)學(xué)、科技等各個(gè)小類,因此各類別的樣本量較少。
不同的難度影響因素對(duì)難度的重要程度是不一樣的,明確不同難度影響因素的權(quán)重對(duì)于提高預(yù)估準(zhǔn)確率具有重要意義。支持向量機(jī)的分類模型與回歸模型均能夠設(shè)置影響因素的權(quán)重,但本研究在構(gòu)建預(yù)測(cè)模型時(shí)未考慮難度影響因素的權(quán)重問題,這也是本研究存在的另一不足之處。