基于支持向量機(jī)的閱讀理解試題難度預(yù)估研究

2022-09-19 08:27:44吳生蕾

考試研究 2022年5期

吳生蕾任杰

一、引言

閱讀理解是語言測(cè)試的考查重點(diǎn)，把握閱讀理解試題的難度有利于平衡語言測(cè)試的整體難度。根據(jù)影響因素不同，難度可分為相對(duì)難度和絕對(duì)難度[1]。絕對(duì)難度由試題本身決定，而相對(duì)難度來源于試題與考生兩個(gè)方面：源于試題本身的難度，影響因素主要有知識(shí)點(diǎn)、問題情境、提問方式、試題考查的學(xué)生的認(rèn)知層次等；源于考生的難度，影響因素主要有考生群體的能力水平、教師的教學(xué)方法等。因不步及對(duì)考生群體的研究，本文中閱讀理解主式題的難度指絕對(duì)難度。

對(duì)于閱讀理解試題來說，題目難度來源于閱讀文本與題目設(shè)置兩方面。閱讀理解測(cè)試研究專家奧德森認(rèn)為，文本選擇與題目設(shè)置對(duì)控制閱讀理解試題的難度是同等重要的[2]。幺書君認(rèn)為，HSK聽力試題的難度受聽力語料類型、試題題型、題目的提問方式與提問角度等因素影響，認(rèn)為無情節(jié)和觀點(diǎn)的聽力語料難度較高；在題型上，判斷題難度高于選擇題；對(duì)具有概括性事物提問的試題難度較高[3]。閱讀理解試題的題目材料與聽力試題的題目材料有相似之處，二者都由成段的或成篇的文本材料和提問的題目構(gòu)成。因此，與文本材料、題目設(shè)置影響聽力試題的難度類似，文本材料、題目設(shè)置也影響閱讀理解試題的難度。

許多學(xué)者從內(nèi)容效度、閱讀能力角度研究影響閱讀理解試題難度的因素，前者主要包括對(duì)文本易讀性、文本題材、話題、體裁等的研究。荊溪昱從文本的信息量、句法難度和語義難度角度提出適用于中文教材的易讀性公式[4]。Drum等的研究表明，詞匯頻數(shù)、高頻次與低頻詞數(shù)量、詞匯認(rèn)知、語法控制、具有迷惑性的選項(xiàng)、句子長度等因素對(duì)題目難度有重要影響[5]。王佶旻研究發(fā)現(xiàn)，文章的題材、題干類型與選項(xiàng)字?jǐn)?shù)會(huì)影響試題難度[6]。

有研究者認(rèn)為閱讀能力的核心是“理解”，圍繞“理解”從人們解答閱讀理解客觀題的認(rèn)知過程入手，將對(duì)于不同認(rèn)知對(duì)象且具有不同難度水平的閱讀理解進(jìn)行縱向分級(jí)。武永明將閱讀能力從低到高分為四種，分別是最基本的認(rèn)讀字詞句的能力、理解主要內(nèi)容的能力、進(jìn)行評(píng)價(jià)鑒賞的分析能力以及要求最高的創(chuàng)造運(yùn)用能力等[7]。楊帥將閱讀能力由低到高分為四個(gè)等級(jí)，將題目對(duì)考生閱讀能力的要求作為試題難度的影響因素[8]。

由于計(jì)算機(jī)具有非常強(qiáng)大的運(yùn)算大數(shù)據(jù)的能力以及較高的運(yùn)算速度，能夠高效地分析處理數(shù)據(jù)并挖掘數(shù)據(jù)的潛在規(guī)律，1995年，Perkins等學(xué)者使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建試題難度的預(yù)測(cè)模型，將機(jī)器學(xué)習(xí)算法引入了試題的難度預(yù)估領(lǐng)域[9]。在閱讀理解測(cè)試方面，韓菡對(duì)漢語水平考試中的閱讀理解試題進(jìn)行了難度預(yù)估研究，使用BP（Back Propagation，反向傳播）神經(jīng)網(wǎng)絡(luò)建立了試題難度的預(yù)估模型；研究結(jié)果顯示，預(yù)估難度和實(shí)測(cè)難度在0.01水平下顯著相關(guān)[10]。付佩宣使用BP網(wǎng)絡(luò)模型，將選取出的實(shí)用漢語水平認(rèn)定考試閱讀理解題目的難度影響因素作為訓(xùn)練網(wǎng)絡(luò)的初始輸入變量進(jìn)行試驗(yàn)，之后增加輸入變量繼續(xù)進(jìn)行試驗(yàn)，結(jié)果顯示預(yù)估難度與真實(shí)難度的相關(guān)達(dá)到了0.61[11]。張玄采用樸素貝葉斯分類器對(duì)某考試的言語理解與表達(dá)部分進(jìn)行了難度預(yù)估研究，其預(yù)估的準(zhǔn)確率為64.5%，遠(yuǎn)超過專家預(yù)測(cè)的24.5%的準(zhǔn)確率[12]。龔晨曦采用樸素貝葉斯和文本相似度方法進(jìn)行了試題難度預(yù)估，得出基于以上兩種模型的難度預(yù)估準(zhǔn)確率均高于專家預(yù)估的準(zhǔn)確率，相較于文本相似度模型，樸素貝葉斯模型的性能更好[13]。

本研究以難度預(yù)估為主題，將支持向量機(jī)的機(jī)器學(xué)習(xí)方法用于語言測(cè)試之中，選取了支持向量機(jī)的分類模型和回歸模型對(duì)HSK初、中等的常規(guī)閱讀理解試題進(jìn)行難度預(yù)估。

二、支持向量機(jī)

在二維平面中，將兩類樣本點(diǎn)劃分開來的是一條線，在三維空間中，將兩類不同樣本劃分開的是一個(gè)平面，而在n維空間（n>3）中，這個(gè)將樣本分類的平面被稱為分類超平面。支持向量機(jī)（Support Vector Machines,SVM）是一種二分類的線性分類器，根據(jù)距離分類超平面最近的點(diǎn)，即支持向量計(jì)算兩個(gè)類別間的最大間隔，建立分類超平面模型。它不僅能夠?yàn)榫€性可分的原始數(shù)據(jù)構(gòu)建線性分類器，也能夠?yàn)榉蔷€性可分的原始數(shù)據(jù)建立線性分類器。

在許多分類任務(wù)的原始樣本空間內(nèi)，（類別）與（數(shù)據(jù)特征）之間的關(guān)系是非線性的，可能并不存在能將兩個(gè)不同類別的樣本正確劃分的分類超平面，于是選擇核函數(shù)定義一個(gè)高維特征空間，將非線性可分的數(shù)據(jù)映射到高維空間，使原始數(shù)據(jù)在高維空間變?yōu)榫€性可分，選擇了不適合的核函數(shù)會(huì)導(dǎo)致分類模型的性能不佳。

徑向基核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)以及線性核函數(shù)是四種較為常用的核函數(shù)，這四種核函數(shù)的表達(dá)式如下。

核函數(shù)的作用范圍是由參數(shù)γ決定的。為了選擇出合適的核函數(shù)，于是允許模型對(duì)部分樣本的分類出現(xiàn)錯(cuò)誤，以保證大部分樣本點(diǎn)被更好地分類。因此引入懲罰因子與松弛變量兩個(gè)參數(shù)，表示對(duì)模型犯錯(cuò)的容忍度。懲罰因子C為常數(shù)且C>0，C越大，則會(huì)要求更多的樣本均滿足約束條件。松弛變量（slack variables）ξ可以調(diào)節(jié)模型對(duì)誤差的容忍范圍，ξ越大，模型對(duì)誤差的容忍越高。

三、實(shí)證研究

本研究的試題樣本選自HSK初等、中等的八套試卷，由閱讀理解第二部分的210道試題組成，包括試題的閱讀材料、題干、選項(xiàng)以及題目的IRT難度參數(shù)等數(shù)據(jù)。本研究對(duì)210道試題的難度進(jìn)行了類別與數(shù)值的預(yù)估，采用R-4.0.4軟件進(jìn)行數(shù)據(jù)處理和可視化分析。

（一）確定難度的影響因素

本研究從文本特征、題目特征兩方面挖掘難度的影響因素。從以下幾個(gè)方面進(jìn)行HSK初、中等閱讀理解試題的文本特征研究。

1.文本題材?？忌膶W(xué)科、背景知識(shí)影響其對(duì)閱讀材料的理解程度，當(dāng)試題的閱讀文本選取了冷門的題材，就會(huì)對(duì)閱讀的難度造成較大影響，因此本研究將文本題材分為10類，對(duì)語料進(jìn)行了標(biāo)注。

2.文本體裁?？忌鷮?duì)不同體裁文章的閱讀能力是不相同的，這與對(duì)特定體裁的閱讀能力的培養(yǎng)和訓(xùn)練有關(guān)。HSK初、中等閱讀理解閱讀文本的體裁主要有記敘、議論、說明三種。

3.文本易讀性。荊溪昱的易讀性公式為：易讀性=17.5255+0.0024X1+0.04415X2-18.3344X3（X1、X2、X3分別代表文章字?jǐn)?shù)、文章句子的平均長度、文章中熟悉詞語所占的比重）。因此，本研究確定了文本字?jǐn)?shù)、平均句子長度和熟悉詞比重等三個(gè)影響難度的因素。

在計(jì)算熟悉詞比重時(shí)，首先借助NLPIRICTCLAS漢語分詞系統(tǒng)對(duì)樣本題目的閱讀文本進(jìn)行分詞標(biāo)注，之后對(duì)分詞結(jié)果進(jìn)行人工檢查，參照HSK初、中等的考試詞匯大綱對(duì)分詞結(jié)果進(jìn)行調(diào)整，最后借助自編程序計(jì)算HSK初、中等所應(yīng)掌握的甲、乙、丙三個(gè)等級(jí)的詞匯數(shù)量占總詞匯數(shù)量的比重。

題目包括題干和選項(xiàng)，因此題目特征也應(yīng)從題干特征與選項(xiàng)特征兩方面考慮，包括以下幾點(diǎn)：

1.題干對(duì)閱讀能力的要求。本研究根據(jù)題干的提問，將題目對(duì)閱讀能力的要求按照從低到高分為微觀理解能力、整體感知能力、解釋推理能力和評(píng)價(jià)鑒賞能力四個(gè)等級(jí)。

2.選項(xiàng)長度。選項(xiàng)字?jǐn)?shù)越多意味著選項(xiàng)包含的信息越豐富，對(duì)題目難度以及答題所用的時(shí)間均有影響。

3.題目中熟悉詞所占的比重。計(jì)算題干、選項(xiàng)中的熟悉詞比重。

4.干擾項(xiàng)數(shù)量。當(dāng)干擾項(xiàng)不符合題干要求但符合語料大意，或者干擾項(xiàng)的觀點(diǎn)與人一般的邏輯思維習(xí)慣相一致時(shí)，會(huì)對(duì)考生產(chǎn)生迷惑，增加題目難度。

（二）支持向量分類模型的難度預(yù)估

1.對(duì)題目難度因素進(jìn)行編碼

通過對(duì)HSK初、中等閱讀理解文本的分析，以200字為一個(gè)區(qū)間將閱讀文本字?jǐn)?shù)分為兩個(gè)水平；以20個(gè)字符為一個(gè)區(qū)間將平均句長因素劃分為三個(gè)水平；樣本題目中，文本的熟悉詞的比重均在60%以上，于是以10%為間隔將其分為四個(gè)水平。

對(duì)于文本因素的具體分類情況如表1所示。

表1基于文本特征的難度影響因素編碼表

通過對(duì)HSK初、中等閱讀理解題目的分析，210個(gè)題目樣本的熟悉詞比重在30.77%~100%之間，由于熟悉詞比重低于60%的題目數(shù)量極少，考慮到等級(jí)中的題目樣本數(shù)量，將熟悉詞比重在80%以下的試題分為一個(gè)等級(jí)，并以10%為區(qū)間將熟悉詞比重在80%以上的部分分為兩個(gè)等級(jí)；以16個(gè)字符為一個(gè)等級(jí)，將選項(xiàng)長度分為三個(gè)等級(jí)；將選項(xiàng)中符合閱讀文本大意的或者符合人的思維習(xí)慣的錯(cuò)誤選項(xiàng)作為干擾項(xiàng)，干擾項(xiàng)的數(shù)量有0、1、2、3四種。表2是基于題目特征的難度影響因素的編碼表。

表2基于題目特征的難度影響因素編碼表

本研究使用基于IRT模型的難度值，為了控制各難度類別中題目數(shù)量差異對(duì)模型效果的影響，將試題難度按照題目數(shù)量劃分四個(gè)等級(jí)，使各等級(jí)的題目數(shù)量盡量接近，并且考慮等級(jí)臨界處的題目難度值，確保各等級(jí)的題目難度值不相同。劃分結(jié)果見表3。

表3 根據(jù)題目數(shù)量的難度等級(jí)劃分

2.構(gòu)建支持向量分類模型

支持向量機(jī)進(jìn)行分類首先需要輸入訓(xùn)練樣本，讓分類器學(xué)習(xí)數(shù)據(jù)的特征、模式，進(jìn)而找到分類函數(shù)，建立分類模型。本研究將210道閱讀理解試題的難度與九個(gè)影響因素?cái)?shù)據(jù)分成十份數(shù)據(jù)集，在訓(xùn)練集上使用十折交叉驗(yàn)證法訓(xùn)練模型。在模型的訓(xùn)練過程中，對(duì)其進(jìn)行交叉驗(yàn)證時(shí)采用了四種常用的核函數(shù)，即多項(xiàng)式核函數(shù)、徑向基核函數(shù)、線性核函數(shù)以及sigmoid核函數(shù)。其準(zhǔn)確率，即參照核函數(shù)所建立起的支持向量分類模型的結(jié)果如表4；其中，總體準(zhǔn)確率的計(jì)算方式是：正確預(yù)測(cè)的題目數(shù)量除以預(yù)測(cè)集的題目數(shù)量，各類別的準(zhǔn)確率是該類別上正確預(yù)測(cè)的題目數(shù)量除以預(yù)測(cè)集中該類別的題目數(shù)量，而類別平均準(zhǔn)確率是各類別的準(zhǔn)確率的平均值。

表4四種核函數(shù)交叉驗(yàn)證的平均預(yù)測(cè)準(zhǔn)確率

根據(jù)表4可以看出徑向基核函數(shù)的效果最好?？傮w預(yù)測(cè)準(zhǔn)確率最高的是徑向基核函數(shù)，其次是sigmoid核函數(shù)。類別平均準(zhǔn)確率最高的是線性核函數(shù)，其次是徑向基核函數(shù)?；诙囗?xiàng)式核函數(shù)的分類模型在level2與level3上的準(zhǔn)確率為0。sigmoid核函數(shù)在總體及各類別上的準(zhǔn)確率也較好。

以總體預(yù)測(cè)準(zhǔn)確率最高的徑向基核函數(shù)建立支持向量分類模型，并采用網(wǎng)格搜索法，在sigma(1,210)及C(2-10,2)的范圍內(nèi)選擇出最優(yōu)sigma參數(shù)和懲罰因子的取值，可以參照?qǐng)D1觀察參數(shù)選擇的熱力圖。圖1縱坐標(biāo)代表的是核參數(shù)sigma，橫坐標(biāo)代表的是懲罰因子C。

圖1徑向基核函數(shù)的核參數(shù)熱力圖

據(jù)圖1可知，當(dāng)C=1.3555，sigma=1時(shí)，以徑向基核函數(shù)構(gòu)建的支持向量分類模型進(jìn)行難度預(yù)測(cè)的錯(cuò)誤率最低，為0.25，即此時(shí)模型的預(yù)測(cè)效果最好，預(yù)測(cè)準(zhǔn)確率為75%。

（三）支持向量回歸模型的難度值預(yù)估

以試題難度作為因變量，以文本題材、文本體裁、文本字?jǐn)?shù)、平均句子長度、文本熟悉詞所占比重、選項(xiàng)長度、題目熟悉詞比重、干擾項(xiàng)數(shù)量以及題目的能力要求等九個(gè)變量作為自變量，選擇以下四種核函數(shù)：多項(xiàng)式核函數(shù)、線性核函數(shù)、徑向基核函數(shù)以及sigmoid核函數(shù)，對(duì)訓(xùn)練集和測(cè)試集進(jìn)行劃分時(shí)使用十折交叉驗(yàn)證法，進(jìn)行支持向量回歸。四種核函數(shù)十次交叉驗(yàn)證的均方誤差結(jié)果如表5所示。

表5十折交叉驗(yàn)證難度預(yù)測(cè)的均方誤差

為了更清晰地顯示四種核函數(shù)的均方誤差差異，將表5中數(shù)據(jù)以折線圖的形式呈現(xiàn)，如圖2所示。

圖2四種核函數(shù)的均方誤差圖

根據(jù)表圖2及表5可以看出，sigmoid核函數(shù)的均方誤差波動(dòng)最小，預(yù)測(cè)效果最穩(wěn)定。多項(xiàng)式核函數(shù)的均方誤差波動(dòng)最大，其均方誤差的最大值與最小值相差0.3以上。從十次交叉驗(yàn)證的均方誤差均值來看，以徑向基核函數(shù)構(gòu)建的支持向量回歸模型的平均均方誤差最小，其十次結(jié)果的平均均方誤差為0.503，sigmoid核函數(shù)和多項(xiàng)式核函數(shù)的平均均方誤差也較小，分別為0.522和0.526。

表6是使用徑向基核函數(shù)進(jìn)行支持向量回歸的一個(gè)測(cè)試集中試題的預(yù)測(cè)難度值與實(shí)際難度值的對(duì)比。

表6徑向基核函數(shù)的預(yù)測(cè)難度與實(shí)際難度的對(duì)比

由于徑向基核函數(shù)是十個(gè)均方誤差的均值最小的，因而選擇核函數(shù)作為支持向量回歸模型時(shí)，徑向基核函數(shù)為最優(yōu)選項(xiàng)，在懲罰因子C∈[0，10]及gamma∈[2-10，2]的范圍內(nèi)經(jīng)十折交叉驗(yàn)證選出支持向量回歸模型的最優(yōu)核參數(shù)，最優(yōu)模型的核函數(shù)及核參數(shù)選擇如表7所示。

表7最優(yōu)支持向量回歸模型的核函數(shù)及核參數(shù)

本研究的支持向量回歸采用徑向基核函數(shù)，且核參數(shù)取值為C=3.37495及gamma=0.0009765625時(shí)模型效果最佳。采用優(yōu)化后的最佳模型對(duì)樣本題目數(shù)據(jù)進(jìn)行十折交叉驗(yàn)證，得到的十次均方誤差及其均值如表8所示。

表8最佳支持向量回歸模型交叉驗(yàn)證的均方誤差

最佳支持向量回歸模型進(jìn)行十折交叉驗(yàn)證的平均均方誤差為0.492，比徑向基核函數(shù)進(jìn)行核參數(shù)優(yōu)化前的0.503更小。表9是一個(gè)測(cè)試集中試題的預(yù)測(cè)難度值與實(shí)際難度值。

表9最優(yōu)模型預(yù)測(cè)難度與實(shí)際難度的對(duì)比

為了更清楚地呈現(xiàn)模型的預(yù)測(cè)效果，圖3繪制了支持向量回歸預(yù)測(cè)的試題難度與實(shí)測(cè)的試題難度的折線圖。

圖3實(shí)際難度與預(yù)測(cè)難度對(duì)比圖

由圖3可知，支持向量回歸模型對(duì)閱讀理解試題的難度預(yù)測(cè)結(jié)果與實(shí)際難度值差距較大，二者在折線圖上的波動(dòng)趨勢(shì)并不一致，且模型的預(yù)測(cè)難度值始終在-0.5至0.3之間，說明支持向量回歸模型對(duì)閱讀理解試題難度值的預(yù)測(cè)精度不理想。

四、結(jié)論與不足

根據(jù)計(jì)算出來的難度預(yù)估效果的評(píng)價(jià)指標(biāo)，本研究得出的結(jié)論如下：

（一）支持向量機(jī)的最優(yōu)分類模型對(duì)難度預(yù)估的準(zhǔn)確率能夠達(dá)到75%，支持向量機(jī)的最優(yōu)回歸模型的預(yù)測(cè)難度值與實(shí)際難度值的均方誤差的平均值為0.492，但其預(yù)測(cè)的難度值集中在（-0.5，0.2）之間，趨于預(yù)測(cè)為中間難度。說明支持向量機(jī)方法用于閱讀理解試題的題目難度預(yù)估是可行的，能夠?qū)︻}目的難度類別進(jìn)行區(qū)分，但對(duì)于難度值的預(yù)測(cè)精度不佳。

（二）在使用支持向量機(jī)方法構(gòu)建分類與回歸模型時(shí)，分別選擇了徑向基核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)以及線性核函數(shù)四種核函數(shù)，其中多項(xiàng)式核函數(shù)在兩種模型中的表現(xiàn)均不佳，徑向基核函數(shù)在兩種模型中的表現(xiàn)均較好。

在研究過程中，本研究也存在以下不足之處：

在對(duì)難度的影響因素進(jìn)行等級(jí)分類時(shí)，很難兼顧類別的細(xì)致程度與每一類別的樣本量，類別劃分越精細(xì)，每一類別中所包含的樣本量必然會(huì)減少，導(dǎo)致對(duì)這一類別預(yù)估的誤差變大。本研究將題材按照學(xué)科劃為了生物、化學(xué)、醫(yī)學(xué)、科技等各個(gè)小類，因此各類別的樣本量較少。

不同的難度影響因素對(duì)難度的重要程度是不一樣的，明確不同難度影響因素的權(quán)重對(duì)于提高預(yù)估準(zhǔn)確率具有重要意義。支持向量機(jī)的分類模型與回歸模型均能夠設(shè)置影響因素的權(quán)重，但本研究在構(gòu)建預(yù)測(cè)模型時(shí)未考慮難度影響因素的權(quán)重問題，這也是本研究存在的另一不足之處。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于支持向量機(jī)的閱讀理解試題難度預(yù)估研究

一、引言

二、支持向量機(jī)

三、實(shí)證研究

四、結(jié)論與不足

一、引言

二、支持向量機(jī)

三、實(shí)證研究

四、結(jié)論與不足