多元線性回歸的英文文本難度估計(jì)模型

2022-08-26 01:51安康張勇博黃澤

現(xiàn)代信息科技 2022年11期

安康，張勇博，黃澤

（杭州電子科技大學(xué)，浙江杭州 310018）

0 引言

閱讀是人類獲取信息和知識的重要途徑。然而，超出或低于讀者水平的文本可能對基本文的提取造成阻礙。所以衡量文本的難度指數(shù)至關(guān)重要。

目前，對于文本難度的研究由于時代的需求，現(xiàn)在越來越火熱。最通用的公式是Flesch-Kincaid Grade Level，但是這個公式的表達(dá)過于簡單，只有兩個變量，這導(dǎo)致公式的普適性以及穩(wěn)定性較差。同時，也只能體現(xiàn)文本的客觀難度，沒有考慮到個人差異例如文化差異等帶來的主觀因素。

我們想優(yōu)化這個模型，從單詞，句子，文章三個維度設(shè)置了8個評估指標(biāo)，增加變量個數(shù)來提高模型穩(wěn)定性，應(yīng)用多元線性回歸的方法，確定變量系數(shù)。并且我們在模型中加入了主觀因素，將個人差異帶來的文本難度差異能夠量化出來。

1 模型參數(shù)選擇

在評估英語文本的閱讀難度時，我們參考了多種因素和資料，我們將這些因素劃分為3個緯度：詞匯難度，句子難度和文章難度。

1.1 詞匯困難緯度

在詞匯困難緯度選擇了2個指標(biāo)，分別為常用詞指數(shù)和音節(jié)指數(shù)，這兩個指標(biāo)可以衡量一篇文章在詞匯領(lǐng)域內(nèi)的閱讀復(fù)雜程度。

1.1.1 詞匯常用指數(shù)

通常情況下，日?？谡Z的交流只需掌握2 000個常用詞匯就夠了。出現(xiàn)過多的生僻詞會增加詞匯難度，增加閱讀難度。因此，將詞匯困難緯度中詞匯常用指數(shù)定義為：

其中，表示的是一篇文章的常用詞指數(shù)，W表示的是第個單詞在數(shù)據(jù)庫中出現(xiàn)次數(shù)與數(shù)據(jù)庫總詞數(shù)之比，表示文章的總詞數(shù)。

1.1.2 音節(jié)難度因素

往往一個單詞的音節(jié)數(shù)越多，該單詞越復(fù)雜，該英語文本的詞匯難度就越高，從而影響一篇英語文本的閱讀難度，因此，在詞匯困難領(lǐng)域中音節(jié)指數(shù)定義為：

其中，表示一篇文章的音節(jié)指數(shù)，S表示的是第個單詞的音節(jié)數(shù)量，表示文章的總詞數(shù)。

1.2 句子難度緯度

在句子維度，句長指數(shù)，句子相似度指數(shù)和從句指數(shù)這3個因素，在很大程度上影響了一篇英語文本的閱讀難度。

1.2.1 平均句長指數(shù)

一篇英語文本平均句長越長，該英語文本的句子難度就越高，從而影響這篇英語文本的閱讀難度，因此，在句子困難緯度中平均句長指數(shù)定義為：

其中，表示一篇文本的平均句長指數(shù)，表示該文本總單詞數(shù)，表示該文本總句子數(shù)。

1.2.2 句子相似度指數(shù)

文章相似程度句子出現(xiàn)的越多，該英語文本的句子難度就越高，從而增加一篇英語文本的閱讀難度，因此，在句子困難領(lǐng)域中相似度指數(shù)定義為：

其中，表示一篇文章的相似度指數(shù)，T表示的是第個句子中出現(xiàn)相似詞的詞數(shù)，表示文章的總句子數(shù)。

1.2.3 從句指數(shù)

過多的長短句產(chǎn)生的子句結(jié)構(gòu)和從句結(jié)構(gòu)也會增加句子的理解難度，從而影響一篇英語文本的閱讀難度，因此在句子困難領(lǐng)域中從句指數(shù)的數(shù)學(xué)表達(dá)形式為：

其中，表示一篇文章的從句指數(shù)，表示子句數(shù)量，表示帶有連接詞的從句數(shù)量，表示總句子數(shù)。

1.3 文章難度

在文章困難領(lǐng)域，文章總詞數(shù)，信息熵指數(shù)和邏輯困難指數(shù)3個指標(biāo)。這些關(guān)鍵的指標(biāo)會對文本難度造成影響。

1.3.1 篇幅長度指數(shù)

我們看到英語文本時，第一反應(yīng)是這篇文章的篇幅，所以，過長的文章篇幅會增加文章的難度。所以，我們可以簡單地將文章困難領(lǐng)域中總詞數(shù)定義為。

1.3.2 信息熵指數(shù)

引入信息熵的概念，文本的信息熵越大，表明文本難度越大，從而影響一篇英語文本的閱讀難度。因此文章困難領(lǐng)域中信息熵指數(shù)定義為：

其中，表示信息熵指數(shù)，即信息熵總量。

1.3.3 邏輯難度指數(shù)

一篇文章出現(xiàn)的從句代表詞和邏輯詞數(shù)量越多，該文章的邏輯結(jié)構(gòu)越復(fù)雜，會大大增加該文章的困難度。因此在文章困難領(lǐng)域中邏輯難度指數(shù)定義為：

其中，表示一篇文章的邏輯難度指數(shù)，表示從句代表詞數(shù)量，表示邏輯詞數(shù)量，表示

1.4 代碼實(shí)現(xiàn)

我們得到了上述變量的數(shù)學(xué)形式后，用Python將文本中的數(shù)據(jù)提取出來，進(jìn)行量化。圖1、圖2是代碼實(shí)現(xiàn)。

圖1 代碼第一部分

圖2 代碼第二部分

2 模型建立

在定義了3個維度的指標(biāo)后，我們以這8個指標(biāo)為變量，建立了基于多元線性回歸的WSA模型。

WSA模型的分?jǐn)?shù)可以衡量一篇英語文本的閱讀難度，分?jǐn)?shù)越高，表示該文本越難讀懂。WSAscore的數(shù)學(xué)表達(dá)形式為：

其中，～表示各項(xiàng)指標(biāo)的權(quán)重參數(shù)，為多元線性回歸的常數(shù)。

3 模型參數(shù)確定

首先，假設(shè)新概念英語的文章難度是均勻遞增的，難度指數(shù)定為0～100。再去除新概念英語訓(xùn)練集中某些專門學(xué)習(xí)從句結(jié)構(gòu)、邏輯結(jié)構(gòu)的篇章。同時我們認(rèn)為高考英語試卷的難度就是標(biāo)準(zhǔn)文件的難度左右，設(shè)在70左右。

3.1 相關(guān)分析

其中，diff表示因變量。由表1中可以很清楚地看到，每一個指標(biāo)和diff都有較強(qiáng)的相關(guān)性，所以可以進(jìn)行多元線性回歸。

表1 相關(guān)性分析結(jié)果

3.2 初次計(jì)算

我們將訓(xùn)練集數(shù)據(jù)運(yùn)用多元線性回歸的方法，求得WSA模型得分的各項(xiàng)指數(shù)權(quán)重以及常數(shù)，結(jié)果為：

在用SPSSPRO求得各項(xiàng)指標(biāo)的權(quán)重后，我們進(jìn)行了各項(xiàng)檢驗(yàn)分析，我們發(fā)現(xiàn)句子相似度指數(shù)的P值為0.742，遠(yuǎn)超出統(tǒng)計(jì)學(xué)的標(biāo)準(zhǔn)，不符合顯著性，因此我們剔除句子相似度指數(shù)這一項(xiàng)指標(biāo)。

3.3 再次計(jì)算

最后我們再次將訓(xùn)練集數(shù)據(jù)運(yùn)用多元線性回歸的方法，求得除去句子相似度指數(shù)的另外7項(xiàng)指數(shù)權(quán)重以及常數(shù)，結(jié)果為：

擬合圖如圖3所示：

圖3 效果擬合圖

最后，檢驗(yàn)得到此處7項(xiàng)指標(biāo)的p值均＜0.01，說明自變量參數(shù)檢驗(yàn)完全合理，結(jié)果非常顯著。VIF值全部小于10，且除了平均句長指數(shù)的VIF＞5外，其余6項(xiàng)指標(biāo)的VIF均小于5，滿足嚴(yán)格意義上的VIF范圍。R調(diào)整后的數(shù)值為0.96，代表模型構(gòu)建非常優(yōu)秀。

3.4 模型驗(yàn)證

我們選取2022年的湖州英語中考的4篇閱讀，英語高考全國卷甲卷的4篇閱讀和CET-6的4篇閱讀作為測試集，帶入之前的代碼后，得到表2所示的數(shù)據(jù)。

表2 測試集難度

我們可以看到，六級難度大于高考難度，高考難度大于中考難度，這與實(shí)際情況一致，所以我們認(rèn)為模型的實(shí)用性較好。

3.5 靈敏性分析

之前我們假設(shè)平均分布的方式得到難度值，下面假設(shè)正態(tài)分布的方式得到難度值，得到新的一個模型，最后將測試集帶入上述模型中，得到CET-6，中考和高考的誤差值2.39%，1.72%，2.21%。由此可見，兩者的差值位于2%左右，誤差非常小。所以，對于難度方式分布敏感度很小，模型很穩(wěn)定。

4 模型推廣

然而，閱讀難度往往受到閱讀者個體的影響。不同國家的人對比測試，往往測試結(jié)果會出現(xiàn)很大的偏差，這是因?yàn)闇y試者個體因素導(dǎo)致的偏差。因此我們將WSA模型擴(kuò)展到個體因素領(lǐng)域，引入文化差異性的概念，提出新的WSAP模型。

4.1 文化差異性與客觀閱讀難度的比例

我們將文化變異性定義為主觀閱讀困難（以O(shè)D表示）和客觀閱讀困難（以SD表示）。WSAPscoe是總難度系數(shù)，它是主觀閱讀困難和客觀閱讀困難的總和。

WSAP=OD+SD

首先通過查找文獻(xiàn)，參考一組時間跨度為2年的文化差異性教育的研究成果，該研究結(jié)果如表3所示。

表3 文化差異性教育結(jié)果

選取兩個班級，一個作為參考班，不接受文化差異性教育。另一個為試驗(yàn)班，接收文化差異性教育，并且定期進(jìn)行閱讀能力的測試。通過對比發(fā)現(xiàn)，試驗(yàn)班的閱讀分?jǐn)?shù)比參考班參考班增加了20%。

定義接收文化差異性教育前的閱讀得分為，文本翻譯能力為，之后的閱讀得分為，文本翻譯能力為。接收文化差異性教育之前總難度系數(shù)為WSAP1，接收之后的總難度系數(shù)為WSAP2。

1.2（OD+SD）=OD+SD

我們可以得到：1.2WSAP=WSAP

假設(shè)接收文化差異性教育后的主觀閱讀難度為0，即CD=0，接收前的主觀閱讀難度為1，即CD=100。

所以我們認(rèn)為主觀難度和客觀難度權(quán)重之比為1：5。即為1/6，為5/6。

4.2 WSAP模型建立

我們引用Geert Hofstede的文化距離理論，用于體現(xiàn)文化差異性：

其中：為6個文化維度之一，6個維度分別為權(quán)利差距、個人主義或集體主義偏向、不確定性規(guī)避指數(shù)、男性偏向或女性偏向、長期導(dǎo)向和放縱與約束。CD是東道國家與美國的文化距離值，I是關(guān)于國家維度的文化維度評分，AM代表美國，V是i維度所有東道地文化距離的方差。最后對CD的值進(jìn)行標(biāo)準(zhǔn)化處理，并使其滿足正態(tài)分布于0～100。表4列出了幾個國家的CD值。我們對OD和SD進(jìn)行以下的定義：

表4 多個國家CD值

所以我們建立完整的總難度模型WASP：

4.3 模型計(jì)算

我們用繼續(xù)使用WSA模型的測試集來檢驗(yàn)WASP模型，其對象為中國人，東道主國家是美國，通過查找表4得到CD的值為87.24。帶入模型中得到CET-6、中高考難度分別為61.84、70.75、91.10。

最后，我們將20%的權(quán)重改變從5%到30%，發(fā)現(xiàn)其差值都低于3.8%，說明模型穩(wěn)定。

5 結(jié) 論

我們應(yīng)用多元線性回歸模型，得到了英文文本難度估計(jì)模型WSA。并進(jìn)行推廣，得到了WSAP模型。我們認(rèn)為兩種模型可應(yīng)用不同的情況，將WSA應(yīng)用于只需要關(guān)注文本自身難度的情況下，將WSAP應(yīng)用于需要考慮個人因素對于文本難度的影響時。

最后，我們認(rèn)為該方法的創(chuàng)建可以應(yīng)用到其他語言，比如中文等其他語種。為所有文本的難度估計(jì)提供了一種可行的方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡