国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多元線性回歸的英文文本難度估計(jì)模型

2022-08-26 01:51安康張勇博黃澤
現(xiàn)代信息科技 2022年11期
關(guān)鍵詞:信息熵維度困難

安康,張勇博,黃澤

(杭州電子科技大學(xué),浙江 杭州 310018)

0 引 言

閱讀是人類獲取信息和知識的重要途徑。然而,超出或低于讀者水平的文本可能對基本文的提取造成阻礙。所以衡量文本的難度指數(shù)至關(guān)重要。

目前,對于文本難度的研究由于時代的需求,現(xiàn)在越來越火熱。最通用的公式是Flesch-Kincaid Grade Level,但是這個公式的表達(dá)過于簡單,只有兩個變量,這導(dǎo)致公式的普適性以及穩(wěn)定性較差。同時,也只能體現(xiàn)文本的客觀難度,沒有考慮到個人差異例如文化差異等帶來的主觀因素。

我們想優(yōu)化這個模型,從單詞,句子,文章三個維度設(shè)置了8個評估指標(biāo),增加變量個數(shù)來提高模型穩(wěn)定性,應(yīng)用多元線性回歸的方法,確定變量系數(shù)。并且我們在模型中加入了主觀因素,將個人差異帶來的文本難度差異能夠量化出來。

1 模型參數(shù)選擇

在評估英語文本的閱讀難度時,我們參考了多種因素和資料,我們將這些因素劃分為3個緯度:詞匯難度,句子難度和文章難度。

1.1 詞匯困難緯度

在詞匯困難緯度選擇了2個指標(biāo),分別為常用詞指數(shù)和音節(jié)指數(shù),這兩個指標(biāo)可以衡量一篇文章在詞匯領(lǐng)域內(nèi)的閱讀復(fù)雜程度。

1.1.1 詞匯常用指數(shù)

通常情況下,日??谡Z的交流只需掌握2 000個常用詞匯就夠了。出現(xiàn)過多的生僻詞會增加詞匯難度,增加閱讀難度。因此,將詞匯困難緯度中詞匯常用指數(shù)定義為:

其中,表示的是一篇文章的常用詞指數(shù),W表示的是第個單詞在數(shù)據(jù)庫中出現(xiàn)次數(shù)與數(shù)據(jù)庫總詞數(shù)之比,表示文章的總詞數(shù)。

1.1.2 音節(jié)難度因素

往往一個單詞的音節(jié)數(shù)越多,該單詞越復(fù)雜,該英語文本的詞匯難度就越高,從而影響一篇英語文本的閱讀難度,因此,在詞匯困難領(lǐng)域中音節(jié)指數(shù)定義為:

其中,表示一篇文章的音節(jié)指數(shù),S表示的是第個單詞的音節(jié)數(shù)量,表示文章的總詞數(shù)。

1.2 句子難度緯度

在句子維度,句長指數(shù),句子相似度指數(shù)和從句指數(shù)這3個因素,在很大程度上影響了一篇英語文本的閱讀難度。

1.2.1 平均句長指數(shù)

一篇英語文本平均句長越長,該英語文本的句子難度就越高,從而影響這篇英語文本的閱讀難度,因此,在句子困難緯度中平均句長指數(shù)定義為:

其中,表示一篇文本的平均句長指數(shù),表示該文本總單詞數(shù),表示該文本總句子數(shù)。

1.2.2 句子相似度指數(shù)

文章相似程度句子出現(xiàn)的越多,該英語文本的句子難度就越高,從而增加一篇英語文本的閱讀難度,因此,在句子困難領(lǐng)域中相似度指數(shù)定義為:

其中,表示一篇文章的相似度指數(shù),T表示的是第個句子中出現(xiàn)相似詞的詞數(shù),表示文章的總句子數(shù)。

1.2.3 從句指數(shù)

過多的長短句產(chǎn)生的子句結(jié)構(gòu)和從句結(jié)構(gòu)也會增加句子的理解難度,從而影響一篇英語文本的閱讀難度,因此在句子困難領(lǐng)域中從句指數(shù)的數(shù)學(xué)表達(dá)形式為:

其中,表示一篇文章的從句指數(shù),表示子句數(shù)量,表示帶有連接詞的從句數(shù)量,表示總句子數(shù)。

1.3 文章難度

在文章困難領(lǐng)域,文章總詞數(shù),信息熵指數(shù)和邏輯困難指數(shù)3個指標(biāo)。這些關(guān)鍵的指標(biāo)會對文本難度造成影響。

1.3.1 篇幅長度指數(shù)

我們看到英語文本時,第一反應(yīng)是這篇文章的篇幅,所以,過長的文章篇幅會增加文章的難度。所以,我們可以簡單地將文章困難領(lǐng)域中總詞數(shù)定義為。

1.3.2 信息熵指數(shù)

引入信息熵的概念,文本的信息熵越大,表明文本難度越大,從而影響一篇英語文本的閱讀難度。因此文章困難領(lǐng)域中信息熵指數(shù)定義為:

其中,表示信息熵指數(shù),即信息熵總量。

1.3.3 邏輯難度指數(shù)

一篇文章出現(xiàn)的從句代表詞和邏輯詞數(shù)量越多,該文章的邏輯結(jié)構(gòu)越復(fù)雜,會大大增加該文章的困難度。因此在文章困難領(lǐng)域中邏輯難度指數(shù)定義為:

其中,表示一篇文章的邏輯難度指數(shù),表示從句代表詞數(shù)量,表示邏輯詞數(shù)量,表示

1.4 代碼實(shí)現(xiàn)

我們得到了上述變量的數(shù)學(xué)形式后,用Python將文本中的數(shù)據(jù)提取出來,進(jìn)行量化。圖1、圖2是代碼實(shí)現(xiàn)。

圖1 代碼第一部分

圖2 代碼第二部分

2 模型建立

在定義了3個維度的指標(biāo)后,我們以這8個指標(biāo)為變量,建立了基于多元線性回歸的WSA模型。

WSA模型的分?jǐn)?shù)可以衡量一篇英語文本的閱讀難度,分?jǐn)?shù)越高,表示該文本越難讀懂。WSAscore的數(shù)學(xué)表達(dá)形式為:

其中,~表示各項(xiàng)指標(biāo)的權(quán)重參數(shù),為多元線性回歸的常數(shù)。

3 模型參數(shù)確定

首先,假設(shè)新概念英語的文章難度是均勻遞增的,難度指數(shù)定為0~100。再去除新概念英語訓(xùn)練集中某些專門學(xué)習(xí)從句結(jié)構(gòu)、邏輯結(jié)構(gòu)的篇章。同時我們認(rèn)為高考英語試卷的難度就是標(biāo)準(zhǔn)文件的難度左右,設(shè)在70左右。

3.1 相關(guān)分析

其中,diff表示因變量。由表1中可以很清楚地看到,每一個指標(biāo)和diff都有較強(qiáng)的相關(guān)性,所以可以進(jìn)行多元線性回歸。

表1 相關(guān)性分析結(jié)果

3.2 初次計(jì)算

我們將訓(xùn)練集數(shù)據(jù)運(yùn)用多元線性回歸的方法,求得WSA模型得分的各項(xiàng)指數(shù)權(quán)重以及常數(shù),結(jié)果為:

在用SPSSPRO求得各項(xiàng)指標(biāo)的權(quán)重后,我們進(jìn)行了各項(xiàng)檢驗(yàn)分析,我們發(fā)現(xiàn)句子相似度指數(shù)的P值為0.742,遠(yuǎn)超出統(tǒng)計(jì)學(xué)的標(biāo)準(zhǔn),不符合顯著性,因此我們剔除句子相似度指數(shù)這一項(xiàng)指標(biāo)。

3.3 再次計(jì)算

最后我們再次將訓(xùn)練集數(shù)據(jù)運(yùn)用多元線性回歸的方法,求得除去句子相似度指數(shù)的另外7項(xiàng)指數(shù)權(quán)重以及常數(shù),結(jié)果為:

擬合圖如圖3所示:

圖3 效果擬合圖

最后,檢驗(yàn)得到此處7項(xiàng)指標(biāo)的p值均<0.01,說明自變量參數(shù)檢驗(yàn)完全合理,結(jié)果非常顯著。VIF值全部小于10,且除了平均句長指數(shù)的VIF>5外,其余6項(xiàng)指標(biāo)的VIF均小于5,滿足嚴(yán)格意義上的VIF范圍。R調(diào)整后的數(shù)值為0.96,代表模型構(gòu)建非常優(yōu)秀。

3.4 模型驗(yàn)證

我們選取2022年的湖州英語中考的4篇閱讀,英語高考全國卷甲卷的4篇閱讀和CET-6的4篇閱讀作為測試集,帶入之前的代碼后,得到表2所示的數(shù)據(jù)。

表2 測試集難度

我們可以看到,六級難度大于高考難度,高考難度大于中考難度,這與實(shí)際情況一致,所以我們認(rèn)為模型的實(shí)用性較好。

3.5 靈敏性分析

之前我們假設(shè)平均分布的方式得到難度值,下面假設(shè)正態(tài)分布的方式得到難度值,得到新的一個模型,最后將測試集帶入上述模型中,得到CET-6,中考和高考的誤差值2.39%,1.72%,2.21%。由此可見,兩者的差值位于2%左右,誤差非常小。所以,對于難度方式分布敏感度很小,模型很穩(wěn)定。

4 模型推廣

然而,閱讀難度往往受到閱讀者個體的影響。不同國家的人對比測試,往往測試結(jié)果會出現(xiàn)很大的偏差,這是因?yàn)闇y試者個體因素導(dǎo)致的偏差。因此我們將WSA模型擴(kuò)展到個體因素領(lǐng)域,引入文化差異性的概念,提出新的WSAP模型。

4.1 文化差異性與客觀閱讀難度的比例

我們將文化變異性定義為主觀閱讀困難(以O(shè)D表示)和客觀閱讀困難(以SD表示)。WSAPscoe是總難度系數(shù),它是主觀閱讀困難和客觀閱讀困難的總和。

WSAP=OD+SD

首先通過查找文獻(xiàn),參考一組時間跨度為2年的文化差異性教育的研究成果,該研究結(jié)果如表3所示。

表3 文化差異性教育結(jié)果

選取兩個班級,一個作為參考班,不接受文化差異性教育。另一個為試驗(yàn)班,接收文化差異性教育,并且定期進(jìn)行閱讀能力的測試。通過對比發(fā)現(xiàn),試驗(yàn)班的閱讀分?jǐn)?shù)比參考班參考班增加了20%。

定義接收文化差異性教育前的閱讀得分為,文本翻譯能力為,之后的閱讀得分為,文本翻譯能力為。接收文化差異性教育之前總難度系數(shù)為WSAP1,接收之后的總難度系數(shù)為WSAP2。

1.2(OD+SD)=OD+SD

我們可以得到:1.2WSAP=WSAP

假設(shè)接收文化差異性教育后的主觀閱讀難度為0,即CD=0,接收前的主觀閱讀難度為1,即CD=100。

所以我們認(rèn)為主觀難度和客觀難度權(quán)重之比為1:5。即為1/6,為5/6。

4.2 WSAP模型建立

我們引用Geert Hofstede的文化距離理論,用于體現(xiàn)文化差異性:

其中:為6個文化維度之一,6個維度分別為權(quán)利差距、個人主義或集體主義偏向、不確定性規(guī)避指數(shù)、男性偏向或女性偏向、長期導(dǎo)向和放縱與約束。CD是東道國家與美國的文化距離值,I是關(guān)于國家維度的文化維度評分,AM代表美國,V是i維度所有東道地文化距離的方差。最后對CD的值進(jìn)行標(biāo)準(zhǔn)化處理,并使其滿足正態(tài)分布于0~100。表4列出了幾個國家的CD值。我們對OD和SD進(jìn)行以下的定義:

表4 多個國家CD值

所以我們建立完整的總難度模型WASP:

4.3 模型計(jì)算

我們用繼續(xù)使用WSA模型的測試集來檢驗(yàn)WASP模型,其對象為中國人,東道主國家是美國,通過查找表4得到CD的值為87.24。帶入模型中得到CET-6、中高考難度分別為61.84、70.75、91.10。

最后,我們將20%的權(quán)重改變從5%到30%,發(fā)現(xiàn)其差值都低于3.8%,說明模型穩(wěn)定。

5 結(jié) 論

我們應(yīng)用多元線性回歸模型,得到了英文文本難度估計(jì)模型WSA。并進(jìn)行推廣,得到了WSAP模型。我們認(rèn)為兩種模型可應(yīng)用不同的情況,將WSA應(yīng)用于只需要關(guān)注文本自身難度的情況下,將WSAP應(yīng)用于需要考慮個人因素對于文本難度的影響時。

最后,我們認(rèn)為該方法的創(chuàng)建可以應(yīng)用到其他語言,比如中文等其他語種。為所有文本的難度估計(jì)提供了一種可行的方法。

猜你喜歡
信息熵維度困難
如何促進(jìn)我國綜合交通運(yùn)輸高質(zhì)量發(fā)展
——基于FSO框架的分析
理解“第三次理論飛躍”的三個維度
Challenges Build the Team困難中遇見團(tuán)隊(duì)
多媒體情境下培養(yǎng)學(xué)生閱讀素養(yǎng)的三個維度
幼兒教師專業(yè)成長的三個維度
近似邊界精度信息熵的屬性約簡
選擇困難癥治療儀
選擇困難癥
基于信息熵的承運(yùn)船舶短重風(fēng)險(xiǎn)度量與檢驗(yàn)監(jiān)管策略研究
信息熵及其在中醫(yī)“證癥”關(guān)聯(lián)中的應(yīng)用研究
鄂托克旗| 自治县| 桦南县| 鄂尔多斯市| 井陉县| 永胜县| 江都市| 甘泉县| 鞍山市| 烟台市| 镇远县| 新疆| 禹城市| 佛坪县| 蒲城县| 葵青区| 周口市| 会同县| 郧西县| 保康县| 神农架林区| 普安县| 惠东县| 通河县| 青铜峡市| 甘洛县| 兴国县| 棋牌| 咸丰县| 津南区| 邵东县| 综艺| 高要市| 嘉义县| 威海市| 甘孜县| 北辰区| 读书| 彩票| 佛学| 景谷|