安康,張勇博,黃澤
(杭州電子科技大學(xué),浙江 杭州 310018)
閱讀是人類獲取信息和知識的重要途徑。然而,超出或低于讀者水平的文本可能對基本文的提取造成阻礙。所以衡量文本的難度指數(shù)至關(guān)重要。
目前,對于文本難度的研究由于時代的需求,現(xiàn)在越來越火熱。最通用的公式是Flesch-Kincaid Grade Level,但是這個公式的表達(dá)過于簡單,只有兩個變量,這導(dǎo)致公式的普適性以及穩(wěn)定性較差。同時,也只能體現(xiàn)文本的客觀難度,沒有考慮到個人差異例如文化差異等帶來的主觀因素。
我們想優(yōu)化這個模型,從單詞,句子,文章三個維度設(shè)置了8個評估指標(biāo),增加變量個數(shù)來提高模型穩(wěn)定性,應(yīng)用多元線性回歸的方法,確定變量系數(shù)。并且我們在模型中加入了主觀因素,將個人差異帶來的文本難度差異能夠量化出來。
在評估英語文本的閱讀難度時,我們參考了多種因素和資料,我們將這些因素劃分為3個緯度:詞匯難度,句子難度和文章難度。
在詞匯困難緯度選擇了2個指標(biāo),分別為常用詞指數(shù)和音節(jié)指數(shù),這兩個指標(biāo)可以衡量一篇文章在詞匯領(lǐng)域內(nèi)的閱讀復(fù)雜程度。
1.1.1 詞匯常用指數(shù)
通常情況下,日??谡Z的交流只需掌握2 000個常用詞匯就夠了。出現(xiàn)過多的生僻詞會增加詞匯難度,增加閱讀難度。因此,將詞匯困難緯度中詞匯常用指數(shù)定義為:
其中,表示的是一篇文章的常用詞指數(shù),W表示的是第個單詞在數(shù)據(jù)庫中出現(xiàn)次數(shù)與數(shù)據(jù)庫總詞數(shù)之比,表示文章的總詞數(shù)。
1.1.2 音節(jié)難度因素
往往一個單詞的音節(jié)數(shù)越多,該單詞越復(fù)雜,該英語文本的詞匯難度就越高,從而影響一篇英語文本的閱讀難度,因此,在詞匯困難領(lǐng)域中音節(jié)指數(shù)定義為:
其中,表示一篇文章的音節(jié)指數(shù),S表示的是第個單詞的音節(jié)數(shù)量,表示文章的總詞數(shù)。
在句子維度,句長指數(shù),句子相似度指數(shù)和從句指數(shù)這3個因素,在很大程度上影響了一篇英語文本的閱讀難度。
1.2.1 平均句長指數(shù)
一篇英語文本平均句長越長,該英語文本的句子難度就越高,從而影響這篇英語文本的閱讀難度,因此,在句子困難緯度中平均句長指數(shù)定義為:
其中,表示一篇文本的平均句長指數(shù),表示該文本總單詞數(shù),表示該文本總句子數(shù)。
1.2.2 句子相似度指數(shù)
文章相似程度句子出現(xiàn)的越多,該英語文本的句子難度就越高,從而增加一篇英語文本的閱讀難度,因此,在句子困難領(lǐng)域中相似度指數(shù)定義為:
其中,表示一篇文章的相似度指數(shù),T表示的是第個句子中出現(xiàn)相似詞的詞數(shù),表示文章的總句子數(shù)。
1.2.3 從句指數(shù)
過多的長短句產(chǎn)生的子句結(jié)構(gòu)和從句結(jié)構(gòu)也會增加句子的理解難度,從而影響一篇英語文本的閱讀難度,因此在句子困難領(lǐng)域中從句指數(shù)的數(shù)學(xué)表達(dá)形式為:
其中,表示一篇文章的從句指數(shù),表示子句數(shù)量,表示帶有連接詞的從句數(shù)量,表示總句子數(shù)。
在文章困難領(lǐng)域,文章總詞數(shù),信息熵指數(shù)和邏輯困難指數(shù)3個指標(biāo)。這些關(guān)鍵的指標(biāo)會對文本難度造成影響。
1.3.1 篇幅長度指數(shù)
我們看到英語文本時,第一反應(yīng)是這篇文章的篇幅,所以,過長的文章篇幅會增加文章的難度。所以,我們可以簡單地將文章困難領(lǐng)域中總詞數(shù)定義為。
1.3.2 信息熵指數(shù)
引入信息熵的概念,文本的信息熵越大,表明文本難度越大,從而影響一篇英語文本的閱讀難度。因此文章困難領(lǐng)域中信息熵指數(shù)定義為:
其中,表示信息熵指數(shù),即信息熵總量。
1.3.3 邏輯難度指數(shù)
一篇文章出現(xiàn)的從句代表詞和邏輯詞數(shù)量越多,該文章的邏輯結(jié)構(gòu)越復(fù)雜,會大大增加該文章的困難度。因此在文章困難領(lǐng)域中邏輯難度指數(shù)定義為:
其中,表示一篇文章的邏輯難度指數(shù),表示從句代表詞數(shù)量,表示邏輯詞數(shù)量,表示
我們得到了上述變量的數(shù)學(xué)形式后,用Python將文本中的數(shù)據(jù)提取出來,進(jìn)行量化。圖1、圖2是代碼實(shí)現(xiàn)。
圖1 代碼第一部分
圖2 代碼第二部分
在定義了3個維度的指標(biāo)后,我們以這8個指標(biāo)為變量,建立了基于多元線性回歸的WSA模型。
WSA模型的分?jǐn)?shù)可以衡量一篇英語文本的閱讀難度,分?jǐn)?shù)越高,表示該文本越難讀懂。WSAscore的數(shù)學(xué)表達(dá)形式為:
其中,~表示各項(xiàng)指標(biāo)的權(quán)重參數(shù),為多元線性回歸的常數(shù)。
首先,假設(shè)新概念英語的文章難度是均勻遞增的,難度指數(shù)定為0~100。再去除新概念英語訓(xùn)練集中某些專門學(xué)習(xí)從句結(jié)構(gòu)、邏輯結(jié)構(gòu)的篇章。同時我們認(rèn)為高考英語試卷的難度就是標(biāo)準(zhǔn)文件的難度左右,設(shè)在70左右。
其中,diff表示因變量。由表1中可以很清楚地看到,每一個指標(biāo)和diff都有較強(qiáng)的相關(guān)性,所以可以進(jìn)行多元線性回歸。
表1 相關(guān)性分析結(jié)果
我們將訓(xùn)練集數(shù)據(jù)運(yùn)用多元線性回歸的方法,求得WSA模型得分的各項(xiàng)指數(shù)權(quán)重以及常數(shù),結(jié)果為:
在用SPSSPRO求得各項(xiàng)指標(biāo)的權(quán)重后,我們進(jìn)行了各項(xiàng)檢驗(yàn)分析,我們發(fā)現(xiàn)句子相似度指數(shù)的P值為0.742,遠(yuǎn)超出統(tǒng)計(jì)學(xué)的標(biāo)準(zhǔn),不符合顯著性,因此我們剔除句子相似度指數(shù)這一項(xiàng)指標(biāo)。
最后我們再次將訓(xùn)練集數(shù)據(jù)運(yùn)用多元線性回歸的方法,求得除去句子相似度指數(shù)的另外7項(xiàng)指數(shù)權(quán)重以及常數(shù),結(jié)果為:
擬合圖如圖3所示:
圖3 效果擬合圖
最后,檢驗(yàn)得到此處7項(xiàng)指標(biāo)的p值均<0.01,說明自變量參數(shù)檢驗(yàn)完全合理,結(jié)果非常顯著。VIF值全部小于10,且除了平均句長指數(shù)的VIF>5外,其余6項(xiàng)指標(biāo)的VIF均小于5,滿足嚴(yán)格意義上的VIF范圍。R調(diào)整后的數(shù)值為0.96,代表模型構(gòu)建非常優(yōu)秀。
我們選取2022年的湖州英語中考的4篇閱讀,英語高考全國卷甲卷的4篇閱讀和CET-6的4篇閱讀作為測試集,帶入之前的代碼后,得到表2所示的數(shù)據(jù)。
表2 測試集難度
我們可以看到,六級難度大于高考難度,高考難度大于中考難度,這與實(shí)際情況一致,所以我們認(rèn)為模型的實(shí)用性較好。
之前我們假設(shè)平均分布的方式得到難度值,下面假設(shè)正態(tài)分布的方式得到難度值,得到新的一個模型,最后將測試集帶入上述模型中,得到CET-6,中考和高考的誤差值2.39%,1.72%,2.21%。由此可見,兩者的差值位于2%左右,誤差非常小。所以,對于難度方式分布敏感度很小,模型很穩(wěn)定。
然而,閱讀難度往往受到閱讀者個體的影響。不同國家的人對比測試,往往測試結(jié)果會出現(xiàn)很大的偏差,這是因?yàn)闇y試者個體因素導(dǎo)致的偏差。因此我們將WSA模型擴(kuò)展到個體因素領(lǐng)域,引入文化差異性的概念,提出新的WSAP模型。
我們將文化變異性定義為主觀閱讀困難(以O(shè)D表示)和客觀閱讀困難(以SD表示)。WSAPscoe是總難度系數(shù),它是主觀閱讀困難和客觀閱讀困難的總和。
WSAP=OD+SD
首先通過查找文獻(xiàn),參考一組時間跨度為2年的文化差異性教育的研究成果,該研究結(jié)果如表3所示。
表3 文化差異性教育結(jié)果
選取兩個班級,一個作為參考班,不接受文化差異性教育。另一個為試驗(yàn)班,接收文化差異性教育,并且定期進(jìn)行閱讀能力的測試。通過對比發(fā)現(xiàn),試驗(yàn)班的閱讀分?jǐn)?shù)比參考班參考班增加了20%。
定義接收文化差異性教育前的閱讀得分為,文本翻譯能力為,之后的閱讀得分為,文本翻譯能力為。接收文化差異性教育之前總難度系數(shù)為WSAP1,接收之后的總難度系數(shù)為WSAP2。
1.2(OD+SD)=OD+SD
我們可以得到:1.2WSAP=WSAP
假設(shè)接收文化差異性教育后的主觀閱讀難度為0,即CD=0,接收前的主觀閱讀難度為1,即CD=100。
所以我們認(rèn)為主觀難度和客觀難度權(quán)重之比為1:5。即為1/6,為5/6。
我們引用Geert Hofstede的文化距離理論,用于體現(xiàn)文化差異性:
其中:為6個文化維度之一,6個維度分別為權(quán)利差距、個人主義或集體主義偏向、不確定性規(guī)避指數(shù)、男性偏向或女性偏向、長期導(dǎo)向和放縱與約束。CD是東道國家與美國的文化距離值,I是關(guān)于國家維度的文化維度評分,AM代表美國,V是i維度所有東道地文化距離的方差。最后對CD的值進(jìn)行標(biāo)準(zhǔn)化處理,并使其滿足正態(tài)分布于0~100。表4列出了幾個國家的CD值。我們對OD和SD進(jìn)行以下的定義:
表4 多個國家CD值
所以我們建立完整的總難度模型WASP:
我們用繼續(xù)使用WSA模型的測試集來檢驗(yàn)WASP模型,其對象為中國人,東道主國家是美國,通過查找表4得到CD的值為87.24。帶入模型中得到CET-6、中高考難度分別為61.84、70.75、91.10。
最后,我們將20%的權(quán)重改變從5%到30%,發(fā)現(xiàn)其差值都低于3.8%,說明模型穩(wěn)定。
我們應(yīng)用多元線性回歸模型,得到了英文文本難度估計(jì)模型WSA。并進(jìn)行推廣,得到了WSAP模型。我們認(rèn)為兩種模型可應(yīng)用不同的情況,將WSA應(yīng)用于只需要關(guān)注文本自身難度的情況下,將WSAP應(yīng)用于需要考慮個人因素對于文本難度的影響時。
最后,我們認(rèn)為該方法的創(chuàng)建可以應(yīng)用到其他語言,比如中文等其他語種。為所有文本的難度估計(jì)提供了一種可行的方法。