王進+周慧+羅國峰+顧翔
摘 要: 圖書閱讀難度自動分級系統(tǒng)能夠幫助兒童讀者快速找到適合自己認知水平的圖書。文章基于圖書句子難度和字難度兩個維度,建立了一個圖書難度分級模型,并開發(fā)出對應的圖書閱讀難度自動分級系統(tǒng)。利用該系統(tǒng)對常見的兒童圖書進行了測試,初步實驗表明:從圖書中隨機選取字數(shù)達到2500-3000字時,圖書閱讀難度分級算法測試結果誤差較小,綜合使用字難度和句子難度的分級算法比單純字難度分級算法和單純句子難度分級算法的效果更好。該系統(tǒng)目前僅限于白話文圖書應用。
關鍵詞: 分級閱讀; 句子難度; 字難度; 漢字常用字詞庫
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2017)08-01-05
Abstract: The automatic grading system of reading difficulty degree can help children find books that are suitable for their own cognitive level. Based on the two dimensions of sentence difficulty and word difficulty, this paper establishes a hierarchical model of reading difficulty degree, and develops an automatic grading system of reading difficulty degree. The common children's books are tested by this system, preliminary experiments show that when the randomly selected books with words up to 2500-3000, the grading algorithm of reading difficulty degree results in less errors, and the grading algorithm using both sentence difficulty and word difficulty has a better result than that only using sentence difficulty or word difficulty. The system is currently limited to the books of using vernacular.
Key words: graded reading; the sentence difficulty; the word difficulty; Chinese characters commonly used thesaurus
0 引言
2011年8月國務院制定的《中國兒童發(fā)展綱要(2011-2020)》[1]首次明確提出“推廣面向兒童的圖書分級制”,為不同年齡兒童提供適合其年齡特點的圖書。圖書分級閱讀[2]是指從少兒的年齡特征、思維特征、社會化特征出發(fā),根據(jù)閱讀者不同年齡段的智力和心理發(fā)育程度,有針對性地為不同閱讀能力的孩子提供合適的圖書,為讀者提供科學的閱讀計劃。
孩子的閱讀熱情可能因不能閱讀到合適的圖書而降低[3]。兒童在不同成長期的閱讀興趣和閱讀發(fā)展有很大的變化,如何實現(xiàn)圖書分級閱讀以滿足孩子不同的閱讀需求已經(jīng)成為一個亟待解決的問題[4]。
近年來一些國內(nèi)出版社已經(jīng)開始為兒童圖書做分級標引,按照不同年齡段孩子的需要,重新編輯、出版一些作家的作品。但這種分級方法不但需要耗費大量的人力財力,還要花費大量的時間[5]。由于信息時代新書增長速度越來越快,傳統(tǒng)的圖書分級方法已經(jīng)捉襟見肘,不能滿足兒童迫切的閱讀分級需求。因此,圖書自動分級研究具有重要的現(xiàn)實意義[6]。
與西方發(fā)達國家相比,國內(nèi)的圖書分級閱讀還不成熟[7-8]。中文圖書分級閱讀,需要學習國外的圖書分級理論與實踐成果,但由于歐美語系與漢語差異很大,針對其英文開發(fā)的分級系統(tǒng)并不適用于中文圖書。因此,要促進國內(nèi)分級閱讀的推廣,需要研究一種針對中文圖書的分類方法。
本研究是以圖書分級閱讀為背景,研究圖書閱讀難度分級技術,通過抽取圖書的自然語言特征,結合兒童認知發(fā)展規(guī)則,建立一套中文圖書閱讀難度分級模型,并實現(xiàn)一個可以在線測試圖書的閱讀難度分級系統(tǒng),為兒童分級閱讀提供服務。
1 圖書分級閱讀標準
歐美比較常見的分級閱讀標準有兩種。一種是A—Z分級閱讀標準(Guided Reading Level),是一種指導型的閱讀方式,把圖書由易到難分成A—Z 26個級別。它是由凡塔斯和皮內(nèi)爾兩位閱讀專家開發(fā)的一套圖書分級系統(tǒng)。其原理是把全文詞匯數(shù)量、單詞數(shù)量、高頻詞匯數(shù)量與比例、低頻詞匯數(shù)量與比例、句子長度、句子復雜度、明晰度、句式、內(nèi)容深度、主體熟悉度等作為分級因子,利用電腦自動分析,但其中的圖例、句子復雜度、思想內(nèi)涵等主觀因素則靠閱讀專家進行分析。A-Z法是一個應用較廣泛的分級方法,被很多數(shù)據(jù)庫所采用。
第二個分級標準,就是藍思(Lexile)分級系統(tǒng)[9],藍思是衡量讀者閱讀水平和標識出版物難易程度時使用的單位。簡單來說,一個藍思(Lexile)是一個難度單位,讀懂一本初級低幼讀物與讀懂一本百科全書之間差距的千分之一被定義為1個Lexile,藍思最高分值為1700L。藍思有一套閱讀水準測評系統(tǒng),包括詞匯、閱讀理解、熟練程度及寫作幾個部分的考核,兒童可以先對自己閱讀水平進行測試,得到一個分值,然后選擇相同分值的書籍。我國尚未形成出版社以外的第三方研究機構指定的權威性分布標準,2009年南方分級閱讀研究中心推出“兩個標準”后,還計劃根據(jù)國際上流行的方法推出“兒童青少年分級閱讀評價方法”。2009年接力兒童分級閱讀研究中心推出了“分級閱讀參考書目”,它在參考了國內(nèi)外各種推薦書目以及頂級兒童文學獎項的基礎上,精選出首批200種兒童分級閱讀參考書目。國內(nèi)的分級標準存在一些弱點,如:分級標準不夠本地化、難以快速推廣等。
2 基于自然語言處理的圖書分級模型
圖書閱讀難度是基于自然語言處理[10]的研究,其主要研究圖書字、詞、語義、語法等因素對圖書閱讀理解的影響。本課題使用的是圖書句子難度[11]和圖書字難度兩個特征。
與英語單詞之間有空格不同,中文文本的處理需要首先進行分詞。中文分詞技術是將句子按照一定漢語序列分成一個一個單獨的且有意義的詞組。本課題采用的分詞器是IKAnalyzer分詞技術[12],能夠較好地支持中英文、日期、羅馬數(shù)字等的分詞。
2.1 圖書字難度
2013年6月5號國務院公開發(fā)布《通用規(guī)范漢字表》,其中一級字表收用了3500個常用漢字表[13],我們根據(jù)其使用頻率的高低依次分為五個等級,建立起幾個字難度(該字在常用漢字中使用頻率[14])依次遞增的字庫。各級字頻庫信息如表1所示。
圖書閱讀分級系統(tǒng)計算圖書字難度時,先把圖書拆分為單個字符,再到五個字頻庫中依次匹配,在某級字庫中匹配到則乘以該字庫難度系數(shù)。如果五個常用字頻庫中都沒有包含該字符,則自動建立一個新字頻庫,命名為六級字頻庫,難度系數(shù)賦值為6,并把該字符歸結入這個新的字頻庫。
2.1.1 圖書字難度算法設計
圖書字難度算法公式的設計是基于常用漢字字頻庫來實現(xiàn)的,圖書字難度與圖書的字總數(shù)無關,與圖書中陌生漢字成正相關,與圖書中出現(xiàn)頻率較高的漢字成負相關。因此設計圖書字難度算法模型如下:
其中,
WD:圖書字難度;
WF:圖書中某個中文字符出現(xiàn)的頻數(shù);
L:常用漢字字符難度,級別分別為1、2、3、4、5、6;
WN:過濾掉StopWord后的圖書字符數(shù)。
根據(jù)建立好的常用漢字字頻庫,把圖書拆分為單個字符,統(tǒng)計其中每個漢字出現(xiàn)的頻數(shù),帶入字難度計算公式得出圖書字難度值。其過程如下:第一,過濾掉圖書中StopWord和標點字符并保存到新文檔中;第二,拆分過濾后的圖書為單個字符并統(tǒng)計字頻數(shù);第三,每個字符逐一從六個難度依次遞增的常用漢字字頻庫中匹配,匹配到之后用字符頻數(shù)乘以該字符所在字頻庫級別即(WF*L)。
2.2 圖書句子難度
閱讀難度高的句子特征:句子長度過長(包含中文字符過多);包含多個陌生詞組;包含多個陌生短語;句子語法冗余;包含多個多義詞等。相對長句而言,短句理解就相對容易得多,最短的句子可能就幾個字,這樣的句子沒有研究的意義,在后期句子難度的計算中將作為過濾對象。對文章的理解是在對字、詞理解的基礎上串聯(lián)而來,本研究中句子難度主要從句子長度、包含詞組數(shù)和短語數(shù)以及詞組和短語屬于幾級詞匯表來計算評估,不涉及到語法功能和語義功能。例如:
A.喝酒就不能開車不然會很危險。
B.現(xiàn)在放學了。
C.今天下午開始進行畢業(yè)答辯了我想你應該準備得很充分了吧。
D.干嘛呢,討厭。
從以上四句話中我們很直觀得出四句話從難到易依次為C、A、D、B,從句子中的詞組量多到少的排序也是C、A、D、B。
句子難度的計算需要建立詞組庫,將常用詞組劃分為甲、乙、丙,分別代表三個級別的詞匯庫,在此劃分為兒童讀物常用詞匯、青少年讀物常用詞匯、成年讀物常用詞匯,各級詞組庫如表2所示。
在測試圖書句子難度時,需要對整篇文章過濾掉一些沒有意義的句子(只包含幾個字符的句子),并以“。?!”為分割標志,拆分為單個句子,分別計算出每個句子的難度值,最后計算出一個平均值表示這篇文章的句子難度值。
初步設計圖書句子難度的模型為:
圖書句子難度=句子長度+詞組因素
該模型選擇三個因素,分別為句子包含字符數(shù)(即句子長度)、詞組總數(shù)、所包含的甲乙丙三個等級詞匯量。其中,甲乙丙三個等級詞匯對圖書的分級起到很重要的作用。最終得到句子難度度量公式為:
其中:
SD:圖書句子難度。
SL:句子長度。
PN:句子中包含詞組數(shù)量。
LN:句子中詞匯的等級值之和。
λ:詞難度系數(shù)在字、詞、語法三個層面的難度選擇的比例,λ1選擇取1,λ2取5.625,λ1,λ2的取值引用文獻[]的句子難度初步公式。
SN:過濾掉簡單句子后的圖書句子總數(shù)。
SD的值越大,句子閱讀難度也較大。原因可能是句子長度過長,句子包含詞匯量和乙丙級詞匯較多。
3 系統(tǒng)設計與實現(xiàn)
本課題從圖書字難度和句子難度兩個維度來測評圖書閱讀難度值。結合常用字頻庫和詞頻庫將圖書拆分為單個字和詞組來分析,計算出圖書字難度和句子難度并把兩個系數(shù)作為參考量,最后帶入閱讀難度公式得到一個較為可靠有效的圖書閱讀難度分數(shù)。
具體分級系統(tǒng)模塊流程圖如圖1所示。其中,待測圖書是一本txt格式的圖書,StopWord[15]是圖書中需要過濾的停止詞,字頻匹配計算是從建立的字難度依次遞增的六級字庫中逐一匹配出該字符并得出字符難度值,詞頻匹配計算是從建立的詞難度依次遞增的三級詞庫中逐一匹配出該詞組并得出該詞組難度值。
系統(tǒng)的要點分析如下。
⑴ 下載漢字常用字頻庫,由3500個常用中文漢字組成。并依據(jù)漢字出現(xiàn)頻率高低把其分為五個等級的字頻庫,依次為一級字頻庫、二級字頻庫、三級字頻庫、四級字頻庫、五級字頻庫,作為評估圖書字難度系數(shù)的參考標準。
⑵ 建立三個詞難度依次遞增的常用漢字詞組庫,作為評估句子難度的參考標準。
⑶ 構造出兩個過濾類,并建立StopWord字庫和StopWordGroup詞組庫過濾圖書中停止詞和停止詞組。如:“的”、“地”、“得”、“哎呀”、“好啊”等。
⑷ 結合常用漢字字頻庫與常用中文詞組庫,設計圖書字難度算法公式和圖書句子難度公式,用來計算圖書的字難度系數(shù)和句子難度系數(shù)。
⑸ 最后通過圖書字難度系數(shù)和句子難度系數(shù)兩個變量,帶入圖書閱讀難度公式計算得出最終閱讀難度系數(shù)。
該系統(tǒng)在測試時只選擇圖書中某頁或某幾頁的內(nèi)容參與測試,測評出的分數(shù)只能作為一個參考不能作為一個定性指標。
3.1 圖書閱讀難度分級算法設計與實現(xiàn)
在字難度和句子難度都已經(jīng)確定的情況下,可以設計最終的圖書閱讀難度分級算法,本文設計的算法模型如下:
其中,RD為圖書閱讀難度值;WD為圖書字難度值;SD為圖書句子難度值;α為圖書字難度系數(shù);β為圖書句子難度系數(shù)。
α與β是由經(jīng)驗確定兩個參數(shù),在后期圖書閱讀難度對比實驗組中得出當α和β取值為0.5時得出的圖書閱讀難度值更加接近人工圖書評分。即RD=0.5*WD+0.5*SD。
4 圖書閱讀難度分級系統(tǒng)評測
4.1 系統(tǒng)對比試驗分析與改進
4.1.1 圖書閱讀難度分級系統(tǒng)算法對比試驗
根據(jù)圖書閱讀難度值的公式模型:RD=α*WD+β*SD,我們可以看出圖書閱讀難度值是一個線性分布的點,那其中α和β兩個系數(shù)該如何賦值,即是否偏重于圖書句子難度或者圖書字難度呢?我們設計了三種算法:算法1混合使用字難度和句子難度,其α=β=0.5;算法2偏重于句子難度,α=0,β=1;算法3偏重于字難度,α=1,β=0。實驗以人工專家評分值為參考標準,將本系統(tǒng)計算的圖書閱讀難度結果與之對比,算出不同圖書分級算法與人工評分的誤差值。誤差定義為:不同系統(tǒng)測評算法的評分值與人工測評的評分值的差絕對值的加權平均值。即:
實驗數(shù)據(jù)如圖2所示。
從三組對比試驗數(shù)據(jù)可以明顯看出:只有當圖書閱讀難度計算模型中圖書字難度和句子難度系數(shù)取值相等,即圖書閱讀難度計算既不側重于圖書句子難度,也不側重于圖書字難度時,得到的結果更加接近人工專家的評分。
4.1.2 圖書字數(shù)試驗
測試圖書時,僅抽取圖書中部分內(nèi)容測試,用該結果近似表示該圖書的閱讀難度。進行不同數(shù)量的字數(shù)抽取,評分結果存在差異,實驗結果如圖3所示。
通過對比實驗數(shù)據(jù)發(fā)現(xiàn):當圖書類型和圖書閱讀難度算法固定不變時,從同一本書中抽取不同數(shù)字的圖書內(nèi)容進行測試,測試結果差異很大。隨著抽檢字數(shù)增加,誤差逐漸收斂。試驗數(shù)據(jù)顯示當測試圖書字數(shù)在2500-3000時,得到的圖書閱讀難度值與專家評分更接近,即測試出的圖書閱讀難度更準確。
4.1.3 圖書類型試驗
通過測試不同類型的圖書,來探索本圖書閱讀難度分級系統(tǒng)是否能測評所有類型的圖書,我們設計幾組針對不同圖書類型測評的對比實驗。見圖4。
在本次對比試驗中,抽取測試的圖書字數(shù)和進行計算的圖書閱讀難度公式模型為定量,以不同類型圖書參與測試。從實驗數(shù)據(jù)得出本系統(tǒng)在測評文言文類型的文章時會出現(xiàn)很大的誤差。因此本圖書閱讀難度分級系統(tǒng)是以現(xiàn)代白話文為研究對象,測評出的分數(shù)才較為準確。
5 結束語
通過圖書句子難度和字難度兩個參數(shù)的分析與計算,通過IKAnalyzer分詞技術和自行設計建立的字、詞庫可以實現(xiàn)圖書字難度與句子難度的計算,以Eclipse開發(fā)軟件為平臺,能夠?qū)崿F(xiàn)圖書閱讀難度分級系統(tǒng)。為了使系統(tǒng)測評的結果更加具有說服力,使用幾十本不同類型的圖書做對比實驗。結果表明:采用算法1(混合算法)針對測試字數(shù)為2500至3000字的現(xiàn)代白話文類型的圖書,本文圖書閱讀難度自動分級系統(tǒng)可以達到與人工對圖書難度的測評接近的水平。該系統(tǒng)應用在圖書館,為兒童快速選擇適合的圖書提供了便利。
參考文獻(References):
[1] 國務院.中國兒童發(fā)展綱要(2011-2020年)[EB/OL].(2011)[2017-03-17].http://www.ccc.org.cn/html/Home/report/1076-1.htm.
[2] 白冰.少年兒童分級閱讀及其研究[J].出版發(fā)行研究,2009.9:16-18
[3] 王新利.我國兒童分級閱讀存在的問題及對策[J].圖書館,2012.2:114-116
[4] 詹莉波,尤建忠.兒童圖書“分級閱讀”在我國的生存現(xiàn)狀與問題研究[J].中國圖書評論,2010.6:114-118
[5] 吳亮芳,李建紅.分級閱讀推廣的尷尬與出路[J].出版發(fā)行研究,2010.10:15-18
[6] 尤建忠.新世紀中國兒童分級閱讀的發(fā)展現(xiàn)狀與前景[J].出版廣角,2011.2011.6:8-11
[7] 孫南南.美國分級閱讀教育體系探究[J].沈陽師范大學學報:社會科學版,2011.35(3):48-50
[8] 王曄.英美兩國兒童分級閱讀對我國的啟示[J].現(xiàn)代情報,2013.33(12):95-98
[9] STENNER A J. Measuring Reading Comprehension with the Lexile Framework[J],1996.
[10] 成慶宗.統(tǒng)計自然語言處理[M].清華大學出版社,2008.
[11] 江少敏.句子難度度量研究[D].廈門大學碩士學位論文,2009.
[12] HONG C. Research on Chinese segmentation algorithm based on Hadoop cloud platform[C]//Information Technology and Mechatronics Engineering Conference,2015.
[13] 江銘虎.自然語言處理[M].高等教育出版社, 2006.
[14] 高定國,鐘毅平,曾鈴娟.字頻影響常用漢字認知速度的實驗研究[J].心理科學,1995.4:225-229
[15] YAO Z, ZE-WEN C. Research on the construction and filter method of stop-word list in text preprocessing[C]//2011 International Conference on Intelligent Computation Technology and Automation (ICICTA). IEEE,2011:217-221