郭 娜,趙向軍
(1.江蘇師范大學(xué) 信息化建設(shè)與管理處,江蘇 徐州 221116;2.南京曉莊學(xué)院,江蘇 南京 210017)
教學(xué)是學(xué)校教育的核心,教材是教學(xué)的主要依據(jù),是師生相互作用的橋梁,更是學(xué)生吸收科學(xué)文化知識、啟迪智慧、培養(yǎng)能力的源泉.其中,語文教材肩負著傳播文化知識和培養(yǎng)學(xué)生語言能力的重任,開發(fā)和利用豐富多彩的語文課程資源是充實課程內(nèi)容,提高教學(xué)質(zhì)量的關(guān)鍵.
雖然計算機技術(shù)及眾多相關(guān)應(yīng)用已普及教育領(lǐng)域,但關(guān)于教材選編的研究仍停留在理論方面,語文教材的選編工作也多選用人工收集、過濾和編排的方式.于是,一些問題隨之產(chǎn)生:(1)語文教材選編時間長,過程耗時耗力.(2)編寫一旦完成就難以改動,易導(dǎo)致內(nèi)容陳舊,缺乏時代感.(3)過于依賴人的經(jīng)驗,缺乏量化指標的參與.在大數(shù)據(jù)時代,互聯(lián)網(wǎng)上的漢語言教學(xué)素材不斷涌現(xiàn),為素材需求者提供了豐富的資源.如若充分利用這些海量教學(xué)素材,定時更新學(xué)生使用的語文教材,有益于增強教材內(nèi)容的時代感.但不可避免的是,急劇增的教學(xué)素材也誘發(fā)了資源過載問題,如何從豐富的文本類漢語言教學(xué)素材中,依據(jù)規(guī)范的準則,設(shè)計自動化或半自動化的推薦方法,快速挑選出優(yōu)質(zhì)的教學(xué)素材是一個值得研究的問題.
為此,本文廣泛收集學(xué)生經(jīng)典讀物,通過分詞、詞頻統(tǒng)計、詞量化和文檔量化等操作形成文本庫.同時,分析教材選文依據(jù),設(shè)計選文推薦算法,保證語文教材在詞匯上具有連續(xù)性、順序性、重復(fù)性和整體性特征.
文本類教學(xué)素材在計算機領(lǐng)域被稱為文檔,要想讓計算機高效地處理文檔,就必須設(shè)計出一種理想的文檔表示方法,這個設(shè)計過程被稱為文檔建模.文檔建模既要能真實地反映文檔的內(nèi)容,又要能區(qū)分不同文檔.
詞的向量化是文檔量化表示的前提.詞的向量化是將自然語言中的詞映射成向量,主要有2種表示方式:第一種是one-hot representation方式.第二種是Distributed representation方式,最早由Hinton[1]提出.分布式表示是將詞匯量化到一個維數(shù)固定的實數(shù)空間中,相對于第一種表示方式,該空間中的詞向量具有低維、密集的特點.對于語義越相近的詞匯,其在向量空間中的距離也相對接近,很好地克服了one-hot representation方式的缺陷.
獲取Distributed representation形式的詞向量的方法有很多,包括LSA、LDA 、神經(jīng)網(wǎng)絡(luò)和word2vec工具等.其中,由google在2013年提出的word2vec工具因具有良好的量化效果而被廣泛使用.Word2vec是由Mikolov通過借鑒NNLM(Neural Network Language Model)[2]以及Log_linear模型[3]提出的,它利用詞的上下文信息將一個詞轉(zhuǎn)化成一個低維實數(shù)向量,具有高效便捷的特點.Word2vec包含兩種不同的模型,其中CBOW模型的目標是利用當前詞語的上下文來預(yù)測當前詞語的概率.當利用詞向量表示一個詞時,可以發(fā)現(xiàn)類似這樣的規(guī)律:“king”-“man”+“woman”=“queen”,由此說明了詞向量強大地表達語義的能力.
用于表示文檔的基本單位通常稱為文檔的特征或特征項.目前中文文本量化多采用詞作為特征項,稱作特征詞.用特征詞表示文檔,可計算文檔與文檔間的相似度,然而,如何選取文檔的最佳特征詞是量化文檔的關(guān)鍵點.
本文采用文檔頻數(shù)法(Document Frequency,DF)進行文檔特征選取.文檔頻數(shù)是最為簡單的一種特征選擇算法,它指的是在整個數(shù)據(jù)集中有多少個文檔包含這個單詞.在訓(xùn)練文本集中對每個特征計算它的文檔頻數(shù),若該項的DF 值小于某個閾值則將其刪除,若其DF值大于某個閾值也將其去掉.
常用的文檔表示模型有詞袋模型(Bag of Word,BOW)[4]和向量空間模型(Vector Space Model,VSM)[5].在詞袋模型中,文檔被表示為一組詞匯的無序集合,詞匯之間相互獨立,特征維數(shù)較高,且忽略語法和語義信息.向量空間模型較為靈活,它以詞匯的統(tǒng)計信息作為特征權(quán)值,相對于詞袋模型來說,它所建模出的文檔向量的維度有所降低,但仍然無法處理文檔中詞匯的語義聯(lián)系.為此,本文基于詞向量提出了文檔的矩陣表示方法,矩陣中的行向量對應(yīng)文檔的特征詞,行與行的角距離表征了特征詞之間的某種聯(lián)系.該種表達方式充分利用了文檔中每個詞匯所表達的信息內(nèi)涵,利于挖掘文檔的語義關(guān)系.由前文介紹可知,通過訓(xùn)練word2vec模型獲得的詞向量不僅具有低維、稠密特性,還能夠充分表達詞語間的語義信息.所以,利用詞向量間的組合或運算是量化表示文檔的有效方法之一.目前,關(guān)于這方面的研究進展緩慢,常見的方法是對一篇文檔所包含的所有詞向量進行求平均值[6]或?qū)υ~向量進行聚類[7],但這兩種方法均未重視單個詞對整個文檔的影響力,同時,前者在求平均之后,詞向量所表達的含義已經(jīng)喪失,利用平均詞向量表示文檔具有不合理性.本文將一篇精選文檔可表示為(W1,…,Wi,…,Wn),其中,Wi表示文檔的第i個特征項,實際上為一詞向量,在詞向量表中可找到與之對應(yīng)的實際詞,n表示文檔包含的特征詞數(shù).利用該表示方法和合理的文檔距離度量公式,可挖掘包含相似詞匯的文檔.
詞匯是學(xué)生遣詞造句的基礎(chǔ),是閱讀與寫作的前提,教材中詞匯的編排是否科學(xué)直接關(guān)系著學(xué)生的學(xué)習(xí)效果.如果教材中包含過多超綱詞匯,文章將晦澀難懂,如果過于簡單,文章又味如嚼蠟,只有一本詞匯編排合理的教材才能使語言學(xué)習(xí)事半功倍.
在[8]一文中,作者研究發(fā)現(xiàn),小學(xué)生認知詞匯是一個循序漸進的過程,我們應(yīng)了解學(xué)生習(xí)得詞語的規(guī)律,按照詞匯的順序選編教材,保證詞匯在教材整體上呈現(xiàn)連續(xù)性.詞頻是詞匯被使用的頻度,如果先導(dǎo)課文中包含過量的低頻詞匯,將不利于后繼課文的教學(xué),也不符合學(xué)生由淺入深的認知規(guī)律.因此,按照詞匯頻度的大小設(shè)置學(xué)習(xí)詞匯的先后順序,保證高頻詞先學(xué),低頻詞后學(xué),是符合學(xué)生的認知規(guī)律的一種體現(xiàn).
同時,推薦選文應(yīng)實現(xiàn)相鄰選文間具有一定的重復(fù)詞匯,即當前選文應(yīng)包含少量的前文詞匯和后文詞匯,以便達到溫故和學(xué)新的效果.
此外,相關(guān)詞之間存在著緊密聯(lián)系,如“學(xué)生”和“老師”之間存在“教”與“學(xué)”的關(guān)系.在同一課文或相鄰課文中編排關(guān)系密切的詞匯,有益于學(xué)生感知詞匯之間的關(guān)系,保持知識間的聯(lián)系.然而,在現(xiàn)有教材中,密切相關(guān)的詞匯分布較為分散,使得教師在教學(xué)過程中必須補充相關(guān)知識.為了捕獲這些關(guān)系緊密的詞匯,本文采用k-means聚類算法對詞匯表中的詞匯進行聚類,每個類可稱為一個詞包,詞包內(nèi)的詞匯具有緊密的關(guān)系.
綜上所述,語文教材選文推薦的準則主要包括以下幾點:
圖1 語文教材選文推薦過程
(1) 小學(xué)生認知詞匯是一個循序漸進的過程,應(yīng)以詞匯序表中的詞匯作為推薦選文的依據(jù),保證選文的詞匯遵循連續(xù)性、有序性.
(2) 應(yīng)保持相鄰選文具有一定的重復(fù)詞匯,保證溫習(xí)和學(xué)新效果.
(3) 盡可能地使密切相關(guān)詞匯分布在同一選文或相鄰選文中.
(4) 教材選文在滿足各學(xué)段的學(xué)生學(xué)習(xí)需要的同時,不得逾越學(xué)生的詞匯接受能力.
在確定選文推薦的原則后,可設(shè)計出教材選文推薦的整體過程,如圖1所示.從圖中可以看出,教材選文推薦工作是在獲得各學(xué)段必學(xué)詞匯表的基礎(chǔ)上,將待推薦精選文章通過選文推薦算法與必學(xué)詞匯表相匹配,挑選出最佳選文.
(1)
(2)
(3)
除去該類詞,文檔a,b中尚有如下詞集合
S2={s|s∈{1..n},?t∈{1..m},(s,t)?S1},
(4)
S3={t|t∈{1..m},?s∈{1..n},(s,t)?S1},
(5)
則,文檔a,b的相似度可定義為:
(6)
其中第一項為相匹配詞的距離,后兩項體現(xiàn)了無匹配詞所起作用,在各項前可以增加調(diào)和系數(shù),用于協(xié)調(diào)各成分所起作用.
教材選文推薦算法是基于各年級的必學(xué)詞匯表,從待推薦的優(yōu)質(zhì)文章庫中挑選出與之匹配度最高的一系列選文,形成教材的過程.一般來說,一篇課文所包含的新詞數(shù)應(yīng)被嚴格控制.所以,在推薦選文前,需將必學(xué)詞匯表劃分成若干個有序詞匯集,詞匯集的數(shù)量由本年級教材所需課文數(shù)決定.由前文選文推薦依據(jù)可知,相鄰選文之間應(yīng)具有一定的重復(fù)詞匯.解決該問題的方法是在劃分詞匯集時,使得詞匯集之間存在一定的交集.獲得每一篇教材選文的過程實質(zhì)是文本分類問題,即將待推薦選文歸類到對應(yīng)詞匯集的過程.教材選文推薦算法描述如下:
輸入:各年級的必學(xué)詞匯表V{D1,D2,D3,D4,D5,D6},其中,Di表示i年級的必學(xué)詞匯表.待推薦選文集C={A1,…,Ai,…,An},其中,Ai表示第i篇文章的特征矩陣,矩陣的每一行對應(yīng)一個特征詞的詞向量.需推薦教材選文的年級class,教材的選文數(shù)count,文章間的重復(fù)詞匯數(shù)rep.
輸出:O={B1,B2, …,Bcount} ,即對應(yīng)class年級的一套語文教材.
算法步驟:
(1) 劃分class年級的必學(xué)詞匯表Dclass為若干個詞匯集M{W1,…,Wi,…,Wcount},且詞匯集之間存在重復(fù)部分.假設(shè)詞匯集Wi中最后一個詞匯對應(yīng)必學(xué)詞匯表中的下標記為x(i),則詞匯集Wi所包含的詞匯可表示為:
Wi{wx(i-1)-rep+1,wx(i-1)-rep+2,…,wx(i)}.
(7)
(2) 量化詞匯集
wi=FV(wi)Wi{wx(i-1)-rep+1,wx(i-1)-rep+2,…,wx(i)},
(8)
其中FV(.)為特征向量算子,Wi就是量化后的第i個詞匯集.
(3) 依據(jù)公式(6),計算所有待推薦選文C與各詞匯集M之間的相似度,構(gòu)成距離矩陣
(9)
(4) 對于每個詞匯集,根據(jù)距離矩陣(9),按距離由小到大的順序?qū)Υ扑]選文C排序,可得:
Si={
(10)
其中,di1表示在C中與詞匯集Wi距離最近的文章的下標,Ddi1則是文章Adi1與詞匯集Wi的距離.
(5) 為每個詞匯集匹配候選文章集
Hi={Adij|Ddij>=ε,dij∈Si},j∈[1,n].
(11)
其中,ε為選文與詞匯集Wi的距離閾值.
(6) 確定每個詞匯集的最佳選文
① 對于?Hi(i∈[1,count]),如果Hi≠?,令Bi=Adi1,否則從Hi向上、向下各找到一個不為空的候選文章集Hprior和Hnext,將Hprior和Hnext兩個集合中的元素按序合并,并賦值給Hi,令Bi=Adi3
② 對于?Bi,如果?Bi=Bj(j∈[1,count]),找到Hi中的Dindex(Bi)和Hj中的Dindex(Bj)的值, 如果Dindex(Bi)>Dindex(Bj),Bj=Anext(Hj),否則,Bi=Anext(Hi).其中,index()是求一篇文章下標的函數(shù),next()是求Hj集合中尚未訪問的第一個元素的d值.
③ 重復(fù)②,直到求出所有Bi,且對于?Bi,不存在Bi=Bj(j∈[1,count])
算法分析:該算法的實質(zhì)是將必學(xué)詞匯表劃分為若干個有交集的詞匯表,且交集的大小固定.然后,利用文檔相似度函數(shù),為每個詞匯集匹配選文.算法的關(guān)鍵步驟是(6),該步驟的作用是在各選文候選集中,挑選與詞匯集匹配度最高,且與其他詞匯集的選文不沖突的最佳選文.對于部分詞匯集來說,由于精選文本庫中的文章有限,有可能出現(xiàn)選文候選集為空的情況.當某詞匯集的選文候選集為空時,本文選取與之最近且不為空的兩個選文候選集,將他們中的元素合并排序作為該詞匯集的選文候選集.在保證每個詞匯集的選文候選集不為空后,從選文候選集中選擇與詞匯集相似度最大的文章作為該詞匯集的最佳選文.但是,對于不同的詞匯集,可能出現(xiàn)相同的最佳選文.為了避免教材中出現(xiàn)重復(fù)選文,對于所有匹配到相同選文的詞匯集,D值最大的詞匯集的最佳選文不變,其余的詞匯集均需在各自的候選集中重新選擇未被匹配且D值最大的文章作為最佳選文,反復(fù)比較選文是否有重復(fù),直到所有詞匯集都具有唯一的最佳選文.
本實驗以新課標蘇教版小學(xué)1—6年級語文課文為精選文本庫.同時,借助Matlab平臺,實現(xiàn)語文教材選文推薦算法.如果想要獲取各學(xué)段的教材,必須保證精品文本庫足夠大.因此,在精選文本庫中文章數(shù)量有限的情況下,故本文僅實現(xiàn)了部分學(xué)段的教材選文推薦,并與某版本原學(xué)段的課文進行了對比分析,證明本文算法的有效性.
本文通過廣泛收集學(xué)生經(jīng)典閱讀書目,通過文本處理技術(shù),去除過于簡單和無意義的詞匯,經(jīng)過詞頻統(tǒng)計、詞聚類等操作獲得約含3490個詞匯的詞匯序表.依據(jù)每學(xué)段可接受的詞匯量,劃分出各學(xué)段的必學(xué)詞匯表.如表1所示,列出了二年級的部分必學(xué)詞匯及詞匯頻度,其中,序號標識了詞匯在詞表中的順序.從表中我們可以看出,序號為11“媽媽”和序號為12“爸爸”是關(guān)系密切的詞匯,他們在詞匯序表中處于相鄰位置,這樣便于為學(xué)生推薦同時包含這兩個詞匯的文章.
表1 二年級部分必學(xué)詞匯及其詞匯頻度
設(shè)置相鄰詞匯集間的重復(fù)詞匯數(shù)rep=8,同時,實現(xiàn)教材選文推薦算法可得到二年級上冊語文教材選文的推薦結(jié)果,如表2所示.為了方便觀察,本文用result〔〔〔表示選文及課文名稱,其中result是總文件夾的名稱,英文one,two,three,four,five,six分別代表一到六年級,A代表上冊,B代表下冊,“i.xls”表示相應(yīng)年級和冊數(shù)下的第i篇文章.
表2 二年級上冊語文教材部分選文推薦結(jié)果
從表2中可以看出,利用選文推薦算法所推薦出的選文與原二年級上冊課文存在較大差異,例如,本文推薦的二年級上冊第1篇課文應(yīng)為原二年級上冊第9篇課文.與此同時,我們統(tǒng)計了推薦選文與相應(yīng)詞匯集之間的重復(fù)詞匯數(shù),在表中第3列已經(jīng)列出,需要注意的是,這里的相同詞匯是指具有實際意義的詞匯,單個字不計入統(tǒng)計范圍.在表中,我們可以看出,有些推薦出的選文與詞匯集間相同的詞匯數(shù)較少,如第11、12個詞匯集,相同詞匯數(shù)僅為2和3.這是因為在蘇教版小學(xué)語文教材內(nèi),還沒有可以較好地匹配該詞匯集的文章.如果進一步豐富精選文本庫,為其收納更多的優(yōu)質(zhì)文章,推薦結(jié)果將得到改善.由于本文制定的詞匯序表符合學(xué)生的認知規(guī)律,而教材選文推薦算法又以詞匯序表為依據(jù),所以,我們所推薦的選文在詞匯上符合學(xué)生的認知規(guī)律.此外,從表2也可看出,推薦選文間的相同詞匯數(shù)遠遠超過原教材課文間的相同詞匯數(shù),由此說明了選文推薦算法能夠更好地保證選文詞匯的合理分布.
針對目前教材選文缺乏自動方法的現(xiàn)狀,設(shè)計了語文教材選文推薦算法.在分析學(xué)生認知詞匯規(guī)律的基礎(chǔ)上,廣泛收集學(xué)生的經(jīng)典讀物,使用文本分析方法生成用于指導(dǎo)教材選編的詞匯序表,經(jīng)過標準化各學(xué)段所需學(xué)習(xí)的詞匯量,將詞匯序表劃分成各學(xué)段的必學(xué)詞匯表.基于必學(xué)詞匯表,設(shè)計半自動化的語文教材選文推薦方法,為編者推薦最佳選文,且推薦的選文在教材的整體上滿足詞匯的連續(xù)性、順序性和整體性規(guī)則.
但本文選用蘇教版小學(xué)語文1—6年級課文作為待推薦選文,如果能收集大量的優(yōu)質(zhì)文章作為待推薦內(nèi)容,可保證推薦出的選文具有更高的科學(xué)性.此外,本文僅僅從詞匯的角度考慮推薦教材選文,還未綜合考慮文章的體裁、題材和主題等復(fù)雜因素,以后可綜合考慮多種因素進一步推進教材選文的自動化進程.