孟凡茂
(臨沂大學(xué) 外國語學(xué)院,山東臨沂 276005)
在最近的計算機輔助評價(Computer-Assisted Assessment,CAA)系統(tǒng)中,評價策略是基于每道題的正確答案,該答案在學(xué)生答案(Students Answers,SAs)評價中被用作參考答案(Reference Answer,RA)。RA和SAs之間的相似性是根據(jù)詞的共現(xiàn),通過傳統(tǒng)的信息檢索(Information Retrieval,IR)技術(shù)來確定,尤其是處理較長文本時,這種方法通常很有效,這是因為相似的長文本往往同現(xiàn)詞的頻率高。然而,在較短的自由文本答案中,詞的同現(xiàn)可能很少或沒有,意思卻近似。同時,RA不應(yīng)是唯一的,因為一個問題可能會有多個不同的答案[1]。其次,另外一個負面因素是沒有考慮到教師的評價標(biāo)準(zhǔn),僅僅考慮的是RA和SAs之間的相似度。
為此,我們研發(fā)了輔助學(xué)習(xí)(Assisted Study,AssiStudy)系統(tǒng)作為學(xué)生的形成性評價工具,該系統(tǒng)能幫助教師設(shè)計和評價考試并監(jiān)測學(xué)生的進展情況。在自動評價答案的過程中,該系統(tǒng)依據(jù)單詞及其POS標(biāo)簽,對每個問題都自動生成幾種RAs,這樣,學(xué)生所提交的答案就可以與幾種RAs進行比對,從而確保了更為準(zhǔn)確的判分;通過各種自然語言處理(Natural Language Processing,NLP)技術(shù),AssiStudy先將RA和SAs轉(zhuǎn)換成更易處理的規(guī)范形式,通過在RA中搜索SAs的近似詞,進行單詞匹配運算,并根據(jù)SA和RA之間的共有詞義,計算出近似得分,這種方法更適合于用來評估內(nèi)容相似而相同詞幾乎不共現(xiàn)的簡短答案。
自20世紀(jì)60年代以來,CAA就一直是一個不斷發(fā)展的開發(fā)領(lǐng)域。CAA系統(tǒng)評估論述題答案的方式分為三類:形式、內(nèi)容或者二者兼有。目前CAA系統(tǒng)中最為重要的方法是統(tǒng)計法(Statistical)、潛在語義分析法(Latent Semantic Analysis,LSA)和自然語言處理法。最初的CAA系統(tǒng)的評價方法主要用來捕捉文本結(jié)構(gòu)的相似性;之后的CAA都基于LSA,超出了對簡單共現(xiàn)詞的分析,采用兩種解決問題的途徑,即基于語料庫技術(shù)和代數(shù)法來識別比較兩個措辭不同的文本之間的相似性;最近的CAA都是基于NLP技術(shù),能夠進行智能分析,捕獲自由文本文檔的語義信息。但是,絕大多數(shù)CAA系統(tǒng)從兩個維度評分,而且,這些系統(tǒng)所采用的方法差別很大。最近,教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)應(yīng)運而生。EDM具備四項功能:學(xué)習(xí)建模、輔導(dǎo)、信息存儲和評價[2]。為了既支持評價也支持預(yù)備基架,通過結(jié)合文本回放標(biāo)記所研發(fā)的模型、環(huán)境對學(xué)生的探究技能做出推論,這種方法能夠?qū)W(xué)生日志文件和教育數(shù)據(jù)挖掘迅速地進行人工編碼。
以上這些系統(tǒng)都不適于我們的用途,因為它們只能處理英文文本,而且需要學(xué)習(xí)大量的文本。為此,我們創(chuàng)建了AssiStudy系統(tǒng),該系統(tǒng)通過廣泛應(yīng)用文本預(yù)處理技術(shù)和詞匯網(wǎng)路(WordNet)數(shù)據(jù)庫,極力減弱對大型語料庫的需求,從而公平地評價內(nèi)容簡短的文本答案。
鑒于服務(wù)導(dǎo)向式架構(gòu)(Service-Oriented Architectures,SOA)[3]的各種優(yōu)點(如:模塊化、互操作性和可擴展性),我們研發(fā)了一個以SOA為基礎(chǔ)的系統(tǒng)進行形成性評價和終結(jié)性評價。該AssiStudy體系結(jié)構(gòu)主要由以下四個層所組成:
客戶端應(yīng)用程序?qū)樱–lient Application):該層用來處理數(shù)據(jù)和流程的安全性和隱私;
業(yè)務(wù)層(Business):該層包含了AssiStudy的主要模塊,每一個模塊都包含一組可用的核心服務(wù),在不同層級中分離業(yè)務(wù)邏輯將會使得AssiStudy具有模塊化和靈活性;此外,該層能夠以一種簡易且靈活的方式更新業(yè)務(wù)邏輯;
服務(wù)層(Service):在該層中,可通過服務(wù)注冊中心直接調(diào)用域名Web服務(wù);
資源層(Resource):該層包含了AssiStudy的基礎(chǔ)結(jié)構(gòu)資源,即數(shù)據(jù)庫以及與域相關(guān)的系統(tǒng)和工具,譬如:學(xué)校信息系統(tǒng)和協(xié)作學(xué)習(xí)工具,其中每個系統(tǒng)和資源都有一組Web服務(wù)。
AssiStudy作為通用而又靈活的系統(tǒng)得以開發(fā)。說它通用是因為它能夠應(yīng)用于任何領(lǐng)域的研究,該系統(tǒng)的創(chuàng)建目的就是處理不同的知識領(lǐng)域;同時,它又是靈活的,因為它既可以作為一個獨立系統(tǒng),也可以通過Web服務(wù),增加新模塊或特殊種類的應(yīng)用程序。圖1所描繪的就是該系統(tǒng)架構(gòu)的概貌。
圖1 AssiStudy系統(tǒng)體系結(jié)構(gòu)
通過該模塊,教師可以查詢在以前的考試判分中涉及某一個特定方面的所有問題,這些問題都被存儲在問題及RA(Question&RA)數(shù)據(jù)庫中。此外,教師有可能查閱每道題目的難度級別,當(dāng)然,這種難易度的判別要基于之前的考試中學(xué)生的得分情況。再者,對于某個指定的題目,教師對學(xué)生所做的所有考題及得分都有訪問權(quán)限,這樣教師在考前就能了解他們要評估的學(xué)生對于不同考題內(nèi)容的準(zhǔn)備情況,從而,就能更為恰當(dāng)?shù)卦u價每個班級的考試情況。
考試評估由AssiStudy完成,之后老師再進行核查。一個班級的考試評判一旦完畢,其中的問題以及與此相關(guān)的所有信息都會被存儲到問題及參考答案(Question&RA)的數(shù)據(jù)庫中,在其后的訓(xùn)練考試時就可據(jù)此加以說明。SAs都存儲在學(xué)生答案數(shù)據(jù)庫(Student Answer Repository)中;獲得滿分的論述題的SAs也存儲在Question&RA的數(shù)據(jù)庫中,以便在將來的評價程序中進行應(yīng)用。Question&RA的數(shù)據(jù)庫非常重要,因為AssiStudy系統(tǒng)中幾乎所有模塊的成功與否在很大程度上取決于該數(shù)據(jù)庫的優(yōu)劣。
根據(jù)學(xué)生的狀況以及教師在先前的模塊中所限定的內(nèi)容,訓(xùn)練考試會從Question&RA庫中隨機選擇考試題目。假如大一新生在第一學(xué)期首次考試,該系統(tǒng)將根據(jù)學(xué)生的檔案信息,試題會依據(jù)前面所述的五個話題方面的內(nèi)容自動生成,但其中每個話題的問題數(shù)量和難度由AssiStudy界定。學(xué)生已做過的試題及得分都被記錄下來,并計算出學(xué)生對每個話題的定性得分(低、中或高),這些信息都被存儲在Student Answer Repository中。另外,Question&RA的數(shù)據(jù)庫中儲存了很多試題,除了其他的屬性外,每一道題都被標(biāo)識出其內(nèi)容歸屬、難度和分?jǐn)?shù),根據(jù)這些信息和一定程度的隨機化,AssiStudy將會自動從Questions&RA庫中挑選試題,為每位學(xué)生設(shè)計出訓(xùn)練試題。評估訓(xùn)練考試僅靠AssiStudy系統(tǒng)完成,糾錯則需由反饋模塊中所設(shè)立的解釋來彌補。
(1)檢測專有名詞:在英文文本情況下,檢測單詞開頭首字母是否大寫;
(2)刪除標(biāo)點符號:該項任務(wù)就是要刪除所有特殊字符并將所有字母轉(zhuǎn)換為小寫,除非是專有名詞。特殊字符是指不屬于單詞的一些符號(如:標(biāo)點符號),但單詞的重音符號予以保留,以免誤認為是拼寫錯誤;
(3)校正單詞拼寫錯誤:用來檢查拼寫錯誤的校正器是Jspell[4];除了檢測錯誤拼寫外,Jspell會提示正確的單詞,拼寫錯誤的單詞會被正確的單詞替換;
(4)刪除無用詞:無用詞與內(nèi)容無關(guān),刪掉它不影響句子的語義;
(5)詞干提?。涸谶@個階段,將個別單詞簡化為其基本型或詞干,一個單詞的基本型即是其詞根或詞元;
(6)文本標(biāo)記:該項任務(wù)就是給單詞標(biāo)注詞性(Part of Speech,POS)標(biāo)簽,此項操作也是由Jspell[7]完成;這種分類要求對標(biāo)注相同POS的單詞進行對比;一個單詞可能會有多個POS標(biāo)簽,依照其出現(xiàn)的語境而定;正是由于各種不同的可能詞性,該Jspell形態(tài)分析器會給每個單詞標(biāo)注可能的POS標(biāo)簽;為了避免詞性標(biāo)注的模糊性,在編輯程序中將呈現(xiàn)規(guī)范標(biāo)準(zhǔn)的RAs,這樣,教師就可以正確地選擇每個單詞的POS標(biāo)簽,而其他標(biāo)簽會自動刪除;
(7)同義詞:一個詞的同義詞列表取決于其POS標(biāo)簽,每一個單詞會有一個與其POS標(biāo)簽相關(guān)的同義詞列表,把涉及該單詞的所有同義詞以及它們的POS標(biāo)簽添加到RA中,從而完全相同的RA會產(chǎn)生幾種解釋;一個單詞與其每一個同義詞之間的匹配得分是通過WordNet.pt詞匯數(shù)據(jù)庫[5]分析它們之間的最短路徑得出,為了測量兩個單詞之間的語義關(guān)聯(lián)度,前人已通過語義網(wǎng)絡(luò)信息研究出了多種測量方法。本研究中,鑒于在WordNet層次結(jié)構(gòu)方面相對較高的計算效率,我們選擇了Leacock&Chodorow(L&Ch)的測量方法,L&Ch相似度的計算公式為:
該公式中,length指通過計數(shù)節(jié)點所得的兩個概念之間最短路徑的長度,D代表分類的最大深度。
該模塊能夠自動得出一個分?jǐn)?shù),并由此根據(jù)規(guī)范的RA和 SA的意義顯示出這兩者之間的相似性,從而勝過簡單的詞匯匹配。這一目標(biāo)的實現(xiàn)是在計算出SA和 RA之間總的語義相似度之后,根據(jù)相應(yīng)的RA的語義相似度,構(gòu)建SA向量。根據(jù)SA向量和RA之間的距離,RA就是該單位向量,如圖2所示。
圖2 空間向量模型
SA向量和RA向量之間的相似度取決于歐幾里得(Euclidean)點積,公式如下:
AssiStudy提供的反饋由學(xué)生得分和RA中所收集的答案信息構(gòu)成。為此,SA中遺漏或不完整的要點會在RA中得以搜索,而且相關(guān)的分?jǐn)?shù)以及詳細的解釋會得以呈現(xiàn)。AssiStudy自動反饋的其中一大優(yōu)點就是學(xué)生獲知反饋迅捷,即測試提交完畢學(xué)生即可獲得反饋,如此能促進學(xué)生更加深入的學(xué)習(xí);而教師能夠看到每位學(xué)生的答卷及評語,了解學(xué)生的得分情況,同時,也能知道全班遺漏的最為重要的知識點,從而能夠迅速獲悉整個班級的學(xué)習(xí)情況。
該模塊是基于統(tǒng)計和數(shù)據(jù)挖掘(Statistics and Data Mining)技術(shù)研發(fā),其設(shè)計目的是分析有關(guān)評判結(jié)果的數(shù)據(jù)。我們研發(fā)了幾種數(shù)據(jù)挖掘模式來洞察學(xué)生有關(guān)訓(xùn)練考試成功與否的情況。最為有用的模式通過k平均聚類算法(Clustering Algorithm K-means)[6]獲取,這樣就能獲悉哪些問題難哪些問題易,并通過信息分析,修改問題的難易度。而使用C4.5分類算法(Classification Algorithm C4.5)[7],對學(xué)生訓(xùn)練考試進行分析,就能推斷出學(xué)生或班級對于即將來臨的評價考試的準(zhǔn)備狀況。另外,通過關(guān)聯(lián)規(guī)則Apriori算法(Association Rule Algorithm Apriori)[8],就能發(fā)現(xiàn)訓(xùn)練試題與學(xué)生最終成績之間的關(guān)系,從而了解學(xué)生對哪些問題準(zhǔn)備得更好。
為了檢查AssiStudy系統(tǒng)在提高過關(guān)率方面的有效性,我們進行了一次測試。表1顯示:使用AssiStudy的學(xué)生平均過關(guān)率比不使用該系統(tǒng)的學(xué)生的過關(guān)率高(t=57.65,df=533,p<0.05),因此,通過AssiStudy能提高通過率。
同時,我們也對考試自動評價與教師評價進行了對比。表2顯示了2012-2013學(xué)年4次考試中教師評分和系統(tǒng)評分情況。
表1 經(jīng)過AssiStudy訓(xùn)練和沒有經(jīng)過訓(xùn)練的過關(guān)學(xué)生數(shù)量對比
表2 2012-2013學(xué)年考試中的分值情況
結(jié)果顯示:對于不同的考試評分,教師判分與系統(tǒng)判分差別并不太大;教師評判與系統(tǒng)評判之間的皮爾遜相關(guān)系數(shù)(Pearson correlation)為0.88。
AssiStudy系統(tǒng)的誤差分析顯示,誤差分為兩類:漏判(False Negatives,F(xiàn)N)和誤判(False Positives,F(xiàn)P)。當(dāng)考試得分比應(yīng)得分?jǐn)?shù)低時,就會發(fā)生FN;而FP是指判分過高。一般而言,如果系統(tǒng)與教師判分不匹配,通常是因為教師判分略高,這是因為SA太抽象或比RA短少,而在這種情況下,AssiStudy系統(tǒng)判分會比預(yù)期的分?jǐn)?shù)低,這是因為系統(tǒng)的判分標(biāo)準(zhǔn)是基于詞的匹配,而且,有些SAs在RA中無匹配的格式所致,但是,教師卻能根據(jù)SAs推斷出學(xué)生對于所學(xué)的理解程度,從而,判分時給出較高的分?jǐn)?shù),這樣就增大了系統(tǒng)評價與教師評價之間的差異;而當(dāng)學(xué)生不知道問題答案,碰巧又寫出了一些與RA相匹配的單詞時,系統(tǒng)判分最易發(fā)生FP。
AssiStudy系統(tǒng)不僅可以作為對學(xué)生考試的形成性評價工具,也能幫助教師創(chuàng)建并評價考試,還可以監(jiān)控學(xué)生的學(xué)習(xí)進展?fàn)顩r。實驗證明,采用AssiStudy系統(tǒng)進行訓(xùn)練的學(xué)生比不參與的學(xué)生會獲得更高的成績,考試通過率大大提高;而對于教師而言,該系統(tǒng)的研發(fā)非常實用,因其能大大減輕教師閱卷的工作量。
[1]Noorbehbahani F,Kardan A A.The automatic assessment of free text answers using a modified BLEU algorithm[J].Computers&Education,2011,(2):337-345.
[2]Pe?a-Ayala A.Educational data mining:a survey and a data mining-based analysis of recent works[J].Expert Systems with Applications,2014,(4):1432-1462.
[3]Al-Smadi M,Gutl C.SOA-based architecture for a generic and flexible e-assessment system[A].In Education engineering(EDUCON),2010 IEEE[C].2010:493-500.
[4]Sim?es A M,Almeida J J.Jspell.pm–a morphological analysis module for natural language processing[A].In Actas do XVII Encontro daAssocia??o Portuguesa de Linguística[C].Lisbon,2001:485-495.
[5]Marrafa P,Amaro R,Chaves R P,et al.WordNet.PT new directions[A].In Proceedings of GWC.2006,(6):319-320.
[6]Hartigan J A,Wong M A.Algorithm AS 136:a k-means clustering algorithm[J].Journal of the Royal Statistical Society,Series C(Applied Statistics),1979,(1):100-108.
[7]Quinlan J R.C4.5:Programs for machine learning Morgan Kaufmann,1993,(1):235-240.
[8]Agrawal R,Imieli_nski T,Swami A.Mining association rules between sets of items in large databases[J].ACM SIGMOD Record,1993,(2):207-216.