劉明楊 秦兵 劉挺
摘 要:自動(dòng)作文評(píng)分(Automated Essay Scoring,AES)就是讓計(jì)算機(jī)能夠?qū)ψ魑倪M(jìn)行評(píng)估和打分。隨著自然語(yǔ)言處理技術(shù)的日益成熟,針對(duì)中文作文的自動(dòng)評(píng)分成為可能。作文是各種漢語(yǔ)考試中必然要考的科目,國(guó)家的中考、高考考生數(shù)量巨大,而且近年來(lái)中國(guó)漢語(yǔ)水平考試(HSK)的考生數(shù)目也逐年增多。自動(dòng)作文評(píng)分因其具有效率高、客觀(guān)性好等特點(diǎn),因此中文作文自動(dòng)評(píng)分技術(shù)的深入研究很有必要,本文對(duì)高考作文自動(dòng)評(píng)分進(jìn)行了深入研究。本文利用作文中的排比比喻修辭以及詩(shī)詞引用來(lái)表征作文的文采,對(duì)排比修辭進(jìn)行了分類(lèi)總結(jié)。提出了啟發(fā)式的方法來(lái)對(duì)排比以及比喻修辭手法進(jìn)行自動(dòng)識(shí)別。利用字典樹(shù)組織古詩(shī)詞資源,快速檢索作文中出現(xiàn)的古詩(shī)詞。將文采特征加入到基準(zhǔn)系統(tǒng)中,會(huì)對(duì)作文自動(dòng)評(píng)分的性能有不錯(cuò)的提高。
關(guān)鍵詞:高考作文自動(dòng)評(píng)分;排比修辭;字典樹(shù)
中圖分類(lèi)號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)號(hào):A 文章編號(hào):2095-2163(2015)04-
Abstract: The automated essay scoring is that the computer can evaluate and score the essay .With the great progress of natural language processing ,it becomes possible to evaluate and score Chinese composition by computer .Composition must be tested in a variety of Chinese exams ,and there are so many Chinese student take part in college entrance examination and senior high school entrance examination ,and there are more and more foreign students take part in HSK in recent years .The automated essay scoring is highly effective and objective ,so it is necessary to research on automated Chinese composition scoring. The paper uses parallelism and metaphor to represent the feature of the composition literary ,and summarizes the types of parallelism using .After that, the paper proposes a heuristic method to identify parallelism and metaphor .Using Trie data structure to store ancient poetry resources ,it helps us to retrieve the ancient poetry that appeared in the composition .Adding these features to the baseline system ,the performance of the system has been improved.
Keywords: Automated Chinese Composition Scoring ;The Literary of The Composition ; Trie Data Structure
0 引言
自動(dòng)作文評(píng)分是利用統(tǒng)計(jì)、自然語(yǔ)言處理、人工智能等技術(shù)對(duì)作文進(jìn)行評(píng)估和打分。目前,作文自動(dòng)評(píng)分已逐漸成為自然語(yǔ)言處理研究中的熱點(diǎn)問(wèn)題。在國(guó)外已經(jīng)有多個(gè)成熟的作文自動(dòng)評(píng)分系統(tǒng),而且自動(dòng)作文評(píng)分技術(shù)也已經(jīng)在比如GMAT、托福等大規(guī)模國(guó)際性英語(yǔ)考試和學(xué)生自我評(píng)估中得到了廣泛的應(yīng)用。例如:美國(guó)ETS(Educational Testing Service)開(kāi)發(fā)的E-rater[1-6]自動(dòng)作文評(píng)分系統(tǒng)1999年用于GMAT作文批閱,于2005年開(kāi)始用于托福考試的作文評(píng)分,另國(guó)外成熟的自動(dòng)評(píng)分系統(tǒng)還有PEG(Project Essay Grader)[1-3]、IEA(Intelligent Essay Assessor) [7-9]、IntelliMetric[9,10-12]、BESTY(Bayesian Essay Test Scoring System)等。國(guó)內(nèi)針對(duì)中國(guó)語(yǔ)文作文的自動(dòng)評(píng)分系統(tǒng)的研究要遲后于國(guó)外主流的AES研究。國(guó)內(nèi)最早涉足自動(dòng)作文評(píng)分領(lǐng)域的是梁茂成[13],其研究方向?yàn)橹袊?guó)學(xué)生英語(yǔ)作文的自動(dòng)評(píng)分。在相應(yīng)研究中采用了220篇已評(píng)分的作文樣本,其中120篇作為訓(xùn)練集,100篇作為驗(yàn)證集。與人工評(píng)分的相關(guān)系數(shù)最高達(dá)到0.837。但是作文樣本來(lái)源范圍狹窄,數(shù)量較少,并且提取的特征主要是文本淺層特征,未能夠涉及文章的深層結(jié)構(gòu)。國(guó)內(nèi)另一位研究自動(dòng)作文評(píng)分的是李亞男[14],其研究方向是漢語(yǔ)作為第二語(yǔ)言測(cè)試的作文自動(dòng)評(píng)分。曹亦薇和楊晨[15]首先使用潛在語(yǔ)義分析技術(shù)對(duì)漢語(yǔ)作文進(jìn)行自動(dòng)評(píng)分研究。
本文提出了基于作文文采特征的方法對(duì)高考作文進(jìn)行自動(dòng)評(píng)分。
1 高考作文文采特征的自動(dòng)識(shí)別
1.1 排比以及比喻修辭的自動(dòng)識(shí)別
通過(guò)觀(guān)察語(yǔ)料可以發(fā)現(xiàn),有文采的文章一般都伴隨著排比和比喻修辭手法[16,17]。作文中如果巧妙恰當(dāng)?shù)剡\(yùn)用排比,可以使整篇作文氣勢(shì)恢宏,給人一氣呵成的感覺(jué),排比整齊的句式具有建筑美,鏗鏘有力的節(jié)奏具有音樂(lè)美,加上眾多統(tǒng)一的內(nèi)容,顯示出獨(dú)有的壯美風(fēng)格。用這種格式來(lái)論述則周密深刻、增強(qiáng)氣勢(shì),能夠表達(dá)出作者強(qiáng)烈的思想感情。
排比的短句數(shù)量一般是三個(gè),當(dāng)然也存在少量的只有兩個(gè)短句。
排比按照其在作文中的結(jié)構(gòu)位置可以分為以下幾種:
(1)普通排比,此類(lèi)排比一般出現(xiàn)在高考作文的開(kāi)篇或者結(jié)尾,能夠讓閱卷老師眼前一亮,體現(xiàn)應(yīng)試者扎實(shí)的作文功底。其中,排比內(nèi)分隔短句的標(biāo)點(diǎn)符號(hào)并不固定,有分號(hào)、逗號(hào)、句號(hào)三種。
分號(hào)分隔:愛(ài)是寂寞深夜飄蕩夜空的歌謠,給人慰藉;愛(ài)是行走在沙漠間偶然遇見(jiàn)的綠洲,給你希望;愛(ài)是茫茫大海上指明的燈塔,給人方向。
逗號(hào)分隔:善是長(zhǎng)夜中不明的星火,善是路途中絢爛的花枝,善是呼吸時(shí)淡雅的香味。
句號(hào)分隔:學(xué)會(huì)感恩,用感恩驅(qū)散身邊的黑暗迎來(lái)希望的曙光。學(xué)會(huì)感恩,用感恩掩埋身邊的寒冷迎來(lái)內(nèi)心的溫暖。學(xué)會(huì)感恩,用感恩裝點(diǎn)世界讓世界充滿(mǎn)生命與活力。
(2)段落排比,即排比分句并不像普通排比一樣位于同一個(gè)段落,而是三個(gè)短句各自組成三個(gè)相鄰的段落,每個(gè)段落一個(gè)短句。這樣寫(xiě)的好處是顯得文章結(jié)構(gòu)整齊、增強(qiáng)文章氣勢(shì)、引起閱卷人的注意。
比如下面這篇高考作文,分?jǐn)?shù)為51,以段落排比開(kāi)篇,在顯示應(yīng)試者寫(xiě)作文采的同時(shí),也引起了閱卷老師的注意,使得閱卷老師眼前一亮。
(3)摘要排比,排比分句式位于不同的段落并且是相應(yīng)段落的摘要句,能夠表現(xiàn)出作者很強(qiáng)的邏輯思維能力,也使得文章的結(jié)構(gòu)嚴(yán)謹(jǐn)。
比如下面這篇文章中,分?jǐn)?shù)為50分。在第2、3、4段,每段以排比句開(kāi)頭,在簡(jiǎn)要地概括了本段的同時(shí),也使得整篇文章的結(jié)構(gòu)編排清晰,使得閱卷人對(duì)應(yīng)試者的文章結(jié)構(gòu)一目了然。
通過(guò)觀(guān)察高考作文語(yǔ)料以及上述排比的例子可以看出,在排比短句中往往使用比喻修辭手法,因?yàn)楦呖甲魑慕^大多數(shù)文體為議論文,議論文中往往以事實(shí)論據(jù)、理論論據(jù)的為主,在論據(jù)中并不能很好的利用比喻修辭,所以學(xué)生選擇在排比句中加入比喻修辭手法,排比與比喻聯(lián)姻,更能夠體現(xiàn)學(xué)生作文的文采。
針對(duì)以上三種排比,本文提出了啟發(fā)式的方法來(lái)自動(dòng)識(shí)別出作文中使用的排比句,排比句的識(shí)別流程大致如圖3所示。
由圖3可知,作文經(jīng)過(guò)分句、分詞、詞性標(biāo)注等預(yù)處理之后,需首先從作文中抽取候選排比句,其具體實(shí)現(xiàn)過(guò)程如下:
(1) 工整性檢驗(yàn)
工整性主要是從排比的長(zhǎng)度以及三個(gè)排比短句的整齊程度來(lái)考慮,一般排比句的長(zhǎng)度不宜過(guò)長(zhǎng),多數(shù)情況下不超過(guò)一行,本文中長(zhǎng)度的閾值為maxLength,取值為40;三個(gè)排比短句的長(zhǎng)度應(yīng)該基本相同,如果有兩個(gè)排比短句的長(zhǎng)度差過(guò)長(zhǎng),則失去了排比句結(jié)構(gòu)整齊的效果,本文中長(zhǎng)度差的最大值MaxDistance設(shè)置為7,而且三個(gè)排比短句的最長(zhǎng)長(zhǎng)度差與三個(gè)排比短句中的最小長(zhǎng)度的比值不應(yīng)超過(guò)一個(gè)閾值ratio,最大值為0.5。
(2) 排比標(biāo)檢驗(yàn)
排比標(biāo)是排比句的一個(gè)顯著特點(diǎn),即三個(gè)排比句中有相同的連續(xù)字符串。例如下面這三個(gè)排比句,其中“感恩是一”以及“在人心中的”都是連續(xù)相同的字符串,構(gòu)成了排比標(biāo)。
三個(gè)排比短句都從字符串開(kāi)始到結(jié)束以及從結(jié)束到開(kāi)始,抽取其中的相同連續(xù)字符串,如果相同連續(xù)字符串的長(zhǎng)度大于某個(gè)閾值,則認(rèn)為存在排比標(biāo),閾值設(shè)置為2。
(3) 比喻標(biāo)記
在議論文中,排比句中往往伴隨著比喻修辭手法的使用,比喻修辭的使用更能彰顯學(xué)生作文的文采。從上述的例子也可以看出,在排比句中使用的比喻詞主要有“是”、“像”、“如”、“如同”、“似”、“恰似”等,而且在比喻詞的右側(cè)往往更隨帶著“春風(fēng)”、“陽(yáng)光”這樣的名詞。本文即主要利用比喻詞識(shí)別加上比喻詞右邊詞匯的詞性來(lái)對(duì)排比句中是否使用比喻進(jìn)行標(biāo)記。
1.2 古詩(shī)詞的自動(dòng)識(shí)別
在高考作文中如果恰當(dāng)引用古詩(shī)詞,能夠增加作文的文采,也能夠表現(xiàn)出作者的扎實(shí)寫(xiě)作功底,有時(shí)候作文中出現(xiàn)一兩處非常好的引用,就有可能讓閱卷老師從內(nèi)心深處覺(jué)得應(yīng)試者的寫(xiě)作水平是屬于一類(lèi)卷水準(zhǔn)。比如在有關(guān)“感恩”主題下引用“春蠶到死絲方盡、蠟炬成灰淚始干”、“臣無(wú)祖母,無(wú)以至今日,祖母無(wú)臣,無(wú)以終于年?!钡裙旁?shī)詞,不僅會(huì)豐富作文的內(nèi)容,也體現(xiàn)了學(xué)生廣泛的閱讀面以及靈活運(yùn)用課本上所學(xué)知識(shí)的能力。
具體地,預(yù)處理步驟主要是將對(duì)作文進(jìn)行分句處理,由于作文中引用古詩(shī)詞的地方并不一定由雙引號(hào)明確標(biāo)記處,所以要對(duì)作文正文中的每個(gè)句子都在Trie樹(shù)數(shù)據(jù)結(jié)構(gòu)中進(jìn)行檢索。
Trie樹(shù)存儲(chǔ)步驟,是將現(xiàn)有的古詩(shī)詞資源以Trie樹(shù)數(shù)據(jù)結(jié)構(gòu)來(lái)組織,Trie樹(shù)又名字典樹(shù),是一種樹(shù)形結(jié)構(gòu),屬于哈希樹(shù)的變種。該數(shù)據(jù)結(jié)構(gòu)經(jīng)常用于統(tǒng)計(jì)、查詢(xún)等,優(yōu)點(diǎn)是利用字符串的公共前綴來(lái)減少查詢(xún)時(shí)間,最大限度減少無(wú)謂的字符串比較。比如研究中有以下三句古詩(shī)詞“春風(fēng)暖玉屏”、“春風(fēng)又綠江南岸”、“春風(fēng)又淼茫”、“君不見(jiàn)黃河之水天上來(lái)”,最后建立的Trie樹(shù)如圖6所示。
從根節(jié)點(diǎn)開(kāi)始,方框中的字符串表示從根節(jié)點(diǎn)沿著路徑到此得到的字符串,方框中右邊的數(shù)字表示頻率?!按骸弊钟疫叺臄?shù)字3表示在以春開(kāi)頭的詩(shī)詞有3句。而在已有的古詩(shī)詞資源庫(kù)中,以“春”字開(kāi)頭的詩(shī)句有4 353句,以“春風(fēng)”開(kāi)頭的詩(shī)句有700句,所以采用Trie樹(shù)存儲(chǔ)古詩(shī)詞能夠很大程度上減少程序內(nèi)存的使用。
檢索步驟,在已經(jīng)建立了Trie樹(shù)的基礎(chǔ)上檢索作文中是否出現(xiàn)了古詩(shī)詞庫(kù)中的詩(shī)句速度也是很快的。其查找步驟如下:
(1) 從根節(jié)點(diǎn)開(kāi)始搜索;
(2) 取得要查找關(guān)鍵詞的第一個(gè)字符,并根據(jù)該字母選擇對(duì)應(yīng)的子樹(shù)并轉(zhuǎn)到該子樹(shù)繼續(xù)進(jìn)行檢索,如果該字符并無(wú)對(duì)應(yīng)的子樹(shù)則查找失??;
(3) 重復(fù)第2步驟;
(4) 在某個(gè)節(jié)點(diǎn)處,字符串的所有字符已經(jīng)被取出,則表示查找成功;
2 實(shí)驗(yàn)結(jié)果與結(jié)論分析
2.1 實(shí)驗(yàn)數(shù)據(jù)以及評(píng)價(jià)方法
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于人工轉(zhuǎn)寫(xiě)的某省2014年高考作文,共1 016篇作文。選取其中508篇作為訓(xùn)練數(shù)據(jù)、508篇作為測(cè)試數(shù)據(jù)。作文在各個(gè)分?jǐn)?shù)點(diǎn)上的分布圖如圖7所示。
2.2 Baseline系統(tǒng)簡(jiǎn)介
在實(shí)驗(yàn)中,本文采用另一位同學(xué)所做的基礎(chǔ)實(shí)驗(yàn)作為Baseline,Baseline系統(tǒng)采用支持向量回歸模型,將高考作文自動(dòng)評(píng)分看作是一個(gè)回歸問(wèn)題。Baseline系統(tǒng)從作文中抽取簡(jiǎn)單的特征,包括作文的長(zhǎng)度(以字為單位)、作文中所包含的高級(jí)詞匯的數(shù)目(漢語(yǔ)水平考試等級(jí)中的六級(jí)詞匯)、作文中所包含的成語(yǔ)的數(shù)目、作文的段落個(gè)數(shù)、作文中所包含的命名實(shí)體的數(shù)目等。
2.2 實(shí)驗(yàn)對(duì)比與分析
本章將抽取文采特征加入到Baseline系統(tǒng)后,將其與baseline對(duì)比的實(shí)驗(yàn)結(jié)果如表1所示。
實(shí)驗(yàn)結(jié)果表明,Baseline+LG表示在Baseline系統(tǒng)的基礎(chǔ)之上,加入從文章中抽取出的文采特征,排比、詩(shī)詞引用等特征對(duì)系統(tǒng)的性能會(huì)有很大的提升。一類(lèi)卷的F值從0提升到4.34%,增加了4個(gè)點(diǎn),Baseline系統(tǒng)中的一類(lèi)卷F值之所以為0是因?yàn)樵跍y(cè)試集合上Baseline系統(tǒng)的預(yù)測(cè)分?jǐn)?shù)并沒(méi)有高于50分,也即預(yù)測(cè)集合中沒(méi)有出現(xiàn)一類(lèi)卷,導(dǎo)致一類(lèi)卷的召回率為0。二類(lèi)卷的F值基本不變,三類(lèi)卷、四類(lèi)卷的F值不受影響。
3 結(jié)束語(yǔ)
本文主要對(duì)高考作文中使用的排比進(jìn)行分類(lèi)總結(jié),提出了啟發(fā)式的方法對(duì)高考作文中使用的排比比喻修辭手法進(jìn)行識(shí)別,利用Trie樹(shù)存儲(chǔ)古詩(shī)詞資源來(lái)對(duì)高考作文中使用的古詩(shī)詞進(jìn)行自動(dòng)識(shí)別,減少了內(nèi)存使用空間增加了檢索效率。
為了評(píng)價(jià)文采特征對(duì)高考作文自動(dòng)評(píng)分的幫助,在某省的實(shí)際高考作文語(yǔ)料上進(jìn)行實(shí)驗(yàn),baseline系統(tǒng)提取作文的淺層特征,訓(xùn)練支持向量回歸模型,在baseline系統(tǒng)上加入本章抽取出的文采特征之后,對(duì)系統(tǒng)的性能有了提高,一類(lèi)卷以及三類(lèi)卷的F值均獲得了不錯(cuò)的提升。
針對(duì)一類(lèi)卷F值的提升,在加入文采特征的基礎(chǔ)上,采用Over Sampling方法,對(duì)訓(xùn)練集中一類(lèi)卷進(jìn)行增重采樣。結(jié)果顯示,在犧牲一些二類(lèi)卷F值的前提下,對(duì)一類(lèi)卷的F值有大幅的提升。
參考文獻(xiàn):
[1] RAMINENI C, TRAPANI C S, WILLIAMSON D M, et al. Evaluation of the e-rater? Scoring Engine for the GRE? Issue and Argument Prompts[J]. Ets Research Report, 2012, 2012(1):i–106.
[2] DIKLI S. Automated essay scoring[J]. Turkish Online Journal of Distance Education, 2006, 7(1):735 - 738.
[3] DIKLI S. An overview of automated scoring of essays.[J]. Journal of Technology Learning & Assessment, 2006, 5(1):1-36.
[4] VALENTI S, NERI F, CUCCHIARELLI R. An overview of current research on automated essay grading[J]. Journal of Information Technology Education, 2003, 2:2003.
[5] POWERS D E, BURSTEIN J C, CHODOROW M, et al. Stumping e-rater :challenging the validity of automated essay scoring[J]. Computers in Human Behavior, 2002, 18(1):103–134.
[6] ATTALI Y, BURSTEIN J. Automated essay scoring with e-rater03 V.2[J]. Journal of Technology Learning & Assessment, 2004, 4(3):i–21.
[7] LANDAUER T K, LAHAM D, FOLTZ P W. The intelligent essay assessor[J]. Intelligent Systems IEEE, 2000, 15(5):27-31.
[8] LANDAUER T K, LAHAM D, FOLTZ P W. Automated scoring and annotation of essays with the Intelligent Essay Assessor[J]. M.d.shermis & J.burstein, 2003:87-112.
[9] RUDNER L M, GARCIA V, WELCH C. An evaluation of IntelliMetric64 essay scoring system[J]. Journal of Technology Learning & Assessment, 2006, 4(4).
[10] Burstein J. The E-rater? scoring engine: Automated essay scoring with natural language processing[J]. M.d.shermis & J.c.burstein, 2003:113-121.
[11] QUINLAN T, HIGGINS D, WOLFF S. Evaluating the construct-coverage of the E-rater? scoring engine[J]. Ets Research Report, 2009, 2009(1):i–35.
[12] ELLIOT S. Intellimetric: from here to validity[J]. Automated Essay Scoring: A Cross Disciplinary Perspective, 2003, 2003.
[13] 梁茂成, 文秋芳. 國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J]. 外語(yǔ)電化教學(xué), 2007, (5):18-24.
[14] 李亞男. 漢語(yǔ)作為第二語(yǔ)言測(cè)試的作文自動(dòng)評(píng)分研究[D]. 北京語(yǔ)言大學(xué), 2006.
[15] 楊晨, 曹亦薇. 作文自動(dòng)評(píng)分的現(xiàn)狀與展望[J]. 中學(xué)語(yǔ)文教學(xué), 2012, (3):78-80.
[16] 朱躍生. 排比比喻聯(lián)姻:作文出彩的重要方法[J]. 中學(xué)語(yǔ)文:大語(yǔ)文論壇旬刊, 2012, (9):73-74.
[17] 李勝梅. 排比的篇章特點(diǎn)[J]. 南昌大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版, 2005, 36(5):121-127.