許浩 周亞萍 趙亞慧
摘要:本文采用TF-IDF算法以及余弦相似度的思想,提出了一種大批量英文作文的評分系統(tǒng)。首先以提高大批量英語作文評分效率為出發(fā)點(diǎn),介紹了英文文本處理現(xiàn)狀及機(jī)器自動評分發(fā)展現(xiàn)狀。其次對如何實(shí)現(xiàn)機(jī)器評分做出了詳細(xì)的介紹。最后將機(jī)器評分結(jié)果與人工打分結(jié)果相對比,驗(yàn)證機(jī)器評分可行性,評價其優(yōu)缺點(diǎn),并對其未來發(fā)展做出展望。
關(guān)鍵詞:批量處理;機(jī)器評分;預(yù)處理;余弦相似度;TF-IDF
中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2018)06-0255-02
一、引言
自然語言處理(Natural Language Processing,NLP)的應(yīng)用領(lǐng)域非常廣泛,它是人工智能領(lǐng)域的重要內(nèi)容。計(jì)算機(jī)自動評分(Computer-Automated Scoring)是指通過計(jì)算機(jī)程序來對導(dǎo)入的開放式試題文件來按照一定的標(biāo)準(zhǔn)來進(jìn)行評分[1]。英語寫作是我國英語教學(xué)中很重要的一個教學(xué)環(huán)節(jié),英語作文一般被老師用來檢測學(xué)生的英語綜合應(yīng)用能力。而隨著評分試卷數(shù)量的劇增,教師為了給學(xué)生批改英語作文,需要費(fèi)心費(fèi)力,一字一句的對作文進(jìn)行評卷檢查。長時間的評卷會造成教師過度勞累,導(dǎo)致評卷速度慢,效率低。再加上對作文這樣的開放式命題進(jìn)行人工評分,教師難免對作文會有一些個人偏向和喜好,不同的老師批改同樣的作文也會批出不一樣的分?jǐn)?shù)。
二、預(yù)處理
文本預(yù)處理(Text preprocessing),英文的文本預(yù)處理包括以下幾個步驟:除去數(shù)據(jù)中非文本部分,文本更正(如果忽略拼寫錯誤,這一步可以省略),詞干提取(stemming)和詞干還原(lemmatization),轉(zhuǎn)換為小寫,去除停用詞。
1.去除數(shù)據(jù)中非文本部分。由于英語本身就以空格作為分隔符,因此不需要像漢語文本分詞那樣使用不同的算法進(jìn)行分詞。(1)去除所有的標(biāo)點(diǎn)符號。(2)去除所有非英文字母的字符。(3)將所有的大寫英文字母轉(zhuǎn)換為小寫。
2.詞干提取。英語單詞總數(shù)雖沒有漢語組詞個數(shù)多,但具有非常豐富的詞形變化。對作文進(jìn)行分詞后,應(yīng)對每個詞進(jìn)行詞干提取,以方便去除停用詞或更好地進(jìn)行詞頻統(tǒng)計(jì)。詞項(xiàng)詞干化對于分詞結(jié)果的影響不大,但可以節(jié)省存儲空間和提高搜索和處理效率。詞干提取的方法大體可以分為兩類:基于規(guī)則的方法,基于統(tǒng)計(jì)的方法。
3.去除停用詞。停用詞:在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表[3]。但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的[4]。
三、TD-IDF算法
對于一篇非常長的文章,想要提取它的關(guān)鍵詞,只使用詞頻作為依據(jù)是不夠的,比如在一篇研究高斯算法的文章中“均值”、“方差”、“算法”這三個詞出現(xiàn)的次數(shù)是一樣的,但是卻不能說這三個詞的重要性是一樣的。根據(jù)我們?nèi)斯し治?,很明顯地知道在高斯算法中“均值”、“方差”比“算法”更重要,單靠詞頻不能完全反映詞項(xiàng)的權(quán)重。但是如果在這篇文檔中“均值”出現(xiàn)的次數(shù)非常多,也應(yīng)當(dāng)給它較大的權(quán)重,單靠文檔頻率不能完全反映詞項(xiàng)的權(quán)重。因此為了正確反映某個詞項(xiàng)的重要性,引入了TF-IDF算法[6]。
詞頻越大說明該詞在該作文中出現(xiàn)的次數(shù)越多,逆文檔頻率越大說明該詞越重要,因此選取TF-IDF最大的20個詞作為關(guān)鍵詞(若學(xué)生作文字?jǐn)?shù)不足60詞或去除停用詞后詞項(xiàng)不足20個則該作文作為不規(guī)范作文,評分時只給2-5分辛苦分)。對于范文和需要評分的作文均按照以上方法選取20個關(guān)鍵詞。
四、余弦相似度
余弦相似度(Cosine similarity)是用向量空間中兩個向量夾角的余弦值作為衡量兩個文本之間的相似度。如果兩篇文本之間用詞越相似,那么這兩篇文本之間的內(nèi)容也就越相似。這就是余弦相似性的基本思想[7]。向量空間模型(VSM:Vector space model)在自然語言處理領(lǐng)域中是很常用的相似度計(jì)算模型,在目前的研究和發(fā)展中得到了很廣泛的應(yīng)用[7]。在向量空間模型中,我們可以根據(jù)每篇文章的詞頻計(jì)算得到一個詞頻向量,把兩篇文章的詞頻向量想象成空間中的兩條從坐標(biāo)原點(diǎn)出發(fā),指向不同方向的兩條線段。這兩條線段之間一定會形成一個夾角,夾角越小,也就意味著計(jì)算所得的余弦值越接近1,即兩個向量距離越小,也就是用詞越相似,在不涉及上下文的情況下,我們可以認(rèn)為這兩個文本的內(nèi)容越相似。假定a向量是[x1,y1],b向量是[x2,y2],那么可以將余弦定理改寫成下面的形式:
五、實(shí)驗(yàn)設(shè)置
收集延吉市延邊二中某次英語考試所掃描答題卡1000份,從中隨機(jī)挑出205份作文,整理成文本文檔,統(tǒng)一命名,方便批量讀入程序。從中隨機(jī)挑出4篇題目,每個題目隨機(jī)挑出205份作文,整理成文本文檔,統(tǒng)一命名,方便批量讀入程序。
機(jī)器評分與人工評分之間是存在一定差異的,這是由于教師在為作文評分的時候是根據(jù)上下文對學(xué)生的作文進(jìn)行評分,主要以作文的語義為主,而機(jī)器評分不根據(jù)上下文對學(xué)生的作文進(jìn)行評分,只關(guān)注與范文之間的相似度,對于跑題的作文可以給出很好的評判,但是對抄襲的作文無法給出很好的評判。
六、結(jié)束語
本系統(tǒng)使用Matlab編程實(shí)現(xiàn),可以對任何統(tǒng)一命名的英語作文進(jìn)行批量評分,對格式的要求不高,可以應(yīng)用于各大高校以及各初高中,在不涉及上下文語義的情況下,能夠比較客觀地對大批量英文作文做出合理評分,能夠減少教師由于主觀判斷導(dǎo)致的作文誤判和錯判,對作文跑題的處理非常有效。
參考文獻(xiàn):
[1]陳鄞.李生.自然語言處理基本理論和方法[M].哈爾濱工業(yè)大學(xué)出版社,2013:08.
[2]孔明.國外計(jì)算機(jī)自動評分研究現(xiàn)狀述評[D].北京師范大學(xué).
[3]CSDN博客,shijiebei2009,最全英文停用詞表整理(891個),2014,9-30[Z].
[4]百度百科[EB/OL].baike.baidu.com.
[5]CSDN博客,一座青山,TF-IDF及其算法,2016,9-15[Z].
[6]阮一峰.TF-IDF與余弦相似性的應(yīng)用,2013,3-13[Z].
[7]博客園,CNBlog,文本相似度算法——空間向量模型的余弦算法和TF-IDF,2014[Z].