摘要:文章通過(guò)運(yùn)用Part-Of-Speech Tagging詞性標(biāo)注工具,使計(jì)算機(jī)能夠?qū)ξ粗⒄Z(yǔ)句子的語(yǔ)法錯(cuò)誤、句法錯(cuò)誤等淺層詞性特征信息進(jìn)行評(píng)判。同時(shí),通過(guò)建立詞性錯(cuò)誤特征數(shù)據(jù)庫(kù)來(lái)提高計(jì)算機(jī)對(duì)英語(yǔ)句子的判斷準(zhǔn)確性,從而將其應(yīng)用于現(xiàn)實(shí)教學(xué)研究。
關(guān)鍵詞:詞性標(biāo)注;英語(yǔ)語(yǔ)法;應(yīng)用
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)19-0074-04
1 研究背景
詞性標(biāo)注(Part-Of-Speech tagging, POS tagging) 是機(jī)器學(xué)習(xí)的一種方法,也是自然語(yǔ)言處理(NaturalLanguage Processing, NLP) 研究的內(nèi)容之一。它又被稱為語(yǔ)法標(biāo)注(grammatical tagging) 或詞類消疑(wordcategorydisambiguation) ,是一種通過(guò)將語(yǔ)料庫(kù)內(nèi)單詞的詞性根據(jù)其內(nèi)涵意義以及上下文內(nèi)容關(guān)系進(jìn)行標(biāo)注的文本數(shù)據(jù)處理技術(shù)。
詞性標(biāo)注作為語(yǔ)法分析器(parser) 的組件之一隨著語(yǔ)料庫(kù)的建立而提出。早期,在賓夕法尼亞大學(xué)(University of Pennsylvania) TDAP(Transformations andDiscourse Analysis Project) 項(xiàng)目中,詞性標(biāo)注作為一種語(yǔ)法結(jié)構(gòu)模型被提出,并通過(guò)人工指定的上下文規(guī)則建立了自動(dòng)化詞性標(biāo)注系統(tǒng)CGC(Computational Gram?mar Coder) 。1971 年,Barbara B. Greene 和Gerald M.Rubin以CGC為基礎(chǔ)開(kāi)發(fā)了詞性標(biāo)注系統(tǒng)TAGGIT,并首次對(duì)大規(guī)模詞庫(kù)Brown Corpus進(jìn)行了詞性標(biāo)注。隨著統(tǒng)計(jì)學(xué)習(xí)方法的成功和更大規(guī)模語(yǔ)料庫(kù)BritishNational Corpus的出現(xiàn),為詞性標(biāo)注研究中機(jī)器學(xué)習(xí)方法的引入奠定了基礎(chǔ)。其中,隱馬爾可夫模型(Hid?den Markov Model, HMM) 作為一種統(tǒng)計(jì)分析模型創(chuàng)立于20世紀(jì)70年代。20世紀(jì)80—90年代,HMM被應(yīng)用于語(yǔ)音識(shí)別并取得重大成功[1],學(xué)界開(kāi)始嘗試使用隱馬爾可夫模型進(jìn)行詞性標(biāo)注,并也取得了成功。之后,以HMM為代表的詞性標(biāo)注方法被廣泛應(yīng)用于各類大規(guī)模語(yǔ)料庫(kù)的NLP和文本挖掘。
關(guān)于詞性標(biāo)注的研究在國(guó)內(nèi)外的相關(guān)文獻(xiàn)比較多,但絕大部分文獻(xiàn)基本圍繞構(gòu)建對(duì)目標(biāo)文本的詞性標(biāo)注進(jìn)行研究,如莫禮平等[2]提出的湘西苗文詞性標(biāo)注知識(shí)庫(kù)系統(tǒng)的構(gòu)建,唐文[3]研究了融合多特征的老撾語(yǔ)詞性標(biāo)注方法。這些研究大多基于語(yǔ)料庫(kù),探討如何準(zhǔn)確地進(jìn)行語(yǔ)料詞性的標(biāo)注。以知網(wǎng)為例,搜索關(guān)鍵詞“詞性標(biāo)注”,可以發(fā)現(xiàn)相關(guān)的期刊文章有903 條記錄,然而大部分文章都是研究漢語(yǔ)、古漢語(yǔ)、少數(shù)民族語(yǔ)言,以及其他國(guó)家語(yǔ)言的詞性標(biāo)注方法。在搜索結(jié)果的基礎(chǔ)上進(jìn)行二次搜索以“英語(yǔ)語(yǔ)法”為關(guān)鍵詞,發(fā)現(xiàn)只有彭濤等[4]研究的一種基于規(guī)則的無(wú)監(jiān)督詞性標(biāo)注方法,該篇文章提出當(dāng)英語(yǔ)句子進(jìn)行詞性標(biāo)注時(shí)如何既準(zhǔn)確又快速的方法,而直接利用詞性標(biāo)注工具進(jìn)行英語(yǔ)語(yǔ)法計(jì)算機(jī)判斷研究的文章幾乎沒(méi)有。同樣,在百度學(xué)術(shù)文庫(kù)中以“詞性標(biāo)注 英語(yǔ)語(yǔ)法”為關(guān)鍵詞進(jìn)行搜索,搜索到173條記錄,其中大部分與英語(yǔ)語(yǔ)法沒(méi)有關(guān)系,只有吳坤[5]寫(xiě)的英文作文智能評(píng)改中詞性標(biāo)注技術(shù)的研究與實(shí)現(xiàn)的碩士論文中談到了關(guān)于詞性標(biāo)注在英語(yǔ)作文評(píng)閱中的應(yīng)用。
2 設(shè)計(jì)思路
詞性是代表同一類單詞的語(yǔ)法分類。對(duì)于不同的英語(yǔ)句子,只要語(yǔ)句結(jié)構(gòu)相同,其對(duì)應(yīng)的詞性組合就是一致的。鑒于這個(gè)特點(diǎn),利用詞性標(biāo)注來(lái)分析英文句子可以大大簡(jiǎn)化英文單詞在句法、語(yǔ)法分析上的障礙。通過(guò)判斷詞性的組合來(lái)分析英語(yǔ)句子存在的語(yǔ)法錯(cuò)誤,從而進(jìn)行淺層文本分析,得到相應(yīng)的錯(cuò)誤組合結(jié)果,并將其錄入錯(cuò)誤詞性數(shù)據(jù)庫(kù)中。這類似于殺毒軟件的原理,只要增加病毒庫(kù)信息就可以對(duì)未知病毒進(jìn)行查殺,從而提高英語(yǔ)語(yǔ)法判斷的能力和速度。
2.1 標(biāo)注工具
本文采用的詞性標(biāo)注工具是由The Stanford Natu?ral Language Processing Group 開(kāi)發(fā)的Stanford POSTagger v.3.0,該軟件基于Java 工作平臺(tái)。根據(jù)PennTreebank標(biāo)注集(表1) ,其中:NN表示名詞-單數(shù),VB 表示動(dòng)詞,RB表示副詞,PRP表示人稱代詞等。