孫杰歡 張?chǎng)巍「呃?/p>
摘要:針對(duì)高校學(xué)生在英語(yǔ)閱讀訓(xùn)練中存在長(zhǎng)難句理解障礙等問(wèn)題,借助自然語(yǔ)言處理技術(shù)與UI處理技術(shù),重點(diǎn)研究一種在線分析與描述英語(yǔ)長(zhǎng)難句結(jié)構(gòu)的工具,以幫助高校學(xué)生消除理解障礙,促使其提高英語(yǔ)閱讀能力。
關(guān)鍵詞:統(tǒng)計(jì)方法;句法分析器;自然語(yǔ)言處理技術(shù);UI處理技術(shù)
DOIDOI:10.11907/rjdk.151089
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):16727800(2015)006012502
基金項(xiàng)目基金項(xiàng)目:江蘇省高等學(xué)校大學(xué)生實(shí)踐創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目(201411122007Z)
作者簡(jiǎn)介作者簡(jiǎn)介:孫杰歡(1993-),男,江蘇常州人,三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院學(xué)生,研究方向?yàn)閿?shù)據(jù)庫(kù)及Web開(kāi)發(fā);張?chǎng)危?993-),男,江蘇鹽城人,三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院學(xué)生,研究方向?yàn)閿?shù)據(jù)庫(kù)及Web開(kāi)發(fā);高利(1994-),男, 江蘇鹽城人,三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院學(xué)生,研究方向?yàn)閿?shù)據(jù)庫(kù)及Web開(kāi)發(fā);姚佳夢(mèng)(1993-),女,江蘇江陰人,三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院學(xué)生,研究方向?yàn)閿?shù)據(jù)庫(kù)及Web開(kāi)發(fā);顧問(wèn)(1984-),男,江蘇無(wú)錫人,三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院實(shí)驗(yàn)師,研究方向?yàn)閿?shù)據(jù)庫(kù)及Web開(kāi)發(fā)。
0 引言
提高大學(xué)生閱讀能力是高校英語(yǔ)教學(xué)中的重要任務(wù)之一。在高校英語(yǔ)閱讀訓(xùn)練中, 長(zhǎng)句或難句出現(xiàn)的頻率很高,學(xué)生語(yǔ)法知識(shí)薄弱等問(wèn)題直接導(dǎo)致其對(duì)長(zhǎng)難句內(nèi)部結(jié)構(gòu)的理解模糊不清。針對(duì)此問(wèn)題,筆者借助自然語(yǔ)言處理技術(shù)與UI處理技術(shù),研究了一種在線分析與描述英語(yǔ)長(zhǎng)難句結(jié)構(gòu)的工具,以幫助學(xué)生消除理解障礙,在使用過(guò)程中逐步理解常見(jiàn)長(zhǎng)難句的組成部分,從而促使其提高閱讀能力。
1 英語(yǔ)長(zhǎng)難句句法分析難點(diǎn)
英語(yǔ)句子由主干和修飾成分兩部分組成。主干一般指句子的主要結(jié)構(gòu),由主謂賓或主系表組成,而修飾成分為單詞、短語(yǔ)、從句3類。其中單詞主要是形容詞和副詞;短語(yǔ)主要是介詞短語(yǔ);從句主要是定語(yǔ)從句和狀語(yǔ)從句。在大學(xué)英語(yǔ)閱讀訓(xùn)練過(guò)程中,為了考查學(xué)生的閱讀能力,經(jīng)常會(huì)出現(xiàn)復(fù)雜的修飾、倒裝等方式相互結(jié)合使用的長(zhǎng)難句,這類句子打斷了學(xué)生正常的閱讀習(xí)慣。較難理解的詞句有如下幾種:①倒裝句。這類句子不同于正常語(yǔ)序,需要重新理解句子成分,加大了對(duì)句子理解的難度;②虛擬語(yǔ)氣。通常表示假想,而不表示客觀存在的事實(shí),其形式變化多種多樣;③比較級(jí)和最高級(jí)。比較級(jí)和最高級(jí)有特殊形式,對(duì)單詞的不熟悉容易增加句子理解難度;④雙重否定。這種句子在形式上或者語(yǔ)義上用雙重否定設(shè)置了圈套,干擾了讀者的閱讀思維,造成了句子理解困難;⑤習(xí)慣用語(yǔ)或固定詞組。這涉及到閱讀者的知識(shí)面,如果閱讀者對(duì)這些固定組合不熟悉,就很難理解。
筆者研究發(fā)現(xiàn),對(duì)于上述①、③、⑤這3類句子,在借助計(jì)算機(jī)相關(guān)技術(shù)進(jìn)行處理后,能夠得到較為清晰的分析結(jié)果,從而讓高校學(xué)生從句子結(jié)構(gòu)方面理解這些長(zhǎng)難句。
2 基于統(tǒng)計(jì)方法的句法分析器
隨著人們對(duì)自然語(yǔ)言研究的逐步深入,以及語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起,傳統(tǒng)基于規(guī)則的語(yǔ)言模型受到了質(zhì)疑,自然語(yǔ)言處理的主要目標(biāo)也轉(zhuǎn)為對(duì)大規(guī)模真實(shí)文本的處理,概率和統(tǒng)計(jì)驅(qū)動(dòng)的方法幾乎成為了自然語(yǔ)言處理的標(biāo)準(zhǔn)方法[2]。
2.1 統(tǒng)計(jì)模型與句法分析器
自然語(yǔ)言處理的核心是構(gòu)造語(yǔ)言模型,而語(yǔ)言模型就是一種借用數(shù)學(xué)模型來(lái)描述自然語(yǔ)言內(nèi)在規(guī)律的模型。目前,很多學(xué)者都在研究基于統(tǒng)計(jì)的語(yǔ)言模型,它通常是概率模型,計(jì)算機(jī)通過(guò)使用統(tǒng)計(jì)模型對(duì)句子中的單詞進(jìn)行概率分析,估算出自然語(yǔ)言中語(yǔ)言成分出現(xiàn)的可能性,不像傳統(tǒng)的規(guī)則型語(yǔ)言模型單純判斷該單詞是否符合語(yǔ)言學(xué)規(guī)則。這種概率性的語(yǔ)言統(tǒng)計(jì)模型在很大程度上比規(guī)則語(yǔ)言模型更加客觀和全面。
目前,語(yǔ)言統(tǒng)計(jì)模型在自然語(yǔ)言處理中已相對(duì)成熟,比較典型的有:最大熵語(yǔ)言模型、概率上下文無(wú)關(guān)語(yǔ)法(PCFG)、隱馬爾可夫模型(HMM)、支持向量機(jī)(SVM)、條件隨機(jī)場(chǎng)(CRF)、基于決策樹(shù)的語(yǔ)言模型等[2]。
基于各類統(tǒng)計(jì)模型也相應(yīng)產(chǎn)生了諸多句法分析器,相比較而言,Apache的OpenNLP Parser和Stanford的Stanford Parser較為杰出并且分析結(jié)果比較準(zhǔn)確。
2.2 OpenNLP Parser
OpenNLP Parser利用MaxEnt選擇概率最大的標(biāo)記作為一個(gè)句子中某個(gè)單詞的所屬分類。利用這種方法進(jìn)行詞類標(biāo)注雖然簡(jiǎn)單,但有一個(gè)致命缺點(diǎn):這種分類器是自左向右移動(dòng)窗口標(biāo)記的,分類器移動(dòng)到下一個(gè)單次前就必須對(duì)它前一個(gè)單詞作出硬性判斷,這樣的分類器不能利用后面的單詞信息糾正前面的錯(cuò)誤判斷。
2.3 Stanford Parser
Stanford Parser是Stanford NLP小組提供的一系列工具之一,能夠用來(lái)完成語(yǔ)法分析任務(wù)。它是基于概率上下文無(wú)關(guān)語(yǔ)法(PCFG)實(shí)現(xiàn)的一個(gè)句法分析器。
一個(gè)概率上下文無(wú)關(guān)文法(PCFG)是一個(gè)五元組(N,∑,S,R,P):①一個(gè)非終結(jié)符集N;②一個(gè)終結(jié)符集∑;③一個(gè)開(kāi)始非終結(jié)符S∈N;④一個(gè)產(chǎn)生式集R;⑤對(duì)于任意產(chǎn)生式r∈R,其概率為P(r)。
PCFG的規(guī)則表示形式為:A→αp,其中A為非終結(jié)符,p為A推導(dǎo)出α的概率,即p=P(A→α)。該概率分布必須滿足如下條件:∑P(A→α)=1,也即相同左部的產(chǎn)生式概率分布滿足歸一化條件。分析樹(shù)的概率等于所有使用規(guī)則概率之積。
Stanford Parser利用PCFG計(jì)算分析樹(shù)的概率值,若一個(gè)句子有多個(gè)分析樹(shù),可以依據(jù)概率值對(duì)所有分析樹(shù)進(jìn)行排序,同時(shí)也能進(jìn)行句法排歧,再?gòu)亩鄠€(gè)結(jié)果中,選擇概率最大者作為最終分析結(jié)果。
同樣地,利用PCFG算法模型也存在一定局限性:PCFG沒(méi)有考慮結(jié)構(gòu)之間的依存關(guān)系,也沒(méi)有考慮詞匯對(duì)句法結(jié)構(gòu)的影響。
3 O&S Parser工作原理及功能
根據(jù)對(duì)基于統(tǒng)計(jì)方法的OpenNLP Parser和Stanford Parser這兩種句法分析器的比較可知,憑借它們自身統(tǒng)計(jì)模型的優(yōu)勢(shì)已經(jīng)可以基本達(dá)到對(duì)英語(yǔ)長(zhǎng)難句進(jìn)行句法分析的目的,準(zhǔn)確率和執(zhí)行效率都很高。但是目前無(wú)論哪一種句法分析器都會(huì)給使用者帶來(lái)一些新問(wèn)題。例如,不論是標(biāo)注詞性的簡(jiǎn)寫(xiě),還是語(yǔ)法樹(shù)的編排結(jié)果,對(duì)于英語(yǔ)不是極其了解的人而言都是一種負(fù)擔(dān),尤其是對(duì)國(guó)內(nèi)多數(shù)高校學(xué)生來(lái)說(shuō)更是難以理解。因此, 應(yīng)采用一種更加實(shí)用、直觀的句法分析器(O&S Parser)幫助他們解決這些問(wèn)題。O&S Parser主要集成了OpenNLP Parser和Stanford Parser,讓它們發(fā)揮各自的優(yōu)勢(shì),具體方法如下:首先利用OpenNLP Parser及Stanford Parser兩個(gè)句法分析器同時(shí)對(duì)英語(yǔ)長(zhǎng)難句進(jìn)行分析,然后對(duì)兩者的分析結(jié)果進(jìn)行比較,對(duì)差異化集合進(jìn)行篩選,得到最終分析結(jié)果,使筆者的句法分析器準(zhǔn)確性得到提高。針對(duì)句法分析樹(shù)難以理解的問(wèn)題,筆者使用UI處理技術(shù),對(duì)它們解析出來(lái)的詞性或者句法樹(shù)進(jìn)行重新編排,包括對(duì)一些縮寫(xiě)的中文注解等,再將這些信息展示給用戶,使這些詞性或者句法樹(shù)能夠讓用戶一目了然。O&S Parser工作原理如圖1所示。
3.1 O&S Parser比較分析
本文示例中選取了一個(gè)典型的英語(yǔ)長(zhǎng)難句讓O&S Parser同時(shí)調(diào)用OpenNLP Parser和Stanford Parser對(duì)英語(yǔ)長(zhǎng)難句進(jìn)行分析,然后對(duì)得到的兩棵句法樹(shù)進(jìn)行文本比對(duì),高亮顯示差異之處,具體效果如圖2所示。再根據(jù)詞性對(duì)照表選取最優(yōu)分析結(jié)果。
3.2 O&S Parser拆分英語(yǔ)長(zhǎng)難句
O&S Parser在得到一個(gè)句子精確的句法樹(shù)之后,會(huì)將句子拆分成若干短句子,并將連接詞或符號(hào)進(jìn)行著色,讓高校學(xué)生從簡(jiǎn)單到復(fù)雜,逐步理解英語(yǔ)長(zhǎng)難句。圖3中描述了使用O&S Parser對(duì)例句進(jìn)行拆分的過(guò)程,最后得到了5個(gè)句子。
4 結(jié)語(yǔ)
本文針對(duì)學(xué)生在英語(yǔ)閱讀訓(xùn)練中出現(xiàn)的長(zhǎng)難句理解障礙等問(wèn)題,闡述了出現(xiàn)問(wèn)題的主要原因,提出了一種基于統(tǒng)計(jì)方法的句法分析工具改造方法,并結(jié)合實(shí)際情況給出了相應(yīng)功能的設(shè)計(jì)思路。O&S Parser幫助學(xué)生降低了理解英語(yǔ)長(zhǎng)難句的難度,具有一定的實(shí)用性。
參考文獻(xiàn):
[1] 王丹.試析如何提高英語(yǔ)專業(yè)學(xué)生的閱讀理解能力[J].牡丹江師范學(xué)院學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2008(1):9192.
[2] 馮志偉.自然語(yǔ)言處理簡(jiǎn)明教程[M].上海:上海外語(yǔ)教育出版社,2012.
[3] 林易,孫學(xué)濤.英語(yǔ)長(zhǎng)句分析與翻譯方法探析[J].中州大學(xué)學(xué)報(bào),2009,26(4):7778.
[4] OpenNLP [EB /OL]. http://opennlp. source2forge. net/.
[5] 祝清松,王惠臨.中英文句法分析系統(tǒng)及驗(yàn)證平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(2):3943.
[6] 孟遙,李生,趙鐵軍,等.基于統(tǒng)計(jì)的句法分析技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2003,30(9):5458.
責(zé)任編輯(責(zé)任編輯:孫 娟)