黃昌寧,李玉梅(.微軟亞洲研究院,北京 0090;.清華大學(xué),北京 00084)
從樹庫(kù)的實(shí)踐看句本位和中心詞分析法的生命力
黃昌寧1,李玉梅2
(1.微軟亞洲研究院,北京 100190;2.清華大學(xué),北京 100084)
樹庫(kù)是一種帶句法標(biāo)注的語(yǔ)料庫(kù),它記錄著真實(shí)文本中每個(gè)句子的句法分析結(jié)果——句法樹。上世紀(jì)90年代,自然語(yǔ)言的自動(dòng)句法分析再次成為國(guó)際計(jì)算語(yǔ)言學(xué)界關(guān)注的焦點(diǎn),一個(gè)重要原因是美國(guó)賓州樹庫(kù)PTB的建成。根據(jù)樹庫(kù)自動(dòng)歸納出來(lái)的概率型上下文無(wú)關(guān)語(yǔ)法,使英語(yǔ)的句法分析器在性能上顯著超越了先前基于規(guī)則和合一運(yùn)算的句法分析器。世界上為各種自然語(yǔ)言構(gòu)建的樹庫(kù),不論是短語(yǔ)結(jié)構(gòu)樹庫(kù)還是依存結(jié)構(gòu)樹庫(kù),都以句子為基本的描述單位。依存語(yǔ)法是一種詞例化語(yǔ)法,它不采用短語(yǔ)結(jié)構(gòu)的語(yǔ)法概念,而直接描寫句子中詞與詞之間的依存關(guān)系,即認(rèn)為句子中任何兩個(gè)具有依存關(guān)系的詞中必有一個(gè)是中心詞(支配詞),而另一個(gè)是被支配詞。因此,依存語(yǔ)法直接體現(xiàn)了一種語(yǔ)言的句法層面和語(yǔ)義層面之間的天然聯(lián)系。這充分說(shuō)明,黎錦熙先生在《新著國(guó)語(yǔ)文法》中倡導(dǎo)的句本位語(yǔ)法體系和中心詞分析法具有鮮活的生命力。它們不僅在我國(guó)解放前后的中學(xué)語(yǔ)文教學(xué)中數(shù)十年長(zhǎng)盛不衰,而且至今仍在指導(dǎo)著樹庫(kù)的建設(shè)和應(yīng)用。
句本位;中心詞分析法;樹庫(kù);自動(dòng)句法分析
黎錦熙先生在《新著國(guó)語(yǔ)文法》①黎錦熙:《新著國(guó)語(yǔ)文法》,北京:商務(wù)印書館,1998年版。中倡導(dǎo)的句本位語(yǔ)法體系和中心詞分析法具有鮮活的生命力。它們不僅在我國(guó)解放前后的中學(xué)語(yǔ)文教學(xué)中數(shù)十年長(zhǎng)盛不衰,而且至今仍在指導(dǎo)著樹庫(kù)的建設(shè)和應(yīng)用。
那么什么是樹庫(kù)呢?樹庫(kù)是一種帶句法標(biāo)注的語(yǔ)料庫(kù),它記錄著真實(shí)文本中每個(gè)句子的句法分析結(jié)果——句法樹(見圖1)。不論是以短語(yǔ)結(jié)構(gòu)為表示形式的短語(yǔ)結(jié)構(gòu)樹庫(kù),還是以依存關(guān)系為表示形式的依存樹庫(kù),都把句子作為樹庫(kù)存儲(chǔ)的基本單位,也是句法描述的基本單位②在文本文件(text)中,每個(gè)句子占據(jù)一行,行與行之間用回車符分割,行內(nèi)不得插入回車符。。樹庫(kù)中的每一棵句法樹好比是指定語(yǔ)言的一個(gè)語(yǔ)法樣本,把這樣的大量樣本收集到一起,就可以勾畫出這種語(yǔ)言整體的語(yǔ)法現(xiàn)象和規(guī)律。在“句本位”、“詞組本位”、“小句本位”等諸多的本位說(shuō)中,“本位”的意思是試圖把某個(gè)語(yǔ)言單位作為語(yǔ)法分析的基礎(chǔ),其語(yǔ)言學(xué)假設(shè)是:“把這個(gè)單位內(nèi)部的成分和結(jié)構(gòu)分析清楚了,整個(gè)語(yǔ)法系統(tǒng)也就清楚了”③胡明揚(yáng):《現(xiàn)代漢語(yǔ)的開創(chuàng)性著作——〈新著國(guó)語(yǔ)文法〉的再認(rèn)識(shí)和再評(píng)價(jià)》,《語(yǔ)言科學(xué)》2002年1(1)期,第92-101頁(yè)。。如果這樣來(lái)理解“本位”的意思,那么正是黎錦熙先生的句本位思想,而不是別的什么“本位”,真正體現(xiàn)了樹庫(kù)構(gòu)建的真諦。
上個(gè)世紀(jì)90年代,自動(dòng)句法分析再次成為國(guó)際計(jì)算語(yǔ)言學(xué)界關(guān)注的焦點(diǎn),一個(gè)重要原因是:美國(guó)賓州大學(xué)在華爾街日?qǐng)?bào)(WSJ)的真實(shí)文本上加工成規(guī)模達(dá)百萬(wàn)詞次的賓州樹庫(kù)④M.P.Marcus et al.Building a large annotated co rpusof English:The Penn Treebank.Computational Linguistics, 19(2),1993.313-330.http://www.cis.upenn.edu/~treebank/(Penn Tree-bank,簡(jiǎn)稱PTB)。英文PTB-3的訓(xùn)練集共有39,727句,938,167詞次,平均句長(zhǎng)24.4詞次;賓州中文樹庫(kù)(又稱PCTB 6.0)的訓(xùn)練集含22,277句,609,060詞次,平均句長(zhǎng)27.3詞次。簡(jiǎn)而言之,樹庫(kù)的意義有三:
(1)人工編制的語(yǔ)法規(guī)則一般都以詞性標(biāo)記(終結(jié)符)和短語(yǔ)標(biāo)記(非終結(jié)符)作為規(guī)則的書寫符號(hào),很難細(xì)化到詞例化(lexicalization①在語(yǔ)言學(xué)中,lexicalization被譯作“詞匯化”。為避免術(shù)語(yǔ)上的混淆,這里譯作“詞例化”,特指句子中的每個(gè)詞語(yǔ)(word)將同它的詞性一起作為終結(jié)符進(jìn)入句法規(guī)則。)的程度。然而在樹庫(kù)中,句子里的詞語(yǔ)和它們的詞性一樣都是可觀察的,因此根據(jù)樹庫(kù)自動(dòng)歸納出來(lái)的概率型上下文無(wú)關(guān)語(yǔ)法(Probabilistic Context Free Grammar,簡(jiǎn)稱PCFG),其規(guī)則既可以是詞例化的,也可以是非詞例化的。樹庫(kù)不僅可以用來(lái)估計(jì)短語(yǔ)規(guī)則的概率,而且規(guī)則的詞例化使句法知識(shí)的顆粒度極大地細(xì)化了。
(2)由于規(guī)則的約束條件容易出現(xiàn)相互沖突,幾百條人工編制的短語(yǔ)規(guī)則便已經(jīng)很難管理了。這樣的規(guī)則集對(duì)真實(shí)文本的覆蓋面窄,往往滿足不了實(shí)際應(yīng)有的需求。而從PTB英文樹庫(kù)中歸納出來(lái)的非詞例化短語(yǔ)規(guī)則就超過(guò)17,000條,極大地提高PCFG對(duì)真實(shí)文本的覆蓋面。
圖1 賓州樹庫(kù)的一棵短語(yǔ)結(jié)構(gòu)樹
(3)學(xué)術(shù)界一般都會(huì)在樹庫(kù)中按一定比例劃分出專門的訓(xùn)練集、開發(fā)集和測(cè)試集,以便為自動(dòng)句法分析研究提供一個(gè)可比的測(cè)試平臺(tái)。這種可共享的資源使得統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statistic machine learning)方法在自動(dòng)句法分析技術(shù)中如虎添翼,迅速成為這一領(lǐng)域的主流方法。在新舊世紀(jì)之交,由賓州樹庫(kù)訓(xùn)練出來(lái)的PCFG句法分析器在性能上明顯超越了原先基于規(guī)則和合一(unification)運(yùn)算的句法分析器,后者包括語(yǔ)言學(xué)界熟知的廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法(GPSG)、詞匯功能語(yǔ)法(LFG)、中心語(yǔ)驅(qū)動(dòng)短語(yǔ)結(jié)構(gòu)語(yǔ)法(HPSG)和功能合一語(yǔ)法(FUG)等等。
賓州樹庫(kù)的標(biāo)注依據(jù)的是短語(yǔ)結(jié)構(gòu)語(yǔ)法,但在短語(yǔ)節(jié)點(diǎn)上增加了SBJ(主語(yǔ))、OBJ(賓語(yǔ))、TM P (時(shí)間)和LOC(處所)等功能標(biāo)記,在句法樹上則添置了轉(zhuǎn)換生成語(yǔ)法特有的W h-轉(zhuǎn)移和空語(yǔ)類(Null)等節(jié)點(diǎn)。在析句時(shí)采用直接成分分析法,但又不嚴(yán)格遵守二分法,圖1(b)的“VP→VBD NP NP”便是一個(gè)三分的例子,目的是使句法樹顯得平坦一些,便于人們閱讀和審查。賓州樹庫(kù)在S (句)、NP(名詞短語(yǔ))、VP(動(dòng)詞短語(yǔ))、PP(介詞短語(yǔ))等短語(yǔ)標(biāo)記中既不指明短語(yǔ)內(nèi)部的結(jié)構(gòu)類型(如主謂、述賓、述補(bǔ)、定中、狀中等),又不標(biāo)明每個(gè)短語(yǔ)的中心語(yǔ)位置。這給后來(lái)的自動(dòng)句法分析帶來(lái)了一些困難。Collins②M.Collins.Head-driven statisticalmodels for natural language parsing.PhD thesis,University of Pennsylvania, 1999.在實(shí)現(xiàn)概率型自動(dòng)句法分析系統(tǒng)時(shí),不得不用一個(gè)人工編制的“中心語(yǔ)規(guī)則表”來(lái)為分析系統(tǒng)自動(dòng)推斷每個(gè)短語(yǔ)的中心語(yǔ),這也在一定程度上降低了基于賓州樹庫(kù)的訓(xùn)練精度。
與此相應(yīng),周強(qiáng)主持制作的清華大學(xué)中文樹庫(kù)①周強(qiáng):《漢語(yǔ)句法樹庫(kù)標(biāo)注體系》,《中文信息學(xué)報(bào)》2004年18(4)期,第1-8頁(yè)。(TCT)改進(jìn)了短語(yǔ)結(jié)構(gòu)的標(biāo)記系統(tǒng),不僅定義了16個(gè)短語(yǔ)成分標(biāo)記,還用大寫的字母后綴定義了27個(gè)短語(yǔ)內(nèi)部的結(jié)構(gòu)關(guān)系類型:-ZZ(主謂), -PO(述賓),-DZ(定中),-ZZ(狀中)等,用數(shù)字后綴指明了每個(gè)短語(yǔ)的中心語(yǔ)位置:-0(第1位置),-1(第2位置),-2(第3位置)等。圖2中的根節(jié)點(diǎn)dj-ZW-1表示這是一個(gè)單句(dj),內(nèi)部是主謂結(jié)構(gòu),其中心語(yǔ)是vp(在第2位置)。謂語(yǔ)vp-PO-0是一個(gè)述賓結(jié)構(gòu),其中心語(yǔ)為動(dòng)詞“是/v”(在第1位置)。這是一種多層次的句法標(biāo)注體系,不僅綜合了中心詞分析法和直接成分分析法的優(yōu)點(diǎn),而且照顧了自動(dòng)句法分析的需要。
如前所述,樹庫(kù)的制作,尤其是樹庫(kù)標(biāo)注規(guī)范的編制,離不開語(yǔ)言學(xué)理論的指導(dǎo)。反過(guò)來(lái),由于樹庫(kù)所體現(xiàn)的語(yǔ)法知識(shí)不僅規(guī)模大而且顆粒細(xì),必將給語(yǔ)言學(xué)研究本身和自動(dòng)句法分析技術(shù)兩方面都帶來(lái)重大影響。比如,樹庫(kù)的標(biāo)注應(yīng)采用哪種句法結(jié)構(gòu)知識(shí)表示,現(xiàn)有的詞類和短語(yǔ)標(biāo)記能否適應(yīng)樹庫(kù)標(biāo)注的需求,樹庫(kù)的標(biāo)注應(yīng)至少包含哪些必要的層次和信息,不同層次之間的標(biāo)注怎樣交互索引等等,都是值得研討的問(wèn)題。鑒此,2002年學(xué)術(shù)界發(fā)起了一個(gè)名為“樹庫(kù)和語(yǔ)言學(xué)理論”的國(guó)際研討會(huì)(International Wo rkshop on Treebanks and Linguistic Theo ries,簡(jiǎn)稱TL T),目的是更好地推動(dòng)計(jì)算語(yǔ)言學(xué)與理論語(yǔ)言學(xué)這兩個(gè)領(lǐng)域研究人員的互動(dòng)。TL T研討會(huì)每年一屆,2009年12月4-5日在意大利米蘭舉行的是它的第八屆年會(huì)②http://tlt8.unicatt.it/p rogramme-tlt8.htm.。
依存語(yǔ)法是指導(dǎo)樹庫(kù)構(gòu)建的另一種常用的語(yǔ)法理論,由于它不采用短語(yǔ)結(jié)構(gòu)和短語(yǔ)范疇那樣的語(yǔ)法概念,顯然不符合詞組本位的語(yǔ)言觀,而只能遵循句本位的語(yǔ)法體系。此外,依存語(yǔ)法認(rèn)為,在句子中任何兩個(gè)詞的依存關(guān)系中必有一個(gè)是中心詞(head),另一個(gè)是從屬詞(dependent)。所以中心詞析句方法在依存句法分析中具有不可替代的位置。
依存語(yǔ)法③http://en.w ikipedia.org/w iki/Dependency_grammar.是法國(guó)語(yǔ)言學(xué)家L.Tesniere于1959年提出的。依存語(yǔ)法直接通過(guò)句子中詞與詞之間的依存關(guān)系來(lái)描述句子的句法結(jié)構(gòu),而不采用短語(yǔ)結(jié)構(gòu)和短語(yǔ)類那樣的語(yǔ)法概念。因此它和鏈語(yǔ)法(Link Grammar)、范疇語(yǔ)法(Category Grammar)一樣,同屬于詞例化語(yǔ)法。在詞例化語(yǔ)法中,語(yǔ)言的全部知識(shí)幾乎都登錄在詞庫(kù)中一個(gè)個(gè)特定的詞項(xiàng)上,除此以外沒(méi)有眾多的語(yǔ)法規(guī)則。捷克語(yǔ)的布拉格依存樹庫(kù)④J.Hajic et al.Prague Dependency Treebank 2.0,2006.http://ufal.mff.cuni.cz/pdt2.0.(Prague Dependency Treebank,簡(jiǎn)稱PD T)包含三個(gè)層次的語(yǔ)法信息標(biāo)注:第一層為詞法信息,第二層為依存句法信息,第三層是像施事(agent)、受事(patient)那樣的深層語(yǔ)義角色標(biāo)注。PD T的訓(xùn)練集共有38727句, 652544詞次,平均句長(zhǎng)16.8詞次。
圖2 清華中文樹庫(kù)的一棵短語(yǔ)結(jié)構(gòu)樹
依存語(yǔ)法認(rèn)為,如果一個(gè)句子由n個(gè)詞組成,那么它的依存結(jié)構(gòu)樹就只包含n+1個(gè)節(jié)點(diǎn)和n條表示某種依存關(guān)系的弧。其中只有一個(gè)ROOT (根)節(jié)點(diǎn)是獨(dú)立的,它惟一地支配著句子的謂詞(即句子的中心詞),句子中其余的每個(gè)詞節(jié)點(diǎn)分別只能接受另外一個(gè)詞節(jié)點(diǎn)的支配,支配者是一個(gè)依存關(guān)系的中心詞,被支配者是這一依存關(guān)系中的連帶成分或附加成分。正是這種詞間的支配與被支配關(guān)系體現(xiàn)了句子的句法結(jié)構(gòu)。值得注意的是,除了ROOT節(jié)點(diǎn)以外,句子中起支配作用的詞節(jié)點(diǎn)可以支配兩個(gè)或兩個(gè)以上的詞節(jié)點(diǎn)。圖3是圖2同一例句的依存關(guān)系表示(a)和依存結(jié)構(gòu)樹表示(b)。圖中謂語(yǔ)動(dòng)詞“是/v”不僅支配著主語(yǔ)“中國(guó)/nS”,依存關(guān)系記作SBJ(主語(yǔ)),而且支配著賓語(yǔ)的中心詞“國(guó)家/n”,依存關(guān)系記作OBJ(賓語(yǔ))。對(duì)比圖2和圖3人們不難看到,依存句法樹的標(biāo)注比短語(yǔ)結(jié)構(gòu)樹簡(jiǎn)單得多。更重要的是,在任何一個(gè)句子中這種詞與詞之間的依存關(guān)系與特定語(yǔ)言無(wú)關(guān),具有普遍語(yǔ)法(Universal Grammar)的意義。這一點(diǎn)和格語(yǔ)法和配價(jià)理論的動(dòng)機(jī)是一致的。
圖3 圖2例句的依存樹
樹庫(kù)既有用短語(yǔ)結(jié)構(gòu)(PS)來(lái)表示的,也有用依存結(jié)構(gòu)(DS)來(lái)表示的。當(dāng)人們想把短語(yǔ)結(jié)構(gòu)樹轉(zhuǎn)換成依存結(jié)構(gòu)樹時(shí),研究者在賓州樹庫(kù)中遭遇了短語(yǔ)中心語(yǔ)不完全確定的困難,轉(zhuǎn)換精度一般只有90%左右。相比之下,清華中文樹庫(kù)TCT由于對(duì)每個(gè)短語(yǔ)標(biāo)記都用數(shù)字后綴方式顯式地指明了中心語(yǔ)的確切位置(見圖2),可使上述轉(zhuǎn)換的精度達(dá)到97%左右①黨政法、周強(qiáng):《短語(yǔ)樹到依存樹的自動(dòng)轉(zhuǎn)換研究》,《中文信息學(xué)報(bào)》2005年19(3)期,第21-27頁(yè)。。
請(qǐng)注意,依存語(yǔ)法強(qiáng)調(diào)每一個(gè)依存關(guān)系中都有一個(gè)中心詞,這一點(diǎn)和句子的語(yǔ)義解釋可謂不謀而合。例如,計(jì)算語(yǔ)言學(xué)所關(guān)注的謂詞-論元結(jié)構(gòu)(p redicate-argument structure)和語(yǔ)義角色標(biāo)注(semantic role labeling,即SRL)也都認(rèn)為概念的語(yǔ)義核心一般落在短語(yǔ)的中心語(yǔ)(詞)上,所以句法的和語(yǔ)義的依存關(guān)系之間有一種天然的聯(lián)系。第十三屆自然語(yǔ)言學(xué)習(xí)國(guó)際研討會(huì)(CoNLL-2009)②http://ufal.mff.cuni.cz/conll2009-st/#task.舉辦了一次自動(dòng)依存句法分析和語(yǔ)義角色標(biāo)注的公開評(píng)測(cè)。會(huì)議提供了包括英、漢、德、西、捷、日、加泰隆(catalan)等七種語(yǔ)言的訓(xùn)練和測(cè)試語(yǔ)料③J.Hajic et al.The CoNLL-2009 shared task:Syntactic and semantic dependencies inmultip le languages.In Proceedingsof the Thirteenth Conference of Computational Natural Language Learning(CoNLL):Shared Task, Boulder Colo rado.Jane 2009.1-8.。評(píng)測(cè)成績(jī)以七種語(yǔ)言句法和語(yǔ)義依存分析結(jié)果的召回率和精確率的調(diào)和平均值F④召回率R是系統(tǒng)輸出的正確標(biāo)注數(shù)占答案中標(biāo)注總數(shù)的百分率,精確率P是系統(tǒng)輸出正確標(biāo)注數(shù)占系統(tǒng)輸出的標(biāo)注總數(shù)的百分率,調(diào)和平均值定義為F=2PR/(P+R)。來(lái)排名。在這項(xiàng)評(píng)測(cè)中絕大多數(shù)參評(píng)團(tuán)隊(duì)只懂得其中的一兩種語(yǔ)言,對(duì)那些完全不懂的語(yǔ)言,機(jī)器學(xué)習(xí)方法利用開發(fā)集的樣本來(lái)自動(dòng)選擇語(yǔ)言特征以適應(yīng)不同語(yǔ)言的特點(diǎn)。在CoNLL-2009的綜合評(píng)測(cè)結(jié)果中,前三名七種語(yǔ)言平均的F值都達(dá)到了82%以上,這是相當(dāng)令人鼓舞的。
小結(jié):依存語(yǔ)法是一種詞例化語(yǔ)法,強(qiáng)調(diào)句子中詞與詞之間的直接依存關(guān)系,既有相鄰詞又有遠(yuǎn)距詞之間的依存關(guān)系,每個(gè)依存關(guān)系中必有一個(gè)中心詞,句子的結(jié)構(gòu)層次表現(xiàn)在間接的依存關(guān)系上。在當(dāng)今世界各國(guó)構(gòu)建的樹庫(kù)中,除了短語(yǔ)樹庫(kù)以外依存樹庫(kù)是數(shù)量最多的另一類樹庫(kù)。盡管基于短語(yǔ)結(jié)構(gòu)語(yǔ)法的樹庫(kù)也以句子而不是短語(yǔ)作為樹庫(kù)的基本描述單位,詞組本位也許仍可以被視為構(gòu)建這類短語(yǔ)樹庫(kù)的理論基礎(chǔ);然而依存語(yǔ)法完全摒棄了短語(yǔ)或短語(yǔ)范疇一類的概念,說(shuō)依存樹庫(kù)的建設(shè)也要用詞組本位的語(yǔ)法體系來(lái)指導(dǎo),就說(shuō)不通了。這一事實(shí)彰顯了句本位思想和中心詞分析法在語(yǔ)言學(xué)意義上的廣義性和生命力。
樹庫(kù)的一個(gè)重要價(jià)值在于樹庫(kù)語(yǔ)法(treebank grammars)對(duì)自動(dòng)句法分析所作出的巨大貢獻(xiàn)。在這一領(lǐng)域,中心語(yǔ)(詞)在改進(jìn)PCFG句法分析器的精度中發(fā)揮了重要作用,也從一個(gè)側(cè)面表現(xiàn)出中心詞分析法在現(xiàn)代語(yǔ)言科技中仍然充滿了活力。
Co llins⑤M.Collins.A new statistic parser based on bigram lexical dependency,ACL-1996.在他的統(tǒng)計(jì)型詞例化句法分析器中充分利用了基本名詞短語(yǔ)(baseNP)的中心詞以及詞語(yǔ)之間的依存概率,使其句法分析的召回率和精確率的調(diào)和平均值F在賓州樹庫(kù)的測(cè)試集上首次達(dá)到了86.1%。Collins把非嵌套的名詞短語(yǔ)定義為基本名詞短語(yǔ)。在圖4(a)中我們用方括號(hào)示出圖1(a)例句S的基本名詞短語(yǔ)B,并用黑體表示該基本名詞短語(yǔ)的中心詞。下一步,Collins用這些中心詞來(lái)替代原來(lái)的基本名詞短語(yǔ),得到如圖4 (b)所示的經(jīng)過(guò)簡(jiǎn)約的句子S’。圖4(c)是這個(gè)句子簡(jiǎn)約后的依存結(jié)構(gòu)D。
值得注意的是,Collins不僅用基本名詞短語(yǔ)的中心詞來(lái)替換該基本名詞短語(yǔ),而且用簡(jiǎn)約后的句子來(lái)估計(jì)和考察詞語(yǔ)對(duì)的依存概率。Collins是一位在統(tǒng)計(jì)型詞例化句法分析模型上作出過(guò)重要貢獻(xiàn)的學(xué)者,他采用的上述句子簡(jiǎn)約方法,并非來(lái)自轉(zhuǎn)換生成語(yǔ)法的經(jīng)典理論,而是創(chuàng)造性地運(yùn)用了傳統(tǒng)語(yǔ)法的中心詞思想。
圖4 (a)基本名詞短語(yǔ)B;(b)簡(jiǎn)約句S’;(c)詞語(yǔ)依存關(guān)系D(Collins,1996)
小結(jié):在1981-1982年國(guó)內(nèi)析句方法的討論中①華萍:《評(píng)“暫擬漢語(yǔ)教學(xué)語(yǔ)法系統(tǒng)”》,《中國(guó)語(yǔ)文》1981年第6期,收入《中國(guó)語(yǔ)文》雜志社編:《漢語(yǔ)析句方法討論集》,上海:上海教育出版社,1984年版,第1-19頁(yè)。史存直:《句子結(jié)構(gòu)和結(jié)構(gòu)主義的句子分析》,《中國(guó)語(yǔ)文》1981年第2期,收入《中國(guó)語(yǔ)文》雜志社編:《漢語(yǔ)析句方法討論集》,上海:上海教育出版社,1984年版,第28-41頁(yè)。,黎先生的中心詞分析方法曾備受指責(zé),其中一個(gè)給人印象深刻的例子就是“于福的老婆是小芹的娘”,經(jīng)過(guò)主、賓語(yǔ)中心詞緊縮后,成了“老婆是娘”,似乎很可笑。其實(shí),既然是句法分析方法,就應(yīng)當(dāng)首先肯定緊縮后的句型——“N是N”是一個(gè)極其常用的漢語(yǔ)句型,而不必強(qiáng)求緊縮前后的句子在語(yǔ)義上是否維持不變,因?yàn)檫@不是句法關(guān)注的焦點(diǎn)。張志公先生對(duì)這種討論問(wèn)題的方式也提出了批評(píng),他說(shuō):“‘中心’本來(lái)就是在‘整體’中存在的,沒(méi)有‘整體’也就無(wú)所謂‘中心’?!阎行脑~連帶著的詞統(tǒng)統(tǒng)拿掉,剩下來(lái)的就只是一個(gè)‘詞’,不是‘中心詞’了”②張志公:《分歧點(diǎn)和交叉點(diǎn)——分析句子問(wèn)題瑣談》,《中國(guó)語(yǔ)文》1981年第6期,收入《中國(guó)語(yǔ)文》雜志社編:《漢語(yǔ)析句方法討論集》,上海:上海教育出版社,1984年版,第192-204頁(yè)。。Collins用句子中基本名詞短語(yǔ)的中心詞來(lái)替換該基本名詞短語(yǔ),而且用簡(jiǎn)約后的句子來(lái)估計(jì)詞語(yǔ)對(duì)的依存概率。應(yīng)當(dāng)說(shuō),這是中心詞析句法和緊縮法在自動(dòng)句法分析系統(tǒng)中的創(chuàng)新應(yīng)用,不是什么荒誕可笑的想法。
如上所述,黎錦熙先生創(chuàng)導(dǎo)的句本位、三個(gè)層次(主-謂、賓-補(bǔ)、定-狀)、六大句法成分和中心詞析句方法是一些非常基本的語(yǔ)法思想,迄今依然可以在世界各國(guó)的樹庫(kù)建設(shè)和各種自然語(yǔ)言處理的研究中看到它們的廣泛應(yīng)用。它們作為中學(xué)語(yǔ)法教學(xué)的知識(shí)點(diǎn)也不會(huì)過(guò)時(shí)。正是黎錦熙的《新著國(guó)語(yǔ)文法》奠定了漢語(yǔ)教學(xué)語(yǔ)法的基礎(chǔ)。這些樸素的傳統(tǒng)語(yǔ)法思想在印歐語(yǔ)言的中學(xué)母語(yǔ)語(yǔ)法教學(xué)中至少流行了二百年以上,是不可能輕易被撼動(dòng)的。
其實(shí),我國(guó)解放后中學(xué)語(yǔ)法教學(xué)的內(nèi)容和課時(shí)一直存有爭(zhēng)議。一方面,語(yǔ)法和文學(xué)爭(zhēng)課時(shí);另一方面,語(yǔ)法教學(xué)的內(nèi)容和體系也不斷受到外界求新求變的壓力。在1981-1982年那場(chǎng)全國(guó)漢語(yǔ)析句方法的討論中,一部分學(xué)者企圖用所謂“科學(xué)性”的名義把中心詞分析法(又稱句成分分析法)批倒,而用直接成分分析法(又稱層次分析法)取而代之。雖然這一訴求得逞于一時(shí),但經(jīng)不起我國(guó)中學(xué)語(yǔ)文課教學(xué)的考驗(yàn)③胡明揚(yáng):《現(xiàn)代漢語(yǔ)的開創(chuàng)性著作——〈新著國(guó)語(yǔ)文法〉的再認(rèn)識(shí)和再評(píng)價(jià)》,《語(yǔ)言科學(xué)》2002年1(1)期,第92-101頁(yè)。。這也許說(shuō)明,“暫擬漢語(yǔ)教學(xué)語(yǔ)法系統(tǒng)”在被迫倉(cāng)促做出修訂之后,中學(xué)語(yǔ)法教學(xué)的難度和課時(shí)都有所膨脹;而物極必反,引發(fā)了新一輪的語(yǔ)法和文學(xué)的課時(shí)之爭(zhēng),這一次看來(lái)是文學(xué)占了上風(fēng)。
如果我們要從1981-1982年那場(chǎng)析句方法的討論中吸取一點(diǎn)教訓(xùn)的話,那么以下三點(diǎn)可以供大家參考:
(1)中學(xué)語(yǔ)法教學(xué)的內(nèi)容和方法必須經(jīng)過(guò)長(zhǎng)期教學(xué)實(shí)踐的考驗(yàn),要有一個(gè)穩(wěn)定的教學(xué)大綱,幾十年不變;
(2)一般而言,語(yǔ)言學(xué)理論研究的成果不能簡(jiǎn)單地取代中學(xué)語(yǔ)法教學(xué)中行之有效的觀念與方法,因?yàn)榕囵B(yǎng)杰出的語(yǔ)言學(xué)家從來(lái)不是中學(xué)語(yǔ)法教學(xué)的目標(biāo);
(3)在語(yǔ)言學(xué)的討論中,應(yīng)該多一些寬容,慎用“科學(xué)性”一類的標(biāo)準(zhǔn),因?yàn)橹两裎覈?guó)語(yǔ)言學(xué)中的大部分思想和方法尚未經(jīng)過(guò)真正意義上的科學(xué)驗(yàn)證。提倡寬容,也不是只說(shuō)好話,而是倡導(dǎo)實(shí)事求是、與人為善。相信這一態(tài)度有助于繁榮我們的學(xué)術(shù)。
(責(zé)任編輯 宋媛 責(zé)任校對(duì) 宋媛 劉偉)
L ife Force of Sentence-Based Syntax and Head-Driven Sentence Analyzing Method:A View from Treebanking
HUANG Chang-ning1;L IYu-mei2
(1.Microsoft Research Asia,Beijing 100180;2.Tsinghua University,Beijing 100084,China)
Treebank is a text co rpus w ith syntactic annotation.It records the syntactic tree,i.e.the syntactic parse,of every sentence in running texts.Since 1990s,automatic parsing of natural languages has again become the focusof the international community of computational linguistics,and one of the crucial reasons is the realization of the Penn Treebank (PTB).The perfo rmances of statistical parsers,w hich are based on automatically induced Probabilistic Context-Free Grammar(PCFG),outperform significantly those rule-and unification-based parsers.A Treebank of any language in the wo rld,rep resented w ith either phrase structures o r dependency structures,takes sentence as its basic description unit.Dependency Grammar is a lexicalized grammar;it denies the notion of phrase structures and describes only the variouswo rdwo rd relations in a sentence,in w hich the head-word is the dominant of a given relation,and the other word of the wo rdpair at stake is the dependentof the head.Dependency Grammar creates a transparent interface between the dependency syntax and semanticsof a language.Thispaper highly estimates the life fo rceof the sentence-based syntax and the head-driven sentence analyzing method advocated by Jinxi Li,because they have no t only dominated grammar teaching in middle schoolsmore than half century before and after the foundation of the Peop le’s Republic of China,but also guides the treebanking p ractice today.
sentence-based syntax;head-driven sentence analyzing method;Treebank;automatic parsing
H146
A
1002-0209(2010)05-0053-06
2010-06-24
黃昌寧,清華大學(xué)計(jì)算機(jī)系,教授;微軟亞洲研究院,高級(jí)顧問(wèn)。