摘 要:組塊分析是一種新的句法分析思路和策略,側(cè)重于解決底層歧義問題。文章歸納分析了組塊分析的不同任務和研究方法,指出統(tǒng)計和規(guī)則方法相結(jié)合常常能取得更好的效果,但基本名詞短語,最長名詞短語等相對較大的語塊的識別效果仍然不能令人滿意。未來需要考慮如何將語言學特征融入統(tǒng)計機器學習,并且更好地將統(tǒng)計和規(guī)則方法結(jié)合起來。
關鍵詞:組塊 句法分析 綜述
一、引言
句法分析是中文信息處理領域諸多應用技術的基礎,如機器翻譯、人機對話系統(tǒng)等。但傳統(tǒng)的完全句法分析技術在處理大規(guī)模真實語料時遇到了較大的困難,正確率徘徊在70%~80%左右。在今天詞法分析已經(jīng)能夠基本達到應用要求的情況下,句法分析技術已經(jīng)成為制約中文信息處理技術發(fā)展的瓶頸。
20世紀90年代中后期,國內(nèi)引進英語淺層句法分析的思想,展開了組塊識別與分析研究。由于底層句法歧義在很大程度上影響了句法分析的效果,淺層句法分析主張從識別句子中某些簡單的組塊開始,在充分化解底層歧義的基礎上,逐步完成句法分析的任務。它把一個句子的完整分析過程劃分為三個部分:組塊識別、組塊間依存關系的識別以及組塊內(nèi)部的結(jié)構(gòu)分析,并著力于組塊的識別和內(nèi)部結(jié)構(gòu)分析。組塊分析是句法分析技術的進步,特別適合于分析缺乏形態(tài)變化,底層歧義較多的漢語句子,成為漢語句法分析技術的重要發(fā)展趨勢。
二、系統(tǒng)性的組塊分析研究
組塊分析是自然語言處理一個新興的研究課題。它起源于上世紀80年代末90年代初國外關于組塊(chunk)的研究。
組塊分析可以分為單一組塊分析和一般組塊分析。單一組塊主要研究基本名詞塊或基本名詞短語的識別分析問題。一般組塊擴展了研究范圍,研究多個(實)語塊的識別分析問題,可以稱為系統(tǒng)性的組塊分析。上世紀90年代中后期,國際上展開了對基本塊的全面識別研究。
(一)英語組塊分析研究
早期的系統(tǒng)性組塊分析主要采用基于規(guī)則的方法,包括基于簡單規(guī)則,基于轉(zhuǎn)換的錯誤驅(qū)動的方法和基于有限狀態(tài)機的方法,取得了一定的效果。
Abney(1991)最先提出和界定了組塊概念,并從理論解釋和心理學實驗上證實了組塊是句法的基礎單位,具有心理現(xiàn)實性,并正式提出基于組塊的分析方法,構(gòu)造了一個基于規(guī)則的分析系統(tǒng),先進行組塊識別和系聯(lián)分析,化解底層歧義,以進一步達到部分乃至完全句法分析的目的。
Ramshaw & Marcus(1995)采用了基于轉(zhuǎn)換的錯誤驅(qū)動的學習方法進行組塊識別。該方法將短語識別問題轉(zhuǎn)化為位置標注問題,兼具統(tǒng)計方法和規(guī)則方法的優(yōu)點。系統(tǒng)首先對文本進行初始標注,比較初始標注結(jié)果和正確答案,同時定義轉(zhuǎn)換規(guī)則空間(包括觸發(fā)條件和轉(zhuǎn)換動作),并結(jié)合錯誤情況形成候選轉(zhuǎn)換規(guī)則,然后遍歷規(guī)則空間中的每一條規(guī)則,用評價函數(shù)對候選規(guī)則打分,挑選出得分最高的一條規(guī)則,送入有序規(guī)則庫,并應用該規(guī)則對當前標注結(jié)果進行刷新,然后再根據(jù)轉(zhuǎn)換規(guī)則空間和錯誤情況添加新的候選轉(zhuǎn)換規(guī)則。學習過程循環(huán)進行,直到?jīng)]有規(guī)則能使評價函數(shù)高于一定閾值。組塊識別采用學習得到的有序規(guī)則集進行標注。該方法的一個好處是系統(tǒng)的分析能力和識別結(jié)果易于解釋。
Abney(1996)提出有限狀態(tài)疊(Finite State Cascade)的方法,其基本思想是將句法分析的過程分成多個層次,每一層級上的短語只能建立在前一級的基礎上,在每個層次內(nèi)部,使用簡單的有限狀態(tài)自動機進行分析。分析過程包括一系列狀態(tài)轉(zhuǎn)換。每一個轉(zhuǎn)換定義為一個模式的集合,每一個模式是由一個句法范疇符號和一個正則式構(gòu)成的產(chǎn)生式。正則式可轉(zhuǎn)換為有限狀態(tài)自動機,從而在某一層產(chǎn)生一個單一的、確定的有限狀態(tài)層次識別器Ti,它以Li-1級的輸出為輸入,并產(chǎn)生Li作為輸出。在模式匹配過程中,如遇到?jīng)_突,按最大匹配原則選擇合適的模式。
自然語言學習國際會議(CONCLL-2000)正式提出語塊共享任務,定義了英語的11種基本語塊,包括NP,VP,PP,ADJP,ADVP,CONJP等。基于規(guī)則的方法和基于統(tǒng)計的方法在此次任務中得到廣泛的應用,特別是基于統(tǒng)計的方法占據(jù)了主流,如隱馬爾可夫方法,最大熵方法,支持向量機方法,等等。其中,分類器集成成為普遍采納的一種策略,并且取得了良好的效果。
自然語言學習國際會議(CONCLL-2001)將組塊分析任務推廣到更大塊——小句(Clause)的識別。與組塊識別任務不同,由于小句結(jié)構(gòu)的復雜性和嵌套性,任務被分解為三個部分:左邊界的識別、右邊界的識別和左右邊界的配對。英語小句識別任務與漢語最長名詞短語識別任務具有一定程度的相似性,漢語名詞短語中常見的“的”、指示詞等可以作為關系從句的標記,構(gòu)造關系從句。此后,組塊識別進一步應用到句法語義領域,如自然語言學習國際會議(CONCLL-2002)提出的語義角色標注任務。
(二)漢語組塊分析研究
上世紀90年代以來,國內(nèi)引入組塊分析的思想,在漢語短語層面展開了廣泛的研究,主要見于短語的邊界識別、短語內(nèi)部的結(jié)構(gòu)分析等方面。
劉芳、趙鐵軍等(2000)將組塊界定為包含一層或者兩層符合一定句法功能和反映組成意義的短語,并定義了8種組塊類型,采用增強的馬爾科夫模型與基于錯誤驅(qū)動的轉(zhuǎn)換的方法對漢語組塊進行了識別研究。
周強(2001,2007a)通過引入詞匯關聯(lián)信息,為缺乏形式標記的漢語尋找內(nèi)聚性判定標準,提出了基于拓撲結(jié)構(gòu)的漢語基本塊的描述體系,確立了句法和關系標記集。其中,基本拓撲結(jié)構(gòu)包括三種:左角中心結(jié)構(gòu)、右角中心結(jié)構(gòu)和鏈式關聯(lián)結(jié)構(gòu);句法標記集包括7種:NP,VP,AP,DP,MP,TP,SP?;就負浣Y(jié)構(gòu)對基本塊中的多詞表達(MWC)內(nèi)部依存關系進行分析,建立了句法關系和語義內(nèi)容(詞匯關聯(lián))的橋梁。在應用實踐上,張昱琪、周強(2002)應用基于實例的MBL學習方法,對漢語中較為常見的9種基本短語進行了識別研究。
周強等(2007b)進一步研究了漢語功能塊的自動分析問題,界定了主語、謂語、賓語、狀語、兼語、補語、語氣、獨立語等8種功能塊類型,并提出了邊界識別模型和序列標注模型進行計算模擬。陳億、周強等(2008)進一步將功能塊推廣到多層級層面,統(tǒng)計表明,多層級的功能塊具有結(jié)構(gòu)簡單、長度短且分布均勻的優(yōu)點,有利于提高分析器的性能。我們認為,復雜塊的多層次化是由句法遞歸特性決定的,在解決基本塊問題之后,多層次的塊分析機制是需要進一步考慮的問題。
李素建(2002)定義了12種組塊類型,以線性方式覆蓋了語料中所有的切分單位,并采用最大熵模型、有限狀態(tài)自動機和基于錯誤轉(zhuǎn)換相結(jié)合的方法進行組塊分析,取得了良好效果,文章還進一步討論了組塊相似度計算的相關問題。
組塊分析作為一種新的研究思路,受到學術界的廣泛關注。漢語作為一種缺乏形式標記的語言,其組塊界定的理論基礎仍然值得進一步研究;組塊分析中,統(tǒng)計方法占據(jù)了主流,但統(tǒng)計與規(guī)則相結(jié)合常常能夠取得更好的效果;基本塊的研究已經(jīng)取得一定成果,在基本塊分析的基礎上,我們需要進一步研究如何處理多層次、大顆粒度的組塊。
三、基本名詞短語識別與分析
基本名詞短語是最復雜的組塊類型之一,是組塊中長度最長、識別精度最低的組塊,也是組塊分析的重點問題。
在英語方面,基本名詞短語的識別與分析主要采用統(tǒng)計機器學習的方法,該方法將識別問題轉(zhuǎn)換為分類問題,為了進一步提高識別效果,研究者常常使用多個分類器,并將按照一定的方法將識別結(jié)果融合起來,稱為多分類器融合。多分類器融合的方法常常能夠提高識別效果,但是識別結(jié)果的可解釋性較差。
Tjong Kim Sang(2000a,2000b)分別采用了兩種不同的集成方法識別基本名詞短語。一種方法是MBL系統(tǒng)內(nèi)集成,采用不同的標記集(IOB1,IOB2,IOE1,IOE2,O+C)構(gòu)造基本分類器,另一種方法是系統(tǒng)間集成,采用MBL等7個分類器作為基本分類器,并測試了不同的融合策略。在標準測試集上F1值較前人研究分別取得了0.5%和0.6%左右的提高。
Taku Kudo(2001)以SVM作為分類器,采用分類器集成的方法識別基本名詞短語?;痉诸惼鞯臉?gòu)造采用了多種方式,如采用不同的標記集,不同的分析方向,以及不同的投票方式等。實驗對基本名詞短語進行了獨立評測,在標準測試集上較Tjong Kim Sang(2000b)的工作提高了0.4%左右。
在漢語方面,基本名詞短語的識別分析以統(tǒng)計方法和統(tǒng)計機器學習方法為主,同時嘗試了多種不同的基于規(guī)則和理解的方法。
趙軍(1998)以漢語“區(qū)別性定語、描寫性定語和限定性定語”的定語語序為理論依據(jù),將基本名詞短語定義為限定性定語和中心語的組合形式,提出baseNP句法組成模板與N元模型相結(jié)合的概率識別模型、基于轉(zhuǎn)換的識別模型和基于中心詞潛在依存關系的結(jié)構(gòu)分析模型。該研究以語言距離為基礎界定組塊,符合認知上的規(guī)律,特別適合缺乏標記的漢語組塊界定。
張瑞霞、張蕾(2004)提出了基于知識圖的漢語基本名詞短語分析模型,以《知網(wǎng)》為語義知識資源,采用以語義為主、語法為輔的策略,先為短語中的每一個實詞構(gòu)造“詞圖”,然后合并“詞圖”為“短語圖”,從而得到一個關于結(jié)構(gòu)和語義信息的知識圖,達到分析內(nèi)部句法關系和語義關系的目的。這種方法可以看作是基于理解的方法。
徐昉、宗成慶等(2007)在賓州樹庫上采用基于錯誤驅(qū)動的組合分類方法識別漢語基本名詞短語。通過對比兩種不同類型的分類器,基于轉(zhuǎn)換的方法和條件隨機場方法的分類結(jié)果,利用支持向量機學習其中的錯誤規(guī)律,對兩分類器產(chǎn)生的不同結(jié)果進行糾錯,從而達到提高系統(tǒng)整體性能的效果。文章還比較了條件隨機場和支持向量機的識別效果。結(jié)果顯示,兩種模型的效果相近,支持向量機稍勝出。我們認為,模型識別效果的差異受到多種因素的影響,與對象界定、參數(shù)設定都有關系。
徐艷華(2008)根據(jù)語法功能完全相同即為一類的原則,對3514個高頻實詞進行語法功能考察,分為676類,建立了漢語詞類體系?;久~短語識別以該體系為依據(jù),將實例中的詞語序列轉(zhuǎn)換成相應的類標記序列,并與句法規(guī)則庫對照確定序列內(nèi)部的句法關系。通過考察10081個“v+n”序列實例,總結(jié)出2066條句法規(guī)則。在判斷該序列是否基本名詞短語實驗中,按照組合模式和實例數(shù)統(tǒng)計,準確率分別為70.7%和71.3%。該研究顯示了語言知識細化對于解決句法問題的作用。
可以看出,盡管統(tǒng)計機器學習方法在基本名詞短語識別任務中占據(jù)了主流,但不乏理性主義的方法,兩者各有優(yōu)點。前者多能取得較好的效果。多分類器融合的方法能夠進一步提升識別效果,但提升幅度較為有限;后者的可解釋性更強,也有非常好的提升潛力,因為語言序列本質(zhì)上是結(jié)構(gòu)問題。
四、最長名詞短語識別與分析
最長名詞短語的相關研究包括最長名詞短語子集和鄰近集合的識別和嚴格的最長名詞短語的識別兩個部分。
在英語方面,大多數(shù)研究屬于前者。Voutilainen(1993)的名詞短語獲取工具NPTool,采用基于限制的文法進行詞語的句法功能標注,消解詞語級歧義,并利用兩種有限狀態(tài)分析機制(NP-否定傾向機制和NP-肯定傾向機制)來發(fā)現(xiàn)文本中可能存在的最長名詞短語,最后使用正確表達式抽取最長名詞短語。NPTool識別的最長名詞短語包括了介詞和連詞,但不包括“that”引導的定語從句。
臺灣的Kuang-huaChen(1994)等人將名詞短語分為最短名詞短語、最長名詞短語、一般名詞短語以及可應用名詞短語,并指出最短語名詞短語、可應用名詞短語與最長名詞短語之間具有相當?shù)闹丿B率。文章利用統(tǒng)計分塊(chunking)和有限狀態(tài)分析相結(jié)合的方法來發(fā)現(xiàn)句子中的各類名詞短語,總體正確率達到95%,其中,最長名詞短語召回率達到70%。
在漢語方面,大多數(shù)研究屬于后者。李文捷(1995)構(gòu)造了兩個邊界概率矩陣:左邊界概率矩陣和右邊界概率矩陣,識別最長名詞短語的左右邊界,并基于最大長度匹配和最大概率配對的不同策略識別最長名詞短語,開放測試取得了71.3%正確率。實驗表明,不同的匹配方式對于識別的影響不大。
周強、孫茂松等(2000)全面分析了最長名詞短語的分布特點,提出了兩種有效的漢語最長名詞短語自動識別算法:基于邊界分布概率的識別算法和基于內(nèi)部結(jié)構(gòu)組合的識別算法。后者在邊界預處理的基礎上,確立基本組合成分,發(fā)現(xiàn)最長名詞短語的右邊界,并向左迭代組合,形成新的最長名詞短語,取得了85.4%的正確率和82.3%的召回率。實驗表明,長度大于等于5的復雜最長名詞短語的識別精度比簡單最長名詞短語低16%個百分點。復雜最長名詞短語識別精度較低的原因還值得進一步考慮。從語法上說,由于句法關系較為復雜的“的”字短語參與了部分最長名詞短語的構(gòu)成,也會使得識別難度增大,而這部分最長名詞短語的長度也是較大的。
在周強、孫茂松等(2000)工作的基礎上,馮沖、陳肇雄等(2006)從機器翻譯的實用目的出發(fā),使用條件隨機場模型識別復雜最長名詞短語。模型選用了當前及左右三個位置的詞和詞性,及其組合形式作為特征,并提供了置信度用于人機交互。實驗從訓練語料中隨機選取了部分語料進行測試,取得了75.4%的正確率和70.6%的召回率;經(jīng)過人工干預,系統(tǒng)能夠取得更好的效果。
代翠(2009)使用條件隨機場模型以及針對開放測試語料的錯誤驅(qū)動的后繼規(guī)則修正辦法識別最長名詞短語。規(guī)則部分處理了漏識,固定搭配,簡單并列結(jié)構(gòu)等5種情況。實驗基于哈工大漢語樹庫進行,隨機抽取6330個句子作訓練,1000個句子作測試,基于規(guī)則后繼修正的方法具有較明顯的效果。之后采用層疊條件隨機場模型對最長名詞短語進行分析,分析策略與Abney的有限狀態(tài)疊類似,只是每一層級上的短語由條件隨機場模型而非有限狀態(tài)自動機進行識別,實驗取得了85.1%的分析正確率。
鑒萍、宗成慶(2009)認為最長短語,包括最長名詞短語和介詞短語,左部和右部具有不同的語言學特征,并且最長名詞短語右部特征更明顯。文章選擇支持向量機識別最長短語,認為基于支持向量機的標注模型作為確定性模型,能夠更好地利用最長名詞短語的右部特征,如:中心詞,“的”等,指導左部邊界的識別。實驗表明,最長名詞短語的反向掃描策略的識別效果明顯優(yōu)于正向掃描。文章還進一步利用雙向識別的互補性,提出基于分歧點的分類器集成方法,提高了識別效果。
錢小飛(2015)分析了最長名詞短語的結(jié)構(gòu)和線性特征,指出統(tǒng)計機器學習模型的觀察窗口有限,導致識別特征難以使用,并提出了一種基于歸約的最長名詞短語識別方法,該方法首先識別基本名詞短語,歸約為中心詞,并保留其起始句法特征,使得模型的觀察范圍大大拓展,將識別的F值提高了1%。
綜上可見,統(tǒng)計機器學習方法仍然是基本名詞短語和最長名詞短語識別的主流方法。多分類器集成策略開始得到應用。一些研究注意到名詞短語的語言學特征,這些特征在規(guī)則方法中應用廣泛。但是,作為一種復雜短語的識別,如何將語言學特征融入統(tǒng)計機器學習,并且更好地將統(tǒng)計和規(guī)則方法結(jié)合起來,仍然值得進一步研究。
五、結(jié)語
組塊分析作為一種新的分析技術,著眼于簡單語塊的分析,在一定程度上緩解了底層歧義問題,有利于句法分析的發(fā)展。另一方面,組塊分析仍然沒有達到令人滿意的地步,特別是基本名詞短語,最長名詞短語等相對較大的語塊,識別精度仍然不夠。未來我們需要進一步考慮,哪些結(jié)構(gòu)是適合進行組塊分析的,如何將語言學特征融入統(tǒng)計機器學習,并且更好地將統(tǒng)計和規(guī)則方法結(jié)合起來。
參考文獻:
[1]Chen Kuang-hua,C.,&Chen; Hsin-hsi,C.Extracting
noun phrases from large-scale texts:a hybrid approach and its automatic evaluation[A].Proceedings of the 32nd Annual Meeting of Association of Computational Linguistics,1994:234-241.
[2]Ramshaw,L.,Marcus,F(xiàn).Text chunking using
transformational-based learning[A].Proceedings of the Third Workshop on Very Large Corpora,1995.
[3]Steven Abney.Parsing by chunks[A].Principle-
Based Parsing:Computation and Psycholinguistics,1991b:257-278.
[4]Abney,S.Partial Parsing via Finite-
State Cascades[A].Proceedings of the ESSLLI'96 Robust Parsing Workshop,1996.
[5]Kudo,T.,& Matsumoto,Y.Chunking with support
vector machines[A].Meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies,2001,(9):1-8.
[6]Tjong Kim Sang.Noun phrase recognition by
system combination[A].Proceedings of the ANLP-NAACL,2000a:50–55.
[7]Tjong Kim Sang,EF.Applying system combination
[A].to base noun phrase identification.Proceedings of COLING 2000,2000b:857-863.
[8]Voutilainen,A.NPTool:a detector of English
noun phrases[A].Proceedings of the Workshop on Very Large Corpora:Academic and Industrial Perspectives,1993:48-57.
[9]陳億,周強.分層次的漢語功能塊描述庫構(gòu)建分析
[J].中文信息學報,2008,(3):24-31.
[10]代翠.漢語最長名詞短語的自動識別與分析[D].
沈陽:沈陽航空工業(yè)學院碩士學位論文,2009.
[11]鑒萍,宗成慶.基于雙向標注融合的漢語最長
短語識別方法[J].智能系統(tǒng)學報,2009,(5):406-413.
[12]李素建.組塊計算的若干研究[D].北京:中國科
學院計算技術研究所博士學位論文,2002.
[13]李文捷,周明等.基于語料庫的中文最長名詞短
語的自動提取[A].陳力為,袁琦主編.計算語言學進展與應用.北京:清華大學出版社,1995:119-124.
[14]劉芳,趙鐵軍等.基于統(tǒng)計的漢語組塊分析[J].
中文信息學報,2000,(6):28-32.
[15]錢小飛.基于歸約的漢語最長名詞短語識別方法
[J].中文信息學報,2015,(2).
[16]徐昉,宗成慶.中文BaseNP識別:錯誤驅(qū)動的組
合分類器方法[J].中文信息學報,2007,(1).
[17]徐艷華.基于語料庫的基本名詞短語研究[J].語
言文字應用,2008,(1).
[18]張瑞霞,張蕾.基于知識圖的漢語基本名詞短語
分析模型[J].中文信息學報,2004,(3):47-53.
[19]張昱琪,周強.漢語基本短語的自動識別[J].中
文信息學報,2002,(6):1-8.
[20]趙軍.漢語基本名詞短語識別及結(jié)構(gòu)分析[D].北
京:清華大學博士學位論文,1998.
[21]周強,孫茂松,黃昌寧.漢語最長名詞短語的自
動識別[J].軟件學報,2000,(2):195-201.
[22]周強.漢語基本短語的標注規(guī)范.清華大學計算機
系智能技術與系統(tǒng)國家重點實驗室技術資料,2001,(4).
[23]周強.漢語基本塊描述體系[J].中文信息學報,
2007a,(3):21-27.
[24]周強.漢語功能塊自動分析[J].中文信息學報,
2007b,(5):18-24.