高東平
(中國醫(yī)學科學院醫(yī)學信息研究所,北京 100020)
基于類型論的漢語分詞系統TTCS
高東平
(中國醫(yī)學科學院醫(yī)學信息研究所,北京 100020)
針對漢語分詞中的未登錄詞識別和歧義消除這兩個瓶頸問題和目前方法的不足,將類型論的思想引入到漢語分詞領域中,提出了類型匹配模型,以類型論函數貼合為主要算法,融合了全切分、統計,前后綴識別信息等多種技術手段,將分詞、未登錄詞識別、歧義消除,詞典的動態(tài)擴充有機的融合到一個統一的理論模型當中。在此理論框架的基礎上,最后實現了基于類型論的漢語分詞系統TTCS。
類型匹配;漢語分詞;歧義消除;未登錄詞;類型論
眾所周知,歧義和未登錄詞是漢語分詞的兩大瓶頸。從1983年第一個實用分詞系統CDWS[1]的誕生至今,國內外的研究者對漢語分詞中的這兩個問題進行了廣泛的研究。從眾多研究方法來看,多數是針對其中之一進行的研究。例如,針對歧義問題,有基于規(guī)則的方法[2-3],也有針對某一類歧義的處理,如引入向量空間解決組合歧義問題[4],用條件隨機域的方法處理組合歧義問題[5]等。對于未登錄詞識別的研究,主要的出發(fā)點是綜合利用未登錄詞內部構成規(guī)律及其上下文信息。未登錄詞識別處理的對象主要是人名、地名、譯名和機構名等命名實體。
在現有的研究中,對于分詞算法、切分排歧和未登錄詞識別的解決方案多數是相對獨立進行的。只有少數學者給出相對統一的模型框架將三者進行有機的融合[6-7]。
本文借鑒類型論的思想,針對漢語的特點,對漢語類型重新進行設計,并在此基礎上提出了一種基于類型匹配的模型,旨在將歧義消除、未登錄詞識別、詞典動態(tài)擴充等任務融合到一個相對統一的理論模型中。在我們的分詞系統中,詞典中的每個詞不再標注其詞性,而是標注類型。通過句子類型匹配和短語類型匹配模型可以計算尋找出恰當的切分。在文章的第一部分我們描述了TTCS系統的流程,給出了類型與規(guī)則的設計,并對設計背后的動機進行了詳細闡釋;在第二部分我們介紹了在類型論框架下,歧義和未登錄詞識別的解決方案;文章最后對此系統的設計進行了總結和討論。
基于類型邏輯的漢語分詞系統(TTCS)的基本設計流程如圖1。
類型邏輯語義學主要是指蒙太格語法的內涵類型邏輯。蒙太格把范疇語法與內涵類型邏輯聯系在一起,通過句法范疇到邏輯類型的映射給范疇語法的句法分析提供了嚴格的模型論語義解釋[8]。以蒙太格語義學為代表的邏輯語義學把語句的句法分析和語義解釋看成是同構的。即認為詞的組合成句及其語義的模型論解釋有著一一對應的關系,也就是說,語義解釋是從句法代數到語義代數的同構映像。類型論使得這種同構映像成為可能[9]。從邏輯的觀點看,語句S的兩個關鍵成份為謂詞和論元。較簡單的語句的謂詞僅含單個動詞或形容詞,論元僅由專名充當。從外延的角度看,專名指稱個體(在類型論中記作e),語句指稱真值(記作t),謂詞指稱個體的集合[10]。在類型論中,如果把e和t設定為基本類型,則其它較復雜的類型都可以根據以下定義得到:
定義1[10]:類型的集合S是最小集,使得:
(1)e,t∈S;
(2)如果a,b∈S,那么ab∈S;
(3)此外,S中不包含其他元素。
其中,e,t為基本類型,e代表個體,t代表真值。
(2)中的a﹑b可以是基本類型,也可以是復雜類型。這樣,謂詞可以通過e和t來間接定義。
圖1 TTCS流程圖
將上述類型與具體的詞匯及其邏輯表達式相匹配,可以得出一些結構較為簡單的語句的組合過程。例如:“John Walks.”
漢語的句法結構有其特殊的地方。再加上考慮到漢語分詞系統設計的實際情況,我們需要將類型重新定義。在這一小節(jié),我們將給出漢語的類型設計,以及在后文計算中用到的相關概念。
定義2:漢語類型的集合S是最小集,使得:
(1)e和t為基本類型;f為輔助類型;
(2)如果a,b為輔助類型之外的類型,則(ab)為類型。
(3)如果a,b之中存在輔助類型,若a,b之間存在匹配規(guī)則,則(ab)為類型。
其中f={f1,f2,f3,n,q,p,s,x}。其中,f1,f2,f3主要指函數類型;x類型主要包括助動詞,嘆詞,擬聲詞,助詞,語氣詞等,n指數詞;q指量詞;p,s分別指前、后綴。
定義3(函數貼合):令g是類型為ab的表達式,如果(是類型為a的表達式,那么g(a),g(b)分別是類型為b和a的表達式。
定義4:一個句子是真歧義的當且僅當有兩種不同的切分方式使得每一種類型函數貼合后的結果都是t。
定義5:一個切分是正確的,當且僅當存在一種貼合方式使得類型函數貼合的最后結果是t。一個切分是可接受的當且僅當它存在一種貼合方式可以得到一個類型函數貼合結果。
表1中每一種類型設計都是語言學知識的體現。例如:趨向動詞(分為簡單趨向動詞(上,下,來,去)和復雜趨向動詞(起來,出去)),它們既可以單獨做謂語,也可以在別的動詞或形容詞后作趨向補語。故我們將其類型設計為:et(et),et類型。
更多的類型設計參見筆者的前期研究成果[11-12]。
表1 TTCS中的類型設計
在類型邏輯的經典階段,它是通過對基本表達式指派一個或多個范疇組成,來使被計算的函數-論元組合匹配實際的語法字串。然而,由于自然語言是非常靈活的,同一個詞在不同語句中的作用,在不同語句中的詞性顯然不盡相同。為了處理眾多語言學中的問題,后來的很多學者,已經有了諸多不同的提議,如增加類型改變的范疇機制,或者是增加類型組合的更多的模式等。這是至今為止,大量文獻里普遍采用的方法,例如,Geach為了說明否定的多態(tài)性,引入了他的遞歸規(guī)則,來提升基本類型tt為((et)(et))(不及物動詞否定),((e(et))(e(et)))(及物動詞否定)[13]。此種相同的改變也可以解釋非常不同的事實,比如在及物動詞接受復雜的命題短語對象時遇到的人所共知的困難[14]:
這在基本的框架下是沒有函數貼合規(guī)則可以實現的。Geach的解決方式是讓直接對象表達式“適應語境”[14]:
其他很多的類型改變規(guī)則也已經因為句法和詞法的需要而被提出。
但是與這種傳統的研究路線不同,我們在設計TTCS系統時,采用每個詞進行多類型指派的方法,而不采用類型改變方法來解決自然語言中遇到的各種問題,原因有下述幾點:
首先,類型改變自身也存在一定的問題,即類型改變的規(guī)則是非常寬松的,而事實上,某些類型變換確實是不可接受的。如“主目上升”規(guī)則: (a,c)?(((a,b),b),c)這種一般性的范式是無效的[14]。
而在TTCS中,我們對每個詞進行多類型指派不但可以實現類型改變的目的,而且還可以減少類型改變在實際語言中不可接受的情況。原因很簡單,因為類型改變作為規(guī)則而言,是對于任何類型都成立的,但是,我們進行多類型指派,是針對每一個詞的,例如,有的類型改變規(guī)則將不及物動詞可以類型改變?yōu)榧拔飫釉~,如果作為規(guī)則應用,則所有不及物動詞都可以改變?yōu)榧拔飫釉~。但是在漢語中,雖然有很多不及物動詞也確實是及物動詞,但是顯然也有很多詞只能作為不及物動詞使用,因此對于漢語分詞的具體任務而言,我們在構建詞典時,對每一個詞根據其語言學特征,進行多類型指派可以很好的解決類型改變過于寬松這一問題。
另外,類型改變的另一優(yōu)點,比如通過類型提升解決及物動詞接受復雜的命題短語對象時遇到的困難:(e,(e,t))和((e,t),t)的匹配問題,類似的這類現象,在TTCS中,我們則是直接將函數的組合描述成:(e,(e,t))((e,t),t)?(e,t)來進行解決。
再有,對于解決漢語分詞的實際問題而言,時空開銷是我們必須要考慮的一個因素,雖然在我們的算法設計中,也應用到了一些遞歸算法,但是實際效果分詞速度是可以接受的,如果我們不采用多類型指派的方法,而改為給出大量類型改變規(guī)則的方法,分詞速度將會明顯變慢。且分詞的準確度也會受到一定影響。
第四,采用多類型指派的方法,可以通過分詞過程很清晰的看出句子的結構,以及每個詞在句子中的角色。
類型函數貼合算法中的類型貼合規(guī)則,主要是根據語言學知識所進行的設計。規(guī)則設計的合理度和全面度直接影響著分詞系統的準確度。
在TTCS系統中,部分類型貼合規(guī)則如下(更多規(guī)則見參考文獻[11-12]):
其中有α出現的為規(guī)則模式,即α可以替換為任意類型,其他為具體規(guī)則。
如果切分序列類型函數貼合的結果是t,則說明是正確的切分。
如果切分序列類型函數貼合存在最后的類型則是可以接受的切分。
具體算法如下:
第(1)步:讀取類型序列;
第(2)步:對類型序列中相鄰類型(從第一個類型開始),運用上述類型貼合規(guī)則逐步進行貼合,直到不再有可以貼合的相鄰類型為止。
第(3)步:對貼合結果進行判斷,如果只有一種切分是正確切分則直接輸出;如果兩種切分都是正確切分,則進行統計校正;如果不存在正確切分,存在可以接受的切分,則輸出可以接受的切分;如果既不存在正確切分也不存在可以接受的切分,則輸出全切分后排在第一個的序列作為切分結果。
一個合法的句子總是可以匹配成t的,本文中設計出“可以接受的切分”,是考慮到漢語中經常使用逗號將一個完整的句子分為幾部分,而對于逗號切分出的部分,匹配結果應該是一個類型(對應漢語中的一個成份),這樣可以減少匹配次數,提高分詞效率。
在TTCS中,交叉歧義、組合歧義識別通過已有方法進行判斷:
(1)令S=C1C2…Cn是需要切分的字符串,檢測是否至少存在兩種不同的切分路徑 S1=W1W2…Wn和S2=W1’W2’…Wm’,其中Wi,Wi’∈LexiCon。
(2)如果存在至少兩種不同的切分路徑,且Wi和Wi’是兩種切分下第一個不同的詞,若Wi的長度大于Wi’的長度,且Wi’+Wi+1’的長度大于Wi的長度,則稱字串Wi’Wi+1’是S中第一個具有交叉歧義的字串。
(3)如果Wi’+Wi+1’的長度等于Wi的長度,則稱字串Wi’Wi+1’是S中第一個具有組合歧義的字段。
在我們的系統中,對歧義的處理主要基于以下幾個步驟:
(1)對輸入的句子進行全切分;
(2)歧義識別;
(3)對全切分結果執(zhí)行函數貼合運算
(4)選擇可以接受的結果
(5)輸出
在TTCS系統中,未登錄詞的識別主要是基于未登錄詞合并算法和類型貼合運算而進行的。在我們的未登錄詞合并算法中,主要處理了下面三種情況:
Case1.type(Ci)=p;其中Ci是預合并單詞的詞頭;
Case2:type(Ci)=s;其中Ci是預合并單詞的詞尾;
Case3:type(Ci)=‘?’;起哄‘?’是對詞典中沒有的詞進行的標記。
每一種情況又包含數種子情況(對于預合并單詞的詞頭是p類型,預合并單詞的詞尾是s類型的情況,我們在算法編寫過程中歸入到了第一種情況進行處理)。
考慮到越界問題,我們將Case1又分為以下三種情況來處理:
Case1.1:Ci后只有Ci+1;
Case1.2:Ci后只有Ci+1,Ci+2;
Case1.3:Ci后多于Ci+1Ci+2
Case2:也同樣分為:
Case2.1:Ci前只有Ci-1且不是p類型
Case2.2:Ci前只有Ci-1,Ci-2
Case2.3:Ci前只有Ci-1,Ci-2,Ci-3
在每種情況下又將Cj(j=i-1,i-2,i+1,i+ 2,i+3……)分為未登錄詞,單字詞,多字詞幾種情況來處理。是單字詞時,我們又細分為是否具有連詞類型,介詞類型,判定動詞類型幾種子情況。
未登錄詞的識別過程概述如下:
(1)前、后綴類型、未登錄字的識別;
(2)在具有前、后綴類型、未登錄字時,執(zhí)行合并算法;
(3)將合并算法的結果進行類型函數貼合運算;
(4)根據類型函數貼合運算結果選擇正確的合并結果(正確的合并結果既為識別出的未登錄詞)
本文主要目的是將類型邏輯的思想和方法引入到自然語言信息處理領域,來解決漢語分詞問題。從類型邏輯的研究趨勢來看,目前大量學者意識到了用其描述各種不同自然語言的重要性以及用其解決各種不同自然語言中特殊問題的可行性及價值。因此,學者們紛紛用其為工具,對荷蘭語、意大利語、日語、漢語等各種語言中的特殊問題進行研究、刻畫[15-16]。因此對漢語類型論進行研究,對于類型邏輯本身而言,也是具有重要意義的。
在本文中,我們從根本上突破了傳統類型論的定義,引入了輔助類型來解決未登錄詞識別問題,使類型論可以描述的語句范圍有了明顯擴展。當然,輔助類型的引入也是出于漢語語句比較松散,且非常靈活這些因素而考慮的。
在TTCS系統的設計中,除了文中詳述的內容之外,還涉及到統計校正和詞典的動態(tài)擴充等問題,這些由于篇幅問題我們沒有展開,但這些問題的解決對于我們系統的完整性及應用的方便性都具有重要作用。
[1]梁南元.書面漢語自動分詞系統-CDWS[J].中文信息學報,1987(2):101-106.
[2]張仕仁.利用語素詞規(guī)則消除切分歧義[C]//1998年中文信息處理國際會議論文集.北京:清華大學出版社,1998.
[3]Zheng J H,Wu F F.Study on segmentation of ambiguous phrases with the combinatorial type[C]//Collections of papers on Computational Lingustics,Beijing: Tsinghua University Press,1999.
[4]Xiao Luo,Maosong Sun,Benjamin K Tsou.Covering Ambiguity Resolution in Chinese Word Segmentation Based on Contextual Information.COLING’02 Proceedings of the 19th international conference on Computational linguistics,vol1,Stroudsburg,2002.
[5]Ying Xiong,Jie Zhu.A New Machine Learning Method for Chinese Overlapping Disambiguity—Conditional Random Fields[C]//Proceedings of the Sixth International Conference on Machine Learning and Cybernetics,HongKong,2007.
[6]劉群,張華平,俞鴻魁,程學旗.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發(fā)展,2004,41(8),1421-1429.
[7]Gao Jianfeng,Li Mu,Wu Andi,et al.Chinese Word Segmentation and Named Entity Recognition:A Pragmatic Approach[J].Computational Linguistics,2006,31 (4):531-574.
[8]鄒崇理.自然語言邏輯研究[M].北京:北京大學出版社,2000.
[9]蔣嚴,潘海華.漢語語句的類型表達[C]//1998中文信息處理國際會議論文集.北京:清華大學出版社,1998.
[10]Gamut L T F.Logic,Language,and Meaning(Vol2)[M].The University of Chicago Press,1991.
[11]Gao Dongping,Niu Zhendong,Lv Lening,et al.Chinese Unknown Word Recognition Based on Functional Applications of Type Theory[C]//IITA2008,Published by IEEE Computer Sociey,2008.
[12]Gao Dongping,Guo Jiahong.Dealing with Chinese Overlapping Ambiguity Based on Type Functional Application[C]//2009 International Conference on Artificial Intelligence and Computational Intelligence,Published by IEEE Computer Sociey,2009.
[13]Geach P.A Program for Syntax[M].Davidson D.Harman G.eds.,Springer,1972.
[14]約翰·范本特姆.邏輯、語言和認知[C]//劉新文,郭美云,等,譯.邏輯之門——約翰·范本特姆經典著作(卷II).北京:科學出版社,2008.
[15]Otake R,Yoshimoto K.A Multimodal Type Logical Grammar Analysis of Japanese:Word Order and Quantifier Scope[C]//Annual Conference of the Japanese Society for Artificial Intelligence,Springer,2007.
[16]Angelov K.Type-theoretical Bulgarian grammar[C]// Advances in Natural Language Processing,Proceedings,Berlin:Springer,2008.
Chinese Segmentation System TTCS Based on Type Theory
GAO Dong-ping
(The Institute of Medical Information,Chinese Academy of Medical Sciences,Bejing 100020,China)
Chinese unknown word recognition and disambiguation are difficult problems of Chinese word segmentation.We introduce a method based on type theory for Chinese word segmentation in this paper.The model of type functional application is employed attempting to resolve Chinese ambiguity and unknown word recognition.A Chinese word segmentation system TTCS is proposed that it unites techniques including omni-segmentation,statistical method,prefix and suffix information expansion and so on.A major advantage of the TTCS is that it can deal with Chinese word segmentation,unknown word recognition,disambiguation and the dynamic expansion of the dictionary in a unified theoretical model.
type functional application;Chinese word segmentation;disambiguation;Chinese unknown word recognition;type theory
B81
A
1674-8425(2011)08-0061-06
2011-06-30
國家社科基金“面向自然語言信息處理的范疇類型邏輯研究”(09BZX046)資助。
高東平(1979—),女,河北人,博士后,副研究員,研究方向:自然語言處理、邏輯學、情報學。
(責任編輯 鄺坦勵)