袁毓林,李 強(qiáng)
(北京大學(xué) 中文系 中國語言學(xué)研究中心 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
“網(wǎng)球問題”(Tennis Problem)最初是由Roger Chaffin在他跟Christiane Fellbaum的私人交流中提出來的,后來由Fellbaum[1]公諸于世,并隨著WordNet的普及而受到自然語言處理學(xué)界的廣泛關(guān)注。簡單地說,“網(wǎng)球問題”指的是如何將racquet(網(wǎng)球拍)、ball(網(wǎng)球)、net(球網(wǎng))等詞語以一定的方式聯(lián)系到一起的問題。從概念意義上看,這些詞語所指謂的都是court game(球類運(yùn)動(dòng)項(xiàng)目)的組成部分,是由網(wǎng)球運(yùn)動(dòng)這一事件或場景激活(activate)出來的。與此類似的情況,還包括,“醫(yī)生”和“醫(yī)院”、“蛋糕”和“蠟燭”、“粉筆”和“黑板”、“小狗”和“鏈子”等。這些詞語所表示的不同概念,都需要通過一個(gè)事件或一個(gè)場景才能組織到一起。正因?yàn)檫@些不同概念之間缺乏相似性(similarity)、組織性(organization)和推導(dǎo)性(derivation),F(xiàn)ellbaum認(rèn)為,對于此類“網(wǎng)球問題”,他們所研制的WordNet沒能提供較好的解決辦法。因?yàn)?,WordNet并不包含圍繞一個(gè)特定話題組合起來的、篇章結(jié)構(gòu)環(huán)境下的、各個(gè)語言成分之間的語義關(guān)系。那么,對于這種需要通過事件或場景來維系的不同概念及其詞匯,有沒有一種恰當(dāng)而又充分的語言詞匯知識(shí)體系,能將它們關(guān)聯(lián)起來,并且把它們的語義關(guān)系描述清楚呢?換句話說,這些不同的概念及其詞匯是否能夠通過一種具有系統(tǒng)性(systematicness)和秩序性(order)的詞匯知識(shí)庫串聯(lián)起來,以彌補(bǔ)WordNet在解決這類復(fù)雜關(guān)系問題方面的不足呢?
本文以求解“網(wǎng)球問題”為目標(biāo),對目前比較主流的幾種語言和詞匯概念知識(shí)庫進(jìn)行檢討,說明為什么這幾種知識(shí)庫都無法解決“網(wǎng)球問題”。進(jìn)而指出,生成詞庫理論中的物性結(jié)構(gòu)知識(shí)描寫體系,對于解決“網(wǎng)球問題”具有重要的啟發(fā)性意義。因?yàn)椋煌Z言成分所代表的概念可以通過物性角色串聯(lián)在一起,從而形成一個(gè)網(wǎng)狀的知識(shí)體系。這種意義的網(wǎng)絡(luò)能夠?qū)⒏拍钆c概念之間以及概念所具有的屬性之間的關(guān)系清楚地揭示出來,為下一步建立常識(shí)性推理知識(shí)庫奠定一定的基礎(chǔ)。
文章的結(jié)構(gòu)組織大致安排如下: 第2節(jié)對WordNet進(jìn)行介紹,并說明為什么它無法解決“網(wǎng)球問題”;第3節(jié)對VerbNet進(jìn)行介紹,并說明它不能解決“網(wǎng)球問題”的原因;第4節(jié)對FrameNet進(jìn)行介紹,并解釋它在解決“網(wǎng)球問題”方面的局限性;第5節(jié)介紹概念網(wǎng)ConceptNet,說明單純的常識(shí)性推理知識(shí)不注重詞語的組合方面知識(shí),不便于解決“網(wǎng)球問題”;第6節(jié)介紹名詞的物性結(jié)構(gòu)知識(shí)體系,通過具體個(gè)案來展示它對“網(wǎng)球問題”的解釋力;最后對文章進(jìn)行小結(jié)。
WordNet是目前自然語言處理領(lǐng)域非常重要且應(yīng)用十分廣泛的詞匯知識(shí)庫,它是由美國Princeton University(普林斯頓大學(xué))認(rèn)知科學(xué)實(shí)驗(yàn)室的G A Miller(米勒)、R C Beckwick(貝克威克)、C Fellbaum(費(fèi)爾鮑姆)等人于1985年研制的,至今將近有30年的時(shí)間,數(shù)據(jù)庫版本從1991年的version 1.0到2007年的version 3.0,再到如今的version 3.1,收詞規(guī)模和知識(shí)庫維護(hù)正在逐步地?cái)U(kuò)大和完善[2]。作為一種機(jī)讀詞典,WordNet充分吸收了心理語言學(xué)的相關(guān)理論,改變了傳統(tǒng)以字母順序組織詞匯信息的方式,而將在語義上緊密聯(lián)系的相關(guān)概念聚合到一起形成同義詞集(synsets)。這樣做的心理學(xué)依據(jù)是: 在人們的心理詞庫(mental lexicon)中,詞匯的組織和表征方式并不是隨意和散漫的,而是有組織性和系統(tǒng)性的。將這樣一種詞匯語義的分布模式移植并應(yīng)用到計(jì)算機(jī)的詞匯知識(shí)資源之中,為計(jì)算機(jī)實(shí)現(xiàn)自然語言的語義理解提供了可能性。
WordNet對于詞條的組織方式基本上是屬于聚合式的,所以它看起來像是一部匯編式的同義詞義類詞典(thesaurus)。在WordNet中,主要包括名詞、動(dòng)詞、形容詞和副詞,所有的詞都按照其義項(xiàng)以同義詞集的形式組織在一起,并標(biāo)示相關(guān)的同義詞集在語義上的聯(lián)系。這些語義聯(lián)系有上下位關(guān)系(hyponymy/hypernymy)、整體—部分關(guān)系(meronymy/holonymy)、反義關(guān)系(antonymy)、蘊(yùn)涵關(guān)系(entailment)等[1,3]。從本體知識(shí)(Ontology)的角度看,WordNet通過各種語義關(guān)系將詞匯聯(lián)系在一起的方式,展示了它構(gòu)建語言本體知識(shí)的能力。因而,它對于信息檢索(information retrieval)、詞義消歧(word sense disambiguation)、機(jī)器翻譯(machine translation)、知識(shí)工程(knowledge engineering)等自然語言處理領(lǐng)域具有重要的推動(dòng)作用,并直接服務(wù)于下一代新網(wǎng)絡(luò)——語義網(wǎng)(semantic web)的構(gòu)建[4]。
然而,作為一種計(jì)算詞庫(computational lexicon),袁毓林(2008)指出了它也存在若干缺陷[5]。比如,缺少動(dòng)詞句法配置方面的信息、缺少謂詞論元的語義角色信息等等。其中,最為重要的是,WordNet沒有能將詞匯之間的組合關(guān)系揭示出來。組合關(guān)系和聚合關(guān)系是語言系統(tǒng)中的兩種最根本的關(guān)系,索緒爾分別稱之為“句段關(guān)系”和“聯(lián)想關(guān)系”[6]。組合關(guān)系基于語言成分的線性排列,而聚合關(guān)系基于語言成分的共同特點(diǎn)。作為義類詞典的WordNet更多關(guān)注的是詞語之間在意義上的相似性特征,也即聚合關(guān)系,而對那些不具有相似性特征的詞語之間的可能的組合關(guān)系和語篇中的共現(xiàn)關(guān)系(co-occurrence)則關(guān)注不夠。比如,“hospital”(醫(yī)院)和“physician”(醫(yī)生),它們在WordNet中檢索到的信息分別如下面的圖1和圖2所示。
圖1 “hospital”(醫(yī)院)在WordNet中的信息
圖2 “physician”(醫(yī)生)在WordNet中的信息
由圖1和圖2可見,在“hospital”(醫(yī)院)的語義描述信息中找不到“physician”(醫(yī)生);同樣,在“physician”(醫(yī)生)的語義描述信息中也找不到“hospital”(醫(yī)院)。因而,WordNet沒有辦法在“hospital”(醫(yī)院)和“physician”(醫(yī)生)之間建立起有效的語義指針性關(guān)聯(lián)。這對于自然語言處理,尤其是對于文本理解來說是不利的。比如,當(dāng)某個(gè)人說“我要去醫(yī)院”,隱含的意思是他要去看醫(yī)生。如果不能在“醫(yī)院”和“醫(yī)生”之間建立起關(guān)聯(lián),那么計(jì)算機(jī)在理解“我要去醫(yī)院”這句話的隱含義時(shí)就會(huì)有困難。
此外,心理學(xué)的研究成果顯示,在語義關(guān)系網(wǎng)絡(luò)中,所有的概念都不是孤立存在的,總是跟其他概念相互聯(lián)系。其中,最重要的兩種聯(lián)系是類別關(guān)系(taxonomic relation)和主題關(guān)系(thematic relation)。類別關(guān)系是基于相似性組織的層級關(guān)系,對應(yīng)于聚合關(guān)系;而具有主題關(guān)系的兩個(gè)概念之間通常并不共享相似的特征,只是通過事件或場景組織起來,對應(yīng)于組合關(guān)系[7-8]。人們對于特定詞匯的習(xí)得以及將其整合到語義網(wǎng)絡(luò)的過程,都離不開這兩種學(xué)習(xí)方式??梢姡谛睦韺W(xué)研究成果之上的WordNet,它對詞匯所進(jìn)行的語義歸納和分類的做法只是體現(xiàn)了詞匯學(xué)習(xí)中的類別關(guān)系,而忽視了另外一種基于場景的聯(lián)想式詞匯組合關(guān)系和語篇中的共現(xiàn)關(guān)系,也即上文第一節(jié)所說的“網(wǎng)球問題”。要解決“網(wǎng)球問題”,就需要利用到組合性詞匯知識(shí)資源,通過語義關(guān)系指針將表示具有主題關(guān)系的不同概念的有關(guān)詞語聯(lián)系起來,從而形成指針式的語義鏈接關(guān)系。而在一個(gè)場景或事件中,這些不同的詞匯概念往往是通過動(dòng)詞聯(lián)系起來的,比如,“小狗”和“鏈子”就可以通過動(dòng)詞“拴”聯(lián)系,形成“用鏈子拴小狗”,或者其關(guān)系化的名詞短語“拴小狗的鏈子、拴著鏈子的小狗”;“母雞”和“雞蛋”可以通過動(dòng)詞“下/生”聯(lián)系,形成“母雞下/生雞蛋”,或者其關(guān)系化的名詞短語“下/生雞蛋的母雞、母雞生/下的雞蛋”。動(dòng)詞可以為不同的概念提供鏈接的中介,也可以同時(shí)激活這些不同的信息[9-10]。于是,接下來的挑戰(zhàn)是: 怎樣找到這種橋梁性動(dòng)詞?什么樣的語義學(xué)理論和語義知識(shí)資源可以解決這個(gè)問題?這要留到下文第六節(jié)再討論。
上文提到,WordNet只關(guān)注動(dòng)詞內(nèi)部的語義組織關(guān)系,包括蘊(yùn)涵關(guān)系(entailment)、對立關(guān)系(opposition)、致使關(guān)系(causation)等等,這些語義關(guān)系基本上是靜態(tài)性的、聚合性的,至于動(dòng)態(tài)性的、組合性的動(dòng)詞論旨角色及其句法配置等語義關(guān)系信息,WordNet則沒有涉及。在這一方面,University of Colorado at Boulde(科羅拉多大學(xué)波爾得分校)的VerbNet,在一定程度上彌補(bǔ)了WordNet的不足。它對動(dòng)詞的句法框架、論旨角色(thematic roles)和選擇限制(selectional restrictions)進(jìn)行了細(xì)致的描寫[11]。VerbNet的理論基礎(chǔ)是Levin(1993)的動(dòng)詞分類標(biāo)準(zhǔn)。該分類標(biāo)準(zhǔn)體現(xiàn)了動(dòng)詞句法和語義的互動(dòng)關(guān)系,表現(xiàn)為具有相同句法行為的動(dòng)詞往往屬于同一個(gè)語義類,而不同語義類的動(dòng)詞則一定具有不同的句法行為。因此,可以通過句法形式上的變換(alternation)關(guān)系分析,達(dá)到劃分動(dòng)詞語義小類的目的。VerbNet為每一個(gè)動(dòng)詞設(shè)置了3類信息,包括: (1)Members,即同屬于一個(gè)語義類的各個(gè)動(dòng)詞;(2)Thematic Roles,一類動(dòng)詞所能支配的不同論旨角色,并在括號(hào)中標(biāo)明動(dòng)詞對于論元的語義選擇限制;(3)Frames & Predicates,包括動(dòng)詞的句式類型、實(shí)例、句法配置和語義描述等[5,11]。例如,下面是動(dòng)詞hit在VerbNet中的信息。
圖3 動(dòng)詞hit在VerbNet中的信息
從VerbNet對于動(dòng)詞的描寫可以看到,動(dòng)詞相關(guān)的語義和句法信息都能清晰地展現(xiàn)出來,這離解決“網(wǎng)球問題”更進(jìn)了一步。正如上一節(jié)所提到的,基于事件或場景的不同概念通常需要?jiǎng)釉~作為鏈接指針進(jìn)行聯(lián)系。那么,不言而喻的是,動(dòng)詞的句法語義信息對于情景中概念和詞語之間的聯(lián)系起了非常重要的作用。然而,我們發(fā)現(xiàn)VerbNet雖然對于動(dòng)詞的相關(guān)信息做了足夠充分的刻畫,但在解決“網(wǎng)球問題”方面還有以下3點(diǎn)不足。
(1) VerbNet是以動(dòng)詞為中心的詞匯知識(shí)庫,以動(dòng)詞作為查詢項(xiàng),對名詞所指事物的情景關(guān)系不能做出預(yù)判。比如,“tennis”(網(wǎng)球)和“racquet”(網(wǎng)球拍),它們在VerbNet中查詢不到,只有先獲知“‘racquet’是擊打‘tennis’這個(gè)動(dòng)作所憑借的工具”這層語義關(guān)系,進(jìn)而查詢動(dòng)詞hit,才能得到[NPagentV NPpatientPPinstrument](Paula hit the tennis with a racquet)這種能將“tennis”和“racquet”聯(lián)系起來的句法格式。
(2) 對于一些場景依賴性特別強(qiáng)的相關(guān)事物,VerbNet提供不了一個(gè)能夠?qū)⒅阜Q這些事物的名詞囊括在特定句法結(jié)構(gòu)之中的動(dòng)詞。例如,“生日”和“蛋糕”,能將它們聯(lián)系起來的常識(shí)性推理應(yīng)該是“為了慶祝生日而吃蛋糕”。但若要在VerbNet中查詢動(dòng)詞“eat”(吃),它的句法框架只能容納名詞“蛋糕”,無法將“生日”和“蛋糕”關(guān)聯(lián)起來并且都容納進(jìn)其中的某個(gè)句法框架。動(dòng)詞“eat”(吃)在VerbNet中的句法框架信息如下面圖4所示?!癱elebrate”也是如此。雖然VerbNet中未收錄表示“慶?!绷x詞條“celebrate”的句法框架信息,但根據(jù)語言學(xué)知識(shí),它的句法框架是[NPagentV NPtheme](We celebrated Mary’s birthday),也只能容納名詞“生日”,而不能容納名詞“蛋糕”。
(3) VerbNet主要表現(xiàn)動(dòng)詞的論元結(jié)構(gòu)和句法實(shí)現(xiàn),動(dòng)詞為特定句法結(jié)構(gòu)中的名詞賦予論旨角色,可以將受動(dòng)詞支配的有關(guān)名詞所表示的概念聚合在一起。但是,有些概念之間的聯(lián)系依賴的是情景式聯(lián)想。比如,“鍵盤”和“鼠標(biāo)”,它們之間的聯(lián)系并不依賴于某一個(gè)特定的動(dòng)詞,而是通過“電腦配件”這一概念域情景產(chǎn)生關(guān)聯(lián)的。所以,在這種情況下,VerbNet對不同概念之間的激活起不到應(yīng)有的作用。也就是說,VerbNet關(guān)注以動(dòng)詞為核心的詞匯性組合關(guān)系,不能反映語篇中相關(guān)詞語的常規(guī)性(routine)的共現(xiàn)關(guān)系。
綜合以上3個(gè)方面來看, VerbNet雖然能夠在一定程度上反映動(dòng)詞對于名詞的串聯(lián)作用, 即不同事物依靠特定動(dòng)作關(guān)聯(lián)在一起;但是,它仍然無法反映事物之間的情景關(guān)系,尤其是通過“擴(kuò)散性激活”*語義的擴(kuò)散性激活指,調(diào)用(即激活)一個(gè)詞項(xiàng)的意義可以觸發(fā)(trigger)知識(shí)網(wǎng)中相關(guān)的語義節(jié)點(diǎn)。例如,激活場景定義型名詞“生日”,可以觸發(fā)“生日蛋糕、生日蠟燭、生日歌”等概念;激活事件名詞“火”,可以觸發(fā)“紅色、火光、消防車、水”等概念。(spreading activation)引起的不同事物之間的聯(lián)想式語義網(wǎng)絡(luò)。要想解決“網(wǎng)球問題”,還得求助于其他類型的組合性語義學(xué)理論和相關(guān)的詞匯知識(shí)庫。
圖4 動(dòng)詞eat(吃)在VerbNet中的句法框架信息
加州大學(xué)伯克利分校(University of California, Berkeley)的框架網(wǎng)項(xiàng)目(FrameNet),是基于框架語義學(xué)(frame semantics)、并以語料庫為基礎(chǔ)建立的在線英語詞匯資源庫??蚣苷Z義學(xué)是Fillmore提出的研究詞語意義和句法結(jié)構(gòu)意義的方法,該理論主張對于詞語意義的描述必須聯(lián)系特定的語義框架,因?yàn)榭蚣苁切叛?、?shí)踐、制度、想象等概念結(jié)構(gòu)或概念模式的圖式表示,是言語社團(tuán)中人們相互交流的概念基礎(chǔ)[5,12]。Fillmore把一個(gè)格框架看作是刻畫一個(gè)小的抽象的“情景”(scene)或“境況”(situation),該“情景”或“境況”幫助理解一個(gè)動(dòng)詞的語義結(jié)構(gòu)跟該動(dòng)詞的基本句法屬性如何聯(lián)系,以及不同語言形成最小句子的不同方式。所以,要理解動(dòng)詞的語義結(jié)構(gòu),就必須首先理解這類圖式化的情景[13]。例如,框架heat描述的是一個(gè)涉及烹調(diào)(cook)、食物(food)和加熱工具(heating instrument)的情境,以及可能引發(fā)這一情境的一些詞匯,如bake、blanch、boil、broil、brown、simmer、steam等。出現(xiàn)在heat這一框架中的成分稱為“框架元素”(frame element),而能夠引發(fā)激活這一框架的詞語稱為“詞匯單元”(lexical unit)。
FrameNet數(shù)據(jù)庫主要由詞匯庫(lexicon)、框架庫(FrameNet database)和標(biāo)注例句(annotated example sentences)3部分組成。詞匯庫主要包括詞條傳統(tǒng)的詞典釋義、語義結(jié)構(gòu)和配價(jià)模式、與標(biāo)注例句的鏈接以及跟其他機(jī)器可讀資源(如WordNet/Comlex)的鏈接??蚣軒熘饕枋隹蚣艿幕靖拍罱Y(jié)構(gòu),給出框架名稱、框架元素以及框架之間的關(guān)系。標(biāo)注例句呈現(xiàn)特定詞項(xiàng)的語義和句法性質(zhì),標(biāo)注句中的框架元素、框架元素所在短語的短語類型,以及框架元素的句法功能[14]。例如,下面的圖5是表示“擊中”義的動(dòng)詞hit在FrameNet中的信息。
由上圖可見,跟VerbNet以動(dòng)詞為核心、自下而上(bottom-up)的句法語義描寫不同,F(xiàn)rameNet是以框架為核心、自上而下(top-down)地對處于框架中的動(dòng)詞或事件名詞的句法語義信息進(jìn)行描寫。框架和框架元素反映了事件和事件參與者之間的關(guān)系,以及表示這種事件的動(dòng)詞跟其論元在句法配置上的關(guān)系。所以,F(xiàn)rameNet可以看作是VerbNet的抽象版本,在解決事物和概念的情景聯(lián)想關(guān)系時(shí),它同樣也會(huì)遇到和VerbNet一樣的問題。例如,
(1) 對于某些表示事物概念的名詞,如“網(wǎng)球(tennis)”、“鍵盤(keyboard)”、“狗(dog)”等,基于情景聯(lián)想關(guān)系,它們可以分別與“網(wǎng)球拍”、“鼠標(biāo)”、“鏈子”產(chǎn)生關(guān)聯(lián)。但是,這些詞語在FrameNet中都查詢不到相關(guān)的信息,這些事物之間的情景聯(lián)想關(guān)系也就無法表示。
(2) 對于某些表示事物概念的名詞,如“生日(birthday)”、“醫(yī)院(hospital)”等,雖然它們在FrameNet中可以查詢到相關(guān)的框架信息;但是,框架中所包含的元素并不能體現(xiàn)情景聯(lián)想關(guān)系。比如,“hospital”所在的框架為“buildings”,該框架的定義是“a building which houses an institution providing medical, surgical, and nursing care for sick or injured patients”,出現(xiàn)在該框架中的框架元素包括“building、function、material、name、place、relative location、time of creation”,這些框架元素中并不包含可由“醫(yī)院”激活的、基于情景聯(lián)想關(guān)系的“醫(yī)生、護(hù)士、醫(yī)療設(shè)備”等概念。
圖5 動(dòng)詞hit在FrameNet中的信息
(3) 正如袁毓林[5]所指出的: “在FrameNet中,做多少框架才能覆蓋絕大多數(shù)的文本語料?從哪些框架開始、止于哪些框架?怎樣確定情景的大小和覆蓋面?對于這些問題,F(xiàn)rameNet都是無法給出明確答案的”。而它們將直接影響到FrameNet解決“網(wǎng)球問題”所能取得的實(shí)際效果。因?yàn)椋谇榫奥?lián)想關(guān)系的不同事物或概念之間通常并不具有十分緊密的語義聯(lián)系,由一個(gè)事物激活另外一個(gè)事物的原因可能是由于它們經(jīng)常性地共現(xiàn)于某一個(gè)場景,或基于一般的生活經(jīng)驗(yàn)性常識(shí)。那么,可以預(yù)料到,如果FrameNet所劃分和定義的情景框架較小或覆蓋面較窄,它就一定不能觸及由情景激活的事物。所以,F(xiàn)rameNet在確定情景框架方面的主觀隨意性,會(huì)給“網(wǎng)球問題”的解決帶來一些困擾。
基于以上認(rèn)識(shí),我們認(rèn)為: FrameNet設(shè)置情景框架并在此基礎(chǔ)上描述詞項(xiàng)的語義結(jié)構(gòu)和句法配置信息,這比VerbNet 單純對于動(dòng)詞相關(guān)信息的描寫更進(jìn)了一步。同時(shí),情景框架的設(shè)置也給“網(wǎng)球問題”的解決帶來了一些新的啟發(fā)和思考。但是,因?yàn)镕rameNet從根本上來說還是以動(dòng)詞為核心的、旨在反映事件和事件參與者之間的論旨角色關(guān)系;并不能抓住相關(guān)詞匯概念在語篇中的常規(guī)性的共現(xiàn)關(guān)系。而且,情景框架的劃分具有較大的任意性和主觀性。所以,它還不能為解決事物之間的情景聯(lián)想關(guān)系這一問題提供一個(gè)理想的語言知識(shí)資源。
人工智能領(lǐng)域的研究從20世紀(jì)三四十年代開始興起,早在計(jì)算機(jī)時(shí)代的曙光來臨之前,以圖靈(Alan Turing,1912—1954)為代表的一批學(xué)者就已經(jīng)提出了關(guān)于計(jì)算機(jī)以及人工智能的設(shè)想,他們希望未來可以研制出類似人腦那樣具有判斷、分析、推理、決策等高級認(rèn)知能力的計(jì)算機(jī),而這也成為人工智能領(lǐng)域的終極目標(biāo)。在人工智能的發(fā)展過程中,很多學(xué)者都曾明確提出,橫亙在人工智能研究道路上的一塊大頑石是現(xiàn)有的計(jì)算機(jī)程序缺乏必要的常識(shí)。換句話說,在人類社會(huì)中,一個(gè)正常的6歲兒童就已經(jīng)掌握了有關(guān)周圍世界和環(huán)境的常識(shí)知識(shí);但是對于計(jì)算機(jī)來說,它連最基本的常識(shí)都沒有[15]。人工智能專家為了解決這個(gè)問題,開始為計(jì)算機(jī)研制添置常識(shí)知識(shí)庫,例如費(fèi)根鮑姆(Feigenbaum)的“專家系統(tǒng)”和里南(Lenat)的“大百科全書”計(jì)劃,都旨在使計(jì)算機(jī)系統(tǒng)具有一個(gè)強(qiáng)大的知識(shí)庫,這是當(dāng)代智能系統(tǒng)或智能代理所具備的一種常識(shí)性知識(shí)庫。本節(jié)所介紹的ConceptNet也屬于這樣一種常識(shí)性推理知識(shí)庫。
ConceptNet是由麻省理工學(xué)院媒體實(shí)驗(yàn)室開發(fā)的一種開源工具,它的開發(fā)者Liu 和 Singh[16]指出,基于關(guān)鍵詞和數(shù)據(jù)統(tǒng)計(jì)的方法只能實(shí)現(xiàn)計(jì)算機(jī)語義理解的表層處理,要想實(shí)現(xiàn)深層次的計(jì)算機(jī)對于文本的理解,就必須添加各種不同的語義知識(shí)(semantic knowledge),使得計(jì)算機(jī)同時(shí)也擁有人所具備的常識(shí)性知識(shí)。ConceptNet的開發(fā)建立在OMCS(Open Mind Common Sense)基礎(chǔ)之上,它是一個(gè)大型的常識(shí)知識(shí)庫(knowledgebase),包含了來自于空間、物質(zhì)、社會(huì)、時(shí)間和心理方面的日常生活知識(shí)。ConceptNet從OMCS所收集的大約70萬個(gè)句子中自動(dòng)構(gòu)造一個(gè)常識(shí)性語義網(wǎng)絡(luò),用不同類型的鏈接描述物體、事件以及人物之間的關(guān)系。值得一提的是,與傳統(tǒng)的手工提取常識(shí)性知識(shí)不同,OMCS通過網(wǎng)絡(luò)平臺(tái)向普通大眾尋求支持,體現(xiàn)了網(wǎng)絡(luò)眾包開發(fā)意識(shí)。在ConceptNet中,語義知識(shí)網(wǎng)絡(luò)通過160萬個(gè)箭頭將超過30萬個(gè)節(jié)點(diǎn)連接在一起,每一個(gè)箭頭代表一種語義關(guān)系,類似這樣的語義關(guān)系共有20種,構(gòu)成了語義關(guān)系的本體知識(shí)系統(tǒng)。例如,
Is(A,B): Adogis ananimal.
Location Of(A,B):Booksare in thelibrary.
Used For(A,B):Forksare used foreating.
Subevent Of(A,B): Afterwakingupinmorning, hecheckedhisemail.
在上面這些例子中,“Is”連接“dog”和“animal”這兩個(gè)概念節(jié)點(diǎn),這兩個(gè)概念節(jié)點(diǎn)又可以通過其他類型鏈接與其他概念節(jié)點(diǎn)相連。其余情況亦是如此。通過詞匯之間相互鏈接所形成的概念語義網(wǎng)絡(luò)對于話題提取(topic extraction)、情感標(biāo)注(emotion tagging)、詞義消歧(word sense disambiguation)、文本推理(text inference)等自然語言處理都有重要的作用。ConceptNet常識(shí)語義網(wǎng)絡(luò)如下面圖6所示。
圖6 ConceptNet常識(shí)語義網(wǎng)絡(luò)片段
由上圖可見,ConceptNet實(shí)質(zhì)上是一種基于常識(shí)和概念聯(lián)想關(guān)系的詞匯語義知識(shí)庫。這種知識(shí)庫通過認(rèn)知上的擴(kuò)散性激活機(jī)制(spreading activation mechanism)將日常生活中方方面面的知識(shí)都囊括在語義網(wǎng)絡(luò)之中,并可通過指針進(jìn)行追蹤(traversal),從而為計(jì)算機(jī)建立了一個(gè)類似儲(chǔ)存在人腦之中的概念系統(tǒng),為相關(guān)的自然語言處理提供了強(qiáng)有力的支持。從理論上來說,這種常識(shí)知識(shí)庫應(yīng)該是解決“網(wǎng)球問題”的一種比較理想的資源。比如,“網(wǎng)球拍”、“網(wǎng)球場”、“網(wǎng)球服”等概念都可以通過“網(wǎng)球”來激活;“醫(yī)生”、“護(hù)士”、“醫(yī)療儀器”等都可以以“醫(yī)院”作為中心概念形成擴(kuò)散性的輻射式網(wǎng)絡(luò);“蛋糕”、“蠟燭”等都是“生日”這一事件情景中經(jīng)常出現(xiàn)的事物。但是,這種常識(shí)知識(shí)庫主要側(cè)重于概念和推理層面,在知識(shí)庫中存儲(chǔ)的信息是關(guān)于某一個(gè)概念可能與其他若干概念之間的生發(fā)(generation)關(guān)系以及這種關(guān)系的具體屬性值,而對于詞語之間的組合關(guān)系關(guān)注不夠。這進(jìn)一步限制了它在自然語言處理中的應(yīng)用。例如,袁毓林[17]就曾指出,在信息抽取(information extraction)領(lǐng)域中,中觀層次的論元結(jié)構(gòu)知識(shí)是非常重要的。以句子為考察對象,句子中的謂詞和名詞之間的論元結(jié)構(gòu)關(guān)系這種低層次的語義關(guān)系可以通過一定的程序傳遞到高層次的關(guān)于事件的腳本和框架中。也就是說,只有弄清楚動(dòng)詞的論元結(jié)構(gòu)信息,才能在特定的文本模板中抽取信息檢索所需要的關(guān)鍵內(nèi)容。雖然ConceptNet為不同概念節(jié)點(diǎn)之間設(shè)置了多達(dá)20種的語義關(guān)系鏈接,但這些語義鏈接呈現(xiàn)出來的只是概念之間的深層語義推導(dǎo)關(guān)系,而并沒有說明表達(dá)這些不同概念的詞語在句法表層是如何被組織在一起的。正因?yàn)槿狈浞▽用娴南嚓P(guān)描述,使得不同概念之間的關(guān)系鏈接不便于以一種規(guī)則化和形式化的標(biāo)準(zhǔn)確立,只能依賴于一般的常識(shí)性知識(shí)。此外,ConceptNet主要關(guān)注短語結(jié)構(gòu)所表達(dá)的復(fù)合概念(compound concept,如“開車”、“買食物”)之間的深層語義關(guān)系,大多數(shù)屬于由事件范疇所激活的概念知識(shí),對于由一般事物范疇所能引發(fā)生成的網(wǎng)絡(luò)系統(tǒng),ConceptNet關(guān)注得還不夠。因此,也就不便于進(jìn)行以名詞為查找項(xiàng)(入口)的相關(guān)詞匯及其情境聯(lián)想關(guān)系的檢索。
總之,我們認(rèn)為,與VerbNet和FrameNet相比,ConceptNet建構(gòu)了一種常識(shí)性知識(shí)網(wǎng)絡(luò)系統(tǒng),這對于“網(wǎng)球問題”的解決具有重要的作用。但是,ConceptNet過分關(guān)注不同概念之間常識(shí)推理性的語義關(guān)系,而忽略了表示相關(guān)概念的不同詞語在句法層面上的組合關(guān)系和語篇層面上的共現(xiàn)關(guān)系。如果有一種詞匯知識(shí)庫能同時(shí)涵蓋跟有關(guān)詞項(xiàng)相關(guān)的常識(shí)性知識(shí)和句法組合及語篇共現(xiàn)知識(shí),那么,它對于解決“網(wǎng)球問題”應(yīng)該會(huì)發(fā)揮更大的作用。
圍繞著自動(dòng)構(gòu)建詞匯語義系統(tǒng)的嘗試,在過去的一、二十年中一直在進(jìn)行。其中,Pustejovsky[18-19]提出的生成詞庫論(Generative Lexicon,GL),確定了如下的總體目標(biāo):
開發(fā)生成詞庫的目的在于提供一種成分組合語義學(xué),對源自現(xiàn)實(shí)語言使用中的意義進(jìn)行語境調(diào)制(contextual modulation)[20]。
生成詞庫論一方面關(guān)注詞匯語義學(xué)(詞匯的成分組合語義學(xué)),同時(shí)也關(guān)注語境語義學(xué)(意義的語境調(diào)制),并試圖在它們之間進(jìn)行調(diào)和*這實(shí)質(zhì)上對應(yīng)了“語言知識(shí)”與“非語言知識(shí)”(世界知識(shí))的劃分。而關(guān)于這一問題的討論一直伴隨著語義學(xué)的發(fā)展。早在詞匯語義學(xué)發(fā)展的早期—?dú)v時(shí)語義學(xué)階段,就有學(xué)者對如何協(xié)調(diào)這兩者的關(guān)系這一問題進(jìn)行了思考。比如,保羅在其《語言學(xué)原理》中就有關(guān)于語境和用法的論述;后來結(jié)構(gòu)主義語義學(xué)階段,主張語義識(shí)別完全屬于語言內(nèi)部層次的結(jié)構(gòu);到生成語義學(xué)階段,非語言知識(shí)完全被排除在語義研究之外;再到新結(jié)構(gòu)語義學(xué)階段,如概念語義學(xué)、雙層語義學(xué)等理論考慮如何將語言知識(shí)和非語言知識(shí)結(jié)合起來;隨后的認(rèn)知語義學(xué)甚至將非語言學(xué)知識(shí)全部納入到語言知識(shí)的框架之中。關(guān)于這一問題詳盡的討論,可以參看Dirk Geeraerts[22]。[21]。面對語言學(xué)知識(shí)和非語言學(xué)知識(shí)的表征接口,Pustejovsky設(shè)計(jì)了一種語義框架,即物性結(jié)構(gòu),或稱為物性角色描寫體系。它其實(shí)是一套關(guān)于詞匯本體知識(shí)(lexical ontological knowledge)的描述體系,是生成詞庫理論中最為核心的內(nèi)容*生成詞庫理論的原始內(nèi)容及最新發(fā)展,可參看Pustejovsky[19,23]。。借助物性角色知識(shí),我們可以對語言的創(chuàng)造性使用,尤其是對詞項(xiàng)在不同的語言環(huán)境下浮現(xiàn)出(emerge)不同的意義這一動(dòng)態(tài)性詞義變化現(xiàn)象進(jìn)行說明和解釋。Pustejovsky談到了下列4種物性角色*物性角色的定義源自Moravcsik(1975)對亞里士多德“四因說”(aitia)的詮釋[24]。:
(1) 構(gòu)成角色(constitutive role): 描寫一個(gè)物體與其組成部分之間的關(guān)系,包括材料(material)、重量(weight)、部分與組成成分等;也指物體在一個(gè)更大的范圍內(nèi)構(gòu)成或組成其他物體;
(2) 形式角色(formal role): 描寫對象在更大的認(rèn)知域內(nèi)區(qū)別于其他對象的屬性,包括大小(magnitude)、形狀(shape)、維度(dimensionality)和顏色(color)等;
(3) 功用角色(telic role): 描寫對象的用途(purpose)和功能(function)。主要包括兩種,一種是直接功用角色(direct telic),人可以與某物發(fā)生直接聯(lián)系,如beer的功用角色是drink;另一種是間接功用角色(purpose telic),指某個(gè)事物可以用來協(xié)助完成某個(gè)活動(dòng),如knife的功用角色是cut;
(4) 施成角色(agentive role): 描寫對象怎樣形成或產(chǎn)生的,如創(chuàng)造、因果關(guān)系等;比如,餃子是用皮和餡兒包出來的,那么餃子的施成角色就是“包”這個(gè)動(dòng)作。
受Pustejovsky的這套物性角色的啟發(fā),袁毓林[25-26]通過對大規(guī)模漢語真實(shí)文本中名詞跟相關(guān)動(dòng)詞等的搭配關(guān)系和選擇限制進(jìn)行調(diào)查后發(fā)現(xiàn),Pustejovsky[18-19]的4種物性角色并不足以全面反映名詞跟動(dòng)詞等的搭配限制,于是對物性角色框架進(jìn)行了更深一步的擴(kuò)展描述,將物性角色的總數(shù)增加至10個(gè),以便適應(yīng)漢語的語義描寫和研究。除了上面的四個(gè)物性角色外,新增的6個(gè)分別是: 單位、評價(jià)、行為、處置、材料、定位*受篇幅限制,本文未給出每一種物性角色的定義。詳細(xì)內(nèi)容可以參看袁毓林[25-26]。。這些物性角色反映了我們?nèi)祟悓τ诿~所指事物的最為關(guān)切的內(nèi)容,也即關(guān)于世界萬事萬物最基本、最樸素的哲學(xué)命題: 是什么?為什么?怎么樣?基于亞里士多德的“四因說”,物性角色體系將事物的客觀屬性特征與主觀評價(jià)特征包裝在一個(gè)描寫框架之中,多維度地展示了名詞自身所容納的語義信息。這實(shí)際上是一種基于世間萬物本體論的語言哲學(xué)思考,將事物跟相關(guān)事物、屬性、動(dòng)作、行為和評價(jià)等等之間的關(guān)系表現(xiàn)了出來。同時(shí),在袁毓林[25-26]的物性結(jié)構(gòu)體系中,相關(guān)詞項(xiàng)的物性角色描述直接跟該詞項(xiàng)所具備的基本句法格式掛鉤,語義和句法組合的各種可能性被展示出來,為下一步自然語言處理應(yīng)用提供了有關(guān)名詞的句法-語義接口知識(shí)。這樣一種不僅關(guān)注詞項(xiàng)所代表的事物的百科知識(shí),同時(shí)也重視與其他語言成分相互組配的詞匯知識(shí)庫特別有利于“網(wǎng)球問題”的解決。
為了檢驗(yàn)這種經(jīng)過擴(kuò)展的物性結(jié)構(gòu)理論在解決“網(wǎng)球問題”方面的效力,我們以“網(wǎng)球、網(wǎng)球拍、網(wǎng)球場”和“生日、蛋糕、蠟燭”這兩組基于情景聯(lián)想關(guān)系的名詞為例進(jìn)行考察。首先,我們從北京大學(xué)已經(jīng)編制的名詞物性結(jié)構(gòu)知識(shí)庫中調(diào)出這些詞條的描寫信息,再檢索北京大學(xué)漢語語言學(xué)研究中心CCL語料庫,并且按照袁毓林[25-26]的物性結(jié)構(gòu)描寫體系,分別對“網(wǎng)球”和“生日”的詞條信息(字形、語音、意義等)、物性結(jié)構(gòu)和句法配置信息進(jìn)行修正。首先來看“網(wǎng)球”的物性結(jié)構(gòu)信息。
網(wǎng)球 02 wǎnɡqiú〈名詞,中性〉網(wǎng)球運(yùn)動(dòng)使用的球,圓形,有彈性。里面用橡皮,外面用毛織品等制成。
(1) 物性角色:
形式FOR: 具體事物、運(yùn)動(dòng)器材;
構(gòu)成CON: 由橡皮、紡織材料(羊毛和尼龍)構(gòu)成,圓形,顏色為白色或黃色,可以分為訓(xùn)練用球和比賽用球,等等;
單位UNI: 個(gè)、只、種、堆、些、袋、桶、籃子,等等;
評價(jià)EVA: 有彈性、軟、硬、新、舊、重、輕,等等;
施成AGE: 生產(chǎn)、制作、縫制,等等;
功用TEL: 打、擊打、拍,等等;
行為ACT: 滾動(dòng)、飛、彈動(dòng),等等;
處置HAN: 買、賣、扔、撿、拿、踢、發(fā)現(xiàn)、掏出、看見、發(fā)、接,等等;
(2) 句法格式:
S1: CON+(的+)_ | _+有+CON
如: 白色~ | 黃色~ | 圓形(的)~ | ~有橡皮 | ~有尼龍
S2: NUM+UNI+_
如: 一個(gè)~ | 一袋~ | 一些~ | 一桶~ | 一堆~ | 一籃子~ | 一只~ | 一種~
S3: EVA+的+_
如: 有彈性的~ | 軟的~ | 硬的~ | 新的~ | 舊的~ | 重的~ | 輕的~
S4: AGE+_
如: 生產(chǎn)~ | 制作~ | 縫制~
S5: TEL+__
如: 打~ | 擊打~ | 拍~
S6: _+ACT
如: ~(一直)滾動(dòng) | ~飛(起來) | ~(上下)彈動(dòng)
S7: HAN+_
如: 買~ | 賣~ | 扔~ | 撿~ | 拿~ | 踢~ | 發(fā)現(xiàn)~ | 掏出~ | 看見~ | 發(fā)~ | 接~
在啟發(fā)式(heuristic)規(guī)則(讓相關(guān)的目標(biāo)概念通過名詞或動(dòng)詞、形容詞的有關(guān)語義角色聯(lián)系起來)的指引下,我們挖掘和會(huì)聚上面對“網(wǎng)球”物性結(jié)構(gòu)和句法組合的有關(guān)描述信息,可以建立如下的概念關(guān)系網(wǎng)絡(luò),從而將“網(wǎng)球”、“網(wǎng)球拍”、“網(wǎng)球場”等概念串聯(lián)在一起。
圖7 “網(wǎng)球、網(wǎng)球拍、網(wǎng)球場”的概念關(guān)系網(wǎng)絡(luò)
“網(wǎng)球”這類名詞是“合成類名詞”(complex nouns),既有事件義的義面(semantic facet),也有事物義的義面。在圖7中,“網(wǎng)球1”和“網(wǎng)球2”分別表示“打網(wǎng)球”的事件和“圓形球體”的物質(zhì)?;凇熬W(wǎng)球2”的功用角色“打”和施成角色“制作”,它可以與“網(wǎng)球拍”建立指針式的鏈接,因?yàn)椤熬W(wǎng)球拍”也同時(shí)具有相同的功用和施成角色,從而這兩個(gè)概念被牢牢地綁定在一起。同時(shí),“網(wǎng)球”作為運(yùn)動(dòng)的事件義和作為實(shí)體的物質(zhì)義之間的關(guān)系可以預(yù)先在知識(shí)庫中綁定,設(shè)置“網(wǎng)球2”到“網(wǎng)球1”的自然鏈接,再通過利用“網(wǎng)球1”的構(gòu)成角色,實(shí)現(xiàn)“網(wǎng)球2”與“網(wǎng)球場”、“運(yùn)動(dòng)員”等概念的相互關(guān)聯(lián)。在此基礎(chǔ)上,最終形成一個(gè)以“網(wǎng)球”(包括網(wǎng)球1和網(wǎng)球2)為檢索核心的語義知識(shí)網(wǎng)絡(luò)。此外,在上述不同概念的語義關(guān)聯(lián)中,某些概念之間的聯(lián)系由于可以通過不同途徑得到鏈接從而得以強(qiáng)化。比如,“網(wǎng)球2”和“網(wǎng)球拍”,它們之間可以通過施成角色得到關(guān)聯(lián),也可以通過功用角色得到關(guān)聯(lián),還可以通過“網(wǎng)球1”的構(gòu)成角色得到關(guān)聯(lián)。隨著這種關(guān)聯(lián)次數(shù)和類型的不斷增多,它們之間的概念聯(lián)想關(guān)系也不斷得到強(qiáng)化。由此,我們可以預(yù)測: “網(wǎng)球”和“網(wǎng)球拍”之間的語義緊密程度應(yīng)該是非常高的,相對于其他事物來說,“網(wǎng)球拍”可能是“網(wǎng)球”最容易激活的事物??梢?,這種語義學(xué)理論具有很強(qiáng)的心理現(xiàn)實(shí)性。
下面來看“生日”的詞條信息、物性結(jié)構(gòu)和句法配置信息。
生日 shēnɡrì〈名詞,積極〉(人)出生的日子。也指每年滿周歲的那一天,即每年跟出生日相同的日子。
(1) 物性角色
形式FOR: 時(shí)間、節(jié)日、值得慶祝和紀(jì)念的日子;
構(gòu)成CON: 生日作為節(jié)日,隱含了慶祝這種事件。慶祝生日是一種場景定義型事件,主要由生日蛋糕、生日蠟燭、生日歌、生日禮物、生日卡片、生日聚會(huì)、生日舞會(huì)等場景要素構(gòu)成;
單位UNI: 次、個(gè),等等;
評價(jià)EVA: 難忘、特殊、普通、記憶深刻、低調(diào),等等;
功用TEL: 慶祝、紀(jì)念、過,等等;
行為ACT: 到來、來臨,等等;
處置HAN: 記住、迎來,等等;
(2) 句法格式
S1: _+CON
如: ~蛋糕 | ~蠟燭 | ~禮物 | ~卡片 | ~歌 | ~聚會(huì) | ~舞會(huì)
S2: NUM+UNI+_
如: 一個(gè)~ | 一次~
S3: EVA+的+_
如: 難忘的~ | 特殊的~ | 普通的~ | 記憶深刻的~ | 低調(diào)的~
S4: TEL+__
如: 慶祝~ | 紀(jì)念~ | 過~
S5: __+ACT
如: ~到來 | ~來臨
S6: HAN+_
如: 記住~ | 迎來~
同樣,在讓相關(guān)的目標(biāo)概念通過名詞、動(dòng)詞和形容詞等的語義角色會(huì)聚到一起這種啟發(fā)式規(guī)則的指引下,通過挖掘和組織上面對“生日”物性結(jié)構(gòu)和句法組合的有關(guān)描述信息,我們可以建立如下的概念關(guān)系網(wǎng)絡(luò),將“生日”、“蛋糕”、“蠟燭”等概念串聯(lián)在一起(圖8)。
圖8 “生日、蠟燭、蛋糕”的概念關(guān)系網(wǎng)絡(luò)
上圖中,“生日”和“蠟燭、蛋糕”可以通過兩種途徑獲得關(guān)聯(lián)。一方面,作為場景定義型名詞“生日”,它的構(gòu)成角色中包括“蛋糕”和“蠟燭”這類事物,可以據(jù)此建立它們之間的直接聯(lián)系,比如“生日蠟燭”、“生日蛋糕”。另一方面,“生日”、“蠟燭”和“蛋糕”可以通過它們各自與相關(guān)動(dòng)詞的組合形成短語結(jié)構(gòu),進(jìn)而在短語結(jié)構(gòu)的基礎(chǔ)上建立語義關(guān)聯(lián),實(shí)現(xiàn)間接的聯(lián)系。比如,以“蠟燭”(或“蛋糕”)的功用角色“點(diǎn)”(或“吃”)為基礎(chǔ)形成短語結(jié)構(gòu)“點(diǎn)蠟燭”(或“吃蛋糕”),以“生日”的功用角色“慶?!睘榛A(chǔ)形成短語結(jié)構(gòu)“慶祝生日”;隨后進(jìn)一步確認(rèn)“點(diǎn)蠟燭”(或“吃蛋糕”)和“慶祝生日”之間的功用(或“目的”)語義關(guān)系,即“點(diǎn)蠟燭”(或“吃蛋糕”)的目的是為了“慶祝生日”。同時(shí),“慶祝生日”這一事件又是由“點(diǎn)蠟燭”、“吃蛋糕”等常規(guī)(routine)的子事件(sub-event)構(gòu)成的。至于“蠟燭”和“蛋糕”,一方面可以由它們各自的構(gòu)成角色中都有“生日”作為分類屬性來關(guān)聯(lián);另一方面,也可以通過它們的共同施成角色“制作”獲得關(guān)聯(lián)?;谶@樣一種語義推導(dǎo)關(guān)系,可以為計(jì)算機(jī)理解“生日”和“蠟燭”、“蛋糕”之間的語義關(guān)系提供一種有效的知識(shí)表示和詞匯語義資源。
利用物性結(jié)構(gòu)知識(shí),描繪諸如“網(wǎng)球、網(wǎng)球拍、網(wǎng)球場”和“生日、蛋糕、蠟燭”這種基于情景聯(lián)想關(guān)系的名詞的語義網(wǎng)絡(luò),相較于我們之前討論過的其他詞匯語義知識(shí)庫有下面幾個(gè)優(yōu)點(diǎn):
1. 物性結(jié)構(gòu)知識(shí)庫以名詞為主要描寫對象,通過對名詞相關(guān)語義和句法信息的描寫,構(gòu)建屬性、動(dòng)作和事物之間相互關(guān)聯(lián)的語義網(wǎng)絡(luò)。這一做法不同于VerbNet、FrameNet等以動(dòng)詞為核心的知識(shí)庫構(gòu)建體系,在一定程度上是對動(dòng)詞句法語義信息描寫的補(bǔ)充,對于“網(wǎng)球問題”的解決具有重要的作用;
2. 在物性結(jié)構(gòu)知識(shí)庫中,相同的語義信息是不同的詞語相互關(guān)聯(lián)的紐帶,知識(shí)庫網(wǎng)絡(luò)的構(gòu)建得益于這些具有鏈接作用的語義信息。在這種詞匯本體知識(shí)庫中,可以以特定詞語為檢索項(xiàng)尋找不同概念之間的語義關(guān)系。這彌補(bǔ)了作為單純性情景聯(lián)想關(guān)系網(wǎng)絡(luò)的概念知識(shí)庫ConceptNet不便于詞匯檢索和查找的不足;
3. 物性結(jié)構(gòu)知識(shí)庫一方面關(guān)注不同概念之間基于世界知識(shí)的語義聯(lián)系,同時(shí)也注重詞語之間的組合關(guān)系,尤其是各種不同物性角色與名詞在句法配置上的組合信息。跟單純的基于常識(shí)知識(shí)的ConceptNet相比,物性結(jié)構(gòu)知識(shí)庫在對語言事實(shí)的挖掘和呈現(xiàn)上更加深入,在不同概念之間的關(guān)聯(lián)方面也更加精細(xì);
4. 物性結(jié)構(gòu)知識(shí)庫為不同概念之間設(shè)置了動(dòng)作指針鏈接,即特定的動(dòng)詞將兩個(gè)名詞關(guān)聯(lián)在一起,形成了“謂詞-論元”式的語義關(guān)系圖式。這樣做,一方面便于跟文本中相關(guān)的句子進(jìn)行匹配;另一方面,也便于跟VerbNet、FrameNet等以動(dòng)詞為核心的詞匯知識(shí)庫進(jìn)行整合。
5. 我們早先已經(jīng)開發(fā)出了漢語謂詞(動(dòng)詞、形容詞)論元結(jié)構(gòu)知識(shí)庫,正好可以跟現(xiàn)在正在開發(fā)的漢語名詞物性結(jié)構(gòu)知識(shí)庫整合;在有關(guān)目標(biāo)詞匯概念的驅(qū)動(dòng)下,挖掘和發(fā)現(xiàn)相關(guān)詞匯概念之間的語義聯(lián)系和常識(shí)性推理關(guān)系。
詞匯語義知識(shí)庫作為自然語言處理的一種特殊的知識(shí)資源,其建立的目的是要提供一個(gè)大規(guī)模的詞匯語義及相關(guān)世界知識(shí)的知識(shí)庫,這個(gè)知識(shí)庫應(yīng)該能夠較好地揭示詞匯概念與詞匯概念之間以及概念與屬性之間的關(guān)系,從而為文本語義的計(jì)算分析提供可靠的基礎(chǔ)。不過,由于不同的語義資源是由不同的研究者為了不同的理論或應(yīng)用目的開發(fā)出來的,在描寫的語義內(nèi)容、呈現(xiàn)格式等方面具有不同的類型;因而,就有了如何將這些不同的語義資源相互取長補(bǔ)短、統(tǒng)一并整合起來的問題(袁毓林2008)。
目前比較主流的幾種語義知識(shí)資源庫,在設(shè)計(jì)和應(yīng)用方面都有自己的特點(diǎn)。例如,WordNet注重從聚合的角度對詞語之間的語義關(guān)系進(jìn)行描寫,為我們提供了極為豐富的詞匯語義信息,這些信息對于自然語言處理中的語義分析是非常有用的;VerbNet在動(dòng)詞的句法和語義之間建立起一種有效和有用的鏈接,把句法—語義上具有相似表現(xiàn)的動(dòng)詞聚成一個(gè)類別,提供了更多的句法和語義的連貫性,并且建立了與其他詞匯資源的映射[27-28];基于框架語義學(xué)的FrameNet在語義框架下驗(yàn)證相關(guān)的一批詞在某種意義下語義和句法結(jié)構(gòu)的各種表現(xiàn)形式,為使用者提供了一部內(nèi)容豐富的語義和用法詞典,同時(shí)在信息抽取、問題回答等自然語言理解領(lǐng)域也得到應(yīng)用;建立在常識(shí)推理基礎(chǔ)上的ConceptNet,將日常生活中的百科知識(shí)納入到其構(gòu)建的基于情景聯(lián)想的概念網(wǎng)絡(luò)之中,為主題發(fā)現(xiàn)、文本分類、情感評價(jià)等提供了有用的知識(shí)庫。但是,這幾種語義知識(shí)庫在解決“網(wǎng)球問題”方面,都存在一定程度上的局限性。本文建議,在謂詞(動(dòng)詞、形容詞)的論元結(jié)構(gòu)知識(shí)庫的基礎(chǔ)上,再以生成詞庫論中的物性結(jié)構(gòu)知識(shí)為理論框架,并配置相關(guān)詞項(xiàng)的句法組合信息,來建構(gòu)名詞的物性結(jié)構(gòu)知識(shí)庫,最后把謂詞與名詞的語義角色關(guān)系雙向連接來解決“網(wǎng)球問題”。這樣,通過利用不同詞語(名詞、動(dòng)詞、形容詞)所共有的語義信息作為指針鏈接,構(gòu)建相關(guān)詞語之間的概念關(guān)系網(wǎng)絡(luò),把事物和跟事物相關(guān)的事件的有關(guān)世界知識(shí)及其語言表達(dá)形式表示出來,最終形成以名詞(實(shí)體)為檢索核心的、面向?qū)ο?object orientation)的語義知識(shí)庫。
幸運(yùn)的是,目前發(fā)展迅速的知識(shí)圖譜(knowledge graph)技術(shù)正好為上述語義會(huì)聚(converge)和關(guān)聯(lián)(connection)提供了知識(shí)表示和數(shù)據(jù)庫技術(shù)支持。
[1] Fellbaum Christiane (ed.) WordNet: An Electronic Lexical Database [M]. Cambridge, Massachusetts: MIT Press, 1998.
[2] Miller G A, Fellbaum Christiane. WordNet then and now [J]. Lang Resources & Evaluation, 2007, 41: 209-214.
[3] Miller G A, Beckwith Richard, Fellbaum Christiane, Gross Derek, Miller K J. Introduction to WordNet: An On-line Lexical Database [J]. International Journal of Lexicography, 1990, 3(4): 236-244.
[4] 黃居仁. 語意網(wǎng)與中文信息化前瞻: 知識(shí)本體與自然語言處理[C]//孫茂松、陳群秀. 自然語言理解和大規(guī)模內(nèi)容計(jì)算. 北京: 清華大學(xué)出版社,2005: 1-10.
[5] 袁毓林. 語義資源建設(shè)的最新趨勢和長遠(yuǎn)目標(biāo)——通過影射對比、走向統(tǒng)一聯(lián)合、實(shí)現(xiàn)自動(dòng)推理[J]. 中文信息學(xué)報(bào),2008,22(3): 3-15.
[6] 索緒爾. 普通語言學(xué)教程[M]. 北京: 商務(wù)印書館,1980.
[7] Warrington E K, Shallice T. Category specific semantic impairments [J]. Brain, 1984, 107(3): 829-853.
[8] Lin E L, Murphy G L. Thematic relations in adults’ concept [J]. Journal of Experimental Psychology: General, 2001, 130(1): 3-28.
[9] Altmann G. Thematic role assignment in context [J]. Journal of Memory and Language,1999, 41 (1): 124-145.
[10] Warren T, McConnel K. Investigating effects of selectional restriction violations and plausibility violation severity on eye-movement in reading [J]. Psychonomic bulletin & review, 2007, 14: 770-775.
[11] Kipper Karin, Dang H T, Palmer Martha. Class-Based Construction of a Verb Lexicon[C]//AAAI-2000 Seventeenth National Conference on Artificial Intelligence, Austin, TX, July 30-August 3, 2000.
[12] Fillmore C J, Johnson C R, Petruck M R. Background to FrameNet[J]. International Journal of Lexicography, 2003, 16 (3): 236-250.
[13] Fillmore C J. Frame Semantics[C]//Linguistics in the Moring Calm. Seoul: Hanshin Publishing Co., 1982:111-137.
[14] Baker F Collin, Charles J Fillmore, John B. Lowe. The Berkeley FrameNet Project[C]//Proceedings of the 17th International Conference on Computational Linguistics the 36th Annual Meeting on Association for Computational Linguistics, Montreal, Canada, 1998: 86-90.
[15] Henderson Harry. Milestones in Discovery and Invention: Artificial Intelligence [M]. Shanghai: Shanghai Science & Technological Literature Publishing House, 2007.
[16] Liu H, Singh P. ConceptNet-a practical commonsense reasoning toolkit [J]. BT Technology Journal, 2004, 22(4): 211-226.
[17] 袁毓林. 信息抽取的語義知識(shí)資源研究[J]. 中文信息學(xué)報(bào),2002,16(5): 8-14.
[18] Pustejovsky J. The Generative Lexicon [J]. Computational linguistics, 1991, 17(4): 409-441.
[19] Pustejovsky J. The Generative Lexicon [M]. Cambridge, Massachusetts: MIT Press, 1995.
[20] Pustejovsky J, Bouillon P, Isahara H, et al. Advances in Generative Lexicon Theory[M]. Dordrecht: Springer, 2013.
[21] 吳國向,袁毓林. 詞匯本體語義學(xué)的實(shí)證性研究[R].第五屆當(dāng)代語言學(xué)國際圓桌會(huì)議,南京: 南京師范大學(xué),2013.10.
[22] Geeraerts Dirk. Theories of Lexical Semantics [M]. New York: Oxford University Press Inc., 2010.
[23] Pustejovsky James. Coercion in a general theory of argument selection [J]. Linguistics, 2011, 49 (6): 1401-1431.
[24] Moravcsik J M. Aitia as generative factor in Aristotle’s philosophy [J]. Dialogue, 1975, 14(4): 622-638.
[25] 袁毓林. 基于生成詞庫論和論元結(jié)構(gòu)理論的語義知識(shí)體系研究[J]. 中文信息學(xué)報(bào),2013,27(6): 23-30.
[26] 袁毓林. 漢語名詞物性結(jié)構(gòu)的描寫體系和運(yùn)用案例[J]. 當(dāng)代語言學(xué),2014,16(1): 31-48.
[27] Loper Edward. PropBank, VerbNet & SemLink[R]. Joint Meeting of the ACL/SIGSEM Working Group on Representation of Multimodal Semantic Information and the ISO Task Domain Group on Semantic Content Representation. Tilburg, the Netherlands. 2007.
[28] Loper Edward, Szu-ting Yi, Palmer Martha. Combining Lexical Resources: Mapping between PropBank and VerbNet[C]//Proceedings of the 7th International Workshop on Computational Linguistics. Tilburg, Netherlands. 2006.