沈 威
(華中師范大學(xué) 語(yǔ)言與語(yǔ)言教育研究中心,湖北 武漢430079)
近年來(lái),中文信息處理技術(shù)取得了一定的成績(jī).總的來(lái)講,在字、詞處理方面的技術(shù)比較成熟,而在句子層面的研究則相對(duì)薄弱.在字、詞等方面,尤其是上世紀(jì)80年代之后,漢語(yǔ)的字、詞方面的各種研究得到了較快的發(fā)展.比如在分詞算法上,全切分分詞方法、最短路徑分詞方法、N-最短路徑分詞方法、基于隱馬爾科夫模型(HMM)或n元語(yǔ)法(n-gram)的分詞方法等一系列分詞方法相繼提出.而且,還出現(xiàn)了一批有指導(dǎo)性、代表性的文獻(xiàn)和工具,比如《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》和“知網(wǎng)”.這些成果的出現(xiàn)顯示出現(xiàn)階段中文信息處理在字、詞方面的研究已經(jīng)相當(dāng)成熟.不過(guò)盡管中文信息處理目前取得的成績(jī)是巨大的,但還是存在不少問(wèn)題.
中文信息處理是一個(gè)融合了認(rèn)知科學(xué)、數(shù)學(xué)、邏輯學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科知識(shí)的綜合性學(xué)科.它所面臨的問(wèn)題往往是復(fù)雜的.目前仍面臨著許多尚未解決,也不好解決的難題.比如,從目前情況來(lái)看,僅僅是歧義的消解就已經(jīng)讓自然語(yǔ)言處理研究者力不從心,更何況在實(shí)際的語(yǔ)言運(yùn)用中,還有諸如隱喻、幽默、夸張、雙關(guān)等修辭手法的運(yùn)用.[1]
特別是在中文信息處理領(lǐng)域中,對(duì)小句的研究還相對(duì)不足.比如現(xiàn)在熱門的各種搜索引擎仍舊是以詞項(xiàng)為主要匹配手段.而漢語(yǔ)中人們交流的形式是小句,各種專家系統(tǒng)中人與機(jī)器的交流形式也是小句,中文信息處理迫切需要對(duì)小句有足夠的認(rèn)識(shí),那么首要的問(wèn)題就是要對(duì)小句進(jìn)行準(zhǔn)確、細(xì)致的建模.
相對(duì)于字、詞已經(jīng)取得的豐碩成果,中文信息處理對(duì)句子層面的研究就顯得非常不足了.目前對(duì)小句進(jìn)行本體建模的文章極少,而且所建的本體模型要么不太完善要么不太準(zhǔn)確,都或多或少存在著這樣那樣的問(wèn)題.[2]在這個(gè)大環(huán)境下,要想中文信息處理在句子層面有所突破,最關(guān)鍵的第一步就是建立一個(gè)科學(xué)的小句本體模型.而如何將傳統(tǒng)的小句本體知識(shí)應(yīng)用于中文信息處理,首先要解決的就是建立一個(gè)以小句為中心的句法標(biāo)注體系.[3]
本體(Ontology)最開始是在哲學(xué)領(lǐng)域中出現(xiàn)的,哲學(xué)中對(duì)本體的定義為:“系統(tǒng)地對(duì)世界上客觀存在物的描述.”哲學(xué)中的本體關(guān)心的是客觀現(xiàn)實(shí)的一種抽象本質(zhì).自哲學(xué)領(lǐng)域?qū)Ρ倔w做了定義之后,其它許多學(xué)科和學(xué)者也都給本體下過(guò)定義,其中以Gruber給出的定義影響最大.“本體是概念化的明確的規(guī)范說(shuō)明”.[4-5]后來(lái)Studer等人總結(jié)前人的相關(guān)定義描述,將本體的描述概括為“共享概念化的形式的明確規(guī)范”.[6]
本體的主要目標(biāo)是對(duì)相關(guān)領(lǐng)域的知識(shí)進(jìn)行搜集和分類,確定這個(gè)領(lǐng)域內(nèi)部人們普遍認(rèn)可的詞匯,并從各個(gè)不同層級(jí)的形式化模式上標(biāo)明詞匯之間的各種復(fù)雜的聯(lián)系.信息處理領(lǐng)域中本體是人們公認(rèn)的最重要的成分之一.
UML(unifiied modeling language)是一種面向?qū)ο蟮慕UZ(yǔ)言,它是運(yùn)用統(tǒng)一的、標(biāo)準(zhǔn)化的標(biāo)記和定義實(shí)現(xiàn)對(duì)任何具有靜態(tài)結(jié)構(gòu)和動(dòng)態(tài)行為的系統(tǒng)進(jìn)行面向?qū)ο蟮拿枋龊徒?運(yùn)用UML對(duì)小句本體進(jìn)行建模可以保證模型的通用性,所以本文將利用UML對(duì)小句進(jìn)行靜態(tài)的本體建模.
人們平時(shí)說(shuō)話都會(huì)用到小句,或者由小句構(gòu)成的復(fù)句、句群.人們說(shuō)話就是一種表述.小句是最小的具有表述性和獨(dú)立性的語(yǔ)法單位.
所謂具有表述性,是指能夠闡明言者的表達(dá)意圖,不能含糊不清.所謂獨(dú)立性,是指小句作為一個(gè)實(shí)體不能作為別的小句的組成部分.[5]比如:
(1)今天星期一.
(2)我知道今天星期一.
(3)由于外面在下雨,所以我遲到了.
這三例中,第一例是小句.第二例也是小句,但是第二例中的“今天星期一”不是小句,因?yàn)椤敖裉煨瞧谝弧北话谛【洹拔抑澜裉煨瞧谝弧崩?第三例是由兩個(gè)分句“由于外面在下雨”和“所以我遲到了”組合而成的復(fù)句.
有時(shí),即使是由一個(gè)嘆詞構(gòu)成的疑問(wèn)句或感嘆句,實(shí)際上也跟深層潛在的判斷存在關(guān)系.比如:
(4)哦?
(5)哼!
第一個(gè)例子是由一個(gè)嘆詞構(gòu)成的疑問(wèn)句,在特定的語(yǔ)境中可能跟“想不到會(huì)這樣”之類的判斷存在聯(lián)系;第二個(gè)是由一個(gè)嘆詞構(gòu)成的感嘆句,在特定的語(yǔ)境中可能跟“你想得美”之類的判斷存在聯(lián)系.
小句在漢語(yǔ)的各級(jí)各類語(yǔ)法單位中占有主導(dǎo)地位,換句話說(shuō),居于中樞地位的是小句.[6]小句之所以能夠統(tǒng)領(lǐng)漢語(yǔ)的其他語(yǔ)法單位如詞、短語(yǔ)、復(fù)句、句群等而居于核心地位,是基于以下三個(gè)方面的因素:
2.2.1 小句在各級(jí)各類語(yǔ)法實(shí)體中,所具備的各種語(yǔ)法因素最為齊全
相對(duì)于句子語(yǔ)氣、語(yǔ)素、詞、短語(yǔ)、復(fù)句、句群等語(yǔ)法單位而言,小句所包含的語(yǔ)法因素種類最多.
2.2.2 小句在各級(jí)各類語(yǔ)法實(shí)體中,具有中樞地位
漢語(yǔ)包含多種語(yǔ)法實(shí)體,而只有小句和其他各種語(yǔ)法實(shí)體有直接聯(lián)系,處于核心地位.具體來(lái)說(shuō),人們?cè)谡f(shuō)話表達(dá)意圖時(shí),小句和句子的語(yǔ)氣是直接聯(lián)系的;在小句的內(nèi)部構(gòu)成部件上,詞、短語(yǔ)和小句是直接相關(guān)的;在小句之外更大的語(yǔ)法單位來(lái)看,復(fù)句和句群也都是由小句構(gòu)成的.
2.2.3 在漢語(yǔ)的各級(jí)各類語(yǔ)法實(shí)體中,其它實(shí)體均依附于小句,處于從屬地位
由于小句具有承上啟下的重要功能,使得只有小句能約束其它的語(yǔ)法實(shí)體,其它語(yǔ)法實(shí)體都必須依附于小句.[7]具體來(lái)講:
2.2.3.1 句子語(yǔ)氣 依附于小句
準(zhǔn)確一點(diǎn)來(lái)講,應(yīng)該是句子語(yǔ)氣粘附于小句直接構(gòu)件,從而形成小句.
比如“今天星期四”是小句直接構(gòu)件,那么只要陳述語(yǔ)氣粘附于這個(gè)構(gòu)件,就會(huì)形成陳述句“今天星期四”.倘若是疑問(wèn)語(yǔ)氣粘附于這個(gè)構(gòu)件,就會(huì)形成疑問(wèn)句“今天星期四?”
2.2.3.2 復(fù)句和句群 依賴于小句
復(fù)句是由分句和分句聯(lián)結(jié)而成,而分句也可以看做是一種特殊的小句,可以說(shuō)沒(méi)有小句,也就沒(méi)有復(fù)句.
句群是由兩個(gè)或兩個(gè)以上的句子構(gòu)成.構(gòu)成“句群”的成分“句”既可以是單句成分的小句,也可以是由以小句為基礎(chǔ)的分句聯(lián)結(jié)而成的復(fù)句.
(6)今天下午老師有事,下午的課取消了.
(7)學(xué)校里走不開?不認(rèn)識(shí)到這里的路?車胎漏氣了?路上出了麻煩?
這兩例中,前一例是個(gè)因果復(fù)句,這個(gè)復(fù)句由兩個(gè)分句“今天下午老師有事”和“下午的課取消了”聯(lián)結(jié)而成.后一例是個(gè)句群,這個(gè)句群由四個(gè)小句“學(xué)校里走不開?”“不認(rèn)識(shí)到這里的路?”“車胎漏氣了?”“路上出了麻煩?”組成.
總而言之,復(fù)句和句群離不開小句.
2.2.3.3 詞 受控于小句
漢語(yǔ)語(yǔ)法系統(tǒng)中的詞獨(dú)立存在于小句之外,但是卻是受控于小句的.詞,只有跟小句發(fā)生聯(lián)系之后,才能明確顯示其語(yǔ)法特性和語(yǔ)法職能,才能發(fā)揮特定的語(yǔ)法作用.
比如:
(8)這是一個(gè)標(biāo)志,標(biāo)志著人類正在走向互相了解,走向互相尊重.(邊霞遐《化劍為犁》)
這一例中,第一個(gè)“標(biāo)志”出現(xiàn)在賓語(yǔ)部分里,受“一個(gè)”的修飾,這一語(yǔ)法環(huán)境把它規(guī)約為名詞;第二個(gè)“標(biāo)志”出現(xiàn)在謂語(yǔ)部分里,帶了動(dòng)態(tài)助詞“著”,而且后面出現(xiàn)了賓語(yǔ)“人類正在走向互相了解,走向互相尊重”,這一語(yǔ)法環(huán)境把第二個(gè)“標(biāo)志”規(guī)約為動(dòng)詞.“入句顯類”,這是詞性句規(guī)約的重要表現(xiàn).
2.2.3.4 短語(yǔ) 從屬于小句.
絕大多數(shù)的短語(yǔ),不像詞那樣獨(dú)立存在于句子之外.從總體上看,在漢語(yǔ)語(yǔ)法系統(tǒng)中,短語(yǔ)實(shí)際上從屬于小句,為小句所管控.這可以從三個(gè)方面來(lái)觀察.
①短語(yǔ)的具體組合,為造句的具體需要所決定.
絕大多數(shù)的短語(yǔ),都是自由短語(yǔ).它們具有組合的臨時(shí)性和可變性.也就是說(shuō),短語(yǔ)究竟由哪個(gè)結(jié)構(gòu)成分跟哪個(gè)結(jié)構(gòu)成分組合而成,完全取決于小句表述意旨的臨時(shí)需要,非常靈活.比如:
(9)他這幾天要跑錢.(哪有心思跟你們聊天?。?/p>
(10)他這幾天要跑票.(哪有心思跟你們聊天?。?/p>
(11)他這幾天要跑官.(哪有心思跟你們聊天?。?/p>
單獨(dú)說(shuō)“跑錢”“跑票”“跑官”,聽起來(lái)也許不知所云,但出現(xiàn)在“他這幾天要X”的小句中,它們的意思就比較明確了.“跑錢”,為弄到錢而奔跑;“跑票”,為弄到票而奔跑;“跑官”,為弄到官職而奔跑.
②短語(yǔ)的結(jié)構(gòu)類型是包容在小句的結(jié)構(gòu)類型之中的.
短語(yǔ)所具有的的結(jié)構(gòu)類型如“動(dòng)賓”“主謂”“定心”“狀心”“心補(bǔ)”等,沒(méi)有一種不在小句結(jié)構(gòu)類型的包容之中.短語(yǔ)的結(jié)構(gòu)類型在小句中全都可以找到.請(qǐng)看例子:
(12)買五個(gè)蘋果!
(13)今天我請(qǐng)毓芳同云霖看電影.
(14)好漂亮的蝴蝶!
(15)非常不錯(cuò)!
(16)累得在床上躺了三天三夜.
例(12)~例(16)的例子去掉句末標(biāo)點(diǎn)就分別變成了相應(yīng)的動(dòng)賓、主謂、定心、狀心、心補(bǔ)短語(yǔ).
③短語(yǔ)的語(yǔ)義內(nèi)涵,為小句的結(jié)構(gòu)格局所顯示.[7]
看兩個(gè)例子:
(17)我們下午學(xué)習(xí)文件.
(18)我們下午領(lǐng)學(xué)習(xí)文件.
這兩例中,“學(xué)習(xí)文件”有不同的語(yǔ)義內(nèi)涵.前一例,“學(xué)習(xí)文件”被安置在謂語(yǔ)部分,是動(dòng)賓結(jié)構(gòu),表示行為.后一例,被安置在動(dòng)詞“領(lǐng)”的后面作其賓語(yǔ),是定心結(jié)構(gòu),表示事物.
本部分將利用UML對(duì)小句進(jìn)行本體建模.先介紹小句建模涉及到的概念以及概念與概念之間的關(guān)系.
小句本體建模里涉及到的概念有:句子語(yǔ)氣、語(yǔ)素、詞語(yǔ)、短語(yǔ)、成分詞、非成分詞、成分短語(yǔ)、非成分短語(yǔ)、關(guān)系類短語(yǔ)、標(biāo)志類短語(yǔ).
小句本體建模里各概念之間涉及到的關(guān)系有:
①公共領(lǐng)域本體和小句本體為聚合關(guān)系,且一個(gè)公共領(lǐng)域本體可以使用多個(gè)小句本體.
②小句和句子語(yǔ)氣的關(guān)系為組合關(guān)系,一個(gè)小句必須有而且只可以有一種語(yǔ)氣.
③句子語(yǔ)氣和陳述語(yǔ)氣、疑問(wèn)語(yǔ)氣、祈使語(yǔ)氣、感嘆語(yǔ)氣的關(guān)系為繼承關(guān)系.
④小句的構(gòu)件有兩個(gè)類型:詞語(yǔ)和短語(yǔ),小句和詞語(yǔ)、短語(yǔ)的關(guān)系為聚合關(guān)系.
⑤一個(gè)短語(yǔ)由兩個(gè)或兩個(gè)以上的詞語(yǔ)構(gòu)成,短語(yǔ)和詞語(yǔ)的關(guān)系為聚合關(guān)系.
⑥一個(gè)詞語(yǔ)由一個(gè)或一個(gè)以上的語(yǔ)素構(gòu)成,詞語(yǔ)和語(yǔ)素的關(guān)系為聚合關(guān)系.
⑦詞語(yǔ)按照能否作句法成分,又可以分為成分詞和非成分詞.詞語(yǔ)與成分詞、非成分詞的關(guān)系為聚合關(guān)系.
⑧成分詞分為名詞、動(dòng)詞、形容詞、副詞、數(shù)詞、量詞、代詞、擬音詞.成分詞和名詞、動(dòng)詞等詞之間為繼承關(guān)系.
⑨非成分詞分為介詞、連詞、助詞.非成分詞和介詞、連詞、助詞之間為繼承關(guān)系.
⑩短語(yǔ)根據(jù)是否可做句子成分分為成分短語(yǔ)和非成分短語(yǔ).短語(yǔ)與成分短語(yǔ)、非成分短語(yǔ)之間為聚合關(guān)系.
?成分短語(yǔ)可以從結(jié)構(gòu)的角度和功能的角度分為結(jié)構(gòu)類短語(yǔ)和功能類短語(yǔ).成分短語(yǔ)和結(jié)構(gòu)類短語(yǔ)、功能類短語(yǔ)之間的關(guān)系為聚合關(guān)系.
?結(jié)構(gòu)類短語(yǔ)根據(jù)結(jié)構(gòu)成分之間的語(yǔ)義關(guān)系是否清晰可分為結(jié)構(gòu)關(guān)系類短語(yǔ)和結(jié)構(gòu)標(biāo)志類短語(yǔ).結(jié)構(gòu)類短語(yǔ)與結(jié)構(gòu)關(guān)系類短語(yǔ)、結(jié)構(gòu)標(biāo)志類短語(yǔ)之間為聚合關(guān)系.
?結(jié)構(gòu)關(guān)系類短語(yǔ)又可根據(jù)組成成分之間是否平等分為成分配對(duì)式短語(yǔ)和依次排列式短語(yǔ).結(jié)構(gòu)關(guān)系類短語(yǔ)與成分配對(duì)式短語(yǔ)、依次排列式短語(yǔ)之間為聚合關(guān)系.
?成分配對(duì)式短語(yǔ)的類型有:主謂短語(yǔ)、動(dòng)賓短語(yǔ)、定心短語(yǔ)、狀心短語(yǔ)、心補(bǔ)短語(yǔ).成分配對(duì)式短語(yǔ)與主謂短語(yǔ)等短語(yǔ)之間為繼承關(guān)系.
?依次排列式短語(yǔ)可分為聯(lián)合短語(yǔ)和同位短語(yǔ).依次排列式短語(yǔ)與聯(lián)合短語(yǔ)和同位短語(yǔ)之間為繼承關(guān)系.
?結(jié)構(gòu)標(biāo)志類短語(yǔ)根據(jù)語(yǔ)表上的標(biāo)志可分為:能愿短語(yǔ)、“的”字短語(yǔ)、介詞短語(yǔ)、方位短語(yǔ)、趨向短語(yǔ)、比況短語(yǔ)、數(shù)量短語(yǔ).結(jié)構(gòu)標(biāo)志類短語(yǔ)和它們之間的關(guān)系為繼承關(guān)系.
?功能類短語(yǔ)包括名詞性短語(yǔ)、動(dòng)詞性短語(yǔ)和形容詞性短語(yǔ).功能類短語(yǔ)和它們之間的關(guān)系為繼承關(guān)系.
根據(jù)以上小句的概念以及各概念之間的關(guān)系,可以構(gòu)建圖1所示的小句本體模型圖.
圖1 小句本體模型
本文首先介紹了中文信息處理的研究現(xiàn)狀、本體的概念以及為什么選用UML來(lái)描述小句的本體模型;其次,本文較為詳細(xì)地介紹了漢語(yǔ)里小句的概念和內(nèi)涵以及小句為什么在漢語(yǔ)的各級(jí)各類語(yǔ)法實(shí)體里處于中樞地位?最后,本文對(duì)小句里包含的各種概念以及概念之間的關(guān)系進(jìn)行了分析,并利用UML對(duì)小句進(jìn)行了靜態(tài)的建模.本模型為中文信息處理領(lǐng)域的句處理打下了基礎(chǔ).今后有關(guān)漢語(yǔ)里句子語(yǔ)義的自動(dòng)理解,小句、復(fù)句乃至句群等方面的研究都可以利用本文所建立的小句本體模型.
下一步,我們將對(duì)小句本體模型圖中各個(gè)類的數(shù)據(jù)成員和方法逐一進(jìn)行實(shí)現(xiàn)、對(duì)小句構(gòu)件內(nèi)部各成員之間隱含的語(yǔ)義、語(yǔ)法關(guān)系進(jìn)行充分地挖掘并將其形式化,這些嘗試將對(duì)中文信息處理中的句處理起到推進(jìn)作用.
四川文理學(xué)院學(xué)報(bào)2019年2期