国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于UML的小句本體模型研究

2019-03-30 02:10
關(guān)鍵詞:復(fù)句本體短語(yǔ)

沈 威

(華中師范大學(xué) 語(yǔ)言與語(yǔ)言教育研究中心,湖北 武漢430079)

1 引言

1.1 目前中文信息處理的現(xiàn)狀

近年來(lái),中文信息處理技術(shù)取得了一定的成績(jī).總的來(lái)講,在字、詞處理方面的技術(shù)比較成熟,而在句子層面的研究則相對(duì)薄弱.在字、詞等方面,尤其是上世紀(jì)80年代之后,漢語(yǔ)的字、詞方面的各種研究得到了較快的發(fā)展.比如在分詞算法上,全切分分詞方法、最短路徑分詞方法、N-最短路徑分詞方法、基于隱馬爾科夫模型(HMM)或n元語(yǔ)法(n-gram)的分詞方法等一系列分詞方法相繼提出.而且,還出現(xiàn)了一批有指導(dǎo)性、代表性的文獻(xiàn)和工具,比如《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》和“知網(wǎng)”.這些成果的出現(xiàn)顯示出現(xiàn)階段中文信息處理在字、詞方面的研究已經(jīng)相當(dāng)成熟.不過(guò)盡管中文信息處理目前取得的成績(jī)是巨大的,但還是存在不少問(wèn)題.

中文信息處理是一個(gè)融合了認(rèn)知科學(xué)、數(shù)學(xué)、邏輯學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科知識(shí)的綜合性學(xué)科.它所面臨的問(wèn)題往往是復(fù)雜的.目前仍面臨著許多尚未解決,也不好解決的難題.比如,從目前情況來(lái)看,僅僅是歧義的消解就已經(jīng)讓自然語(yǔ)言處理研究者力不從心,更何況在實(shí)際的語(yǔ)言運(yùn)用中,還有諸如隱喻、幽默、夸張、雙關(guān)等修辭手法的運(yùn)用.[1]

特別是在中文信息處理領(lǐng)域中,對(duì)小句的研究還相對(duì)不足.比如現(xiàn)在熱門的各種搜索引擎仍舊是以詞項(xiàng)為主要匹配手段.而漢語(yǔ)中人們交流的形式是小句,各種專家系統(tǒng)中人與機(jī)器的交流形式也是小句,中文信息處理迫切需要對(duì)小句有足夠的認(rèn)識(shí),那么首要的問(wèn)題就是要對(duì)小句進(jìn)行準(zhǔn)確、細(xì)致的建模.

相對(duì)于字、詞已經(jīng)取得的豐碩成果,中文信息處理對(duì)句子層面的研究就顯得非常不足了.目前對(duì)小句進(jìn)行本體建模的文章極少,而且所建的本體模型要么不太完善要么不太準(zhǔn)確,都或多或少存在著這樣那樣的問(wèn)題.[2]在這個(gè)大環(huán)境下,要想中文信息處理在句子層面有所突破,最關(guān)鍵的第一步就是建立一個(gè)科學(xué)的小句本體模型.而如何將傳統(tǒng)的小句本體知識(shí)應(yīng)用于中文信息處理,首先要解決的就是建立一個(gè)以小句為中心的句法標(biāo)注體系.[3]

1.2 本體的概念

本體(Ontology)最開始是在哲學(xué)領(lǐng)域中出現(xiàn)的,哲學(xué)中對(duì)本體的定義為:“系統(tǒng)地對(duì)世界上客觀存在物的描述.”哲學(xué)中的本體關(guān)心的是客觀現(xiàn)實(shí)的一種抽象本質(zhì).自哲學(xué)領(lǐng)域?qū)Ρ倔w做了定義之后,其它許多學(xué)科和學(xué)者也都給本體下過(guò)定義,其中以Gruber給出的定義影響最大.“本體是概念化的明確的規(guī)范說(shuō)明”.[4-5]后來(lái)Studer等人總結(jié)前人的相關(guān)定義描述,將本體的描述概括為“共享概念化的形式的明確規(guī)范”.[6]

本體的主要目標(biāo)是對(duì)相關(guān)領(lǐng)域的知識(shí)進(jìn)行搜集和分類,確定這個(gè)領(lǐng)域內(nèi)部人們普遍認(rèn)可的詞匯,并從各個(gè)不同層級(jí)的形式化模式上標(biāo)明詞匯之間的各種復(fù)雜的聯(lián)系.信息處理領(lǐng)域中本體是人們公認(rèn)的最重要的成分之一.

1.3 為什么選擇UML對(duì)小句進(jìn)行建模

UML(unifiied modeling language)是一種面向?qū)ο蟮慕UZ(yǔ)言,它是運(yùn)用統(tǒng)一的、標(biāo)準(zhǔn)化的標(biāo)記和定義實(shí)現(xiàn)對(duì)任何具有靜態(tài)結(jié)構(gòu)和動(dòng)態(tài)行為的系統(tǒng)進(jìn)行面向?qū)ο蟮拿枋龊徒?運(yùn)用UML對(duì)小句本體進(jìn)行建模可以保證模型的通用性,所以本文將利用UML對(duì)小句進(jìn)行靜態(tài)的本體建模.

2 漢語(yǔ)中小句的中樞地位

2.1 小句的內(nèi)涵

人們平時(shí)說(shuō)話都會(huì)用到小句,或者由小句構(gòu)成的復(fù)句、句群.人們說(shuō)話就是一種表述.小句是最小的具有表述性和獨(dú)立性的語(yǔ)法單位.

所謂具有表述性,是指能夠闡明言者的表達(dá)意圖,不能含糊不清.所謂獨(dú)立性,是指小句作為一個(gè)實(shí)體不能作為別的小句的組成部分.[5]比如:

(1)今天星期一.

(2)我知道今天星期一.

(3)由于外面在下雨,所以我遲到了.

這三例中,第一例是小句.第二例也是小句,但是第二例中的“今天星期一”不是小句,因?yàn)椤敖裉煨瞧谝弧北话谛【洹拔抑澜裉煨瞧谝弧崩?第三例是由兩個(gè)分句“由于外面在下雨”和“所以我遲到了”組合而成的復(fù)句.

有時(shí),即使是由一個(gè)嘆詞構(gòu)成的疑問(wèn)句或感嘆句,實(shí)際上也跟深層潛在的判斷存在關(guān)系.比如:

(4)哦?

(5)哼!

第一個(gè)例子是由一個(gè)嘆詞構(gòu)成的疑問(wèn)句,在特定的語(yǔ)境中可能跟“想不到會(huì)這樣”之類的判斷存在聯(lián)系;第二個(gè)是由一個(gè)嘆詞構(gòu)成的感嘆句,在特定的語(yǔ)境中可能跟“你想得美”之類的判斷存在聯(lián)系.

2.2 小句的中樞地位

小句在漢語(yǔ)的各級(jí)各類語(yǔ)法單位中占有主導(dǎo)地位,換句話說(shuō),居于中樞地位的是小句.[6]小句之所以能夠統(tǒng)領(lǐng)漢語(yǔ)的其他語(yǔ)法單位如詞、短語(yǔ)、復(fù)句、句群等而居于核心地位,是基于以下三個(gè)方面的因素:

2.2.1 小句在各級(jí)各類語(yǔ)法實(shí)體中,所具備的各種語(yǔ)法因素最為齊全

相對(duì)于句子語(yǔ)氣、語(yǔ)素、詞、短語(yǔ)、復(fù)句、句群等語(yǔ)法單位而言,小句所包含的語(yǔ)法因素種類最多.

2.2.2 小句在各級(jí)各類語(yǔ)法實(shí)體中,具有中樞地位

漢語(yǔ)包含多種語(yǔ)法實(shí)體,而只有小句和其他各種語(yǔ)法實(shí)體有直接聯(lián)系,處于核心地位.具體來(lái)說(shuō),人們?cè)谡f(shuō)話表達(dá)意圖時(shí),小句和句子的語(yǔ)氣是直接聯(lián)系的;在小句的內(nèi)部構(gòu)成部件上,詞、短語(yǔ)和小句是直接相關(guān)的;在小句之外更大的語(yǔ)法單位來(lái)看,復(fù)句和句群也都是由小句構(gòu)成的.

2.2.3 在漢語(yǔ)的各級(jí)各類語(yǔ)法實(shí)體中,其它實(shí)體均依附于小句,處于從屬地位

由于小句具有承上啟下的重要功能,使得只有小句能約束其它的語(yǔ)法實(shí)體,其它語(yǔ)法實(shí)體都必須依附于小句.[7]具體來(lái)講:

2.2.3.1 句子語(yǔ)氣 依附于小句

準(zhǔn)確一點(diǎn)來(lái)講,應(yīng)該是句子語(yǔ)氣粘附于小句直接構(gòu)件,從而形成小句.

比如“今天星期四”是小句直接構(gòu)件,那么只要陳述語(yǔ)氣粘附于這個(gè)構(gòu)件,就會(huì)形成陳述句“今天星期四”.倘若是疑問(wèn)語(yǔ)氣粘附于這個(gè)構(gòu)件,就會(huì)形成疑問(wèn)句“今天星期四?”

2.2.3.2 復(fù)句和句群 依賴于小句

復(fù)句是由分句和分句聯(lián)結(jié)而成,而分句也可以看做是一種特殊的小句,可以說(shuō)沒(méi)有小句,也就沒(méi)有復(fù)句.

句群是由兩個(gè)或兩個(gè)以上的句子構(gòu)成.構(gòu)成“句群”的成分“句”既可以是單句成分的小句,也可以是由以小句為基礎(chǔ)的分句聯(lián)結(jié)而成的復(fù)句.

(6)今天下午老師有事,下午的課取消了.

(7)學(xué)校里走不開?不認(rèn)識(shí)到這里的路?車胎漏氣了?路上出了麻煩?

這兩例中,前一例是個(gè)因果復(fù)句,這個(gè)復(fù)句由兩個(gè)分句“今天下午老師有事”和“下午的課取消了”聯(lián)結(jié)而成.后一例是個(gè)句群,這個(gè)句群由四個(gè)小句“學(xué)校里走不開?”“不認(rèn)識(shí)到這里的路?”“車胎漏氣了?”“路上出了麻煩?”組成.

總而言之,復(fù)句和句群離不開小句.

2.2.3.3 詞 受控于小句

漢語(yǔ)語(yǔ)法系統(tǒng)中的詞獨(dú)立存在于小句之外,但是卻是受控于小句的.詞,只有跟小句發(fā)生聯(lián)系之后,才能明確顯示其語(yǔ)法特性和語(yǔ)法職能,才能發(fā)揮特定的語(yǔ)法作用.

比如:

(8)這是一個(gè)標(biāo)志,標(biāo)志著人類正在走向互相了解,走向互相尊重.(邊霞遐《化劍為犁》)

這一例中,第一個(gè)“標(biāo)志”出現(xiàn)在賓語(yǔ)部分里,受“一個(gè)”的修飾,這一語(yǔ)法環(huán)境把它規(guī)約為名詞;第二個(gè)“標(biāo)志”出現(xiàn)在謂語(yǔ)部分里,帶了動(dòng)態(tài)助詞“著”,而且后面出現(xiàn)了賓語(yǔ)“人類正在走向互相了解,走向互相尊重”,這一語(yǔ)法環(huán)境把第二個(gè)“標(biāo)志”規(guī)約為動(dòng)詞.“入句顯類”,這是詞性句規(guī)約的重要表現(xiàn).

2.2.3.4 短語(yǔ) 從屬于小句.

絕大多數(shù)的短語(yǔ),不像詞那樣獨(dú)立存在于句子之外.從總體上看,在漢語(yǔ)語(yǔ)法系統(tǒng)中,短語(yǔ)實(shí)際上從屬于小句,為小句所管控.這可以從三個(gè)方面來(lái)觀察.

①短語(yǔ)的具體組合,為造句的具體需要所決定.

絕大多數(shù)的短語(yǔ),都是自由短語(yǔ).它們具有組合的臨時(shí)性和可變性.也就是說(shuō),短語(yǔ)究竟由哪個(gè)結(jié)構(gòu)成分跟哪個(gè)結(jié)構(gòu)成分組合而成,完全取決于小句表述意旨的臨時(shí)需要,非常靈活.比如:

(9)他這幾天要跑錢.(哪有心思跟你們聊天?。?/p>

(10)他這幾天要跑票.(哪有心思跟你們聊天?。?/p>

(11)他這幾天要跑官.(哪有心思跟你們聊天?。?/p>

單獨(dú)說(shuō)“跑錢”“跑票”“跑官”,聽起來(lái)也許不知所云,但出現(xiàn)在“他這幾天要X”的小句中,它們的意思就比較明確了.“跑錢”,為弄到錢而奔跑;“跑票”,為弄到票而奔跑;“跑官”,為弄到官職而奔跑.

②短語(yǔ)的結(jié)構(gòu)類型是包容在小句的結(jié)構(gòu)類型之中的.

短語(yǔ)所具有的的結(jié)構(gòu)類型如“動(dòng)賓”“主謂”“定心”“狀心”“心補(bǔ)”等,沒(méi)有一種不在小句結(jié)構(gòu)類型的包容之中.短語(yǔ)的結(jié)構(gòu)類型在小句中全都可以找到.請(qǐng)看例子:

(12)買五個(gè)蘋果!

(13)今天我請(qǐng)毓芳同云霖看電影.

(14)好漂亮的蝴蝶!

(15)非常不錯(cuò)!

(16)累得在床上躺了三天三夜.

例(12)~例(16)的例子去掉句末標(biāo)點(diǎn)就分別變成了相應(yīng)的動(dòng)賓、主謂、定心、狀心、心補(bǔ)短語(yǔ).

③短語(yǔ)的語(yǔ)義內(nèi)涵,為小句的結(jié)構(gòu)格局所顯示.[7]

看兩個(gè)例子:

(17)我們下午學(xué)習(xí)文件.

(18)我們下午領(lǐng)學(xué)習(xí)文件.

這兩例中,“學(xué)習(xí)文件”有不同的語(yǔ)義內(nèi)涵.前一例,“學(xué)習(xí)文件”被安置在謂語(yǔ)部分,是動(dòng)賓結(jié)構(gòu),表示行為.后一例,被安置在動(dòng)詞“領(lǐng)”的后面作其賓語(yǔ),是定心結(jié)構(gòu),表示事物.

3 小句本體建模

本部分將利用UML對(duì)小句進(jìn)行本體建模.先介紹小句建模涉及到的概念以及概念與概念之間的關(guān)系.

小句本體建模里涉及到的概念有:句子語(yǔ)氣、語(yǔ)素、詞語(yǔ)、短語(yǔ)、成分詞、非成分詞、成分短語(yǔ)、非成分短語(yǔ)、關(guān)系類短語(yǔ)、標(biāo)志類短語(yǔ).

小句本體建模里各概念之間涉及到的關(guān)系有:

①公共領(lǐng)域本體和小句本體為聚合關(guān)系,且一個(gè)公共領(lǐng)域本體可以使用多個(gè)小句本體.

②小句和句子語(yǔ)氣的關(guān)系為組合關(guān)系,一個(gè)小句必須有而且只可以有一種語(yǔ)氣.

③句子語(yǔ)氣和陳述語(yǔ)氣、疑問(wèn)語(yǔ)氣、祈使語(yǔ)氣、感嘆語(yǔ)氣的關(guān)系為繼承關(guān)系.

④小句的構(gòu)件有兩個(gè)類型:詞語(yǔ)和短語(yǔ),小句和詞語(yǔ)、短語(yǔ)的關(guān)系為聚合關(guān)系.

⑤一個(gè)短語(yǔ)由兩個(gè)或兩個(gè)以上的詞語(yǔ)構(gòu)成,短語(yǔ)和詞語(yǔ)的關(guān)系為聚合關(guān)系.

⑥一個(gè)詞語(yǔ)由一個(gè)或一個(gè)以上的語(yǔ)素構(gòu)成,詞語(yǔ)和語(yǔ)素的關(guān)系為聚合關(guān)系.

⑦詞語(yǔ)按照能否作句法成分,又可以分為成分詞和非成分詞.詞語(yǔ)與成分詞、非成分詞的關(guān)系為聚合關(guān)系.

⑧成分詞分為名詞、動(dòng)詞、形容詞、副詞、數(shù)詞、量詞、代詞、擬音詞.成分詞和名詞、動(dòng)詞等詞之間為繼承關(guān)系.

⑨非成分詞分為介詞、連詞、助詞.非成分詞和介詞、連詞、助詞之間為繼承關(guān)系.

⑩短語(yǔ)根據(jù)是否可做句子成分分為成分短語(yǔ)和非成分短語(yǔ).短語(yǔ)與成分短語(yǔ)、非成分短語(yǔ)之間為聚合關(guān)系.

?成分短語(yǔ)可以從結(jié)構(gòu)的角度和功能的角度分為結(jié)構(gòu)類短語(yǔ)和功能類短語(yǔ).成分短語(yǔ)和結(jié)構(gòu)類短語(yǔ)、功能類短語(yǔ)之間的關(guān)系為聚合關(guān)系.

?結(jié)構(gòu)類短語(yǔ)根據(jù)結(jié)構(gòu)成分之間的語(yǔ)義關(guān)系是否清晰可分為結(jié)構(gòu)關(guān)系類短語(yǔ)和結(jié)構(gòu)標(biāo)志類短語(yǔ).結(jié)構(gòu)類短語(yǔ)與結(jié)構(gòu)關(guān)系類短語(yǔ)、結(jié)構(gòu)標(biāo)志類短語(yǔ)之間為聚合關(guān)系.

?結(jié)構(gòu)關(guān)系類短語(yǔ)又可根據(jù)組成成分之間是否平等分為成分配對(duì)式短語(yǔ)和依次排列式短語(yǔ).結(jié)構(gòu)關(guān)系類短語(yǔ)與成分配對(duì)式短語(yǔ)、依次排列式短語(yǔ)之間為聚合關(guān)系.

?成分配對(duì)式短語(yǔ)的類型有:主謂短語(yǔ)、動(dòng)賓短語(yǔ)、定心短語(yǔ)、狀心短語(yǔ)、心補(bǔ)短語(yǔ).成分配對(duì)式短語(yǔ)與主謂短語(yǔ)等短語(yǔ)之間為繼承關(guān)系.

?依次排列式短語(yǔ)可分為聯(lián)合短語(yǔ)和同位短語(yǔ).依次排列式短語(yǔ)與聯(lián)合短語(yǔ)和同位短語(yǔ)之間為繼承關(guān)系.

?結(jié)構(gòu)標(biāo)志類短語(yǔ)根據(jù)語(yǔ)表上的標(biāo)志可分為:能愿短語(yǔ)、“的”字短語(yǔ)、介詞短語(yǔ)、方位短語(yǔ)、趨向短語(yǔ)、比況短語(yǔ)、數(shù)量短語(yǔ).結(jié)構(gòu)標(biāo)志類短語(yǔ)和它們之間的關(guān)系為繼承關(guān)系.

?功能類短語(yǔ)包括名詞性短語(yǔ)、動(dòng)詞性短語(yǔ)和形容詞性短語(yǔ).功能類短語(yǔ)和它們之間的關(guān)系為繼承關(guān)系.

根據(jù)以上小句的概念以及各概念之間的關(guān)系,可以構(gòu)建圖1所示的小句本體模型圖.

圖1 小句本體模型

結(jié) 語(yǔ)

本文首先介紹了中文信息處理的研究現(xiàn)狀、本體的概念以及為什么選用UML來(lái)描述小句的本體模型;其次,本文較為詳細(xì)地介紹了漢語(yǔ)里小句的概念和內(nèi)涵以及小句為什么在漢語(yǔ)的各級(jí)各類語(yǔ)法實(shí)體里處于中樞地位?最后,本文對(duì)小句里包含的各種概念以及概念之間的關(guān)系進(jìn)行了分析,并利用UML對(duì)小句進(jìn)行了靜態(tài)的建模.本模型為中文信息處理領(lǐng)域的句處理打下了基礎(chǔ).今后有關(guān)漢語(yǔ)里句子語(yǔ)義的自動(dòng)理解,小句、復(fù)句乃至句群等方面的研究都可以利用本文所建立的小句本體模型.

下一步,我們將對(duì)小句本體模型圖中各個(gè)類的數(shù)據(jù)成員和方法逐一進(jìn)行實(shí)現(xiàn)、對(duì)小句構(gòu)件內(nèi)部各成員之間隱含的語(yǔ)義、語(yǔ)法關(guān)系進(jìn)行充分地挖掘并將其形式化,這些嘗試將對(duì)中文信息處理中的句處理起到推進(jìn)作用.

猜你喜歡
復(fù)句本體短語(yǔ)
連動(dòng)結(jié)構(gòu)“VP1來(lái)VP2”的復(fù)句化及新興小句連接詞“來(lái)”的形成
漢語(yǔ)復(fù)句學(xué)說(shuō)的源流
眼睛是“本體”
基于本體的機(jī)械產(chǎn)品工藝知識(shí)表示
《健民短語(yǔ)》一則
略論復(fù)句分類與對(duì)外漢語(yǔ)教學(xué)
復(fù)句內(nèi)部不應(yīng)當(dāng)用句號(hào)
專題
Care about the virtue moral education
正定县| 闵行区| 桂东县| 旺苍县| 衡山县| 越西县| 庆云县| 兴安盟| 德保县| 闸北区| 永德县| 柳林县| 东平县| 佛山市| 桑植县| 汉沽区| 清河县| 额敏县| 临沧市| 怀集县| 禹城市| 东乡县| 潜江市| 兴安县| 蚌埠市| 平乡县| 略阳县| 肥西县| 昆明市| 张家港市| 沧源| 酒泉市| 固始县| 伽师县| 翁牛特旗| 会泽县| 建平县| 邹城市| 增城市| 岳阳县| 睢宁县|