完么才讓, 曹玉林
(1.青海民族大學(xué)藏文信息處理與軟件研究所,青海 西寧 810007; 2. 青海師范大學(xué)計(jì)算機(jī)學(xué)院, 西寧 810008)
藏語(yǔ)及物與不及物動(dòng)詞的自動(dòng)識(shí)別研究
完么才讓1, 曹玉林2
(1.青海民族大學(xué)藏文信息處理與軟件研究所,青海 西寧 810007; 2. 青海師范大學(xué)計(jì)算機(jī)學(xué)院, 西寧 810008)
藏語(yǔ)動(dòng)詞分類很細(xì), 準(zhǔn)確識(shí)別和判斷藏文動(dòng)詞的詞性是藏語(yǔ)自然語(yǔ)言處理中一個(gè)基礎(chǔ)又關(guān)鍵的內(nèi)容, 及物與不及物動(dòng)詞的自動(dòng)識(shí)別, 可以在用計(jì)算機(jī)生成自然語(yǔ)言句子時(shí)能很好地阻止不合法句子的生成, 也能從整體上減少句子生成量, 從而提高效率. 提出了一種在理想環(huán)境下, 通過(guò)句子中的使格助詞來(lái)自動(dòng)判斷動(dòng)詞及物性的方法, 這種自動(dòng)識(shí)別方法是一種理性主義的判斷方法, 所以不需要大規(guī)模語(yǔ)料的支持. 因?yàn)槭且环N理想情況, 所以自動(dòng)識(shí)別效率高, 準(zhǔn)確率為100%.
及物; 不及物; 自動(dòng)識(shí)別
動(dòng)詞這一詞性在藏文傳統(tǒng)文法著作中就有研究, 后經(jīng)藏族學(xué)者不斷探索、鉆研, 迄今為止, 對(duì)藏語(yǔ)動(dòng)詞的研究較深. 對(duì)動(dòng)詞的理解和運(yùn)用程度已經(jīng)成為衡量藏文藏語(yǔ)水平的一項(xiàng)重要指標(biāo), 然而鑒于藏語(yǔ)動(dòng)詞的時(shí)態(tài)、形態(tài)的復(fù)雜性[1], 使藏語(yǔ)及物與不及物動(dòng)詞的自動(dòng)識(shí)別成為一個(gè)難點(diǎn), 幸運(yùn)的是, 藏語(yǔ)及物、不及物動(dòng)詞和漢語(yǔ)、英語(yǔ)及物、不及物動(dòng)詞不同, 當(dāng)它出現(xiàn)在具體語(yǔ)境中的時(shí)候, 往往伴隨著某些具體的、可作為區(qū)別及物不及物動(dòng)詞的特征, 因此, 藏語(yǔ)及物與不及物動(dòng)詞的自動(dòng)識(shí)別變得有規(guī)律可循, 以及在生成句子的時(shí)候, 限制了很多不合語(yǔ)法、不合語(yǔ)言習(xí)慣的句子的產(chǎn)生.
2.1 相關(guān)概念
定義1[2]“及物”動(dòng)詞:只要能帶賓語(yǔ), 不管帶的是受事賓語(yǔ)、施事賓語(yǔ)還是處所賓語(yǔ), 都是及物動(dòng)詞, 我們用tv表示. 即包含tv的一個(gè)句子的完整結(jié)構(gòu)可表示為S->np np vp, 其中, np表名詞短語(yǔ)[5-7], 前后兩個(gè)np分別為主語(yǔ)和賓語(yǔ), 是兩個(gè)不同的事物, vp即tv.
定義2[2]“不及物”動(dòng)詞:不能帶任何賓語(yǔ)的動(dòng)詞是不及物動(dòng)詞, 我們用iv表示. 即包含iv的一個(gè)句子的完整結(jié)構(gòu)可表示為S->np vp, 其中, vp即iv, iv的主語(yǔ)與賓語(yǔ)為同一事物np.
2.2 藏語(yǔ)tv與iv的特點(diǎn):
設(shè)Bt和Bi分別表示tv與iv的基本輔音,則Bt∈C,Bi∈D;
當(dāng)然, 一般情況下上述結(jié)論是成立的, 也有極個(gè)別反例, 如在兩句中構(gòu)成
if vp->v+h(v表示一般動(dòng)詞)
then v=tv
if vp->v+h=False
then v=iv
(6) 有無(wú)賓語(yǔ)不同
這個(gè)特點(diǎn)在上述對(duì)及物不及物的定義中也有說(shuō)明. 其實(shí)在藏語(yǔ)中, 賓語(yǔ)往往出現(xiàn)在動(dòng)詞的前面, 根據(jù)定義1和定義2, 我們知道:在一個(gè)完整的合法句子中, 如果可以出現(xiàn)S->np np vp(其中S為語(yǔ)法的開(kāi)始符號(hào), v表示動(dòng)詞, np表示名詞短語(yǔ))這種語(yǔ)法結(jié)構(gòu), 那么可以判定此時(shí)的v為tv, 如果不能出現(xiàn)這種語(yǔ)法結(jié)構(gòu), 則v為iv. 可形式化描述為
if S->np np vp
then vp=tv
⑴ 當(dāng)句子中只有一個(gè)動(dòng)詞時(shí), 不管句子長(zhǎng)短, tv與iv的識(shí)別都變得簡(jiǎn)單, 如下表1所示:
表1 實(shí)例1
上表中, 因?yàn)槊烤涠己垢裰~cm, 所以動(dòng)詞字段所列動(dòng)詞都為tv, 可表示為(v表示動(dòng)詞). 如下表中的句子所示:
表2 實(shí)例2
我們可以利用上面的分析和2.2節(jié)的第四個(gè)特點(diǎn), 讓計(jì)算機(jī)自動(dòng)識(shí)別tv與iv. 假設(shè)句子是切分好的并標(biāo)注了詞性的詞串w, 那么可用圖1所示算法流程圖表示自動(dòng)識(shí)別過(guò)程.
圖1 句中只有一個(gè)動(dòng)詞時(shí)的tv與iv 自動(dòng)識(shí)別算法流程圖
圖2 當(dāng)Vc=2且 cmc=2時(shí)tv與iv的自動(dòng)識(shí)別算法流程圖
⑵ 我們用cmc表示使格助詞數(shù), vc表示動(dòng)詞數(shù), cm1為第一個(gè)使格助詞, cm2為第二個(gè)使格助詞, s1是cm1的主語(yǔ), s2是cm2的主語(yǔ), 則:
當(dāng)Vc=2且 cmc=2時(shí),即這兩個(gè)動(dòng)詞都是及物動(dòng)詞.
看下面兩個(gè)例子:
句子②與句子①的情況相似, 都有兩個(gè)tv和兩個(gè)cm, 第1個(gè)cm修飾第2個(gè)tv, 第2個(gè)cm修飾第1個(gè)tv.
這種情況下, 我們可以再寫(xiě)一個(gè)算法來(lái)判斷當(dāng)Vc=2且 cmc=2時(shí)的動(dòng)詞的及物性, 如圖2所示.
⑶ 當(dāng)然, 一個(gè)句子不一定只有一個(gè)動(dòng)詞, 我們用Vc表示一個(gè)句子中的動(dòng)詞數(shù), 當(dāng)Vc≥2時(shí), 情況比較復(fù)雜,請(qǐng)看下面幾個(gè)例子:
總之, 在一個(gè)句子中, 當(dāng)Vc≥2時(shí), tv、iv與cm的關(guān)系顯得很靈活, 所以這時(shí), 計(jì)算機(jī)很難通過(guò)cm把tv和iv區(qū)別開(kāi)來(lái).
這樣的句子數(shù)不勝數(shù), 情況也就復(fù)雜多變, 很難找出一個(gè)確定的規(guī)律. 一個(gè)句子中及物動(dòng)詞和不及物動(dòng)詞的數(shù)量及出現(xiàn)位置都不呈規(guī)則, 所以加大了研究的復(fù)雜度, 因篇幅有限, 在此不討論這種復(fù)雜情況, 有情趣的讀者可專門(mén)研究.
⑷ 看如下例句
這三個(gè)句子中, 單下劃線和雙下劃線標(biāo)記的分別是動(dòng)詞(v)和助動(dòng)詞(vh), 第一、二兩個(gè)句子中的v為tv, 第三個(gè)句子中的v為iv, 所以不管是tv還是iv, 自動(dòng)識(shí)別算法在掃描過(guò)程中, 若發(fā)現(xiàn)一個(gè)v和一個(gè)vh連續(xù)出現(xiàn), 即若vp->v vh, 那么可把v vh視為一個(gè)動(dòng)詞, 可用如下偽代碼描述如下算法:
if vp->v vh then v+vh=v.
在實(shí)際語(yǔ)料中, 句子結(jié)構(gòu)復(fù)雜多變, 并不是所有的句子都按照S->np np vp或者S->np vp這樣的固定格式出現(xiàn), 本文提出的算法適用于上述特定環(huán)境, 是一種理想狀態(tài)下的算法. 上述句子成分是嚴(yán)格遵循藏語(yǔ)語(yǔ)法的, 在真實(shí)語(yǔ)料中也占多數(shù), 要特別注意的是當(dāng)句子中出現(xiàn)的所有并非都是真正意義上的使格助詞, 什么情況下不是真正的使格助詞, 上面有分析. 設(shè)計(jì)這個(gè)算法, 主要用于在生成句子時(shí), 如果知道句子中包含的動(dòng)詞為及物或不及物, 那么可以根據(jù)定義, 不及物不帶賓語(yǔ), 及物動(dòng)詞可帶可不帶, 從而大大減少句子的生成量, 也能產(chǎn)生很多符合語(yǔ)法或藏語(yǔ)表達(dá)習(xí)慣的句子.
[1] 格桑居冕. 實(shí)用藏文文法教程[M]. 成都: 四川民族出版社, 2004. [2] 邵敬敏. 現(xiàn)代漢語(yǔ)通論[M]. 2版. 上海: 教育出版社, 2007.
[3] 吉太加. 藏語(yǔ)語(yǔ)法研究[M]. 西寧: 青海民族出版社, 2011.
[4] THUPTEN JINPA. A Modern Tibetan Grammar[M]. Tibetan Institute of Culture, 2010.
[5] 才讓加. 藏語(yǔ)語(yǔ)料庫(kù)詞語(yǔ)分類體系及標(biāo)記集研究[J]. 中文信息學(xué)報(bào), 2009(4): 1-4.
[6] 馬進(jìn)武. 藏文語(yǔ)法四種結(jié)構(gòu)明晰[M]. 北京: 民族出版社, 2008.
[7] 羊毛卓瑪. 藏文詞性自動(dòng)標(biāo)注中歧義問(wèn)題處理方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012: 4-5.
[8] 毛爾蓋·桑木旦. 藏文文法概論[M]. 西寧: 青海民族出版社, 2005.
Research on the automatic identification of Tibetan transitive and intransitive verbs
WANMECAIRANG1, CAO Yu-lin2
(1. School of Computer Science, Qinghai University for Nationalities, Xi’ning 810007, P.R.C.;
2. School of Computer Science, Qinghai Normal University, Xi’ning 810008, P.R.C.)
Tibetan verb has a very fine classification, so an accurate identification and judgment of Tibetan verb’s parts of speech is a foundation in the Tibetan natural language processing and key task. An automatic identification of transitive and intransitive verbs can enable the computer to prevent the formation of illegal sentences while generating natural language sentences, and also can help reduce the number of the sentences to be generated as a whole, so as to improve efficiency. The paper proposes a method which, under an ideal environment, can automatically determine the verb in the sentence and the property by using case of utterances. This method of automatic identification is a judgment method of rationalism which does not need the support of large-scale corpus. Because it is an ideal situation, the automatic identification is of high efficiency with an accuracy of 100%.
transitive; intransitive; automatic identification
TP301.4, TP391.1
A
1003-4271(2014)01-0132-05
10.3969/j.issn.1003-4271.2014.01.27
2013-09-22
完么才讓(1988-), 男, 藏族, 甘肅甘南人, 碩士研究生, 研究方向: 藏文信息處理及應(yīng)用; 曹玉林(1970-), 男, 土族, 青海化隆人, 教授, 博士生, 研究網(wǎng)絡(luò)信息安全、傳感器網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò).