李 琳,龍從軍
(1.中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類學(xué)研究所,北京100081;2.中國(guó)社會(huì)科學(xué)院研究生院,北京102488;3.中央民族大學(xué) 民族語(yǔ)言監(jiān)測(cè)分中心,北京100081)
判斷動(dòng)詞和存在動(dòng)詞在藏語(yǔ)中使用廣泛且用法多樣。它們不但可以作判斷句、存在句的謂語(yǔ);還可以構(gòu)成描寫句謂語(yǔ);也可以作為語(yǔ)法標(biāo)記附加于其他動(dòng)作動(dòng)詞之后,共同構(gòu)成句子的謂語(yǔ)組塊,表達(dá)句子的體貌、示證范疇;此外還可以通過(guò)添加名詞化標(biāo)記構(gòu)成非謂語(yǔ)組塊。判斷動(dòng)詞和存在動(dòng)詞的歧義性給藏文文本標(biāo)注和藏語(yǔ)句型識(shí)別等藏語(yǔ)信息處理研究帶來(lái)了困難。
為了識(shí)別判斷、存在動(dòng)詞在不同語(yǔ)境的不同含義,本文借助藏語(yǔ)語(yǔ)法規(guī)則以及藏語(yǔ)信息處理的相關(guān)技術(shù),提出了一個(gè)自動(dòng)判別方法。首先,對(duì)判斷動(dòng)詞和存在動(dòng)詞在文本中出現(xiàn)的語(yǔ)言環(huán)境進(jìn)行形式化表述;然后,提取他們的上下文特征詞;最后,利用特征詞從肯定與否定兩個(gè)方面判別其詞性并標(biāo)注。對(duì)于不能以上下文特征詞判定的現(xiàn)象我們借助動(dòng)詞詞表輔助識(shí)別,從而減少由于未登錄詞或者詞類兼類造成的不能識(shí)別或者誤識(shí)別的情況。從實(shí)驗(yàn)結(jié)果來(lái)看,本文的方法可以有效判定判斷、存在動(dòng)詞詞性。
藏語(yǔ)是SOV型語(yǔ)言,動(dòng)詞都位于句尾,名詞放在動(dòng)詞前面[1]。在書面藏語(yǔ)文本中,判斷、存在動(dòng)詞后面還可以附加一些連詞,或者句子的結(jié)束標(biāo)志:?jiǎn)未咕€、雙垂線或者四垂線。但是當(dāng)判斷、存在動(dòng)詞出現(xiàn)在嵌套句的小句或者作為句群中的分句時(shí),情況會(huì)稍微復(fù)雜一些。識(shí)別出包含判斷、存在動(dòng)詞句子,是識(shí)別其含義的先決條件。因此,本文首先要解決提取含有判斷、存在動(dòng)詞句子的問(wèn)題。
我們認(rèn)為,判斷、存在動(dòng)詞右側(cè)的語(yǔ)言特征有助于識(shí)別出這類句子。通過(guò)研究我們總結(jié)出判斷、存在動(dòng)詞右側(cè)的語(yǔ)言環(huán)境可分為[2]:1)直接煞尾的;2)帶有語(yǔ)氣標(biāo)記的;3)帶有連詞標(biāo)記的;4)帶有名物化標(biāo)記;5)帶有名詞化和連詞標(biāo)記的這五種情況。值得提出的是,藏語(yǔ)中名詞化標(biāo)記可以加在整個(gè)短語(yǔ)、句子上,從而使整個(gè)短語(yǔ)和句子名詞化。同時(shí),當(dāng)一個(gè)句子從句法結(jié)構(gòu)上看已經(jīng)完結(jié),但是上下文句意還沒(méi)有表達(dá)完結(jié)、需要補(bǔ)充說(shuō)明時(shí),也使用名詞化標(biāo)記。判斷、存在動(dòng)詞的右側(cè)特征可總結(jié)為規(guī)則集1,如下:
(1)名詞性短語(yǔ)(NP)+判斷、存在動(dòng)詞+句子結(jié)束符號(hào)。例如,
先前,亞?wèn)|國(guó)王有一個(gè)聰明而又關(guān)心百姓,名叫尼措桑布的仆人。
(2)NP+判斷、存在動(dòng)詞+分句連詞+垂符。例如,
這座宮殿有13層,高度有117米左右。
(3)NP+判斷、存在動(dòng)詞+示證標(biāo)記+垂符。例如,
(親眼看見(jiàn))從樓上窗子里掉下一塊玉石。
(4)判斷、存在動(dòng)詞+名詞化標(biāo)記+分句連詞+垂符。例如,
湖周圍的山綿延大約有250公里。
(5)判斷、存在動(dòng)詞+語(yǔ)氣詞+垂符。例如,
這是扎西的寢室嗎?
利用規(guī)則集1,我們從《學(xué)說(shuō)藏語(yǔ)300句》[3]774個(gè)句子中識(shí)別帶有這兩類詞的句子。我們抽取出帶有判斷動(dòng)詞(yin\min\red)的句子分別有52、1、117句,帶有存在動(dòng)詞(yod\med\vdug\yod red)的句子分別有76、13、54、24句。全部語(yǔ)料中判斷、存在動(dòng)詞及同形形式共有337句,占測(cè)試語(yǔ)料的44%。這一結(jié)果也說(shuō)明在藏語(yǔ)中判斷、存在動(dòng)詞使用非常廣泛。
由判斷動(dòng)詞和存在動(dòng)詞構(gòu)成的謂語(yǔ)組塊結(jié)構(gòu)相對(duì)簡(jiǎn)單[4-5]。判斷、存在動(dòng)詞前面有極少的副詞對(duì)其修飾,后面也很少有體貌、示證成分(除外),但可能附加一些語(yǔ)氣詞[6]。
我們認(rèn)為,要對(duì)判斷、存在動(dòng)詞在不同語(yǔ)境下的詞性做出準(zhǔn)確的判定,其左邊的語(yǔ)言要素非常重要。即可以根據(jù)判斷、存在動(dòng)詞左邊的一些特殊的詞、短語(yǔ)作為識(shí)別特征直接判斷出該詞詞性。
當(dāng)判斷、存在動(dòng)詞作謂語(yǔ)動(dòng)詞時(shí),其左邊為名詞性成分。因此本文利用某些封閉的、能夠預(yù)測(cè)其左邊為名詞性成分的特征詞,如數(shù)詞指示代詞等來(lái)識(shí)別是否是判斷、存在動(dòng)詞,并把這些特征詞總結(jié)為規(guī)則集2:
(4)格標(biāo)記。
判斷、存在動(dòng)詞的用法多樣,除了作判斷、存在句的謂語(yǔ)動(dòng)詞外,還具有其他更加復(fù)雜的用法[7]。用法可分為以下兩類:一是作為動(dòng)作動(dòng)詞的體貌、示證標(biāo)記;二是作為描寫句的謂語(yǔ)動(dòng)詞,與形容詞一起構(gòu)成句子的謂語(yǔ)組塊[8]。
藏語(yǔ)(口語(yǔ))中單獨(dú)以動(dòng)詞結(jié)尾的句子不多,在謂語(yǔ)動(dòng)詞后總是帶有一些其他成分(泛稱語(yǔ)尾)。謂語(yǔ)動(dòng)詞組塊可擴(kuò)展為形式(1)[4]:
{(狀語(yǔ))+動(dòng)詞+(動(dòng)態(tài)補(bǔ)語(yǔ))(+助動(dòng)詞[情態(tài)和趨向])(+體貌—示證標(biāo)記)(+語(yǔ)氣詞)}
當(dāng)判斷、存在動(dòng)詞作體貌、示證標(biāo)記時(shí),根據(jù)擴(kuò)展形式(1)句子的謂語(yǔ)組塊結(jié)構(gòu)可歸納為以下幾類。
(1)(副詞)+動(dòng)詞+體貌標(biāo)記。例如,
同學(xué)們一起讀著書。
(2)(副詞)+動(dòng)詞+助動(dòng)詞+體貌標(biāo)記。例如,
他說(shuō):不要磕頭,我們大家是平等的。
(3)(副詞)動(dòng)詞+趨向動(dòng)詞+體貌標(biāo)記。例如,
他們到南方溫暖的地方去過(guò)冬了,明年的春天回來(lái)。
(4)(副詞)動(dòng)詞+趨向動(dòng)詞+助動(dòng)詞+體貌標(biāo)記
我想回來(lái)了。
(1)(副詞)形容詞(副詞)+ 判斷、存在動(dòng)詞
質(zhì)量非常好。
(2)(形容詞性)疑問(wèn)代詞+判斷、存在動(dòng)詞
你看味道怎么樣。
(3)(副詞)形容詞/副詞+判斷、存在動(dòng)詞+語(yǔ)氣詞
你身體好嗎?
通過(guò)以上對(duì)句子謂語(yǔ)組塊的分析,我們發(fā)現(xiàn)當(dāng)左特征詞符合以下規(guī)則集3時(shí),可以判定在該語(yǔ)境下,該詞不是判斷、存在句的謂語(yǔ)動(dòng)詞。
由于一些標(biāo)記本身也存在同形歧義情況,因此可以用來(lái)否定判斷、存在動(dòng)詞作謂語(yǔ)的特征詞比較少。尤其是否定判斷動(dòng)詞作謂語(yǔ)更難,比如+判斷動(dòng)詞,+判斷動(dòng)詞,如果不考慮前面的詞性,無(wú)從判定是判斷動(dòng)詞還是體標(biāo)記。
(3)助動(dòng)詞,趨向動(dòng)詞。
區(qū)分描寫句的特征詞主要是描寫性形容詞和一些修飾形容詞的副詞。(ha cang)和(zhe drags)通常用來(lái)修飾形容詞,而不常修飾動(dòng)詞。
我們把謂語(yǔ)組塊作為識(shí)別的主要特征。首先,找出句子結(jié)尾符合判斷、存在動(dòng)詞加右特征詞各形式的句子。然后,利用本文第3節(jié)和第4節(jié)提出的規(guī)則集對(duì)左特征詞進(jìn)行分析,從而判別出該語(yǔ)境下該詞的詞性。識(shí)別過(guò)程見(jiàn)圖1。
首先,利用規(guī)則集1提取出謂語(yǔ)組塊包含判斷、存在動(dòng)詞的句子。然后,查詢左特征詞是否符合規(guī)則集2。如果是,則該判斷、存在動(dòng)詞的詞性為動(dòng)詞;如果否,進(jìn)行下一步判斷。第三步,判斷左特征詞是否符合規(guī)則集3。如果是,該詞是體貌示證標(biāo)記或描寫句謂語(yǔ);否則進(jìn)行下一步判斷。第四步,利用助動(dòng)詞和動(dòng)詞詞典判斷左特征詞。如果是,則可標(biāo)記該詞為體貌示證標(biāo)記或描寫句謂語(yǔ);否則該詞為判斷、存在句謂語(yǔ)動(dòng)詞。
圖1 判斷、存在動(dòng)詞識(shí)別流程圖
本文首先通過(guò)人工篩選,從774個(gè)句子中篩選出帶有判斷、存在動(dòng)詞的句子,然后對(duì)這些句子分類,結(jié)果為:存在句26句,描寫句50句,判斷句92句,其他動(dòng)詞句161句。以規(guī)則為主的過(guò)濾法識(shí)別情況是,利用規(guī)則集2中的各類特征詞共正確識(shí)別出82個(gè)判斷、存在動(dòng)詞。其中,以數(shù)詞作為特征正確識(shí)別16個(gè);以格標(biāo)記作為特征正確識(shí)別11個(gè);以代詞作為特征正確識(shí)別出52個(gè);以敬語(yǔ)標(biāo)識(shí)為特征識(shí)別出3個(gè)。利用規(guī)則集3,排除帶有判斷、存在動(dòng)詞及同形詞的句子136句。其中利用助動(dòng)詞、趨向動(dòng)詞為特征詞,可以正確辨識(shí)出60個(gè)和4個(gè)句子中判斷、存在動(dòng)詞同形詞為體貌—示證標(biāo)記。利用常見(jiàn)的形容詞作為特征詞,可以正確識(shí)別為描寫句動(dòng)詞的有45個(gè)。最后,利用動(dòng)詞詞典,正確辨識(shí)了70個(gè)句子中的判斷、存在動(dòng)詞作體貌—示證標(biāo)記。采用本文的方法,對(duì)判斷、存在動(dòng)詞及同形形式的337個(gè)句子進(jìn)行識(shí)別,正確識(shí)別319個(gè),正確率達(dá)到94.66%。
從上述測(cè)試結(jié)果可見(jiàn),利用規(guī)則方法層層過(guò)濾識(shí)別判斷、存在動(dòng)詞效果明顯,正確率較高。把依靠動(dòng)詞詞表放到最后一個(gè)步驟,大大減少了因兼類而誤識(shí)別或者未登錄詞條無(wú)法識(shí)別的情況。利用動(dòng)詞詞表的結(jié)果也表明了這一點(diǎn)。利用動(dòng)詞詞表識(shí)別時(shí),10個(gè)識(shí)別錯(cuò)誤中的9個(gè)是由于未登錄詞造成的。例如,
我剛購(gòu)進(jìn)了一點(diǎn)冬蟲(chóng)夏草。
本文所利用的規(guī)則集非常小,僅僅幾十個(gè)特征詞,但是識(shí)別效果還是不錯(cuò)的。下一步需要分析識(shí)別錯(cuò)誤,進(jìn)一步擴(kuò)大特征詞和測(cè)試語(yǔ)料。但是語(yǔ)言本身有它的復(fù)雜性,就存在動(dòng)詞而言(vdug)\(yod)本身又可以作為動(dòng)作動(dòng)詞用。例如,
這個(gè)小洞在他的眼睛正上方帶給他便利,因此向上看時(shí),有一只老鼠呆在那里。
米拉多杰僧格愛(ài)好賭博,而且很精通,經(jīng)常獲勝。
因此對(duì)于這些特殊的現(xiàn)象,還需要進(jìn)一步研究,調(diào)整識(shí)別策略,提取有效的特征詞,同時(shí)也可以采用統(tǒng)計(jì)方法對(duì)過(guò)濾
后不能用規(guī)則識(shí)別的現(xiàn)象進(jìn)行處理。
本文針對(duì)現(xiàn)代藏語(yǔ)判斷、存在動(dòng)詞進(jìn)行識(shí)別研究。通過(guò)考察含有判斷、存在動(dòng)詞句子的句子結(jié)構(gòu),我們建立了判別規(guī)則集。首先,從句子結(jié)尾逆向找出符合判斷、存在動(dòng)詞加右特征詞各形式的句子。然后,利用本文提出的判斷規(guī)則集對(duì)左特征詞進(jìn)行分析,從而辨別出該語(yǔ)境下該判斷或存在動(dòng)詞的詞性。
[1]胡坦.藏語(yǔ)存在句[C]//藏語(yǔ)研究文論.北京:中國(guó)藏學(xué)出版社,2002:474-504.
[2]趙維納.藏語(yǔ)句子邊界識(shí)別研究[D].北京:北京語(yǔ)言大學(xué),2010.
[3]江嘎,等.學(xué)說(shuō)藏語(yǔ)300句[M].北京:民族出版社,2006:1-313.
[4]江荻.面向機(jī)器處理的現(xiàn)代藏語(yǔ)句法規(guī)則和詞類、組塊標(biāo)注集[C]//江荻,孔江平.中國(guó)民族語(yǔ)言工程研究新進(jìn)展.北京:社會(huì)科學(xué)文獻(xiàn)出版社,2005:10-93.
[5]江荻.現(xiàn)代謂語(yǔ)動(dòng)詞的識(shí)別與信息提?。跜]//第20屆東方語(yǔ)言計(jì)算機(jī)處理國(guó)際會(huì)議論文.沈陽(yáng):清華大學(xué)出版社,2003:125-137.
[6]周繼文,謝后芳.藏語(yǔ)拉薩話語(yǔ)法[M].北京:民族出版社,2003:42-43.
[7]胡坦,索南卓嘎,羅秉芬.拉薩口語(yǔ)讀本[M].北京:民族出版社,1986:25-70.
[8]江荻.藏語(yǔ)拉薩話的體貌、示證及自我中心范疇[J].語(yǔ)言科學(xué),2005,4(1):70-88.
[9]胡坦.拉薩藏語(yǔ)中的“是”字句[C]//胡坦.藏語(yǔ)研究文論.北京:中國(guó)藏學(xué)出版社,2002:454-473.