夏吾吉 黃鶴鳴 華卻才讓
(1.青海師范大學(xué)計(jì)算機(jī)學(xué)院 青海省西寧市 810008)(2.青海師范大學(xué)藏語智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室 青海省西寧市 810008)
為了計(jì)算機(jī)能夠理解自然語言,首先要對(duì)原始句子進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別以及句法分析;若想要計(jì)算機(jī)更加智能,并像人類一樣能夠理解和運(yùn)用自然語言,那么需要對(duì)句子進(jìn)行更深層次的研究和分析,即語義分析。語義分析作為自然語言處理中深層的研究課題之一,其主要任務(wù)體現(xiàn)在確定句子的語法結(jié)構(gòu)、句法結(jié)構(gòu)以及句子中任意詞對(duì)之間的語義關(guān)系,從而提高機(jī)器對(duì)自然語言的理解程度。構(gòu)建相應(yīng)的語義樹庫是語義處理分析的基礎(chǔ),并且具有重要的理論意義和廣泛的應(yīng)用前景。目前,英語等主流語言的樹庫構(gòu)建研究已經(jīng)達(dá)到了相當(dāng)高的精度,比如:英語[1]、德語[2]、俄語[3]、瑞士語[4]、漢語[5、6]等。
近年來,藏語樹庫構(gòu)建逐漸得到了相關(guān)研究者的重視,扎西加等人結(jié)合藏語的語法體系,提出了符合語法體系的藏語句法標(biāo)注關(guān)系體系[7];祁坤玉提出了基于依存關(guān)系的藏語語義角色標(biāo)注[8];華卻才讓等人提出了藏語依存句法分析體系[9]。相比主流語言,藏語的樹庫構(gòu)建工作相對(duì)滯后,處于句法分析及構(gòu)建相關(guān)樹庫階段,主要原因體現(xiàn)在:
(1)用于信息處理方面的藏語詞語目前沒有相對(duì)完整的定義;
(2)在藏語分詞標(biāo)注和依存標(biāo)注方面沒有統(tǒng)一實(shí)用的標(biāo)準(zhǔn)。
本文從藏語語法功能研究所面臨的問題入手,對(duì)已有的研究成果[10]所提出的標(biāo)注體系進(jìn)行優(yōu)化和合并,提出新的語義依存標(biāo)注體系,構(gòu)建語義依存樹庫。
所謂的藏語依存語法,建立在依存理論基礎(chǔ)上,它融合了句子的依存關(guān)系結(jié)構(gòu)和語義信息,并且能夠直接表達(dá)語義的本質(zhì)。依存理論是1959年由法國(guó)語言學(xué)家泰尼埃提出,其依存關(guān)系具有五種特性[11]:
(1)二元性,即句子中兩個(gè)詞語或一個(gè)詞對(duì)之間的語義關(guān)系;
(2)方向性,句子中相互有語義關(guān)系的兩個(gè)詞語中,一個(gè)詞語為支配詞,另一個(gè)詞語為被支配詞,依存方向從支配詞指向被支配詞;
(3)有標(biāo)記性,通過有向弧連接起來的詞對(duì)之間的語義關(guān)系標(biāo)注在有向弧上,即為語義依存關(guān)系類型;
(4)無環(huán)性,詞對(duì)之間的有向弧只能支配詞指向被支配詞,即不存在指向詞對(duì)相互而形成環(huán)形現(xiàn)象;
(5)無交叉型,同一個(gè)句子中各依存詞對(duì)之間的有向依存弧互不相交,即句子中一個(gè)支配詞及其所有的被支配詞都是連續(xù)的[12]。對(duì)于一個(gè)句子,這種有方向的無環(huán)圖實(shí)際上就是一個(gè)樹形結(jié)構(gòu),稱之為依存樹。此外,對(duì)句子進(jìn)行語義依存分析時(shí),句子中的謂詞是整個(gè)句子的中心部分,該謂詞沒有支配詞,語義依存標(biāo)注時(shí)設(shè)一個(gè)虛擬根來支配句子中的謂詞,虛擬根與謂詞之間的語義依存關(guān)系用標(biāo)簽Root 來表示。句子的樹形結(jié)構(gòu)分析中,支配詞稱為父節(jié)點(diǎn),被支配詞稱為子節(jié)點(diǎn)。
依存句法同語義依存都建立在依存理論基礎(chǔ)上,依存語法通過分析構(gòu)成句子各成分之間的依存關(guān)系揭示其依存句法結(jié)構(gòu)。直觀來講,依存句法分析研究句子中的“主謂賓”、“定狀補(bǔ)”等語法成分,并分析各成分之間的依存句法關(guān)系,為下一步語義依存分析研究做好鋪墊,奠定基礎(chǔ)。依存句法分析的正確與否直接影響著語義依存分析的準(zhǔn)確率,依存句法分析與語義依存分析雖然都借用了依存結(jié)構(gòu),但是兩者之間具有顯著的區(qū)別。依存句法按照句法結(jié)構(gòu)的功能建立依存關(guān)系并為句子的依存結(jié)構(gòu)標(biāo)注句法關(guān)系,句法的結(jié)構(gòu)隨著字面詞語的變化而變化,更強(qiáng)調(diào)助詞、介詞等對(duì)句法結(jié)構(gòu)劃分的作用。而語義依存注重句子中各成分之間語義事實(shí)上或邏輯上的關(guān)系,并能夠跨越句子表面的變化直達(dá)語義的本質(zhì)。比如兩個(gè)句子“????(洛桑給媽媽下午打電話了。)”和(洛桑下午給媽媽打電話了。)”的語義相同,但表達(dá)形式不同,導(dǎo)致句法結(jié)構(gòu)不同。句法結(jié)構(gòu)如圖1所示:
圖1:語義相同表達(dá)形式不同的句法結(jié)構(gòu)樹
圖2:語義不同句法結(jié)構(gòu)完全相同的句法結(jié)構(gòu)樹
圖1 和圖2 可知,句法分析和語義分析之間有著不可逾越的鴻溝,但兩者則形似而實(shí)異。無論從標(biāo)注對(duì)象還是語法理論,語義依存分析與依存句法分析相比,語義依存針對(duì)整個(gè)句子,分析更加全面,還涵蓋了藏語語義角色所標(biāo)注的標(biāo)注范圍。因此,有必要去分析研究并構(gòu)建相應(yīng)的樹庫。
藏文作為黏著性語言,在藏語傳統(tǒng)語法中格詞類的語法功能靈活豐富。比如(媽媽說的)”和(給媽媽說。)”兩個(gè)句子,其中和都是格詞類,但跟一詞粘著在一起所表達(dá)的語義各有不同,且與核心詞之間的語義依存關(guān)系也不相同。其語義依存關(guān)系見圖3所示。
圖3:語義依存基本關(guān)系圖
圖4:語義依存樹庫構(gòu)建流程
經(jīng)過以上分析,發(fā)現(xiàn)對(duì)藏語句子進(jìn)行語義依存分析時(shí),句子中除了實(shí)詞以外,格詞類和虛詞也體現(xiàn)著重要的語義依存結(jié)構(gòu)關(guān)系,格詞類語法結(jié)構(gòu)關(guān)系、虛詞類語法結(jié)構(gòu)關(guān)系及其接續(xù)規(guī)則也是確定語義依存關(guān)系顆粒度的重要依據(jù)和遵循規(guī)則。確定語義依存關(guān)系類型時(shí),若分類過細(xì),關(guān)系標(biāo)注集過大,標(biāo)注難度就會(huì)增加,標(biāo)注結(jié)果正確率也會(huì)降低,導(dǎo)致依存關(guān)系類型之間因存在細(xì)微差別而產(chǎn)生不一致性,尤其在語料規(guī)模不夠龐大的情況下,更會(huì)產(chǎn)生嚴(yán)重的數(shù)據(jù)稀疏問題;若語義依存關(guān)系分類過粗,將無法全面描述藏語的語法特征和復(fù)雜的語義現(xiàn)象。因此,本文依據(jù)藏語的語法特征、格詞類語法結(jié)構(gòu)以及藏文虛詞的接續(xù)規(guī)則,在顆粒度粗細(xì)程度較適中的情況出發(fā),將構(gòu)建基于語義關(guān)系的藏語依存樹庫,為藏語語義依存分析研究提供了新的數(shù)據(jù)資源。
無論是依存句法還是語義依存,關(guān)注的是對(duì)句子中詞和詞之間的依存結(jié)構(gòu)關(guān)系。對(duì)于不同的語言,由于各自的詞性集和語法結(jié)構(gòu)的不同,依存關(guān)系類型數(shù)量也不相同。譬如:德語制定了49 中依存關(guān)系類型[2],漢語當(dāng)初制定了106 種依存關(guān)系類型,后來又縮減至44 種[14]。依存關(guān)系類型數(shù)量的多少與計(jì)算機(jī)的識(shí)別正確率息息相關(guān),類型數(shù)量過多,會(huì)增加時(shí)間復(fù)雜度;類型數(shù)量過少,又不能完全覆蓋語言的語義現(xiàn)象,從而降低模型的魯棒性。本文在對(duì)藏語的傳統(tǒng)語法和依存結(jié)構(gòu)進(jìn)行深入分析的基礎(chǔ)上,借鑒了其他語言的語義依存關(guān)系分類經(jīng)驗(yàn)[15],同時(shí)針對(duì)依存關(guān)系類型數(shù)據(jù)顆粒度對(duì)標(biāo)注結(jié)果產(chǎn)生的影響等問題,從理論基礎(chǔ)出發(fā),對(duì)文獻(xiàn)[10]所制定的藏語語義依存關(guān)系類型進(jìn)行了再整理并分層歸類。歸類時(shí)將各種語義組合關(guān)系分為語義關(guān)系、語義標(biāo)記以及特殊關(guān)系,其中語義關(guān)系分為對(duì)稱關(guān)系(如:并列、選擇和等同等)和非對(duì)稱關(guān)系(如:先行和順承等);語義標(biāo)記分為關(guān)系標(biāo)記(如:連詞、介詞和格詞等)和附加標(biāo)記(如:時(shí)間、范圍和趨向等);特殊關(guān)系分為反關(guān)系、嵌套關(guān)系和虛擬根節(jié)點(diǎn)。同時(shí)提出了新的語義依存分析體系,本體系中將區(qū)分不明的關(guān)系類型進(jìn)行合并,同時(shí)去掉了出現(xiàn)頻度極小的關(guān)系類型。新的藏語語義依存分析關(guān)系體系見表1。
表1:語義依存關(guān)系類型
建立健全帶有各類關(guān)系標(biāo)注附加信息的語料庫,是解決當(dāng)前藏語自然語言處理的句法分析和語義分析知識(shí)缺乏的有效方法和途徑。因此,藏語語料庫的建設(shè)和設(shè)計(jì)理論成為了當(dāng)前人們研究的熱點(diǎn),并以大規(guī)模、多層次、高速度向前發(fā)展。同時(shí),除分詞和詞性標(biāo)注因出現(xiàn)時(shí)間較早且研究趨于飽和而逐漸淡出業(yè)界視線外,句法關(guān)系和語義關(guān)系標(biāo)注逐漸受到了前所未有的重視。深入研究藏語語義依存分析的關(guān)鍵和基礎(chǔ)是構(gòu)建語義依存樹庫。之所以稱為藏語語義依存樹庫,其與標(biāo)注后的藏語語義依存句子呈顯出的樹形結(jié)構(gòu)有關(guān)。藏語語義依存樹庫作為語義分析研究的必要數(shù)據(jù)資源,對(duì)藏語自然語言處理具有重大影響,建設(shè)也具有一定難度。尤其是建設(shè)標(biāo)注語法信息的數(shù)據(jù),不僅要制定復(fù)雜的標(biāo)注規(guī)范,還要投入大量的時(shí)間精力。
構(gòu)建樹庫是一種深度加工的語料資源之一,語義依存樹庫中不僅包含了實(shí)詞、虛詞和詞綴等各種詞性以及形態(tài)學(xué)層面的各種信息,還包含了語法結(jié)構(gòu)、句法結(jié)構(gòu)、語義角色以及語義框架等句法語義層面的各種信息,其研究能夠?qū)ψ匀徽Z言理解提供數(shù)據(jù)支撐。雖然人工構(gòu)建語義依存樹庫耗時(shí)長(zhǎng)、難度大、成本高,但具有質(zhì)量高、規(guī)范性強(qiáng)等特點(diǎn)。因此,本文將藏語言的語法特征、句法結(jié)構(gòu)以及依存語法等作為依據(jù),從網(wǎng)站新聞、法律和日常用語中抽取出一些簡(jiǎn)單句作為取材,對(duì)不同句型的2106 句藏語句子進(jìn)行了藏語語義依存分析,標(biāo)注了語義依存關(guān)系類型,并人工構(gòu)建了語義依存樹庫。對(duì)藏語自然語言處理提供了數(shù)據(jù)資源。具體構(gòu)建流程見圖4。
對(duì)語料進(jìn)行實(shí)際標(biāo)注時(shí),用括弧的層次級(jí)別來確定句子中的支配詞、被支配詞以及虛擬根Root,具體構(gòu)建方法包括:
(1)找出句子的核心詞;
(2)找出句子中的各語義單位;
(3)若語義單位包含兩個(gè)或兩個(gè)以上的詞,則在該語義單位中找出存在語義依存關(guān)系的依存詞對(duì),并標(biāo)注關(guān)系類型;
(4)判斷中心詞與各語義單位之間的關(guān)系類型并進(jìn)行標(biāo)注;
(5)標(biāo)注虛擬根Root。
經(jīng)過以上分析,對(duì)不同句型的句子進(jìn)行語義依存分析后發(fā)現(xiàn)各種句型的謂詞所支配的關(guān)系類型和語義結(jié)構(gòu)都不同。陳述句的謂詞一般支配客事、成事和涉事等關(guān)系;疑問句和感嘆句中的謂詞一般支配語氣標(biāo)記;祈使句中的謂詞一般支配助詞標(biāo)記。
構(gòu)建語義依存樹庫是一項(xiàng)非常復(fù)雜的工作,對(duì)句子標(biāo)注依存關(guān)系類型,既要具備專業(yè)的理論知識(shí)和傳統(tǒng)藏語的語言分析能力,又要關(guān)注標(biāo)注的準(zhǔn)確性和一致性。因此,本文從藏語依存語法及語義關(guān)系特點(diǎn)出發(fā),深入分析了藏語的語義依存關(guān)系,在原有的研究基礎(chǔ)上進(jìn)行了優(yōu)化,制定了新的藏語語義依存分析體系,提出了藏語語義依存樹庫的構(gòu)建方法,并人工構(gòu)建了側(cè)重于簡(jiǎn)單句型的2106句藏語語義依存樹庫,在一定程度上加快了藏語語義依存分析的標(biāo)注進(jìn)展,保證語義依存標(biāo)注的正確性。對(duì)藏語自然語言處理提供了新的數(shù)據(jù)資源。在今后的工作中,要繼續(xù)擴(kuò)大樹庫規(guī)模,并構(gòu)建側(cè)重于復(fù)雜句型的藏語語義依存樹庫,為藏語語義依存分析研究提供更加可靠、準(zhǔn)確的數(shù)據(jù)資源。