国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藏語短語結(jié)構(gòu)標(biāo)注樹庫構(gòu)建方法研究

2023-05-05 03:40:00仁青卓么張丹完么措
電子技術(shù)與軟件工程 2023年2期
關(guān)鍵詞:藏語句法短語

仁青卓么 張丹 完么措

(1.青海師范大學(xué)計(jì)算機(jī)學(xué)院 青海省西寧市 810001)

(2.西北民族大學(xué)中國(guó)語言文學(xué)學(xué)部 甘肅省蘭州市 730000)

在任何一種語言中,短語結(jié)構(gòu)的分析與描述是進(jìn)行句法研究的核心內(nèi)容。如果我們把各類詞組的結(jié)構(gòu)和功能都足夠詳細(xì)地描述清楚了,那么句子的結(jié)構(gòu)實(shí)際上也就描述清楚了,因?yàn)榫渥硬贿^是獨(dú)立的詞組而已[1]。短語是最重要的語法單位,在語言分析中起著舉足輕重的作用,其構(gòu)造原則同句子的構(gòu)造原則基本一致,內(nèi)部結(jié)構(gòu)也比較穩(wěn)定,往往作為一個(gè)整體與句子中的其他成分發(fā)生作用。在自然語言處理中,短語作為語言分析的一個(gè)層次,占有十分重要的位置。有效的短語分析對(duì)降低其后句法分析難度,縮小句法分析器的搜索空間,提高機(jī)器翻譯的翻譯正確率是很有幫助的[2]。

藏語短語結(jié)構(gòu)標(biāo)注樹庫是依據(jù)句子的核心成分(即謂語),通過分析句子中各個(gè)語言單位之間的句法功能和語義關(guān)系,從大到小,從長(zhǎng)到短的依次分析構(gòu)成句子的各類短語結(jié)構(gòu),直至詞層面為止,而這樣產(chǎn)生的短語結(jié)構(gòu)規(guī)則庫在處理涉及短語和句子的各類語言現(xiàn)象時(shí)能夠作為一定的依據(jù)和標(biāo)準(zhǔn),對(duì)短語結(jié)構(gòu)進(jìn)行深入分析,從而進(jìn)一步加強(qiáng)對(duì)句法結(jié)構(gòu)的分析和研究。同時(shí),在語言運(yùn)用中能夠有效提高短語和句子結(jié)構(gòu)的識(shí)別和處理能力。而構(gòu)建語言分析模型可以自動(dòng)識(shí)別各類短語結(jié)構(gòu),實(shí)現(xiàn)短語的自動(dòng)劃分與標(biāo)注,還可以進(jìn)一步對(duì)藏語短語進(jìn)行深層次的分析,為藏漢機(jī)器翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)提供規(guī)則庫的支持。

在進(jìn)行語料的加工和處理時(shí),詞和短語等的自動(dòng)劃分和標(biāo)注研究顯得至關(guān)重要。藏語短語劃分和標(biāo)注的理論,以及有關(guān)技術(shù)的研究和實(shí)現(xiàn)等不僅可以為構(gòu)建大規(guī)模的,其他各種類型的藏語語料庫提供理論和方法支持,也能應(yīng)用到各類藏語語料庫的深入分析和研究當(dāng)中。

1 樹庫概述

樹庫是指對(duì)自然語言進(jìn)行句法或語義標(biāo)注后,以樹形結(jié)構(gòu)存儲(chǔ)的一種語言資源[3]。構(gòu)建樹庫的過程實(shí)際上就是分析句子生成的過程,可以對(duì)不同層次的,構(gòu)成句子的每一個(gè)成分進(jìn)行特征與組合規(guī)則的詳細(xì)描述。短語結(jié)構(gòu)樹庫是依據(jù)句子的核心成分(即謂語),從大到小,從長(zhǎng)到短的依次分析構(gòu)成句子的各類短語,直至詞層面為止,從而分析句子的構(gòu)成過程,標(biāo)注其句法結(jié)構(gòu)或語義關(guān)系。樹庫的構(gòu)建工作在任何一個(gè)語言當(dāng)中都顯得至關(guān)重要,尤其在自然語言處理領(lǐng)域,樹庫是很重要的語言知識(shí)資源,能夠?yàn)檎Z言研究和語言信息處理提供很好的數(shù)據(jù)平臺(tái)。目前,世界上成規(guī)模的樹庫主要有短語結(jié)構(gòu)樹庫和依存結(jié)構(gòu)樹庫兩種類型。在中文領(lǐng)域,成規(guī)模的中文樹庫主要有賓州中文樹庫、Sinica 中文樹庫、清華中文樹庫、國(guó)家語委中文樹庫、北大中文樹庫、哈工大中文依存樹庫及北師大句本位句式結(jié)構(gòu)樹庫[4]。

國(guó)外關(guān)于句法分析的研究是從20 紀(jì)50年代開始的。國(guó)外在樹庫構(gòu)建方面取得了較好的成效,其中從規(guī)模和質(zhì)量上在看,英語樹庫的構(gòu)建工作相對(duì)成熟,其中比較大的樹庫有英國(guó)Lancaster 大學(xué)UCREL 的Lancaster 樹庫和美國(guó)的Pennsyvania 大學(xué)的Penn 樹庫,前者的標(biāo)記體系規(guī)模較大,從不同層面描述了詳細(xì)的短語句法信息,而后者的標(biāo)記則較為簡(jiǎn)單,只有14 個(gè)句法標(biāo)記。以下是對(duì)各類語言的樹庫構(gòu)建情況所做的概況,如表1所示。

表1:各類語言的樹庫構(gòu)建情況

雖然全部機(jī)器學(xué)習(xí)技術(shù)都可以被認(rèn)為是基于過去的觀測(cè)學(xué)習(xí)如何做出預(yù)測(cè),但是深度學(xué)習(xí)方法不僅學(xué)習(xí)預(yù)測(cè),而且學(xué)習(xí)正確地表示數(shù)據(jù),以使其更有助于預(yù)測(cè)[5]。近年來,越來越多的研究人員在藏語短語和句子的層次分析方面進(jìn)行了大量探索和深入研究,積累了許多有價(jià)值和可供參考的研究成果,可運(yùn)用到短語結(jié)構(gòu)樹庫的標(biāo)注過程當(dāng)中,為樹庫的構(gòu)建工作提供有力的支持。

2 藏語短語結(jié)構(gòu)標(biāo)注樹庫的構(gòu)建

在藏文傳統(tǒng)文法中,有關(guān)短語的論述并不多,然而這并不表示在藏文文法體系完善,欠缺有關(guān)內(nèi)容,而是沒有在語言運(yùn)用層面進(jìn)行相應(yīng)的分析研究。在藏文傳統(tǒng)文法中,對(duì)藏語短語的名稱和概念,以及分類等都沒有形成一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。關(guān)于短語的名稱,藏族學(xué)者的看法有所不一,分別有“??????? ???????? ??????????????”三種,其中以“??????????????”居多;關(guān)于短語的定義,分別在五個(gè)藏文語法書中有所界定,基本都是根據(jù)短語的形式和功能進(jìn)行的定義。根據(jù)本人之前做過的一些研究工作和進(jìn)行的總結(jié),藏語短語的概念可定義為:相關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的詞用格助詞進(jìn)行連接,能區(qū)別意義的,充當(dāng)句子成分的語言單位。這是依據(jù)短語在句子中的位置和功能進(jìn)行的概念界定。而對(duì)短語的分類大多是依據(jù)藏語的四大根本詞類進(jìn)行相應(yīng)的四類短語的劃分,即動(dòng)詞短語,名詞短語,數(shù)量詞短語和形容詞短語。

近年來,從信息處理的角度藏語短語進(jìn)行研究的論文層出不窮。其中,《面向語言信息處理的藏語短語及其分類方法研究》[6-9]等文章中,主要研究藏語短語的結(jié)構(gòu)和規(guī)則,分布特征,分類信息等內(nèi)容;《基于短語的藏英統(tǒng)計(jì)機(jī)器翻譯關(guān)鍵技術(shù)研究》[10-12]等文章中,通過對(duì)藏漢,藏英機(jī)器翻譯系統(tǒng)工作原理的研究,提出了構(gòu)建基于短語的統(tǒng)計(jì)機(jī)器翻譯模型,嘗試提高藏英或藏漢機(jī)器翻譯的性能;《基于句法樹的藏語最長(zhǎng)名詞短語識(shí)別》[13-15]等文章中,通過分析的藏語短語的統(tǒng)計(jì)特征,提出了識(shí)別和抽取有關(guān)藏語短語結(jié)構(gòu)的算法和模型等。藏語樹庫的構(gòu)建工作也相繼起步,有關(guān)研究成果有扎西加,多拉的《藏語依存樹庫構(gòu)建的理論與方法探析》[16]等,這些論文結(jié)合藏語自身的語法特點(diǎn),在論文中提到了相關(guān)樹庫構(gòu)建的理論和方法,樹庫的構(gòu)建模式和構(gòu)建技術(shù),并通過樹庫的構(gòu)建,制定出了相應(yīng)的標(biāo)記和規(guī)范,設(shè)計(jì)實(shí)現(xiàn)了標(biāo)注工具,對(duì)相關(guān)樹庫進(jìn)行了較為詳盡的分析研究。

2.1 基于深度學(xué)習(xí)的藏語短語結(jié)構(gòu)標(biāo)注樹庫的構(gòu)建

語料庫是對(duì)語言知識(shí)的表示,而樹庫是對(duì)語料進(jìn)行過深加工之后形成的資源庫,既可作為對(duì)語言學(xué)和自然語言進(jìn)行深入分析研究的重要依據(jù),也是語料庫語言學(xué)和自然語言處理技術(shù)發(fā)展到一定階段的產(chǎn)物。標(biāo)注樹庫是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,需要完善的標(biāo)注體系和規(guī)范的標(biāo)注流程以保證標(biāo)注的質(zhì)量。另一方面,由于標(biāo)注規(guī)范的復(fù)雜性,需要標(biāo)注者擁有相關(guān)的專業(yè)背景。即使這樣,標(biāo)注者對(duì)句子的不同理解也會(huì)產(chǎn)生不同的標(biāo)注結(jié)果,這為樹庫的建設(shè)帶來了一定的困難[17]。藏語是謂語后置性語言,加之藏語虛詞,即自由虛詞和不自由虛詞在句子中的功能非常強(qiáng)大,起著連接句子前后的紐帶作用,因此,在進(jìn)行藏語短語標(biāo)注樹庫的建設(shè)時(shí),在借鑒其他語言樹庫構(gòu)建的理論和方法外,還要根據(jù)藏語自身的特點(diǎn),進(jìn)行細(xì)致入微的分析。

樹結(jié)構(gòu)這種層次標(biāo)注方法可以很詳細(xì)的描述出句法信息等,但是必須遵循一定的語法規(guī)則。樹庫的構(gòu)建都是在特定的語法理論的框架下制定標(biāo)注規(guī)范的,不同結(jié)構(gòu)類型的樹庫之間最本質(zhì)的區(qū)別不在于采用了何種標(biāo)注體系,而在于依照何種語法體系制定的該標(biāo)注體系。從這個(gè)角度上講,短語結(jié)構(gòu)樹庫最本質(zhì)的特征在于其標(biāo)注體系的制定是站在“短語”的角度,采用了“短語中心”的語法理論,這種語法理論是通過直接描寫句子“直接成分”(如主謂、定中、述賓、附加等)的方式分析句子的結(jié)構(gòu),進(jìn)而制定標(biāo)注體系[18]。因此,在進(jìn)行短語結(jié)構(gòu)的標(biāo)注實(shí)踐時(shí),需要以完整的層次結(jié)構(gòu)樹為基礎(chǔ),通過對(duì)10000 個(gè)藏語句子進(jìn)行標(biāo)注,首先完成對(duì)各種復(fù)雜的語言現(xiàn)象的分析和標(biāo)記,進(jìn)而對(duì)結(jié)構(gòu)樹上的每個(gè)短語結(jié)構(gòu)節(jié)點(diǎn)進(jìn)行標(biāo)記,即結(jié)構(gòu)標(biāo)記和關(guān)系標(biāo)記 ,形成雙標(biāo)記集的句法信息描述體系,進(jìn)而制定藏語短語結(jié)構(gòu)樹庫的標(biāo)注體系。樹庫的標(biāo)注工作是在對(duì)藏語短語結(jié)構(gòu)的句法語義進(jìn)行深入研究的基礎(chǔ)上,通過對(duì)句子層次結(jié)構(gòu)的標(biāo)注實(shí)踐過程,形成一個(gè)計(jì)算機(jī)可分析和理解的藏語短語結(jié)構(gòu)規(guī)則庫。

2.1.1 通過標(biāo)記的形式進(jìn)行語料中短語邊界的確定檢測(cè)

首先選取各類藏語句子進(jìn)行短語結(jié)構(gòu)的標(biāo)注,目的在于建立一個(gè)較為完整的藏語短語結(jié)構(gòu)樹庫。因?yàn)榫渥拥拈L(zhǎng)短不一,為了節(jié)省空間,便于標(biāo)注,對(duì)短語結(jié)構(gòu)的劃分主要采用括號(hào)(bracket)標(biāo)注的方式,將句子中由兩個(gè)或以上詞類形成的短語左右添加括號(hào),形成相應(yīng)的括號(hào)對(duì)后標(biāo)記相應(yīng)的短語結(jié)構(gòu)類型的標(biāo)記,依靠語言知識(shí)進(jìn)行校對(duì)。而從短語結(jié)構(gòu)標(biāo)注語料中提取各類短語結(jié)構(gòu)時(shí),采用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,從各類短語的結(jié)構(gòu)出發(fā),以構(gòu)成各類短語的核心成分作為標(biāo)志,獲得短語結(jié)構(gòu)的候選項(xiàng),利用統(tǒng)計(jì)算法和短語規(guī)則庫對(duì)候選項(xiàng)進(jìn)行檢測(cè),以獲得各類短語結(jié)構(gòu)。

藏語短語標(biāo)注和規(guī)范的制訂是藏語自然語言處理的重點(diǎn)內(nèi)容。通過句法語義分析,對(duì)各類藏語句子中的短語進(jìn)行劃分與標(biāo)注,制定相應(yīng)的工程規(guī)范是開展各項(xiàng)研究的基礎(chǔ)。此項(xiàng)任務(wù)開展的關(guān)鍵是:在一個(gè)完整的句子當(dāng)中,需要著重分析句子的組成成分和結(jié)構(gòu),以及組成句子的詞和短語間的組合形式及搭配規(guī)則,進(jìn)行對(duì)不同類型的短語的分析和同一類型下不同類型短語的形式和區(qū)分規(guī)則的歸納總結(jié),以制定在尊重語言事實(shí)的情況下,符合藏語自身規(guī)律和全面概括藏語短語規(guī)則的短語標(biāo)注體系。

2.1.2 建立藏語短語結(jié)構(gòu)標(biāo)注樹庫

如圖1所示,藏語短語結(jié)構(gòu)標(biāo)注樹庫構(gòu)建的基本流程為:首先,在保證藏語句子的完整性的前提下,借助表示一個(gè)藏語句子的單垂符或雙垂符的標(biāo)志,從大規(guī)模的藏文原始文本中抽取各類藏語句子作為處理文本;然后采用詞類、短語劃分與標(biāo)注的國(guó)家標(biāo)準(zhǔn)對(duì)整理完成的文本進(jìn)行詞類和短語的劃分與標(biāo)注,進(jìn)行人工校對(duì)。在建立短語結(jié)構(gòu)樹庫時(shí),采用人工標(biāo)注的方式,并結(jié)合其他的一些標(biāo)注工具進(jìn)行5000 句的短語結(jié)構(gòu)樹的構(gòu)建工作,進(jìn)行初步測(cè)試,之后再進(jìn)行剩下5000 句的短語結(jié)構(gòu)樹的構(gòu)建工作,以便最后建立一個(gè)藏語短語結(jié)構(gòu)樹庫的標(biāo)注體系。

圖1:短語結(jié)構(gòu)標(biāo)注樹庫構(gòu)建基本流程圖

一直以來,藏語語言學(xué)家在藏語語法研究方面進(jìn)行了很深入研究,積累了很多有價(jià)值的研究經(jīng)驗(yàn),這些可充分吸收到藏語短語結(jié)構(gòu)標(biāo)注樹庫的構(gòu)建工作當(dāng)中。

藏語句法分析是藏語自然語言處理中最根本的理論基礎(chǔ)和關(guān)鍵技術(shù)。句法樹庫是以句子的構(gòu)成成分和組合規(guī)則為依據(jù)生成不同類型的短語結(jié)構(gòu)樹,從而揭示句子中詞與詞、短語與短語間的語法結(jié)構(gòu)和語義關(guān)系。短語結(jié)構(gòu)樹可以對(duì)句子的不同層次的短語結(jié)構(gòu)及其組成成分的特點(diǎn)進(jìn)行細(xì)致入微的描述,但由于有些句子太長(zhǎng),層次太多,標(biāo)注和分析會(huì)顯得較為麻煩,而且在中心詞的判定上會(huì)出現(xiàn)判定不準(zhǔn)的情況。因此,在藏語短語結(jié)構(gòu)標(biāo)注的過程中要兼顧對(duì)句子層次和句法信息的觀察,以獲取任一句子完整準(zhǔn)確的句法層次樹,從而制訂藏語短語結(jié)構(gòu)標(biāo)注規(guī)范尤為重要。

2.2 對(duì)各類藏語短語結(jié)構(gòu)標(biāo)注樹的分析研究

對(duì)各類短語結(jié)構(gòu)類型的統(tǒng)計(jì)和分析能夠?yàn)闃鋷斓臉?gòu)建提供豐富的資源。藏文信息處理的研究?jī)?nèi)容包括詞法分析,句法分析,語義分析和語用分析等,而在詞法分析階段已經(jīng)取得了較好的成果,目前正轉(zhuǎn)向句法和語義分析階段。在運(yùn)用有關(guān)短語結(jié)構(gòu)的語法理論,參照漢英等其他民族語言中的短語研究和處理實(shí)踐等相關(guān)研究成果的基礎(chǔ)上,從各類藏語短語結(jié)構(gòu)樹中得到較為詳細(xì)和全面的句法結(jié)構(gòu)和語義信息的研究漸趨重要。短語的句法成分分析,指各種藏語短語在句子中充當(dāng)了哪些成分;短語的語義角色分析,分析藏語短語在語言運(yùn)用中扮演的角色[19]。通過句法和語義標(biāo)注的短語結(jié)構(gòu)規(guī)則庫在處理涉及藏語短語和句子的各類語言現(xiàn)象時(shí)能夠作為一定的依據(jù)和標(biāo)準(zhǔn)。此外,在對(duì)短語結(jié)構(gòu)規(guī)則進(jìn)行深入研究的基礎(chǔ)上,進(jìn)一步加強(qiáng)句法結(jié)構(gòu)的分析和研究,能夠?qū)Χ陶Z的結(jié)構(gòu)規(guī)則產(chǎn)生更為深刻的理解,在語言運(yùn)用過程中,能夠有效提高短語和句子結(jié)構(gòu)的識(shí)別和處理能力。通過構(gòu)建樹庫進(jìn)行句法分析等的方法不僅行之有效,在實(shí)際應(yīng)用當(dāng)中也取得了較好的成效。

本課題的研究將在遵循有關(guān)短語樹庫的構(gòu)建與藏語語法理論的前提下,依托句子的環(huán)境,試圖從句法和語義兩個(gè)層級(jí)上分析和歸納藏語各類短語結(jié)構(gòu)的組合規(guī)則,對(duì)短語進(jìn)行深層分析,以解決在面向自然語言處理時(shí)遇到的有關(guān)藏語短語研究的各類問題。

對(duì)于短語結(jié)構(gòu)的規(guī)則的描述,應(yīng)該考慮以下因素:

(1)核心詞的描述:分析短語結(jié)構(gòu)中核心詞的功能和語義搭配能力;

(2)外部特征和功能描述:在較長(zhǎng)的短語或者嵌套短語中,分析其組合特征和與其他短語間的從屬關(guān)系和組合規(guī)則;

(3)短語結(jié)構(gòu)中的內(nèi)部關(guān)系描述:分析短語結(jié)構(gòu)中各組成成分間的語義關(guān)系。

句法分析和標(biāo)注是對(duì)語料庫進(jìn)行深加工和處理的一個(gè)重要的環(huán)節(jié)。句法分析和標(biāo)注的結(jié)果對(duì)進(jìn)一步進(jìn)行藏語句子語義關(guān)系等的分析和標(biāo)注提供有力的支持。通過正確的和完整的句法信息的描述,借助一個(gè)語義知識(shí)庫和自動(dòng)標(biāo)注工具,可以準(zhǔn)確地標(biāo)注出有關(guān)句子或短語等的語義信息。

藏語短語結(jié)構(gòu)標(biāo)注樹庫的構(gòu)建需要進(jìn)行短語結(jié)構(gòu)的劃分和標(biāo)注,因此,依據(jù)相關(guān)分析理論,應(yīng)用一些實(shí)體標(biāo)注工具和句法分析器主要進(jìn)行句法信息的描述尤為重要。句法標(biāo)注(Syntax Tagging,ST)是以一定的語法理論為指導(dǎo),將句法結(jié)構(gòu)形式化,便于計(jì)算機(jī)處理。短語結(jié)構(gòu)語法(Phrase Structure Grammar,PSG)和依存語法(Dependency Grammar,DG)是現(xiàn)有句法標(biāo)注的兩種理論[20]。從自然語言處理的角度對(duì)藏語短語進(jìn)行句法功能和語義關(guān)系等的描述時(shí),使用這兩種理論體系能夠詳細(xì)準(zhǔn)確的標(biāo)注出藏語短語的句法和語義關(guān)系。在語料中對(duì)短語結(jié)構(gòu)的標(biāo)記形式如表2所示。

表2:藏語短語的標(biāo)注形式

短語結(jié)構(gòu)語法(Phrase Structure Grammar,PSG)和依存語法(Dependency Grammar,DG)的句法分析技術(shù);

Chomsky 將語言分成句法,語義,語音三個(gè)部分,其中,句法部分是最為重要的,它不僅構(gòu)成了句子的深層結(jié)構(gòu),也能將其轉(zhuǎn)換成表層結(jié)構(gòu)。語義部分對(duì)句子的深層結(jié)構(gòu)進(jìn)行語義結(jié)構(gòu)的說明,而語音部分對(duì)表層結(jié)構(gòu)做出語音說明(語言的神經(jīng)機(jī)制)。Chomsky 語言學(xué)的特點(diǎn)是更注重于語言的結(jié)構(gòu)轉(zhuǎn)換規(guī)則的研究。他認(rèn)為,短語規(guī)則是形成句子的一套規(guī)則。短語結(jié)構(gòu)的標(biāo)注是通過句子層面到詞層面,句子的外部結(jié)構(gòu)到內(nèi)部關(guān)系,從最長(zhǎng)短語到最短短語(準(zhǔn)短語)進(jìn)行的描述出藏語句子的句法信息,覆蓋藏語詞,短語,句段等各個(gè)層次的句法單元。

規(guī)則(1)S →NP VP(2)NP →NP NP(3)VP →VP NP(4)NP →NP NP(5)NP →nn gi(6)NP →nn gi(7)VP →vt VP(8)NP →nn qj(9)VP →vu gi

其短語結(jié)構(gòu)樹庫如圖2所示。

圖2:藏語短語結(jié)構(gòu)樹示意圖

圖3:藏語依存關(guān)系分析圖

本文通過對(duì)藏語句子進(jìn)行句法結(jié)構(gòu)和語義信息的標(biāo)注后,提出了符合藏語規(guī)范的句法樹庫標(biāo)注體系,對(duì)句子中各種結(jié)構(gòu)進(jìn)行了很好的分析與標(biāo)注,并在應(yīng)用階段能夠得到驗(yàn)證。

2.3 基于深度學(xué)習(xí)的藏語短語結(jié)構(gòu)分析模型的建立

通常情況下,使用一些工具去進(jìn)行數(shù)據(jù)的挖掘是需要用到不同的數(shù)據(jù)分析模型的。傳統(tǒng)的研究方法主要是基于統(tǒng)計(jì)學(xué)的模型,近年來基于神經(jīng)網(wǎng)路的語言模型也得到廣泛應(yīng)用,并取得了一定的成效。將深度學(xué)習(xí)的方法運(yùn)用到構(gòu)建藏語短語結(jié)構(gòu)分析模型的工作中,需要把藏語短語句法結(jié)構(gòu)標(biāo)注樹庫作為語義知識(shí)資源,采用以句法功能為主,語義為輔的策略,先為短語中的每一個(gè)實(shí)詞構(gòu)造“詞圖”,然后合并“詞圖”而組成“短語圖”,最后得到一個(gè)關(guān)于藏語短語結(jié)構(gòu)信息和語義信息的知識(shí)圖[21]。

非線性神經(jīng)網(wǎng)絡(luò)語言模型可以解決一些傳統(tǒng)語言模型中的問題:它可以在增加上下文規(guī)模的同時(shí)參數(shù)僅呈線性增長(zhǎng),緩解了手工設(shè)計(jì)退避規(guī)則的需要,支持不同上下文的泛化性能。

神經(jīng)網(wǎng)絡(luò)的輸入是k元文法w1:k,輸出是下一個(gè)詞的概率分布。k個(gè)上下文詞w1:k當(dāng)作一個(gè)單詞窗口:每個(gè)詞w和詞嵌入的對(duì)應(yīng),輸入向量x是k個(gè)詞的串拼接。

輸入的x 之后被傳給一個(gè)擁有一個(gè)或多個(gè)隱層的多層感知器(MLP):

V 是一個(gè)有限的詞表,包括針對(duì)未登錄單詞的唯一標(biāo)識(shí)UNK,句子開頭的補(bǔ)齊符號(hào)。詞表的大小|V 丨在10 000 到1 000 000 詞之間,常見規(guī)模大概在70 000 左右[22]。

綜上所述,藏語短語結(jié)構(gòu)標(biāo)注樹庫構(gòu)建技術(shù)的研究工作顯得刻不容緩,是進(jìn)行藏語句法分析和構(gòu)建藏語短語分析模型的主要依據(jù)?!霸诶碚撜Z言學(xué)和計(jì)算語言學(xué)研究中,樹庫的重要性都日益凸顯,是連接兩者的橋梁:在理論語言學(xué)領(lǐng)域,樹庫為語言學(xué)家提供了基于真實(shí)語言的數(shù)據(jù),為完善和驗(yàn)證傳統(tǒng)的語言學(xué)理論奠定了堅(jiān)實(shí)的基礎(chǔ);在計(jì)算語言學(xué)領(lǐng)域,依據(jù)樹庫建立的語言模型提高了自動(dòng)句法分析和機(jī)器翻譯的準(zhǔn)確率,推進(jìn)了機(jī)器理解自然語言的步伐。[23]”藏語短語結(jié)構(gòu)樹庫的構(gòu)建,可以對(duì)構(gòu)成句子成分的每一個(gè)短語結(jié)構(gòu)進(jìn)行詳細(xì)的觀察,依托句子的環(huán)境定義短語的概念,劃分短語的類別,進(jìn)行大類之下一些小類短語的細(xì)致區(qū)分,明確句子和短語的區(qū)別,可填補(bǔ)有關(guān)藏語短語研究在傳統(tǒng)文法中提及甚少,未詳細(xì)定義的空白。對(duì)于短語的識(shí)別問題,采用基于深度學(xué)習(xí)的短語結(jié)構(gòu)樹的識(shí)別技術(shù),不僅可以快速有效大量處理相關(guān)數(shù)據(jù),而且還能綜合提高識(shí)別性能。在自然語言處理領(lǐng)域中,短語的正確識(shí)別和分析對(duì)機(jī)器翻譯、信息檢索、文本分類以及句法分析都具有重要作用。

Chomsky 在《信息論雜志》中指出,語言理論試圖解釋說話人在其有限的語言經(jīng)驗(yàn)的基礎(chǔ)上生成和理解新的句子并拒絕其他不合語法的新序列的能力。這是研究語言學(xué)理論的實(shí)質(zhì)問題。構(gòu)建樹庫的一個(gè)重要意義在于通過生成一定的語言規(guī)則,結(jié)合一定的理論體系分析和驗(yàn)證各種語言現(xiàn)象,進(jìn)而自動(dòng)生成更多的合乎語法的結(jié)構(gòu)。因此,通過觀察各種語言現(xiàn)象,根據(jù)語言經(jīng)驗(yàn),歸納總結(jié)其中的語言規(guī)則是非常重要的。短語結(jié)構(gòu)分析模型的建立是要通過統(tǒng)計(jì)歸納的語言規(guī)則,建立一個(gè)統(tǒng)計(jì)語言模型,以期能夠自動(dòng)生成合乎語法的新序列的能力,即從任一句子中能夠自動(dòng)生成各類短語結(jié)構(gòu)。

3 結(jié)束語

藏語短語結(jié)構(gòu)的劃分與標(biāo)注是構(gòu)建樹庫,進(jìn)行句法語義分析的基礎(chǔ),亦是進(jìn)行相關(guān)任務(wù)研究必不可少的條件。本文的研究是跨藏語語法研究和藏文信息處理兩個(gè)領(lǐng)域進(jìn)行的。一方面,研究的具體結(jié)果對(duì)推進(jìn)藏文信息處理技術(shù)的發(fā)展有直接的應(yīng)用和參考價(jià)值;另一方面,從藏文信息處理的角度來審視藏語語法研究,可以從多方位的研究視角去觀察藏語語法中的相關(guān)問題,進(jìn)行詳細(xì)和規(guī)范的描述,進(jìn)而完善藏語語法體系。

本文研究的主要目的在于面向自然語言處理的實(shí)際需要,以形式化的方式對(duì)藏語各類短語結(jié)構(gòu)規(guī)則進(jìn)行較為全面的描述,預(yù)期目標(biāo)是完成一個(gè)帶有句法語義信息標(biāo)注的藏語短語結(jié)構(gòu)樹庫,這樣的樹庫可以給一些應(yīng)用系統(tǒng)的開發(fā)提供直接的規(guī)則庫的支持。隨著自然語言處理的迅速發(fā)展,對(duì)自然語言進(jìn)行深層分析,比如機(jī)器翻譯,信息檢索,自動(dòng)文摘等成為當(dāng)下最為主要的工作,開發(fā)這類應(yīng)用系統(tǒng),需要計(jì)算機(jī)掌握盡可能多的有關(guān)自然語言的知識(shí)和非語言知識(shí),以便進(jìn)行語言模型等的構(gòu)建,實(shí)現(xiàn)有關(guān)技術(shù)的進(jìn)一步發(fā)展與應(yīng)用。

猜你喜歡
藏語句法短語
淺談藏語中的禮儀語
客聯(lián)(2022年2期)2022-04-29 22:05:07
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
漢藏語及其音樂
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
藏語拉達(dá)克話的幾個(gè)語音特征
西藏研究(2017年3期)2017-09-05 09:44:58
藏語地理分布格局的形成原因
西藏研究(2016年5期)2016-06-15 12:56:42
林州市| 葵青区| 浦县| 南丹县| 安平县| 江永县| 五峰| 丹江口市| 读书| 望奎县| 屏山县| 剑河县| 乡宁县| 应城市| 板桥市| 赤峰市| 密山市| 保康县| 阳信县| 莱西市| 塔河县| 鄂托克旗| 哈尔滨市| 青河县| 榆社县| 泰顺县| 浮山县| 大渡口区| 额尔古纳市| 阜城县| 安乡县| 保定市| 东兴市| 哈巴河县| 常州市| 东莞市| 饶河县| 鲁山县| 尤溪县| 嘉定区| 文水县|