国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

《面向自然語言處理的語言學(xué)要義》述評(píng)

2016-03-16 01:37:06上海外國語大學(xué)楊春雷
外文研究 2016年2期
關(guān)鍵詞:論元形態(tài)學(xué)句法

上海外國語大學(xué) 楊春雷

?

《面向自然語言處理的語言學(xué)要義》述評(píng)

上海外國語大學(xué) 楊春雷

《面向自然語言處理的語言學(xué)要義》從跨語言的視角,探討了如何通過分析句子各組成部分之間的相互關(guān)系(主要是形態(tài)和句法結(jié)構(gòu))來構(gòu)建更準(zhǔn)確的語言描寫系統(tǒng),從而為更成功的自然語言處理系統(tǒng)奠定基礎(chǔ)。

自然語言處理;形態(tài);句法

LinguisticFundamentalsforNaturalLanguageProcessing: 100EssentialsfromMorphologyandSyntax(《面向自然語言處理的語言學(xué)要義:形態(tài)學(xué)和句法學(xué)的100個(gè)要點(diǎn)》,下文稱《面向自然語言處理的語言學(xué)要義》)的雛形是2012年國際計(jì)算語言學(xué)協(xié)會(huì)組織的一次授課講義。作者Emily M. Bender是美國華盛頓大學(xué)語言學(xué)系和計(jì)算科學(xué)與工程系的雙聘教授,也是中心語驅(qū)動(dòng)的短語結(jié)構(gòu)語法(Head-driven Phrase Structure Grammar,簡稱HPSG)理論的最主要旗手之一。

本書凝聚了作者跨學(xué)科的學(xué)術(shù)思想和成果,其中體現(xiàn)的主要特點(diǎn)和作者的專業(yè)領(lǐng)域高度契合。作者在計(jì)算語言學(xué)、形式語法和語言類型學(xué)等各領(lǐng)域皆頗有建樹。在計(jì)算語言學(xué)方面,她是華盛頓大學(xué)計(jì)算語言學(xué)專業(yè)的負(fù)責(zé)人,長期為《計(jì)算語言學(xué)》、《語言和計(jì)算研究》、《語言技術(shù)中的語言學(xué)問題》等雜志撰稿;在形式語法方面,她是HPSG理論的權(quán)威著作《句法理論》(Sagetal. 2003)的作者之一,而HPSG理論是計(jì)算語言學(xué)領(lǐng)域應(yīng)用最廣泛的形式句法理論框架(Backofenetal. 1996);在語言類型學(xué)方面,她負(fù)責(zé)的斯坦福大學(xué)語言與信息研究中心“語法母體”(Grammar Matrix)項(xiàng)目經(jīng)過近20年的發(fā)展,建立了跨語言語法的開發(fā)平臺(tái),并在該平臺(tái)上開發(fā)出20種語言的可計(jì)算語法。

1. 主要內(nèi)容

本書分為4個(gè)部分,共10章,包含100個(gè)知識(shí)要點(diǎn),每個(gè)要點(diǎn)集中解釋一個(gè)語言學(xué)問題,篇幅從一段到兩頁不等。

第一部分(第1章“介紹/動(dòng)因”)是全書概述,共有7個(gè)要點(diǎn),介紹形態(tài)學(xué)和句法學(xué)的基本概念,并闡述本書的寫作目的——研究兩個(gè)領(lǐng)域的關(guān)鍵知識(shí),分別是:1)自然語言處理(Natural Language Processing,以下簡稱NLP)領(lǐng)域:NLP的核心任務(wù)是提取語句中的依存關(guān)系,即“誰對(duì)誰做了什么”。人類語言依靠各種手段體現(xiàn)句子各部分之間的關(guān)系,找到并精確描寫這些手段對(duì)NLP中特征的提取與設(shè)計(jì)以及錯(cuò)誤分析至關(guān)重要。2)語言學(xué)領(lǐng)域:理想的NLP程序不僅能處理語言內(nèi)部結(jié)構(gòu),也能處理不同語言的自然語料,但如何描寫跨語言差異對(duì)NLP領(lǐng)域的學(xué)者來說是個(gè)巨大挑戰(zhàn)。因此,語言學(xué)家需要從NLP的角度構(gòu)建普遍適用的語言學(xué)知識(shí)體系。作者特別強(qiáng)調(diào)了語言學(xué)知識(shí)對(duì)NLP的重要性,認(rèn)為如今的NLP系統(tǒng)大多只適用于有限的幾種語言,是否適用于其他語言令人懷疑。書中豐富的多語種語料可以用來測試這些NLP系統(tǒng)的解釋力。

第二部分(第2章至第4章)聚焦形態(tài)學(xué)。

第2章“形態(tài)學(xué)介紹”共有15個(gè)要點(diǎn),介紹詞素、派生、屈折變化等基本概念,并重點(diǎn)結(jié)合多語種語料討論詞素與音素和詞的復(fù)雜關(guān)系。例如,在希伯來語中,表示屈折變化的中綴會(huì)插入動(dòng)詞詞根;關(guān)于didn’t的詞匯屬性存在爭議;untieable中詞根tie與前綴un-和后綴-able的組合順序決定最終的語義差異等。

第3章“形態(tài)音位學(xué)”共有4個(gè)要點(diǎn),結(jié)合多語種語料描寫了形態(tài)音位學(xué)的3種主要變化過程:1)僅涉及詞素形式的變化,如名詞復(fù)數(shù)的規(guī)則變化;2)涉及前后詞素的變化,如主謂一致;3)完全無規(guī)律的詞素變化,如不規(guī)則動(dòng)詞變化。

第4章“形態(tài)句法學(xué)”是形態(tài)學(xué)部分內(nèi)容最豐富的一章,共有16個(gè)要點(diǎn),介紹與形態(tài)學(xué)相關(guān)的句法功能,如時(shí)、體、態(tài)、人稱、性別、數(shù)、格、否定、限定性、言據(jù)性、敬語和所屬格等,重點(diǎn)討論形態(tài)學(xué)特征間的一致關(guān)系。作者詳細(xì)討論了許多形態(tài)學(xué)標(biāo)記的范疇在不同語言中的差異。以時(shí)態(tài)系統(tǒng)為例,最簡單的是兩分法,其中最常見的是過去時(shí)VS非過去時(shí)(如日語)和將來時(shí)VS非將來時(shí)。英語是三分法,即過去時(shí)、現(xiàn)在時(shí)和將來時(shí)。但有些語言的時(shí)態(tài)系統(tǒng)要復(fù)雜得多。根據(jù)Dahl & Velupillai(2011: 36)對(duì)222種語言的調(diào)查,秘魯亞瓜語中僅過去時(shí)就有5種,分別是:“最近1類”,表示幾個(gè)小時(shí)前;“最近2類”,表示1天前;“過去1類”,表示大約一周到一個(gè)月前;“過去2類”,表示大約一兩個(gè)月到一兩年前;“過去3類”,表示很久以前或傳說中的過去。又如,最簡單的格系統(tǒng)是兩分法;最復(fù)雜的匈牙利語有21種格。

這一章的突出特點(diǎn)是跨語言語料豐富。48組例句中除了12組來自英語,其他36組分別來自五大洲的20種語言,其中既包括漢、日、德、法、阿拉伯語等使用廣泛的語種,也包括澳大利亞和美國的土著語言等小語種。豐富的跨語言差異形象地證明了語言的多樣性,提醒兩個(gè)領(lǐng)域的學(xué)者不應(yīng)僅關(guān)注一種語言的特征,而應(yīng)尋求跨語言的普遍特征,對(duì)于面向廣泛應(yīng)用的NLP系統(tǒng)(如機(jī)器翻譯)的設(shè)計(jì)者來說尤其如此。處理跨語言語料時(shí),應(yīng)注意形態(tài)標(biāo)記系統(tǒng)間的差異。相同的形態(tài)學(xué)特征在語言A中的值可能等于語言B中的兩個(gè)甚至更多的值的集合。例如,復(fù)數(shù)標(biāo)記在英語中的值{復(fù)數(shù)}等于多種大洋洲語言中除單數(shù)外的4個(gè)值的集合,即{雙、三、大于1的小數(shù)目、復(fù)數(shù)}。

第三部分(第5章至第9章)聚焦句法。

第5章“句法介紹”共有3個(gè)要點(diǎn),作者將句法定義為附加在語句上的約束條件,并為語義“搭建腳手架(scaffold)”。作者根據(jù)“弗雷格原則”,重點(diǎn)討論了約束條件如何影響語句的語法正確性和語義闡釋,認(rèn)為信息組合成語義結(jié)構(gòu)的方式很大程度上取決于句法。

第6章“詞性”共有4個(gè)要點(diǎn),分別介紹如何根據(jù)形態(tài)、句法分布以及功能來定義詞性。作者還指出詞性劃分的復(fù)雜性,并強(qiáng)調(diào)沒有任何廣泛適用于所有語言的詞類體系,但弱化的、規(guī)模較小的詞類體系能滿足一些實(shí)際應(yīng)用(如機(jī)器翻譯)的需要。

第7章“中心語、論元和修飾成分”共有17個(gè)要點(diǎn),分別定義這3種句法成分并研究它們的句法表現(xiàn)。例如,作者分別從句法和語義角度討論了修飾語的7個(gè)特點(diǎn);在討論中心語的詞類時(shí),她特別指出由動(dòng)詞和形容詞派生的名詞(如invitation和likelihood)也可做中心語,并且可以選擇自己的論元。作者重點(diǎn)討論了成分結(jié)構(gòu)的主要測試方法,如并列、句中特定位置和可替代性等;作者也討論了區(qū)分論元和修飾語的測試方法,如句法必要性和語義蘊(yùn)含等,并結(jié)合例證討論如何以科學(xué)的態(tài)度看待這些測試方法。

第8章“論元種類和語法功能”共有15個(gè)要點(diǎn),首先討論不同語義角色和句法功能以及它們之間的關(guān)系。作者結(jié)合賓州樹庫(Penn Treebank)、框架語義網(wǎng)(FrameNet)和英語資源語法(English Resource Grammar,簡稱ERG)等NLP應(yīng)用,從句法和語義的角度分析如何對(duì)各種依存關(guān)系進(jìn)行分類、標(biāo)注以及建立層級(jí)結(jié)構(gòu)。例如,主語可標(biāo)注為名詞性、被動(dòng)名詞性、小句、被動(dòng)小句和控制性主語5個(gè)子類。又如,ERG區(qū)分了193個(gè)詞項(xiàng)類別,其中僅提升和控制動(dòng)詞的配價(jià)關(guān)系就有45種,涉及501個(gè)動(dòng)詞。本章還研究了如何使用詞序、一致和格標(biāo)記等特征甄別語法功能以及形態(tài)句法如何改變句法功能。

第9章“句法位置和語義角色的不匹配”共有16個(gè)要點(diǎn),分別討論了5類不匹配現(xiàn)象。第1類是句法位置和語義角色間的明顯錯(cuò)位,如被動(dòng)、反被動(dòng)、與格換位和具有形態(tài)標(biāo)記的使役關(guān)系等;第2類涉及語義為空的詞匯,如功能詞和虛詞等;第3類結(jié)構(gòu)中一個(gè)謂詞的語義論元在句法上實(shí)現(xiàn)為另一個(gè)謂詞的論元,如提升和控制結(jié)構(gòu);第4類包括復(fù)雜謂語和并列結(jié)構(gòu),前者中單個(gè)小句的論元允準(zhǔn)涉及不止一個(gè)詞,后者則可能產(chǎn)生“多對(duì)一”和“一對(duì)多”的匹配關(guān)系;第5類中句法論元實(shí)現(xiàn)的位置離它們的中心語較遠(yuǎn),如長距離依存。

在第三部分,作者準(zhǔn)確定義和區(qū)分了一系列的句法概念,討論了許多特殊的句法結(jié)構(gòu),并有針對(duì)性地推薦了NLP的相應(yīng)成果。但是,一方面,一些理論語言學(xué)的討論對(duì)NLP的學(xué)者們來說理解起來可能有些困難。例如,在討論提升和控制動(dòng)詞的區(qū)別時(shí),作者沒有解釋一些重要的抽象語言學(xué)概念,如“未充分賦值”(unsaturated)和“允準(zhǔn)”(license)等,而且也未在內(nèi)容索引中列出。另一方面,雖然作者提供了一些相關(guān)NLP文獻(xiàn)和資源,但書中缺少與NLP相關(guān)的技術(shù)手段的支持,如語法開發(fā)平臺(tái)的安裝及使用、可計(jì)算語法的讀取及修改等。如果理論語言學(xué)家想了解如何計(jì)算實(shí)現(xiàn)抽象的句法概念,很難迅速有效地使用書中推薦的NLP資源。為此,如果能附上NLP和形式句法的相關(guān)術(shù)語解釋并增加NLP資源的使用說明,相信會(huì)有所幫助。

第四部分(第10章“資源”)共有3個(gè)要點(diǎn),分別提供了形態(tài)分析器、深層句法自動(dòng)剖析器和形態(tài)學(xué)數(shù)據(jù)庫方面的實(shí)用資源信息。

2. 簡評(píng)

本書的主要特色有3個(gè):

1)跨學(xué)科的知識(shí)體系:作者具有跨理論語言學(xué)和計(jì)算科學(xué)的知識(shí)背景,寫作目的明確,內(nèi)容豐富切題并且體系完整,觀點(diǎn)有說服力,在理論語言學(xué)和NLP之間搭建了溝通的橋梁。本書不僅能為NLP領(lǐng)域的學(xué)者提供系統(tǒng)的形態(tài)學(xué)和句法學(xué)框架,也可幫助理論語言學(xué)家從NLP視角探索具有普遍意義的深層語言規(guī)律。書中的許多語言學(xué)描寫,尤其是前6章的內(nèi)容,可以直接應(yīng)用于機(jī)器翻譯。同樣,從NLP的角度描寫語言現(xiàn)象對(duì)理論語言學(xué)家也有所啟發(fā)。

本書的內(nèi)容和技術(shù)細(xì)節(jié)的安排真正兼顧了兩個(gè)專業(yè)領(lǐng)域的學(xué)者。在這方面其他相關(guān)著作就稍顯遜色。一方面,NLP的學(xué)者常參考的語言學(xué)經(jīng)典著作(如Fromkinetal. 2013; O’Gradyetal. 2010)雖然都辟專章介紹了NLP,但篇幅有限,內(nèi)容僅限于結(jié)合少數(shù)例證介紹NLP的主要概念和研究領(lǐng)域。另一方面,語言學(xué)家常參考的NLP經(jīng)典著作(如Jurafsky & Martin 2008)主要關(guān)注語言學(xué)各層面NLP的構(gòu)架、技術(shù)細(xì)節(jié)、算法和應(yīng)用,關(guān)于語言學(xué)的討論不夠深入,系統(tǒng)性也不強(qiáng)。但遵循本書構(gòu)架,既能有深厚的語言學(xué)本體(尤其是普遍語法)研究基礎(chǔ),又能方便地對(duì)本體研究成果進(jìn)行計(jì)算實(shí)現(xiàn),從而建立面向NLP、針對(duì)特定語言的可計(jì)算語法系統(tǒng)。

2)跨語言差異的豐富語料支撐: 書中的討論涉及多達(dá)82種語言,而且絕大部分要點(diǎn)都有例句支撐。這些例句來自斯瓦希里語、希伯來語、土耳其語、芬蘭語、塞爾維亞—克羅地亞語、車臣語、印古什語、楚克奇語、尤卡吉爾語等20多個(gè)語種。此外,書中詳細(xì)討論的大量跨語言差異可以幫助語言學(xué)家更深刻地理解跨語言變化規(guī)律對(duì)設(shè)計(jì)機(jī)器翻譯系統(tǒng)和其他多語言應(yīng)用軟件的重要意義。

3)可讀性強(qiáng),使用方便:本書介紹了面向NLP的形態(tài)和句法結(jié)構(gòu)體系,言簡意賅,深入淺出。本書簡潔的排版、一目了然的目錄編排、詳細(xì)的內(nèi)容和語言索引、附錄、參考文獻(xiàn)以及正文中頻繁出現(xiàn)的交叉引用都非常便于快速檢索。例如,附錄中列出了行間標(biāo)注中使用的語法術(shù)語縮略形式、全稱、上層語法類別以及書中相關(guān)知識(shí)要點(diǎn)等詳細(xì)信息。此外,20多頁參考文獻(xiàn)全都列出了引用出處的確切頁碼,因此擴(kuò)展閱讀會(huì)非常高效。

本書也存在以下兩點(diǎn)不足之處:

1)作為一本實(shí)用手冊(cè)性質(zhì)的著作,書中沒有深入討論語言學(xué)家和NLP學(xué)者共同關(guān)注的一些重要內(nèi)容,例如:特征提取的原則、構(gòu)建特征結(jié)構(gòu)的方法和詞性標(biāo)注等。

2)多語種語料分布不均,大多集中在形態(tài)學(xué)部分,而句法部分有近80%的語料都來自英語。句法結(jié)構(gòu)在不同語言中的變化非常豐富,能提供更多啟發(fā)。如果在這一部分能進(jìn)一步豐富多語種語料,更能凸顯本書跨語言的獨(dú)特視角。

總的來說,本書信息量大、系統(tǒng)性強(qiáng),是一本可讀性很好的NLP和形式語法實(shí)用工具書。因此,本書出版后短短一年多時(shí)間即受到學(xué)界的廣泛關(guān)注和好評(píng),已被《計(jì)算語言學(xué)》和《機(jī)器翻譯》等SCI和SSCI頂級(jí)期刊推介,并已有多所著名高校將其列為研究生跨系教材,如美國麻省大學(xué)和達(dá)特茅斯學(xué)院(常春藤盟校)計(jì)算機(jī)科學(xué)系、華盛頓大學(xué)語言學(xué)系和印度孟買大學(xué)語言學(xué)系等。

Backofen, R.etal. 1996.TheEAGLESFormalismsWorkingGroup.FinalReport(TechnicalReport) [R]. Saarbrücken: German Research Center for Artificial Intelligence.

Bender, E. M. 2013.LinguisticFundamentalsforNaturalLanguageProcessing: 100EssentialsfromMorphologyandSyntax[M]. San Rafael: Morgan-Claypool.

Dahl, ?. & V. Velupillai. 2011. Perfective/imperfective aspect [OL] // M. S. Dryer & M. Haspelmath (eds.).TheWorldAtlasofLanguageStructuresOnline. Munich: Max Planck Digital Library. http://wals.info/chapter/65.

Fromkin, V.etal. 2013.AnIntroductiontoLanguage(10thedition) [M]. Wadsworth: Cengage Learning.

Jurafsky, D. & J. H. Martin. 2008.Speech&LanguageProcessing(2ndedition) [M]. Upper Saddle River: Prentice Hall.

O’Grady, W.etal. 2010.ContemporaryLinguistics:AnIntroduction(6thedition) [M]. Boston: Bedford/St. Martin’s.

Sag, I. A.etal. 2003.SyntacticTheory:AFormalIntroduction[M]. Stanford: CSLI Publications.

(責(zé)任編輯 任鳳梅)

通訊地址: 201620 上海市 上海外國語大學(xué)英語學(xué)院

本文系國家社會(huì)科學(xué)基金項(xiàng)目“類型學(xué)視野下的漢語短語結(jié)構(gòu)語法及其計(jì)算實(shí)現(xiàn)研究”(16BYY136)、教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目“面向深層語言處理的漢語短語結(jié)構(gòu)語法”(13YJC740118)和上海外國語大學(xué)規(guī)劃基金項(xiàng)目“語言量化現(xiàn)象的多維度研究”(2013XJGH023)的階段性研究成果。

H043

A

2095-5723(2016)02-0095-04

2016-02-26

猜你喜歡
論元形態(tài)學(xué)句法
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
基于論元結(jié)構(gòu)和題元指派對(duì)漢語處置義“把”字句的句法語義分析
醫(yī)學(xué)微觀形態(tài)學(xué)在教學(xué)改革中的應(yīng)用分析
英語中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
數(shù)學(xué)形態(tài)學(xué)濾波器在轉(zhuǎn)子失衡識(shí)別中的應(yīng)用
巨核細(xì)胞數(shù)量及形態(tài)學(xué)改變?cè)谒姆N類型MPN中的診斷價(jià)值
蓬溪县| 腾冲县| 安宁市| 黄陵县| 延边| 沙坪坝区| 洪江市| 广东省| 聊城市| 静海县| 营山县| 丹东市| 广安市| 新昌县| 湛江市| 金塔县| 霍林郭勒市| 独山县| 娄烦县| 辽宁省| 双城市| 上栗县| 亳州市| 左权县| 元氏县| 屏山县| 张家界市| 忻城县| 宝兴县| 孙吴县| 宣化县| 罗定市| 三河市| 都昌县| 普安县| 洮南市| 郁南县| 腾冲县| 乌兰县| 财经| 托克逊县|