国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

從語義標(biāo)注文本中推定普羅普的功能項

2019-07-04 08:50:44馬克阿蘭芬雷森張瑞嬌
民俗研究 2019年4期
關(guān)鍵詞:語義功能

[美]馬克·阿蘭·芬雷森 著 張瑞嬌 李 揚 譯

引 言

弗拉基米爾·普羅普(Vladimir Propp)的《故事形態(tài)學(xué)》一書出版于1928年,1958年首次被翻譯成英文。[注]弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯?。旱每怂_斯大學(xué),1968年。這是民俗學(xué)的一部開創(chuàng)性著作,引領(lǐng)了結(jié)構(gòu)主義時代,為后來的民間故事敘事結(jié)構(gòu)研究提供了范例,也啟迪了一代又一代的民俗學(xué)家。普羅普的形態(tài)學(xué)是迄今為止對敘事結(jié)構(gòu)最精確的表述之一,它提出了一個引人注目的機器學(xué)習(xí)課題。如果能夠從一組給定的民間故事中自動地、可靠地提取形態(tài),這將會引起廣泛的興趣。對民俗學(xué)家和文學(xué)理論家而言,這種工具將會是進行比較、索引和分類的無價之寶。對文化人類學(xué)家而言,它將為研究文化及其跨時空變化提供一種新技術(shù)。對文化心理學(xué)家而言,它將為探究文化及其對思想的影響的新實驗指明方向。對認(rèn)知科學(xué)家而言,它可以作為理解文本抽象和敘事理解本質(zhì)的模型。對計算語言學(xué)家而言,它將推進對自然語言更高層次意義的理解。對研究人工智能和機器學(xué)習(xí)的人而言,它代表了我們從復(fù)雜數(shù)據(jù)集當(dāng)中提取深層結(jié)構(gòu)的能力的進步。當(dāng)然,在每個領(lǐng)域中也可以發(fā)現(xiàn)其他領(lǐng)域取得的相關(guān)進展。

然而,直到現(xiàn)在,形態(tài)的提取仍舊依靠人工,這類學(xué)者如A.J.格雷馬斯(A. J. Greimas),克洛德·列維-斯特勞斯(Claude Lévi-Strauss),阿蘭·鄧迪斯(Alan Dundes),以及弗拉基米爾·普羅普。[注]阿爾吉爾達斯·朱利安·格雷馬斯:《結(jié)構(gòu)語義學(xué):方法研究》,巴黎:拉魯斯,1966年;克洛德·列維-斯特勞斯:《神話與意義》,紐約:勞特利奇,1978年;阿蘭·鄧迪斯:《北美印第安人民間故事形態(tài)論》,《民俗學(xué)者通訊》第195期,赫爾辛基:芬蘭科學(xué)院,1964年。弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯?。旱每怂_斯大學(xué)出版,1968。為一組特定的民間故事構(gòu)建形態(tài)需要多年的閱讀與分析。目前還不確定已經(jīng)完成的形態(tài)研究中,有多少是源于民俗學(xué)家的個人偏好或?qū)ζ渌F(xiàn)存形態(tài)的熟悉,而不是通過調(diào)查對故事性質(zhì)做出的正確反映。此外,盲目地對形態(tài)分析進行再現(xiàn)或驗證是一項異常艱巨的工作,這需要具備必要技能的學(xué)者,來回溯人工生成故事形態(tài)所需的長達數(shù)年的閱讀、分析與合成的過程。

我展示了一種技術(shù),可以用計算方式解決從一組給定的故事中識別出形態(tài)的問題。該算法是被稱為模型融合[注]安德烈亞斯·斯托克、斯蒂芬·奧莫亨德羅:《由貝葉斯模型融合推導(dǎo)概率文法》,拉斐爾·C·卡拉斯科、何塞·翁西納:《文法推理與應(yīng)用》,柏林:斯普林格,1994年,第106-118頁。的機器學(xué)習(xí)技術(shù)的改進版,該算法還使用了一組規(guī)則,源自普羅普對自身尋找故事間相似性的過程的闡述。在這項技術(shù)中,算法將語義標(biāo)注文本(semantically annotated texts)作為數(shù)據(jù)運行,并將民間故事的表面語義以計算機可讀的表達加以編碼。在這個特殊的論證中,數(shù)據(jù)是普羅普分析的單一回合的(single-move)俄羅斯神奇故事里的一部分,并將之翻譯成了英語。值得注意的是,文本表面語義的編碼是人工輔助的;而對普羅普功能項特征的實際學(xué)習(xí)則是由計算機完成的。

本文主要內(nèi)容如下:第一,我解釋了當(dāng)前機器學(xué)習(xí)的問題,指出了普羅普理論中我將要重點學(xué)習(xí)的部分。第二,我描述了所使用的學(xué)習(xí)技術(shù)的結(jié)構(gòu),以及它與正則模型融合的不同。第三,我闡釋了實驗中使用的數(shù)據(jù),包括文本、語義標(biāo)注方案以及測量算法性能的黃金標(biāo)準(zhǔn)數(shù)據(jù)(普羅普的分析)。第四,我列出了一組源于普羅普的描述的合并規(guī)則,它在模型融合框架內(nèi)工作,以重現(xiàn)普羅普的大部分功能項。最后,我闡釋了該算法在提取普羅普的功能項指征方面的表現(xiàn)。

學(xué)習(xí)目標(biāo)

普羅普的形態(tài)學(xué)中包括一組人物類別和三級情節(jié)結(jié)構(gòu):總體結(jié)構(gòu)(回合),中級結(jié)構(gòu)(功能)和精細(xì)結(jié)構(gòu)(我在本文中將之稱為亞型:普羅普本人沒有給出特定的術(shù)語)。登場人物的類別被稱為角色,普羅普確定了七種:主人公,對頭,公主,差遣者,贈與者,相助者和假冒主人公。由功能項組成的單一故事是不成熟的,一個標(biāo)準(zhǔn)的故事往往是由一個或多個回合組成,它們可能還會以復(fù)雜的方式相互交織。功能是一種情節(jié)元素,是“從其對于行動過程意義角度定義的角色行為”[注]弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯?。旱每怂_斯大學(xué),1968年,第21頁。。每個功能都屬于一種主要的類型,這由它在一個回合中的位置、情節(jié)的目的、以及所涉及的角色來確定。普羅普識別出了31種不同的功能項。每個功能項對應(yīng)正在發(fā)生的事情,但是不一定能指出事情是如何發(fā)生的——也就是說,功能項可以通過許多不同的方式例示,這就是我所說的功能項的亞型。

在單詞的形式及計算的意義上,普羅普的情節(jié)結(jié)構(gòu)定義了一種語法。在這項研究中,我努力從文本本身學(xué)習(xí)這種語法的某些部分。正如我們從文法推理[注]伊格拉·科林德拉:《文法推理:學(xué)習(xí)自動化與語法》,劍橋:劍橋大學(xué)出版,2010年。中所知道的,語法力量影響了語法學(xué)習(xí)的難度。那么普羅普的語法有多強呢?

普羅普將故事的最高級結(jié)構(gòu)定義為可選擇的先在序列,其后是一些可能相互交織的回合。這個級別的語法復(fù)雜性至少是上下文無關(guān)的(context-free),這與拉科夫的分析一致[注]喬治·拉科夫:《神奇故事的結(jié)構(gòu)復(fù)雜性》,《人的研究》第1卷,加利福尼亞州爾灣:加利福尼亞大學(xué)社會科學(xué)學(xué)院出版,1972年,第128-150頁。https://georgelakoff.files.wordpress.com/2010/12/structural-complexity-in-fairy-tales-lakoff-1972.PDF,自然是一種相當(dāng)強大的語法。中級結(jié)構(gòu)是一種正則文法,其中功能項要以受到限制的順序出現(xiàn),它比上下文無關(guān)文法弱,因此更容易學(xué)習(xí)。亞型級則可以在故事弧內(nèi)產(chǎn)生長期影響,因為在一個故事中,早期對特定亞型的選擇(例如A,加害行為是綁架)會影響后來對特定亞型的選擇(例如K,解決方案是對被綁架者的救助)。這種亞型的影響增加了額外的復(fù)雜性,但可以采取特征文法[注]喬舒亞·古德曼:《概率特征文法》,哈里·邦特,安東·尼霍特:《概率論和其他解析技術(shù)的進展》,多德雷赫特:斯普林格,2000年,第63-84頁?;驈V義短語結(jié)構(gòu)語法[注]加茲達爾·杰拉爾德、伊萬·克萊因、杰弗里·K·普盧姆、伊萬·A·薩格:《廣義短語結(jié)構(gòu)語法》,牛津:巴茲爾·布萊克韋爾出版公司,1985年。的形式并入到功能級正則文法(或回合級上下文無關(guān)文法)中。因此,拋開角色不談,普羅普理論的整體文法,至少是其廣義短語結(jié)構(gòu)語法(GPSG),確實有很高程度的復(fù)雜性。

目前,我們還沒有可以同時學(xué)習(xí)普羅普GPSG的字母表、轉(zhuǎn)換及角色類別的計算技術(shù)。即使給出了角色,學(xué)習(xí)GPSG也仍舊十分困難。因此,在本文中,我只集中學(xué)習(xí)普羅普功能項的指征,并指出可以被看作普羅普最突出貢獻的功能項類別。幾乎所有其他內(nèi)容都是參考功能進行定義的:回合是功能的復(fù)合體,亞型是對功能的調(diào)整,角色也部分地由其所參與的功能來定義。大多數(shù)以普羅普為基礎(chǔ)的民俗學(xué)和計算工作都集中在功能層面上。[注]例如,阿蘭·鄧迪斯:《北美印第安人民間故事形態(tài)論》,《民俗學(xué)者通訊》第195期,赫爾辛基:芬蘭科學(xué)院,1964年;本杰明·科爾比:《愛斯基摩民間故事的部分語法》,《美國人類學(xué)家》1973年第75卷第3期,第645-662頁;貝倫·迪亞斯-阿古多、巴勃羅·赫瓦斯、費德里科·佩納多:《基于案例推理的故事情節(jié)生成方法》,《案例推理歐洲會議(ECCBR)論文集》,馬德里,2004年,第142-156頁;哈里·哈爾平、約翰娜·穆爾、朱迪·羅伯遜:《故事改寫情節(jié)的自動分析》,《自然語言處理實驗方法會議(EMNLP)論文集》,巴塞羅那,2004年,第127-133頁。

我把以下內(nèi)容留待將來研究:角色類別,功能亞型類別,回合級文法,以及功能級正則文法的轉(zhuǎn)換結(jié)構(gòu)。在本文中,我的關(guān)注點僅在研究功能項類別上,相當(dāng)于只是學(xué)習(xí)功能級正則文法的字母表。由于使用已知的字母表學(xué)習(xí)正則文法是一個頗具吸引力的問題,我利用這項工作為學(xué)習(xí)正則文法的字母表構(gòu)建了一種新算法。

學(xué)習(xí)技術(shù)

模型融合是一種從正例中學(xué)習(xí)正則文法的自動化技術(shù)[注]斯蒂芬·M·奧莫亨德羅:《動態(tài)學(xué)習(xí)與識別的首個最佳模型融合》,約翰·E·穆迪、斯蒂芬·J·韓森、理查德·P·李普曼:《神經(jīng)信息處理系統(tǒng)研究進展5》,加利福尼亞(圣馬特奧):摩根考夫曼,1992年,第958-965頁;安德烈亞斯·斯托克、斯蒂芬·奧莫亨德羅:《由貝葉斯模型融合推導(dǎo)概率文法》,拉斐爾·C·卡拉斯科、何塞·翁西納:《文法推理與應(yīng)用》,柏林:斯普林格,1994年,第106-118頁。,這是我的研究方法的概念基礎(chǔ)。我的技術(shù)采用了模型融合,并擴充了兩個關(guān)鍵性內(nèi)容。第一,雖然模型融合假設(shè)語法的字母表是已知的,但學(xué)習(xí)普羅普形態(tài)學(xué)的一個主要挑戰(zhàn)在于學(xué)習(xí)功能項本身的指征。為了達到這個目的,我從一個非常大的可能性字母表開始,并在最后加入一個篩選階段,用以從最終模型中識別真正的字母。第二,盡管模型融合認(rèn)為模型狀態(tài)(model states)是相對微小的,且模型狀態(tài)發(fā)出的符號只有一種概率分布,但是我的技術(shù)在進行融合時,考慮到了每個模型狀態(tài)豐富的內(nèi)部結(jié)構(gòu)(源于文本上的語義標(biāo)注)。

模型融合可用于從一組正例中導(dǎo)出正則文法。如,兩個字符序列的集合{ab,abab},最簡明地描述這兩個序列的模式是什么?一種猜測是正則文法(ab|abab),確切地說,是第一個或第二個字符串。然而我們覺得這種猜測并不令人滿意,因為它沒有超出所提供例子的范圍。大家都能發(fā)現(xiàn),更合理的猜測是子字符串a(chǎn)b重復(fù)了一次或多次,或者寫成一個正則文法表達式:(ab)+。模型融合是一個框架,它能讓我們找到這種模式的良好近似值;我們所需要的只是一種搜索可能的語法空間的方法。

模型融合遵循文法推理范式,該范式始于一個模型,其建構(gòu)目的在于接受由觀察而來的正例組成的有限語言。[注]馬修·揚-拉伊:《文法推理》,劉玲(音譯)、M·塔梅爾·厄茲敘:《數(shù)據(jù)庫系統(tǒng)百科全書》,柏林:斯普林格,2009年,第1256-1260頁。通過對模型中的狀態(tài)進行合并操作以實現(xiàn)一般化,其中兩種狀態(tài)從模型中被移除并被替換為單一狀態(tài),后者會繼承前者轉(zhuǎn)換與發(fā)出的內(nèi)容。這種合并操作催生了一個很大的模型搜索空間。

為了說明我的技術(shù),圖1展示了如何從兩個非常短的故事中提取一個簡單的形態(tài)。編寫這些故事也是為了說明該技術(shù)。第一個故事是關(guān)于一個老人和女仆:他們在路上相遇,他追逐她,她跑開了,最后她認(rèn)為他是一個丑陋的男人。第二個故事是關(guān)于一條龍和一位公主:龍跟蹤公主,這讓她感到害怕,所以她逃跑并躲了起來,最后她認(rèn)定龍是邪惡的生物。在某種抽象層面,這兩個故事是相似的。追逐與跟蹤事件相似,因為它們涉及一個參與者跟隨另一個參與者;跑開與逃跑事件相似,因為它們涉及一個參與者遠離另一個參與者的行動;認(rèn)為和認(rèn)定則都是涉及評估的心理事件。通過這些事件的語義表示,人們可以使用語義距離度量和類比映射算法以發(fā)現(xiàn)語義和結(jié)構(gòu)的相似之處。在圖1所示的一組合并中,首先被合并的是追逐和跟蹤事件,而后是跑開和逃跑項,最后是認(rèn)為和認(rèn)定事件。最終的故事形態(tài),可以被看作是一個泛化的故事,故事開頭是一個可選擇的玩鬧事件、一個追逐事件,接著是一個可選擇的驚嚇事件,而后是一個逃跑和評估事件。一旦最終模型被篩選,只剩下三個狀態(tài),它們可能被命名為:追尋(Pursuit),逃離(Flee)和評價(Judgment)。

(1)一個老人和女仆在路上相遇。他追逐她,她跑開了。她認(rèn)為他是一個丑陋的男人。

(2)龍跟蹤公主,這讓她感到害怕。她逃跑,躲了起來。她認(rèn)定他是邪惡的。

圖1 兩個簡單故事的合并示例。模型M3不僅描述了兩個被輸入的故事,而且還增加了另外兩個可以包含或排除節(jié)點1和6的故事。因此,這一模型已經(jīng)在兩個輸入示例之外實現(xiàn)了一般化。由篩選步驟產(chǎn)生的模型M4即代表最終形態(tài)。

初始模型是從故事世界本身的事件時間線導(dǎo)出的。模型中的每個初始狀態(tài)都來自各個故事的單一事件,當(dāng)它們在故事時間線中出現(xiàn)時會被排序。然后,每個單獨的故事時間線會作為一條單獨的支線并入初始形態(tài)中。在圖1中有一個被標(biāo)為M0的初始模型示例,其中,兩個簡單故事及其各自的四個構(gòu)成事件都被轉(zhuǎn)換成了一種包含四種狀態(tài)的序列。

有許多方法來驅(qū)動搜索合適的合并集。我曾經(jīng)在其他研究中探索過一種常見的方式,是由貝葉斯法則(Bayes’s rule)得出的概率來驅(qū)動的搜索。[注]馬克·阿蘭·芬雷森:《從被標(biāo)注的民間故事中學(xué)習(xí)敘事結(jié)構(gòu)》,麻省理工學(xué)院博士學(xué)位論文,2011年。相比之下,此處描述的工作使用了一組源于普羅普專著中的語義和結(jié)構(gòu)合并規(guī)則來驅(qū)動搜索。我將在解釋了實驗運行的數(shù)據(jù)之后,在標(biāo)題為“合并規(guī)則”的部分對這些規(guī)則加以概述。但顯而易見的是,我們需要一些規(guī)則、啟示或偏好來發(fā)現(xiàn)一個好的模型:在大多數(shù)情況下,窮舉搜索是不可能的。[注]對于非平凡起始故事,模型融合的搜索空間變得太大而難以管理:它相當(dāng)于貝爾數(shù)Bn,其中n是模型中的初始狀態(tài)數(shù)(羅塔,1964)。當(dāng)n增大時,貝爾數(shù)也會迅速變大。例如,當(dāng)B2=2時,B3=5,當(dāng)B10=115975時,B55≈3.59e+31。

篩選階段

如圖1所示,倒數(shù)第二個模型(M3)尚且不是一個形態(tài):它包含的狀態(tài)與兩個故事之間的抽象相似性(即狀態(tài)2和3)并不對應(yīng)。這是因為初始模型會以包含各種可能符號的字母表開始。使用篩選步驟則可以從融合模型轉(zhuǎn)變?yōu)楸憩F(xiàn)實際形態(tài)的模型。篩選過程會在最終的融合模型中構(gòu)造另一個模型,從中移除所有不符合特定條件的狀態(tài)。篩選后剩下的狀態(tài)成為普羅普的語法或功能項的字母表。有關(guān)此篩選過程的詳細(xì)信息,請參閱下文的“合并規(guī)則”部分。

數(shù) 據(jù)

普羅普選擇了一組特定的故事來分析并導(dǎo)出了他的形態(tài)學(xué):亞歷山大·阿法納西耶夫俄羅斯神奇故事集的前一百個故事。[注]亞歷山大·N·阿法納西耶夫:《俄羅斯民間故事》3卷本,莫斯科:國家藝術(shù)出版社,1957年。請注意,普羅普使用的是阿法納西耶夫故事集的舊版。為方便起見,我們在文中提供了更現(xiàn)代的引文。普羅普在他的附錄Ⅲ中,提供了他所分析的約一半故事的功能圖式:在普羅普作品的英譯本中,功能表內(nèi)有45個故事,整個文本中散布著少量的附加分析。在本文中,我不打算學(xué)習(xí)回合級語法、亞型語法以及角色類別。這種范圍限制了數(shù)據(jù)準(zhǔn)備的特定方法。首先,回合級上的異文被篩選,只留下普羅普認(rèn)定為只包含單一回合的故事。其次,學(xué)習(xí)數(shù)據(jù)明確包含對人物角色類別的識別。

由于我將范圍限定在單一故事中,所以普羅普分析的45個故事中可用的故事減少了一些;在普羅普形態(tài)學(xué)的幾個譯本中,我發(fā)現(xiàn)總共有21個單一故事包含了功能分析。我的研究預(yù)算進一步限制了我對這一組故事的詳盡語義標(biāo)注。最后,我留下了共計18862個單詞的15個單一故事,對此我完全能夠進行詳細(xì)標(biāo)注。

此外,雖然普羅普因現(xiàn)實原因在研究中采用了故事的原始語言(俄語,有時是白俄羅斯語或烏克蘭語),但我使用英文翻譯進行了我的分析。民俗學(xué)家有時也會研究被翻譯過的故事,并且大家的共識是,對最初的結(jié)構(gòu)語義分析而言,故事的重要信息應(yīng)保留在一個良好的譯文中。正如J.L.費希爾(J. L. Fischer)所說:“如果一個人將故事翻譯成另一種語言,那故事的結(jié)構(gòu)和故事圖像的基本特征應(yīng)該保持原貌?!盵注]J.L.費希爾:《民間故事的社會心理分析》,《現(xiàn)代人類學(xué)》1963年第4卷第3期,第249頁。

語義標(biāo)注

我在這里所使用的“標(biāo)注”一詞與語料庫語言學(xué)相同,它涵蓋了“所有應(yīng)用于原始語言數(shù)據(jù)的描述性或分析性標(biāo)記”[注]史蒂文·伯德、馬克·利伯曼:《語言標(biāo)注的形式框架》,《語言通信》2001年第33卷第1-2期,第23-60頁。。自動生成本文所需的多方面高質(zhì)量語義標(biāo)注超出了當(dāng)前自然語言處理(NLP)的技術(shù)范圍。因此,為了實現(xiàn)高質(zhì)量、低誤差的語義標(biāo)注,我需要雇用人力,來更正自動生成的標(biāo)注(即所謂的半自動標(biāo)注)或從一開始就提供完全的人工標(biāo)注。雖然這很慢而且花費不菲,但進行半自動或人工標(biāo)注的好處是,我們可以獲得尚且無法自動創(chuàng)建的高質(zhì)量標(biāo)注。因此,雖然對普羅普功能的學(xué)習(xí)是通過機器完成的,但研究的原始數(shù)據(jù)“文本的形式化語義”基本上是由人工產(chǎn)生的。

標(biāo)注者為這項工作進行的所有自動、半自動或人工標(biāo)注都是使用Story Workbench標(biāo)注工具完成的。[注]馬克·阿蘭·芬雷森:《在自然環(huán)境中收集語義:Story Workbench》,《人工智能協(xié)會秋季學(xué)術(shù)研討會論文集:關(guān)于自然靈感人工智能》,華盛頓特區(qū),2008年,第46-53頁;馬克·阿蘭·芬雷森:《從被標(biāo)注的民間故事中學(xué)習(xí)敘事結(jié)構(gòu)》,麻省理工學(xué)院博士學(xué)位論文,2011年。Story Workbench是一種通用的文本標(biāo)注工具,支持多層語義標(biāo)注,提供容易操作的圖形用戶界面,并支持對任意文本的標(biāo)注。表1中列出了標(biāo)注層次。普羅普的形態(tài)建立在人物和事件結(jié)構(gòu)之上,即什么時候誰在對誰做什么:我稱之為文本的“表面語義”。每個列出的層次都是從每個文本中提取表面語義的關(guān)鍵。

表1 本文中使用的標(biāo)注。一致性被同時表示為F1度量或一個偶然性校正蘭德指數(shù)(chance-adjusted rand index)。F1度量的范圍從0(無一致性)到1(完全一致)。蘭德指數(shù)范圍從-1(完全不一致)到1(完全一致)。

層次語義捕捉標(biāo)注方式一致性指稱表達式語義同指時間表達式事件時間連接詞語義角色Wordnet意義事件效價角色功能世界上的事物可語義同指的指稱表達式時間和日期發(fā)生的事情與狀態(tài)文本時序動詞論元字典定義事件對主人公的影響普羅普的人物類型普羅普的功能項人工人工人工半自動人工半自動人工半自動人工人工0.910.85?0.660.690.590.60?0.780.780.700.71?

*偶然性校正蘭德指數(shù)

?僅核心論元

部分重疊

指稱表達式與語義同指

用于計算故事人物的原始信息由“指稱表達”和語義同指標(biāo)注給出。[注]拉克爾·埃爾瓦斯、馬克·阿蘭·芬雷森:《新聞和敘事中描述性指稱表達的盛行》,《第48屆計算語言學(xué)協(xié)會年會論文集》,烏普薩拉,2010年,第49-54頁。指稱表達的表示(representation)標(biāo)注了指代某些事物的詞語集合,其中的單詞集合連續(xù)與否都可以。這種表示是人工標(biāo)注的。例(1)展示了指稱表達式的三個示例,以下劃線標(biāo)出。

(1)伊萬有一把劍。它是鋒利的。

在這句話中,指稱對象是人和事,是故事世界中的具體事物,但它們并非總是如此。指稱表達式還可以指代抽象對象(如想法)、事件、時間、動作、情感和許多其他事物。

例(1)也說明了一個顯而易見的要點,即一個單一的指稱對象可以在文本中被多次提到。在本例中,一個單一的指稱對象(劍)有兩個指稱表達式(短語“劍”和“它”)。句中的后兩個指稱表達是語義同指的,因為它們指代的對象相同。為了使用指稱表達式來標(biāo)注指稱對象,同指性指稱的表達式集合被匯集在了語義同指的集合之中。因此,語義同指集是一個指代同一類事物的指稱表達式列表。這種表示是人工標(biāo)注的。

被標(biāo)注的語義同指集的第二個方面是集合內(nèi)成員的關(guān)系。下面的例(2)展示了一種簡單形式,其中的指稱表達式“杰克和吉爾”指的是包括杰克和吉爾的集合。該信息對于確定哪些個體角色實際參與了哪些事件非常重要。

(2)杰克和吉爾去了山上。他們?nèi)硪煌八?/p>

時間表達式,事件,時間連接詞

為了構(gòu)建故事的時間線,我使用了TimeML標(biāo)注方案。[注]詹姆斯·普斯捷約夫斯基、何塞·卡斯塔尼奧、羅伯特·因格里亞、羅澤·紹里、羅伯特·蓋佐斯卡斯、安德烈·塞策、格雷厄姆·卡茨:《TimeML:文本中事件和時間表達式的穩(wěn)定規(guī)范》,《第五屆計算語義學(xué)國際研討會(IWCS-5)論文集》,蒂爾伯格,2003年,第193頁。TimeML包含三種表示:時間表達式,事件和時間連接詞。前兩者會標(biāo)記居于時間線上的對象,最后一個則定義時間線上各對象的順序。本節(jié)中的示例來自TimeML標(biāo)注指南。[注]羅澤·紹里、杰西卡·利特曼、鮑勃·克尼彭、羅伯特·蓋佐斯卡斯、安德烈·塞策、詹姆斯·普斯捷約夫斯基:《TimeML標(biāo)注指南》(1.2.1版),2006,http://www.timeml.org/site/publications/timemldocs/annguide_1.2.1.pdf.

時間表達式會標(biāo)記時態(tài)表達式的位置、類型和值。每個表達式都是一個可能不連續(xù)的事件符號序列,表明時間或日期、某事持續(xù)多長時間或某事發(fā)生的頻率。時態(tài)表達式可以是日期、一天的時間,也可以是持續(xù)的一段時間,例如幾個小時、幾天、甚至幾個世紀(jì)。時態(tài)表達式可以精確,也可以模糊。

(3)龍在中午來了。(時間)

(4)龍在春天的最后一日來了。(日期)

(5)他在地下世界住了將近一年。(一段時間)

有趣的是,在本項研究分析的神奇故事中,時間表達式非常稀少,在18862個單詞的整個語料庫中只有142個實例,平均每1000個單詞只有7.5個時間表達式。事實上,大多數(shù)故事的時間表達式都不到10個,甚至有兩個故事都只有一個時間表達式。這可能是因為民間故事通常發(fā)生在不確定的日子,或完全在歷史之外。不管原因是什么,都說明時間表達式對于整體的時間線并不重要。

事件是居于時間線上的第二類對象。事件被定義為發(fā)生的事情或狀態(tài)。它們可以如例(6)所示立即發(fā)生,也可以如例(7)所示持續(xù)一段時間。在大多數(shù)情況下,達到或適用某些事物的狀況被視為事件,如例(8)中的“短缺”。

(6)伊萬迅速擊中了龍的頭。

(7)英雄們前往遙遠的國度。

(8)整個國家食物短缺。

事件和時間通過表示時序的連接詞銜接在一起。時間連接詞分為三大類,包括對兩個時間、兩個事件、或時間和事件之間的排序,如例(9)和例(10)所示。

(9)伊萬的兄弟們在戰(zhàn)斗結(jié)束之后才到達。(時間——之后)

(10)他在底下住了將近一年。(時間——期間)[注]例(10)原句為:He lived in the underworld for almost a year.其時間連接詞為for。——譯者注

體連接詞(aspectual links)表明了一個事件與它的某個組成部分之間的關(guān)系,如例(11)所示。從屬性連接詞(subordinating links)表明了帶論元的事件的關(guān)系,如例(12)所示。對從屬性連接詞出現(xiàn)在開頭的事件而言,好的例子是在其論元中加入部分真值條件,或是暗指其論元與未來或可能世界有關(guān)。

(11)伊萬開始尋找他的妻子。(體——開始)

(12)伊萬忘了帶上咒語。(從屬——敘實性的)

單詞意義

詞義消歧(WSD)是眾所周知的自然語言處理任務(wù),其中每個開放類符號或多詞表達(即,每個名詞、動詞、形容詞或副詞)會從詞義清單中被指定一個單一的意義,這為我們提供了每個詞實際意義的指標(biāo)。[注]埃內(nèi)科·阿吉爾、菲利普·埃德蒙茲編:《詞義消歧》,多德雷赫特:斯普林格,2007年。為了本項研究,標(biāo)注者使用電子詞典Wordnet3.0對每個單詞進行了詞義消歧。[注]克里斯蒂亞娜·費爾鮑姆編:《WordNet:電子詞匯數(shù)據(jù)庫》,劍橋麻省理工學(xué)院:麻省理工出版社,1998年。由于大多數(shù)WSD算法并不比默認(rèn)的高頻詞義基準(zhǔn)好多少,所以這一標(biāo)注完全由標(biāo)注者人工完成。當(dāng)他們指定單詞意義時,還更正了多詞表達邊界、詞性標(biāo)記、以及詞干。雖然Wordnet的覆蓋面非常廣,但有時它也會缺乏一個適當(dāng)?shù)脑~義。在這類情況下,標(biāo)注者會用一個合理的同義詞取代原來的詞義。在極少數(shù)情況下,標(biāo)注者找不到合適的替代詞,則被允許將之標(biāo)記為“沒有可用的適當(dāng)意義”。

語義角色

標(biāo)注者還捕捉了文本中所有動詞的論元結(jié)構(gòu),這一任務(wù)被稱為語義角色標(biāo)注。具體而言,我們使用了PropBank體系。[注]馬莎·帕爾默、保羅·金斯伯里、丹尼爾·吉爾德:命題庫:《命題庫:語義角色標(biāo)注的語料庫》,《計算語言學(xué)》2005年第31卷第1期,第71-105頁。本項標(biāo)注是由一個統(tǒng)計語義角色的初級標(biāo)注器以半自動方式完成的,該標(biāo)注器的建?;谘芯空叩奈墨I描述。[注]薩米爾·普拉丹、卡的里·哈吉奧盧、瓦萊麗·克魯格勒、韋恩·沃德、詹姆斯·H·馬丁、丹尼爾·尤爾基:《支持向量學(xué)習(xí)在語義論元分類中的應(yīng)用》,《機器學(xué)習(xí)》2005年第60卷第1-3期,第11-39頁。丹尼爾·吉爾德、丹尼爾·尤拉夫斯基:《語義角色的自動標(biāo)記》,《計算語言學(xué)》2002年第28卷第3期,第245-288頁。這個標(biāo)注器在文本上運行,為每個動詞創(chuàng)建論元邊界和語義角色標(biāo)簽。每個動詞也被分配了一個PropBank框架,它是被承認(rèn)的語義角色及其描述的列表。這個框架本身是唯一一則未被自動標(biāo)注的信息,標(biāo)注者需要添加其框架、所有缺少的論元、語義角色標(biāo)注,并更正已有的論元邊界和標(biāo)注。與單詞意義的情況一樣,有時,PropBank的框架集內(nèi)并沒有適當(dāng)?shù)目蚣?。這可能在每個文本中發(fā)生一兩次,在這類情況下,標(biāo)注者會找到最相近的匹配框架,并以之取代原來的框架。

事件效價

每個TimeML事件也因其效價而被標(biāo)注,旨在獲取事件對主人公的正面或負(fù)面影響。其標(biāo)度與溫迪·萊納特(Wendy Lehnert)的積極或消極心理狀態(tài)類似。[注]溫迪·G·萊納特:《情節(jié)單元和敘事概述》,《認(rèn)知科學(xué)》1981年第5卷第4期,第293-331頁。但我的標(biāo)度數(shù)值是從-3到+3,并以0(中性)作為潛在效價(potential valence),而不是像萊納特的表述那樣,僅限于正或負(fù)。表2中列出了標(biāo)度范圍內(nèi)每個效價的重要性。這一表示是人工標(biāo)注的。

表2 效價標(biāo)度,描述了每種影響的級別,并列舉了一些例子

續(xù)表

效價描 述例 子0不好也不壞-1某人威脅稱某件事將會-2或-3女巫以死亡威脅主人公-2可能直接導(dǎo)致一個-3事件主人公與龍交鋒-3對主人公或其盟友立即不利公主被綁架;主人公被放逐

角 色

普羅普從其民間故事人物中識別出了七種類型,這些人物類型在他的理論中非常重要。如前所述,我打算將角色學(xué)習(xí)留待將來研究。因此,被標(biāo)注的角色信息被用來幫助獲得形態(tài)結(jié)構(gòu)。這種表示包括七個標(biāo)簽:主人公,對頭,公主,差遣者,贈與者,相助者和假冒主人公。不論多少,它們都可以附在文本中特定的指稱對象上。正如普羅普所指出的那樣,在某些情況下,某個人物會扮演多個角色。這一表示是人工標(biāo)注的。

功能項

最終的標(biāo)注獲取了普羅普的功能項。該標(biāo)注用作度量學(xué)習(xí)算法結(jié)果的標(biāo)準(zhǔn)。標(biāo)注普羅普的功能項是一項精細(xì)的任務(wù)。雖然普羅普非常詳細(xì)地描述了他的形態(tài),但仍未能在文本中以一種清晰標(biāo)注的方式加以明確表示。普羅普的專著富有啟發(fā)性,但并不是一本有效的標(biāo)注指南。普羅普描述的方案中至少有四個主要問題:布局不清晰;功能項隱含;多重標(biāo)記(連續(xù)重復(fù)兩次、三次或四次的功能組)不一致;而且,在少數(shù)情況下,普羅普自己的分類方案與故事內(nèi)容之間存在明顯分歧。

關(guān)于布局不清晰,可以參考下文摘錄的阿法納西耶夫第148號故事:

沙皇親自去乞求硝皮匠尼基塔(Nikita),希望他能使沙皇的疆域擺脫惡龍的威脅,并能夠把公主拯救出來。當(dāng)時尼基塔正在揉搓皮子,他手里拿著十二塊生皮。當(dāng)他見到沙皇親自朝他走來,他膽戰(zhàn)心驚,雙手顫抖起來,把那十二塊皮子都扯破了。但是不管沙皇和皇后怎樣懇求(entreated)他,他都不肯去對付龍。于是他們召集了五千個小孩子,并派他們?nèi)グ竽峄?,希望孩子們的眼淚會讓他產(chǎn)生憐憫之心。孩子們來到尼基塔身邊,流著淚乞求(begged)他去和那條龍戰(zhàn)斗。尼基塔看到孩子們的淚水,也開始流下(shed)眼淚。他弄來一萬二千磅大麻,澆上樹脂,一下子全裹在身上,以防止自己被龍吞下,就找龍去了。[注]亞歷山大·N·阿法納西耶夫:《俄羅斯民間故事》3卷本,莫斯科:國家藝術(shù)出版社,1957年;亞歷山大·N·阿法納西耶夫:《俄羅斯神奇故事》,諾伯特·古特曼譯,紐約:帕特農(nóng)叢書,1975年,第310-311。

普羅普表示,在這個故事中存在功能項B和C。普羅普稱B為“調(diào)停,承上啟下的環(huán)節(jié)”,其定義擴展為:“災(zāi)難或缺失被告知,向主人公提出請求或發(fā)出命令;派遣他或允許他出發(fā)?!盵注]弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯汀:得克薩斯大學(xué),1968年,第36頁。。他稱C為“最初的反抗”,其定義擴展為:“尋找者應(yīng)允或決定反抗。”[注]弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯汀:得克薩斯大學(xué),1968年,第38頁。大體而言,這兩個功能項是向主人公呈現(xiàn)任務(wù)(B),以及接受任務(wù)(C)。

在這段故事中找到這兩個功能項并非易事。B到底在哪里?是整段內(nèi)容嗎?是從“懇求”(entreated)一詞到“乞討”(begged)一詞之間嗎?功能邊界應(yīng)該與句子或段落邊界對應(yīng)嗎?小孩的哀求可以看作是B的一部分嗎?在識別功能項時,標(biāo)注者標(biāo)記了兩組符號。首先,他們標(biāo)記了一個區(qū)域,該區(qū)域捕捉了一個功能項的大部分意義及范圍。這通常是一個句子,但在某些情況下會擴展到一個或更多段落。其次,他們標(biāo)記了該功能項的定義詞,通常是單個的動詞形式。如果單個動詞或其同義詞在緊鄰第一個標(biāo)記的地方重復(fù)了,并且指代相同的動作,則這些重復(fù)詞也會被標(biāo)記。在上面的例子中,標(biāo)注者將“不管沙皇和皇后怎樣懇求……流著淚乞求他去和那條龍戰(zhàn)斗”的部分標(biāo)記為B,并將動詞“懇求”和“乞求”選為定義詞。

C又究竟在哪里呢?C是指前往對抗龍的決定。它似乎發(fā)生在尼基塔流淚和他獲取大麻為戰(zhàn)斗做準(zhǔn)備之間的某個地方,但這并沒有直接用文字表達;也就是說,功能項是隱含的。普羅普提及了發(fā)生在故事中的特定功能,但是當(dāng)標(biāo)注者無法找到其明確體現(xiàn)時,便會酌情選擇邏輯上與之關(guān)聯(lián)最密切的事件并將其標(biāo)記為前因(Antecedent)或后續(xù)(Subsequent)。引文中C的區(qū)域是句子“尼基塔看到孩子們的淚水,也開始流下(shed)眼淚”,并且“流下”被標(biāo)記為定義動詞。這個隱含的功能項被標(biāo)記為前因。

當(dāng)多重標(biāo)記不一致時,或者當(dāng)所指示的功能似乎與故事本身不匹配時,標(biāo)注者會盡力確定正確的標(biāo)記。幸運的是,普羅普表中的大多數(shù)印刷錯誤僅限于功能亞型的不一致,對這些結(jié)果并沒有直接影響。

一致性

度量標(biāo)注者之間的一致性可以對標(biāo)注質(zhì)量做出評估。在已建立的層次被標(biāo)注的情況下,我從可用材料中為標(biāo)注團隊準(zhǔn)備了一份標(biāo)注指南。一個標(biāo)注團隊由兩個標(biāo)注者和一個裁定者組成。裁定者要么是對這種工作已有經(jīng)驗的標(biāo)注者,要么是我自己(如果沒有其他裁定者可用的話)。在兩個標(biāo)注者對相同的幾千個單詞(兩到三個文本)進行標(biāo)注之后,整個標(biāo)注團隊會面,將標(biāo)注合并為一個單獨的文檔,然后在裁定者的指導(dǎo)下進行討論更正。重復(fù)該過程直到所有文本都被標(biāo)注。

對不同層次間一致性的度量,最統(tǒng)一的方式是統(tǒng)計學(xué)家所熟悉的F1度量,它以標(biāo)準(zhǔn)方式計算,并提供了查準(zhǔn)率和查全率的調(diào)和平均值。[注]C·J·范·里杰斯伯根:《評估》,《信息檢索》,倫敦:巴特沃斯,1979,第112-140頁;另參見本期的尼科利奇、巴卡里奇。我采用F1度量而不是更常見的Kappa統(tǒng)計[注]瓊·卡萊塔:《評估分類任務(wù)的一致性:Kappa統(tǒng)計》,《計算語言學(xué)》1996年第22卷第2期,第249-254頁。,后者用以評估去除偶然性后的一致性,是因為計算大多數(shù)層次一致性的偶然性(chance-level)是很困難的。F1度量是合并過程的自然產(chǎn)物,它對數(shù)據(jù)有明確的解釋,并且允許直接比較不同的層次。表1概括了人工或半自動標(biāo)注的不同層次的一致性??傮w而言,一致性的值是很好的。

初始模型構(gòu)建

有了人工標(biāo)注數(shù)據(jù)之后,我們便可以進入自動化研究部分了。構(gòu)建合并算法的初始模型需要以下步驟:首先,從標(biāo)注中自動提取每個故事的事件時間線。其次,每個事件都自動與一組施事和受事字符相關(guān)聯(lián)。圖2簡要展示了初始模型中包含的信息。

TimeML標(biāo)注允許提取每個故事的事件時間線。語料庫中的神奇故事在時間結(jié)構(gòu)上非常簡單;除了一個之外,其他所有的都可以用線性時間線加以描述。為了給每個故事構(gòu)建線性時間線,我首先刪除了所有從屬事件。僅由從屬連接詞銜接的事件表示的是在時間線上實際不發(fā)生的事件。其次,我使用時間連接詞(之前,之后,同時等)的直接定義,寫了一個按照起點順序排列事件的簡單算法。[注]馬克·阿蘭·芬雷森:《從被標(biāo)注的民間故事中學(xué)習(xí)敘事結(jié)構(gòu)》,麻省理工學(xué)院博士學(xué)位論文,2011年。

應(yīng)該注意的是,時間線上很多事件是通用的,并且僅依據(jù)表面語義是無法與其他非功能性事件區(qū)分開來的。這些事件最終被過濾;這將在“合并規(guī)則”一節(jié)中進行更多討論。表3展示了被標(biāo)注的15個故事[注]表3中15個故事的中文名稱按表中順序翻譯如下:硝皮匠尼基塔,神奇的天鵝,謝緬七兄弟,布赫坦·布赫坦諾維奇,水晶山,機靈的工人薩巴爾沙,熊之子伊萬科,蛇與吉普賽人,伊萬·波普洛夫,老坐在那兒的弗羅爾卡,伊瓦什科與巫婆,逃兵與魔鬼,丹尼拉·戈沃里拉王子,商人的女兒和女仆,黎明、黃昏和午夜。——譯者注、事件的數(shù)量、完整時間線上(不包括從屬事件)的事件數(shù)量以及在最終實驗中使用過的被篩選的時間線上的事件數(shù)量。

圖2 從標(biāo)注中提取信息的示意圖。每個故事由一個有序的事件列表(時間線)表示,它是從TimeML標(biāo)注中提取的。如果可能的話,為每個事件分配一組施事和受事角色,這些角色從附加到參與指稱表達的角色標(biāo)簽中收集,其中的人物群體被替換為個體。每個事件也與一個或多個PropBank框架、一個或多個單詞意義、以及一個事件效價相聯(lián)系。

表3 被分析的文本。所有文本都是單一回合的民間故事,普羅普為之提供了功能分析。表中列出的是:英文翻譯中的單詞數(shù);每個故事中所標(biāo)注的TimeML事件的數(shù)量;在故事完整時間線中出現(xiàn)的非從屬事件數(shù)量;以及在學(xué)習(xí)實驗中所使用的“篩選”時間線上出現(xiàn)的事件數(shù)量。

故事序號俄語標(biāo)題英語標(biāo)題#字?jǐn)?shù)#事件完整時間線被“篩選”的時間線148Никита кожемякаNikita the Tanner6461047516113Гуси-лебедиThe Magic Swan Geese6961329443145Семь симеоновThe Seven Simeons7251218742163Бухтан БухтановичBukhtan Bukhtanovich88815010762162Хрустальная гораThe Crystal Mountain98915010443151Шабарша рабочийShabarsha the Laborer120223612255152Иванко МедведкоIvanko the Bears Son121022314365149Змей и цыганThe Serpent and the Gypsy121025013880

續(xù)表

故事序號俄語標(biāo)題英語標(biāo)題#字?jǐn)?shù)#事件完整時間線被“篩選”的時間線135Иван ПопяловIvan Popyalov122822017046131Фролка-сиденьFrolka Stay-at-Home138824816956108Ивашко и ведьмаIvashko and The Witch144827615761154Беглый солдат и чертThe Runaway Soldier and the Devil169831719076114Князь Данила-ГоворилаPrince Danila Govorila177434122392127Купеческая дочь и служанкаThe Merchants Daughter and the Housemaid179433123489140Зорька, вечорка, и полуночкаDawn, Evening, and Midnight193433925078平均數(shù)125822915160總計1886234382253904

一旦我構(gòu)建了事件時間線,(如果可能的話)我就會自動為每個事件分配一個施事和一個受事。我從語義角色、指稱表達和語義同指的標(biāo)注中提取了此信息。語料庫中的每個動詞都標(biāo)有語義角色,該角色為表現(xiàn)為文本范圍的動詞提供了一致性。語料庫中幾乎每個事件都通過其動詞表達式與至少一個語義角色相關(guān)聯(lián)。事實上,在故事時間線上的3438個事件中,只有兩個事件沒有語義角色。在后期處理中,我手動指定了這兩個事件的施事和受事。當(dāng)一個事件的語義角色不止一個時,意味著使用某動詞多次提到了該事件,我為每個相關(guān)聯(lián)的語義角色合并了其主語和賓語的填充詞,在沖突情況下支持首次提到的語義角色。

我使用每個語義角色的相關(guān)PropBank框架來查找主語和賓語。根據(jù)PropBank的規(guī)則,標(biāo)記為ARG0的動詞論元通常是主語,標(biāo)記為ARG1的論元通常是賓語。然而,由于框架定義的特殊性,許多PropBank框架沒有這種ARG0-ARG1的主-賓結(jié)構(gòu)。此外,一些PropBank框架可以被認(rèn)為是對稱的,其中施事和受事的角色在語義上并不是截然不同的(例如,當(dāng)動詞“結(jié)婚”以不及物動詞被使用時:“安娜和鮑勃結(jié)婚了”)。由于這種信息沒有被PropBank囊括,所以我對語料庫中發(fā)現(xiàn)的所有對稱類PropBank框架及施事受事角色進行了人工分類。

一旦正確的主語和賓語范圍被確定后,每個范圍內(nèi)最大的指稱表達式將會被自動選擇為最合適的語義角色填充詞。填充一個事件主賓語角色的指稱表達式被確定以后,仍會有一個或多個初級指稱來自動替換該指稱表達式。有時,這需要用部分指稱來替代復(fù)合性指稱。

合并規(guī)則

為了設(shè)計在模型融合框架內(nèi)再現(xiàn)普羅普功能的合并規(guī)則,我考慮了三個特征,它們與普羅普本人在其分析中所注意到的相同。普羅普在他的專著中描述了這三個特征:事件語義、涉及的角色、以及事件在回合弧中的位置,通過這些特征他發(fā)現(xiàn)了事件之間的相似性。我在一個兩階合并過程中巧妙地利用了這三個方面的相似性。第一階段將語義相似的事件進行粗略合并。第二階段僅合并包含多個事件的狀態(tài),并在這些狀態(tài)中合并了附近對主人公具有相同情感效價的狀態(tài)。

這兩個階段只合并了包含一致角色集合的狀態(tài)。當(dāng)兩個事件中的角色完全一樣或者是彼此的固有子集時,它們被認(rèn)為是一致的。更具體而言,就是在施事和受事位置上的每個參與者,其角色標(biāo)簽都被添加到了一個施事或受事的標(biāo)簽集合中。如果主人公標(biāo)簽在某個集合中,則相助者標(biāo)簽也會被添加進去,反之亦然。如果一個事件中,角色標(biāo)簽的施事和受事集合與另一個事件的施事和受事集合相同(或者是其固有子集,反之亦然),則認(rèn)為兩個事件具有一致的角色。如果其中一個事件被標(biāo)記為對稱性事件,其中施事和受事的位置可以互換,則每個事件的角色集合會被合成一個以便進行匹配。

第一階段:語義

第一階段的合并規(guī)則如下。兩種狀態(tài)會自動合并的條件是:(1)結(jié)果狀態(tài)(resultant state)中所有事件都是非通用的(參見下文),(2)就Wordnet意義而言,結(jié)果狀態(tài)中所有成對事件都同義或其上位詞同義(hyper-synonymous),(3)結(jié)果狀態(tài)中,附屬于所有事件的每個獨特的PropBank框架都會被至少表示兩次。我在下文更詳細(xì)地定義了這些條件。

通用事件(Generic Events):我識別了一種動詞類型,并稱之為“通用”動詞。它們被自動排除在合并之外,因為無法將這些詞的信息性、功能性用法與其通用的填充意義區(qū)分開來。動詞“說”及其同義詞就是一個很好的例子:它們占據(jù)了所有事件的近四分之三,而普羅普的每一個功能項都包括至少一個“說”的事件。也就是說,人物可以通過言語行為完成普羅普的所有功能項。角色可以相互威脅(A,加害,或Pr,追捕),初次見面或提供幫助(D,第一次與贈與者相遇),對其他人的行為做出反應(yīng)(E,主人公對贈與者的反應(yīng)),提供某種效勞(C,決定反抗),因某任務(wù)而派出主人公(B,派遣),等等。更確切地說,通用事件是指其動詞被Wordnet標(biāo)記為歸屬于詞典編纂者檔案的交際動詞、感知動詞或位移動詞的事件。這些動詞包括“說”“看”或“走”等。

同義性:如果兩個事件所附帶的Wordnet意義或這種意義的上位詞共享同義詞,則認(rèn)為它們是同義的。這定義了一種寬泛的語義相似性,允許事件以意義為基礎(chǔ)進行聚類。

雙重PropBank框架:如前所述,PropBank框架通過語義角色標(biāo)注被附加到事件上。對于要合并的兩種狀態(tài),在某個狀態(tài)中某個事件上找到的每個PropBank框架,都需要在該狀態(tài)中其他至少一個事件中被找到。這種更具體的語義相似性能夠平衡Wordnet同義詞所提供的更豐富的相似性。

第二階段:效價和位置

在合并的第二階段,兩種狀態(tài)會自動合并的條件是:(1)兩狀態(tài)中都已包含多個事件,(2)狀態(tài)中的事件效價是相容的,(3)兩種狀態(tài)是故事弧中最密切的事件對。

效價匹配:如果一種狀態(tài)中的事件效價是相容的,則兩個狀態(tài)在此階段將會自動合并。如表2所示,事件效價是在從+3到-3的7點標(biāo)度內(nèi)測量的。如果兩個效價的值相等,則它們是相容的,只有中性效價(值為0)可以與其他所有效價相匹配。

最密切的一對:這個階段也按照特定順序自動合并為狀態(tài),其順序視狀態(tài)的組成事件在時間線上相隔多遠而定。每個狀態(tài)的位置計算如下:事件的位置被定義為0到1之間的分?jǐn)?shù)(包括0和1),對應(yīng)于其在最初的線性時間線中的相對位置。合并節(jié)點的位置是其組成事件位置的平均數(shù)。然后根據(jù)所合并的狀態(tài)之間的位置差異,對成對合并的狀態(tài)進行排序,其中最小的被推到搜索隊列的前面。

結(jié) 果

根據(jù)前文描述的普羅普功能標(biāo)注,我構(gòu)建了度量最終模型的黃金標(biāo)準(zhǔn)。最終模型中,功能標(biāo)記的黃金標(biāo)準(zhǔn)集合實際上從普羅普專著中的功能項列表中減少了很多,原因有三個:普羅普的省略,功能項沒有在語料庫數(shù)據(jù)中出現(xiàn)或太稀少,以及功能項隱含。

在31個功能項中,普羅普沒有說明前7個功能項的存在(它們是預(yù)備功能項,標(biāo)有希臘字母)。因此,必須將這些功能排除在分析之外。在剩下的24個功能項中,J、L、M和N在我的語料庫的15個故事中沒有被找到,因此只剩下了20個功能項。它們當(dāng)中的四個功能項——o,Q,Ex和U——只有兩個或更少的實例,也都因太稀少無法學(xué)習(xí)而被排除在外。

在276個功能項標(biāo)記中,有186個是顯性的(explicit),90個是隱性的(implicit)。由于我沒有進行常識性推斷,因此這些隱性功能項或超過30%的數(shù)據(jù)在文本中沒有實際的事件實例。這個問題在很大程度上被回避了,因為我只注意到大多數(shù)隱性功能項是包含在E-F(反應(yīng)和獲益)和H-I(交鋒和戰(zhàn)勝)這兩對之中的功能項之一。在這些情況下,如果其中一對是隱性的,則另一對是顯性的。例如,當(dāng)主人公與對頭進行戰(zhàn)斗時,只有實際的交鋒被提到而戰(zhàn)勝是隱含的,或是戰(zhàn)勝被提到而交鋒是隱含的。因此,為了進行度量,我將這兩組功能項合并在了一起。這導(dǎo)致45個隱性功能標(biāo)記在合并中轉(zhuǎn)變?yōu)轱@性功能實例,在276個中留下了234個顯性功能項標(biāo)記;其余45個隱性標(biāo)記被排除在目標(biāo)之外。這些數(shù)據(jù)匯總在表4中,最右邊的一列表示在篩選了通用事件后的功能項數(shù)量(參見下一節(jié))。

我使用了三種不同的度量方式來分析學(xué)習(xí)程序的性能。首先是應(yīng)用偶然性校正蘭德指數(shù)以度量在普羅普功能項中事件聚類的總體質(zhì)量。[注]吉安-卡洛·羅塔:《集合的分區(qū)數(shù)》,《美國數(shù)學(xué)月刊》1964年第71卷第5期,第498-504頁。第二個是應(yīng)用于普羅普每個功能項的F1度量。第三個是交叉驗證分析,用以測試該實現(xiàn)(implementation)與少量數(shù)據(jù)的合作程度。

事件聚類

我使用偶然性校正蘭德指數(shù)[注]勞倫斯·休伯特、菲普斯·阿拉比:《對比分區(qū)》,《分類期刊》1985年第2卷第1期,第193-218頁。來檢驗普羅普功能項類別中事件聚類的質(zhì)量。我創(chuàng)造了三種標(biāo)準(zhǔn),通俗而言,可以從“嚴(yán)格”(strict)到“寬松”(lenient)進行排列。它們是:(1)嚴(yán)格分?jǐn)?shù),最終模型中的聚類與表4“篩選前的顯性功能”縱列所列舉的所有普羅普顯性功能標(biāo)記聚類進行比較;(2)僅交互式分?jǐn)?shù)(an Interactive-Only score),最終模型中的聚類與普羅普的顯性功能聚類進行比較,并移除非交互事件;(3)僅交互且非通用(Interactive Non-Generics Only)分?jǐn)?shù),最終模型中的聚類與普羅普的顯性功能聚類進行比較,并移除非交互的、通用的事件。這三個結(jié)果列于表5中。對于最寬松的度量(僅交互且非通用的)而言,該算法性能相當(dāng)好,對普羅普最初的功能項獲取的偶然性校正蘭德指數(shù)大致為0.714。我之所以在這里說“相當(dāng)好”,是因為實際上我們不清楚這種性能究竟有多好,因為沒有先例:有史以來,以計算機方式在民間故事中學(xué)習(xí)普羅普的功能,這是首次嘗試,所以沒有以前的技術(shù)與之比較。

表4 時間線篩選前后存在于語料庫中的功能

續(xù)表

符號描述#篩選前的顯性功能#篩選后的顯性功能K災(zāi)難或缺失的消除129down歸來102?Pr追捕1814Rs獲救1310T改頭換面32?W/w回報128總計234186

?數(shù)據(jù)中可被提取的實例太少,不被列入總數(shù)。

表5 關(guān)于聚類質(zhì)量衡量的三種偶然性校正蘭德指數(shù)。分?jǐn)?shù)從最嚴(yán)格到最寬松。

功能項類別

第二種度量是針對單個功能項類別的F1度量。在最終數(shù)據(jù)中的14個功能類別中,有8個被復(fù)原。這些結(jié)果顯示在表6中對交互式非通用的功能項O的度量中。重要的是,該算法提取了形態(tài)最核心的功能:最初的加害(A),遇到贈與者的三重步驟(DEF),與對頭的交鋒和戰(zhàn)勝(HI),災(zāi)難的消除(K),追捕—獲救雙重步驟(Pr-Rs),以及最終的回報(W)。在所分析的故事中乃至普羅普的整個形態(tài)學(xué)中,這些都是關(guān)鍵功能。

最顯著的成功之處是提取了HI,即交鋒-戰(zhàn)勝這一組功能。完整的51個實例被正確分類,并且,在對被篩選后的時間線進行度量時,這使得整體F1度量值為0.823。這種成功可能歸因于這一特定功能語義的基本一致,因為所有動詞都是關(guān)于角逐和戰(zhàn)斗的。

另一個顯著的成功之處是對A(加害/缺失)和W(回報)的識別,其F1度量值為0.8。這是兩個關(guān)鍵性功能,因為它們代表著行動的開始與結(jié)束。與HI類似,這些功能項的語義一致性對于它們的成功提取很重要。在俄羅斯故事中,最常見的加害行為是綁架公主或其他弱勢群體,而回報通常是公主獲救并與其結(jié)婚或得到金錢報酬。

表6 功能項識別的F1度量

續(xù)表

符號描述語義#假正類#真正類#假負(fù)類F1K災(zāi)難或缺失的消除充滿0340.6Pr追捕追逐,考慮0590.529Rs獲救攻擊,投擲1640.706W回報禮物,結(jié)婚1620.8

交叉驗證

第三個成功的度量標(biāo)準(zhǔn)是交叉驗證研究。在交叉驗證研究中,算法在不同的數(shù)據(jù)子集上運行,并且在數(shù)據(jù)量較小的情況下表現(xiàn)出了平穩(wěn)下降趨勢。值得注意的是,在僅有兩個故事時,該技術(shù)仍獲得了偶然性校正蘭德指數(shù)0.457。圖3以語料庫不同子集上的最佳參數(shù)值展示了這種性能,表5中的三個偶然性校正蘭德指數(shù)對其進行了衡量。圖中的每個數(shù)據(jù)點,是民間故事語料庫的所有故事子集的平均數(shù)??梢钥闯?,該算法的運行呈現(xiàn)出平穩(wěn)下降趨勢,直到一次只考慮兩個故事時,它對非通用類的度量保留了0.457的驚人良好值,僅交互式度量的值為0.360,嚴(yán)格度量的值為0.325。這一度量方式表明,該工具應(yīng)對數(shù)據(jù)變化非常穩(wěn)定。

圖3 普羅普ASM實現(xiàn)在語料庫所有子集上的性能

相關(guān)研究

雖然這是第一篇通過計算的方法學(xué)習(xí)敘事結(jié)構(gòu)實際理論的文章,但最近還有一些關(guān)于學(xué)習(xí)更一般的敘事模式的有趣研究。首先,納撒內(nèi)爾·錢伯斯(Nathanael Chambers)和丹·尤拉夫斯基(Dan Jurafsky)利用對大型語料庫的分布式學(xué)習(xí)來識別常見的事件序列。[注]納撒內(nèi)爾·錢伯斯、丹尼爾·尤拉夫斯基:《敘事事件鏈的無監(jiān)督學(xué)習(xí)》,《計算語言學(xué)協(xié)會第46屆年會論文集》,俄亥俄州哥倫布,2008年,第789-797頁。納撒內(nèi)爾·錢伯斯、丹尼爾·尤拉夫斯基:《敘事模式及其參與者的無監(jiān)督學(xué)習(xí)》,《計算語言學(xué)協(xié)會第47屆年會論文集》,新達城,2009年,第602-610頁。該技術(shù)依賴于動詞之間的逐點式交互信息分?jǐn)?shù),這些動詞共享論元以構(gòu)建公共事件對及其順序,然后將這些事件對編織在一起形成敘事鏈。敘事鏈有幾個有趣的共同點,與本文有所不同。錢伯斯、尤拉夫斯基和我都試圖識別出各組文本中常見的事件鏈。此外,他們的研究是另一個數(shù)據(jù)點,其支持的觀點是:明白人物的角色(如,誰是主人公)對識別常見敘事結(jié)構(gòu)的重要性。另一方面,該技術(shù)依賴于驚人的文本數(shù)量(他們檢驗了超過100萬個文本)來發(fā)現(xiàn)相似之處。這種方法與我的算法形成鮮明對比,我的交叉驗證研究表明,只剩兩個故事時其工作效果可能更好。與我的方法相比,錢伯斯和尤拉夫斯基使用的敘事鏈模型非常接近文本的含義:共享詞根的動詞被認(rèn)為是相同的。而我的技術(shù)超越了這種表面意義,我從數(shù)據(jù)中進行抽象和概括——例如,使用語義知識統(tǒng)一諸如“綁架”和“抓住”之類的事象,然后用諸如導(dǎo)致“傷害”或“加害”的“折磨”之類的動詞進一步統(tǒng)一它們。

此外,米夏埃拉·勒涅里(Michaela Regneri)、亞歷山大·科勒(Alexander Koller)和曼弗雷德·平克爾(Manfred Pinkal)的研究力圖從行動清單中學(xué)習(xí)事件腳本。[注]米夏埃拉·勒涅里、亞歷山大·科勒、曼弗雷德·平克爾:《利用網(wǎng)絡(luò)實驗學(xué)習(xí)腳本知識》,《計算語言學(xué)協(xié)會第48屆年會論文集》,烏普薩拉,2010年,第979-988頁。該技術(shù)是生物信息學(xué)中的多序列比對技術(shù)的變體。他們能夠從數(shù)據(jù)中提取合理的類似腳本的結(jié)構(gòu)。其數(shù)據(jù)類型(與自然故事相對,在完成一項任務(wù)時關(guān)鍵行動的主題生成列表)與我的工作有所不同,而不能學(xué)習(xí)循環(huán)這一點則與錢伯斯、尤拉夫斯基相同。此外,他們也沒有過濾掉不重要的事件,因為其起始數(shù)據(jù)只包含與特定腳本相關(guān)的事件。

結(jié) 語

本項研究體現(xiàn)了人工智能領(lǐng)域和民俗學(xué)領(lǐng)域的共同進步。對人工智能而言,它展示了一種學(xué)習(xí)語義級別的技術(shù),這種技術(shù)很少被嘗試,也從未以這種經(jīng)過驗證的方式被學(xué)習(xí)。對民俗學(xué)而言,它表明計算技術(shù)可以為檢測民間文學(xué)的更深層結(jié)構(gòu)提供重要幫助,而不僅是在詞匯或關(guān)鍵詞分析的表面水平進行操作。在未來的工作中,還有許多方面可供探索。首先,我們應(yīng)該繼續(xù)擴展這些技術(shù),以自動學(xué)習(xí)其他級別的普羅普理論:回合、亞型和主人公。其次,關(guān)于功能項,將這項研究應(yīng)用于其他形態(tài)學(xué)分析是很自然的事,如科爾比和鄧迪斯的那些形態(tài)學(xué)分析。[注]本杰明·科爾比:《愛斯基摩民間故事的部分語法》,《美國人類學(xué)家》1973年第75卷第3期,第645-662頁;阿蘭·鄧迪斯:《北美印第安人民間故事形態(tài)論》,《民俗學(xué)者通訊》第195期,赫爾辛基:芬蘭科學(xué)院,1964年。第三,基礎(chǔ)技術(shù)本身也有很大改進空間:如關(guān)于原因、通用類和其他語義的常識性知識的更大整合;學(xué)習(xí)隱性功能項的嘗試;以及通過心理或文化實驗,驗證形態(tài)分析的有效性以結(jié)束循環(huán)。通過這些努力,人工智能和民俗學(xué)可以期待將來諸多令人興奮的跨學(xué)科互動,這將豐富和推進這兩個領(lǐng)域的研究。

猜你喜歡
語義功能
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
語言與語義
關(guān)于非首都功能疏解的幾點思考
懷孕了,凝血功能怎么變?
媽媽寶寶(2017年2期)2017-02-21 01:21:24
“簡直”和“幾乎”的表達功能
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
中西醫(yī)結(jié)合治療甲狀腺功能亢進癥31例
辨證施護在輕度認(rèn)知功能損害中的應(yīng)用
“深+N季”組配的認(rèn)知語義分析
密云县| 万安县| 深水埗区| 芜湖县| 克山县| 奉贤区| 尉犁县| 渭南市| 东明县| 定结县| 昌乐县| 理塘县| 临猗县| 苍山县| 梁河县| 抚宁县| 阳泉市| 凤阳县| 恩平市| 上饶市| 新邵县| 仪征市| 方正县| 敦化市| 宝清县| 建宁县| 玉山县| 泽州县| 略阳县| 茶陵县| 交城县| 八宿县| 广饶县| 平远县| 阿鲁科尔沁旗| 镇宁| 连城县| 宜城市| 湖北省| 新乡市| 古丈县|