宋 衡,曹存根,王 亞,王 石
(1. 中國科學(xué)院 計算技術(shù)研究所 智能信息處理重點實驗室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049)
語義理解和分析是自然語言處理的重要目標(biāo)之一,其致力于獲取給定文本所蘊含的語義信息,并以計算機能理解的某種方式進行展示[1]。目前,語義理解和分析的研究主要包括深層語義分析和淺層語義分析,其中深層語義分析的相關(guān)工作主要包括語義依存分析(Semantic Dependency Parsing,SDP)[2]和普適概念認知標(biāo)注(Universal Conceptual Cognitive Annotation,UCCA)[3]等。然而,深層語義分析存在語義層次涉及范圍廣,難以用良好的形式化方法展示所有的語義信息等問題,甚至受限于當(dāng)前的技術(shù)水平,短期內(nèi)難以形成具有較強實用性的成果[4]。在淺層語義分析方面,目前主要的實現(xiàn)方式是語義角色標(biāo)注(Semantic Role Labeling,SRL)[5],具有多語言通用、表現(xiàn)形式自然、語義結(jié)構(gòu)穩(wěn)定以及相關(guān)模型和算法研究深入等優(yōu)點。目前,語義角色標(biāo)注技術(shù)被廣泛地應(yīng)用于知識抽取、機器翻譯、自動文本摘要、信息檢索和自動問答等多種下游任務(wù)。
作為實現(xiàn)淺層語義分析的基礎(chǔ),標(biāo)有語義角色的語料資源至關(guān)重要,其可以極大地促進語義分析相關(guān)模型和算法的測試與研究。目前,國外比較知名的語義角色數(shù)據(jù)集資源包括FrameNet[6]、Proposition Bank[7]和NomBank[8]等。國內(nèi)的語義角色數(shù)據(jù)集有Chinese Proposition Bank[9]、山西大學(xué)漢語框架語義知識庫[10]、北京大學(xué)中文網(wǎng)庫[11]、蘇州大學(xué)漢語開放謂詞論元數(shù)據(jù)集[4]以及中科院計算所的基于語義分類和描述框架(Framework of Semantic Taxonomy and Description,F(xiàn)STD)的知識庫[13,22]。相較于國外的語義角色標(biāo)注數(shù)據(jù)集,國內(nèi)的語義角色語料資源增加較為緩慢,且大部分語義角色語料資源沒有被公開。受限于較長的標(biāo)注語料,現(xiàn)有的語義角色標(biāo)注數(shù)據(jù)集存在語料標(biāo)注精度和粒度的問題,主要體現(xiàn)在三個方面:
第一,語料標(biāo)注所用的語義角色種類不夠豐富,導(dǎo)致標(biāo)注的語料在語義上存在偏差。例如,對于句子“我家安裝了百兆寬帶”,現(xiàn)有語義角色分類體系將句子成分“我家”標(biāo)注成施事,這在語義上是不正確的,因為“我家”不是真正安裝寬帶的主體,而是我家“雇用”了寬帶安裝人員來進行寬帶安裝。我們將在第2節(jié)回顧這個問題。
第二,現(xiàn)有的大部分語義角色數(shù)據(jù)集標(biāo)注所用的語料存在多個謂詞,但在實際語義角色標(biāo)注時,只標(biāo)注語句中的其中一個謂詞及其相關(guān)語義角色,而其他謂詞以及相關(guān)的語義角色則未予標(biāo)注。顯然,這種標(biāo)注方式會丟失語料中那部分沒有進行語義角色標(biāo)注的句子成分的語義信息。我們將在第3節(jié)回顧這個問題。
第三,現(xiàn)有的大部分語義角色數(shù)據(jù)集標(biāo)注方式單一,僅為語料中句子的每個成分標(biāo)注一個語義角色,而忽略了某些句子成分可能同時扮演多個語義角色的問題。以下面兩個句子為例:
例句1: 女警誤殺了隊友
例句2: 女警槍殺了歹徒
從常規(guī)語義角色標(biāo)注的角度來看,兩個句子中的成分“女警”都是施事;但從語義角色受損還是受益的角度來看,例句1中的 “女警”是個受損者,而例句2中的“女警”是個受益者。又如:
例句3: 八路軍主力退守沂蒙山
常規(guī)來看,“沂蒙山”是被防守的對象,因此“沂蒙山”是受事,但是從另一層語義去理解,“沂蒙山”是八路軍主力到達的地點,則“沂蒙山”還應(yīng)該是宿事。我們將在第3節(jié)回顧這個問題。
為了解決上述語義角色標(biāo)注數(shù)據(jù)集存在的問題,并更好地滿足語義理解分析和知識獲取等研究需要[12-15],本文提出了一種細粒度的漢語語義角色數(shù)據(jù)集構(gòu)建方法,并利用該方法初步構(gòu)建了一個漢語語義角色數(shù)據(jù)集。本文的主要貢獻如下:
(1) 基于對已有的語義角色分類體系的分析和實際語料的考察,本文提出了一種改進的漢語語義角色分類體系。該體系將語義角色分為中樞語義角色和周邊語義角色,并且將周邊語義角色分為主要周邊語義角色和輔助周邊語義角色。此外,基于細粒度語義分析的需要以及語義角色標(biāo)注難度的權(quán)衡,我們將主要周邊語義角色的種類分為32種,其中包括7個全新的主要周邊語義角色以及5個常用但經(jīng)過重新定義的主要周邊語義角色。改進的漢語語義角色分類體系解決了現(xiàn)有語義角色數(shù)據(jù)集語義角色種類不夠豐富的問題。
(2) 本文提出的細粒度的漢語語義角色數(shù)據(jù)集構(gòu)建方法包括中樞語義的色標(biāo)注和主要周邊語義角色標(biāo)注、輔助周邊語義角色標(biāo)注、語義角色的雙重標(biāo)注以及不確定語義事件的語義角色標(biāo)注等四個步驟,其中輔助周邊語義角色標(biāo)注、語義角色的雙重標(biāo)注以及不確定語義事件的語義角色標(biāo)注解決了現(xiàn)有的大部分語義角色數(shù)據(jù)集標(biāo)注方式單一的問題,為我們標(biāo)注的語料帶來更細粒度的語義信息。此外,我們還提出了主要周邊語義角色關(guān)系約束的概念,有助于設(shè)計算法對語料庫中標(biāo)注的語句自動地進行初步審查,減輕后期人工復(fù)審的壓力。
(3) 我們初步構(gòu)建了一個擁有9 550條語句的漢語語義角色數(shù)據(jù)集。相較于現(xiàn)有的漢語語義角色數(shù)據(jù)集,我們的語義角色數(shù)據(jù)集中標(biāo)注的語料擁有更細粒度的語義信息。細粒度的語義信息不僅體現(xiàn)在我們標(biāo)注的語義角色數(shù)據(jù)集中擁有更豐富的主要周邊語義角色類型,還體現(xiàn)在我們語義角色數(shù)據(jù)集標(biāo)注步驟的多樣性。
(4) 我們采用Bi-LSTM+CRF的基線模型在構(gòu)建好的漢語語義角色數(shù)據(jù)集和Chinese Proposition Bank數(shù)據(jù)集上進行了關(guān)于主要周邊語義角色的基準(zhǔn)實驗。我們還分析了基線模型在本文語義角色數(shù)據(jù)集識別出錯誤的語句,并針對這些識別出錯的語句提出了解決這些錯誤的思路。
本文的組織結(jié)構(gòu)如下: 第1節(jié)介紹了相關(guān)研究。第2節(jié)概述了一種改進的漢語語義角色分類體系。第3節(jié)詳細介紹了半自動的細粒度的漢語語義角色數(shù)據(jù)集構(gòu)建方法。第4節(jié)進行了關(guān)于主要周邊語義角色的基準(zhǔn)實驗。第5節(jié)總結(jié)全文并提出未來工作。
為了從語義的角度彌補轉(zhuǎn)換生成語法的不足,菲爾墨(C.J.Fillmore)于1968年發(fā)表了著作《格辨》[16],并提出了格語法,他認為“格”能夠真正構(gòu)成自然語言深層結(jié)構(gòu)中的語法關(guān)系,最初格的種類主要包括6種,分別為施事格、工具格、客體格、處所格、承受格和使動格。后來菲爾墨對其進行了完善,提出了一個含有13種格的體系[17],新增加的格有感受格、源點格、終點格和受益格等。“格”本質(zhì)上就是本文中的語義角色。
國內(nèi)學(xué)者針對漢語的特點對語義角色及其分類體系進行了大量研究。朱曉亞[18]認為事件的語義結(jié)構(gòu)由動核及其相關(guān)的動詞元語義成分構(gòu)成,她定義了14種動元的語義角色。袁毓林[19]將語義角色稱為論元,他總結(jié)了現(xiàn)代漢語的17種論元,并對這些論元的語義定義和句法特征進行了詳細的解釋和說明。魯川[20]將語義角色稱為事元,他將事元分為中樞事元和周邊事元,并以中樞事元作為現(xiàn)代漢語基本句模的分類標(biāo)準(zhǔn)。魯川總結(jié)了26種中樞事元和26種周邊事元。劉茂福等[21]在認知科學(xué)和題元理論的基礎(chǔ)上,總結(jié)了16種原子事件的語義角色類型。由此看出,國內(nèi)各個學(xué)者提出的語義角色分類體系的差異主要在于語義角色類型的數(shù)量和具體語義角色術(shù)語的定義方面,其本質(zhì)是語義角色分類粗粒度和細粒度的抉擇。
國外比較知名的語義角色相關(guān)知識庫有FrameNet、Proposition Bank和NomBank等。FrameNet[6]是美國加州大學(xué)伯克利分校構(gòu)建的基于真實語料庫的計算機詞典,它以框架語義作為理論基礎(chǔ),能夠描述具有相同或相似語義角色的單詞。Proposition Bank[7]是美國濱夕法尼亞大學(xué)建立的一個集語義詞典和標(biāo)注語料庫于一身的論元角色語義知識庫,它以動詞詞典為標(biāo)注基礎(chǔ),以Penn TreeBankⅡ為標(biāo)注底層,以動詞的論元角色為標(biāo)注對象。NomBank[8]是美國紐約大學(xué)構(gòu)建的語義知識庫,它采用了和Proposition Bank大致相同的框架集,幾乎涵蓋了賓州樹庫中所有標(biāo)注過的名詞,并詳細描述和定義了名詞的論元結(jié)構(gòu)。
國內(nèi)學(xué)者對漢語語義角色知識庫也進行了大量的研究,主要有Chinese Proposition Bank、山西大學(xué)漢語框架語義知識庫、北大網(wǎng)庫以及蘇州大學(xué)漢語開放謂詞論元數(shù)據(jù)集等。Chinese Proposition Bank[9]基本繼承了Proposition Bank的標(biāo)注體系,將語義角色分為核心語義角色和附屬語義角色。其中,核心語義角色以Arg0~Arg5進行標(biāo)注,附屬語義角色以ArgM作為前綴進行標(biāo)注。山西大學(xué)的漢語框架語義知識庫[10]是以C.J.Fillmore的框架語義學(xué)為基礎(chǔ),以FrameNet為參照的漢語詞匯語義知識庫,它由框架庫、句子庫和詞元庫構(gòu)成。北京大學(xué)中文網(wǎng)庫[11]是北京大學(xué)袁毓林主持建立的漢語語義關(guān)系標(biāo)注語料庫,它在北京大學(xué)漢語句法分析樹庫的基礎(chǔ)上進行語義標(biāo)注,北京大學(xué)中文網(wǎng)庫一共定義了21種論元角色。蘇州大學(xué)漢語開放謂詞論元數(shù)據(jù)集[4]為了達到輕量級的目的,根據(jù)句子上下文信息直接標(biāo)注謂詞相關(guān)的論元角色,并采用基于詞的論元單位表示,避免了論元角色標(biāo)注任務(wù)對謂詞語義框架的依賴和對片段邊界確定困難的問題。
遺憾的是,目前國內(nèi)大部分語義角色的相關(guān)數(shù)據(jù)集都沒有公開。本文提出了一種細粒度的漢語語義角色數(shù)據(jù)集構(gòu)建方法,相較于現(xiàn)有的語義角色數(shù)據(jù)集,我們的語義角色數(shù)據(jù)集中標(biāo)注的語料具有更細粒度的語義信息,能夠更好地滿足語義理解分析和知識獲取等研究工作的需要[12-15]。
在本文的漢語語義角色分類體系中,我們首先將語句中的語義角色分為兩大類: 中樞語義角色(Pivotal Semantic Role,PSR)和周邊語義角色(Peripheral Semantic Roles,PSRs),再將周邊語義角色分為主要周邊語義角色(Principal Peripheral Semantic Roles,PPSR)和輔助周邊語義角色(Auxiliary Peripheral Semantic Roles,APSR),下面分別進行介紹。
中樞語義角色表示的是語句的中樞,它在漢語句子中扮演著謂詞的角色。中樞語義角色是一個句子的主干,并且一個句子中只能有一個中樞語義角色。本文的中樞語義角色的選取是根據(jù)課題組構(gòu)建的一種基于語義分類和描述框架FSTD的知識庫[13,22]中的語義類而確定的,其范圍主要包括動詞和形容詞。FSTD中的語義類是以魯川[20]定義的26種中樞事元為基礎(chǔ),并借助《同義詞詞林》和《形容詞詞典》等漢語詞典進行補充而完成的。
2.2 周邊語義角色2.2.1 主要周邊語義角色
主要周邊語義角色表示語句中樞的關(guān)鍵周邊語義角色。一個語句中可能存在多個主要周邊語義角色。主要周邊語義角色類型的確定是語義角色數(shù)據(jù)集構(gòu)建過程中最重要也是最復(fù)雜的工作之一。我們需要在主要周邊語義角色的種類數(shù)量方面尋找一個平衡,即在能夠保證獲得必要的語義信息的同時,盡可能地精簡主要周邊語義角色的種類。如果主要周邊語義角色的種類過少,會造成無法準(zhǔn)確地獲取文本的語義信息,造成后期知識抽取和問答系統(tǒng)等下游任務(wù)無法順利進行。例如,在“歹徒搶劫了銀行”和“歹徒搶劫了珠寶”這兩個句式很相似的句子中,Chinese Proposition Bank把“銀行”和“歹徒”都理解為受事(AGR1),這是不合理的,因為這兩個句子在語義上表達的意思不同: “歹徒搶劫了銀行”蘊含的語義是歹徒從銀行中拿走了很多銀行的貴重物品,而“歹徒搶劫了珠寶”蘊含的意思是歹徒拿走了珠寶,這就導(dǎo)致了在計算機問答系統(tǒng)中,如果輸入“歹徒搶劫了銀行”,問計算機“銀行現(xiàn)在屬于誰?”。鑒于“歹徒搶劫了珠寶”中受事“珠寶”現(xiàn)在已經(jīng)屬于施事“歹徒”的設(shè)計,計算機同樣會回答受事“銀行”現(xiàn)在屬于“歹徒”,這種回答顯然是錯誤的。而如果主要周邊語義角色的種類過多,又會增加標(biāo)注人員對主要周邊語義角色標(biāo)注的難度。在參考了朱曉亞[18]、袁毓林[19]、魯川[20]、劉茂福[21]等學(xué)者以及我們先前設(shè)計[13,22]的語義角色分類體系,并經(jīng)過實際的漢語語料考察與驗證后,我們最終確定了32個主要周邊語義角色類型(表1),包括本文提出的7個全新的主要周邊語義角色,即雇施事、代施事、變事、空間、屬性、性質(zhì)和值事(在表1中以+標(biāo)記),以及本文重新定義的5個常見主要周邊語義角色(在表1中以*標(biāo)記),即受事、客事、源事、宿事以及向事。為了在實際語料標(biāo)注過程中能夠準(zhǔn)確并容易地區(qū)分確定這些主要周邊語義角色類型,我們還在表1中給出了它們的判斷標(biāo)準(zhǔn)以及例句。
表1 主要周邊語義角色種類匯總表
續(xù)表
續(xù)表
2.2.2 輔助周邊語義角色
輔助周邊語義角色表示在事件中損失利益(受損者)或者獲得收益(受益者)的語義角色。事實上,在實際語義角色標(biāo)注過程中,我們經(jīng)常遇到一些句子成分在語句中損失利益或獲得收益。對于這些句子成分,除了需要標(biāo)注必要的主要周邊語義角色外,我們還應(yīng)該標(biāo)注相關(guān)的輔助周邊語義角色,即受益者(Benefactive)或者受損者(Malefactive)。例如,在“法輪功傷害了無數(shù)的家庭”這個句子中,句子成分“無數(shù)的家庭”被標(biāo)注為受事,但是它還扮演著“受損者”的角色。通過結(jié)合事件中的主要周邊語義角色和輔助周邊語義角色,我們可以更直觀地得到事件的語義關(guān)系。
在本節(jié)中,我們基于第2節(jié)中改進的漢語語義角色分類體系,進行漢語語義角色數(shù)據(jù)集的構(gòu)建?;诩毩6鹊恼Z義分析和知識獲取等任務(wù)的需要[12-15],在參考了現(xiàn)有的漢語語義角色標(biāo)注方法后,我們提出了一套詳細的細粒度的漢語語義角色標(biāo)注流程,如圖1所示。在從漢語語料庫中提取出相關(guān)漢語語料后,本文提出的漢語語義角色的標(biāo)注流程主要分為四個環(huán)節(jié): ①中樞語義角色和主要周邊語義角色標(biāo)注; ②輔助周邊語義角色標(biāo)注; ③語義角色的雙重標(biāo)注; ④不確定語義事件的語義角色標(biāo)注。
圖1 漢語語義角色的標(biāo)注流程
我們課題組經(jīng)過周丹[12]、臧良俊[13]、王亞[14]以及方芳[15]等同學(xué)的科研工作,積累了一個良好的漢語語義角色標(biāo)注語料庫,用于研究和測試新的語義角色標(biāo)注和知識獲取算法。該漢語語義角色標(biāo)注語料庫中的語料來源于商業(yè)網(wǎng)站、門戶網(wǎng)站、新聞網(wǎng)站等,涉及如汽車(1)汽車之家,https://www.autohome.com.cn/和數(shù)碼產(chǎn)品(2)泡泡網(wǎng),http://www.pcpop.com/的介紹、各種新聞(3)新浪新聞,https://news.sina.com.cn/以及百科知識(4)百度百科,https://baike.baidu.com/文檔等。我們用這個漢語語義角色標(biāo)注語料庫作為本文漢語語義角色標(biāo)注數(shù)據(jù)集構(gòu)建的語料資源。
現(xiàn)有的大部分漢語語義角色標(biāo)注數(shù)據(jù)集在語義角色標(biāo)注方面是粗粒度的,這造成了其在后續(xù)的語義分析、知識獲取和自動問答等應(yīng)用中存在缺陷。例如,在Chinese Proposition Bank中標(biāo)注的一條語句“河北省/NR/B-ARG0 科學(xué)院/NN/I-ARG0 微生物/NN/I-ARG0 研究所/NN/I-ARG0 所長/NN/I-ARG0 劉榮昌/NR/I-ARG0 研究員/NN/E-ARG0 ,/PU/O 從/P/O 一九八四年/NT/O 開始/VV/O 與/P/O 科研/NN/O 人員/NN/O 苦心/AD/O 鉆研/VV/O ,/PU/O 篩選/VV/O 出/VV/O 兩/CD/O 株/M/O 分解/VV/O 土壤/NN/O 礦物/NN/O 鉀/NN/O 能力/NN/O 很/AD/O 強/VA/O 的/DEC/O 硅酸鹽/NN/O 菌株/NN/O ,/PU/O 采用/VV/O 當(dāng)代/NN/O 最新/JJ/O 發(fā)酵/NN/O 工藝/NN/O ,/PU/O 于/P/B-ARGM-TMP 一九八八年/NT/E-ARGM-TMP 在/P/B-ARGM-LOC 國內(nèi)/NN/E-ARGM-LOC 率先/AD/S-ARGM-ADV 生產(chǎn)/VV/rel 出/VV/O 首/OD/B-ARG1 批/M/I-ARG1 硅酸鹽/NN/I-ARG1 菌劑/NN/I-ARG1 生物/NN/I-ARG1 鉀肥/NN/E-ARG1 。/PU/O”中,存在“篩選”“采用”“生產(chǎn)”等多個中樞語義角色,但只標(biāo)注了“生產(chǎn)”這一中樞語義角色,這會丟失很多語義信息。例如,在問答系統(tǒng)中問計算機“劉榮昌采用了什么工藝生產(chǎn)了硅酸鹽菌劑生物鉀肥?”,由于語義角色標(biāo)注的不完整,計算機無法回答這個問題??紤]到較長的語句不便于細粒度的語義分析與標(biāo)注,因此在本文語義角色標(biāo)注語料庫建設(shè)初期的語料篩選方面,與現(xiàn)有的語義角色數(shù)據(jù)集所用的語料相比,我們選取的語句絕大部分只有一個中樞語義角色且其句子的平均長度較短。對于較長的句子,我們會通過句中逗號、分號和句號等標(biāo)點符號進行截斷,如果截斷后的分句仍然具備完整的語義信息,我們將選取該截斷后的分句進行語義角色標(biāo)注。盡管我們選取語句的平均長度短于現(xiàn)有的其他語義角色數(shù)據(jù)集中的語句,但我們標(biāo)注的語句蘊含更細節(jié)的語義信息,這不僅體現(xiàn)在我們的主要周邊語義角色種類更豐富,還體現(xiàn)在我們增加了輔助周邊語義角色標(biāo)注、語義角色的雙重標(biāo)注以及不確定語義事件的語義角色標(biāo)注的標(biāo)注方式,能夠為標(biāo)注的語句挖掘更多的語義信息,這是現(xiàn)有其他語義角色數(shù)據(jù)集不具備的優(yōu)勢,也是本文的創(chuàng)新之處。在未來的工作中,我們會考慮長語料的細粒度語義角色標(biāo)注。
為了滿足各個領(lǐng)域Web文本語義分析與知識獲取方法的研究需求,我們課題組構(gòu)建了一種基于語義分類和描述框架FSTD的知識庫[13,22]。FSTD設(shè)計了一種不限于具體領(lǐng)域的通用語義文法。該文法是一組由語義非終結(jié)符、詞類非終結(jié)符、常量終結(jié)符組成的序列,其中,語義非終結(jié)符是指形為“<主要周邊語義角色: 類型>”的非終結(jié)符,“類型”是充當(dāng)主要周邊語義角色的對象的類型。詞類非終結(jié)符表示一組語義相同的詞語。常量終結(jié)符是一組字符串,可以是一個或多個詞語。例如,<施事: 認知主體><買詞類>[了]<受事: 物體|服務(wù)>表示的是“買”事件的一個語義文法?!?施事: 認知主體>”和“<受事: 物體|服務(wù)>”為文法中的語義非終結(jié)符,“<買詞類>”為詞類非終結(jié)符,“[了]”為常量終結(jié)符。其中,施事后的對象類型“認知主體”和受事后的對象類型“物體|服務(wù)”為對主要周邊語義角色類型所做的語義限制,主要周邊語義角色是語義層面上的定義,而對象類型是知識層面上的定義。
基于FSTD的語義文法,方芳[15]實現(xiàn)了一個魯棒Earley語義解析器,能夠?qū)o定的中文文本進行解析。魯棒Earley語義解析器是基于Earley算法進行改進而產(chǎn)生的語義解析器,加入了容錯解析等功能,用于判斷一個中文文本是否可以被TSTD中的語義文法所識別,并生成識別后的語義解析樹。目前語義分類與描述框架FSTD的語義文法在公開的Web數(shù)據(jù)上覆蓋率已經(jīng)達到71.4%[15],即能解析語料庫中的大部分句子,對于無法解析的句子,則通知FSTD維護人員進行語義文法的擴充。
考慮到中樞語義角色和主要周邊語義角色是FSTD語義文法中的重要組成部分,本文充分利用FSTD中的語義文法和魯棒Earley語義解析器對給定中文文本進行中樞語義角色和主要周邊語義角色的自動標(biāo)注,具體標(biāo)注過程如下:
(1) 首先對待標(biāo)注的漢語語句用FoolNLTK(5)https://github.com/rockyzhengwu/FoolNLTK進行分詞和詞性標(biāo)注。例如,語句“胡老師祝愿大家新年快樂”的分詞結(jié)果為“胡/nr1 老師/n 祝愿/v 大家/rr 新年/t 快樂/an”。
(2) 利用魯棒Earley語義解析器對分詞后的語句進行自動解析,得到語義解析樹。圖2給出了“胡老師祝愿大家新年快樂”的最優(yōu)語義解析樹。
圖2 FSTD語義文法解析得出的最優(yōu)解析樹
(3) 從最優(yōu)語義解析樹中獲得語句中相關(guān)成分的語義角色信息,產(chǎn)生一個初步的語義角色標(biāo)注框架,參見圖3。
圖3 從最優(yōu)解析樹中產(chǎn)生的語義角色標(biāo)注框架
(4) 由于目前魯棒Earley語義解析器得到的最優(yōu)語義解析樹正確率只有58%左右,因此,我們需要對圖3中得到的初步語義角色標(biāo)注框架進行人工審核。通過人工修改和補充,我們獲得關(guān)于語句“胡老師祝愿大家新年快樂”的語義角色標(biāo)注結(jié)果,如圖4所示。語義角色標(biāo)注框架主要包含5個部分,分別為: ①輸入部分defframe表示待標(biāo)注的原始語句; ②分詞結(jié)果表示的是對原始語句進行分詞后的結(jié)果; ③中樞語義角色標(biāo)識句子成分“祝愿”是中樞語義角色; ④主要周邊語義角色標(biāo)識句子成分對應(yīng)的主要周邊語義角色,例如,句子成分“胡老師”是施事等。此外,我們還保留了FSTD語義文法中主要周邊語義角色的對象的類型,如充當(dāng)施事“胡老師”的類型是認知主體等; ⑤為了便于后期對標(biāo)注語句的審查和理解,我們手動地在標(biāo)注結(jié)果中增加“標(biāo)注依據(jù)”,表示標(biāo)注這些主要周邊語義角色所參考的標(biāo)準(zhǔn)。
圖4 從最優(yōu)解析樹中得到的標(biāo)注結(jié)果
基于FSTD語義文法的語義角色標(biāo)注方法只能標(biāo)注句子中的中樞和主要周邊語義角色,而對于輔助周邊語義角色、語義角色的雙重標(biāo)注以及不確定語義事件的語義角色標(biāo)注這類語義性更強的標(biāo)注,需要采用人工的方法進行手動標(biāo)注。
如第2節(jié)所述,在實際語義角色標(biāo)注過程中,經(jīng)常會遇到句子成分在事件中損失利益或者獲得收益。為了獲得這部分語義信息,我們必須為其標(biāo)注相關(guān)輔助周邊語義角色,即受益者或者受損者,下面我們進行詳細說明。
定義1(受益者,Benefactive): 受益者表示的是在事件中樞語義角色動作發(fā)生之后,自身價值取向增加的周邊語義角色。具體地,在事件E中,存在周邊語義角色PSRs和中樞語義角色PSR,如果PSRs初始自身價值為V1,在中樞語義角色PSR動作發(fā)生之后,PSRs自身價值發(fā)生了變化,其值的大小變成了V2,且V2>V1,則周邊語義角色PSRs在輔助周邊語義角色中被標(biāo)注為受益者。
定義2(受損者,Malefactive): 受損者表示的是在事件中樞語義角色動作發(fā)生之后,自身價值取向減少的周邊語義角色。具體地,在事件E中,存在周邊語義角色PSRs和中樞語義角色PSR,如果PSRs初始自身價值為V1,而在中樞語義角色PSR動作發(fā)生之后,PSRs自身價值發(fā)生了變化,其值的大小變成了V2,且V2 基于定義1和2,如果一個周邊語義角色在事件中樞語義角色動作發(fā)生之后,自身價值取向增加,則我們將其標(biāo)注為輔助周邊語義角色“受益者”。反之,我們則將其標(biāo)注為輔助周邊語義角色“受損者”。我們在圖4的標(biāo)注結(jié)果上進行輔助周邊語義角色的手工標(biāo)注,如圖5所示,句子成分“大家”是受益者。 圖5 輔助周邊語義角色“受益者”的標(biāo)注 輔助周邊語義角色的標(biāo)注非常重要,通過與主要周邊語義角色的配合,我們可以更準(zhǔn)確地推理出給定文本所要表達的語義信息。例如,在圖5中,我們知道文本“胡老師祝愿大家新年快樂”一共被標(biāo)注了施事、向事與客事,同時向事對應(yīng)的句子成分“大家”被標(biāo)注成了受益者,那么從這3個主要周邊語義角色和1個輔助周邊語義角色,我們可以推導(dǎo)出給定文本蘊含著“施事傳達了良好的信息給向事”“施事對向事是友好的”等更詳細的語義信息。 在對語料的標(biāo)注過程中,我們發(fā)現(xiàn)標(biāo)注人員在標(biāo)注輔助周邊語義角色“受益者”和“受損者”存在立場問題。下面我們以一個例句進行說明。 例句4: 紅軍攻占了陽新縣城 例句4的中樞語義角色是“攻占”,兩個主要周邊語義角色“紅軍”和“陽新縣城”分別是施事和受事。然而,在對“陽新縣城”進行輔助周邊語義角色的判別時,我們課題組的標(biāo)注人員產(chǎn)生了分歧: 部分標(biāo)注人員認為“陽新縣城”是“受損者”,因為“陽新縣城”是被攻擊方,被攻擊表示自身價值受損。另一部分標(biāo)注人員覺得“陽新縣城”是“受益者”,他們給出的理由是“紅軍”是正義的一方,攻打陽新縣城能夠解放陽新縣城的人民,擺脫陽新縣城被統(tǒng)治者統(tǒng)治的狀態(tài)。事實上,標(biāo)注人員產(chǎn)生分歧的根本緣由是他們所處的立場不同,認為“陽新縣城”是“受損者”的標(biāo)注人員所處的立場是陽新縣城現(xiàn)在統(tǒng)治者的立場,陽新縣城被攻擊會動搖統(tǒng)治者的地位。而認為“陽新縣城”是“受益者”的標(biāo)注人員所處的立場是紅軍和陽新縣城百姓的立場,陽新縣城被攻擊能夠解放陽新縣城的百姓,紅軍能夠給他們更好的生活。在標(biāo)注輔助周邊語義角色時,對于這類因為標(biāo)注立場不同而存在分歧的語料,我們采用績效風(fēng)險的方法進行處理,即站在中立者的角度進行輔助周邊語義角色的標(biāo)注,在沒有任何確定信息的情況下,為了不犯錯,盡量減少標(biāo)注。 語義角色的雙重標(biāo)注是基于我們對課題組語料審查分析過程中發(fā)現(xiàn)的一個特殊語義現(xiàn)象,它能夠為文本語義理解挖掘更多的語義信息。語義角色的雙重標(biāo)注意味著在為事件角色標(biāo)注了一個主要周邊語義角色后,還需要為這個事件角色添加另一個主要周邊語義角色。我們以引言中的例句3“八路軍主力已退守沂蒙山”進行說明。 例句3的中樞語義角色是“退守”,它有兩個主要周邊語義角色,分別為“八路軍主力”和“沂蒙山”?!鞍寺奋娭髁Α笔恰巴耸亍眲幼鞯陌l(fā)起者,因此“八路軍主力”是施事,然而,由于“退守”是一個復(fù)合動詞,它的釋義為“后退并防守”,其語義重心更偏向于“防守”,因此該事件對應(yīng)的客體“沂蒙山”為“受事”。這樣的標(biāo)注方法可以讓計算機理解“沂蒙山”是“八路軍主力”防守并保護的對象,然而,在問答系統(tǒng)中,如果計算機被問“八路軍主力現(xiàn)在所處的位置在哪里?”,由于“沂蒙山”被標(biāo)注成“受事”,計算機就無法回答這個問題。這是由于在理解“退守”時,我們理解其語義更偏向于“防守”造成的,但是“退守”還有另一層“后退”的意思,它解釋了八路軍現(xiàn)在所處的位置。因此,為了解決這個問題,我們提出了語義角色雙重標(biāo)注的語義角色標(biāo)注方法,即沂蒙山不僅被標(biāo)注為受事(第一個標(biāo)注的主要周邊語義角色),還被標(biāo)注為宿事(第二個標(biāo)注的主要周邊語義角色),如圖6所示。 圖6 主要周邊語義角色的雙重標(biāo)注 圖6中主要周邊語義角色的雙重標(biāo)注方式能夠為中文文本語義的理解帶來更多的語義信息,我們不僅知道沂蒙山是“八路軍主力”防守的對象,還知道八路軍主力正處于沂蒙山。需要注意的是,不是所有的語句都具有需要雙重標(biāo)注的語義角色,這類語句一般具有一些特殊的中樞語義角色,在我們對課題組語料庫審查的過程中,我們發(fā)現(xiàn)這些特殊的中樞語義角色通常以復(fù)合動詞的形式存在。 不確定語義事件指存在歧義的事件,一般需要結(jié)合上下文消除歧義。然而,就單個事件而言,事件中被標(biāo)注的語義角色是獨立的且與上下文中的其他事件的語義角色無關(guān),這是不正常的。在語義角色標(biāo)注過程中,我們發(fā)現(xiàn)造成不確定語義事件發(fā)生的原因主要有兩個: ①中樞語義角色造成事件語義不確定性; ②周邊語義角色造成事件語義不確定性。下面,我們分別進行介紹。 (1) 中樞語義角色造成的事件語義不確定性: 指因中樞語義角色多義性造成其所在事件存在語義不確定性。下面我們給出一個例句進行說明。 例句5: 康諾利拜訪了教父皮爾斯 在例句5中,它的中樞語義角色是“拜訪”。 然而,在現(xiàn)代漢語中,“拜訪”有兩個基本釋義: ①短時間看望(到長輩或親友等處問候); ②指敬詞,表示看望并談話。因此,要完成例句5中語義角色標(biāo)注,我們必須結(jié)合上下文。下面,我們?yōu)槔?補充上下文,形成事鏈[20]例句6和例句7: 例句6: 教父皮爾斯很有人緣,有一天路過他家時,康諾利拜訪了教父皮爾斯,教父皮爾斯很開心。 例句7: 康諾利遇到了一些困惑,康諾利拜訪了教父皮爾斯,教父皮爾斯的一席話讓康諾利茅塞頓開。 對于例句6和例句7,我們可以知道,例句6中“拜訪”是基本釋義中的“短時間看望(到長輩或親友等處問候)”,例句7“拜訪”是基本釋義中的“指敬詞,表示看望并談話”。因此,對于這類擁有二義性中樞語義角色的語句,且沒有足夠上下文信息支撐標(biāo)注人員確定事件代表的語義信息,我們需要標(biāo)注可能的主要周邊語義角色以便表示句子完整的語義信息,如圖7所示。按照對例句6和例句7的理解,我們進行了兩種不同的語義角色標(biāo)注方式: ①如果“拜訪”被理解為“短時間看望(到長輩或親友等處問候)”,則“康諾利”被標(biāo)注為施事,而“教父皮爾斯”被標(biāo)注為向事以及受益者; ②如果“拜訪”被理解為“指敬詞,表示看望并談話”,則“康諾利”同時被標(biāo)注為施事以及受益者,而“教父皮爾斯”被標(biāo)注為源事。 圖7 中樞語義角色多義性的語義角色標(biāo)注 (2) 周邊語義角色造成的事件語義不確定性: 指的是因為周邊語義角色存在多義性造成了其所在事件存在語義不確定性。對于這種情況,需要結(jié)合上下文并進行詞義消歧才能準(zhǔn)確地完成語義角色的標(biāo)注。下面我們給出一個例句進行說明。 例句8: 熊貓破壞了系統(tǒng)硬盤數(shù)據(jù) 在例句8中,句中的成分“熊貓”存在多語義性,因為這個詞既可以指代哺乳動物熊貓,也可以指代計算機蠕蟲病毒熊貓。如果句中的成分“熊貓”指的是哺乳動物,那么其對應(yīng)的語義角色是施事(施事的判斷標(biāo)準(zhǔn)①)。如果句中的成分“熊貓”指的是計算機蠕蟲病毒,那么其對應(yīng)的語義角色是代施事(代施事的判斷標(biāo)準(zhǔn)③)。因此,對于這類事件語料,我們參照圖7的標(biāo)注方式,增加另一種標(biāo)注以便表示其完整的語義信息,并在注釋中進行說明,如圖8所示。 圖8 周邊語義角色多義性的語義角色標(biāo)注 在我們進行語義角色標(biāo)注的過程中,我們發(fā)現(xiàn)語義角色在語料中的出現(xiàn)和分布存在一定的規(guī)律,我們將這種規(guī)律稱為語義角色約束。語義角色約束可以幫助我們設(shè)計相關(guān)算法對語料庫中標(biāo)注的語料自動地進行初步審查,減輕后期人工復(fù)審的壓力。目前,我們發(fā)現(xiàn)3種語義角色約束關(guān)系,分別為主體客體數(shù)量約束、主要周邊語義角色搭配約束、中樞語義角色模式一致性約束。為了能夠清晰地表示這三種語義角色約束關(guān)系,我們以節(jié)點作為語義角色,以邊作為約束關(guān)系,繪制了語義關(guān)系約束圖,如圖9所示。下面我們介紹這三種約束關(guān)系。 圖9 主要周邊語義角色關(guān)系約束圖 (1) 主體客體數(shù)量約束: 指在只有一個中樞語義角色的語句中,主體或者客體中的主要周邊語義角色出現(xiàn)的個數(shù)必須均小于2。例如,在只有一個中樞語義角色的語句中,施事和雇施事作為主體不能同時出現(xiàn),受事和客事作為客體不能同時出現(xiàn)等。 (2) 主要周邊語義角色搭配約束: 在我們的語義角色標(biāo)注體系中,有些語義角色是搭配使用的,這些搭配使用的語義角色在只有一個中樞語義角色的語句中會同時出現(xiàn)。在我們對語料進行語義角色標(biāo)注的過程中,我們發(fā)現(xiàn)常見搭配使用的語義角色包括{領(lǐng)事屬事}(6){a?b}表示有語義角色a必定存在b;{ab}表示有語義角色b必定存在a;{ab}表示語義角色a和語義角色b必然同時存在。、{屬性值事}、{感事?客事}、{當(dāng)事連事}、{(施事,致事)?意圖}、{施事|代施事|當(dāng)事(客事,源事)}、{施事|代施事(受事,源事)}、{施事|代施事(客事|受事,向事)}等。例如,在只有一個中樞語義角色的語句中,如果出現(xiàn)了領(lǐng)事但沒有出現(xiàn)屬事,則該語句的語義角色可能標(biāo)注錯誤,反之亦然。 (3) 中樞語義角色模式一致性約束: 指對于中樞語義角色語義相近的語句,其標(biāo)注的主要周邊語義角色類型應(yīng)該是相同的,即兩個中樞語義角色意思相近的語句共享同樣的主要周邊語義角色類型。例如,在以“祝福”為中樞語義角色的語句中,其對應(yīng)的主要周邊語義角色有施事、向事和客事,那么在以“祝愿”為中樞語義角色的語句中,其對應(yīng)的主要周邊語義角色也應(yīng)該是施事、向事和客事。 上述語義角色約束關(guān)系只能初步地找出可能標(biāo)注出錯的語料,并不能最終確定是否真的標(biāo)注出錯或者是句子中的哪個成分是錯誤的標(biāo)注。因此,接下來需要通過人工的方法進行最終標(biāo)注結(jié)果的確定,即人工復(fù)審確認。人工復(fù)審確認主要是為了提高語義角色標(biāo)注的一致性,復(fù)審人員由另一個標(biāo)注人員擔(dān)任,其在復(fù)審過程中被要求對復(fù)審的句子重新進行標(biāo)注。如果復(fù)審人員標(biāo)注的每個句子成分對應(yīng)的語義角色標(biāo)簽與初次標(biāo)注結(jié)果一致,則確認該句標(biāo)注完成,否則讓課題組的權(quán)威老師進行判定。我們用Kappa系數(shù)[23]衡量語義角色標(biāo)簽標(biāo)注的一致性,通過對數(shù)據(jù)標(biāo)注的結(jié)果進行統(tǒng)計分析,初次標(biāo)注人員和復(fù)審人員標(biāo)注相同語義角色標(biāo)簽的Kappa系數(shù)為0.819 6,表明人工標(biāo)注具有較好的一致性,達到了我們預(yù)期的目標(biāo)。 基于第3節(jié)的漢語語義角色數(shù)據(jù)集構(gòu)建方法,截至撰寫本論文時,我們一共完成了9 550條漢語語句的語義角色標(biāo)注,初步形成了一個細粒度的語義角色標(biāo)注數(shù)據(jù)集。在這個數(shù)據(jù)集中,目前一共擁有9 423個中樞語義角色,29 142個主要周邊語義角色,3 745個輔助周邊語義角色、172條語句被進行了語義角色的雙重標(biāo)注以及104條語句被進行了不確定語義事件的語義角色標(biāo)注。 目前,在語義角色數(shù)據(jù)集的研究應(yīng)用方面,主要周邊語義角色的自動識別被廣泛研究。為了測試我們標(biāo)注語料的合理性以及構(gòu)建的語義角色數(shù)據(jù)集的有效性,我們用本文的語義角色數(shù)據(jù)集進行了關(guān)于主要周邊語義角色自動識別的基準(zhǔn)實驗。具體實驗過程如下: 我們將主要周邊語義角色的自動識別問題看作是序列標(biāo)注問題。對于上述標(biāo)注完成的語義角色數(shù)據(jù)集,我們采用BIOES的方式進行轉(zhuǎn)換,其中B表示開始,I表示中間,E表示結(jié)尾,S表示單個分詞詞語,O表示其他,用于標(biāo)記與中樞語義角色和主要周邊語義角色無關(guān)的分詞詞語。我們將中樞語義角色對應(yīng)的句子成分標(biāo)注為Pivot。此外,對于語義角色雙重標(biāo)注和不確定語義事件的語義角色標(biāo)注的語料,我們選取其第一種標(biāo)注方式進行BIOES轉(zhuǎn)換。對于圖5中的例句,最后轉(zhuǎn)換得到的BIOES的格式如圖10所示: 圖10 主要周邊語義角色對應(yīng)的BIOES格式 基于上述轉(zhuǎn)化后BIOES格式的主要周邊語義角色數(shù)據(jù)集,我們采用了一個經(jīng)典的序列標(biāo)注模型Bi-LSTM+CRF(7)https://github.com/scofield7419/sequence-labeling-BiLSTM-CRF作為基線模型進行主要周邊語義角色的自動識別工作。考慮到在現(xiàn)有的中文語義角色數(shù)據(jù)集中,Chinese Proposition Bank 1.0(CPB 1.0)是公開的且被廣泛地應(yīng)用于中文語義角色自動識別的研究中,我們用這個基線模型將本文的語義角色數(shù)據(jù)集與CPB 1.0進行了比較。表2展示的是本文語義角色數(shù)據(jù)集和CPB 1.0的構(gòu)建差異對比。 表2 本文語義角色數(shù)據(jù)集和CPB 1.0的構(gòu)建差異對比 從表2中可以看出,本文語義角色數(shù)據(jù)集目前在標(biāo)注規(guī)模上還小于CPB 1.0,但在語義角色標(biāo)簽種類數(shù)量和語義角色標(biāo)簽密度(語義角色標(biāo)簽數(shù)/標(biāo)簽總數(shù),數(shù)值越小代表語義角色數(shù)據(jù)集中的O標(biāo)簽越多)都大于CPB 1.0,這表明本文的語義角色數(shù)據(jù)集擁有比CPB 1.0更細粒度的語義信息。由于目前我們的語義角色數(shù)據(jù)集只有9 550條語句,為了更好地體現(xiàn)出比較效果,我們從CPB 1.0中隨機選取了9 550條語句,保證其數(shù)量與我們的數(shù)據(jù)集數(shù)量相同。我們將我們構(gòu)建的語義角色數(shù)據(jù)集和CPB 1.0中的9 550條語句隨機打亂,并按照7∶2∶1的比例劃分為訓(xùn)練集和驗證集和測試集,最后得到擁有6 685條語句的訓(xùn)練集,擁有1 910條語句的驗證集以及擁有955條語句的測試集。我們采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)以及F1值來衡量最終的定量實驗效果。Bi-LSTM+CRF的基線模型在兩個數(shù)據(jù)集上的定量實驗效果如表3所示。 表3 Bi-LSTM+CRF的基線模型在兩個數(shù)據(jù)集上的定量實驗效果 (單位: %) 從表3中我們可以看出,無論對于CPB 1.0還是本文語義角色數(shù)據(jù)集,基于BERT(8)https://github.com/google-research/bert#pre-trained-models的預(yù)訓(xùn)練模型均能夠很明顯地提高主要周邊語義角色的識別準(zhǔn)確率和召回率。此外,我們還注意到,采用同樣的Bi-LSTM+CRF基線模型和預(yù)訓(xùn)練模型,本文的語義角色數(shù)據(jù)集在包括準(zhǔn)確率、召回率以及F1值三個方面均比CPB 1.0好,但這并不能說明本文語義角色數(shù)據(jù)集的語義角色識別任務(wù)比CPB 1.0容易,出現(xiàn)表3中的實驗效果是因為本文語義角色數(shù)據(jù)集在初步構(gòu)建時所選用語料的長度比CPB 1.0短,而Bi-LSTM+CRF基線模型更容易捕捉短句中詞與詞之間的上下文依賴關(guān)系。事實上,本文構(gòu)建的語義角色數(shù)據(jù)集在主要周邊語義角色識別方面比CPB 1.0更具挑戰(zhàn)性,這是因為本文語義角色數(shù)據(jù)集的主要周邊語義角色的種類比CPB 1.0更細致,蘊含的語義信息也更細膩,這增加了主要周邊語義角色自動識別的難度。 除了表3中的定量分析,我們還對Bi-LSTM+CRF基線模型在本文語義角色數(shù)據(jù)集上的實驗結(jié)果進行了定性錯誤分析。我們初步將錯誤類型分為兩種: (1) 與常識無關(guān)的錯誤。例如,實驗結(jié)果中存在將“李嬤嬤正在斥罵著宮人們”識別為“李/B-施事 嬤嬤/B-代施事 正在/O 斥罵/Pivot 著/O 宮/B-受事 人們/E-受事”,其錯誤在于施事對應(yīng)句子成分后接上了代施事,辱罵對應(yīng)客體句子成分是向事,而不是受事。對于這種與常識無關(guān)的錯誤,我們可以通過增大語義角色數(shù)據(jù)集的規(guī)模,設(shè)計更先進的神經(jīng)網(wǎng)絡(luò)模型以及更具有針對性的損失函數(shù)等方法來解決。 (2) 與常識有關(guān)的錯誤。這種類型的錯誤很難甚至無法通過基于神經(jīng)網(wǎng)絡(luò)統(tǒng)計模型的方法來解決,我們總結(jié)了實驗結(jié)果中四個典型容易識別錯位的案例,如表4所示。 表4 因常識問題容易混肴出錯的四個典型案例 造成表4中與常識有關(guān)的語義角色識別錯誤的根本原因在于: 作為一種淺層的語義分析方法,語義角色標(biāo)注在知識和常識的表達方面存在先天的缺陷,以“他搶劫了銀行”和“他搶劫了珠寶”這兩個句子為例,Bi-LSTM+CRF基線模型會將句子成分“珠寶”和“銀行”均識別為受事,但在我們的語義角色標(biāo)注體系中,“銀行”應(yīng)該被標(biāo)注為源事,“珠寶”應(yīng)該被標(biāo)注為受事,這種標(biāo)注方式在我們?nèi)四X中蘊含的一個常識就是銀行是一個金融機構(gòu),他搶劫了銀行預(yù)示著他把銀行中的貴重物品拿走了,珠寶是一種貴重物品,他搶劫了珠寶預(yù)示著他把珠寶拿走了。這種知識和常識信息對語義分析至關(guān)重要,能夠很好地服務(wù)于后續(xù)關(guān)于語義方面的知識抽取和常識獲取等下游任務(wù)。 為了能夠形式化地表示上述知識和常識信息,我們課題組在曹存根研究員的主持下正在研發(fā)一種全息事件網(wǎng)絡(luò)(Holographic Event Network,HEN),其致力于為深層的語義分析、知識獲取和常識獲取等研究打下基礎(chǔ)。HEN是一種包含過程事件網(wǎng)絡(luò)層和狀態(tài)事件網(wǎng)絡(luò)層的事件網(wǎng)絡(luò),其中狀態(tài)事件網(wǎng)絡(luò)層類似于一個常識圖譜,將實體、概念、屬性(值)作為節(jié)點,而節(jié)點之間的連線被標(biāo)識為節(jié)點之間的關(guān)系,這些關(guān)系的種類主要基于ConceptNet5(9)https://github.com/commonsense/conceptnet5/wiki/Relations中的關(guān)系而確定。HEN不是本文工作重心,在此只做簡要說明,后續(xù)課題組會發(fā)表文章時相關(guān)工作進行詳細介紹。 HEN的建立為解決上述因常識問題造成主要周邊語義角色識別出錯的案例提供了思路。圖11表示的是案例“他搶劫了銀行”和“他搶劫了珠寶”到HEN狀態(tài)事件網(wǎng)絡(luò)層的映射。 圖11 語義角色在HNN中被自動檢查的過程 對于這種類型的錯誤,我們可以結(jié)合HEN并有針對性地利用規(guī)則的方式來進行自動檢查,其具體算法如算法1所示。在算法1中,步驟2~步驟3表示是對于如標(biāo)注為O和Pivot等不是主要周邊角色類型的句子成分,默認檢查通過。步驟5表示的是將句子成分映射到HNT中的狀態(tài)事件網(wǎng)絡(luò)層。步驟7~12表示的是獲取與句子成分在HNT中映射節(jié)點存在指代、是子類和同義詞關(guān)系的節(jié)點,并判斷這些節(jié)點的屬性是否滿足其所標(biāo)識主要周邊語義角色的判斷標(biāo)準(zhǔn),如果滿足,則識別檢查通過,反之則識別檢查不通過。例如,句子成分“珠寶”是可轉(zhuǎn)移物品和有價值物品的子類,其分別具有屬性價值和屬性可移動性,可移動性符合我們對受事的定義,因此,“珠寶”被標(biāo)注為受事的檢查通過。反之,句子成分“銀行”是金融機構(gòu)的子類,但是我們從HNN中只能知道金融機構(gòu)具有有價值的物品,并不能得出金融機構(gòu)具有屬性可移動性,其不符合受事的定義,因此,“珠寶”被標(biāo)注為受事的自動檢查無法通過。 算法1 基于HNN的主要語義角色識別檢查算法輸入: S={w1/SR1,w1/SR2,…,w1/SRn},其中wi表示句子中第i個句子成分,SRi表示第i個句子成分被識別的主要周邊語義角色類型;PPSR={PPSR1,PPSR2,…,PPSRn},主要周邊語義角色類型集合;HNT_S= 語義角色數(shù)據(jù)集的構(gòu)建對自然語言語義分析和理解等研究有著重要的作用。本文深入研究了已有的語義角色分類體系,并對實際的漢語語料進行了詳細的考察,提出了一種改進的漢語語義角色分類體系。在此基礎(chǔ)上,以只有一個中樞語義角色的語料作為研究對象,提出了一種細粒度的漢語語義角色數(shù)據(jù)集構(gòu)建方法。細粒度的語義信息不僅體現(xiàn)在我們主要周邊語義角色種類的豐富性,還體現(xiàn)在我們語義角色標(biāo)注步驟的多樣性。最后,我們構(gòu)建了一個擁有9 950條語句的漢語語義角色數(shù)據(jù)集,并將其與公開的Chinese Proposition Bank語義角色數(shù)據(jù)集在一個Bi-LSTM+CRF的基線模型上進行了關(guān)于主要周邊語義角色自動識別的實驗對比。此外,我們還分析了Bi-LSTM+CRF基線模型在本文語義角色數(shù)據(jù)集識別錯誤的語句,并針對這些識別出錯的語句初步提出了后期解決這些錯誤的思路。 目前,我們語義角色數(shù)據(jù)集的構(gòu)建還有較長的路需要走,后期的工作重心將集中于擴大語義角色數(shù)據(jù)集的規(guī)模,以及考慮如何更好地對多中樞語義角色的長語料進行細粒度的語義角色標(biāo)注。此外,利用已有的語義角色數(shù)據(jù)集,設(shè)計相關(guān)語義角色的自動識別算法,提高語義角色識別的準(zhǔn)確率和召回率,并將其運用于語義分析和知識獲取等下游任務(wù),也是我們未來的主要工作。3.4 語義角色的雙重標(biāo)注
3.5 不確定語義事件的語義角色標(biāo)注
3.6 語義角色標(biāo)注后的審查
4 基準(zhǔn)實驗
5 結(jié)束語