国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模板的中文上下位關系抽取方法

2022-01-28 04:31:16黃賽豪陸凱華李正華
計算機應用與軟件 2022年1期
關鍵詞:詞法句法語料

章 岳 黃賽豪 陸凱華 李正華

(蘇州大學計算機科學與技術學院 江蘇 蘇州 215006)

0 引 言

近年來,隨著深度學習的發(fā)展,自然語言處理作為人工智能領域的一個主要分支且不斷取得重大的突破。將基于深度學習的自然語言處理模型融入知識并進行自動化推理是目前比較主流的做法,其中知識的定義、獲取和分類是亟需解決的問題。上下位關系在自然語言知識體系中占有非常重要的地位,它是描述事物層次關系的基礎,可以作為詞語關系網絡的核心骨架。根據WordNet[1]的定義,給定兩個詞語x和y,如果句子“x是一種|類|個|部|…|y”是可以接受的,則稱y是x的上位詞(hypernym),x是y的下位詞(hyponym),上下位關系記為hyponymy(x,y)。例如,句子“蘋果是一種水果”是可以接受的,因此“蘋果”和“水果”具有上下位關系hyponymy(蘋果,水果)。很顯然,上下位關系是非對稱的,如果x是y的上位詞,則y一定不是x的上位詞。

上下位知識庫可廣泛運用于自然語言處理任務中。早期的詞語知識庫通常是人工構建的,因此需要耗費大量人力,主要有WordNet[1]、同義詞詞林[2]和HowNet[3]等。此類知識庫的準確度較高,但是包含的上下位關系詞對較少。隨著技術的進步,近期的知識庫構建工作通常圍繞自動化的方法展開。哈爾濱工業(yè)大學推出的大詞林[4]是自動構建的大規(guī)模開放域中文實體知識庫,包括1 200萬高質量的上下位關系詞對,其中大部分為“概念詞-實體詞”類型。

上下位關系可以從結構化數據和非結構化數據中自動獲取?;诮Y構化數據的方法雖然準確度較高,但是受限于數據規(guī)模無法獲取大量詞對,而互聯網中海量的非結構化數據正為上下位關系的抽取提供了豐富的資源。現階段,從非結構化數據中獲取上下位關系通常采用兩種方法,分別為基于模板的方法和基于詞語分布相似度的方法。本文主要研究由Hearst[5]提出的基于模板的方法,其基本思想是使用人工或自動獲取的模板在語料庫中進行規(guī)則匹配或分類器訓練,從而獲得上下位詞對。這里的模板指的是符合自然語言習慣的句型結構[6]。

基于模板的方法主要使用以下兩類模板[7]:只利用分詞、詞性信息的詞法模板(Lexical pattern,LP)和額外加入句法信息的依存句法模板(Dependency pattern,DP)。然而,目前學術界尚缺乏對這兩類模板性能的全面客觀的實驗對比。特別是在深度學習時代,句法分析性能[8]和句法樹庫建設[9]均取得較大突破。在此背景下對兩類模板性能的深入分析和比較,一方面可以更深入地理解基于模板的方法,另一方面也為兩類模板的融合提供支持。

本文選取了四種主流上下位相關句型,在每種句型上分別定義了詞法模板和依存句法模板。采用約3 000萬句百度百科和約760萬句維基百科中文語料作為無標注文本,利用基于深度學習的高精度詞法和句法分析器獲取詞法和依存句法結果,進而根據兩類模板自動匹配上下位關系候選詞對,最后從不同類別中隨機抽樣2 800個詞對進行人工標注。本文制定了詳細的標注規(guī)范,嚴格采用雙人標注和專家審核的流程,確保評價數據的可靠性。

本文重點關注概念詞之間的上下位關系,因此使用了《現代漢語語法信息詞典》、同義詞詞林和HowNet中的84 742個名詞(概念詞和少量常用實體詞)作為上下位詞語的范圍。

1 相關工作

1.1 現有上下位知識庫

現有包含上下位關系的知識庫主要有WordNet、同義詞詞林、HowNet和大詞林等。其中,WordNet、同義詞詞林和HowNet均采用人工標注的方式進行構建,而大詞林則采用自動加少量人工的方法構建。

WordNet[1]是目前最重要、涵蓋詞語關系范圍最廣的英文語義詞典,它通過同義詞集(synset)和定義(gloss)來描述詞義,同義詞集之間有指針指示它們的語義關系,包括近義、反義、上下位和部分整體等多種關系。WordNet共有155 287個詞型和206 941個詞義,名詞、動詞、形容詞、副詞各自組成互不干擾的同義詞網絡。其中,上下位關系是WordNet中組織名詞關系網絡的基本架構。

同義詞詞林[2]是一個被廣泛使用的中文詞語關系知識庫。它只包含詞,而不含詞的定義。它將53 859個詞語劃分為12個大類、97個中類和1 400個小類,形成了一個樹狀層次結構,每個節(jié)點(或類)都對應一個詞語集合。同義詞詞林主要目的是刻畫詞語之間的同義性、近義性、相關性。兩個詞在樹中的距離越近,則說明它們的詞義越相近或相關。同時,樹狀層次結構也在一定程度上體現了上下位關系,例如上層詞語通常是下層詞語的上位詞。近年來,哈爾濱工業(yè)大學又對基礎版同義詞詞林進行了擴展[10]。擴展版同義詞詞林含有77 343個詞語,并將原有的3層樹狀結構擴展為5層樹狀結構,新增了詞群和原子詞群。詞群是小類的細分,它可進一步分解為原子詞群,原子詞群與詞群之間可能出現重復。擴展版同義詞詞林具有更為細致的層次結構,隱含了更多上下位關系。

HowNet[3]也是一個應用廣泛的中文語言知識庫,它使用無法再細分的最小語義單位義原(sememe)來描述詞匯和詞義。義原體系的優(yōu)勢是可直接作為語義標簽融入機器學習模型,在詞匯相似度計算[11]、文本分類[12]和信息檢索[13]等方面具有很高的實際應用價值。HowNet擁有2 468個義原,并在此基礎上人工標注了118 347個中文詞和104 027個英文詞的語義信息,共包含212 541個義項和116個動態(tài)角色。How-Net中描述了8種義原關系,上下位關系是其中之一,詞語間的上下位關系由詞語的義原間的上下位關系來確定。

總體而言,WordNet、同義詞詞林、HowNet這三個知識庫層次清晰,準確度較高,許多學者對其應用進行了深入的探索[11-14]。但是,此類知識庫的維護需要大量的成本,更新緩慢,詞語覆蓋率較低[15]。此外,它們的關注點不限于上下位關系,因此上下位詞對的規(guī)模比較有限。

與上述人工構建的知識庫不同,大詞林則是自動構建的大規(guī)模開放域中文實體知識庫[4]。開放域意味著實體的類型是開放可擴展的,不局限于一個預先定義的實體類別體系。相比于傳統(tǒng)命名實體,它的類別更多、更細。大詞林以擴展版同義詞詞林作為核心骨架,通過自動化方法在已有節(jié)點上掛靠了大量的開放域實體詞,并進一步進行實體類別層次化處理,其中包含約50 000個“概念詞-概念詞”類型的上下位關系詞對、12 081 984個“概念詞-實體詞”類型的上下位關系詞對。以大詞林為代表的這一類自動構建的知識庫,它們的規(guī)??梢噪S著互聯網中實體詞的更新而擴大,很好地解決了以往人工構建方法成本高、更新慢、覆蓋率低的問題??梢钥闯觯笤~林中絕大部分上下位關系屬于“概念詞-實體詞”類型。這種以概念詞作為骨架掛靠實體詞的知識庫構建方法,對于“概念詞-概念詞”類型的上下位關系詞對的覆蓋面非常有限。但是,“概念詞-概念詞”類型的上下位關系畢竟能在詞語上下位關系網絡中起到核心骨架作用,也更能表達人類的常識知識。另外,大詞林數據目前還不能公開訪問和獲取。

本文以“概念詞-概念詞”類型的上下位關系為主要研究目標,深入比較了基于詞法模板和依存句法模板的上下位關系自動獲取方法,并通過隨機采樣和較大規(guī)模的人工標注取得性能指標。

1.2 上下位關系自動獲取方法研究

當前,主流的上下位關系自動獲取方法可按數據的來源分為基于結構化數據的方法和基于非結構化數據的方法。

基于結構化數據的方法是對已有的詞典、百科全書等結構化電子資源進行分析,獲取隱含的上下位關系。Ponzetto等[16]利用維基百科的分類系統(tǒng)構建維基百科中詞條的語義網絡,并對網絡中的上下位關系進行了抽取。程韻如等[17]針對維基百科中旅游領域詞條的結構特點,嘗試利用結構特點自動獲取特定結構的領域命名實體和層次結構。這一類方法雖然準確度較高,但會受到結構化數據本身規(guī)模的影響。

互聯網中的結構化數據需要人工進行構建與維護,其規(guī)模畢竟是有限的。然而,隨著Web的發(fā)展,網絡中積累了海量的非結構化數據,如新聞文本、博客文本和評論文本等,可為上下位關系的獲取提供豐富的資源。所以,目前研究主要關注基于非結構化數據的方法,它大致可分為基于模板的方法和基于詞語分布相似度的方法。

基于模板的方法對人類的語言習慣進行分析,通過給定一些上下位關系出現頻繁的句型結構(模板),從語料中挖掘符合模板的上下位詞對。Hearst[5]最早提出利用詞法-句法模板在大規(guī)模文本中自動匹配上下位關系,其定義了六種常見的英文模板,在“Grolier’s Encyclopedias”的文本中進行了抽取實驗,并將所得結果與WordNet進行了對比,準確度可以達到57.55%。劉磊等[18]較早研究了基于模板的中文上下位關系詞對抽取,首先利用半自動獲取的詞典和句型對符合“是一個”模板的句子進行分析,然后根據不同的規(guī)則,分流匹配獲取上下位關系,在中文語料中的實驗結果令人滿意。上述工作都是基于規(guī)則匹配的,此外模板信息也可作為特征訓練分類器來識別新的上下位關系。Snow等[19]以WordNet中已有的上下位詞對作為種子,采用自舉方法(bootstrapping)迭代獲取了大量依存句法模板,并利用這些模板訓練了一個邏輯回歸(Logistic regression,LR)分類器,對句子中隱含的名詞對進行關系判別。

基于詞語分布相似度的方法主要基于如下假設:下位詞的上下文是其上位詞的上下文的一個真子集。該方法利用詞語在上下文中的統(tǒng)計信息來判斷給定詞對是否符合上下位關系。Weeds等[20]提出了一種簡單直觀的利用詞語上下文信息計算上下位關系概率的公式。Szpektor等[21]對文獻[20]方法進行了改進,將其與文獻[22]提出的詞匯相似度計算方法進行了融合,可以避免詞語分布不平衡導致的問題。Shi等[23]將基于模板的方法和基于詞語分布相似度的方法進行了比較,發(fā)現基于模板的方法更適合用于名詞間上下位關系獲取,而基于詞語分布相似度的方法更適用于其他詞性的詞語。

除此之外,一些學者嘗試將不同方法進行融合。Fu等[24]提出了一種開放域多資源上位詞發(fā)現方法,融合了詞典資源、搜索信息和詞匯形態(tài)。孫佳偉等[25]提出在分類器中同時使用模板特征和詞語分布特征,有效提高了上下位分類器的性能。

1.3 模板性能比較研究

基于模板的方法通常利用詞法或依存句法兩類模板。基于詞法模板的方法考慮了詞信息,通過選取模板前后的特定詞語作為上下位候選詞對。它只需進行簡單的語料預處理工作,效率較高。Pantel等[26]采取該方法進行了上下位關系和模板的迭代抽取。而基于依存句法模板的方法則是先對待處理句子進行依存句法分析,然后按照現有的模板,通過依存句法路徑抽取上下位關系。Snow等[19]將詞語對用它們之間依存句法路徑的集合來表示,在此基礎上訓練了一個分類器來識別新的上下位關系。此外,早期的上下位關系抽取任務中也經常采用基于正則表達式匹配的字符串模板(String patter,SP)?;谧址0宓姆椒ú皇褂脗鹘y(tǒng)的分詞、詞性標注等自然語言處理技術,而是采取語料分流處理后進行正則表達式匹配的方式進行抽取。這種方法易于實現,對于簡單句子的抽取效果較好,但對于句子結構較為復雜的情況,常常需要耗費大量時間對語料進行分流和構建剝離、過濾和歧義詞典[18]。

在英文等其他語言方面,已有不少學者關注不同模板性能的比較。Sang等[7]用bootstrapping方法自動獲取到的詞法模板和依存句法模板分別訓練了兩個上下位關系分類器,并在荷蘭語語料中進行了實驗,發(fā)現相較于詞法模板,盡管依存句法模板利用了更多的句子信息,但并沒有展現出明顯更好的準確度和召回度。而Jijkoun等[27]的實驗則發(fā)現利用依存句法模板抽取得到的信息可以顯著地提升一個知識問答系統(tǒng)的性能。但是,一方面中文的句法結構和荷蘭語、英語等差別較大,也沒有詞根的概念,另一方面由于中文的表達方式更靈活,bootstrapping等方法在中文中所能獲取到的高質量模板更稀少[28],所以這些國外學者所得到的結果并不能簡單地遷移到中文上。

在中文方面,目前尚欠缺模板間性能比較的實驗,學者們更多地關注于多種模板的融合抽取。湯青等[29]以匹配“是一個”模板的句子作為研究對象,提出了一種字符串模板與句法模板相結合的上下位關系抽取方法,將中文語料依據規(guī)則劃分為簡單句和復雜句,針對簡單句采用字符串模板進行抽取,針對復雜句采用依存句法模板進行抽取,兼顧了準確度、召回度和效率。陳金棟等[30]結合強句法模板和語義模板,提出一套新穎的框架從語料中抽取上下位關系,抽取過程中將字符串模板與依存句法模板融合,在中英文語料中的實驗表明這種融合方法可以提升準確度和召回度。

2 上下位關系模板

現階段,國內大部分基于模板的工作所采用的中文模板都借鑒了Hearst提出的英文模板[5]。本文工作參考前人總結的中文Hearst模板,選取了其中最為有效的四種句型[30],如表1所示。對于每一種句型,本文分別給出它們各自的詞法模板和依存句法模板的定義。其中,N1表示下位詞,N2表示上位詞。

表1 中文句型示例

表2給出了匹配上述四種中文上下位相關句型的例句。

表2 匹配表1中句型的例句

2.1 詞法模板

本文采用了兩種不同的模板對大規(guī)模中文語料進行上下位關系抽取,第一種模板是詞法模板,它僅需用到句子中的詞信息。此方法的語料預處理過程需要以下兩個步驟:

Step1對待抽取句子進行分詞。

Step2對分詞的結果進行詞性標注。

需要注意的是,在詞法模板的實際匹配過程中,不僅要求詞匹配一致,還要求詞性匹配一致。

本文采用蘇州大學開放的漢語理解平臺(CUP)(http://hlt-la.suda.edu.cn/)進行語料預處理工作,對例句“蘋果是一種水果”的分析結果如圖1所示。

圖1 詞法模板語料預處理結果

本文在實驗的過程中依據表1中的四種中文句型,給出了它們的詞法模板定義,作為抽取及比較的基礎。此處以符合“是一個”句型PisA的詞法模板為例說明。

定義1與表1中句型PisA對應的中文詞法模板LPisA具體定義如下:

Define constant

//定義常量

{

Vis={x|x∈{是|為|系|……}}

ATTquantifier={x|x∈{個|種|類|位|名|部|本|款|……}}

ADVfilter={x|x∈{不|絕不|并不|可能|似乎|也許|貌似|據說|過去|以前|……}}

}

Define lexical pattern

//定義詞法模板

{

<&Vis>一<&ATTquantifier>

}

其中:“&”表示定義一個常量;“?”表示定義一個變量;“!”表示在句子中不能出現;“N1”表示下位詞;“N2”表示上位詞;“Vis”指與“是”同義的中文謂語;“ATTquantifier”指可做量詞的中文定語;“ADVfilter”指需要過濾的中文狀語。

2.2 依存句法模板

基于依存句法模板的方法在輸入待抽取句子詞信息的基礎上,還需要額外輸入其依存句法信息。因此,其語料預處理過程在詞法模板的基礎上另外包含了第三個步驟:

Step3標注待抽取句子的詞之間的依存句法弧。

通過依存句法分析,可以得到待抽取句子的依存句法樹。根據依存句法模板遍歷依存句法樹,便可獲取待抽取句子中隱含的上下位關系。

表3給出了依存句法模板中使用到的部分依存句法弧標簽,其詳細解釋可參考蘇州大學公開的CODT項目(http://hlt.suda.edu.cn/index.php/CODT)。

表3 依存句法弧標簽定義

本文依據表1中的四種高置信度中文句型,在詞法模板的基礎上定義了依存句法模板,作為抽取及比較的基礎。此處以符合“是一個”句型PisA的依存句法模板為例說明。

定義2與表1中句型PisA對應的中文依存句法模板DPisA具體定義如圖2所示。

圖2 符合定義2模板的依存句法結構

其中,符號及常量的定義參考定義1,依存句法弧標簽的定義參考表2。圖3為符合定義2的例句。

圖3 符合定義2模板的句子示例

當句子中出現“Vis”被“ADVfilter”修飾時,可認為其不符合模板,如圖4所示。

圖4 不符合定義2模板的句子示例

2.3 模板實現

對于形式上匹配前述模板的句子,即可通過規(guī)則獲取其中隱含的上下位關系。

對于匹配詞法模板的句子,經過觀察發(fā)現,其上位詞、下位詞往往在核心短語或核心詞附近的特定位置。例如,符合定義2模板的句子“紅富士/蘋果/是/一/種/美味/的/水果”中,下位中心詞“蘋果”是核心短語“是一種”之前的最后一個名詞,而上位中心詞“水果”是核心短語“是一種”之后的最后一個名詞。依據核心短語對結果進行切分,分別取左右兩側的最后一個名詞,即可得到結果hyponymy(蘋果,水果)。針對上位詞、下位詞并列問題,基于詞法模板的方法通過并列連接詞的方式來進行判斷,常見的并列連接詞有“和”“或”“以及”等。如果兩個或多個名詞之間存在這些連接詞,則認為它們是并列的,可以被同時抽取,從而提升詞法模板的召回度。

對于匹配依存句法模板的句子,則利用詞語間的依存路徑獲取上下位關系。例如,符合定義2模板的句子“紅富士/蘋果/是/一/種/美味/的/水果”中,“蘋果”為“是”的主語,“水果”為“是”的賓語。通過遍歷依存句法樹,尋找核心詞“是”的主語弧和賓語弧,即可得到結果hyponymy(蘋果,水果)。針對上、下位詞并列問題,基于依存句法模板的方法可通過并列擴展結構來進行分析和抽取,如圖5所示。

圖5 并列擴展結構

其中:“N1n”表示與下位詞“N1”并列的下位詞(n∈N*),“N2n”表示與上位詞“N2”并列的上位詞(n∈N*)。通過遍歷coo弧,可以完整地獲取句子中隱含的所有上下位關系。

3 評價方法

Sang等[7]在荷蘭語語料中進行的模板對比實驗利用了EuroWordNet中的上下位資源。他們假設EuroWordNet中除已標注的上下位關系外不再存在額外的上下位關系。這種做法與實際情況差異較大,因為無論何種知識庫中的上下位資源都不可能是全面的??紤]到上述問題,本文采用準確度、召回度兩個指標對詞法模板和依存句法模板的抽取性能開展綜合評價。

1)召回度方面,需要人工構建高置信度的上下位詞對正例集合作為標準結果,統(tǒng)計其詞對數目。針對特定的模板P,首先在語料中篩選出含有標準結果中的詞對及模板P的句子,然后利用模板P對這些句子進行上下位關系自動抽取,并統(tǒng)計得到的結果在標準結果中的數目,最后利用式(1)計算得到模板P的召回度指標。

(1)

式中:Recall(P)為模板P的召回度指標;positive為標準結果總數目,correct為利用模板P在句子中自動獲取到的詞對在標準結果中的數目,二者內部均無重復。

針對兩類模板整體召回度的評價,基本思想與針對特定模板P的召回度評價基本相同,區(qū)別是在篩選和抽取時將原先的特定模板擴展至同類的所有模板。

2)準確度方面,本文采用隨機抽樣人工標注的方式進行評價。針對特定的模板P,在其抽取到的候選詞對集合中隨機抽取200對不重復的詞對進行人工標注,然后利用式(2)計算得到模板P的準確度指標。

(2)

式中:Prec(P)為特定模板P的準確度指標;matched為隨機采樣的候選詞對數目,correct為對候選詞對進行標注得到的正例數目,二者內部均無重復。

針對兩類模板整體準確度的評價,基本思想是利用同類的所有模板各自的準確度進行加權求和,權重為各特定模板所得詞對在此類模板得到的全部詞對中所占的比例,具體計算公式如下:

(3)

式中:Prec(M)是類別為M的模板的準確度指標;sum為M類模板所得詞對總數;n為M類模板的個數;numi為M類模板的第i個模板所得候選詞對數;matchedi為對M類模板的第i個模板進行隨機采樣得到的候選詞對數目;correcti為對隨機采樣的候選詞對進行標注得到的正例數目。上述詞對內部均無重復。

4 數據標注

為了完成實驗中的準確度評價工作,解決第3節(jié)中提到的前人評價方式的缺陷,本文在對上下位知識庫構建技術進行比較深入的研究后,研制了一套詳細的上下位關系標注規(guī)范,并嚴格規(guī)定了標注的流程,對數據進行人工采樣標注,從而計算準確度。

4.1 標注規(guī)范

上下位關系的定義并不復雜。然而,由于詞語的多義性、句子的口語化等原因,實際的標注過程中仍存在著許多復雜的問題??紤]到目前中文尚無公開的上下位關系標注規(guī)范,本文在實踐過程中積累了一套標注規(guī)范,舉例如下:

(1)核心原則:只要詞x的某一義項和詞y的某一義項之間滿足上下位關系,就可以將它們標注為上下位詞對。例如:“虎”既可以指一類哺乳動物,也可以指一部電影,還可以指一個動漫角色。依據上述規(guī)范,hyponymy(虎,哺乳動物)、hyponymy(虎,電影)、hyponymy(虎,動漫角色)均正確。

(2)非對稱性原則:若詞x已被標注為詞y的上位詞,則不能將詞y標注為詞x的上位詞。例如:已存在hyponymy(蘋果,水果),則hyponymy(水果,蘋果)必然是錯誤的。

(3)還原省略原則:若詞x可以脫離語境獨立表示詞y的縮略語或者簡稱,則可在標注時將x還原為y。例如:“寶馬”在人們口語化的表達習慣中可以單獨表示“寶馬汽車”的縮略語,所以標注時可將hyponymy(寶馬,汽車)認為是正確的。

(4)尊重詞典原則:一個詞的一切義項的解釋均以詞典為準。但考慮到如今出現了許多網絡新詞而詞典可能無法及時更新,若標注者認為某個詞出現了新的含義,在給出可靠的出處后,可以按照新義項進行標注。例如:“小強”在當今的網絡用語中代指蟑螂,而蟑螂是一種動物,則hyponymy(小強,動物)是正確的。

(5)上位抽象原則:上位詞必須是抽象概念,而非具象的實體。例如:hyponymy(泰山,五岳)是錯誤的,因為“五岳”可以具體到特定的五座山,本文在實際標注時將它們認為是一種部分和整體的關系。

4.2 標注流程

為了提升標注效率和質量,本文設計了一套基于網頁瀏覽器的上下位關系標注系統(tǒng)。圖6給出了一個上下位關系標注任務的處理流程。

圖6 人工標注流程

步驟1系統(tǒng)將一個任務分配給兩個標注者,若兩人標注的結果一致,則將結果確定為正確答案;若兩人標注的結果不一致,則進入步驟2。

步驟2若結果不一致,此時系統(tǒng)會將兩位標注人員的結果隨機分配給一位審核專家。審核專家將確定唯一結果,并將該結果反饋給出錯的標注者進行學習。學習過程中,若沒有出現投訴,則將審核后的結果入庫保存,否則進入步驟3。

步驟3若出錯的標注者認為審核專家認定的結果是錯誤的,則可以輸入理由進行投訴。系統(tǒng)會將投訴任務隨機分配給一位權威專家,權威專家將確定最終的結果入庫保存,并將該結果反饋給出錯的審核專家或標注者進行學習。

其他的自然語言處理工作也采用了和本文類似的數據標注方法[9]。

4.3 標注規(guī)模

依據以上標注規(guī)范和流程,在本文目前的實驗工作中,已完成了3個批次的標注任務,分別為600、600和1 600個詞對。共有8名人員參與標注工作,其中普通標注人員4名,審核專家2名,權威專家2名。目前,已積累規(guī)模為2 800個詞對的高質量上下位關系數據集(1 326個正例和1 474個反例)用于計算基于不同模板的上下位關系自動抽取方法的準確度指標。

5 實 驗

本文利用表1中的常見句型分別定義了四種詞法模板和四種依存句法模板,在大規(guī)模中文語料上進行抽取實驗。語料來自于中文百度百科和中文維基百科的非結構化文本,分別有29 757 309和7 645 866個句子。

本文采用《現代漢語語法信息詞典》、同義詞詞林和HowNet中的名詞構建了常用名詞詞典(概念詞和少量常用實體詞),共有84 742個詞,以此來限定抽取到的上下位名詞范圍。但是,上述常用名詞詞典中仍有大量詞語一般不能作為上位詞,為了進一步限定上位詞范圍,本文采用網絡爬蟲技術爬取了百度百科的分類欄目,并與上述詞典取交集,得到了5 831個詞的上位詞詞典。

本文構建了一個上下位關系正例集合,用于進行召回度評價。構建方式主要是從HowNet、同義詞林等現有的中文資源庫中爬取可能具有上下位關系的詞對,并進行人工篩選,最終得到3 748對存在于語料庫中的上下位關系詞對。

在實際抽取過程中,命名實體識別問題會導致一些抽取錯誤。例如:“中國/人民/銀行/是/一/家/銀行”,由于分詞的粒度較細,命名實體未被正確識別,導致抽取的結果為hyponymy(銀行,銀行)。為了避免這樣的現象,本文采取了一種較為簡單的基于詞性的補全方法:對抽取到的中心詞進行向前搜索名詞并補全,直到遇見非名詞詞性的詞。在例句中,“中國”“人民”“銀行”均被標注為名詞詞性,所以利用上述方法得到的結果為hyponymy(中國人民銀行,銀行)。此方法提高了抽取的準確度和召回度,也方便了人工標注的進行。

5.1 實驗結果

采用第2.3節(jié)中的方法進行抽取,句型ID參考表1,抽取結果如表4所示,其中候選詞對未經過去重處理。

表4 基于詞法模板和依存句法模板的抽取結果

采用本文第3節(jié)中所述方法對上述抽取結果進行評價,對詞法模板(LP)和依存句法模板(DP)評價的結果如表5所示。此處的詞對經過了去重處理。

表5 抽取結果指標計算

5.2 結果分析

本文采用了表1中的四種中文Hearst句型進行上下位關系自動抽取。在上述四種句型中,ID為PisA和Pcontain的句型,其依存句法模板的召回度與準確度均高于詞法模板;ID為PoneOf的句型,其依存句法模板的召回度高于詞法模板,準確度低于詞法模板;ID為Petc的句型,其依存句法模板的召回度低于詞法模板,準確度高于詞法模板。從整體角度看,詞法模板在召回度方面存在0.32百分點的優(yōu)勢,而依存句法模板在準確度方面存在9.07百分點的優(yōu)勢。

本文的實驗與前人產生了不同的結果。Sang等[7]在2009年進行的模板性能實驗顯示,針對維基百科語料,詞法模板的準確度63.4%比依存句法模板的準確度61.9%高出約1.5百分點,而依存句法模板的召回度47.0%比詞法模板的召回度44.3%高出約2.7百分點。經過分析與對比,本文認為可能導致結果差異的主要原因有以下幾種:① 句法分析技術的發(fā)展。過去十年來,由于深度學習的發(fā)展,句法分析性能得到了較大幅度的提高。本文采用了當下性能最好的句法分析器Biaffine Parser,在最新標注的多領域漢語依存句法數據上進行訓練[32],提升了依存句法弧標注的準確度,從而可能使依存句法模板獲得了更好的性能。② 指標計算方式不同。Sang等假設EuroWordNet中的詞語間除已標注的上下位關系外不再存在額外的上下位關系,通過觀察抽取到的詞對是否位于已有的上下位正例集中來判斷結果是否正確。但是,EuroWordNet中已標注的上下位正例集規(guī)模較小,不夠全面,所以該方法存在一定的缺陷。本文則對抽取結果進行隨機抽樣后進行人工標注,進而計算準確度,并且嚴格規(guī)定了標注流程,制定了合理的標注規(guī)范,所得性能指標或許更為準確。③ 語言不同。Sang等的實驗針對荷蘭語語料,而本文實驗針對漢語語料。漢語和荷蘭語在詞根、語法等多個方面均存在較大差異,有可能影響了實驗結果。

本文觀察數據標注的結果發(fā)現基于依存句法模板的方法在下列情況下可能具有優(yōu)勢:① 句子結構復雜,上下位詞對在句子中的距離較遠而依存句法距離較近;② 上下位詞對不在同一個以逗號隔開的句子中;③ 句子中出現了錯誤的標點符號。而基于詞法模板的方法在句子結構簡單、上下位詞對在句子中距離較近的情況可能具有優(yōu)勢。

6 結 語

基于大規(guī)模中文語料,本文對詞法模板和依存句法模板的上下位關系抽取性能進行了實驗比較,結果表明:在給定了優(yōu)質句型的情況下,兩種模板的召回度僅有細微的差別,而依存句法模板在準確度方面有較大優(yōu)勢。本文的主要貢獻如下:

(1)清晰地梳理了中文上下位關系自動獲取的詞法模板和依存句法模板的完整定義,詳細地描述了基于詞法模板和依存句法模板的中文上下位關系自動匹配獲取的具體方法(具體代碼開源于https://github.com/HillZhang1999/nlp);

(2)設計了一套合理的中文上下位關系標注流程,給出了中文上下位關系標注的規(guī)范和注意事項,并且進行了較大規(guī)模的人工標注實驗;

(3)在中文大規(guī)模語料上對基于詞法模板和依存句法模板的上下位關系自動匹配獲取方法進行對比實驗,全面、正確地對兩類模板進行了評價。

本文目前的工作僅在兩類模板定義良好的情況下對它們的性能進行比較。在未來的工作中,將根據它們各自的優(yōu)勢設計一個多模板融合的上下位關系自動抽取模型,并不斷擴充高質量中文上下位關系詞對庫。

猜你喜歡
詞法句法語料
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
應用于詞法分析器的算法分析優(yōu)化
談對外漢語“詞法詞”教學
基于語料調查的“連……都(也)……”出現的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
文登市| 木兰县| 东光县| 罗定市| 平昌县| 巴南区| 会东县| 宜良县| 益阳市| 包头市| 长阳| 磐安县| 惠东县| 琼结县| 武邑县| 辽宁省| 太原市| 沁源县| 肇州县| 黎川县| 余江县| 常山县| 怀来县| 会泽县| 隆安县| 南康市| 陈巴尔虎旗| 广州市| 江山市| 买车| 通许县| 柳河县| 达孜县| 浦城县| 贵南县| 吉安县| 贵定县| 曲水县| 乐至县| 从化市| 阜阳市|