国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于語義的上下位關(guān)系抽取方法

2019-04-01 13:12:02陳金棟肖仰華
關(guān)鍵詞:句法語料庫語義

陳金棟 肖仰華

(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 上海 200433)

0 引 言

分類體系廣泛應(yīng)用于短文本分類[1]、Web服務(wù)發(fā)現(xiàn)[2]、表示學(xué)習(xí)[3]等領(lǐng)域。分類體系包含實(shí)體、概念以及上下位關(guān)系,其中上下位關(guān)系也稱為isA關(guān)系。本文用hyponym(A,B)表示上下位關(guān)系,例如hyponym(蘋果,水果)表示“蘋果”是“水果”的下位詞,“水果”是“蘋果”的上位詞。

上下位關(guān)系抽取是大規(guī)模中文分類體系構(gòu)建的重要方法之一。早期的分類體系比如WordNet[4]是人工構(gòu)建的,這種分類體系精度較高但是規(guī)模很小。因此,近期的研究工作都圍繞在自動(dòng)化分類體系構(gòu)建?;谀0宓姆椒ㄊ欠诸愺w系構(gòu)建的主流方法之一。文獻(xiàn)[5]利用人工定義的Hearst模板從文本中抽取上下位關(guān)系。為了進(jìn)一步提高上下位關(guān)系的召回率,文獻(xiàn)[6]提出了一套bootstrapping的框架,從文本中獲取上下位關(guān)系。

大部分句法模板都面臨了低質(zhì)量或者低覆蓋率的問題,高質(zhì)量高覆蓋率的模板非常少。因此,先前的工作使用高質(zhì)量的模板來確保精度,同時(shí)采用bootstrapping的方式來提高召回率[6]。但是在bootstrapping過程中產(chǎn)生的模板質(zhì)量較低,這導(dǎo)致了語義漂移的問題[7]。上述方法在中文上的效果比英文更差,因?yàn)橹形牡谋磉_(dá)更加靈活,語法更加復(fù)雜,這導(dǎo)致中文高質(zhì)量的模板非常少[8]。因此目前出名的分類體系都是英文的,如WikiTaxonomy[9]、YAGO[10]、Probase[11],中文的高質(zhì)量高覆蓋率的分類體系幾乎不存在。

本文主要針對(duì)眾多低質(zhì)量高覆蓋率的句法模板,將這些模板稱為弱句法模板。同時(shí),將高質(zhì)量高覆蓋率的句法模板稱為強(qiáng)句法模板。弱句法模板質(zhì)量低的主要原因是缺乏語義信息,因此把它和實(shí)體或概念結(jié)合,設(shè)計(jì)了一種新模板——語義模板來獲取更多高精度的上下位關(guān)系。例如,“NP是NP”是弱句法模板,其中NP表示名詞短語。已知“北京”是一個(gè)實(shí)體,將上面提及的弱句法模板和實(shí)體結(jié)合得到語義模板“北京是NP”。利用該語義模板,可以從句子“北京是中國首都”中獲得hyponym(北京,中國首都)。

基于強(qiáng)句法模板和語義模板,本文提出了一套新穎的迭代框架用于上下位關(guān)系抽取,強(qiáng)句法模板進(jìn)行第一輪關(guān)系抽取,在迭代的過程中使用語義模板來抽取更多的上下位關(guān)系,這極大地提高了召回率。本文提出的方法能夠克服傳統(tǒng)bootstrapping方法中的語義漂移的問題,因?yàn)樵诘倪^程使用了語義信息,能克服弱句法模板的低質(zhì)量問題。本文在中英文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了方法的有效性和通用性。

1 相關(guān)研究

主流的上下位關(guān)系抽取方法可以分為三種:基于模板的方法、基于百科全書的方法和基于嵌入的方法。

基于模板的方法使用句法模板從文本中抽取上下位關(guān)系。文獻(xiàn)[5]是第一個(gè)將句法模板用于上下位關(guān)系抽取,提出了一套自動(dòng)化的上位詞獲取算法,利用Hearst模板從非結(jié)構(gòu)化文本中獲取上位詞。文獻(xiàn)[6]提出了一套迭代式算法從互聯(lián)網(wǎng)數(shù)據(jù)中抽取上下位關(guān)系。該算法定義一些種子關(guān)系實(shí)例,利用它們獲取新的句法模板,這些句法模板可用于抽取新的關(guān)系實(shí)例,重復(fù)執(zhí)行上述步驟,直到?jīng)]有新的關(guān)系實(shí)例產(chǎn)生為止。文獻(xiàn)[12]使用搜索引擎發(fā)現(xiàn)匹配句法模板的句子并從中抽取上下位關(guān)系。文獻(xiàn)[13]訓(xùn)練一個(gè)上下位關(guān)系分類器來發(fā)現(xiàn)有用的依賴路徑,然后將分類器用在新的語料上識(shí)別新的上下位關(guān)系。Liu等[14]提出了一套迭代抽取中文上下位關(guān)系方法,只用到了兩個(gè)強(qiáng)句法模板,完全忽略了弱句法模板。Wu等[11]提出了一套英文上下位關(guān)系抽取方法,構(gòu)建了一個(gè)大規(guī)模的英文分類體系。上述方法沒有嚴(yán)格區(qū)分高質(zhì)量模板和低質(zhì)量模板,都面臨了低精度或低覆蓋率的問題。

基于百科全書的方法從相對(duì)結(jié)構(gòu)化的百科全書中抽取上下位關(guān)系。文獻(xiàn)[9]以維基百科的種類系統(tǒng)為數(shù)據(jù)源,把它建模成一個(gè)語義網(wǎng)絡(luò),將語義網(wǎng)絡(luò)中的關(guān)系分為上下位關(guān)系和非上下位關(guān)系。文獻(xiàn)[10]將維基百科的種類系統(tǒng)中的概念映射到WordNet來獲取大量的上下位關(guān)系。類似的方法也可用于中文,文獻(xiàn)[8,15]使用相似的方法分別從中文維基百科和百度百科中抽取上下位關(guān)系。這種方法的精度較高,但是覆蓋率較低。

基于嵌入的方法將單詞或短語映射到一個(gè)隱式的向量空間,然后基于這些向量發(fā)現(xiàn)上下位關(guān)系。文獻(xiàn)[16]基于詞向量來獲取上下位關(guān)系。文獻(xiàn)[17]將語法規(guī)則也映射到隱式空間,為發(fā)現(xiàn)上下位關(guān)系提供更多的特征。但是這些模型的精度較低(80%左右),這導(dǎo)致了此類方法不滿足實(shí)際工程的需要。

2 句法模板和語義模板

本文目標(biāo)是從文本中抽取上下位關(guān)系。在詳細(xì)介紹本文提出的算法之前,先定義句法模板和語義模板。

2.1 句法模板

高質(zhì)量的模板可以產(chǎn)生高精度的上下位關(guān)系,而低質(zhì)量的模板傾向于產(chǎn)生低精度的上下位關(guān)系。因此,根據(jù)模板精度將其分為強(qiáng)句法模板和弱句法模板。

定義1模板P的精度定義如下:

(1)

式中:分母表示模板P從語料庫中抽取的上下位關(guān)系數(shù)量;分子表示這些關(guān)系中是正確的上下位關(guān)系數(shù)量。

定義2給定一個(gè)模板精度閾值γ,如果模板P滿足pre(P)≥γ,則它是一個(gè)強(qiáng)句法模板;反之,它是一個(gè)弱句法模板。

pre(P)是針對(duì)特定語料庫而言的,一般是從語料庫中采樣得到樣本數(shù)據(jù),在樣本數(shù)據(jù)上評(píng)估得到pre(P)。閾值γ的設(shè)置對(duì)于區(qū)分強(qiáng)弱句法模板至關(guān)重要,在設(shè)定閾值時(shí)需要考慮兩點(diǎn):第一,在不同語言上γ的設(shè)定是不同的,因?yàn)檎Z言的差異,相同的句法模板在不同語言上的精度是不同的;第二,當(dāng)期望得到高精度的上下位關(guān)系時(shí),往往會(huì)將γ設(shè)置的比較高。

表1顯示了中文中常用的Hearst句法模板。當(dāng)γ=0.85時(shí),Psyn1和Psyn2是強(qiáng)語法模板,Psyn3和Psyn4是弱句法模板,其中精度是在每個(gè)模板抽取得到的300組上下位關(guān)系上評(píng)估得到的。一方面,強(qiáng)句法模板質(zhì)量較高,可以產(chǎn)生高精度的上下位關(guān)系,但如果僅使用強(qiáng)句法模板,召回率太低。另一方面,弱句法模板可用于提升召回率,但弱句法模板產(chǎn)生的上下位關(guān)系精度太低。為了平衡精度和召回率,本文設(shè)計(jì)了一種語義模板來解決此問題。

2.2 語義模板

本文先定義元語義模板,因?yàn)檎Z義模板的定義依賴于元語義模板。

定義3元語義模板是由弱句法模板和一個(gè)概念占位符$CON或?qū)嶓w占位符$ENT組成。

如表2所示,元語義模板Psem2和Psem3分別是通過弱句法模板Psyn3結(jié)合概念占位符$CON和實(shí)體占位符$ENT構(gòu)成的?;谠Z義模板定義語義模板。

表2 中文元語義模板

定義4語義模板是由一個(gè)具體的概念或?qū)嶓w來實(shí)例化元語義模板中的概念或?qū)嶓w占位符產(chǎn)生的。

例如“水果包括{,NP}*NP”是一個(gè)語義模板,它是由概念“水果”替換元語義模板Psem1中的概念占位符得到的。

3 框 架

基于強(qiáng)句法模板和語義模板,本文設(shè)計(jì)了一個(gè)迭代式抽取框架從文本中抽取上下位關(guān)系?;舅悸肥怯脧?qiáng)句法模板獲取高精度的上下位關(guān)系,用語義模板來提升召回率同時(shí)保證上下位關(guān)系的精度。如圖1所示,框架由兩個(gè)主要部分組成:預(yù)備抽取和迭代抽取。在預(yù)備抽取中,使用一組固定的強(qiáng)句法模板來獲得高精度的上下位關(guān)系。在迭代抽取中,使用語義模板來提升召回率,獲取更多的上下位關(guān)系。迭代的動(dòng)力來自上一次迭代中生成的新概念/實(shí)體。從不同模板生成的上下位關(guān)系的交集中得到新概念/實(shí)體,這確保了新概念/實(shí)體的質(zhì)量。新概念/實(shí)體用于構(gòu)造語義模板。在迭代中使用語義信息,因此解決了語義漂移的問題。表3總結(jié)了本文中使用的符號(hào)。

符號(hào)意義R從語料中抽取得到的上下位關(guān)系集合Rij第i輪迭代第j個(gè)模板抽取得到的上下位關(guān)系集合Rin不同模板抽取到的上下位關(guān)系的交集S語料庫中包含的所有句子集合s語料庫中的一個(gè)句子Psyn強(qiáng)句法模板集合Psem語義模板集合Scon/Sent已經(jīng)發(fā)現(xiàn)高質(zhì)量概念/實(shí)體集合Snowcon/Snowent從Rin中獲取到的概念/實(shí)體集合Snewcon/Snewent當(dāng)前這輪迭代中新發(fā)現(xiàn)的概念/實(shí)體集合

先介紹預(yù)備抽取,R表示上下位關(guān)系集合,初始化為空集。Rij表示在第i輪迭代中第j個(gè)模板產(chǎn)生的上下位關(guān)系集合。對(duì)于第j個(gè)強(qiáng)句法模板,掃描語料庫并找到與模板匹配的句子,通過isAExtraction模塊獲取上下位關(guān)系,加入到R1j中。然后將R1j合并到R中。

算法1詳細(xì)描述了迭代抽取模塊。Scon和Sent表示已經(jīng)發(fā)現(xiàn)的高質(zhì)量的概念和實(shí)體集合,初始化為空(第1行)。R初始化為預(yù)備抽取階段抽取得到的上下位關(guān)系集合(第2行)。在每一輪迭代中,對(duì)不同模板產(chǎn)生的關(guān)系做交集(第4行),這避免了單個(gè)模板產(chǎn)生的噪聲關(guān)系,提高了語義模板中用到的概念和實(shí)體的質(zhì)量。接下來計(jì)算新的上位詞和下位詞(第5~8行)并更新Scon和Sent(第9,10行)。然后使用新概念和新實(shí)體構(gòu)建語義模板(第11行)。最后使用語義模板從句子中抽取上下位關(guān)系(第12~20行),這過程類似于預(yù)備抽取。重復(fù)上述步驟,當(dāng)沒有新的實(shí)體和概念產(chǎn)生時(shí),終止算法。

算法1迭代抽取

輸入:S,語料庫中的句子

Psem,元語義模板

輸出:R,上下位關(guān)系集合

1Scon←?,Sent←?

2R←預(yù)備抽取階段產(chǎn)生的上下位關(guān)系

3 Repeat

4Rin←對(duì)不同模板的上下位關(guān)系做交集

12 foreachp∈Psemdo

13 foreachs∈Sdo

14 if s.match(p) then

17 end

18 end

19R←R∪Rij

20 end

21 Until沒有新概念和實(shí)體加入到Scon和Sent

上面介紹了isAExtraction模塊,該模塊用于從匹配到模板的句子中抽取上下位關(guān)系。經(jīng)過觀察,本文把模板分為兩類,針對(duì)不同類別的模板使用不同的算法。

對(duì)于包含動(dòng)詞的模板,使用基于依賴路徑(dependency path)的方法。首先要對(duì)句子進(jìn)行依存句法分析,然后通過依賴路徑獲取上位詞和下位詞。例如給定一個(gè)匹配模板Psyn1句子“上海是一座城市”,“是”的詞性為動(dòng)詞,“上?!焙汀笆恰敝g是主謂關(guān)系,“是”和“城市”之間是動(dòng)賓關(guān)系,通過依賴路徑得到hyponym(上海,城市)。

對(duì)于不包含動(dòng)詞的模板,使用基于功能詞的方法。模板Psyn2中“等”就是一個(gè)功能詞,發(fā)現(xiàn)上下位詞往往在功能詞的前后,可以直接通過正則表達(dá)式匹配的方式獲取得到。例如給定匹配Psyn2的句子“中國、印度等國家”,上位詞“國家”在功能詞之后,下位詞“中國”和“印度”在功能詞之前,能夠獲得hyponym(中國,國家)和hyponym(印度,國家)。

4 實(shí) 驗(yàn)

維基百科是互聯(lián)網(wǎng)上規(guī)模最大,最受歡迎的百科類網(wǎng)站,包含多種語言。為了驗(yàn)證本文提出的方法的有效性和通用性,本文在中文和英文維基百科語料庫上進(jìn)行實(shí)驗(yàn)。

4.1 實(shí)驗(yàn)一

本實(shí)驗(yàn)從中文維基百科語料庫中抽取上下位關(guān)系。在互聯(lián)網(wǎng)上下載中文維基百科語料庫,它包含948 835個(gè)網(wǎng)頁和7 911 297個(gè)句子。中文分詞、詞性標(biāo)注和依存句法分析由開源中文語言處理平臺(tái)LTP[19]提供。超參數(shù)γ憑經(jīng)驗(yàn)設(shè)置為0.85。兩個(gè)強(qiáng)句法模板(表1)和三個(gè)語義模板(表2)分別用于預(yù)備抽取和迭代抽取。

為了估計(jì)使用本文方法抽取的上下位關(guān)系的精度,選取了不同領(lǐng)域的30個(gè)概念作為基準(zhǔn)數(shù)據(jù)集。對(duì)于每個(gè)概念,隨機(jī)選取它的50個(gè)實(shí)體或子概念并進(jìn)行評(píng)估。5名碩士生參與了實(shí)驗(yàn)評(píng)估,最終通過投票的方式確定最終結(jié)果。在其他信息抽取的研究工作也采用了和本文一樣的評(píng)估方式[11]。圖2顯示了基準(zhǔn)數(shù)據(jù)集上每個(gè)概念的上下位關(guān)系精度,平均精度為94.8%,遠(yuǎn)遠(yuǎn)大于以前的中文關(guān)系抽取方法,如傳統(tǒng)的基于模板的方法(78%)[14]和基于嵌入的方法(約80%)[17-18]。表4顯示了基準(zhǔn)數(shù)據(jù)集中的10個(gè)概念以及它們的典型實(shí)例。

圖2 不同領(lǐng)域的上下位關(guān)系精度

表4 10個(gè)概念及其典型實(shí)體

圖3顯示了每輪迭代上下位關(guān)系的累積數(shù)量。在預(yù)備抽取(第1輪)中,抽取得到了128 215個(gè)上下位關(guān)系,這幾乎是總關(guān)系的三分之一。在迭代抽取中(在第1輪之后),曲線在前幾輪中快速增長,然后隨著bootstrapping的過程收斂而飽和。最后,從中文維基百科語料庫中抽取了327 370個(gè)上下位關(guān)系。

圖3 上下位關(guān)系數(shù)量隨迭代次數(shù)的變化

圖4顯示了在每輪迭代在基準(zhǔn)數(shù)據(jù)集上的精度,并且將本文提出的方法與目前最新的基于模板的迭代抽取方法Probase進(jìn)行比較。在第一輪迭代中,本文的方法的精度是92.4%,略低于Probase的97.3%,因?yàn)镻robase在第一輪迭代中只抽取高置信度的上下位關(guān)系。隨著迭代的進(jìn)行,本文方法的精度有所提高,因?yàn)樵诘槿≈惺褂昧苏Z義模板并考慮了語義信息,這種現(xiàn)象證明本文方法解決了語義漂移的問題。相反Probase的精度有所下降,這是由于錯(cuò)誤的上下位關(guān)系作為先驗(yàn)知識(shí)用于指導(dǎo)下一輪上下位關(guān)系的抽取導(dǎo)致的[11]。最后,本文方法的精度超過了Probase。

圖4 上下位關(guān)系精度隨迭代次數(shù)的變化

從兩個(gè)方面評(píng)估語義模板的有效性。1) 精度:使用相同的評(píng)估方法來評(píng)估語義模板的精度,精度為94.7%,和強(qiáng)句法模板的精度相近,遠(yuǎn)大于弱句法模板的精度;2) 召回率:從中文語料庫中獲得了320 K上下位關(guān)系,其中約62%的上下位關(guān)系是由語義模板生成的,這極大地提高了召回率。因此,語義模板可用于獲得更高精度的上下位關(guān)系。

將本文方法和以下方法進(jìn)行對(duì)比:1) SP:只使用表1中的兩個(gè)強(qiáng)句法模板;2) SP&WP:使用表1中的所有句法模板,包括兩個(gè)強(qiáng)句法模板,兩個(gè)弱句法模板;3) 文獻(xiàn)[14]:一個(gè)基于模板的迭代抽取方法,該方法沒有將句法模板分為更細(xì)粒度的模板。

為了評(píng)估這些方法,從數(shù)據(jù)集中隨機(jī)選擇1 000個(gè)句子來計(jì)算精度、召回率和F1值,實(shí)驗(yàn)結(jié)果如表5所示。方法SP具有最高的精度但召回率低,因?yàn)樗皇褂酶哔|(zhì)量的模板。本文方法優(yōu)于SP和WP,因?yàn)閷⒈疚母哔|(zhì)量模板與低質(zhì)量模板區(qū)分開來。文獻(xiàn)[14]只使用詞匯特征而忽略了句法特征,因此精度低但召回率高。與這些方法相比,本文方法精度和召回率都相對(duì)較高,在指標(biāo)F1值上取得了最好的效果。

表5 評(píng)估結(jié)果

4.2 實(shí)驗(yàn)二

本文框架中用到了句法模板,這些模板在其他語言中也存在,比如英語[5]、韓語[20]。因此,本文提出的方法也可以通過調(diào)整閾值γ用于其他語言。由于知識(shí)有限,只在英語上進(jìn)行實(shí)驗(yàn)。從英語維基百科語料中抽取了202 846個(gè)和強(qiáng)句法模板匹配的句子,127 727個(gè)和弱句法模板匹配的句子。依存句法分析使用的是斯坦福大學(xué)的CoreNLP工具。閾值根據(jù)經(jīng)驗(yàn)設(shè)置為0.90。三種強(qiáng)語義模板(表6中的前三種模板)和三種元語義模板(表7)分別用于預(yù)備抽取和迭代抽取。

表6 英文句法模板

表7 英文元語義模板

使用和實(shí)驗(yàn)一相同的評(píng)估方式,評(píng)估得到上下位關(guān)系的平均精度是92.5%,優(yōu)于之前的信息抽取框架KnowItAll(平均64%)[21]、NELL(74%)[7]、TextRunner(平均80%)[22],并與目前最新的方法Probase(92.8%)相近。對(duì)召回率進(jìn)行定性分析,與僅使用句法模板的Probase相比,本文方法的召回率高于Probase,因?yàn)槌浞掷萌蹙浞0宀⑺鼈兣c實(shí)體/概念相結(jié)合,以構(gòu)建用于迭代抽取的語義模板。從該數(shù)據(jù)集中總共抽取到320 199上下位關(guān)系。

5 結(jié) 語

本文根據(jù)句法模板的質(zhì)量,將其分成更細(xì)粒度的強(qiáng)句法模板和弱句法模板,并將語義信息融入弱句法模板來構(gòu)建語義模板。基于強(qiáng)句法模版和語義模板提出了一套通用的、有效的上下位關(guān)系抽取框架,從文本中抽取上下位關(guān)系。從中文維基預(yù)料中抽取得到32萬的上下位關(guān)系,精度超過94%。本文方法具有高精度和高召回率的特點(diǎn)。此外它還可用于其他語言,只需要調(diào)整區(qū)分強(qiáng)弱句法模板的閾值。在中英文數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了方法的有效性和通用性。

未來工作方向分為兩部分:第一是將本文的框架用在更大規(guī)模的語料上進(jìn)行上下位關(guān)系抽取來構(gòu)建一個(gè)大規(guī)模高質(zhì)量的中文分類體系;第二使用更多的弱句法模板,來進(jìn)一步提高召回率。

猜你喜歡
句法語料庫語義
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
語言與語義
《語料庫翻譯文體學(xué)》評(píng)介
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
認(rèn)知范疇模糊與語義模糊
山西省| 六盘水市| 龙江县| 平阴县| 太原市| 石阡县| 沧源| 林甸县| 大足县| 五寨县| 双城市| 即墨市| 兴业县| 荥经县| 成都市| 罗定市| 桓台县| 淮阳县| 德兴市| 南宫市| 阜康市| 班玛县| 宜州市| 北宁市| 松桃| 三台县| 平顶山市| 临安市| 嘉禾县| 乌拉特后旗| 吴桥县| 津市市| 莎车县| 林周县| 方正县| 临清市| 吉隆县| 通渭县| 淳化县| 大新县| 贵溪市|