国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語V+V序列關(guān)系識別研究

2023-03-13 10:05:38李勝男曲維光魏庭新周俊生顧彥慧
關(guān)鍵詞:嵌套語料主語

李勝男,曲維光,,魏庭新,周俊生,顧彥慧,李 斌

1.南京師范大學(xué) 計(jì)算機(jī)與電子信息學(xué)院/人工智能學(xué)院,南京 210023

2.南京師范大學(xué) 文學(xué)院,南京 210097

3.南京師范大學(xué) 國際文化教育學(xué)院,南京 210097

動詞是理解句子的關(guān)鍵,在現(xiàn)代漢語里,句子中常常出現(xiàn)由多個(gè)動詞形成的動詞短語,多個(gè)動詞一起可以表達(dá)豐富的語義內(nèi)容,是現(xiàn)代漢語中的常見結(jié)構(gòu)。本文將現(xiàn)代漢語句中出現(xiàn)兩個(gè)及兩個(gè)以上動詞的結(jié)構(gòu)概括為“V+V”結(jié)構(gòu)。由于名詞和動詞可以承擔(dān)多種語義角色,因此該結(jié)構(gòu)能夠形成多種完全不同的句法結(jié)構(gòu),如兼語結(jié)構(gòu)、連動結(jié)構(gòu),以及兼語和連動組成的嵌套結(jié)構(gòu)。這些結(jié)構(gòu)在形式上完全相同,但各部分之間的語義關(guān)系卻完全不同,如短語“回家吃飯”中“吃飯”和“回家”是并列關(guān)系,其施事主語為同一人,而在“請朋友吃飯”中,“請”和“吃飯”的施事主語則并非一個(gè)人,“朋友”是“請”的賓語,同時(shí)又是“吃飯”的主語。由此可見,動詞V在不同的位置,發(fā)揮不同的作用,表達(dá)不同的含義,僅憑詞性難以識別句法結(jié)構(gòu)的不同,給句法解析造成很大的困擾,因此識別“V+V”結(jié)構(gòu)的句法類型和語義角色,對于句法解析和語義解析都有著非常重要的作用。

抽象語義表示(abstract meaning representation,AMR)作為一種新的語義表示方法,使用圖結(jié)構(gòu)來表示語義,通過補(bǔ)充句子中的隱含或省略成分,更全面地描述句子的語義[1]。AMR在對語義標(biāo)注時(shí)需要對兼語缺省的論元進(jìn)行補(bǔ)充,而在連動句中存在著內(nèi)部概念節(jié)點(diǎn)論元共享的現(xiàn)象,即在單句中多個(gè)謂詞共享同一論元角色,AMR會將缺省的論元進(jìn)行補(bǔ)全,得到完整語義表示。如圖1所示,句子中的詞被抽象為概念節(jié)點(diǎn),比如“老師”“輪流”等都是概念節(jié)點(diǎn),概念節(jié)點(diǎn)前的符號“arg0”“manner”等表示該概念節(jié)點(diǎn)與上層概念之間的關(guān)系,比如“老師”是“讓”的施事“arg0”,“同學(xué)們”是“讓”的受事“arg1”,“輪流”是“上講臺”的方式,所以“輪流”與“上講臺”之間的關(guān)系為“manner”。該句中的“同學(xué)們”既是“讓”的受事賓語,又是“上講臺”的施事主語。但為了表達(dá)簡潔方便,漢語會將后一個(gè)主謂結(jié)構(gòu)中的主語“同學(xué)們”省略,AMR表示句子語義時(shí)會將省略的arg0“同學(xué)們”補(bǔ)全。對于其他動詞“輪流”“講”的缺省arg0,AMR同樣進(jìn)行補(bǔ)全,指示其概念節(jié)點(diǎn)同樣為“同學(xué)們”。通過使用概念節(jié)點(diǎn)的標(biāo)號,可以有效表達(dá)共享論元、補(bǔ)全省缺語義。

圖1 AMR文本表示Fig.1 AMR text representation

根據(jù)文獻(xiàn)[2]對小學(xué)1~6年級語文教材AMR語料庫的統(tǒng)計(jì),超過6%的句子含有兼語結(jié)構(gòu),超過10%的句子含有連動結(jié)構(gòu)。正確識別V+V結(jié)構(gòu),識別出其中的兼語句、連動句及兩者嵌套結(jié)構(gòu)的內(nèi)部成分,根據(jù)識別出的內(nèi)部成分對缺省論元進(jìn)行補(bǔ)全,能夠幫助AMR中兼語句式和連動句式的標(biāo)注與語料構(gòu)建及解析,為解析V+V結(jié)構(gòu)的其他序列關(guān)系提供思路。

本文的主要貢獻(xiàn)如下:(1)將兼語連動這樣的V+V結(jié)構(gòu)全部納入統(tǒng)一框架中,設(shè)計(jì)并標(biāo)注了V+V語料庫,包含5 381個(gè)兼語句子、7 987個(gè)連動句子以及1 212個(gè)兼語連動嵌套句子;(2)提出基于多頭注意力和BiLSTMCRF的模型框架來識別V+V序列關(guān)系,并在測試集上取得較高的F1值;(3)相比于以往只單項(xiàng)識別兼語或連動句,本文將兼語和連動這樣的V+V結(jié)構(gòu)納入統(tǒng)一框架進(jìn)行學(xué)習(xí),不僅可以同時(shí)識別兼語、連動結(jié)構(gòu),還可以解決兼語連動嵌套結(jié)構(gòu)的識別問題。實(shí)驗(yàn)結(jié)果表明訓(xùn)練V+V語料的識別效果優(yōu)于單獨(dú)學(xué)習(xí)兼語或連動結(jié)構(gòu),證明了V+V序列關(guān)系識別方法的有效性。

1 相關(guān)工作

1.1 相關(guān)語料庫構(gòu)建現(xiàn)狀

雖然“V+V”是漢語中非常常見的結(jié)構(gòu),但目前并沒有專門的語料庫。一些大型綜合性語料庫中會有句法類型的標(biāo)注,其中包括了兼語、連動等的標(biāo)注。文獻(xiàn)[3]利用句法樹標(biāo)注體系構(gòu)建了清華漢語樹庫,使用“JY”標(biāo)記兼語結(jié)構(gòu),根據(jù)Chen對清華樹庫中兼語結(jié)構(gòu)分布的統(tǒng)計(jì),在3 093個(gè)出現(xiàn)兼語結(jié)構(gòu)的句子中共有3 527項(xiàng)兼語結(jié)構(gòu),其中55項(xiàng)為兼語嵌套結(jié)構(gòu),占總頻次1.6%[4]。清華樹庫還使用“LW”標(biāo)注連謂結(jié)構(gòu),連謂結(jié)構(gòu)中可以做謂語的不僅有動詞和動詞性結(jié)構(gòu),還有形容詞和形容詞結(jié)構(gòu)[5],因此該語料庫中的連動結(jié)構(gòu)包含在連謂結(jié)構(gòu)中,沒有單獨(dú)區(qū)分。

文獻(xiàn)[6]構(gòu)建的中文AMR語料庫對漢語的特殊結(jié)構(gòu)如兼語、連動的表示給予具體規(guī)定。但上述語料并不針對兼語和連動構(gòu)建,且各語料對于兼語連動的定義、標(biāo)注范圍不統(tǒng)一且規(guī)模較小,無法直接用于兼語連動結(jié)構(gòu)的識別工作。為了解決語料匱乏的問題,文獻(xiàn)[7]針對兼語結(jié)構(gòu)總結(jié)了一套兼語語料庫標(biāo)注規(guī)范,選取了來自文學(xué)、新聞、微博等不同領(lǐng)域的語料構(gòu)建了一定數(shù)量面向中文AMR標(biāo)注體系的兼語語料庫,標(biāo)注了兼語的中心詞以及V1、V2,共包含4 760個(gè)兼語句、5 248個(gè)兼語結(jié)構(gòu),是目前最為完整系統(tǒng)的針對兼語結(jié)構(gòu)的語料庫。文獻(xiàn)[8]針對連動句的研究,在人教版小學(xué)語文教材AMR語料以及清華漢語樹庫中,通過人工標(biāo)注方法構(gòu)建了包含7 200個(gè)連動句的語料庫,為后續(xù)對連動句識別的研究提供了支持。

上述的語料庫并未考慮到兼語連動嵌套的情況,因此沒有包含兼語連動嵌套的標(biāo)注,無法對嵌套結(jié)構(gòu)的識別進(jìn)行深入研究。關(guān)于嵌套結(jié)構(gòu)的具體類型介紹將在后面2.1節(jié)標(biāo)注規(guī)范中詳細(xì)講解。

1.2 兼語連動識別研究現(xiàn)狀

目前關(guān)于兼語的研究主要集中在識別兼語結(jié)構(gòu)的邊界、兼語前的動詞V1、兼語后的動詞V2、兼語中心詞等。連動句的研究集中在連動句識別。研究方法主要分為三類,分別是基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。

文獻(xiàn)[9]采用統(tǒng)計(jì)與規(guī)則結(jié)合的方法來識別兼語結(jié)構(gòu),構(gòu)建了一個(gè)較為詳盡的兼語動詞詞表,并且使用規(guī)則匹配的方法篩選兼語的候選特征,使用支持度計(jì)算的方法識別兼語結(jié)構(gòu)中的兼語和V2的候選項(xiàng)。在《人民日報(bào)》語料上的識別結(jié)果達(dá)到了80%左右的正確率,但該方法無法識別未登錄的兼語動詞,而且該方法只適用于符合簡單結(jié)構(gòu)規(guī)則的兼語結(jié)構(gòu),無法處理復(fù)雜的嵌套結(jié)構(gòu),難以達(dá)到應(yīng)用層面。文獻(xiàn)[10]提出了一種基于規(guī)則和統(tǒng)計(jì)相結(jié)合的連動句識別方法,設(shè)計(jì)構(gòu)建基于連動句形式特征和語義角色的基礎(chǔ)規(guī)則庫,然后使用互信息計(jì)算謂語動詞與主語候選項(xiàng)的搭配強(qiáng)度,來識別連動句,實(shí)驗(yàn)結(jié)果F1值為70.83%。但是由于連動結(jié)構(gòu)的復(fù)雜性,上述的基于規(guī)則的方法并不能涵蓋所有情況,無法識別包含兩個(gè)以上動詞的連動句。

文獻(xiàn)[4]使用條件隨機(jī)場模型,對兼語結(jié)構(gòu)邊界進(jìn)行自動識別,F(xiàn)1值最高可達(dá)85.71%,但該工作依賴分詞以及詞性標(biāo)注的效果,對于大量未加工的語料識別效果較差。文獻(xiàn)[8]提出了一種基于神經(jīng)網(wǎng)絡(luò)的連動句識別方法。使用Bert編碼,利用多層CNN與BiLSTM模型聯(lián)合提取特征進(jìn)行分類,在人工標(biāo)注的語料上達(dá)到87.41%的F1值,證明了神經(jīng)網(wǎng)絡(luò)的方法對連動句識別的有效性。文獻(xiàn)[7]設(shè)計(jì)了LA-BiLSTM-CRF模型,能夠識別句子中的兼語結(jié)構(gòu)邊界,實(shí)驗(yàn)結(jié)果F1值為86.06%,證明BiLSTM模型更適合兼語結(jié)構(gòu)邊界識別任務(wù)。但該模型通常只捕捉兼語結(jié)構(gòu)中的一個(gè)V2,對于包含連動以及賓語從句的兼語結(jié)構(gòu)的后邊界識別效果較差。

上述的相關(guān)工作都只針對單一的兼語結(jié)構(gòu)或連動句進(jìn)行識別,然而實(shí)際語料中既有兼語,又有連動,還有一個(gè)句子中同時(shí)出現(xiàn)兼語和連動的嵌套情況,現(xiàn)有研究并未對多種情況同時(shí)研究,也沒有關(guān)注兼語連動嵌套的識別研究。

1.3 實(shí)體嵌套與多頭注意力機(jī)制

在自然語言中嵌套實(shí)體普遍存在,文獻(xiàn)[11]提出了一種新的神經(jīng)框架MGNER,適用于處理嵌套實(shí)體和非重疊實(shí)體。文獻(xiàn)[12]提出了解決嵌套命名實(shí)體識別的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),使用多個(gè)標(biāo)簽對嵌套實(shí)體進(jìn)行標(biāo)記,這種方法簡單易行,但也存在較為明顯的問題,例如對于多層嵌套的情況,指數(shù)級增加了標(biāo)簽,導(dǎo)致分布過于稀疏,因此模型難以學(xué)習(xí)。文獻(xiàn)[13]提出了將命名實(shí)體識別任務(wù)作為機(jī)器閱讀理解任務(wù)來做的思路,即查詢句子中是否存在指定問句的答案。上述的工作為解決嵌套識別問題提出了多種方法。

文獻(xiàn)[14]提出了一種多頭注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)框架,可以使用多個(gè)單獨(dú)的注意功能來捕捉不同的上下文,允許模型共同注意來自不同位置不同表征子空間的信息,更好地學(xué)習(xí)長句子的上下文依賴信息,目前被廣泛應(yīng)用到各個(gè)研究領(lǐng)域,例如文獻(xiàn)[15]提出一種新穎的多模態(tài)多頭注意力模型來預(yù)測關(guān)鍵短語,實(shí)驗(yàn)結(jié)果表明多頭注意力能夠從各個(gè)方面關(guān)注信息,并在不同場景中促進(jìn)分類或生成;文獻(xiàn)[16]提出基于多頭注意力機(jī)制Tree-LSTM模型解決了句子語義相似度計(jì)算;文獻(xiàn)[17]利用多頭注意力機(jī)制生成多樣性翻譯。

受文獻(xiàn)[12]啟發(fā),本文采用多個(gè)標(biāo)簽對嵌套結(jié)構(gòu)進(jìn)行標(biāo)注,并利用多頭注意力機(jī)制來幫助V+V結(jié)構(gòu)中的語義關(guān)系進(jìn)行建模,得到每個(gè)字應(yīng)關(guān)注的全局語義,解決識別過程中的局部依賴性、位置信息獲取不準(zhǔn)確等問題。

2 V+V語料庫構(gòu)建

目前的一些大型語料庫雖然綜合地標(biāo)注了各類句法,但類別分類不統(tǒng)一,對于特殊結(jié)構(gòu)的標(biāo)注不夠詳細(xì),沒有進(jìn)一步進(jìn)行更深層次的句法分析和詞匯語義標(biāo)注。本文利用語言規(guī)則在人教版小學(xué)語文教材AMR語料、清華樹庫、微博AMR語料以及哈工大語料庫中初步篩選出具有V+V結(jié)構(gòu)的句子,然后使用BIOES標(biāo)注體系對這些句子進(jìn)行內(nèi)部成分的標(biāo)注。V+V結(jié)構(gòu)中最多的是連動結(jié)構(gòu),其次是兼語結(jié)構(gòu),此外,還包含少數(shù)的兼語和連動的嵌套結(jié)構(gòu)。

2.1 標(biāo)注規(guī)范

本文構(gòu)建的V+V語料庫主要對兼語結(jié)構(gòu)中的V1、V2及兼語的中心詞JY、連動結(jié)構(gòu)中的連動詞的施事主語n、連動詞v,以及兩種結(jié)構(gòu)的嵌套形式進(jìn)行標(biāo)注。通過對語料的分析,本文制定以下標(biāo)注規(guī)范:

(1)連動句標(biāo)注方法

連動結(jié)構(gòu)的完整語法格式可以表示為:“V1+NP1+V2+NP2”。

①在沒有語音停頓的單句中,當(dāng)V1和V2之間在語義上具有方式、順承、目的、因果等關(guān)系,且連動詞的施事主語為同一對象時(shí),本文將之標(biāo)注為連動結(jié)構(gòu),結(jié)構(gòu)中的V1和V2是本文所要標(biāo)注的連動詞。例如,圖2的例1“他們沒有砍樹造房子”中有兩個(gè)動詞“砍”和“造”,兩個(gè)動詞之間存在目的關(guān)系,即“造”表示“砍”的目的,所以這兩個(gè)動詞是連動詞;“他們”是“砍”和“造”的動作發(fā)出者,所以“他們”是施事主語。在具體標(biāo)注中,本文使用符號n對連動詞施事主語進(jìn)行標(biāo)注,使用符號v對連動詞進(jìn)行標(biāo)注。

圖2 標(biāo)注示例Fig.2 Annotation examples

②在施事主語的標(biāo)注中,若主語部分為“量詞+名詞”“形容詞+名詞”“名詞+名詞”等,則只標(biāo)注主語的中心詞。例如,“兩只老虎”“兇猛的老虎”“東北老虎”都只標(biāo)注“老虎”。如果存在并列的施事主語,則標(biāo)注每一個(gè)主語的中心詞。若不存在主語則不做特殊標(biāo)注。

③在連動詞的標(biāo)注中,只標(biāo)注每個(gè)連動詞的中心詞。例如“砍樹”和“造房子”只標(biāo)注“砍”和“造”;“跳一跳”和“搖一搖”只標(biāo)注第一個(gè)字“跳”和“搖”作為連動詞。

(2)兼語句標(biāo)注方法

兼語結(jié)構(gòu)完整的語法格式可以表示為:“NP1+V1+NP2+V2”。

①在一個(gè)句子中,當(dāng)V1是具有“使令”含義的動詞,V1和V2的關(guān)系是遞進(jìn)式的,V1和V2共享NP2,NP2既是V1的受事賓語也是V2的施事主語時(shí),本文將之標(biāo)注為兼語結(jié)構(gòu)。其中V1、NP2、V2是本文所要標(biāo)注的兼語前動詞、兼語、兼語后動詞。NP1允許省略,NP2不能省略。本文使用符號V1對兼語前的動詞進(jìn)行標(biāo)注,使用符號JY對兼語NP2進(jìn)行標(biāo)注,使用符號V2對兼語后的動詞進(jìn)行標(biāo)注。

②在V1的標(biāo)注中,V1需要滿足兼語結(jié)構(gòu)的語法格式,除此之外,V1的動詞含義應(yīng)具有“使令”“致使”的含義,例如“讓”“使”“令”“請”“要求”等詞。

③在兼語的標(biāo)注中,兼語需要滿足既是V1的受事賓語,又是V2的施事主語,例如圖2例2句子“老師讓大家跑起來”中的“大家”既充當(dāng)前面“讓”的賓語,又是后面“跑”的主語,因此“大家”是兼語,標(biāo)注為JY。如果兼語為名詞短語則只標(biāo)注中心詞,例如“東北老虎”只標(biāo)注中心詞“老虎”。如果兼語是由多個(gè)并列名詞短語或名詞組成,則標(biāo)注每一個(gè)名詞短語或名詞的中心詞。

④在V2的標(biāo)注中,由于V2可以出現(xiàn)在各類復(fù)雜的其他結(jié)構(gòu)中,例如動賓短語、狀中短語、動補(bǔ)短語、連動短語等,因此對于V2的標(biāo)注采取“就近原則”。如果兼語后出現(xiàn)情態(tài)動詞加動詞的結(jié)構(gòu),則將V2標(biāo)注為離兼語較近的情態(tài)動詞;如果兼語后出現(xiàn)補(bǔ)語的情況,則將V2標(biāo)注為兼語后的第一個(gè)動詞。例如“跑起來”中“起來”是“跑”的補(bǔ)語,所以V2只標(biāo)注“跑”。

若兼語結(jié)構(gòu)中出現(xiàn)與連動結(jié)構(gòu)嵌套的形式,則按照本文制定的嵌套標(biāo)注方法進(jìn)行標(biāo)注。

(3)嵌套句標(biāo)注方法

對于句子中既含有兼語結(jié)構(gòu)又含有連動結(jié)構(gòu)但不存在嵌套現(xiàn)象的情況,標(biāo)注如圖2中例3所示。例如句子“如果大家都去看就會讓款式外流”中連動結(jié)構(gòu)“大家都去看”和兼語結(jié)構(gòu)“讓款式外流”雖然處在同一個(gè)小句中,但兩個(gè)結(jié)構(gòu)彼此之間相互獨(dú)立,不存在干擾,因此不做特殊處理。對于存在嵌套情況的句子,本文做出如下標(biāo)注規(guī)范:

①前兼語后連動情況,即兼語V2為連動結(jié)構(gòu)。如圖2中例4“請您坐在這兒看報(bào)紙”所示,“坐”和“看”既屬于連動詞又是兼語的V2部分,這種情況的嵌套是連動結(jié)構(gòu)包含在兼語結(jié)構(gòu)中,因此將連動結(jié)構(gòu)全部標(biāo)注為嵌套形式,即在原有的兼語標(biāo)注后面使用符號“|”連接連動結(jié)構(gòu)的相關(guān)標(biāo)簽。

②前連動后兼語情況,即連動句第二個(gè)動詞短語為兼語結(jié)構(gòu)。如圖2中例5“把新娘領(lǐng)來讓我看看”所示,這種情況是兼語與連動產(chǎn)生交集,動詞“讓”既是前面連動結(jié)構(gòu)中的最后一個(gè)連動詞v,又是后面兼語結(jié)構(gòu)中的兼語動詞V1,而其他成分都只有一種“身份”,因此只需將該動詞標(biāo)注為嵌套形式,使用符號“|”將它的兩種“身份”進(jìn)行拼接。

③前連動中兼語后連動情況,即連動句第二個(gè)動詞為兼語結(jié)構(gòu)、同時(shí)兼語結(jié)構(gòu)的V2又由連動結(jié)構(gòu)組成。如圖2例6“又掏出20元錢讓他打的回家”所示,“掏出20元錢讓”按照前連動后兼語情況標(biāo)注,“他打的回家”按照前兼語后連動情況標(biāo)注,這里不再贅述。

④前兼語后兼語情況,即前一個(gè)兼語結(jié)構(gòu)中的V2同時(shí)又是后一個(gè)兼語結(jié)構(gòu)的V1。如圖2中例7“她央求父母約請同學(xué)到山上野營”所示,該句可以拆分為兩個(gè)兼語結(jié)構(gòu),分別是“央求父母約請”和“約請同學(xué)到山上野營”。第一個(gè)兼語“父母”的V2“約請”充當(dāng)?shù)诙€(gè)兼語“同學(xué)”的V1。對于該情況,本文將出現(xiàn)在第一個(gè)兼語結(jié)構(gòu)中的V2(約請)忽略,將其標(biāo)注為第二個(gè)兼語結(jié)構(gòu)的V1。

⑤前兼語中連動后兼語情況,如圖2例8“列寧常常派人去請他來談天”,該句可以拆分為兩個(gè)兼語結(jié)構(gòu),分別是“派人去”和“請他來談天”,其中“去”和“請”分別充當(dāng)前一個(gè)兼語的V2和后一個(gè)兼語的V1,同時(shí),“去”和“請”還是一組連動詞,施事主語是“人”。對于這種情況,本文使用符號“|”將前一個(gè)連動詞和前一個(gè)兼語的V2進(jìn)行拼接,將后一個(gè)連動詞與后一個(gè)兼語的V1進(jìn)行拼接。

2.2 語料庫統(tǒng)計(jì)

根據(jù)以上規(guī)范,選取了小學(xué)AMR語料、微博AMR語料、哈工大語料、清華樹庫語料對兼語句和連動句進(jìn)行標(biāo)注??偣矘?biāo)注了11 647個(gè)句子作為本文實(shí)驗(yàn)的V+V原始數(shù)據(jù)集,其中各類句子的數(shù)量統(tǒng)計(jì)情況如表1所示。表中只含有兼語或只含有連動結(jié)構(gòu)的句子是指句子中只出現(xiàn)同一類別的結(jié)構(gòu),也稱其為只含有單一結(jié)構(gòu)句子。含兩種結(jié)構(gòu)但不嵌套是指該句子同時(shí)出現(xiàn)了兼語結(jié)構(gòu)和連動結(jié)構(gòu),但是這兩個(gè)結(jié)構(gòu)分別位于句子的不同部分,因此沒有產(chǎn)生嵌套關(guān)系。表2展示了V+V語料中標(biāo)注的標(biāo)簽數(shù)量統(tǒng)計(jì)情況。

表1 語料句子類別統(tǒng)計(jì)Table 1 Statistics of sentence categories in Corpus

表2 語料標(biāo)簽統(tǒng)計(jì)Table 2 Corpus label statistics

3 模型設(shè)計(jì)

本文將中文V+V序列關(guān)系識別建模成一個(gè)序列標(biāo)注問題,采用基于BiLSTM-CRF和多頭注意力機(jī)制相結(jié)合的方法進(jìn)行V+V結(jié)構(gòu)識別。模型架構(gòu)圖如圖3所示。

圖3 模型架構(gòu)圖Fig.3 Model architecture

本文引入了一種基于多層雙向Transformer結(jié)構(gòu)的語言模型Bert,它能夠根據(jù)上下文的語義動態(tài)調(diào)整詞向量來緩解多義詞問題,同時(shí)增強(qiáng)了對文本特征的抽取能力。為了防止訓(xùn)練過程出現(xiàn)過擬合,在最終的詞向量進(jìn)入BiLSTM之前,經(jīng)過一個(gè)丟棄概率為0.5的dropout層。

LSTM-CRF作為序列標(biāo)注任務(wù)的主流框架,雖然取得了很好的性能并被廣泛使用,但經(jīng)過LSTM編碼獲得的是基于全局的特征,忽略了對于局部特征的提取,存在局部依賴性以及受限于序列化特征學(xué)習(xí)的缺點(diǎn)。目前也有很多方法基于BiLSTM-CRF框架與注意力機(jī)制的簡單結(jié)合的模型,仍然存在局部依賴性、位置信息獲取不準(zhǔn)確等缺陷。為了同步建模句子中每個(gè)詞的局部上下文語義與全局語義,有效彌補(bǔ)BiLSTM對局部特征獲取不足的問題,本文使用基于多頭注意力機(jī)制的BiLSTM-CRF序列標(biāo)注模型。

具體來說,給定句子S={W1,W2,…,Wn},其中Wi表示句中的一個(gè)字,該句子首先經(jīng)過Bert進(jìn)行編碼,然后傳入LSTM層計(jì)算第t時(shí)刻對應(yīng)的LSTM的狀態(tài)值。由于單向的LSTM無法同時(shí)獲取上下文兩個(gè)方向的信息,為了更好地獲得前項(xiàng)和后項(xiàng)的上下文信息,本文使用雙向LSTM模型,將經(jīng)過前向LSTM得到的隱藏變量和經(jīng)過后向LSTM得到的隱藏變量進(jìn)行拼接,得到整體的隱藏變量作為輸出Ht,計(jì)算公式為:

然后根據(jù)文獻(xiàn)[14]的多頭注意力機(jī)制建模句子中任意兩個(gè)字之間的語義關(guān)系,計(jì)算來自上一層的第i個(gè)單詞的隱狀態(tài)Hi的單頭注意力權(quán)重,得到每個(gè)字應(yīng)關(guān)注的全局語義。具體計(jì)算過程如下:

其中,WiQ、Wik和WiV分別是需要訓(xùn)練的權(quán)重參數(shù),表示平滑項(xiàng),d為Hi的維度數(shù)。然后將單頭注意力單元進(jìn)行拼接,再進(jìn)行1次線性變換,將得到的值作為多頭注意力的結(jié)果,計(jì)算公式為:

其中,Wout為權(quán)重參數(shù),Z為拼接數(shù)量,即頭的個(gè)數(shù),這里設(shè)置為8。對于每一次計(jì)算,單頭注意力輸出之間的參數(shù)不進(jìn)行共享??紤]到序列標(biāo)注任務(wù)中標(biāo)簽之間一般存在依賴關(guān)系,尤其是對于兼語和連動的識別問題,兼語動詞V1一定出現(xiàn)在兼語中心詞JY之前,V2一定出現(xiàn)在兼語中心詞JY之后,連動詞之間一定是連續(xù)出現(xiàn)的,這種依賴關(guān)系無法直接使用分類器進(jìn)行建模。由于條件隨機(jī)場模型能夠?qū)?biāo)簽之間的關(guān)系進(jìn)行建模,得到全局最優(yōu)的標(biāo)注序列,而不是單獨(dú)地預(yù)測每一個(gè)標(biāo)簽,因此在模型最后一層利用CRF進(jìn)行標(biāo)簽序列的預(yù)測。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集以及實(shí)驗(yàn)設(shè)置

本文的實(shí)驗(yàn)語料是按照8∶1∶1的比例將數(shù)據(jù)集進(jìn)行切分,得到訓(xùn)練集、開發(fā)集和測試集。實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)如表3所示,其中V+V原始數(shù)據(jù)集是由本文所標(biāo)注的含有兼語、連動結(jié)構(gòu),以及嵌套結(jié)構(gòu)的11 647個(gè)句子構(gòu)成。兼語語料庫是由文獻(xiàn)[7]所構(gòu)建的針對兼語結(jié)構(gòu)邊界識別的語料庫。單一結(jié)構(gòu)數(shù)據(jù)集是在V+V原始數(shù)據(jù)集的基礎(chǔ)上,抽取只含有單一結(jié)構(gòu)的句子構(gòu)成,其中有3 655個(gè)兼語句子和6 266個(gè)連動句子,不包括含有不同類別結(jié)構(gòu)的句子和含有嵌套結(jié)構(gòu)的句子。

表3 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)Table 3 Experimental data statistics

本文實(shí)驗(yàn)使用基于Python3.8編程語言開發(fā),采用tensorflow-gpu1.14.0進(jìn)行模型的實(shí)現(xiàn)。在訓(xùn)練過程中,模型均使用Adam算法進(jìn)行優(yōu)化。主要超參數(shù)設(shè)置如表4所示。

表4 參數(shù)設(shè)置Table 4 Parameter setting

本文采用的評價(jià)指標(biāo)分別為精確率(用P表示)、召回率(用R表示)以及F1值,保留在開發(fā)集上預(yù)測結(jié)果最佳的模型進(jìn)行預(yù)測。

4.2 V+V序列識別對比實(shí)驗(yàn)

本節(jié)在V+V原始數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。為了評估本文提出的基于多頭注意力的Bert-BiLSTM-CRF模型在V+V序列關(guān)系識別中的效果,分別與BiLSTM-CRF、BiLSTM-MultiHead Attention-CRF、Bert-BiLSTM-CRF

進(jìn)行實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果如表5所示。本文模型在測試集中的標(biāo)簽識別結(jié)果如表6所示。

表5 V+V序列識別實(shí)驗(yàn)結(jié)果Table 5 V+V recognition experimental results單位:%

表6 各類標(biāo)簽識別效果Table 6 Recognition effect of various labels

從對比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文提出的模型在識別V+V序列關(guān)系的效果上要優(yōu)于其他模型,精確率為91.85%,召回率為92.38%,F(xiàn)1值為92.12%,能夠有效對V+V結(jié)構(gòu)進(jìn)行建模。

自主學(xué)習(xí)是學(xué)生在學(xué)習(xí)活動中自我決定、自我選擇、自我調(diào)控、自我評價(jià)反思,發(fā)展自身主體性的過程。自主學(xué)習(xí)具有能動性,獨(dú)立性和異步性三個(gè)基本特點(diǎn)。中職學(xué)生自主合作學(xué)習(xí)能力的培養(yǎng)具有重要意義。通過學(xué)生自主地分析、探索、實(shí)踐等實(shí)現(xiàn)學(xué)習(xí)目標(biāo),從中不斷提升自主學(xué)習(xí)能力成為一名真正社會所需的技能型人才。

本文模型相比于Bert-BiLSTM-CRF模型提高了0.91個(gè)百分點(diǎn)的分?jǐn)?shù),BiLSTM-MHAttention-CRF模型相比于BiLSTM-CRF模型提高了1.71個(gè)百分點(diǎn),都表明了多頭注意力機(jī)制的作用,能夠捕獲遠(yuǎn)距離的依賴信息,并抓取最相關(guān)的信息,給重要的信息詞分配更高的權(quán)重。BiLSTM-CRF模型相比于Bert-BiLSTM-CRF模型,效果低了9.84個(gè)百分點(diǎn),本文分析是因?yàn)锽ert中的Transformer機(jī)制采用注意力機(jī)制提取文本特征,這樣雖然解決了文本的長距離依賴問題,但它難以捕捉句子中字詞的位置方向信息,因此Bert-BiLSTM-CRF模型對于連動結(jié)構(gòu)以及賓語從句這種與位置方向有關(guān)的結(jié)構(gòu)學(xué)習(xí)能力較差。本文模型獲得了最優(yōu)的性能,是因?yàn)楦玫匕l(fā)揮了Bert、BiLSTM、多頭注意力機(jī)制之間的互補(bǔ)作用。

同時(shí),表6展示了本文的最佳模型在測試集中的具體結(jié)果,包括V+V結(jié)構(gòu)內(nèi)部成分的標(biāo)簽識別效果以及相應(yīng)標(biāo)簽的數(shù)量統(tǒng)計(jì)情況??梢钥闯黾嬲Z結(jié)構(gòu)中的V1識別效果最好,其F1值為97.24%,其次是兼語JY,其識別的F1值為93.44%,兼語結(jié)構(gòu)中的V2相比于V1識別效果較差,F(xiàn)1值為91.58%。根據(jù)對語料庫的分析發(fā)現(xiàn),兼語中的V2多存在于連動結(jié)構(gòu)或其他復(fù)雜結(jié)構(gòu)中,因此模型對V2的識別能力較弱。連動結(jié)構(gòu)中的主語n和連動詞v識別效果差距不大,分別達(dá)到了91.21%和92.01%,但連動主語n的P值較低,只有89.37%,可能原因是標(biāo)簽數(shù)量相對于連動詞差距較大,數(shù)量較少,容易產(chǎn)生過擬合現(xiàn)象。對于兼語連動嵌套標(biāo)簽,由于出現(xiàn)的頻率較少,模型難以學(xué)到其特征,所以識別效果會因標(biāo)簽數(shù)量的降低而變差。

4.3 方法性能對比實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文模型的性能,本文和現(xiàn)有的相關(guān)工作的識別結(jié)果進(jìn)行了對比。侯文惠等[7]面向中文AMR標(biāo)注體系構(gòu)建了一個(gè)兼語語料庫,設(shè)計(jì)了添加詞典信息的LA-BiLSTM-CRF模型,并在該語料庫上進(jìn)行兼語結(jié)構(gòu)邊界的識別研究,實(shí)驗(yàn)結(jié)果F1值為86.06%。分別在文獻(xiàn)[7]構(gòu)建的兼語語料庫和本文所構(gòu)建的V+V語料庫上進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表7所示。

表7 相關(guān)工作實(shí)驗(yàn)結(jié)果比較Table 7 Comparison of experimental results單位:%

通過在兼語語料庫上的實(shí)驗(yàn)結(jié)果比較可以發(fā)現(xiàn),本文的模型在兼語結(jié)構(gòu)邊界識別任務(wù)上的F1值達(dá)到91.95%,相較于文獻(xiàn)[7]的F1值高出了5.89個(gè)百分點(diǎn)。

通過在V+V數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果比較發(fā)現(xiàn),本文模型在V+V序列關(guān)系識別的實(shí)驗(yàn)結(jié)果比文獻(xiàn)[7]的模型高出了13.54個(gè)百分點(diǎn),結(jié)果表明了文獻(xiàn)[7]的方法僅適用于單一類別的兼語結(jié)構(gòu)識別,不適用于標(biāo)簽類別數(shù)量較多、結(jié)構(gòu)之間類似的“V+V”數(shù)據(jù)集,因此具有局限性,而本文提出的模型可以同時(shí)識別出兼語結(jié)構(gòu)、連動結(jié)構(gòu)及其嵌套結(jié)構(gòu),完成更為復(fù)雜的任務(wù),并且可以取得更高的性能。

4.4 語料對模型性能影響對比實(shí)驗(yàn)

為了探究單獨(dú)學(xué)習(xí)一種結(jié)構(gòu)與同時(shí)學(xué)習(xí)多種結(jié)構(gòu)的優(yōu)劣,使用本文提出的模型在單一結(jié)構(gòu)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。本節(jié)共設(shè)置了3個(gè)實(shí)驗(yàn),雖然均使用相同的訓(xùn)練集、開發(fā)集、測試集,但是在實(shí)驗(yàn)的過程中針對語料標(biāo)簽做出了以下區(qū)分:

實(shí)驗(yàn)Ⅰ:探究只學(xué)習(xí)連動結(jié)構(gòu)的模型性能,因此在實(shí)驗(yàn)過程中,將單一結(jié)構(gòu)數(shù)據(jù)集中的關(guān)于兼語結(jié)構(gòu)的相關(guān)標(biāo)簽全部設(shè)置為Other。在測試集中評價(jià)連動結(jié)構(gòu)識別效果。

實(shí)驗(yàn)Ⅱ:探究只學(xué)習(xí)兼語結(jié)構(gòu)的模型性能,因此在實(shí)驗(yàn)過程中,將單一結(jié)構(gòu)數(shù)據(jù)集中的關(guān)于連動結(jié)構(gòu)的相關(guān)標(biāo)簽全部設(shè)置為Other。在測試集中評價(jià)兼語結(jié)構(gòu)識別效果。

實(shí)驗(yàn)Ⅲ:探究在單一結(jié)構(gòu)數(shù)據(jù)集上同時(shí)學(xué)習(xí)兼語結(jié)構(gòu)和連動結(jié)構(gòu)的模型性能,在測試集中評價(jià)連動結(jié)構(gòu)和兼語結(jié)構(gòu)的識別效果。

實(shí)驗(yàn)結(jié)果如表8所示,可以看出實(shí)驗(yàn)Ⅰ和實(shí)驗(yàn)Ⅱ中對連動識別和兼語識別的效果比實(shí)驗(yàn)Ⅲ的結(jié)果分別低了1.41和1.47個(gè)百分點(diǎn)。對于只學(xué)習(xí)了連動結(jié)構(gòu)的模型,無法很好地區(qū)分兼語結(jié)構(gòu)的干擾,同樣只學(xué)習(xí)兼語結(jié)構(gòu)的模型也不能很好地區(qū)分連動結(jié)構(gòu)的干擾。例如句子“王聚生集合全團(tuán)干部開現(xiàn)場會。”,由于句法結(jié)構(gòu)類似,只學(xué)習(xí)了兼語結(jié)構(gòu)的模型,會很容易地將該句的“集合”“干部”“開”分別標(biāo)注成兼語結(jié)構(gòu)中的兼語動詞V1、兼語JY以及兼語動詞V2,但其實(shí)“集合”和“開”是由施事主語“王聚生”發(fā)出的連續(xù)動作,屬于連動詞。而同時(shí)學(xué)習(xí)了兩種結(jié)構(gòu)的模型便能夠較好地解決因?yàn)榻Y(jié)構(gòu)類似而識別錯誤的情況。由于本節(jié)實(shí)驗(yàn)語料抽取的是單一結(jié)構(gòu)句子,沒有包含嵌套結(jié)構(gòu)的復(fù)雜句子,因此整體實(shí)驗(yàn)結(jié)果比在V+V原始數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果有所提高。

表8 語料類型對實(shí)驗(yàn)效果的影響對比Table 8 Experimental results of different corpus types單位:%

5 結(jié)束語

本文的主要工作包括3個(gè)方面:(1)提出包含嵌套結(jié)構(gòu)的V+V句子標(biāo)注規(guī)范;(2)根據(jù)設(shè)計(jì)的嵌套結(jié)構(gòu)標(biāo)注規(guī)范構(gòu)建了V+V語料庫;(3)提出基于BiLSTM-CRF和多頭注意力機(jī)制的模型來對V+V序列關(guān)系進(jìn)行識別。具體來說,區(qū)別于以往的對單一結(jié)構(gòu)的識別工作,本文可以同時(shí)識別兼語結(jié)構(gòu)中的兼語動詞V1、V2,以及兼語的中心詞、連動結(jié)構(gòu)中的施事主語和連動詞,并且解決了V+V序列中的嵌套結(jié)構(gòu)識別問題。在測試集語料上實(shí)驗(yàn)結(jié)果的F1值達(dá)到92.12%。

神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制在結(jié)構(gòu)識別中仍然具有很大的提升空間,本文的工作在詞嵌入層僅使用Bert表示詞向量,沒有添加其他的外部知識,后續(xù)工作可以嘗試在神經(jīng)網(wǎng)絡(luò)中加入動詞論元框架的知識,輔助模型的學(xué)習(xí)。除此之外嘗試對兼語結(jié)構(gòu)類別進(jìn)行分類,并對連動詞之間的語義關(guān)系進(jìn)行分類,從而提升漢語語義解析及AMR解析的性能。

猜你喜歡
嵌套語料主語
談?wù)勔龑?dǎo)主語從句的連接詞的用法
巧用無靈主語,讓續(xù)寫更靈動
基于嵌套Logit模型的競爭性選址問題研究
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
盤點(diǎn)高考中的特殊句式(二)
青蘋果(2014年2期)2014-04-29 20:31:27
英語中的虛主語“it”和漢語中的虛主語“他”異同之比較
一種基于區(qū)分服務(wù)的嵌套隊(duì)列調(diào)度算法
定襄县| 咸丰县| 英超| 镇沅| 昌宁县| 岳阳市| 翼城县| 汉中市| 岑巩县| 龙泉市| 凤冈县| 涿州市| 绍兴市| 邹平县| 徐闻县| 翁源县| 日照市| 建阳市| 周宁县| 青州市| 赣州市| 桦甸市| 外汇| 习水县| 电白县| 沙河市| 大理市| 通化县| 屏山县| 江源县| 获嘉县| 内江市| 喀喇| 铜陵市| 怀化市| 平安县| 清河县| 南投市| 隆德县| 普定县| 丽江市|