国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合注意力機(jī)制的多策略漢語(yǔ)語(yǔ)義角色標(biāo)注

2021-11-01 02:09萬(wàn)福成車(chē)郭怡
關(guān)鍵詞:句法語(yǔ)料短語(yǔ)

朱 傲,萬(wàn)福成,*,馬 寧,車(chē)郭怡

(1.西北民族大學(xué)中國(guó)民族語(yǔ)言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030;2.西北民族大學(xué)甘肅省民族語(yǔ)言智能處理重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030)

語(yǔ)義角色標(biāo)注(semantic role labeling,SRL)的目的是識(shí)別出句子序列中與核心成分相關(guān)的所有論元,例如施事、受事等;為后期進(jìn)行深層次語(yǔ)義分析的研究提供幫助,同時(shí)在自然語(yǔ)言處理的多種應(yīng)用領(lǐng)域具有廣泛的實(shí)用價(jià)值.

SRL問(wèn)題依賴(lài)于句法解析,根據(jù)句法解析的方式不同,可以分為基于短語(yǔ)結(jié)構(gòu)和基于依存句法的SRL.其中,在依存句法分析中,謂語(yǔ)是核心成分,這點(diǎn)和SRL在一定程度上是相通的,同時(shí)依存句法可以表達(dá)詞語(yǔ)間的依賴(lài)關(guān)系,所以相比于短語(yǔ)結(jié)構(gòu)句法分析,依存句法可以為SRL提供更加豐富的語(yǔ)言學(xué)信息.2004年,Hacioglu[1]最先基于依存句法對(duì)漢語(yǔ)SRL問(wèn)題進(jìn)行研究,并且在公共數(shù)據(jù)集的評(píng)測(cè)中取得優(yōu)秀成績(jī).但是當(dāng)時(shí)句法解析精度較低,嚴(yán)重限制了模型的標(biāo)注性能.針對(duì)這個(gè)問(wèn)題,Jin等[2]提出只利用高質(zhì)量的句法分析結(jié)果進(jìn)行漢語(yǔ)SRL的方法,取得一定效果,但是并沒(méi)有完全解決SRL對(duì)句法解析精度依賴(lài)的問(wèn)題;與此同時(shí),國(guó)內(nèi)學(xué)者也基于依存句法分析對(duì)SRL展開(kāi)研究[3-5].雖然取得一定進(jìn)步,但是并不能滿(mǎn)足當(dāng)前需求,因此也有許多學(xué)者嘗試將更多語(yǔ)言學(xué)的線(xiàn)索用于提升SRL的性能.邵艷秋等[6]基于北京大學(xué)的漢語(yǔ)語(yǔ)義詞典(CSD),引入了配價(jià)數(shù)、主客體語(yǔ)義類(lèi)等詞匯語(yǔ)義特征來(lái)進(jìn)行SRL研究,所有角色標(biāo)注的總體評(píng)價(jià)F1值比單純使用句法特征的上升了1.11%;李國(guó)臣等[7]將基于同義詞詞林語(yǔ)義資源庫(kù)構(gòu)建新的特征加入條件隨機(jī)場(chǎng)(CRF)模型中,新構(gòu)建的詞林信息特征顯著提高了SRL的性能.上述基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的研究方法,盡管對(duì)于特征融合的研究具有深刻的借鑒意義,但均為人工抽取特征,工作繁瑣沉重,抽取出的特征稀疏、模型復(fù)雜且易過(guò)擬合.

為融合句子中所有詞語(yǔ)相關(guān)性的隱藏狀態(tài).圖1 融合注意力機(jī)制的SRL模型結(jié)構(gòu)Fig.1 SRL model structure incorporating attention mechanism

隨著深度學(xué)習(xí)技術(shù)的發(fā)展以及計(jì)算機(jī)計(jì)算能力的提升,借助神經(jīng)網(wǎng)絡(luò)模型的超強(qiáng)非線(xiàn)性擬合能力,可實(shí)現(xiàn)特征信息句子的自動(dòng)提取,同時(shí)模型可以處理更長(zhǎng)距離的語(yǔ)義依賴(lài),較好地兼顧上下文信息.利用深度學(xué)習(xí)方法進(jìn)行SRL時(shí),通常將其視作序列的標(biāo)簽分類(lèi)任務(wù).2008年,Collobert等[8]首次運(yùn)用簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)進(jìn)行SRL,隨后,Socher等[9]采用神經(jīng)網(wǎng)絡(luò)單元與樹(shù)結(jié)構(gòu)編碼器相結(jié)合的方式,Yin等[10]采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行SRL.但上述方法無(wú)法解決網(wǎng)絡(luò)層數(shù)增加所帶來(lái)的梯度爆炸現(xiàn)象,而且模型不能很好地理解長(zhǎng)句的語(yǔ)義信息.長(zhǎng)短時(shí)記憶(LSTM)的出現(xiàn),基本解決了上述問(wèn)題.Wang等[11]使用雙向LSTM(BiLSTM)模型,在不引入任何其他資源的情況下,取得了當(dāng)時(shí)最好的結(jié)果;張苗苗等[12]引入門(mén)控機(jī)制對(duì)詞向量進(jìn)行調(diào)整,同時(shí)擴(kuò)展BiLSTM的深度以獲取更深層次的語(yǔ)義信息,最終F1值可以達(dá)到79.53%.但對(duì)于SRL任務(wù),相鄰標(biāo)簽之間具有約束關(guān)系,BiLSTM無(wú)法學(xué)到該關(guān)系,不合理標(biāo)簽被大量預(yù)測(cè)的現(xiàn)象限制了模型性能的進(jìn)一步提升.針對(duì)這種情況,Huang等[13]提出將BiLSTM和CRF結(jié)合,在CRF層引入標(biāo)簽轉(zhuǎn)移概率矩陣,專(zhuān)門(mén)學(xué)習(xí)標(biāo)簽間的約束關(guān)系.

近些年,取得較好成績(jī)的漢語(yǔ)SRL系統(tǒng)大部分基于BiLSTM-CRF序列標(biāo)注模型.受到機(jī)器翻譯模型中注意力機(jī)制的啟發(fā),本文嘗試在BiLSTM-CRF模型中融入注意力機(jī)制,模型中添加注意力機(jī)制層計(jì)算序列中所有詞語(yǔ)的關(guān)聯(lián)程度,為進(jìn)一步提升序列標(biāo)注模型性能,并提出將詞性、依存句法和短語(yǔ)結(jié)構(gòu)句法等多種語(yǔ)言學(xué)特征同時(shí)融入模型.

1 模型構(gòu)建

本文模型構(gòu)建的工作從以下兩點(diǎn)展開(kāi):1) 使用自然語(yǔ)言工具包對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行語(yǔ)言學(xué)特征的擴(kuò)充;2) 搭建實(shí)驗(yàn)需要的模型.

1.1 特征提取

本文特征提取從基于依存關(guān)系和短語(yǔ)結(jié)構(gòu)兩方面入手.對(duì)于依存關(guān)系特征,借助開(kāi)源工具包LTP(http:∥www.ltp-cloud.com/)[14]對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行依存句法分析,最終解析出16種依存關(guān)系.對(duì)于短語(yǔ)句法分析,借助開(kāi)源工具包Berkeley Parser(http:∥code.google.com/p/berkeleyparser/)對(duì)實(shí)驗(yàn)使用的原始語(yǔ)料進(jìn)行成分句法分析,共解析出24種成分句法關(guān)系.

1.2 模型結(jié)構(gòu)

本文選取如圖1所示的模型結(jié)構(gòu)作為SRL模型,記為BiLSTM-attention-CRF模型.首先將句子中的詞及其附加特征映射成詞向量送入BiLSTM網(wǎng)絡(luò)中;BiLSTM從已標(biāo)注完成的語(yǔ)料中進(jìn)行特征提??;然后通過(guò)注意力機(jī)制融合句中所有詞語(yǔ)信息,生成新的融合全局信息的特征;最后使用CRF,消除非法標(biāo)簽被預(yù)測(cè)的現(xiàn)象,提高預(yù)測(cè)準(zhǔn)確率.

1.2.1 輸入層

本文采取預(yù)訓(xùn)練詞向量,在SRL模型訓(xùn)練的同時(shí)對(duì)預(yù)訓(xùn)練的詞向量進(jìn)行微調(diào).首先選取訓(xùn)練詞向量的語(yǔ)料,訓(xùn)練語(yǔ)料來(lái)源于人民日?qǐng)?bào);其次根據(jù)人民日?qǐng)?bào)語(yǔ)料的特點(diǎn)(數(shù)據(jù)量較小),選取連續(xù)詞袋(CBOW)模型訓(xùn)練詞向量,詞向量維度為300維;再次根據(jù)CPB(Chinese Prop Bank)實(shí)驗(yàn)語(yǔ)料選取出現(xiàn)頻率不低于3次的詞作為CPB詞表.最后根據(jù)訓(xùn)練好的人民日?qǐng)?bào)詞向量,制作CPB詞表,對(duì)于在CPB詞表中出現(xiàn),但不在人民日?qǐng)?bào)詞表中出現(xiàn)的詞,隨機(jī)賦予符合正態(tài)分布的值.

將句子中的詞以及附加的語(yǔ)言學(xué)特征轉(zhuǎn)換成的詞向量表示拼接送入下一層.

1.2.2 BiLSTM層

(1)

1.2.3 注意力層

注意力層可以生成新的特征,這個(gè)特征融合了句子序列中所有詞語(yǔ)的信息,并且根據(jù)句子中不同詞語(yǔ)之間的關(guān)聯(lián)程度不同,分配不同的注意力系數(shù).其訓(xùn)練過(guò)程可以理解為BiLSTM層輸出的隱藏層狀態(tài){h0,h1,…,hn-1}經(jīng)過(guò)注意力層的轉(zhuǎn)換,生成融合句子中所有詞語(yǔ)相關(guān)性的新的隱藏層狀態(tài){h′0,h′1,…,h′n-1},然后將新的隱藏層狀態(tài)輸入CRF層.

1.2.4 CRF層

本文實(shí)驗(yàn)語(yǔ)料通過(guò)BIOES(beginning-inside-outside-end-singleton)標(biāo)記方法表達(dá)SRL中相鄰標(biāo)簽之間的聯(lián)系,B代表語(yǔ)義角色的開(kāi)始,I代表語(yǔ)義角色的中間部分,E代表語(yǔ)義角色的結(jié)束,S代表單獨(dú)一個(gè)語(yǔ)義角色,O代表非語(yǔ)義角色部分.例如在本文標(biāo)注體系中,標(biāo)簽I-ARG2之前只能是B-ARG2或I-ARG2,而標(biāo)簽B-ARG2之后只能是I-ARG2、O、B-X或者S-X,其余的標(biāo)簽都是不應(yīng)該被預(yù)測(cè)的.針對(duì)這種情況,CRF層通過(guò)引入概率轉(zhuǎn)移矩陣的方式學(xué)習(xí)到相鄰詞語(yǔ)之間的標(biāo)簽聯(lián)系,提升模型標(biāo)注性能.即CRF層對(duì)句子序列中各標(biāo)簽的之間的轉(zhuǎn)移概率進(jìn)行建模,然后在所有的標(biāo)簽序列中,選取一條得分最高的路徑作為最優(yōu)標(biāo)簽序列.最優(yōu)標(biāo)簽序列的得分公式為

(2)

其中,Aij表示標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的概率,Pij代表句子序列中第i個(gè)詞被預(yù)測(cè)為第j個(gè)語(yǔ)義角色的概率,θ是模型中可學(xué)習(xí)的參數(shù),x是句子序列,y是句子序列對(duì)應(yīng)的標(biāo)簽序列.對(duì)于非法標(biāo)簽之間的轉(zhuǎn)移概率初值設(shè)為-10 000,表示該路徑不被預(yù)測(cè).

2 實(shí) 驗(yàn)

本文實(shí)驗(yàn)以公開(kāi)的CPB語(yǔ)料集為基礎(chǔ),對(duì)其篩選剔除,建立SRL語(yǔ)料庫(kù)作為本文實(shí)驗(yàn)的原始語(yǔ)料;搭建3組模型:BiLSTM、BiLSTM-CRF以及BiLSTM-attention-CRF;在模型訓(xùn)練階段,依次向語(yǔ)料中添加新特征,逐步對(duì)基礎(chǔ)模型進(jìn)行優(yōu)化訓(xùn)練,并進(jìn)行模型測(cè)評(píng),分析對(duì)比得到相關(guān)實(shí)驗(yàn)結(jié)論.

2.1 實(shí)驗(yàn)語(yǔ)料及參數(shù)設(shè)置

本文實(shí)驗(yàn)采用的CPB數(shù)據(jù)集,訓(xùn)練集共有17 821 句,測(cè)試集共有1 115句.對(duì)實(shí)驗(yàn)語(yǔ)料中句子長(zhǎng)度構(gòu)成進(jìn)行簡(jiǎn)單分析統(tǒng)計(jì),其中組成句子詞語(yǔ)個(gè)數(shù)大于20個(gè)的稱(chēng)為長(zhǎng)句,約占78%;小于20個(gè)但大于10個(gè)的稱(chēng)為中長(zhǎng)句,約占18%,小于10個(gè)詞語(yǔ)的稱(chēng)為短句,約占4%.實(shí)驗(yàn)?zāi)P褪褂玫某瑓?shù)詞向量維度設(shè)為300,隱藏層維度設(shè)為200,失活率設(shè)為0.5,學(xué)習(xí)率設(shè)為0.001.

2.2 實(shí)驗(yàn)對(duì)比

實(shí)驗(yàn)1:測(cè)試對(duì)比經(jīng)過(guò)基礎(chǔ)語(yǔ)料訓(xùn)練的3組模型性能.本次實(shí)驗(yàn)使用的語(yǔ)料是在原始語(yǔ)料中添加詞性特征組成的基礎(chǔ)語(yǔ)料.詞性可以幫助模型識(shí)別語(yǔ)義角色,例如,名詞在句中大概率作為施事或者受事出現(xiàn),動(dòng)詞通常作為核心成分.實(shí)驗(yàn)1的測(cè)試結(jié)果如表1所示.

表1 基礎(chǔ)語(yǔ)料中3組模型性能的測(cè)試對(duì)比Tab.1 Comparison of performance test of three groups of models in basic corpus

從表1可以看出,BiLSTM-attention-CRF模型的各項(xiàng)指標(biāo)均為最優(yōu),相對(duì)于BiLSTM其準(zhǔn)確率、召回率和F1值分別提高了4.36,6.94和5.72個(gè)百分點(diǎn).兩種模型性能有明顯差距.表2為例句“去年實(shí)現(xiàn)進(jìn)出口總值達(dá)一千零九十美元”的標(biāo)注結(jié)果.可見(jiàn),未加入CRF預(yù)測(cè)標(biāo)簽時(shí),“去年”的標(biāo)注結(jié)果出錯(cuò),而加入CRF預(yù)測(cè)標(biāo)簽后,例句的標(biāo)注結(jié)果與正確標(biāo)簽一致,因此本文接下來(lái)的實(shí)驗(yàn)使用加入CRF預(yù)測(cè)標(biāo)簽的BiLSTM-CRF和BiLSTM-attention-CRF兩種模型進(jìn)行對(duì)比.

表2 是否加入CRF的標(biāo)注結(jié)果Tab.2 Result with and without CRF annotation

實(shí)驗(yàn)2:在基礎(chǔ)語(yǔ)料中分別添加依存句法特征、短語(yǔ)結(jié)構(gòu)句法特征、依存句法特征+短語(yǔ)句法特征,組成3組訓(xùn)練語(yǔ)料,測(cè)試對(duì)比不同的句法結(jié)構(gòu)對(duì)模型性能的影響.測(cè)試結(jié)果如表3所示,其中將依存句法特征簡(jiǎn)寫(xiě)為Dep,短語(yǔ)結(jié)構(gòu)句法特征簡(jiǎn)寫(xiě)為Phrase.

表3 添加不同句法特征的模型性能對(duì)比Tab.3 Performance comparison of models with different syntactic features

單獨(dú)采用準(zhǔn)確率或召回率作為評(píng)價(jià)指標(biāo)不能客觀反應(yīng)模型的綜合性能,F(xiàn)1值同時(shí)結(jié)合準(zhǔn)確率和召回率,能較為客觀地反應(yīng)模型綜合性能,故本實(shí)驗(yàn)主要通過(guò)對(duì)測(cè)試結(jié)果的F1值進(jìn)行對(duì)比分析.分析結(jié)果發(fā)現(xiàn),融合3種特征的模型F1值都出現(xiàn)了顯著提升.其中只融合依存句法特征和只融合短語(yǔ)句法結(jié)構(gòu)特征對(duì)標(biāo)注模型的綜合性能提升幅度類(lèi)似;相比于只融合其中一種特征的模型,融合了依存句法特征+短語(yǔ)句法結(jié)構(gòu)特征的模型F1值提升最大.但是融合兩種特征的模型綜合性能提升幅度放緩,并沒(méi)有明顯高于只融合一種句法特征的模型性能.分析可能原因是過(guò)多的語(yǔ)言學(xué)線(xiàn)索,雖然為模型提供充足的語(yǔ)義信息,同時(shí)也降低了模型的收斂能力,訓(xùn)練難度增加,沒(méi)有起到一加一大于二的實(shí)驗(yàn)效果.

實(shí)驗(yàn)3:為驗(yàn)證“融合兩種特征的模型綜合性能提升幅度放緩,可能是因過(guò)多的語(yǔ)言學(xué)線(xiàn)索,增加模型收斂難度”的想法.實(shí)驗(yàn)探索池化后的多特征組是否可以進(jìn)一步提升模型性能.分別采取平均池化(average pooing,AvgPool)和最大池化(max pooling,MaxPool)對(duì)附加的語(yǔ)言學(xué)特征組采樣提取,其中池化域大小設(shè)為3.表4是不同池化技術(shù)對(duì)模型性能提升的對(duì)比結(jié)果.

表4 不同池化技術(shù)對(duì)模型性能提升對(duì)比Tab.4 Comparison of model performance with different pool technologies

實(shí)驗(yàn)結(jié)果表明:與表3的結(jié)果相比,經(jīng)過(guò)MaxPool采樣提取模型的F1值沒(méi)有得到提升,反而略有下降.經(jīng)過(guò)AvgPool采樣提取的模型F1值得到提升.因?yàn)橄啾扔贛axPool選取池化域中最大特征,AvgPool對(duì)池化域內(nèi)所有特征求和取平均可以保留更多語(yǔ)言學(xué)信息,同時(shí)還能減少訓(xùn)練參數(shù),進(jìn)一步提升模型性能.另外從F1值來(lái)看,該結(jié)果比文獻(xiàn)[12]的79.53%高出了1.73個(gè)百分點(diǎn).

3 結(jié) 論

本文在基于BiLSTM-attention-CRF模型進(jìn)行漢語(yǔ)SRL時(shí),嘗試在訓(xùn)練語(yǔ)料中融入詞性、依存句法特征以及短語(yǔ)結(jié)構(gòu)句法特征,同時(shí)嘗試采取池化手段對(duì)多特征組采樣.實(shí)驗(yàn)結(jié)果表明,模型中融入注意力機(jī)制可以顯著提升模型效果,同時(shí)通過(guò)針對(duì)性的添加新特征,還能進(jìn)一步提升標(biāo)注準(zhǔn)確率.在未來(lái)的研究工作當(dāng)中,將重點(diǎn)探究對(duì)詞向量選取的進(jìn)一步優(yōu)化以及在模型中融入新的特征.

猜你喜歡
句法語(yǔ)料短語(yǔ)
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
述謂結(jié)構(gòu)與英語(yǔ)句法配置
句法二題
詩(shī)詞聯(lián)句句法梳理
《健民短語(yǔ)》一則
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
信息結(jié)構(gòu)與句法異位
Reliability assessment consideringdependent competing failure process and shifting-threshold