袁 里 馳
(江西財經大學 軟件與物聯網工程學院,南昌 330013)
E-mail:yuanlichi@sohu.com
語義角色標注即識別謂詞和給定謂詞的參數并為其分配語義角色標簽.由于具有對語義信息進行編碼的能力,語義角色標注(SRL)已被應用于自然語言處理的許多任務,例如自動問答、信息提取和機器翻譯等.語義角色與語法緊密相關,因此,傳統的 SRL 方法在很大程度上依賴于句子的句法結構,這些內在的復雜性限制了系統只能基于特定領域.SRL 的傳統方法通常從句子中提取大量手工特征,甚至是它的解析樹,并將這些特征提供給統計分類器.然而傳統方法還存在另外2個主要問題:首先,它們的性能在很大程度上依賴于特征工程,這需要領域知識和繁重的特征提取和選擇工作.其次,雖然設計了復雜的特征,但很難對句子中的長距離依賴進行建模.
深度神經網絡[1-7]能夠自動獲取特征,明顯地降低特征工程的工作量,近年來,它在語言信息處理領域得到了廣泛的應用.Transformers 的雙向編碼器表示(BERT)[8]已變得非常流行,并在最近的 NLP 研究中被證明是有效的,該研究利用大規(guī)模未標記的訓練數據并生成豐富的上下文表示,顯示出其在各種自然語言處理任務上的強大性能.近年來,沒有句法輸入的 SRL 端到端模型取得了可喜的成果[9,10].Zhou and Xu[9]引入了堆疊長短期記憶網絡并取得了當時最好的結果.He等[10]使用具有約束解碼的深度高速雙向長短期記憶網絡和循環(huán)dropout,將語義角色標注視為BIO 標記問題.該方法由公開可用的代碼和模型支持,能夠處理結構一致性和長距離依賴關系,進一步改進了語義角色標注的性能.這些涉及端到端模型[11,12]的成功揭示了LSTM 處理句子底層句法結構的潛在能力.
本文應用BERT語言模型提取上下文特征信息,結合BERT預訓練模型與雙向LSTM神經網絡模型進行語義角色標注.長短時記憶模型能夠有效地利用序列數據中的長距離相關信息,在序列標注任務中顯示出強大的優(yōu)勢.配價語法[13,14]能夠更好地描述語句的語義組成和語法結構,因而,本文在語義角色標注中增加謂詞本身的配價數作為特征.利用條件隨機場模型(CRF)計算相鄰標簽的轉移概率,改進語義角色標記的效果.
本文的其余部分安排如下:第 2節(jié)介紹BERT語言模型;第 3節(jié)介紹配價語法和利用配價信息的語義角色標注;第 4節(jié)討論基于BERT-BiLSTM-CRF并結合配價信息的語義角色標注方法;實驗結果和分析在第 5 節(jié)中介紹;最后,結論和未來的工作在第 6節(jié).
2018年,google團隊Jacob Devlin等人提出了BERT預訓練語言模型,該模型刷新了當時11種語言信息處理任務的最佳結果.BERT 的模型架構是一個基于原始實現的多層雙向Transformer 編碼器.BERT的關鍵結構是Transformer,Transformer是一個基于“自我關注機制”的深度結構,圖1是它的編碼器網絡結構.
圖1 Transformer編碼器Fig.1 Transformer encoder
Transformer編碼器的關鍵結構是自我注意機制,主要是利用同一句子中單詞之間的關聯度來校正權重系數矩陣以獲得單詞的表示形式:
(1)
其中,Q,K,V是字向量矩陣,dk是Embedding維度.多頭注意力結構使用幾個不一樣的線性變換來投影Q,K和V,并最終把不同的注意力結構連接起來.計算如式(2)、式(3)所示:
MultiHead(Q,K,V)=Concat(head1,…,headn)WO
(2)
(3)
其中W是權重矩陣.集成位置信息,字符和單詞信息以及段落信息的特征向量被輸入到多層雙向Transformer編碼器中,編碼器在位置l處輸出向量Dl,sigmoid概率層使用它來推測位置l處的原始單詞.然后在位置l輸出標記yl的概率為:
Pr(yl)=sigmoid(WDl+d)
(4)
其中b、W分別是sigmoid概率層的偏差及權重矩陣,需要利用BERT模型實施預訓練.
與依存文法類似,配價文法也發(fā)源于法國語言專家Tesnier的語言學理論.Tesnier 在語法中引入了“價”的概念來解釋一個動詞可以支配名詞短語的個數.配價文法屬于動詞中心論,認為語句的中心是動詞.動詞根據它聯系的動元(動詞所聯系的強制性語義成分即語義角色)的數量來分類,即動詞的“價”分類,可分為一價動詞、二價動詞和三價動詞三類.動詞的配價結構與動詞的語義角色標注尤其是核心語義角色標注有關,因而配價文法與語義分析密切相關.現在,對配價的研究不只包含動詞,許多人還在研究名詞和形容詞的配價.在朱德熹對中文動詞配價進行研究的帶動下,袁毓林開始研究中文名詞的配價[13].名詞的配價結構與名詞性謂詞的語義角色標注尤其是內部角色標注有關.動名詞性謂詞的配價數可以參考基于配價理論開發(fā)的語義詞典,也可以通過統計學習的方法從語義角色標注語料中獲得.
通常的語言處理工作(詞性標記、語法分析、語義分析、信息提取等)一般是按順序實施的,即后一個工作是在完成前一個工作后開展的.比如,語義角色分析需要利用語法結構分析的信息.順序開展任務并不是僅有的選擇,通常存在以下不足:之前處理中的錯誤可能在后面處理中累積和放大,嚴重制約后續(xù)處理的結果;執(zhí)行上一個工作時,不能使用后面工作的有用信息,一般來說,因為這兩個工作密切相關,所以后續(xù)工作的信息在一定程度上對之前的工作是有益的.因此,如果兩個或多個處理工作能夠并行進行,那么這些處理工作就可以利用彼此的信息,進而從中受益.本文并行處理語法結構分析、融合配價結構的語義信息標記及分析,基本思想是:在句法分析的過程中,每當形成一條新的產生式p→c1,c2,…,cn時,(其中p為祖先結點,c1,c2,…,cn為子結點.)進行配價結構等語義信息標注及分析.同時將標注的語義信息融入產生式的概率計算.
設P為非終結符,H表示中心成分,L1表示左邊修飾成分,R1表示右邊修飾成分.hw,lw,rw均是成分的核心詞,ht,lt,rt分別是它們的詞性,P(h)表示句法樹上當前核心詞h所依賴的上層核心詞.進一步假設,首先由P產生核心成分H,然后以H為中心分別獨立地產生左右兩邊的所有修飾成分.這樣,在本文的句法分析模型中,每一條文法規(guī)則寫成如下形式:
P(ht,hw|P(h))-Lm(ltm,lwm)…L1(lt1,lw1)·H(ht,hw|P(h))R1(rt1,rw1)…Rn(rtn,rwn)
(5)
形如式(5)的文法規(guī)則的概率為:
(6)
其中,Lm+1和Rn+1分別為左右兩邊的停止符號.式(6)中的概率:
Pi(Ri(rti,rwi)|Ri-1(rti-1,rwi-1),…,R1(rt1.rw1),(ht,hw),P(h))
可分解為兩個概率的乘積,如式(7)、式(8)所示:
Pi(rti|rti-1,rti-2,…,rt1,ht,rwi)
(7)
Pi(rwi|rwi-1,rwi-2,…,rw1,hw,P(h))
(8)
記S(rwi)表示詞rwi-1,rwi-2,…,rw1,P(h)中與當前詞rwi有語義搭配關系的詞(由句子分析樹標注的配價結構確定),則有:
Pi(rwi|rwi-1,rwi-2,…,rw1,hw,P(h))
=Pi(rwi|hw,Δr(i-1),S(rwi))
(9)
再假定hw,S(rwi)關于rwi條件獨立有:
(10)
利用神經網絡模型處理語義角色標注任務,首先必需對文本進行向量化,利用一定維度的特征向量來表示單詞.詞向量能夠描述詞之間的語法和語義關系,作為詞的特征輸入神經網絡.首先,以單詞為單位切分句子,通過BERT模型預處理生成單詞xi的基于上下文信息的單詞矢量,得到D維詞矢量,構成D×N詞矩陣,其中N是訓練語料中有效詞的個數.其次謂詞采用謂詞本身、謂詞詞性、謂詞的配價;當前詞采用當前詞本身、當前詞的詞性、當前詞到謂詞的距離及是否為候選論元的頭節(jié)點(0/1)等特征.并為當前詞和詞性兩個特征設置一個長度為3的窗口,即當前詞、左一詞、右一詞及其詞性作為特征.然后拼接上述特征為當前單詞xi構建單詞嵌入向量ei.
傳統的循環(huán)神經網絡存在梯度消失或爆炸的問題,這意味著很難對長距離依賴進行建模.長短期記憶網絡LSTM[15]旨在緩解這個問題.LSTM 單元由一個記憶單元、一個輸入門、一個遺忘門和一個輸出門組成.記憶單元攜帶 LSTM 單元的記憶內容,而門控制記憶內容的變化量和暴露量.設et表示時刻t的輸入向量,ht-1表示LSTM單元的時刻t-1隱藏狀態(tài)的輸出,ct-1代表t-1時刻的細胞狀態(tài).LSTM 在時間 t 的工作流程能夠表示為公式(11)-公式(16):
it=σ(Wiht-1+Uiet+bi)
(11)
ft=σ(Wfht-1+Ufet+bf)
(12)
ot=σ(Woht-1+U0et+bo)
(13)
(14)
(15)
ht=ot⊙tanh(ct)
(16)
ht不僅包含局部信息,還包含來自先前輸出狀態(tài)ht-1的信息,因此可以捕獲句子中的依賴關系.長短期記憶模型(LSTM)的門機制使模型能夠獲取到遠距離的歷史信息.因為向前和向后的依賴關系對于標記語義角色都很重要,所以本文用雙向方法擴展了 LSTM,導致:
(17)
根據之前的工作,本文將中文 SRL 視為序列標記的任務,它為序列中的每個單詞分配一個標簽.為了識別語義角色的邊界信息,本文采取IOB標簽方式.在序列標記任務中,相鄰詞的標記之間有著較明顯的依賴關系.例如,標簽B_ARG1 后面應該跟I_ARG1標簽或者B_X標簽,其余的標簽都是非法的;而標簽I_ARG1之前只能是B_ARG1或I_ARG1.因而,不是利用ht獨立做出標記選擇,而是利用條件隨機場模型來聯合建模標記序列.
給定語句X=(x1,x2,…,xn)和對應的語義角色預測標簽Y=(y1,y2,…,yn),其中xi表示詞,預測評估分數定義如下:
(18)
其中:θ是利用學習獲得的模型參數,A是一個語義角色標簽轉換分數矩陣,Ai,j表示角色標簽i到j的分數;Qi,yi表示句中第i個詞xi標為角色標簽yi的得分.h表示謂詞,k∈M表示句子X=(x1,x2,…,xn)中與謂詞h有配價關系或語義依存關系rel的詞集合.Qi定義如下:
Qi=Wsht+bs
(19)
其中:ht是輸入數據xt在BiLSTM中時刻t的隱藏狀態(tài);Ws為權重矩陣;bs為偏移矢量.
在條件隨機場模型層,語句X被標注為角色標簽序列Y 的概率如式(20)計算:
(20)
在深度神經網絡模型訓練過程中,損失函數如式(21)所定義:
(21)
其中:X和Y分別為訓練語料中的語句及相應的標記序列,Ω(θ)表示避免神經網絡模型的過擬合而增加的正則項.
試驗部分數據取自中文PropBank2.0和中文NomBank1.0.CTB是語言數據聯盟發(fā)布的一個中文公開語料庫,為中文語法分析研究提供了公開的訓練、測試語料.PropBank2.0是University of Pennsylvania基于Penn TreeBank 5.1發(fā)布的的語義角色標記語料庫,帶有動謂詞標記.而中文NomBank1.0是為了彌補PropBank只以動詞為謂詞的限制而發(fā)布的.它在Penn樹庫5.1中標記了名詞謂詞和其語義角色.為了在訓練集、開發(fā)集和測試集中平衡各種語料來源,參照Xue[16]的實驗數據劃分,分別取中文PropBank2.0和NomBank1.0中的各648個文件共1296個文件用作訓練語料,各40個文件共80個文件用作開發(fā)語料,各72個文件共144個文件用作測試語料.其中,開發(fā)語料、訓練語料和測試語料分別擁有2060,31361和3599個動詞謂詞;訓練語料、開發(fā)語料和測試語料所擁有的名詞謂詞個數分別為8642,731和1124.在本文這部分實驗中使用SVM分類器,SVM分類器使用多項式核函數,模型的參數都是從訓練集中采用極大似然法估計出來的;訓練參數的調整設置均在開發(fā)集上進行;而模型和語義角色標注方法的性能評測在測試集上進行.
測試的結果采取了常用的3個評測指標,即精確率P、召回率R、綜合指標F1值.其定義如下:
精確率(Precision)用來衡量語義角色標注系統分類器預測的語義角色總數中正確標注的語義角色的比例.
召回率(Recall)用來衡量語義角色標注系統分析出的所有正確語義角色在測試數據中的語義角色總數中的比例.
綜合指標:F1=(P×R×2)/(P+R).
表1對比了應用自動/正確語法樹和自動/正確動詞謂詞的各種角色的識別結果.其中第2列是在語法樹正確、動詞謂詞正確的條件下得到的結果F1值;第3列是在自動謂詞和自動語法樹情況下獲得的結果F1值.
表1 各類動詞性謂詞語義角色的標注性能Table 1 Labeling performances of all types of semantic roles for verbal predicates
表2顯示了基于正確語法樹的各種角色的識別結果,分別是基于正確的名詞謂詞和自動的名詞謂詞條件下識別結果.
表2 主要名詞性謂詞語義角色在測試集上性能Table 2 Performance on the test data for main semantic roles of nominal predicates
本文的另一部分實驗語料取自CoNLL-2005 共享任務和 CoNLL-2012 共享任務的常用數據集.CoNLL-2005 數據集以華爾街日報(WSJ)語料庫的第 2-21 節(jié)作為訓練集,第24節(jié)作為開發(fā)集.測試集由 WSJ 語料庫的第 23部分以及來自 Brown語料庫的 3 部分組成.CoNLL-2012 數據集是從 OntoNotes v5.0 語料庫中提取的.
本文模型的主要參數設置如下:詞嵌入和謂詞掩碼嵌入的維度設置為 128,Transformer層數設置為12.本文將隱藏單元的數量設置為 768.本文實驗學習率取值0.001;實驗采用了Dropout機制來防止神經網絡過擬合,實驗中Dropout設置為0.5.
表3列出了 CoNLL-2005 開發(fā)集和測試集上的語義角色標注精確率、召回率和綜合指標 F1,并與前人工作進行了對比.
在表3中,本文給出了本文方法(DNN Utilizing Valence Information,利用深度神經網絡并結合配價信息的語義角色標注方法)與以前方法在CoNLL-2005開發(fā)和測試集上的結果比較.Emma Strubell等提出了基于語言的自注意力(LI-SA)神經網絡模型,將多頭自注意力與跨依賴解析、詞性標注、謂詞檢測和 SRL的多任務學習相結合,在WSJ、Brown數據集上的F1值分別為86.90%、78.25%;Zhixing Tan等提出了一個簡單有效的基于 self-attention的SRL 架構,它可以直接捕獲兩個標記之間的關系,而不管它們的距離如何,在WSJ、Brown數據集上的F1值分別為86.1%、74.8%;而基于BERT-BiLSTM-CRF并結合配價信息的語義角色標注方法在WSJ、Brown數據集上的F1分數分別達到了87.00%、78.63%.同時在CoNLL-2005、CoNLL-2012開發(fā)和測試集上進行了消融實驗,即在CoNLL-2005、CoNLL-2012 開發(fā)和測試集進行僅基于深度神經網絡(BERT-BiLSTM-CRF)的語義角色標注和僅使用配價信息的語義角色標注兩種方法的實驗.
表4列出了 CoNLL-2012 開發(fā)集和測試集上的語義角色標注精確率、召回率和綜合指標 F1,并與前人工作進行了對比.
表4 CoNLL-2012 開發(fā)和測試集上的精確率、召回率和綜合指標 F1Table 4 Precision,recall and F1 on the CoNLL-2012 development and test sets
在表4中,本文給出了本文方法與以前方法在CoNLL-2012開發(fā)和測試集上的結果比較:Emma Strubell et al提出的基于語言的自注意力(LISA)神經網絡模型取得了83.38%的F1值;Zhixing Tan et al提出的基于 self-attention的SRL 架構取得了83.9%的F1值;而本文提出的基于BERT-BiLSTM-CRF并結合配價信息的語義角色標注方法取得了84.80%的F1值,大幅度提高了語義角色標注系統的性能.
比較表3、表4的語義角色標注測試結果,能夠看到:配價語法能夠更好地描述語句的語義構成和語法結構,將配價信息融入基于BERT-BiLSTM-CRF的語義角色標注模型能夠顯著提升系統的性能.
本文提出了一種融合配價信息的深度神經網絡模型,它有效地結合了豐富的語言配價信息以進行語義角色標記,并在 CoNLL-2005 共享任務數據集和 CoNLL-2012 共享任務數據集上對其進行了評估,在兩個基準 SRL 數據集上比以前的工作取得了更好的結果.
語義角色標記屬于一種淺層語義分析.其本質是在語句層面實施淺層語義分析,語義角色分析通常要基于句法分析的結果.配價結構可以較好地刻畫句子的句法結構和語義構成關系,本文提出了結合配價信息的句法分析與語義角色標注聯合學習模型,本文實驗驗證了聯合學習模型對提高語義角色標注性能的有效性.