周 懿,褚曉敏,朱巧明,蔣 峰,李培峰
(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
隨著自然語言處理的發(fā)展,其處理信息的粒度呈現(xiàn)出由細到粗的變化趨勢。具體而言,其處理的對象已經(jīng)從字、詞等細粒度單元拓展到句子等較粗粒度的單元上。篇章作為比句子更大的一種文本分析粒度也愈發(fā)受到人們的重視。
篇章分析的主要任務(wù)是挖掘篇章單元之間的內(nèi)在結(jié)構(gòu)和語義關(guān)系,此處的篇章單元可以是句子、復(fù)句、句群或段落等。篇章分析分為微觀和宏觀兩個層面,微觀層面主要研究段落內(nèi)的句子和連續(xù)兩個句子間的關(guān)系,而宏觀篇章分析主要研究段落及更高層次的段落群和章節(jié)之間的關(guān)系。同詞法、句法分析一樣,篇章分析作為篇章級的基礎(chǔ)研究,能夠?qū)Ω邔哟蔚淖匀徽Z言處理問題,如問答系統(tǒng)[1]、情感分析[2]、信息抽取[3]等提供更加有效的支撐。
在篇章分析的任務(wù)中,篇章關(guān)系識別,尤其是隱式篇章關(guān)系識別始終是一個重難點。在宏觀篇章關(guān)系識別的任務(wù)中,由于漢語文章的寫作方法,段落與段落間很少出現(xiàn)標識宏觀語義聯(lián)系連接詞。即使出現(xiàn)連接詞,也很難將它們和標識段內(nèi)關(guān)系的微觀連接詞區(qū)分開。因此,中文文本的宏觀篇章關(guān)系的識別均是隱式關(guān)系的識別,而且相對于一般的隱式篇章識別,它有著論元長度長、論元間關(guān)系復(fù)雜的特點,因而難度更大。本文以CTB 8.0[4]中的一個篇章(chtb_0010.nw.raw)來說明宏觀篇章之間的關(guān)系,如例1所示。
分析例1的篇章可知,整個篇章的主題就是標題所示的“中國進出口銀行在日本獲債券信用高等級”這一事件,因而(1)是本文的主題段落。(2)則一方面重述了(1)所陳述的事實,同時附加了信息“與日本評級機構(gòu)內(nèi)部對中國主權(quán)信用等級的評級一致”,并未細化本文的主題內(nèi)容,只是對(1)起到補充說明的作用。(3)、(4)、(5)段描述(1)中所述事件的詳細過程,對段落(1)進行了解說。而在(3)、(4)、(5)段內(nèi)部,(4)說明了(3)中采取的“向日本評級機構(gòu)提出評級申請”這一行為的目的,(5)段說明提出申請后進出口銀行所采取的一系列行為,與(3)中的內(nèi)容有著明確的時間上的先后關(guān)系。由以上分析,我們可以得到如圖1所示的篇章間的宏觀結(jié)構(gòu)。
例1 chtb_0010.nw.raw內(nèi)容
圖1 chtb_0010.nw.raw宏觀結(jié)構(gòu)
本文提出了一種基于詞向量的宏觀篇章語義表示和一組在宏觀篇章關(guān)系識別中適用的特征,并給出了一個基于該特征的宏觀篇章關(guān)系識別方法。
目前篇章關(guān)系識別的任務(wù)在宏觀層面上的研究尚屬空白,但在微觀層面上已經(jīng)有了比較廣泛的研究,研究主要涉及基于修辭結(jié)構(gòu)的篇章樹庫和基于連接依存樹的篇章樹庫這兩類語料資源。
修辭結(jié)構(gòu)篇章樹庫(RST-DT)[5]是以Mann和Thompson[6-7]提出的修辭結(jié)構(gòu)理論(RST)為理論支撐的篇章樹庫。RST提出了“命題—證據(jù)”的關(guān)系模式,其中,命題是涵蓋了作者陳述的觀點的篇章,其觀點讀者不一定認同,而證據(jù)是為命題提供支撐的篇章。據(jù)此,RST-DT樹庫標注了16種關(guān)系大類和78種小類。同時,還標注了篇章單元,“核—衛(wèi)星”模式的主次類型、篇章結(jié)構(gòu)等,將文本組織成了層次化的篇章結(jié)構(gòu)樹。
在RST-DT樹庫上,Hernault[8]等提出了HILDA分析器,HILDA分析器使用兩個支持向量機分別進行篇章單元識別和主次—關(guān)系標簽標注,實現(xiàn)了一個自底向上構(gòu)建自動篇章樹的框架,在篇章關(guān)系識別的任務(wù)上得到了50.90%的F1值。Joty[9-10]等認識到句內(nèi)和句間的關(guān)系分布上有差異,使用了兩個動態(tài)條件隨機場模型針對句內(nèi)和句間關(guān)系分別建模,并使用動態(tài)規(guī)劃算法對篇章樹的構(gòu)建進行優(yōu)化,在篇章關(guān)系識別的任務(wù)上得到了55.73%的F1值。Feng和Hirst[11-12]認識到篇章結(jié)構(gòu)對于關(guān)系識別的重要性,提出了先識別篇章結(jié)構(gòu)再識別篇章關(guān)系的兩步走策略,使用每組兩個的兩組線性條件隨機場模型,在篇章關(guān)系識別上獲得了58.20%的正確率。Wang[13]等使用基于轉(zhuǎn)移的方法將篇章樹構(gòu)建轉(zhuǎn)化成shift-reduce序列,提出了先標注結(jié)構(gòu)—主次,再進行標簽標注的兩步模型,在篇章關(guān)系識別上獲得了59.70%的正確率。
相比修辭結(jié)構(gòu)理論,基于連接依存樹的體系借鑒了“謂詞—論元”的模式,凸顯了連接詞的作用,以連接詞為核心標注與之相關(guān)的篇章單元,依據(jù)有無連接詞將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系,代表性的語料資源有賓州篇章樹庫(PDTB)[14],在漢語上有漢語篇章樹庫(CDTB)[15]等。
在PDTB上,Lin[16]等探索了各種上下文特征、詞對特征、句法特征等,對隱式篇章關(guān)系進行識別,得到了40.20%的正確率。Park[17]等通過特征集優(yōu)化算法對特征進行選擇,分類的性能有所提高。Qin[18]等嘗試將對抗生成網(wǎng)絡(luò)用于篇章分析,構(gòu)建了對抗生成模型來從隱式篇章關(guān)系中獲得包含隱藏連接詞的段落表示,獲得了44.61%的正確率。
在CDTB上,李艷翠[19]等構(gòu)建了基于連接依存樹的漢語篇章分析平臺,在微觀篇章關(guān)系識別上,同時考慮顯式和隱式篇章關(guān)系,在句內(nèi)和句間的分類任務(wù)上分別達到了78.40%和69.60%的正確率。Kong[20]等建立了一個端到端的篇章結(jié)構(gòu)分析器,在“解說”“并列”“因果”三大類的分類上分別取得了51.80%、85.80%、57.10%的F1值。
宏觀篇章分析的任務(wù)在國內(nèi)的研究還處于起步階段。蔣峰等[21]、Chu[22]等在賓州漢語樹庫(CTB)的基礎(chǔ)上標注了語料的宏觀結(jié)構(gòu),形成了漢語宏觀篇章樹庫(MCDTB)。
MCDTB以段落為基本篇章單元,使用自底向上的方式對段落及段落以上的篇章從篇章主題、段落主題、篇章摘要、篇章結(jié)構(gòu)、篇章主次、篇章關(guān)系等方面進行了標注??偣矘俗⒘?20篇文章的2 870個關(guān)系。在類別上,MCDTB將這些關(guān)系分為“解說類”“并列類”“因果類”,然后進一步細分為15個小類,具體分布如表1所示。
表1 MCDTB語料庫中宏觀關(guān)系類型分布
本文進行的任務(wù)是在MCDTB上進行三個大類的劃分。依據(jù)MCDTB的標注方式,本文將篇章結(jié)構(gòu)樹的結(jié)構(gòu)視為已知條件進行關(guān)系分類。由于MCDTB中的關(guān)系分為二元關(guān)系和多元關(guān)系,在本文中,二元關(guān)系表示為一個元組([Arg1,Arg2],Label),而多元關(guān)系表示為([Arg1,Arg2,…,Argn],Label)。參照RST-DT上的一些研究,本文將多元關(guān)系以右連接的方式轉(zhuǎn)化為二元關(guān)系,例如對于多元關(guān)系([a,b,c],Label),轉(zhuǎn)化之后為([a,c],Label),([b,c],Label)兩個元組。最終問題轉(zhuǎn)化為對二元關(guān)系進行“解說類”“并列類”“因果類”的三分類問題。
由于宏觀篇章分析分析的是段落及更高層次的篇章單元之間的關(guān)系,致使在進行微觀篇章分析時常用的語法、句法信息很難被有效利用。單個詞和詞性相對宏觀篇章單元而言粒度過小,難以表示篇章本身的語義和篇章之間的語義關(guān)系。本文認為在宏觀篇章分析的時候應(yīng)當(dāng)考慮粒度更大的特征,提出了一種基于詞向量的宏觀篇章單元表示方法和一組用于宏觀篇章關(guān)系識別的特征。
基于詞向量的宏觀篇章單元表示方法通過詞向量訓(xùn)練算法訓(xùn)練得到詞向量模型WV,從中獲取篇章單元中每個詞的詞向量WVi,再通過式(1)計算得到整個篇章單元的表示。
(1)
其中,W是篇章單元中所有詞的集合,WVi是W中第i個詞在詞向量模型WV中的表示。N表示篇章單元中詞的數(shù)量。
考慮到目前常用的詞向量算法中,Word2Vec[23]能很好地表示詞語的局部信息,而GloVe[24]同時考慮了局部信息和全局詞共現(xiàn)信息,正與宏觀篇章關(guān)系識別任務(wù)中既要考慮兩段落間內(nèi)容的關(guān)系,同時統(tǒng)籌考慮全文主題的要求相一致,本文通過式(2)得到兩種詞向量間的差異,以表示與該詞相關(guān)的全局信息,最后通過結(jié)合篇章的局部表示和全局信息得到式(3)為篇章單元最終的向量表示。
其中,GloVei和Word2Veci分別表示第i個詞在GloVe模型和Word2Vec模型下的表示,λ是全局信息的權(quán)重參數(shù)。
在宏觀篇章的關(guān)系識別任務(wù)上,目前還沒有可供參考的研究,在結(jié)構(gòu)特征上,本文整合了蔣等[21]在宏觀篇章主次識別時使用的和Hernault的HILDA[8]中做微觀篇章分析時使用的特征中在宏觀篇章識別關(guān)系的任務(wù)上最有效的特征集,并把Feng[12]等在后剪輯時使用的節(jié)點所處的深度信息也作為結(jié)構(gòu)特征來使用。
上述三人的工作在將原來的篇章結(jié)構(gòu)樹轉(zhuǎn)化為二叉樹后不再考慮轉(zhuǎn)化前的多叉樹的結(jié)構(gòu),本文認為樹本來的結(jié)構(gòu)對于篇章關(guān)系的分類,尤其是對并列類和其他兩類的區(qū)分有著至關(guān)重要的作用。因此將二叉化前樹的結(jié)構(gòu)也作為結(jié)構(gòu)特征來使用。
基于上述討論,本文最終使用了如表2所示的5組特征,其中,基礎(chǔ)組織結(jié)構(gòu)特征是蔣、Hernault、Feng等先前的研究中使用的特征,originalStructure是二叉化前樹的結(jié)構(gòu)特征,Vecw2v是使用Word2Vec訓(xùn)練的僅考慮局部信息的宏觀篇章語義表示,Vecglobal是僅考慮全局信息的宏觀篇章語義表示,Vecw2v+golbal是加上了全局信息補正之后的宏觀篇章語義表示。
表2 本文使用的特征
本文使用Python的sklearn包提供的SVC分類器[注]http://scikit-learn.org,參數(shù)均使用默認值,篇章單元的詞向量表示使用中文維基語料,經(jīng)由Word2Vec和GloVe訓(xùn)練成50維詞向量,訓(xùn)練時窗口大小為5。數(shù)據(jù)集大小為MCDTB的全部720篇文章,二叉化后共3 265條關(guān)系。
考慮到樣本集相對較小,實驗采用5倍交叉驗證的方式,將720篇文章按段落數(shù)平分為5份,如有58篇7段的文章,則給每個樣本集11篇,再將剩下3篇隨機分派給3個樣本集。然后將5個樣本集中的一個作為測試集,其他作為訓(xùn)練集,共進行五次實驗。在訓(xùn)練集1中,又將其劃分成5份,使用其中4份作為訓(xùn)練集,一份作為驗證集,進行參數(shù)選擇,最終將式(4)中的全局信息權(quán)重λ調(diào)整為2。
本文選取5組特征集組合來進行實驗,基準系統(tǒng)使用表3中的基礎(chǔ)組織結(jié)構(gòu)特征,第2組在基準系統(tǒng)的基礎(chǔ)上附加二叉化之前的結(jié)構(gòu)樹特征originalStructure,第3、4、5組分別在基準系統(tǒng)的基礎(chǔ)上附加詞向量特征Vecw2v、Vecglobal和Vecw2v+global,第6組同時使用基礎(chǔ)組織結(jié)構(gòu)特征,加上全局信息補正的詞向量特征和二叉化之前的結(jié)構(gòu)樹特征。
本文使用的測評指標為正確率(Accuracy)、準確率(Precision)、召回率(Recall)和F1值(F1-Score),其中每個類別的測評指標按照標準的正確率、準確率、召回率和F1值的計算公式計算,整體性能的測評指標分別由式(4)~式(7)計算所得。
其中,TP表示5次實驗中分類正確的樣本總數(shù),N表示樣本集所有樣本的總數(shù),Precision(c)、Recall(c)、F1-Score(c)分別表示類型c的準確率、召回率和F1值,support(c)表示樣本集中屬于類型c的樣本數(shù)量。
從表3中可以看到,使用了特征集中所有特征的第六組實驗相比基準系統(tǒng)在正確率、準確率、召回率、F1值上分別有了4.08%、6.27%、4.08%和4.17%的提升,在6組實驗中4項指標均達到了最優(yōu)。
表3 實驗結(jié)果
從表3中,1、2兩組實驗結(jié)果的對比和1、3兩組實驗結(jié)果的對比可見本文提出的二叉化之前樹的結(jié)構(gòu)特征以及宏觀篇章的詞向量表示對于宏觀篇章的關(guān)系識別均有積極作用。而從3、4、5三組實驗的對比中則能看出全局信息和局部詞向量信息間的相互補充。
本文還對特征集2和5的兩個模型的預(yù)測結(jié)果進行了配對樣本t檢驗,結(jié)果顯示兩個模型具有顯著差異(p<0.01),說明二叉化前樹的結(jié)構(gòu)特征和詞向量表示的宏觀語義分別從兩個層面對基準系統(tǒng)做出了優(yōu)化。為探究本文提出的兩個特征分別對基準系統(tǒng)在哪幾個方面進行了優(yōu)化,本文取出五折交叉驗證實驗中的一組,在這組樣本上,6個特征集在3個類別上的具體表現(xiàn)如表4所示。
對比表4中的實驗數(shù)據(jù),可以得出以下結(jié)論:
(1) 對比1、2兩組實驗結(jié)果可知,二叉化前樹的結(jié)構(gòu)主要起到了提高解說類召回率和并列類準確率的作用,即減少了解說類中誤分到并列類中的樣本。這是因為并列類中包含許多多元關(guān)系,而解說類中以二元關(guān)系為主。
表4 5組特征在測試集2上的實驗結(jié)果
(2) 對比1、3兩組實驗結(jié)果可知,詞向量表示的宏觀語義提高了因果類的召回率和解說類的準確率,使得很多因果類關(guān)系從解說類中區(qū)分出來,這是因為因果類中的關(guān)系具有更強的語義上的連貫性,本文提出的宏觀語義表示方法表達了篇章的語義信息,對于識別因果類關(guān)系有幫助。
(3) 對比3、4、5三組實驗可知,結(jié)合了全局信息和局部信息的模型比起單獨使用其中一個取得了更好的效果。結(jié)合的模型一方面保持了全局信息對因果類關(guān)系的識別率,另一方面進一步提高了并列類識別的正確率,說明局部語義和全局信息間有著互相補充、互相約束的關(guān)系。
同時,表4還反映出在不同的類別上,本文提出的模型表現(xiàn)的差異也較大。即使在最佳的第5組中,因果類的表現(xiàn)仍是比較差的。究其原因,這一方面是因為樣本集不平衡,因果類的樣本數(shù)相較其他兩類少很多;另一方面,從上述分析也可看出,因果類關(guān)系對于語義信息極為敏感,就其中占比最多的背景關(guān)系而言,與解說類關(guān)系的區(qū)別僅在于是對事物本身的屬性進行解說,還是對事物相關(guān)的環(huán)境要素進行解說,是很難通過僅由詞匯集成的語義來完全區(qū)分的。
本文提出了一種基于詞向量的宏觀篇章語義表示方法和一組適用于宏觀篇章關(guān)系類型識別的結(jié)構(gòu)特征,并在MCDTB語料庫上進行了一系列實驗。實驗結(jié)果證明,在宏觀篇章關(guān)系識別的任務(wù)上,本文提出的二叉化前樹的結(jié)構(gòu)特征提高了解說類和并列類關(guān)系的區(qū)分度,而基于詞向量的宏觀篇章表示方法提高了解說類和因果類關(guān)系的區(qū)分度,在兩個不同的維度上為系統(tǒng)做出了貢獻。在將來的工作中,一方面我們將進一步探究宏觀篇章的語義表示,尋找類似于微觀篇章分析時的句法信息等更高層面的宏觀語義特征,另一方面將尋找方法解決樣本集不平衡帶來的問題,并在此基礎(chǔ)上開展更細粒度的小類識別工作。