唐裕婷 李艷斌 劉露 于中華 陳黎
四川大學(xué)計(jì)算機(jī)學(xué)院, 成都 610065; ? 通信作者, E-mail: cl@scu.edu.cn
作為自然語(yǔ)言處理(natural language processing,NLP)的重要任務(wù)之一, 篇章關(guān)系識(shí)別逐漸受到關(guān)注。篇章關(guān)系用于描述兩個(gè)文本單元(子句、句子等)之間的邏輯銜接關(guān)系, 這兩個(gè)文本單元稱為基本篇章單元(elementary discourse unit, EDU)。自動(dòng)識(shí)別兩個(gè) EDU 之間的篇章關(guān)系有助于自然語(yǔ)言處理的很多下游應(yīng)用, 如問(wèn)答系統(tǒng)[1]、自動(dòng)文摘[2]和機(jī)器翻譯[3]等。
根據(jù)篇章單元中是否存在連詞, 篇章關(guān)系分為顯式篇章關(guān)系(例1)和隱式篇章關(guān)系(例2)。由于文本單元中不存在對(duì)篇章關(guān)系具有指示作用的連詞,使得隱式篇章關(guān)系的識(shí)別成為篇章關(guān)系識(shí)別任務(wù)中的主要問(wèn)題。
例1[因?yàn)閉他今天生病了EDU1, [所以]沒(méi)來(lái)上課EDU2。(顯式因果關(guān)系)
例2他生病了EDU1, 沒(méi)來(lái)上課EDU2。(隱式因果關(guān)系)
例3沒(méi)來(lái)上課EDU1, 他生病了EDU2。
現(xiàn)有研究通常將隱式篇章關(guān)系的識(shí)別看成分類問(wèn)題, 且基于英文的研究居多。與英文相比, 中文省略連詞的現(xiàn)象更普遍[4], 但由于缺少規(guī)模較大的標(biāo)準(zhǔn)標(biāo)注語(yǔ)料, 因此針對(duì)中文的研究較少。多數(shù)基于中文的研究是圍繞 CoNLL 發(fā)布的篇章分析 share tasks 進(jìn)行的。目前, 中文的隱式篇章關(guān)系識(shí)別主要是粗粒度的關(guān)系識(shí)別, 尚未見(jiàn)有關(guān)細(xì)粒度隱式篇章關(guān)系識(shí)別的研究報(bào)道。然而, 明確定位每個(gè)文本單元的篇章語(yǔ)義角色會(huì)更有意義。例如, 在具有“因果關(guān)系”的文本單元中, 識(shí)別出哪一個(gè)文本單元表示原因, 哪一個(gè)文本單元表示結(jié)果, 更有利于問(wèn)答系統(tǒng)、文本蘊(yùn)含等任務(wù)的研究。本文將這種能表示文本單元的邏輯語(yǔ)義角色的篇章關(guān)系稱為細(xì)粒度篇章關(guān)系。相比粗粒度篇章關(guān)系, 細(xì)粒度篇章關(guān)系具有方向性, 屬于同種粗粒度關(guān)系下的不同細(xì)粒度關(guān)系具有語(yǔ)義差異(如“原因在前”和“證據(jù)在前”, 二者都屬于因果關(guān)系)。例2 的兩個(gè)文本單元 EDU1 和EDU2 具有因果關(guān)系, EDU1 表示原因, EDU2 表示結(jié)果, 方向由 EDU1 指向 EDU2。若交換 EDU1 和EDU2 的位置(例3), 在粗粒度隱式篇章關(guān)系中, 同樣被視為因果關(guān)系, 但實(shí)際上例3 與例2 并不相同。在例3 中, EDU1 表示結(jié)果, EDU2 表示原因, 方向由 EDU2 指向 EDU1。在細(xì)粒度隱式篇章關(guān)系中,例2 被視為“原因在前”關(guān)系, 例3 則被視為“結(jié)果在前”關(guān)系, 二者不應(yīng)等同對(duì)待。由于已有的粗粒度隱式篇章識(shí)別方法沒(méi)有考慮方向性, 因此不能直接用于細(xì)粒度隱式篇章關(guān)系的識(shí)別。
本文針對(duì)中文的細(xì)粒度隱式篇章關(guān)系識(shí)別進(jìn)行研究, 借鑒 Braud 等[5]的思想, 基于標(biāo)注數(shù)據(jù)較少的情況, 利用遠(yuǎn)距離監(jiān)督方法自動(dòng)標(biāo)注大量顯式篇章數(shù)據(jù), 加入 EDU 中與連詞的相對(duì)位置關(guān)系, 訓(xùn)練詞表達(dá), 將其用于細(xì)粒度隱式篇章關(guān)系分類, 取得較好效果。實(shí)驗(yàn)結(jié)果表明, 本文方法在 HIT-CDTB[6]的細(xì)粒度篇章關(guān)系數(shù)據(jù)集上達(dá)到 49.79%的準(zhǔn)確率,與 Braud 等[5]的方法相比, 準(zhǔn)確率提高 4%, 驗(yàn)證了本文方法的有效性。
對(duì)于英文, 主要基于賓州篇章樹(shù)庫(kù)(The Penn Discourse TreeBank, PDTB)進(jìn)行粗粒度的隱式關(guān)系識(shí)別[7-9]; 中文的篇章關(guān)系標(biāo)注語(yǔ)料主要是中文篇章樹(shù)庫(kù)(Chinese Discourse TreeBand, CDTB)[4]。Wang 等[10]采用特征工程的方法, 人工提取一些特征(如詞對(duì)等), 再利用邏輯斯蒂回歸算法進(jìn)行分類。Schenk[11]提出并驗(yàn)證了, 對(duì)于隱式篇章關(guān)系識(shí)別任務(wù), 人工構(gòu)造大量語(yǔ)言學(xué)特征不是必須的, 可以使用神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征。R?nnqvist 等[12]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)編碼 EDU, 并引入注意力機(jī)制, 取得較好的效果。
目前的隱式篇章關(guān)系識(shí)別研究主要著眼于粗粒度篇章關(guān)系, 對(duì)更有應(yīng)用價(jià)值的細(xì)粒度篇章關(guān)系識(shí)別缺乏關(guān)注。現(xiàn)有的方法采用人工構(gòu)造特征, 代價(jià)大且存在稀疏問(wèn)題。雖然低維的密集的詞表達(dá)可以有效地解決稀疏問(wèn)題, 但通用詞向量只編碼語(yǔ)義信息, 與特定任務(wù)無(wú)關(guān), 且標(biāo)注的數(shù)據(jù)過(guò)少, 無(wú)法直接訓(xùn)練詞表達(dá)。因此, Braud 等[5]提出, 不直接將顯式標(biāo)注數(shù)據(jù)作為隱式篇章關(guān)系識(shí)別的訓(xùn)練數(shù)據(jù)[13], 而是用來(lái)訓(xùn)練詞表達(dá), 通過(guò)分析 EDU 中出現(xiàn)的詞與連詞的共現(xiàn)情況, 可以獲得不同詞語(yǔ)對(duì)不同篇章關(guān)系的使用分布情況, 將詞的修辭功能編碼到密集的詞表達(dá)中。實(shí)驗(yàn)證明, 這種方法比簡(jiǎn)單的語(yǔ)義編碼更有效。
方向性是細(xì)粒度篇章關(guān)系的獨(dú)特性質(zhì), 對(duì)細(xì)粒度隱式篇章關(guān)系的識(shí)別具有重要意義。在粗粒度隱式篇章關(guān)系識(shí)別中, 通常的做法是通過(guò)詞的向量表達(dá)獲得篇章單元的向量表達(dá), 然后將兩個(gè)篇章單元的向量表達(dá)直接進(jìn)行拼接后送入分類器[5,14]。然而,這樣的方法在細(xì)粒度篇章關(guān)系識(shí)別任務(wù)上并不合理。由于篇章關(guān)系具有方向性, 如果底層編碼不將方向性考慮進(jìn)去, 那么A⊕B與B⊕A(其中A和B表示兩個(gè)句子向量, ⊕表示拼接操作)的編碼對(duì)上層分類器來(lái)說(shuō)是相同的, 但它們?cè)诩?xì)粒度篇章關(guān)系中并不屬于同種關(guān)系, 這對(duì)細(xì)粒度篇章關(guān)系識(shí)別效果有影響。本文利用大量自動(dòng)標(biāo)注的顯式篇章數(shù)據(jù)訓(xùn)練詞表達(dá), 為了結(jié)合細(xì)粒度篇章關(guān)系的方向性特性,在訓(xùn)練詞表達(dá)時(shí), 引入每個(gè)詞相對(duì)于連詞的位置信息。
在已公開(kāi)的中文篇章關(guān)系標(biāo)注語(yǔ)料中, 哈爾濱工業(yè)大學(xué)標(biāo)注的中文篇章關(guān)系語(yǔ)料 HIT-CDTB 提供了細(xì)粒度篇章關(guān)系標(biāo)注。本研究的語(yǔ)料使用 HITCDTB。
首先使用遠(yuǎn)距離監(jiān)督方法自動(dòng)標(biāo)注的大量顯式篇章數(shù)據(jù)訓(xùn)練詞表達(dá), 然后將訓(xùn)練的詞表達(dá)作為細(xì)粒度隱式篇章分類器的輸入, 整體流程見(jiàn)圖 1。
圖1 模型處理框架Fig.1 The processing framework of the proposed approach
高質(zhì)量詞表達(dá)的訓(xùn)練必須基于大量的顯式篇章數(shù)據(jù), 由于 HIT-CDTB 語(yǔ)料中標(biāo)注的樣例較少(7910條), 因此本研究需要自動(dòng)標(biāo)注大量顯式篇章數(shù)據(jù)。由于訓(xùn)練的詞表達(dá)是基于和連詞的共現(xiàn)統(tǒng)計(jì), 所以在自動(dòng)標(biāo)注時(shí)只需要確定連詞和邊界, 不需要確定 EDU 間的具體關(guān)系。連詞識(shí)別和 EDU 的確定是自然語(yǔ)言處理的另一種任務(wù), 并非本文的研究重點(diǎn),因此本文采用遠(yuǎn)距離監(jiān)督的方式進(jìn)行自動(dòng)標(biāo)注。遠(yuǎn)距離監(jiān)督方法在關(guān)系抽取[15]和微博情感分析[16]等任務(wù)中廣泛使用。由于海量數(shù)據(jù)可以減小噪聲的影響以及學(xué)習(xí)算法具有容噪能力, 在這些任務(wù)中, 將獲得的海量文本直接作為訓(xùn)練數(shù)據(jù), 取得較好效果。本文使用包含 409416986 個(gè)詞的新聞?wù)Z料, 得到包含 264 個(gè)不同連詞的共 7399347 個(gè)帶噪聲的顯式篇章樣例。
2.1.1 確定連詞
連詞是篇章關(guān)系的重要指示線索, 但是并沒(méi)有一個(gè)對(duì)連詞的具體定義。在 HIT-CDTB 的標(biāo)注準(zhǔn)則中, 由于沒(méi)有限制連詞的形式, 導(dǎo)致連詞中出現(xiàn)較長(zhǎng)的短語(yǔ)以及“一九九三年”等確切的時(shí)間詞, 這些詞作為連詞的候選, 被匹配到的可能性較小, 并且會(huì)擴(kuò)大連詞向量空間模型的維度, 使得構(gòu)建出的詞表達(dá)維度過(guò)大。因此, 在獲取候選連詞的時(shí)候,對(duì)從 HIT-CDTB 中獲得的連詞進(jìn)行篩選: 1)不考慮形如“在……情況下”等的連詞; 2)去除在 HITCDTB 中出現(xiàn)次數(shù)為1的連詞; 3)去除具體時(shí)間。
由于本文基于和連詞的共現(xiàn)情況來(lái)構(gòu)造詞表達(dá), 因此連詞的個(gè)數(shù)決定最后詞表達(dá)的維度。連詞越多, 自動(dòng)標(biāo)注得到的顯式數(shù)據(jù)就越多, 映射的關(guān)系類型也越多, 能夠減少依賴連詞的編碼映射不到關(guān)系的情況。但是, 連詞過(guò)多, 會(huì)導(dǎo)致詞表達(dá)維度過(guò)大, 這與我們要訓(xùn)練低維密集詞表達(dá)的初衷相背。因此, 參考一般詞向量的維度, 選擇 HIT-CDTB 中標(biāo)注的篩選后的頻度前 300 的連詞, 考慮到用于自動(dòng)標(biāo)注的語(yǔ)料可能沒(méi)有某些候選連詞的情況, 在考慮位置關(guān)系后, 最后得到的詞表達(dá)維度應(yīng)該小于等于 300×2。
采用遠(yuǎn)距離監(jiān)督的方法, 直接通過(guò)匹配候選連詞得到的連詞是有歧義的[17], 包括兩個(gè)方面: 1)該連詞是否具有指示篇章關(guān)系的作用; 2)連詞與篇章關(guān)系不是一一對(duì)應(yīng)的。對(duì)于第二種歧義, 由于本文的自動(dòng)標(biāo)注不需要確定具體的關(guān)系, 因此可以忽略。對(duì)于第一種歧義, 目前多通過(guò)人工構(gòu)造特征訓(xùn)練連詞分類器[6,11]進(jìn)行消歧。
由于中文連詞的歧義現(xiàn)象占少數(shù)[18], 并且考慮到連詞分類器的準(zhǔn)確率如果達(dá)不到 100%同樣會(huì)帶來(lái)噪聲, 因此為了簡(jiǎn)化標(biāo)注過(guò)程, 本文不對(duì)連詞進(jìn)行消歧。本文通過(guò)使用大量數(shù)據(jù)來(lái)彌補(bǔ)不進(jìn)行連詞分類帶來(lái)的噪聲。再者, 出現(xiàn)在形如“blue and red”這樣句子中的“and”, 如果考慮其語(yǔ)義, 將詞語(yǔ)視為一種最基本的篇章單元, 此處的“and”同樣表示兩種顏色的并列關(guān)系。因此, 連詞的歧義對(duì)于學(xué)習(xí)詞的修辭能力是沒(méi)有影響的。
2.1.2 確定EDU邊界
作為淺層篇章分析的重要任務(wù)之一, EDU 邊界確定相對(duì)較難[19]。Braud 等[5]先構(gòu)造特征訓(xùn)練分類器, 定位篇章單元是構(gòu)成句間關(guān)系還是句內(nèi)關(guān)系,然后通過(guò)啟發(fā)式規(guī)則來(lái)確定 EDU 邊界。Hooda 等[20]利用長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)來(lái)識(shí)別 EDU (在 PDTB 里面, 將 EDU 叫做 Argument, 簡(jiǎn)稱 Arg), 將 EDU 的識(shí)別視為序列標(biāo)注問(wèn)題,使用 LSTM 捕獲特征, 判斷輸入序列的每個(gè)詞是屬于 Arg1, Arg2, connective, 還是 None, 從而進(jìn)行 Arg的確定。由于該任務(wù)不是本研究的主要工作, 因此本文采用簡(jiǎn)單的模板[21](形如[EDU1, connectives EDU2])來(lái)確定 EDU, 即兩個(gè) EDU 在同一個(gè)句子中。Wu 等[21]的研究表明, 在數(shù)據(jù)量足夠的情況下, 基于這樣簡(jiǎn)單的模板是足夠的。此外, 本文對(duì)海量數(shù)據(jù)的標(biāo)注并不需要確定具體關(guān)系, EDU 的邊界確定是為了限制連詞與詞的相關(guān)應(yīng)該在某一范圍內(nèi), 本文將這一范圍限制在同一個(gè)句子中?;诤A繑?shù)據(jù)可以涵蓋大多數(shù)詞與連詞的假設(shè), 使用該模板得到的海量文本對(duì)于學(xué)習(xí)詞與連詞的關(guān)系是足夠的。
連詞向量空間模型是標(biāo)準(zhǔn)向量空間模型的變體[22], 不同連詞的個(gè)數(shù)確定底層向量空間的維度,通過(guò)統(tǒng)計(jì)每個(gè)詞在不同文本單元中與不同連詞的共現(xiàn)情況, 將每個(gè)詞映射為連詞個(gè)數(shù)維的實(shí)值向量。
在細(xì)粒度隱式篇章關(guān)系識(shí)別中, 要考慮篇章關(guān)系的方向性, 不能直接應(yīng)用粗粒度隱式篇章關(guān)系識(shí)別的方法。如例4(a)中, EDU1 是因, EDU2 是果, 關(guān)系由 EDU1 指向 EDU2, 而例4(b)中 EDU1 是果,EDU2 是因, 關(guān)系由 EDU2指向 EDU1。
例4(a)出生之后小仙女的呼吸平順EDU1, 并不需要額外的氧氣EDU2。
例4(b)今天女足和朝鮮的比賽著實(shí)讓我激動(dòng)了一把EDU1, 比賽之精彩讓我出乎意料EDU2。
因此, 基于上述觀察, 假設(shè)文本中每個(gè)詞在不同 EDU 中與連詞的共現(xiàn)情況可以反映一個(gè)詞在關(guān)系中的方向偏好, 即若某些詞與“因?yàn)椤惫铂F(xiàn), 出現(xiàn)在 EDU2 中, 與“所以”共現(xiàn), 常出現(xiàn)在 EDU1, 那么這些詞都常常用于表示原因, 在關(guān)系方向中處于指向的那一方, 使得這些詞的詞表達(dá)不僅編碼了詞與因果關(guān)系的語(yǔ)義聯(lián)系, 同樣編碼了篇章關(guān)系的方向性。
本文構(gòu)造詞表達(dá)的方法如下。
對(duì) EDU1 和 EDU2 中的詞分別構(gòu)建一個(gè)與連詞的共現(xiàn)矩陣; 矩陣的每個(gè)元素表示對(duì)應(yīng)的文本中其他詞和連詞的共現(xiàn)權(quán)重;V1表示出現(xiàn)在 EDU1 中的n1個(gè)詞的集合,V2表示出現(xiàn)在 EDU2 中的n2個(gè)詞的集合;C表示m個(gè)連詞的集合, 得到構(gòu)建的兩個(gè)矩陣F1(維度為n1×m)和F2(維度為n2×m)。F1表示出現(xiàn)在 EDU1 中的不同詞與各個(gè)連詞的共現(xiàn)情況,F2表示出現(xiàn)在 EDU2 中的不同詞與各個(gè)連詞的共現(xiàn)情況, 因此同一個(gè)詞就可以根據(jù)F1得到m維向量表達(dá) vectorl, 向量的每一維表示該詞出現(xiàn)在 EDU1 中與連詞的關(guān)聯(lián); 根據(jù)F2得到m維向量表達(dá) vectorr,向量的每一維表示該詞出現(xiàn)在 EDU2 中與連詞的關(guān)聯(lián)。對(duì)任一個(gè)詞, 就可以表示為一個(gè) 2m維的向量[vectorl; vectorr]。共現(xiàn)權(quán)重的計(jì)算公式見(jiàn)式(1)~(3), 采用文獻(xiàn)[5]中效果最好的 PPMI-IDF。為了減少點(diǎn)互信息對(duì)低頻詞的偏向性, 計(jì)算時(shí)去掉詞頻小于等于 5 的詞。
其中, weighti,j表示矩陣的第i行第j列對(duì)應(yīng)的值, 即詞wi和連詞cj的共現(xiàn)權(quán)重。PPMIi,j表示wi和cj的非負(fù)點(diǎn)互信息值(PMI 小于 0 時(shí), 取值為 0), 用于衡量詞wi和連詞cj的相關(guān)度, 從而映射到與特定關(guān)系的相關(guān)度, 計(jì)算見(jiàn)式(1), 其中pi,j表示wi和cj共同出現(xiàn)在一個(gè) EDU 中的概率,pi,*和pj,*分別表示wi和cj出現(xiàn)的概率。IDFi用來(lái)規(guī)范化 PPMIi,j的值, 計(jì)算見(jiàn)式(2), 其中m表示不同連詞數(shù),fi,j表示wi和c共同出現(xiàn)在一個(gè) EDU 中的頻數(shù), 如表1和2所示, 得到兩個(gè)共現(xiàn)矩陣(部分)。
通過(guò)拼接表 1 和表 2 得到的詞表達(dá), 每個(gè)詞就可以表示為 1 個(gè) 2m維的向量。如表 1 和 2 所示, 假設(shè)總共出現(xiàn)的連詞只有 4 個(gè), 則“好幾年”可被表示為[0.12, 0, 0.47, 0.34, 0, 0, 0.04, 0.60]這樣一個(gè)8維向量, 同樣“不穩(wěn)固”可表示為[0.35, 2.08, 0, 0.20, 0,0, 0, 1.82]。可以看到, 像“好幾年”這種表時(shí)間的詞,更傾向于與表時(shí)序關(guān)系的連詞“后來(lái)”共現(xiàn), 且更可能出現(xiàn)在 EDU1 中, 與 EDU2 構(gòu)成先序關(guān)系。而“, ”這種詞, 基本上與所有連詞共現(xiàn), 對(duì)應(yīng)在各個(gè)維度上的值都是0, 對(duì)我們的模型不會(huì)產(chǎn)生影響。
表1 連詞與詞(EDU1)PPMI-IDF關(guān)聯(lián)矩陣示例Table 1 Illustrative example of PPMI-IDF association matrix between connectives and words of EDU1
表2 連詞與詞(EDU2)PPMI-IDF關(guān)聯(lián)矩陣示例Table 2 Illustrative example of PPMI-IDF association matrix between connectives and words of EDU2
得到每個(gè)詞的詞表達(dá)后, 通過(guò)加和[9]EDU 中所有詞的詞表達(dá), 得到每個(gè) EDU 的向量表達(dá)為 2m維。然后, 將兩個(gè) EDU 的向量表達(dá)進(jìn)行拼接, 得到4m的向量, 作為隱式篇章分類器的輸入。為了回避句子長(zhǎng)度不同帶來(lái)的影響, 在加和形成每個(gè) EDU的詞向量后用L2范數(shù)進(jìn)行規(guī)范化。
HIT-CDTB 是哈爾濱工業(yè)大學(xué)標(biāo)注的篇章關(guān)系語(yǔ)料, 本文只使用該語(yǔ)料中的分句關(guān)系和復(fù)句關(guān)系樣例。其中, 隱式樣例15401 個(gè), 提供了細(xì)粒度關(guān)系標(biāo)簽的隱式樣例4084 個(gè), 共包含 22 種細(xì)粒度關(guān)系。本實(shí)驗(yàn)只選擇樣例數(shù)大于 10 的關(guān)系類別作為最后的分類標(biāo)簽。該標(biāo)注語(yǔ)料中存在某些樣例缺失對(duì)應(yīng) EDU 的情況, 在刪除缺失樣例后, 共得到 3663個(gè)樣例, 見(jiàn)表3。
從表 3 可見(jiàn), 數(shù)據(jù)存在不均衡現(xiàn)象, 這是由篇章關(guān)系的真實(shí)分布決定的。已知的篇章關(guān)系的分布是偏斜的, 擴(kuò)展關(guān)系(表 3 中“解釋說(shuō)明”關(guān)系是擴(kuò)展關(guān)系的一種)的樣例會(huì)比較多, 對(duì)于每種關(guān)系, 如果使用相同數(shù)量的樣例來(lái)訓(xùn)練分類器, 可能會(huì)導(dǎo)致錯(cuò)誤[23]。因此, 本文不對(duì)樣本分布做干涉, 使其保持真實(shí)分布。
本文使用多項(xiàng)式邏輯斯蒂來(lái)建模分類器, 并與Braud 等[5]沒(méi)有考慮位置的方法進(jìn)行對(duì)比, 實(shí)驗(yàn)結(jié)果見(jiàn)表4和5。
從表 4 看出, 本文方法在細(xì)粒度隱式篇章關(guān)系識(shí)別任務(wù)上達(dá)到較好的效果, 準(zhǔn)確率比 Braud 等[5]的方法有很大的提高, 說(shuō)明在構(gòu)建詞表達(dá)時(shí), 考慮詞在不同文本單元中的出現(xiàn)情況, 對(duì)于細(xì)粒度隱式篇章關(guān)系識(shí)別的有效性。從表 5 可知, 在多數(shù)關(guān)系的識(shí)別效果上, 本文方法比 Braud 等[5]的方法有所提高, 但對(duì)于樣例較少的關(guān)系類別, 本文方法的分類效果不理想。
表3 HIT-CDTB細(xì)粒度隱式篇章樣例分布Table 3 Distribution of fine-grained implicit discourse example in HIT-CDTB
表4 細(xì)粒度隱式篇章關(guān)系識(shí)別結(jié)果Table 4 Result of fine-grained implicit discourse relation classification
為了進(jìn)一步分析原因, 進(jìn)行 5 折交叉驗(yàn)證, 發(fā)現(xiàn)對(duì)于樣例較少的關(guān)系類別, 預(yù)測(cè)精確率的抖動(dòng)幅度較大。我們猜測(cè)是由于樣例個(gè)數(shù)太少, 分類器未能進(jìn)行有效的學(xué)習(xí), 導(dǎo)致結(jié)果不好, 存在隨機(jī)性,如圖 2 所示(其中預(yù)測(cè)精確率始終為 0 的關(guān)系不顯示)。對(duì)預(yù)測(cè)精確率始終為 0 的關(guān)系進(jìn)行考察, 除該關(guān)系的樣本數(shù)較少外, 在觀察分類混淆矩陣后, 發(fā)現(xiàn)“證據(jù)在前”關(guān)系很大可能會(huì)被錯(cuò)分在“原因在前”的類別, “推論在前”關(guān)系很大可能會(huì)錯(cuò)分在“解釋說(shuō)明”關(guān)系類別。這些關(guān)系都存在語(yǔ)義上的相似性,當(dāng)類別細(xì)化后, 連詞到關(guān)系的映射就會(huì)改變, 一個(gè)連詞映射的關(guān)系會(huì)增多。因?yàn)檫B詞對(duì)關(guān)系的映射沒(méi)有方向性, 就使得屬于同種粗粒度的細(xì)粒度關(guān)系間學(xué)習(xí)到的特征可能會(huì)比較相似, 再加上數(shù)據(jù)分布不均衡, 從而導(dǎo)致誤分類。但是, 這是由于細(xì)粒度篇章關(guān)系的語(yǔ)義差異引起的, 不是本文的研究重點(diǎn),因此本文并未對(duì)該語(yǔ)義差異做特殊處理。忽略語(yǔ)義差異帶來(lái)的錯(cuò)誤, 本文方法考慮細(xì)粒度篇章關(guān)系的方向性, 在細(xì)粒度篇章關(guān)系識(shí)別任務(wù)中取得較好的效果。總體而言, 本文初次對(duì)中文細(xì)粒度隱式篇章關(guān)系進(jìn)行研究, 取得有意義的結(jié)果。
表5 每個(gè)關(guān)系識(shí)別結(jié)果Table 5 Result of per relation identification
圖2 五折交叉驗(yàn)證各個(gè)類別精確率Fig.2 The precision of 5-fold cross validation in per relation
本文針對(duì)細(xì)粒度隱式篇章關(guān)系的識(shí)別任務(wù), 基于篇章關(guān)系標(biāo)注語(yǔ)料較少的現(xiàn)狀, 利用大量自動(dòng)標(biāo)注的連詞和與之對(duì)應(yīng)的EDU, 采用基于統(tǒng)計(jì)的方法訓(xùn)練密集詞表達(dá), 利用詞與連詞的共現(xiàn)關(guān)系, 使得到的詞表達(dá)能對(duì)自身的修辭功能進(jìn)行編碼, 加入詞與連詞的相對(duì)位置信息, 將每個(gè)詞的關(guān)系語(yǔ)義角色偏向性編碼到詞表達(dá)。將該詞表達(dá)用于細(xì)粒度隱式篇章關(guān)系識(shí)別, 取得較好的效果。
本文訓(xùn)練詞表達(dá)的方法高效簡(jiǎn)單, 但點(diǎn)互信息不能很好地衡量?jī)蓚€(gè)詞之間的相似性, 且傾向于低頻詞。在將來(lái)的工作中, 可以考慮使用其他更有效的衡量方式。另外, 作為初次嘗試, 本文考慮細(xì)粒度篇章關(guān)系的方向性時(shí), 采取的方法較簡(jiǎn)單, 將來(lái)可以進(jìn)一步改善。