黃細鳳
摘要:針對文本篇章結(jié)構(gòu)分析與語義內(nèi)容理解,提出了基于主題層次的文本篇章結(jié)構(gòu)分析方法,包括文本篇章結(jié)構(gòu)表示體系、文本篇章結(jié)構(gòu)分析框架及關(guān)鍵技術(shù)描述。首先根據(jù)文本篇章的外在形態(tài)和內(nèi)在邏輯構(gòu)建了包含主題維度和結(jié)構(gòu)維度的文本篇章結(jié)構(gòu)表示體系,然后,基于表示體系構(gòu)建了基于主題分割的文本篇章結(jié)構(gòu)分析框架,并重點對其中的主題分割和篇章關(guān)系分析算法進行了闡述。
關(guān)鍵詞: 篇章結(jié)構(gòu)分析; 篇章關(guān)系識別; 主題層次; 主題分割; 句際關(guān)系
中圖分類號:TP306 ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2019)13-0012-05
Abstract: For text structure analysis and semantic content understanding, a text structure analysis method based on topic level was proposed, which includes text structure representation system, text structure analysis framework and key technologies description. Firstly, according to the external form and internal logic of text, a text structure representation system including topic dimension and structure dimension was constructed. Then, a text structure analysis framework based on topic segmentation was constructed based on the representation system, and the algorithms of topic segmentation and text relationship analysis were emphatically expounded.
Key words: text structure analysis; text relation recognition; topic level; subject segmentation; inter-sentence relations
1 引言
文本的篇章結(jié)構(gòu)分析與語義內(nèi)容的自動理解是自然語言處理(Natural Language Processing,簡稱NLP)的一項重要的基礎(chǔ)研究內(nèi)容,是基于文檔庫的問答系統(tǒng)、文本閱讀理解、文本的摘要生成等技術(shù)和應(yīng)用系統(tǒng)所必需的研究基礎(chǔ)。
自然語言的單位由小到大可以分為字、詞、短語、句子、段落和篇章;其中,篇章的語義最為完整,能夠從多個側(cè)面、按多層級關(guān)系,描述具有關(guān)聯(lián)關(guān)系的一個或多個主題、事件、問題或情境,它由一系列連續(xù)的子句、句子或語段構(gòu)成。因此,篇章既包含了組成篇章的各級語義單元,還包含了他們之間的鏈接及邏輯關(guān)系。目前,針對篇章結(jié)構(gòu)的分析一般也是基于修辭結(jié)構(gòu)理論(Rhetorical Structure Theory, RST)從這兩個維度進行的,具體包括對篇章單位、連接詞、篇章結(jié)構(gòu)、篇章關(guān)系、篇章主次等方面的分析。
英語篇章結(jié)構(gòu)分析的理論研究比較多,相關(guān)理論主要包括Hobbs模型[1-2]、修辭結(jié)構(gòu)理論(Rhetorical Structure Theory, RST)[3-4]和賓州篇章樹庫體系(Penn Discourse Tree Bank,PDTB) [5-6]。漢語篇章結(jié)構(gòu)分析的理論研究較少,當前階段,仍然基于西方現(xiàn)代篇章語言學(xué)理論(比較有影響的是RST和PDTB體系)所進行,因此需要建立適合漢語特點的篇章結(jié)構(gòu)表示體系。為了進行全面、系統(tǒng)的篇章級文本分析,本文提出了一種基于主題層次的篇章結(jié)構(gòu)表示體系,在此基礎(chǔ)上建立了文本篇章結(jié)構(gòu)分析的框架。
2 基于主題層次的文本篇章結(jié)構(gòu)表示體系
一篇文檔(尤其是長文檔)往往描述了一個主題,而各個不同語義片段又描述了該主題的不同側(cè)面,不同側(cè)面下還可進行再細分,因此整篇文檔的各層語義片段的主題共同形成了一棵主題層次樹。主題層次樹中的不同節(jié)點之間存在著不同的關(guān)聯(lián)關(guān)系;在不同層級的主題中,又包含了不同的語義單元和連接關(guān)系,如圖1所示。
從文本的組織上,文本篇章是通過各級語義單位按照一定關(guān)系進行組織的,由詞語和小句(小句即一個句子中包含的小的分句)構(gòu)成句子,由句子的組合構(gòu)成段落,由段落的組合構(gòu)成篇章;其中,篇章關(guān)系表示同一篇章內(nèi)相鄰或跨度在一定范圍內(nèi)的文本片段之間的語義連接關(guān)系,可以包括句際關(guān)系(即句子或小句之間的關(guān)系)和段落之間的關(guān)系(也稱為宏觀篇章關(guān)系)。其層次組織關(guān)系如圖2所示。
根據(jù)文本的篇章組織結(jié)構(gòu)以及所表達的主題層次,將一篇文本分解成如圖3所示。
從而形成基于主題層次的篇章結(jié)構(gòu)表示體系,如圖4所示。文本的外在形態(tài)是篇章結(jié)構(gòu)層次及關(guān)系、內(nèi)在邏輯是主題層次及關(guān)系;篇章結(jié)構(gòu)層次之間的關(guān)系反映的就是主題層次的關(guān)系。
基于主題層次的篇章結(jié)構(gòu)表示體系包括表示維度和描述方法。表示維度從主題維度來說,包括主題、子主題、元事件、實體等,其中,主題和子主題通過主題描述、關(guān)鍵詞、主題與子主題的關(guān)系、子主題間的關(guān)系等;元事件通過元事件類型、元事件描述、各要素等來描述。結(jié)構(gòu)維度包括篇章、段落、句等,并通過篇章結(jié)構(gòu)層次、篇章關(guān)系來描述。
3 基于主題分割的文本篇章結(jié)構(gòu)分析框架
根據(jù)文本篇章結(jié)構(gòu)表示體系可知,從篇章內(nèi)容本身來說,一篇文本可以包含篇章段落結(jié)構(gòu)、按篇章結(jié)構(gòu)組織的文本內(nèi)容、按篇章結(jié)構(gòu)組織的多級主題和其他重點描述內(nèi)容;為了獲得這些內(nèi)容,本文建立的文本篇章結(jié)構(gòu)分析框架如下圖所示,包括篇章結(jié)構(gòu)解析和主題中相關(guān)重要內(nèi)容的抽取。對于篇章段落的層次結(jié)構(gòu)和關(guān)系識別是對文章宏觀層面的分析,是自頂向下對文章的分解,當前篇章關(guān)系識別多從篇章基本單元入手,分析句子之間文本片段的連接關(guān)系,是以自底向上的角度進行篇章關(guān)系的分析,但難以對篇幅規(guī)模較大的文本進行全面歸納,因此,本文提出了一種自頂向下的基于主題分割的文本篇章結(jié)構(gòu)分析框架。如圖5所示。
基于主題分割的文本篇章結(jié)構(gòu)分析框架中,通過多級主題分割,識別出篇章中包含的所有主題;同時結(jié)合篇章關(guān)系識別,將主題之間的關(guān)系和層次構(gòu)建出來;并對各個主題進行描述。其中,篇章關(guān)系識別包括主題間的篇章關(guān)系和主題內(nèi)的篇章關(guān)系,本文中,篇章關(guān)系的最小粒度即基本篇章單元(EDU)為小句。本文基于文獻[11],定義了漢語篇章關(guān)系類型,如表1所示。
表中“[ ]”內(nèi)表示英文標記符。關(guān)系包含大、中、小三種關(guān)系類型,顯示了不同粒度下的類型區(qū)分。大類上(CLASS)區(qū)分了“附屬”“聯(lián)合”“主從”三個類型。中類上劃分為 6 個類別,最細致的小類上劃分為 17 個類別。在上述大、中、小三層語義關(guān)系下,進行篇章關(guān)系分析時可以根據(jù)實際應(yīng)用需求選擇不同的粒度。
例如,在識別主題間的篇章關(guān)系時,關(guān)注的是相對宏觀的篇章關(guān)系,就可以選擇第2層中的并列、對比、推理、條件、總分、分總來表述。而在識別句間的主題內(nèi)篇章關(guān)系時,就可以選擇第2層到第3層的語義關(guān)系。
內(nèi)容抽取主要包括元事件及實體抽取,完成句子級或篇章級的元事件抽取、實體相關(guān)內(nèi)容抽?。ò▽嶓w抽取、實體相關(guān)描述、屬性及關(guān)系的抽取等)。其中,元事件是表示一個動作的狀態(tài)或變化的細粒度事件,是各級主題內(nèi)容的重要組成。根據(jù)ACE測評中對元事件描述的相關(guān)術(shù)語有:事件類型、事件描述、事件觸發(fā)詞、事件實體、事件實體描述、事件論元角色等。
4 關(guān)鍵技術(shù)實現(xiàn)方法概述
基于主題層次的文本篇章結(jié)構(gòu)分析中,主要涉及的關(guān)鍵技術(shù)有主題分割、篇章關(guān)系識別、元事件抽取、實體抽取、實體關(guān)系抽取等。總體處理思路是:人工標注一定規(guī)模的訓(xùn)練語料,包括通用領(lǐng)域和特定領(lǐng)域,而后采用機器學(xué)習(xí)方法訓(xùn)練模型進行自動分析和抽取。本文重點對主題分割、篇章關(guān)系識別方法進行概述。
4.1 主題分割
文本分割算法中需要解決的兩個根本問題是主題相關(guān)性度量以及邊界劃分策略。目前,文本分割方法主要有如下三種:(1)根據(jù)語言學(xué)特征,認為特定的語言現(xiàn)象,比如提示短語、新詞出現(xiàn)、命名實體、韻律特征、停頓標記、重復(fù)特征、指代使用、句法以及詞匯的形態(tài)同化等與片段首尾隱含著某種必然聯(lián)系;(2)假定相同、相似或語義相關(guān)的詞匯傾向于描述同一個主題,即傾向于出現(xiàn)在同一主題片段內(nèi)。需要從語料庫中統(tǒng)計分析詞搭配、互信息和詞匯共現(xiàn)頻率等語言知識,作為分割的依據(jù);(3)認為合適的概率統(tǒng)計模型能夠為片段邊界的估計提供可靠依據(jù)。近幾年,主題模型幵始應(yīng)用在文本分割領(lǐng)域,取得了很好的分割效果,特別是LDA模型的應(yīng)用。提下面介紹基于LDA模型的文本分割算法。
主題分割方面,可以采用基于LDA模型的文本分割。
一個文本通常需要討論若干個主題,而文本中的特定詞匯表征了所討論的主題。在文本主題建模中,將主題視為詞匯的概率分布,文本為這些主題的隨機混合。假設(shè)有T個主題,則所給文本中第i 個詞匯可以表示為:
利用局部最小值的邊界估計策略,通過句間相似值識別段落邊界。按相關(guān)度結(jié)果繪圖,高相關(guān)處出現(xiàn)波峰,低相關(guān)處出現(xiàn)波谷,選擇波谷處作為分界線,將自然段組合成語義段。進一步,選擇該語義段中概率最高的前L個詞作為主題詞。
4.2 篇章關(guān)系分析
如前所述,篇章關(guān)系分析根據(jù)關(guān)系粒度可以分為宏觀篇章關(guān)系識別和句際關(guān)系識別。篇章關(guān)系分析根據(jù)是否存在連接詞,分為顯式篇章關(guān)系識別和隱式篇章關(guān)系識別兩大類。顯式關(guān)系的顯著特征是篇章的基本單元之間存在顯式連接詞,因此,顯式篇章關(guān)系識別主要包含了漢語連接詞識別和篇章關(guān)系分類兩個步驟。隱式關(guān)系識別由于連接詞缺失,判斷兩個基本篇章單元之間存在何種邏輯關(guān)系較困難,通常只能根據(jù)一些語言學(xué)特征進行關(guān)系識別。
目前國內(nèi)的篇章關(guān)系研究仍處于初級階段,文獻[15]提出構(gòu)建中文篇章樹庫的任務(wù),文獻[16]根據(jù)中文特點基于PDTB語料的標注特征提出具體的中文篇章關(guān)系標注準則,文獻[17]參照PDTB中定義的篇章關(guān)系類型,初步構(gòu)建面向中文的篇章關(guān)系分析數(shù)據(jù)。
下面介紹一種基于監(jiān)督學(xué)習(xí)和規(guī)則相結(jié)合的方法。
自下而上進行篇章關(guān)系識別時,可以分為三個步驟:第一步,將句子切分為基本篇章單元(EDU);第二步,分析句子之間的修辭關(guān)系,構(gòu)建層級結(jié)構(gòu)樹,以表征各個EDU的層級結(jié)構(gòu);第三步,識別結(jié)構(gòu)樹中節(jié)點之間的內(nèi)部關(guān)系,以表征各個EDU的關(guān)系標簽。
第一步中,直接利用標點符號“,”將句子切分為互不重疊、交叉、連續(xù)的“小句”,即基本篇章單元(EDU)。
第二步,層級結(jié)構(gòu)分析,可以采用排序SVM和基于規(guī)則的方法。
排序SVM方法中,將連續(xù)三個篇章單元作為一個樣例,通過比較此相鄰兩對篇章單元的結(jié)合緊密程度定義正例和負,來訓(xùn)練分類器。
基于規(guī)則的方法中,一個IF-THEN規(guī)則是一個如下的表達式:IF條件THEN結(jié)論。規(guī)則的結(jié)論包含一個類預(yù)測,這里指的是是否合并節(jié)點。
規(guī)則和 SVM 分類器融合的方法為:
1)使用冒號和分號將整個句子切分成多個子句序列;
2)對于分號切分開的并列語句,分別使用 SVM 方法建樹;
3)對于使用冒號切分開的語句,如果左半部分包含不止一個小句,那么先將最后一個小句與右半部分合并建樹,再和左半部分其余節(jié)點一塊兒使用 SVM 方法建樹。
第三步,句際關(guān)系識別,基于SVM的方法:在人工標記語料上訓(xùn)練多分類SVM模型,然后利用訓(xùn)練好的模型對句子層級結(jié)構(gòu)樹中每一個內(nèi)部節(jié)點進行關(guān)系識別。規(guī)則方法:主要是借助連接詞和副詞信息進行規(guī)則判定。
每個訓(xùn)練樣例(待識別的層級結(jié)構(gòu)關(guān)系樹內(nèi)部節(jié)點)都由兩個篇章單元(當前關(guān)系樹的左右子樹)組成,分別記為左單元(UL)和右單元(UR)。方便起見,將左單元最后一個EDU記為EUL,右單元第一個EDU記為EUR。實驗中SVM模型采用的特征如表2 所示:
5 ?實驗
本文基于文本篇章結(jié)構(gòu)表示體系,采用基于文本分割的篇章結(jié)構(gòu)分析方法,參考文獻[11]的篇章級句際關(guān)系標注體系,開發(fā)了標注工具,進行了一定數(shù)據(jù)的篇章關(guān)系語料標注;在文本結(jié)構(gòu)層次分析中采用基于LDA的文本分割方法,對于一篇有42個自然段的長文本,實驗結(jié)果如圖6所示。
然后采用文中基于監(jiān)督學(xué)習(xí)和規(guī)則相結(jié)合的方法,對主題內(nèi)的句際篇章關(guān)系進行分析,其中一段的分析結(jié)果如圖7所示。
基于人工標注數(shù)據(jù)進行測試,層級結(jié)構(gòu)分析的正確率為 66.5%,關(guān)系類型識別的F值為71%。實驗表明,本文提出的自頂向下的篇章結(jié)構(gòu)分析思路具備良好的有效性。
6 ?結(jié)論
在本文中,我們提出了一種基于主題層次的文本篇章結(jié)構(gòu)分析方法,這是一種自頂向下的篇章結(jié)構(gòu)表示體系,能夠從宏觀和微觀角度建立文本篇章的畫像,擴展了篇章結(jié)構(gòu)的表示維度;基于該表示體系,本文提出了基于文本分割的篇章結(jié)構(gòu)分析框架,能有效實現(xiàn)對篇章結(jié)構(gòu)的分析。
參考文獻:
[1] Hobbs J. R. Coherence and coreference[J]. Cognitive Science, 1979,3(1):67-90.
[2] Hobbs J. R. Information, Intention, and Structure in Discourse: A first draft[C]. In Burning Issues in Discourse, NATO Advanced Research Workshop, 1993:41-66.
[3] Mann W. C. and Thompson S. A. Relational propositions in discourse[J]. Discourse processes, 1986, 9(1):57-90.
[4] Mann W. C. and Thompson S. A. Rhetorical structure theory: A theory of text organization[M]. University of Southern California, Information Sciences Institute, 1987.
[5] Mann W. C., Matthiessen C., and Thompson S. A. Rhetorical structure theory and text analysis[J]. Discourse description: Diverse linguistic analyses of a fund-raising text, 1992:39-78.
[6] Prasad R., Dinesh N., et al. The Penn Discourse Treebank 2.0[C]. In Proceedings of LREC, 2008:2961-2968.
[7] PDTB Research Group. The Penn discourse treebank 2.0 annotation manual[R]. IRCS Technical Reports Series, 2007, 99p.
[8] 丁彬, 孔芳, 李生. 漢語顯式篇章關(guān)系分析[J]. 北京大學(xué)學(xué)報(自然科學(xué)版),2014, 28(6):101-106.
[9] 孫靜, 李艷翠, 周國棟. 漢語隱式篇章關(guān)系識別[J]. 中文信息學(xué)報, 2014,50(1): 111-117.
[10] 呂國英, 蘇娜, 李茹. 基于框架的漢語篇章結(jié)構(gòu)生成和篇章關(guān)系識別[J]. 中文信息學(xué)報,2015,11.29(6): 98-109.
[11] 吳云芳, 徐藝峰, 王愷然. 漢語篇章級小句關(guān)系的標注體系[J]. 中文信息學(xué)報,2015,5. 29(3): 71-81.
[12] 嚴為絨, 徐揚, 朱珊珊. 篇章關(guān)系分析研究綜述[J]. 中文信息學(xué)報.,2016,7. 30(4): 1-11.
[13] 李國臣, 張雅星, 李 茹. 基于漢語框架語義網(wǎng)的篇章關(guān)系識別[J]. 中文信息學(xué)報, 2017,11. 31(6): 172-189.
[14] 李效晉. 基于統(tǒng)計模型的文本分割方法及其改進[J]. 山東: 山東大學(xué), 2014.
[15] N Xue. Annotating discourse connectives in the Chinese Treebank[C]. Proceedings of the Workshop on Frontiers in Corpus Annotations II: Pie in the Sky, 2005: 84-91.
[16] Y Zhou, N Xue. Pdtb-style discourse annotation of Chinese text[C]. Proceedings of the 50th Annual Meeting of the ACL, 2012: 69-77.
[17] H H Huang, H H Chen. Chinese Discourse Relation Recognition[C]. Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP), 2011: 1142-1146.
【通聯(lián)編輯:唐一東】