国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ERNIE-Gram和TinyBERT混合模型的復(fù)句關(guān)系體系轉(zhuǎn)換

2022-02-03 13:12:26楊進(jìn)才陳雪松蔡旭勛
中文信息學(xué)報 2022年12期
關(guān)鍵詞:復(fù)句語料語料庫

楊進(jìn)才,陳雪松,2,胡 泉,蔡旭勛

(1. 華中師范大學(xué) 計算機學(xué)院,湖北 武漢 430079; 2. 武漢中學(xué),湖北 武漢 43006;3. 華中師范大學(xué) 人工智能教育學(xué)部,湖北 武漢 430079)

0 引言

復(fù)句是由兩個或兩個以上意義上緊密相關(guān)、結(jié)構(gòu)上互不包含的分句構(gòu)成的句子[1]。復(fù)句作為聯(lián)結(jié)篇章的橋梁,其研究屬于篇章關(guān)系研究范疇。在中文信息處理領(lǐng)域,對篇章關(guān)系的研究還處于初級階段,處理方法和評價標(biāo)準(zhǔn)大多借鑒于西方語言學(xué)[2]。復(fù)句理論不僅適用于句子,經(jīng)過改進(jìn)后也能用于句子以上的篇章單元[3]。

常見的復(fù)句關(guān)系分類體系有復(fù)句三分系統(tǒng)、賓州篇章樹庫(Penn Discourse Treebank,PDTB)2.0分類體系。復(fù)句三分系統(tǒng)是漢語復(fù)句關(guān)系研究的重要分類體系,PDTB 2.0是英語篇章分析領(lǐng)域重要的分類體系,以PDTB 2.0為指導(dǎo)構(gòu)建的語料庫是篇章分析領(lǐng)域規(guī)模最大的語言學(xué)資源[4]。建立復(fù)句三分系統(tǒng)與PDTB 2.0的關(guān)系對應(yīng)模式與轉(zhuǎn)換算法能促進(jìn)語言學(xué)研究對篇章關(guān)系的進(jìn)一步補充與完善,深化中英文篇章關(guān)系的銜接,推動中文篇章關(guān)系研究的國際化。同時指導(dǎo)機器翻譯、語言教學(xué)、自動問答等任務(wù)。復(fù)句三分系統(tǒng)與PDTB 2.0面向的語言分別為漢語、英語,難以根據(jù)語料直接建立兩者關(guān)系對應(yīng)模式。哈工大HIT-CDTB[5]分類體系以PDTB 2.0為基礎(chǔ),同時使用了漢語復(fù)句分類系統(tǒng)中的部分關(guān)系定義,對漢語復(fù)句進(jìn)行分類。以HIT-CDTB中語料為基礎(chǔ),標(biāo)注每條語料在三種分類體系下的關(guān)系類別,能夠建立三者的對應(yīng)關(guān)系。如例1在復(fù)句三分系統(tǒng)、HIT-CDTB、PDTB 2.0三種分類體系中對應(yīng)的關(guān)系類別分別為: 轉(zhuǎn)折類-讓步、比較-讓步-讓步在先、COMPARISON-Concession-expectation。

例1 盡管英文很生硬,他仍然談笑風(fēng)生。(HIT-CDTB語料庫)

以HIT-CDTB為媒介,三者的關(guān)系對應(yīng)模式如圖1所示。圖1中,復(fù)句三分系統(tǒng)與HIT-CDTB關(guān)系對應(yīng)模式有兩種,分別為“一對一”與“一對多”。HIT-CDTB中的關(guān)系類別大多源于PDTB 2.0,而PDTB 2.0關(guān)系類別則多為一一對應(yīng)模式。因此,只要能夠建立復(fù)句三分系統(tǒng)與HIT-CDTB的關(guān)系對應(yīng)轉(zhuǎn)換算法,就能夠?qū)崿F(xiàn)三種分類體系之間關(guān)系類別的自動轉(zhuǎn)換。

圖1 三種分類系統(tǒng)的對應(yīng)關(guān)系

有兩種方法可用來實現(xiàn)不同分類體系之間的關(guān)系轉(zhuǎn)換: 基于規(guī)則的專家系統(tǒng)與基于統(tǒng)計模型的方法。前者由專家手工制定規(guī)則并構(gòu)建推理程序、產(chǎn)生推理結(jié)果,其優(yōu)點是規(guī)則詳細(xì)、考慮全面,缺點是規(guī)則建立過程復(fù)雜、難以拓展,且容易出現(xiàn)規(guī)則沖突。后者主張通過建立特定的數(shù)學(xué)模型來學(xué)習(xí)語言結(jié)構(gòu),利用統(tǒng)計學(xué)、機器學(xué)習(xí)等方法來訓(xùn)練模型的參數(shù),使用模型產(chǎn)生結(jié)果[6],其優(yōu)點是簡單高效、易于擴展,缺點是準(zhǔn)確率低于前者、模型過程不透明、對硬件要求高。

如果能夠結(jié)合兩種方法的優(yōu)點,同時保持較高的準(zhǔn)確率與較廣的適用范圍,將大幅提高轉(zhuǎn)換算法的應(yīng)用水平。

目前,我們已經(jīng)建立兩種分類體系部分關(guān)系之間的轉(zhuǎn)換規(guī)則,并通過構(gòu)建專家系統(tǒng)實現(xiàn)部分關(guān)系的自動轉(zhuǎn)換(另有論文詳述,本文僅簡單介紹規(guī)則轉(zhuǎn)換框架)。

基于統(tǒng)計的學(xué)習(xí)方法是當(dāng)前學(xué)界的主流處理方法。其中,使用微調(diào)后的預(yù)訓(xùn)練模型對文本進(jìn)行處理成為共識[7]。預(yù)訓(xùn)練方法基于大規(guī)模文本,通過預(yù)訓(xùn)練得出通用的語言表示,再通過微調(diào)的手段將學(xué)習(xí)到的知識用于下游任務(wù),可擴展性強。

本文在已經(jīng)建立復(fù)句三分系統(tǒng)與HIT-CDTB部分關(guān)系類別轉(zhuǎn)換規(guī)則的基礎(chǔ)之上,使用預(yù)訓(xùn)練模型與規(guī)則相結(jié)合的方法,同時使用數(shù)據(jù)增強技術(shù)實現(xiàn)從復(fù)句三分系統(tǒng)到HIT-CDTB、從HIT-CDTB到復(fù)句三分系統(tǒng)關(guān)系類別的自動轉(zhuǎn)換。

1 相關(guān)工作

國內(nèi)關(guān)于復(fù)句關(guān)系分類的理論有很多,邢福義[1]與張牧宇[5]的理論較典型。邢福義根據(jù)“從關(guān)系出發(fā),用標(biāo)志控制”的原則構(gòu)建漢語復(fù)句關(guān)系因果、并列、轉(zhuǎn)折三分系統(tǒng),下轄12小類。張牧宇吸收西方PDTB篇章關(guān)系分類體系,將包括復(fù)句在內(nèi)的篇章關(guān)系分為4大類,構(gòu)建HIT-CDTB語料庫。

基于復(fù)句三分系統(tǒng),華中師范大學(xué)開發(fā)了漢語復(fù)句語料庫(the Corpus of Chinese Compound Sentences,CCCS)(1)http://linguist.ccnu.edu.cn/jiansuo/TestFuju.jsp,這是一個面向漢語復(fù)句研究的專用語料庫。該語料庫僅涉及有標(biāo)復(fù)句,每條語料均標(biāo)注了關(guān)系標(biāo)記。

張牧宇等[5]基于PDTB 2.0(2)https://catalog.ldc.upenn.edu/LDC2008T05,并對其進(jìn)行了適當(dāng)?shù)男薷?,?gòu)建了哈工大中文篇章關(guān)系語料庫(HIT-CDTB)(3)http://ir.hit.edu.chit-cdtb/index.html。HIT-CDTB增加了二級關(guān)系類別“目的”“遞進(jìn)”“并列”,刪除了有關(guān)時態(tài)的關(guān)系類別并對其進(jìn)行重構(gòu)。該體系從句群、復(fù)句、分句三個層次對語料進(jìn)行標(biāo)注。

應(yīng)用研究主要關(guān)注兩個方面: 一是復(fù)句關(guān)系標(biāo)記的識別,二是復(fù)句關(guān)系類別的識別。

1.1 復(fù)句關(guān)系標(biāo)記識別

文獻(xiàn)[8-9]在復(fù)句關(guān)系標(biāo)記識別規(guī)則的建立與維護(hù)上做了大量工作,包括建立漢語復(fù)句關(guān)系詞庫,提出復(fù)句關(guān)系標(biāo)記識別的規(guī)則表示方法,構(gòu)建規(guī)則庫及其維護(hù)與沖突處理方法等。復(fù)句關(guān)系標(biāo)記的研究為復(fù)句關(guān)系的識別打好了基礎(chǔ)。

1.2 復(fù)句關(guān)系識別

復(fù)句關(guān)系的識別有基于規(guī)則的方法與基于統(tǒng)計的方法?;谝?guī)則的方法借助已經(jīng)建立的關(guān)系標(biāo)記規(guī)則庫,構(gòu)建復(fù)句關(guān)系識別的規(guī)則。文獻(xiàn)[10-11]使用SVM、語義相關(guān)度算法等對復(fù)句進(jìn)行識別?;诮y(tǒng)計的方法借助大規(guī)模語料庫,利用概率論等知識建立復(fù)句關(guān)系識別的數(shù)學(xué)模型,文獻(xiàn)[12-13]基于CNN等神經(jīng)網(wǎng)絡(luò)模型識別漢語復(fù)句關(guān)系。上述方法都是基于特定任務(wù)而設(shè)計的,過程復(fù)雜,在處理不同任務(wù)時需要從頭開始訓(xùn)練,時間花費大。本文利用已經(jīng)在大規(guī)?;鶞?zhǔn)數(shù)據(jù)集上訓(xùn)練過的模型,通過微調(diào),將其應(yīng)用到復(fù)句關(guān)系轉(zhuǎn)換任務(wù)上。

2 關(guān)系識別與轉(zhuǎn)換的混合模型

2.1 預(yù)訓(xùn)練模型(PTM)

在復(fù)句關(guān)系識別任務(wù)中,傳統(tǒng)的方法多基于機器學(xué)習(xí)與不可遷移的神經(jīng)網(wǎng)絡(luò)。預(yù)訓(xùn)練屬于遷移學(xué)習(xí)的范疇,它能夠?qū)W(xué)習(xí)到的知識存儲在模型里,從而提高下游任務(wù)的準(zhǔn)確率。預(yù)訓(xùn)練模型因簡便高效而逐漸被廣泛應(yīng)用于自然語言處理領(lǐng)域。

2013年,Word2Vec[14]首次將預(yù)訓(xùn)練模型用于自然語言處理。隨后Transformer[15]模型將預(yù)訓(xùn)練語言模型的效果提升到了新的高度。BERT[16]、GPT-3[17]等模型分別使用自編碼(Autoencoder)語言建模和自回歸(Autoregressive)語言建模作為預(yù)訓(xùn)練目標(biāo)。后續(xù)的 PTM 都是這兩個模型的變體,如本文中使用的ERNIE-Gram、TinyBERT。

預(yù)訓(xùn)練模型分為預(yù)訓(xùn)練和微調(diào)兩個階段。在預(yù)訓(xùn)練階段,借助大規(guī)模語料,使用Masked掩碼語言模型等方法生成深度雙向語言表示向量;在微調(diào)階段,根據(jù)不同任務(wù)使用不同網(wǎng)絡(luò)模型。本文在ERNIE-Gram、TinyBERT模型中嵌入主成分分析PCA(Principal Component Analysis)方法提高句向量的區(qū)分度 (圖2)。

圖2 嵌入PCA方法的BERT/ERNIE-Gram/TinyBERT模型架構(gòu)

2.1.1 ERNIE-Gram

命名實體與短語等粗粒度的語言信息有助于在預(yù)訓(xùn)練時進(jìn)行充分的表征學(xué)習(xí),從而更好地處理中文文本。之前的預(yù)訓(xùn)練模型主要集中在擴展BERT的掩碼語言建模(MLM)目標(biāo),忽略了對粗粒度語言信息的內(nèi)在依賴和相互關(guān)系的建模。ERNIE-Gram[18]提出一種顯式的N-gram掩蔽方法,以將增強粗粒度信息集成到預(yù)訓(xùn)練模型,同時提升預(yù)訓(xùn)練模型的收斂速度(圖3)。圖3(a)中,傳統(tǒng)的MLM方法(Contiguous MLM)將“談笑風(fēng)生”等類似的短語、命名實體中的每個字符單獨掩碼并預(yù)測,這種方法忽視了該短語內(nèi)部各字符之間的關(guān)系。ERNIE-Gram在預(yù)訓(xùn)練階段將“談笑風(fēng)生”作為一個整體進(jìn)行掩碼并預(yù)測(ExplicitN-gram MLM)[圖3(b)]。在實際預(yù)訓(xùn)練模型中,ERNIE-Gram同時采用上述兩種方法預(yù)測掩碼代表的字符與短語[圖3(c)],既考慮單個字符含義,也考慮短語內(nèi)部字符關(guān)系,能夠獲取中文句子內(nèi)容不同層次單元的語義信息。因此,對于包含大量粗粒度語言信息的中文文本來說,ERNIE-Gram具有較好的性能。本文中的混合模型正是基于ERNIE-Gram生成的詞向量進(jìn)行復(fù)句關(guān)系的識別與轉(zhuǎn)換。

圖3 三種MLM方法

2.1.2 TinyBERT

TinyBERT[19]是華為公司提出的一種蒸餾 BERT 的方法(圖4),模型大小接近BERT的1/7,而速度能提高9倍。圖4左側(cè)為Teacher模型BERT,右側(cè)為蒸餾后的Student模型TinyBERT。Student模型在Embedding Layer、Transformer Layer、Prediction Layer都小于Teacher模型。原始的BERT功能強大,但體量過大,計算耗時,使用TinyBERT可以取長補短??傮w而言,TinyBERT具有簡便、高效的特點。本文的組合模型體量龐大,使用TinyBERT能夠在保證性能的前提下盡量降低模型復(fù)雜度,同時降低對硬件的要求。

圖4 TinyBERT蒸餾過程

2.2 主成分分析(PCA)

主成分分析[20]通過將許多存在關(guān)聯(lián)的指標(biāo)按照一定的變換方法再次組合,以此取代原來指標(biāo)的方法。在一條復(fù)句中,每個詞所代表的詞向量都存在不同程度的相似性,通過PCA提取所有詞向量中相似度高的部分,即主成分,用原來的詞向量減去主成分,生成新的詞向量。新生成的詞向量最大程度地剔除了相似部分,保留了相異部分,也就間接構(gòu)造出相關(guān)度低的句向量,最大程度地保留了每條復(fù)句的特異性,能提高復(fù)句關(guān)系類別轉(zhuǎn)換準(zhǔn)確率。對于本文用到的每個預(yù)訓(xùn)練模型,在Embedding層對詞向量進(jìn)行去除第一主成分操作。

2.3 轉(zhuǎn)換規(guī)則與專家系統(tǒng)

復(fù)句三分系統(tǒng)與HIT-CDTB分類系統(tǒng)存在對應(yīng)關(guān)系,依據(jù)兩種分類體系的標(biāo)準(zhǔn),對八種關(guān)系建立了關(guān)系對應(yīng)模式(表1)。以關(guān)系標(biāo)記“因為”為例,部分轉(zhuǎn)換規(guī)則見表2?!胺志鋽?shù)量”“關(guān)系標(biāo)記所在序號”“關(guān)聯(lián)分句的序號”三項特征由特征分析器識別,分句的序號按從左到右的順序標(biāo)示,當(dāng)分句位于復(fù)句末尾時也可用“-1”標(biāo)示。表2中的轉(zhuǎn)換規(guī)則用于兩種分類體系的關(guān)系對應(yīng)雙向轉(zhuǎn)換。

表1 八種關(guān)系對應(yīng)模式

續(xù)表

表2 關(guān)系轉(zhuǎn)換規(guī)則

進(jìn)行關(guān)系轉(zhuǎn)換的專家系統(tǒng)如圖5所示。輸入一條復(fù)句,復(fù)句特征分析器提取詞性、依存關(guān)系、關(guān)系標(biāo)記等特征;規(guī)則引擎分析提取的特征,利用關(guān)系類別對應(yīng)表識別復(fù)句關(guān)系類別;利用關(guān)系轉(zhuǎn)換規(guī)則庫將關(guān)系類別轉(zhuǎn)換為另一分類體系下的關(guān)系類別,實現(xiàn)兩種分類體系下復(fù)句關(guān)系類別的自動轉(zhuǎn)換。

圖5 基于規(guī)則的關(guān)系對應(yīng)自動轉(zhuǎn)換專家系統(tǒng)

2.4 數(shù)據(jù)增強

HIT-CDTB語料庫數(shù)據(jù)量小且分布不均衡,通過數(shù)據(jù)增強的手段可以增加數(shù)據(jù)量,提高模型性能。文本數(shù)據(jù)增強有加噪、回譯兩種方法。加噪指在原數(shù)據(jù)的基礎(chǔ)上通過替換、刪除等操作改變原數(shù)據(jù)部分字詞,從而產(chǎn)生類似的新文本?;刈g通過將原有數(shù)據(jù)翻譯為其他語言再翻譯回原語言,產(chǎn)生與原始文本類似的數(shù)據(jù)。EDA[21]對比分析同義替換、隨機插入、隨機交換等幾種加噪方法,指出同義替換方法對文本原義影響最小。因此,本文采用同義替換的數(shù)據(jù)增強方法,根據(jù)詞向量的相似度大小,從哈工大《同義詞詞林》擴展版(4)https://www.ltp-cloud.com/download中抽取同義詞對原數(shù)據(jù)進(jìn)行擴充,過程見圖6(b)。但是,擴充的語料不是越多越好,過多容易過擬合。參照文獻(xiàn)[18]的建議,結(jié)合實驗數(shù)據(jù),每1條原始句子生成新句子的數(shù)量為7,每條原始句子替換1~3個同義詞后組成一條新句子。

圖6(b)中,提取原句子中的“很”“生硬”“仍然”三個詞,在《同義詞詞林》中分別找到上述三個詞的同義詞組,同時利用騰訊AI實驗室(5)https://ai.tencent.com/ailab/zh/index訓(xùn)練好的對應(yīng)詞向量計算它們與原詞詞向量的相似度,取相似度最高的詞“非常”“別扭”“依然”。經(jīng)過組合,原句子生成了7條新的復(fù)句。最終訓(xùn)練集擴展為53 741條,驗證集仍為683條。

圖6 轉(zhuǎn)換過程示意圖

2.5 基于ERNIE-Gram和TinyBERT混合模型的關(guān)系轉(zhuǎn)換

語料庫中的復(fù)句不是所有的都滿足“一一對應(yīng)”模式,規(guī)則只針對復(fù)句三分系統(tǒng)中的8類、HIT-CDTB中的17類,不能覆蓋所有關(guān)系對應(yīng)模式。因此,設(shè)計基于ERNIE-Gram和TinyBERT的關(guān)系轉(zhuǎn)換混合模型。

轉(zhuǎn)換過程見圖6(a)。ERNIE-Gram的主要功能是利用HIT-CDTB語料庫生成具有復(fù)句特征的詞向量,分別供兩個TinyBERT模型使用。左邊的TinyBERT1輸入ERNIE-Gram生成的詞向量,轉(zhuǎn)換為三分系統(tǒng)分類體系下的關(guān)系類別。右邊的TinyBERT2輸入ERNIE-Gram傳遞過來的詞向量,轉(zhuǎn)換為HIT-CDTB系統(tǒng)分類體系下的復(fù)句關(guān)系類別。在每個預(yù)訓(xùn)練模型中,增加了主成分分析模塊,對每組詞向量,都去除其第一主成分。最后,利用規(guī)則庫(表2),再次對兩種分類體系中的部分關(guān)系對應(yīng)進(jìn)行轉(zhuǎn)換。

2.5.1 數(shù)據(jù)增強

對于任意一條從HIT-CDTB提取的復(fù)句向量,表示為矩陣Uij={u1,…,un},利用同義詞詞林進(jìn)行數(shù)據(jù)增強后,生成7條新句子,如式(1)所示。

Uij→{Ui1,Ui2,Ui3,Ui4,Ui5,Ui6,Ui7,Ui8}

(1)

2.5.2 利用預(yù)訓(xùn)練模型進(jìn)行自動轉(zhuǎn)換

將每條復(fù)句在復(fù)句三分系統(tǒng)、HIT-CDTB中的關(guān)系類別分別標(biāo)記為向量y1、y2。其中,y1∈三分系統(tǒng)12小類,y2∈HIT-CCDTB系統(tǒng)29小類。帶關(guān)系標(biāo)記的復(fù)句表示為U′ij={y1,u1,…,un,y2}。經(jīng)ERNIE-Gram模型中Embedding層編碼,輸入的復(fù)句表示為如式(2)所示的矩陣。

(2)

其中,We為字符的Embedding矩陣,Ws為分段矩陣,Wp為位置編碼矩陣。

利用PCA主成分分析方法計算h0的第一主成分,表示為p1,去除p1過程如式(3)所示。

(3)

隨后將去除第一主成分后的矩陣h0輸入具有n層結(jié)構(gòu)的Transformer模塊中,這一過程如式(4)所示。

hl=Transformerblock(hl -1)?l∈[1,n]

(4)

Wy為線性層權(quán)重。TinyBERT1預(yù)測三分系統(tǒng)共12小類,TinyBERT2預(yù)測HIT-CDTB系統(tǒng)共29小類。

2.5.3 利用預(yù)訓(xùn)練模型+規(guī)則進(jìn)行轉(zhuǎn)換

在第二階段已經(jīng)對所有6 691條語料得出轉(zhuǎn)換結(jié)果的基礎(chǔ)上,對符合轉(zhuǎn)換規(guī)則的部分關(guān)系(共3 029條語料,約占語料總數(shù)的45.3%),重新利用規(guī)則進(jìn)行轉(zhuǎn)換,所得結(jié)果覆蓋第二階段基于預(yù)訓(xùn)練模型進(jìn)行轉(zhuǎn)換的結(jié)果;對不符合轉(zhuǎn)換規(guī)則的語料(共3 662條),保留第二階段的轉(zhuǎn)換結(jié)果。最后合并兩種方法的轉(zhuǎn)換結(jié)果,統(tǒng)一計算各項指標(biāo)。具體而言,對于每條復(fù)句,提取其關(guān)系標(biāo)記,如果關(guān)系轉(zhuǎn)換規(guī)則庫(表2)中包括該關(guān)系標(biāo)記,則使用專家系統(tǒng)重新對該條復(fù)句進(jìn)行分類,覆蓋基于預(yù)訓(xùn)練模型的轉(zhuǎn)換結(jié)果;如果未包含該關(guān)系,則保留基于預(yù)訓(xùn)練模型的轉(zhuǎn)換結(jié)果。

(7)

其中,Rules如表2所示。

3 實驗

3.1 數(shù)據(jù)集

選取HIT-CDTB語料庫中的有標(biāo)復(fù)句。HIT-CDTB語料庫共包含語料24 706條,包括句群、句間、句內(nèi)等篇章單元,提取其中的復(fù)句語料共6 691條。同時根據(jù)復(fù)句三分系統(tǒng)對這6 691條復(fù)句進(jìn)行分類(表3)。每條復(fù)句在兩種分類體系下都有對應(yīng)的關(guān)系。

由于HIT-CDTB語料庫中復(fù)句較少、數(shù)據(jù)分布極不均衡,不能體現(xiàn)PCA模塊對原始預(yù)訓(xùn)練模型性能的影響。為了驗證ERNIE-Gram、Tiny-BERT模型添加PCA模塊后的性能,也為了使ERNIE-Gram能夠生成更好的帶有復(fù)句特征的詞向量,從CCCS語料庫中提取有標(biāo)復(fù)句12 000條(如表4所示),以此試驗添加PCA后ERNIE-Gram與Tiny-BERT的性能變化。

表3 三分系統(tǒng)與HIT-CDTB關(guān)系對應(yīng)語料庫

續(xù)表

表4 CCCS語料

3.2 參數(shù)與指標(biāo)

語料來自前文所述的HIT-CDTB與CCCS,硬件使用百度AI studio服務(wù)器(6)https://aistudio.baidu.com/aistudio/index,具體參數(shù)見表5。

表5 實驗相關(guān)參數(shù)

續(xù)表

指標(biāo)包括精確率(Precision,P)、召回率(Recall,R)、F1值(F1-score)、準(zhǔn)確率(Accuracy,Acc)。針對具有K種篇章關(guān)系類別的分類系統(tǒng),可定義如式(8)所示分類結(jié)果的矩陣。

(8)

其中,nij表示將i關(guān)系類別的篇章關(guān)系實例推斷為j關(guān)系類別的實例個數(shù)。上述評價指標(biāo)的計算如式(9)~式(12)所示。

3.3 結(jié)果與分析

3.3.1 ERNIE-Gram、TinyBERT在添加PCA模塊前后的性能對比

在混合模型中,只需要ERNIE-Gram生成的詞向量,ERNIE-Gram不直接參與關(guān)系轉(zhuǎn)換過程,但是為了判斷詞向量的質(zhì)量,驗證模型的可行性,我們利用從CCCS中抽取的語料驗證ERNIE-Gram和TinyBERT預(yù)訓(xùn)練模型的性能,結(jié)果如表6所示。

表6 CCCS語料庫的實驗結(jié)果

從表6中可看出,ERNIE-Gram與TinyBERT整體上性能接近,準(zhǔn)確率都超過了90%,在每個預(yù)訓(xùn)練模型中,添加PCA模塊去除第一主成分的模型性能優(yōu)于未添加PCA的原始模型。

實現(xiàn)復(fù)句三分系統(tǒng)12小類與HIT-CDTB系統(tǒng)29小類的相互轉(zhuǎn)換在圖6中第二、第三階段均可完成,第二階段使用預(yù)訓(xùn)練模型進(jìn)行轉(zhuǎn)換;第三階段使用預(yù)訓(xùn)練模型+規(guī)則進(jìn)行轉(zhuǎn)換。

3.3.2 HIT-CDTB→復(fù)句三分系統(tǒng)實驗結(jié)果

表7展示從HIT-CDTB到復(fù)句三分系統(tǒng)這一方向的轉(zhuǎn)換結(jié)果,分為“基于預(yù)訓(xùn)練模型”與“預(yù)訓(xùn)練模型+規(guī)則”兩種方式。表7整體準(zhǔn)確率較表8更高,主要原因為三分系統(tǒng)只有12類,而HIT-CDTB有29類。此外,“預(yù)訓(xùn)練模型+規(guī)則”轉(zhuǎn)換準(zhǔn)確率遠(yuǎn)高于僅依賴預(yù)訓(xùn)練模型轉(zhuǎn)換,原因則是HIT-CDTB中的類別與三分系統(tǒng)中的類別對應(yīng)關(guān)系以多對一為主,使用規(guī)則能減少轉(zhuǎn)換時的不確定性,這也體現(xiàn)了專家系統(tǒng)的優(yōu)勢。

表7 HIT-CDTB→復(fù)句三分系統(tǒng)轉(zhuǎn)換結(jié)果 (單位: %)

3.3.3 復(fù)句三分系統(tǒng)→HIT-CDTB實驗結(jié)果

表8展示從復(fù)句三分系統(tǒng)到HIT-CDTB這一方向的轉(zhuǎn)換結(jié)果。從表8中可看出,預(yù)訓(xùn)練準(zhǔn)確率為76.13%,模型+規(guī)則轉(zhuǎn)換比自動轉(zhuǎn)換高約1.5個百分比,主要原因與表6類似,在關(guān)系對應(yīng)表中,連貫與1-2-1先序、假轉(zhuǎn)與3-2簡介對比分別一一對應(yīng)。

表8 復(fù)句三分系統(tǒng)→HIT-CDTB轉(zhuǎn)換結(jié)果 (單位: %)

續(xù)表

整體來看,從HIT-CDTB→三分系統(tǒng)比從三分系統(tǒng)→HIT-CDTB轉(zhuǎn)換準(zhǔn)確率要高,一方面是由于三分系統(tǒng)的12種關(guān)系數(shù)量少于HIT-CDTB中的29種關(guān)系類別;另一方面則與預(yù)訓(xùn)練模型、轉(zhuǎn)換規(guī)則有關(guān)。本文中用到的ERNIE-Gram模型更適合處理中文文本,而HIT-CDTB分類系統(tǒng)以英文篇章分類系統(tǒng)PDTB2.0為基礎(chǔ);自建的轉(zhuǎn)換規(guī)則覆蓋三分系統(tǒng)12種類別中的8類,而只包括HIT-CDTB系統(tǒng)29類中的17種。第三階段結(jié)合了規(guī)則+統(tǒng)計兩種方法,既保留了準(zhǔn)確率,又提高了轉(zhuǎn)換算法的適用范圍,因此效果最好。

4 總結(jié)

本文基于ERNIE-Gram和TinyBERT預(yù)訓(xùn)練模型,提出了一種復(fù)句關(guān)系識別與轉(zhuǎn)換混合模型,該模型實現(xiàn)了對兩種復(fù)句分類體系下復(fù)句關(guān)系的轉(zhuǎn)換,雙向轉(zhuǎn)換準(zhǔn)確率達(dá)到80.53%、76.13%;將該模型與基于規(guī)則的專家系統(tǒng)相結(jié)合,雙向轉(zhuǎn)換準(zhǔn)確率達(dá)到89.17%、77.60%。實驗結(jié)果驗證了將規(guī)則與統(tǒng)計方法結(jié)合起來具有更高的準(zhǔn)確率和更廣的適用范圍。

本文的方法還存在著不足,如混合模型參數(shù)較多,對硬件要求過高,因此,如果縮小模型參數(shù)使之更適合復(fù)句關(guān)系識別與轉(zhuǎn)換是需要考慮的問題;同時,轉(zhuǎn)換的準(zhǔn)確率還不夠理想,一方面需要加大語料庫的規(guī)模,另一方面,需要研究更高效的模型。

國內(nèi)外還有句群、RST-DT、CDTB等眾多分類體系,本文提出的方法是否適合建立各種篇章關(guān)系分類體系之間的關(guān)系對應(yīng)與雙向轉(zhuǎn)換,需要進(jìn)一步的研究檢驗。

猜你喜歡
復(fù)句語料語料庫
連動結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
漢語復(fù)句學(xué)說的源流
韓國語復(fù)句結(jié)構(gòu)的二分說
《語料庫翻譯文體學(xué)》評介
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
《苗防備覽》中的湘西語料
復(fù)句內(nèi)部不應(yīng)當(dāng)用句號
五寨县| 涟源市| 游戏| 迁安市| 黔西| 元阳县| 安宁市| 阜宁县| 泾源县| 北票市| 遵义市| 方正县| 安宁市| 嘉义县| 牙克石市| 驻马店市| 华坪县| 海淀区| 古交市| 灌南县| 南皮县| 玉门市| 青田县| 新晃| 图木舒克市| 江源县| 八宿县| 芒康县| 京山县| 南京市| 大埔区| 长垣县| 深州市| 兰考县| 石家庄市| 阳朔县| 融水| 女性| 天台县| 富锦市| 永泰县|