安波
中國社會科學院民族學與人類學研究所 北京 100081
復述是人類語言的一個普遍現(xiàn)象,美國認知心理學家 GM Olson將復述能力看作計算機能否理解自然語言的標準[1,2],集中反映了語言的多樣性[3,4]。如句子“北京冬奧會什么時候開幕”與“2022年冬奧會開幕時間”表達了相似的語義,互為復述。復述在機器翻譯、語義解析、問答系統(tǒng)和信息檢索等領域具有重要應用[5-7]。
復述研究主要包括復述數據抽取、復述識別和復述生成三個任務,其中復述數據抽取是構建復述數據,是復述識別和復述生成模型的基礎,具有更為基礎性的研究價值。近年來,深度學習在自然語言處理領域得到廣泛應用,基于深度學習的復述技術也被廣泛地應用[8-13]。然而由于語言的多樣性,基于深度學習的自然語言處理模型經常面臨魯棒性不足的問題[14],也就是模型通常不能很好地處理相同語義的不同表達。復述通過復述識別和復述生成,可以有效地提升深度學習的魯棒性和泛化性[7]。
PPDB[5]是被廣泛應用的英文復述數據集,該數據集包括復述短語、復述模板和復述句三種不同粒度的復述數據。復述模板是指將句子或短語進一步泛化得到的抽象表示,即將句子或短語中的部分單詞或短語替換為其詞性表示。模板由模板詞和模板槽兩部分組成,模板詞表示模板中具體的單詞,模板槽表示模板中除單詞之外的詞性表示。例如,在模板“[NP1]出生于[NP2]”中,“出生于”為模板詞,“[NP1]”和“[NP2]”為模板槽,復述模板在機器翻譯中有重要應用[15]。除此之外,英文方面還存在其他使用較為廣泛的數據集,包括Microsoft COCO Captions數據集[16]、PARANMT-50M數據集[17]、PAWS數據集[18]等。這些數據集也推動了英文機器翻譯、語義解析等自然語言處理任務的發(fā)展。
目前,公開的中文復述數據集包括PKU Paraphrase Bank數 據 集[19]、BQ數 據 集[20]、PAWS-X數據集[21]、百度Phoenix Paraphrase Dataset①https://ai.baidu.com/broad/subordinate?dataset=paraphrasing等,目前的中文復述數據集存在數據類型單一(復述句)、數據規(guī)模小等特點。缺少大規(guī)模多粒度中文復述數據集,制約了復述技術在中文自然語言處理任務中的應用,也在一定程度上影響了基于深度學習的模型在中文自然語言處理任務中的魯棒性和泛化性。
針對上述現(xiàn)狀,本文設計并實現(xiàn)了一種中文復述抽取方法和系統(tǒng),該系統(tǒng)能夠從多種不同類型的數據源(雙語平行數據、單語可比數據和單語平行數據)中實現(xiàn)多種粒度(短語、模板和句子)的中文復述抽取。該系統(tǒng)在中英文翻譯數據、電子書、電影字幕數據上實現(xiàn)了復述數據的抽取,得到了一個較大規(guī)模的多粒度中文復述數據集,包含復述短語、復述模板和復述句子。本文通過自動評價和人工評價的方式對抽取到的中文復述數據進行評價。實驗結果表明,我們的方法抽取出的中文復述數據具有較高的語言多樣性和語義一致性。
本節(jié)從復述數據、復述抽取和復述識別三個方面介紹相關工作。
復述數據集是復述技術在自然語言處理任務中應用的基礎,在英文方面已有了多種開源復述數據集,包括:PPDB數據集[5]、PARADE數據集[22]、Paraphrases from Twitter數據集[23]、MS COCO Captions數據集[16]、PARANMT-50M數據集[17]、Diverse styles Paraphrase數據集[24]、Opusparcus數據集[25]和PAWS-X數據集[21],以及在復述識別任務中經常使用的MRPC數據集、PAWS數據集[18]、STS數據集[26]、Quora Question Pairs數據集[27]。其中PPDB和Opusparcus為多語種數據集。
中文復述數據集的發(fā)展較晚,目前開源的中文復述數據集包括PAWS-X(中文)數據集、PKU Paraphrase Bank數據集、Phoenix Paraphrase數據集、LCQMC數據集[28]和BQ Corpus數據集。以及在復述識別等評測任務中常用的數據集:CCSK2018微眾銀行智能客服問句匹配大賽數據集(后面簡稱CCKS)②https://www.biendata.xyz/competition/CCKS2018_3、ATEC數據集③https://dc.cloud.alipay.com/index#/topic/intro?id=3和AFQMC數據集④https://tianchi.aliyun.com/competition。從表1可知,無論從規(guī)模上還是類型上,中文復述數據集都還有很大的發(fā)展空間。
表1 常用復述數據集
根據復述抽取不同的數據源,可以將復述抽取方法分為詞典抽取的方法、基于雙語平行語料的復述抽取方法和基于單語可比語料的復述抽取方法。
基于詞典的復述抽取方法主要借助于同義詞詞典進行復述抽取,抽取的類型通常包含復述詞(同義詞)和復述句。其中復述句為同義詞的不同釋義。例如,從Wordnet[29]、同義詞詞林[30]、大詞林[31]、情感詞庫[32]和Hownet[33]等語言學資源中進行復述的抽取。
基于雙語平行語料的復述抽取方法以樞軸法為代表,該方法將在目標語言中具有相同翻譯結果的兩個源語言中的不同單詞、短語或模板視為復述。該方法可以抽取復述詞、復述短語和復述模板三種不同粒度的復述[34]。Ganitkevitch等[5]利用句法解析信息從機器翻譯的數據中抽取了英文詞、短語和模板三種粒度的復述,并形成PPDB數據集,進一步地利用連續(xù)詞的一致性約束來優(yōu)化復述抽取的結果。李維剛等[36]通過雙語短語語義約束的方法來解決短語歧義性的問題。趙世奇等[35]通過機器翻譯的方法將雙語平行約束轉換為單語可比數據,然后進行復述的抽取。
單語可比語料包括報道同一事件的不同新聞、介紹相同事物的不同百科、對同一外文書籍的不同中文譯本以及同一外文電影字幕的不同版本的翻譯等,這些數據中天然地包含了大量的復述句數據,這種類型的數據被稱為單語平行語料[37]。早期的研究者,利用SVM分類器等方法將從可比數據中抽取出來概念的不同定義作為復述句[38,39]。通過對新聞的聚類等方法,實現(xiàn)了從新聞數據中的復述抽取[40,41]。He等[42]利用tweets中的URL標簽進行復述的抽取。近期,有研究者在Micorsoft COCO Captions數據集中對同一圖片的不同描述作為可比語料進行復述抽取[16]。Zhang等[19]利用相同外文著作的不同中文譯本進行中文復述句抽取,并開源了復述數據集PKU paraphrase bank。
此外,隨著機器翻譯的發(fā)展,有一些工作利用回譯(back-translation)的方法進行復述句數據集的構建[17]。利用大規(guī)模預訓練語言模型進行復述的生成也是當前研究的熱點⑤https://github.com/Vamsi995/Paraphrase-Generator。然而現(xiàn)有的復述生成方法本身局限于模型訓練數據的語言多樣性,其生成的數據的多樣性也有較大局限性。通過上述從人工產生數據的復述抽取方法,更能覆蓋語言的多樣性,是復述抽取工作必不可少的方法。
與傳統(tǒng)的復述抽取方法不同,本文的復述抽取方法引入了SentenceBert等基于深度學習的語義相似度計算方法,同時利用了離散的特征表示和分布式表示來優(yōu)化復述抽取的結果。
復述識別通過計算句子之間的語義相似度來判斷給定的兩個文本是否互為復述,該任務在問答系統(tǒng)、語義解析和信息檢索等領域具有重要價值。復述識別系統(tǒng)也可以輔助復述抽取的過程,如在判斷兩個候選的句子是否為復述句等。由于復述識別的重要性和基礎性,復述識別技術一直是自然語言處理領域的研究熱點[2]。傳統(tǒng)的方法包括基于特征工程和分類器進行句對的分類判斷,將復述識別建模為一個二分類任務。常用的特征包括詞語、句子長短、實體重疊率、編輯距離、BLEU值等,常用的分類器包括SVM、邏輯回歸等[43,44]。一些工作還通過句法的信息來增強復述識別的準確率[35]。近年來,基于深度學習的方法在自然語言處理領域得到了廣泛地應用,成為當前的主流研究方法[8,9]。目前,主流的復述識別方法也以深度學習為主,該方法將句子轉換為分布式的表示,并在表示空間中計算句對是否為復述[9]。Socher等[45]首先提出使用詞向量和循環(huán)自編碼器(Recursive Autoencoders)建模句法信息,然后進行句子分析,進而搭建復述識別模型。He等[42]使用卷積神經網絡來建模句子信息。Cheng等[46]提出一種融合上下文的孿生網絡(Siamese Network)的方法進行復述識別。Issa等[47]通過句對的抽象語義表示(Abstract Meaning Representation)抽取句子的重要信息進行匹配,以達到優(yōu)化復述識別的效果。針對數據不足的問題,Chen等[57]利用強化學習來減少對訓練數據的依賴。針對實體對語義的判斷問題,語言知識庫、知識圖譜等資源被用于復述識別任務[58]。近期,隨著大規(guī)模預訓練語言模型的廣泛使用,無監(jiān)督的復述識別方法被廣泛應用,如BERTflow[48]和SimCSE[49]等。
本文實現(xiàn)了一個從雙語平行語料、單語可比語料中進行大規(guī)模中文復述抽取的方法和系統(tǒng),該方法能夠抽取短語、模板和句子粒度的復述,形成大規(guī)模多粒度的中文復述數據集。本節(jié)主要介紹該系統(tǒng)的主要流程。該系統(tǒng)總體框架如圖1所示,該系統(tǒng)針對兩種不同類型的數據源分別進行了預處理和數據抽取,最終抽取了多粒度的中文復述數據。
圖1 復述抽取系統(tǒng)總體框架
不同的數據源的預處理步驟是不同的,針對雙語平行語料的預處理主要包括中文分詞、成分句法分析和詞對齊。本文使用Stanford CoreNLP⑥https://stanfordnlp.github.io/CoreNLP/對中文數據進行分詞,并對中英文句子進行成分句法分析。
詞對齊是基于雙語平行語料復述抽取的基礎,對抽取的復述質量有重要影響。例如,PPDB使用GIZA++[50]進行詞對齊。近年來,基于深度學習的詞對齊方法被廣泛使用,如SimAlign[51]利用詞向量和上下文表示,能夠更好地建模詞匯在不同上下文中的語義。SHIFTAET[52]利用Transformer[53]中的注意力機制來建模詞對齊信息。本文通過集成學習方法,將三種詞對齊模型的結果進行融合,得到最終的詞對齊結果。具體地,本文采用加權平均的方式將三個模型輸出的詞對齊相似度進行集成,其計算方法如公式1所示。其中PEnsember為集成的詞對齊概率矩陣,a1,a2,a3分別為GIZA++、SimAlign和SHIFT-AET三個詞對齊模型輸出的詞對齊概率矩陣對應的權重,具體權重通過在驗證數據上調優(yōu)得到。
本文所使用的單語可比語料主要包含電子書譯本、電影字幕的不同翻譯版本,這些數據保存在不同格式的圖片文件中,因此需要通過OCR進行字符的識別,轉換為文本數據。具體地,本文使用百度飛漿PaddleOCR⑦https://github.com/PaddlePaddle/PaddleOCR實現(xiàn)字符識別。同時單語可比語料還涉及文檔對齊的問題,輸入的通常為一個文件集合,需要將其中的文件首先進行對齊。本文主要使用文件中的實體、時間、文件名等信息進行對齊,并在此基礎上實現(xiàn)文件的對比。
復述抽取模塊可以實現(xiàn)從雙語平行語料中抽取復述短語、模板,從單語對比語料中抽取復述句子。下面分別介紹雙語平行語料和單語可比語料的抽取過程。
2.2.1 雙語平行語料復述抽取
本文復現(xiàn)并優(yōu)化的PPDB復述抽取系統(tǒng)。對于給定的雙語平行數據,通過下面步驟進行復述抽?。?1)雙語句對進行詞對齊;(2)基于詞對齊結果抽取對齊短語;(3)從對齊短語中抽取對齊模板;(4)從對齊短語和對齊模板中抽取復述短語和復述模板。
本文中短語定義為句子語法樹中的完整子樹,即該子樹對應的所有單詞。這種類型的短語能夠表達比較完整的語義,避免包含一些不相關的字、詞。本文使用成分句法解析樹作為短語對齊的參考。本方法包含兩個步驟:短語抽取、短語對齊。
短語抽取基于成分句法解析樹的結果,將成分樹中的一個子樹下的所有單詞作為一個短語。同時,為了避免抽取出“的,你”等無意義的短語,使用子樹的詞性標簽進行約束,僅抽取具有以下詞性的短語:
英文詞性約束:CD、JJ、JJR、JJS、NN、NNS、NNP、NNPS、PRP、PRP$、ADJP、NP
中文詞性約束:CD、JJ、NN、NR、NT、OD、PN、ADJP、DNP、NP
短語對齊是找到具有語義相同關系的雙語短語。Ganitkevitch[5]采用一致性約束的方法實現(xiàn)短語對齊,該方法要求對齊短語中所有的單詞僅與被對齊的短語中的詞匯對齊。該方法會導致部分短語不能很好地對齊,如圖3所示?!巴米印睉撆c“rabbit”對齊,但是由于單詞“cranes”與單詞“正”對齊,因此不滿足一致性約束,無法被抽取出來。
圖2 短語抽取實例
短語對齊步驟中,PPDB的方法采用一致性約束對短語進行對齊,即僅當兩個短語中的任何一個短語都滿足其中的單詞僅與另一個短語中的單詞對齊這一條件時,才將這兩個短語對齊。我們發(fā)現(xiàn)一致性約束會導致部分本應對齊的短語無法對齊。例如在圖3中,“cranes”與“正”對齊,導致“兔子”與“rabbit cranes”不滿足一致性對齊條件,導致不能對齊。針對上述問題,本文通過限定詞性的詞匯進行一致性約束的方法來進行對齊,放松了短語對齊的條件。實驗結果表明,該方法能夠在引入少量噪聲的情況下,顯著地提升對齊短語抽取的數量。具體使用到的詞性信息如下所示:
圖3 一致性約束與放松后的一致性約束
英文單詞詞性約束:CD、JJ、JJR、JJS、NN、NNS、NNP、NNPS、PRP、PRP$、RB、VB、VBD、VBP、VBZ
中文單詞詞性約束:AD、CD、NN、NR、NT、OD、VA、VV
在抽取到對齊短語之后,通過以下方式從中抽取對齊模板(見圖4)。給定一組對齊短語,其中的部分對齊的詞匯和短語使用詞性進行替換后,可以形成包含部分詞性信息的對齊短語,即對齊模板。根據短語中詞性的個數可以分為1槽位和多槽位的對齊模板。
圖4 抽取對齊模板示例
基于上述步驟得到的對齊短語和模板,通過找到相同英文短語/模板對應的不同的中文短語/模板即為候選中文復述短語/模板。圖5給出了一個例子,中文短語“死于一場車禍”和“在一場車禍中喪生”均與英文短語“died in a car accident”對齊,上述兩個中文短語可被抽取為候選中文復述短語。
圖5 候選復述短語抽取示例
2.2.2 單語可比語料復述抽取
單語平行語料以篇章對齊為主(如報道同一事件的新聞、同一外文名著的不同中文翻譯版本),以抽取復述句為主。單語平行語料中的句子通常包含復雜的對齊關系,包括一對一、一對多和多對多。為了抽取復述句對,本文僅選擇具有一對一關系的句對進行抽取。首先,找到對齊篇章中的錨點句(顯著對齊的句子),然后利用Vecalign算法[56]將文本分為兩個部分,通過迭代上述方式進行復述句對的抽取。Vecalign算法通過計算句子的語義距離實現(xiàn)句對的對齊,但傳統(tǒng)的Vecalign算法依賴于字面的相似度,忽略了上下文信息對句子語義距離的影響。本文通過融合句子的上下文信息來優(yōu)化句子的語義距離計算,并通過動態(tài)規(guī)劃算法得到篇章中所有句對對齊的最優(yōu)方案。上下文信息采用詞匯對應上下文詞的詞向量的加權平均作為上下文信息,其中特征的權重采用TFIDF。
后處理模塊主要包括實體歸一、特征計算、數據過濾及數據排序功能,形成最終的大規(guī)模多粒度中文復述數據集。
實體歸一:不同的外文名著的中文譯本中的實體名稱可能采用不同的翻譯,如“科諾夫尼岑”和“柯諾夫尼岑”是不同的《戰(zhàn)爭與和平》譯本中人物的名稱,因此需要對實體的名稱進行歸一化處理。
特征計算:為了提供更豐富的信息,本文借鑒PPDB的工作,復現(xiàn)并計算了其中的大部分特征,并利用Bert和SentenceBert引入了兩個新的特征,(1)語言模型生成概率:基于Bert計算短語的生成概率;(2)基于SentenceBert計算兩個復述文本的相似度。完整的特征信息如表2所示,目前主要包含18個特征。
表2 部分復述特征列表
數據過濾:基于上述復述抽取流程,會產生一些低質量的復述,如復述對之間的文本差異很小,或者僅是實體名存在差異等情況。例如“北京到上海的高鐵”和“北京到上海高鐵”,僅差一個“的”,對語義的影響不大。因此需要過濾掉這部分低質量的復述數據。
數據排序:本文利用復述數據中的部分特征訓練了一個回歸模型,用于對候選復述數據進行排序。對復述數據進行排序后,用戶可以根據對復述數據質量和數量的需要,從復述數據中選取不同規(guī)模的子集進行使用。
基于上述實現(xiàn)的中文復述數據抽取系統(tǒng),本文在雙語平行數據(中英文翻譯數據)和單語可比數據(電子書譯本、電影字幕)上開展實驗,進行復述數據的抽取。本節(jié)分別介紹復述數據評估方法、雙語平行數據抽取結果、單語可比數據抽取結果。
復述數據的評估主要包括對其多樣性、語義一致性和流暢性三個方面的評估。其中,多樣性表示復述句對之間表述的差異性,語義一致性表示復述句對之間語義的一致性,流暢性表示復述句對的表達是否自然、符合語法。一般情況下,僅當復述數據是采用生成的方式收集到時才需要評估其流暢性,而本文創(chuàng)建的復述語料庫中的數據都是從自然語料中抽取出來的,因此我們不再對語料庫的流暢性進行評估。本文使用自動評估和人工評估兩種方式對抽取出的中文復述數據進行評估。
自動評估:本文采用復述對的編輯距離及使用長度正則化后的編輯距離作為對復述對多樣性的評估指標,其中使用長度正則化后的編輯距離能夠減少長度對多樣性評估帶來的影響。本文采用基于SentenceBert[54]和SimCSE模型[49]計算出的復述數據的相似度作為語義一致性的評估指標。
人工評估:本文采用Callison-Burch提出的語義相似度標注方法對復述數據進行標注[55],具體標注方法如下:當復述數據保留了原數據的所有含義,沒有添加任何內容時,標注為5分;當復述數據保留了原數據的語義,盡管可能會添加一些附加信息,但不會改變語義時,標注為4分;當原數據中有些信息被刪除,但不會造成太大的語義上的損失,其主要語義仍然被保留時,標注為3分;當復述數據與原數據的語義具有很大的差異時,標注為2分;當復述數據與原數據的語義完全不相關時,標注為1分。
本文使用1000萬句對中英機器翻譯數據作為數據源,開展了復述短語和復述模板的抽取,最終抽取出239,987對中文復述短語和49,274,036對中文復述模板。由于中文沒有公開的復述短語和復述模板,因此我們與英文PPDB中的復述短語和復述模板進行對比。具體地,我們從PPDB數據集和抽取的數據集排序的前20%,60%,100%的部分隨機采樣500,000條數據,然后計算其編輯距離、使用長度正則化后的編輯距離、基于SentenceBert模型(paraphrase-xlm-r-multilingual-v1)計算的相似度和基于SimCSE模型計算的相似度,其結果如表3和表4所示。其中SimCSE為在維基百科上隨機抽取的100w的中英文數據分別進行訓練,得到中英文的復述識別模型。
表3 復述短語自動評估結果
表4 復述模板自動評估結果
從表3可知,本文抽取出的復述短語相較于PPDB在長度上有明顯優(yōu)勢,在多樣性上基本與PPDB一致,在體現(xiàn)語義一致性的SentenceBert和SimCSE的得分上也較高。與此相對的是,在復述模板方面(表4),本文抽取到的短語在長度、多樣性方面有明顯優(yōu)勢,在語義一致性方面與PPDB基本持平。
同時,我們分別從復述短語和復述模板數據的前20%、60%、100%部分隨機采樣2000條數據進行人工標注,然后分別統(tǒng)計了在每一部分中,標注分數等于5分、大于等于4分、大于等于3分的部分所占的比例(表5)。從標注結果可以看出,雖然在全量數據上,標注分數大于等于3分的百分比比較低,但是我們構建的復述數據集的規(guī)模足夠大,可以根據對質量和數量的需求,選取不同規(guī)模的子集進行使用。
表5 復述短語和復述模板人工評估結果
本文電子書譯本和電影字幕數據作為單語可比數據開展復述抽取工作。我們基于296本電子書譯本開展中文復述句抽取。具體地,我們自動從電子書網站進行截圖,然后利用OCR[7]技術提取文本內容,形成單語可比數據集。針對電影字幕數據,我們對73G的Shooter電影字幕合集進行了處理,在該字幕合集中主要包含兩種格式的字幕文件,一種文件是由包含字幕的一組圖片組成的壓縮文件,針對這種類型的文件,我們仿效對電子書的處理過程,即首先利用OCR技術提取圖片中的字幕內容,然后進行整合、分行,得到僅包含電影字幕的文本文件。另一種文件是具有特定格式的字幕文本文件,例如“.srt”格式的字幕文件,此時我們需要利用預處理模塊中針對這種格式的字幕文件解析功能從中抽取出字幕內容,得到僅包含電影字幕的文本文件。
通過上述復述抽取系統(tǒng),從電子書數據中共抽取出3,097,091對復述句對,從電影字幕數據中共抽取出452,708對復述句對。相比于電子書數據,盡管Shooter電影字幕合集包含了大量的字幕文件,但最終抽取出的復述句對卻相對比較少。這是由于字幕合集中針對同一電影由不同字幕小組翻譯的不同版本的字幕比較少,而且許多字幕文件中存在大量錯誤信息,因此導致最終能夠抽取出復述句對比較少。
同樣地,針對抽取出的復述句數據,我們采用編輯距離和使用長度正則化的編輯距離作為數據多樣性評估指標,采用基于SentenceBert和SimCSE語義相似度模型計算的復述句對的相似度作為語義一致性評估指標。我們利用編輯距離-語義一致性指標綜合評估了復述句數據的質量(表6)。另外,我們與LCQMC、AFQMC、ATEC、CCKS、BQ中文復述識別數據集中的復述數據部分以及PKU paraphrase corpus進行了對比。從數量上來看,本文抽取出的復述數據的規(guī)模遠大于其他的數據集。因為ATEC、BQ、CCKS等中文復述識別數據集都經過人工篩選、標注,因此,本文的數據集與除了LCQMC數據集之外的小規(guī)模中文復述識別數據集相比,在數據多樣性方面普遍劣于ATEC等中文復述識別數據集,在語義一致性方面則要優(yōu)于ATEC等中文復述識別數據集。與LCQMC數據集相比,我們構建的數據集在多樣性和語義一致性方面都要優(yōu)于LCQMC數據集。與規(guī)模相對比較大的PKU paraphrase corpus相比,我們的數據集在數據多樣性方面與之相似,在語義一致性方面則要優(yōu)于PKU paraphrase corpus。
表6 從四種不同數據源抽取出的復述句自動評估
同樣地,我們使用人工評估的方式對復述句數據進行了評估(表7)。其結果可知,抽取得到的復述數據絕大多數為可接受,數據質量相較復述短語和復述模板的質量更高,能夠更好地推動復述技術的發(fā)展。
表7 從四種不同數據源抽取出的復述句人工評估結果
綜上所述,本文抽取到了大規(guī)模多粒度中文復述數據集。通過與PPDB數據集的對比可知,我們抽取到的中文復述短語和復述模板具有較高的質量。通過與已有的中文復述數據庫對比可知,我們抽取到的數據的規(guī)模更大,語義的一致性也較好。
本文設計實現(xiàn)了一個大規(guī)模多粒度的中文復述抽取系統(tǒng),能夠從雙語平行和單語可比語料中抽取多粒度的中文復述數據。本文在中英文翻譯數據、電子書譯本和電影字幕數據上的抽取,形成了當前最大規(guī)模的中文多粒度復述數據庫 (https://github.com/casnlu/Chinese-PPDB)。自動評估和人工評估的結果表明,本系統(tǒng)抽取的復述短語、模板和句子具有較高的質量,能夠支撐復述技術在中文領域的應用。針對中文復述應用的現(xiàn)狀,一方面,針對中文復述句對規(guī)模較小的現(xiàn)狀,我們計劃通過挖掘更多類型的數據源來進一步增強中文復述數據集的規(guī)模。另一方面,我們計劃將構建的復述數據集在復述識別、復述生成、智能問答、語義解析等任務上進行進一步的驗證,并構建可以用于增強中文自然語言處理任務的復述工具集。