胡 康,奚雪峰,3+,崔志明,3,周悅堯,仇亞進
1.蘇州科技大學 電子與信息工程學院,江蘇 蘇州215000
2.蘇州市虛擬現(xiàn)實智能交互及應用重點實驗室,江蘇 蘇州215000
3.蘇州智慧城市研究院,江蘇 蘇州215000
自然語言處理(natural language processing,NLP)是人工智能的主要研究方向之一。自然語言處理領域有眾多研究方向,如文本分類、情感分析、命名實體識別、信息抽取、文本摘要、問答系統(tǒng)。文本生成,通常被正式稱為自然語言生成(natural language generation,NLG),是自然語言處理中最重要但也是最具挑戰(zhàn)性的任務之一[1]。文本生成的目標是從各種形式的數(shù)據(jù)(如文本、數(shù)字、圖像、結構化知識庫和知識圖)中生成人類語言的可理解文本[2]。
表格是日常生活中常見的數(shù)據(jù)形式,但在深度學習中卻沒有得到很好地利用。表格含有豐富的信息,但是并不適合人直接獲取信息。由此誕生了新的研究方向“表格到文本生成(table-to-text)”。正因為表格這種結構化數(shù)據(jù)在日常生活中常見且蘊含大量信息,所以表格到文本生成任務有重要的研究意義與價值。
理解表格含義并描述其內(nèi)容是人工智能中的重要問題,它有潛在應用,如問題回答、構建對話代理和支持搜索引擎[3-10]。隨著近年研究不斷深入,表格到文本生成系統(tǒng)已經(jīng)應用于新聞、醫(yī)療診斷、金融、天氣預報和體育廣播等領域[11]。
表格到文本生成,是指語言模型通過輸入表格并生成描述表格的文本。模型生成的文本應該語句流暢,充分表達表格信息且不能偏離表格事實。該任務的訓練數(shù)據(jù)中含有屬性、值以及描述表格的文本,表格到文本生成數(shù)據(jù)集實例如圖1所示。
圖1 Wikibio數(shù)據(jù)集實例Fig.1 Example of Wikibio dataset
表T是I個實體ei的無序集合,表示為T:={e1,e2,…,ei,…,eI}。不同實體ei是一組Ji無序記錄{ri,1,ri,2,…,ri,j,…,ri,Ji},其中記錄ri,j被定義為一對鍵ki,j和值vi,j。每個表與文本描述y相關聯(lián)。將描述y的前t個單詞稱為y1:t,因此可以將單詞完整序列記為y1:T。數(shù)據(jù)集D是N個對齊對(表T、描述文本y)的集合[11]。
RotoWire 數(shù)據(jù)集包含NBA 比賽記錄的一部分(共628場),以及從黃金文檔中選擇的記錄。該文檔只提到比賽記錄的部分信息,但可能會以復雜的方式表達它們。除了捕捉寫作風格外,語言模型還應該選擇類似記錄內(nèi)容,清晰表達表格信息并適當排序[12]。對于數(shù)據(jù)集D中的每個表T,目標函數(shù)旨在生成盡可能接近基本表格事實y的描述文本。該目標函數(shù)在整個數(shù)據(jù)集D上優(yōu)化如下對數(shù)似然:
目前表格到文本生成模型需要面對越來越復雜的表格,并生成更長、結構更復雜的文本描述。模型生成的文本經(jīng)常出現(xiàn)錯誤的描述或表格中完全沒有提到的內(nèi)容[11]。復雜的句子結構給模型生成流暢且準確的文本描述帶來了挑戰(zhàn)。當前表格到文本生成模型面對兩大問題:描述什么,如何描述[12]。
(1)描述什么:表格有著豐富的信息,并不是所有信息都將在文本描述中被提及。如何正確選擇表格中的重要內(nèi)容是該領域研究難點之一。
(2)如何描述:隨著生成文本長度的增加,文本變得邏輯混亂,可讀性差。如何準確且連貫地描述表格內(nèi)容,并在復雜句子結構中保證正確的前后邏輯關系,是該領域研究的重點問題。
目前主流的表格到文本生成的神經(jīng)網(wǎng)絡模型,大部分都使用長短期記憶網(wǎng)絡(long short-term memory,LSTM)[13-14]和編碼器解碼器(encoder-decoder)體系結構[15]。在訓練中表格數(shù)據(jù)首先由編碼器(encoder)順序地編碼成固定大小的矢量表示。然后解碼器(decoder)以該矢量表示為條件解碼并生成單詞。隨著注意機制[16-17]的引入,一方面,在每個解碼步驟控制計算聚焦于重要元素的上下文,另一方面,復制機制[18-19]處理未知或罕見單詞,這些系統(tǒng)能產(chǎn)生流暢且領域全面的文本描述[11]。在生成階段使用beam search[20-22]來擴大搜索空間以生成更好的文本描述。
在機器翻譯領域,最經(jīng)典也是最常用的就是序列到序列架構(sequence-to-sequence architecture)[23],這種架構在表格到文本生成領域也適用。其主要思想是:由編碼器將輸入的表格信息編碼為蘊含大量信息的稠密向量,然后讓解碼器利用這個稠密向量,根據(jù)任務需求解碼出表格內(nèi)容相應的文本描述。其結構如圖2所示。
圖2 帶有注意力機制的序列到序列架構Fig.2 Sequence-to-sequence architecture with attention mechanism
2.1.1 LSTM語言模型
循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)[24]是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡。與一般的卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)[25-26]相比,循環(huán)神經(jīng)網(wǎng)絡的隱藏狀態(tài)能更好地處理序列形式數(shù)據(jù)中前后關聯(lián)的信息,例如同一個詞語會因所處上下文不同而有不同的意思。LSTM是一種特殊的RNN,LSTM可以緩解長序列訓練過程中的梯度消失和梯度爆炸問題。表格到文本生成任務的輸入通常為較長的序列,這種情況下LSTM 有優(yōu)于RNN 的良好表現(xiàn)。其結構如圖3 所示。其中,遺忘門(forget gate)會控制LSTM的細胞單元是否遺忘信息。
圖3 LSTM結構Fig.3 LSTM structure
2.1.2 編碼器
編碼器的目標是:將可變長度的源序列x={x1,x2,…,xn}轉換為固定長度的連續(xù)向量。最基本的編碼器使用卷積神經(jīng)網(wǎng)絡(CNN)或遞歸神經(jīng)網(wǎng)絡(RNN),而整個編碼過程為:將嵌入(embedding)后的輸入序列壓縮投影到模型需要的維度,而這個被壓縮的序列蘊含輸入序列的全部信息(即語義)。最直接的方式是:將編碼器最后一層最后一個時間步的隱藏信息作為整個輸入的語義信息,也可以對最后的時間步的各層隱藏狀態(tài)求平均值作為語義信息。
2.1.3 解碼器
解碼器根據(jù)由編碼器編碼得到的語義信息,解碼生成表格的文本表述序列。最基本編碼器也是RNN,而整個解碼的過程是:解碼器RNN直接將語義信息作為初始隱藏狀態(tài),在第一個時刻以<eos>等特殊標識符作為輸入,在這之后以前一時刻的輸出作為當前時刻的輸入不斷循環(huán)生成序列,直到生成<eos>特殊標識符為止。
在訓練時間方面有兩種訓練方法:一種是一直使用解碼器的輸出作為下一時刻的輸入,這樣會給予模型更大的靈活性,同時使得模型訓練時間更長;另一種是無論解碼器生成的是什么,均以正確的下一個token 作為解碼器的輸入,這樣會削弱模型的靈活性,但會加速模型訓練。其計算過程如下:
其中,f()是非線性函數(shù),st=f(yt-1,st-1)是RNN 在時間步t的隱藏狀態(tài)。
雖然基于RNN 和Sequence-to-Sequence 架構的模型給予文本生成(NLG)領域巨大幫助。但是它也存在缺陷,如在表格到文本生成任務中,當需要生成的表格描述很長時,將如此復雜的語義壓縮到定長的序列中并且不丟失太多信息,這本身就是個困難的任務。與此同時,解碼器還需要從這樣信息高度濃縮的向量中解碼出對應的語義序列,而且RNN 在長序列時會出現(xiàn)梯度消失等問題,因此整個任務很復雜。為突破解碼器過于依賴單一定長稠密向量去生成序列這一瓶頸,研究人員提出了注意力機制。
注意力機制[16-27]最早起源于計算機視覺模仿人類的視覺注意力,人類不會關注于目光所及的所有事物,而是把注意力聚焦于某一小塊區(qū)域。在自然語言處理領域也是如此。
如圖2 所示,解碼器在解碼的同時,不僅僅依賴于編碼器所給出的語義向量,同時也關注原始輸入序列對應部分。比如翻譯“I like apple”為中文時,當解密生成“我”字時,解碼器會更多地去關注原始序列中的“I”,而對“l(fā)ike”和“apple”則會給予更少的注意力。注意力機制能避免模型過度地依賴單一向量,從而出現(xiàn)解碼瓶頸的問題。
注意力機制的出現(xiàn),讓文本生成模型的能力有質的飛躍。不過序列到序列架構仍然存在問題,在自然語言處理的相關任務中如表格到文本生成,輸出序列的詞匯表會隨著輸入序列的改變而改變,但是序列到序列架構并不能很好地解決這一問題。因為這類問題,輸出的元素往往是輸入元素集合的子集。基于這一特點,研究人員提出指針網(wǎng)絡(pointer network)[27-28]的模型結構,其類似于編程語言中的指針。傳統(tǒng)的注意力機制是給予輸入序列一系列權重,而指針網(wǎng)絡的想法是:有時需要生成出現(xiàn)在源詞匯表中的單詞,但此時目標詞匯表中沒有該單詞。既然注意力機制能重點關注原始序列某一部分,則選擇注意力權重最大的那個元素復制到生成序列中,這樣就解決了傳統(tǒng)序列到序列架構存在的問題。原始注意力機制公式如下:
其中,j∈(1,2,…,n)。改進原始的注意力機制,從而得到指針網(wǎng)絡公式:
傳統(tǒng)的帶有注意力機制的序列到序列模型在訓練時,編碼器先對輸入序列進行編碼,然后對編碼后的向量做相應的關注,最后解碼器對施加注意力后的向量進行解碼從而得到預測結果。但是指針網(wǎng)絡,得到預測結果的方式是輸出概率分布α,也即所謂的指針。換句話說,傳統(tǒng)帶有注意力機制的序列到序列模型輸出的是針對輸出詞匯表的概率分布,而指針網(wǎng)絡輸出的則是針對輸入詞匯表的概率分布。
目前表格到文本生成模型已經(jīng)較為完善,但在模型生成文本時,沒有合適的策略??蛇x的策略有貪心搜索,即每一次都選擇當前時間步在詞匯表中概率最大的詞。但是,目標是生成一個序列,這個序列在所有由模型生成的序列中概率最大,然而貪心搜索的策略并不能很好地完成任務。序列到序列模型常使用集束搜索(beam search)進行解碼,這種策略減少了貪婪搜索做出的局部最優(yōu)但全局次優(yōu)決策的可能[29]。
集束搜索是一種啟發(fā)式的策略,可以視作一種特殊的廣度優(yōu)先搜索。在搜索時會建立搜索樹,并根據(jù)不同需求選擇不同的排序算法,根據(jù)排序算法對當前層各節(jié)點對應的搜索路徑進行排序并裁減掉得分較低的節(jié)點,直到剩余預先指定個數(shù)(超參數(shù)beamsize),然后繼續(xù)在剩余節(jié)點中進行搜索。
令tn為n時刻選擇的詞匯,C為編碼器輸出的語義向量,T為最終生成結果。集束搜索通過不斷重復上述步驟使得P(T|C)最大,集束搜索公式如下:
集束搜索過程的示例如圖4所示。
圖4 集束搜索示例Fig.4 Sample diagram of beam search
基于上述的研究方法,研究人員提出新穎的深度神經(jīng)網(wǎng)絡模型。為使得模型能夠提取出表格的結構信息,Liu 等[30]提出表格結構感知模型。表格有大量信息,但是表格的描述一般會圍繞關鍵信息進行描述,Ma 等人[31]提出以表格關鍵事實為中心的模型。表格有多個維度的信息,而大部分研究卻忽略這個事實,Gong 等人[32]便提出對行、列、時間三個維度信息進行編碼的三維層次編碼器模型。Puduppully等人[33]提出內(nèi)容選擇與計劃模型,來解決表格到文本生成模型在內(nèi)容選擇方面表現(xiàn)不佳,模型難以保持句間連貫的問題。將數(shù)據(jù)視作線性數(shù)據(jù)的方式會使得行與行之間的實體失去區(qū)別,Rebuffel 等人[11]提出基于Transformer的層次編解碼模型。表格到文本生成的困難之一是輸入的數(shù)據(jù)太大,樸素的模型無法找到在描述中應該提到數(shù)據(jù)的哪一部分,Iso 等人[34]提出顯著內(nèi)容選擇、跟蹤和生成模型。預訓練模型在自然語言處理領域有優(yōu)秀的表現(xiàn),但是在表格到文本生成領域,因為預訓練模型通常難以感知表格的結構而不能很好地提取表格信息。為解決這個問題,Gong等[35]基于GPT-2預訓練模型提出Table-GPT。表格到文本生成領域的模型有通病:會產(chǎn)生不符合表格信息的文本描述,俗稱“幻覺”。為解決這個問題,Rebuffel等[47]提出多分支解碼器模型,通過調(diào)整不同分支的權重來控制模型產(chǎn)生幻覺。
表格結構感知模型(structure-aware Seq2seq)[30],通過模仿人類描述維基百科信息的寫作方法來構建模型。先從宏觀角度來規(guī)劃整個文本描述的內(nèi)容結構;在描述更加細節(jié)的信息時再具體思考選擇表格中哪些信息,摘抄哪些詞語,如何連詞成句。該模型采用經(jīng)典的序列到序列架構,從局部和全局兩種角度來分別提取表的內(nèi)容信息和結構信息。本地尋址使用內(nèi)容編碼和字級注意力實現(xiàn),而全局編碼使用字段級注意力實現(xiàn)。本地尋址決定在生成描述時具體選用哪個詞,但僅依靠微觀的視角很難生成復雜而準確的描述,因為表格到文本的任務中,表格有多種結構且表格中關鍵字的順序也不同。為能夠適應不同的表結構,模型應該具備宏觀角度觀察表的能力。因此Liu等提出全局尋址,來幫助模型在生成表格描述時選擇關注表格中的哪些信息。這樣的兩層結構,可以達到對表格的內(nèi)容和結構雙重信息進行編碼的目的。對表格信息充分提取后,在解碼階段模型也使用雙重注意力機制。該雙重注意力機制分別對應于編碼器的詞級注意和字段級注意,這種機制能對表信息進行充分的還原。
在Wikibio數(shù)據(jù)集上的實驗表明,模型優(yōu)點在于:能夠利用表內(nèi)容以及表結構信息生成連貫且準確的表述。模型缺點在于:模型單獨復制內(nèi)容的能力和長文內(nèi)容排序能力有待提高。模型結構如圖5所示。
圖5 表格結構感知模型Fig.5 Table structure perception model
深度學習依靠數(shù)據(jù)來驅動。傳統(tǒng)的序列到序列模型擁有較多參數(shù),在數(shù)據(jù)匱乏時表現(xiàn)不好。因此Ma等提出新的“小模型”,這種模型可以在數(shù)據(jù)匱乏的情況下有優(yōu)秀的表現(xiàn)。與傳統(tǒng)的表格到文本的工作類似,該模型將表格到文本任務分為兩個過程:關鍵事實預測與表層實現(xiàn)。
在第一階段,使用“表格到重點”的模型,從表格中抽取出關鍵事實。關鍵事實也可稱為共現(xiàn)事實,即同時出現(xiàn)在表格和文本表述中的字符。該模型采用BI-LSTM(bi-directional long short-term memory network)以及多層 感知機(multilayer perceptron,MLP)分類器來預測二進制序列,這個序列決定是否選擇每個元素作為關鍵事實。
在第二階段,Ma等[31]構建一個序列到序列模型,該模型以第一階段選擇的關鍵事實作為輸入并生成描述表信息的文本。其中關鍵事實預測模型在訓練時所需要數(shù)據(jù)量很少,不像其他模型那樣有著大量數(shù)據(jù)剛需;而表層實現(xiàn)模型可以用偽并行語料集進行訓練。這種偽并行數(shù)據(jù)集可以利用Ma 等提出的算法,利用無標記數(shù)據(jù)進行構造。為能夠充分利用未標記的文本語料庫,Ma 等提出一種可以有效降低兩個任務階段之間誤差傳播的去噪聲數(shù)據(jù)增強方法。同時在表層實現(xiàn)模型的輸入中隨機增加或刪除某個詞以增加數(shù)據(jù)噪聲。通過加入噪聲并將這些數(shù)據(jù)作為對抗性的例子,可以有效地提高表面實現(xiàn)模型的魯棒性。通過實驗,該模型可以在只有1 000 個樣本的情況下在傳記生成數(shù)據(jù)集上取得27.34 BLEU[36]分數(shù)。
模型優(yōu)點在于:利用少量數(shù)據(jù)即可訓練出效果不錯的模型。模型缺點在于:與使用大量數(shù)據(jù)訓練所得的模型相比,表格信息抽取能力不夠優(yōu)秀,有待提升。模型結構如圖6所示。
圖6 以表格關鍵事實為中心模型Fig.6 Model centered on table key facts
表格所包含的信息十分復雜,表格也有不同維度。人在寫表格的文本描述時,會從不同的維度展開。但是在以往的表格到文本的相關研究工作中,并沒有按照這樣的思路,僅僅將表格視作一維的序列記錄。Gong等[32]發(fā)現(xiàn)這個問題并提出一種從三個維度對表格進行建模的模型。Gong 等認為,表格主要信息來源于行、列和時間三個維度,而不僅僅依賴于行這個單一維度。表格信息豐富,每一列都包含一種屬性的信息,在人們的日常描述中,通常不會將所有數(shù)據(jù)全部描述出來,而是在一列中選擇重要的數(shù)據(jù)進行描述。與此同時,表格屬性在時間上有相關性,比如NBA 比賽數(shù)據(jù)、股市數(shù)據(jù)等,在對表格的描述中往往會將一個時間段上的信息進行橫向對比,以獲取時間維度上的信息變化。因此只有從更多維度去提取表格中的信息,模型才能有更好的表現(xiàn)。Gong等將表格到文本分成三個步驟:
首先是為更好地學習表格中單元格的信息,利用三種自注意力(self-attention)模型分別提取表單元格在行、列、時間三種維度的信息。例如對行的信息編碼的計算方式如下所示:
然后利用記錄融合門從三個維度的信息中提取出更為重要的信息,并將它們組合為稠密向量,其計算方式如下所示:
為獲得某一行的表示,使用均值池化方法將同一行中的單元格轉化為需要的表示,并利用內(nèi)容選擇門[33]來過濾掉不重要的信息。在解碼階段,因為編碼器提供記錄級和行級兩種表示,所以使用雙重注意力機制。生成單詞時,模型首先選擇重要的行,然后關注重要記錄。Gong 等在NBA 籃球比賽的數(shù)據(jù)集RotoWire[12]上進行實驗,實驗結果表明該模型在BLEU分數(shù)上有顯著提升,并且能提取列和時間維度上的信息,這是其他模型做不到的。
模型優(yōu)點在于:能從多個維度充分抽取表格信息。模型缺點在于:生成文本描述時缺乏宏觀的內(nèi)容計劃,長期內(nèi)容排序能力不足。
盡管當前模型能夠產(chǎn)生較為流暢的文本,但這些模型并不能很好地捕獲到類似于人類寫作中的長距離關系,這對模型生成長文本不利。神經(jīng)文本生成技術在內(nèi)容選擇方面表現(xiàn)不佳,難以保持句間連貫,同時模型也不能很好地組織文本描述的行文順序[12]。為應對以上這些問題,Puduppully 等[33]提出一種模型,不同于以往表格到文本的Seq-to-Seq模型直接將表編碼后生成文本,該模型顯式地建模內(nèi)容選擇和內(nèi)容規(guī)劃步驟,從而減輕模型的解碼難度。內(nèi)容選擇和規(guī)劃機制可以根據(jù)輸入的表格內(nèi)容產(chǎn)生內(nèi)容計劃。內(nèi)容計劃會指明表格中哪些記錄需要詳細描述而哪些信息無關緊要,同時指明重要信息按照什么順序去組織。在文本生成階段,使用雙向LSTM模型將內(nèi)容計劃編碼,并以此為解碼器的輸入,通過解碼生成文本描述。同時模型擁有復制原文的能力,在每個時間步判斷由模型生成新的詞還是從源表中復制詞。
一種明確的內(nèi)容規(guī)劃機制對于生成長文本有重要幫助,內(nèi)容規(guī)劃可以表示文本的高級結構。同時將復雜任務拆分成簡單子任務也會降低模型訓練難度。傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡會生成重復的句子,但內(nèi)容規(guī)劃機制可以解決此問題。有宏觀信息的指導,模型能清晰地聚焦于當前所需要生成的內(nèi)容,降低產(chǎn)生冗余內(nèi)容的可能性。清晰的結構也使模型生成文本的過程更有解釋性。表格內(nèi)容選擇與計劃模型在RotoWire 數(shù)據(jù)集上進行實驗,利用自動評分和人工評估的實驗表明,該模型能夠改善RotoWire 數(shù)據(jù)集的模型最優(yōu)水平。
模型優(yōu)點在于:在文本結構組織、內(nèi)容排序等方面表現(xiàn)優(yōu)秀。模型缺點在于:需要更多細節(jié)導向的計劃,對多個事實和實體的推斷能力不強。模型結構如圖7所示。
圖7 表格內(nèi)容選擇與計劃模型Fig.7 Table content selection and planning model
傳統(tǒng)的表格到文本的任務通常采用序列到序列架構的編碼器解碼器模型,這給表格到文本模型提出兩個挑戰(zhàn):如何更好地理解結構化的數(shù)據(jù),如何生成表格對應的描述。傳統(tǒng)的模型結構中,編碼器將輸入序列編碼為固定大小的線性序列。這種將數(shù)據(jù)視作線性數(shù)據(jù)的方式會使得行與行之間的實體失去區(qū)別。而Liu等[37]提出對單實體結構進行提取。與此同時,大多數(shù)表格到文本的模型使用遞歸神經(jīng)網(wǎng)絡(RNN)作為編碼器,但這需要將待輸入元素按照順序輸入,這種數(shù)據(jù)輸入方式在無形中對無序序列(即表格中的實體集合)做出了內(nèi)部有順的假設。Vinyals 等[38]證明,這種默認的假設對模型的學習成績有顯著影響。
為彌補上述兩個問題,Rebuffel 等[11]提出分層的模型,通過分層編碼器來捕獲數(shù)據(jù)信息以及結構化信息。首先底層編碼器會對所有單元格進行編碼,接著高層編碼器會對表結構進行編碼。為了充分利用編碼器的層次化結構,解碼器端擁有兩種不同的層次化注意力機制,以此來計算需要饋送給解碼器的上下文向量。為避免對數(shù)據(jù)內(nèi)部順序進行假設,在表格到數(shù)據(jù)的模型中引入Transformer Encoder[39],以確保所有元素或實體無論它們位置在哪,模型對每個元素或實體都可以進行良好的編碼。在解碼階段,Rebuffel等同樣提出兩種不同的層次化注意力機制。一種是關注整個表格的所有記錄:首先處理實體,然后處理與這些實體相對應的記錄。在描述一場比賽時,通常專家決定提到一個球員時都會自動地報告他的得分,而不考慮其具體的價值,因此誕生了另一種按鍵來引導的分層注意力機制:高層注意力機制僅僅關注記錄鍵的表示,而不將注意力分散到整個記錄表示。在RotoWire基準測試上的實驗評估表明,該模型在BLEU得分方面有優(yōu)秀表現(xiàn)。
模型優(yōu)點在于:可以通過比較實體來實現(xiàn)自動推理和豐富描述等任務。模型缺點在于:可能導致錯誤的事實,內(nèi)容排序等方面有待提高。模型結構如圖8所示。
圖8 表格內(nèi)容層次編解碼模型Fig.8 Table content level encoding and decoding model
表格到文本的模型已經(jīng)可以應用于天氣、金融和體育等各個領域。這些模型在結構簡單的短文本描述中有優(yōu)秀的表現(xiàn),但是在更加復雜的表格數(shù)據(jù)中生成長篇的文本描述仍具有挑戰(zhàn)性。困難之一是輸入的數(shù)據(jù)太大,樸素的模型無法找到它的顯著部分,即確定應該描述數(shù)據(jù)哪一部分。此外,在描述表格數(shù)據(jù)時,顯著部分[34]會移動,比如提到某位名人的事跡或是某位球員在比賽中的表現(xiàn)時,顯著部分會移動。
現(xiàn)有的模型不能有效注意到顯著性移動這一問題,導致在生成文本描述的過程中,會出現(xiàn)張冠李戴的現(xiàn)象。通過避免這樣的錯誤并追蹤顯著性,來幫助模型生成質量更高、更可靠的文本描述。Iso 等提出的顯著性追蹤模型由兩個模塊組成,一個模塊用于顯著性追蹤,另一個模塊用于文本生成。跟蹤模塊會選擇并跟蹤表格中的顯著性信息,并且當檢測到顯著性信息發(fā)生轉變時,跟蹤模塊會選中相應的記錄并且及時更新選擇模塊中的顯著性狀態(tài)變量。顯著性轉換計算公式如下:
選擇實體的概率公式如下:
在生成文本時,模型聚焦于跟蹤模塊選中的文本,這樣有指導信息的生成方式能降低模型生成難度。同時對于NBA 球賽這種表格中數(shù)字較多的數(shù)據(jù),提出一種對數(shù)字的靈活表示方法。通過模型的學習,動態(tài)選擇數(shù)字是用阿拉伯數(shù)字表示還是英語單詞表示。
同時Iso等還討論了作者信息對模型生成能力的影響。作者信息通常包括,作者在描述表格時,會選擇哪些需要提及的數(shù)據(jù)記錄,如何組織語言以及寫作風格等。通過融入作者信息可以幫助模型生成高質量文本。在RotoWire-modified 數(shù)據(jù)集上,顯著性追蹤模型有優(yōu)秀表現(xiàn)。
模型優(yōu)點在于:充分抽取表格信息,準確描述表格重要信息。模型缺點在于:處理復雜語言表達時會出現(xiàn)錯誤(如平行結構),并且沒有考慮表結構信息。
數(shù)據(jù)對于表格到文本領域的模型訓練很重要,沒有大量數(shù)據(jù)的支撐很難訓練出能力優(yōu)秀的模型。然而,在現(xiàn)實世界中收集所有領域的大規(guī)模標注數(shù)據(jù)集是不現(xiàn)實的。這就對模型在少樣本情況下的訓練提出更高的要求。最近,預訓練模型在自然語言處理領域的各個研究方向均有優(yōu)秀的表現(xiàn)。通過在大規(guī)模未標記的數(shù)據(jù)集上進行預訓練,使得預訓練模型獲得語言知識[40-42]。并且預訓練模型可以方便地應用于較少的數(shù)據(jù)進行微調(diào),從而推廣到下游任務,為少樣本情況下的模型訓練提供有效的幫助。雖然預訓練模型有優(yōu)點,但是在表格到文本領域利用預訓練模型存在一些問題。首先,預訓練模型GPT-2 的自然語言輸入與表格到文本的結構化數(shù)據(jù)輸入之間存在較大的差異。其次,表格信息不像自然語言輸入是線性的,表格擁有豐富的結構化信息,而傳統(tǒng)的預訓練模型并沒有對應方法去理解表格的結構化信息。此外,表格到文本領域模型有通病,模型會產(chǎn)生不符合表格信息的文本描述,俗稱為“幻覺”。而預訓練模型并不能解決這個問題。為緩解上述問題,Gong等提出TableGPT[35],它可以在少樣本的情況下對表格到文本的模型進行訓練。為應對自然語言的線性序列與結構化數(shù)據(jù)表格兩種輸入之間的差距,Gong等提出一種表格轉換模塊,即利用模板將結構化表格轉化為自然語言。為應對表結構信息提取不充分的問題,在多任務學習框架下提出表結構重構的輔助任務。該任務要求GPT-2 在對結構化表格進行信息提取時,必須將結構化信息嵌入到表示向量中,重建分類器的計算細節(jié)如下所示:
此外,為解決模型的“幻覺問題”,利用內(nèi)容匹配任務來幫助模型通過最優(yōu)傳輸(Chen等人)技術來正確地描述表格中的信息。該技術可以測量生成的文本信息與表格中的信息之間的距離,并將該距離作為懲罰加入到模型訓練中,具體計算方法如下所示:
在人、書、歌曲三個數(shù)據(jù)集上的實驗都表明[43],該模型在表格到文本的少樣本情況下有優(yōu)秀的表現(xiàn)。該模型優(yōu)點在于:不需要大量數(shù)據(jù)且可以在多個領域中快速遷移。該模型缺點在于:文本描述的內(nèi)容組織、宏觀結構有待提高。
使用基于深度學習的方法來解決DTG任務已使技術性能突飛猛進[12,30,33-44],訓練所使用數(shù)據(jù)的質量直接決定模型的性能,因此研究人員往往使用大型語料庫來訓練模型并評估模型在不同任務上的表現(xiàn)。不過,這些大型語料庫往往是通過從互聯(lián)網(wǎng)上的資源以及程序來構建的。雖然互聯(lián)網(wǎng)上的資源很容易獲取,但包括不完全匹配的源目標對,模型的輸出經(jīng)常受到過度生成的影響[45-46],即訓練實例中未對齊的有歧義片段,在推理過程中會導致類似的未對齊輸出,即所謂的“幻覺”。實驗調(diào)查顯示,現(xiàn)實生活中DTG系統(tǒng)的最終用戶,更關心可靠性而不是可讀性,因此解決表格到文本模型的“幻覺”問題就變得至關重要[47]。
為解決“幻覺”問題,Rebuffel 等[48]提出一種多分支加權解碼器,以及一種詞級標注過程。這種詞級標注過程通過依存分析,基于共現(xiàn)和句子結構以減少單詞匹配過程的失敗次數(shù),同時仍然可以在復雜環(huán)境中產(chǎn)生正確標簽。該多分支加權的解碼器以對齊標簽為指導,充當詞級控制因子,在訓練過程中該模型能夠區(qū)分對齊和未對齊的單詞,并學習生成準確的描述,而不會被不真實的參考信息誤導。該模型在Wikibio數(shù)據(jù)集的實驗上有優(yōu)秀的表現(xiàn)。
該模型優(yōu)點在于:多分支加權方法允許在推理時手動控制以此生成低“幻覺”文本。上述方法使得在噪聲數(shù)據(jù)集上訓練神經(jīng)模型成為可能,而不需要手工制作數(shù)據(jù)。該模型缺點在于:生成長文本的流暢性有待提高。模型結構如圖9所示。
圖9 多分支表格信息解碼器模型Fig.9 Multi-branch table information decoder model
在自然語言生成領域,通過評測模型的生成結果可以反映出模型能力的好與壞,評測方法是模型訓練的關鍵。在表格到文本生成領域常用的評價方法有:BLEU(bilingual evaluation understudy)、ROUGE(recall-oriented understudy for gisting evaluation)、關系生成(relation generation,RG)、內(nèi)容選擇(content selection,CS)、內(nèi)容排序(content ordering,CO)。
BLEU[36]得分是文本生成任務中常用的評價指標,在2002 年被提出。BLEU 以“生成文本與目標文本越接近,則生成文本質量越高”的核心思想來設計計算方法。它通過計算生成的候選句子和參考文本之間n-gram()n∈1,2,3,4 的共現(xiàn)次數(shù)來評估機器輸出和人輸出之間的對應關系。
BLEU 有便捷、快速等優(yōu)點,是一種可以在模型訓練中快速、準確給出評價的指標。但是,BLEU 并沒有考慮語言表達的準確性,評價結果會受常用詞干擾,生成短句的得分往往比長句高,并且沒有考慮到詞語的相似性以及同類型的表達方式。
ROUGE[49]是BLEU 的改進版,專注于召回率而非精度,在2004 年被提出。它會查看有多少個參考譯句中的n元詞組出現(xiàn)在輸出之中,這樣能知道模型生成的文本有多少出現(xiàn)在參考文本中,有沒有缺失信息。
ROUGE 基于模型輸出和參考文本之間的最長公共子序列(longest common subsequence,LCS),其中公共子序列要求相同順序的詞,但允許在任一序列的中間添加其他未覆蓋的詞。最終ROUGE-L 評分是F 度量(F-measure),基于在任何參考文本上達到的最大精度和最大召回率。其中準確率、召回率計算為LCS 的長度除以系統(tǒng)輸出和引用的長度。ROUGE大致分為以下四種,常用的是前兩種。
4.2.1 ROUGE-N
ROUGE-N 將BLEU 的精確率優(yōu)化為召回率,最基本的ROUGE的計算方法如下:
其中,分母是n-gram的個數(shù),分子是參考文本和自動生成文本公有的n-gram的個數(shù)。
4.2.2 ROUGE-L
ROUGE-L 將BLEU 的n-gram優(yōu)化為公共子序列,ROUGE-L計算方法如下:
其中,LCS(X,Y)是X和Y的最長公共子序列的長度,m、n分別表示參考文本和模型生成文本的長度,Rcls、Plcs分別表示召回率和精確率(下文同理)。
4.2.3 ROUGE-W
ROUGE-W為改進基本的LCS方法,通過記住到目前為止所遇到的連續(xù)匹配的子序列長度來計算加權最長公共子序列(weighted longest common subsequence,WLCS)。ROUGE-W的計算方法如下:
4.2.4 ROUGE-S
ROUGE-S在參考文本和模型生成文本進行匹配時,不要求n-gram之間必須是連續(xù)的,可以“跳過”幾個單詞。ROUGE-S的計算方法如下:
其中,SKIP2(X,Y)是X和Y之間跳躍雙字節(jié)匹配的次數(shù),β控制Rskip2和Pskip2的相對重要性,C是組合函數(shù),例如C(4,2)=6。
雖然ROUGE 指標改進了上面提到的BLEU 的缺點,就是不考慮語言表達(語法)上的準確性,測評精度會受常用詞的干擾,但是ROUGE指標無法評價模型生成文本的流暢性。
BLEU 可能是評估短文本生成的一種相當有效的方法,但研究人員發(fā)現(xiàn)它在長文本生成方面并不令人滿意。并且它主要獎勵流暢的文本生成,而不是鼓勵捕獲表格中最重要信息,也不是鼓勵以特別連貫的方式描述信息[12]。因此在2017 年,研究人員提出以下三種指標來更好地評價表格到文本生成模型的能力好壞。
4.3.1 關系生成
關系生成(RG)[12]鼓勵系統(tǒng)更好地生成包含正確信息的文本。該方法通過測量,得到同時出現(xiàn)在生成文本和表格s中的關系r的精度和絕對分數(shù),分別表示為RG-P和RG-Count。
4.3.2 內(nèi)容選擇
內(nèi)容選擇(CS)[12]根據(jù)提到的表格信息衡量生成的文本與參考文本的匹配程度。測量從生成文本中提取的唯一關系r的精確度和召回率,分別表示為CSP和CS-R,其中唯一關系r也是從y1:t中提取的。
4.3.3 內(nèi)容排序
內(nèi)容排序(CO)[12]通過分析生成文本中表格信息的排序情況,測量從生成文本提取的信息序列與從參考文本y1:t提取的信息序列之間的歸一化Damerau-Levenshtein距離[50]。
接下來介紹RotoWire、Wikibio數(shù)據(jù)集,以及前面提到的模型在這些數(shù)據(jù)集上的實驗結果。
本節(jié)在RotoWire[12]上訓練和評估文中介紹的模型。RotoWire 是籃球比賽總結的數(shù)據(jù)集,配有相應的框和行得分表,摘要寫得很專業(yè),結構也比較好,長度也比較長(平均337 個單詞)。記錄類型的數(shù)量為39 個,記錄的平均數(shù)量為628 個,詞匯表大小為1.13×104個單詞,token 計數(shù)為1.6×106。數(shù)據(jù)集非常適合文檔規(guī)模的生成。
實驗結果如表1 所示[11-12,33,51]。其中Hierarchical Transformer對應于表格內(nèi)容層次編解碼模型;NCP+CC 對應于表格內(nèi)容選擇與計劃模型;Three Dimensions Encoder 對應于表格三維層次編碼器模型;STG 對應于表格顯著內(nèi)容選擇、跟蹤和生成模型。其中Count 表示計數(shù)、P 表示精確度、R 表示召回率、DLD表示Damerau-Levenshtein距離。
表1 RotoWire實驗結果Table 1 Experiment results of RotoWire
5.1.1 各模型特點
(1)表格內(nèi)容層次編解碼模型(Hierarchical Transformer)獲得最高的BLEU 評分,但是RG-Count 等指標表現(xiàn)一般,即關系生成的能力有待提高。這是因為該模型沒有內(nèi)容計劃等組件,在生成文本時模型不能有效組織文本內(nèi)容及結構。
(2)表格顯著內(nèi)容選擇、跟蹤和生成模型(select,track and generate model,STG)在關系生成方面表現(xiàn)得很好,獲得了最高的評分。這歸功于顯著性追蹤模塊能夠辨別顯著性內(nèi)容以及顯著性何時轉移,這對關系生成十分重要。
(3)表格三維層次編碼器模型(Three Dimensions Encoder)整體表現(xiàn)優(yōu)秀,從多個維度抽取表格信息這是其他模型所沒有的優(yōu)勢,同時解碼器的雙重注意力機制能保證優(yōu)秀的生成效果。并且三個維度的信息抽取,使得模型生成的文本包含更加豐富多樣的信息。
(4)表格內(nèi)容選擇與計劃模型(NCP+CC)的內(nèi)容選擇能力十分優(yōu)秀。因為該模型顯示建模內(nèi)容選擇以及文本計劃機制,在模型生成文本時指導模型選擇正確的內(nèi)容信息。
5.1.2 性能分析比較
(1)BLEU
內(nèi)容層次編解碼模型的BLEU得分最高,這相較于非層次化模型,層次化模型有更優(yōu)秀的編碼能力,可以生成更流暢的文本描述。值得注意的是,內(nèi)容層次編解碼模型性能優(yōu)于內(nèi)容選擇與計劃模型(NCP+CC),這表明在編碼過程中,通過模型去捕獲表格結構信息比預測文本計劃來指導文本生成更有效。
(2)關系生成(RG)
模型需要理解表格內(nèi)容以及結構化信息,從而生成正確的事件、關系描述。顯著內(nèi)容選擇、跟蹤和生成模型(STG)和宏觀計劃模型(Macro)在關系生成方面都有著非常優(yōu)秀的表現(xiàn),這得益于這兩個模型有著從宏觀角度觀察表格、生成文本的能力。在描述表格數(shù)據(jù)時,顯著部分[34]會移動,比如提到某位名人事跡或是某位球員在比賽中的表現(xiàn)時,顯著部分會移動。一般的模型很難捕獲顯著部分的移動,而表格顯著內(nèi)容選擇、跟蹤和生成模型通過顯著內(nèi)容追蹤機制提取了這種信息,從而在關系生成方面有著優(yōu)秀的表現(xiàn)。宏觀計劃模型有著另一種思路,該模型使用先生成宏觀計劃再生成具體內(nèi)容的兩步策略,這種任務的解耦合降低了任務難度,使模型可以更容易地生成宏觀計劃,以此指導模型文本生成過程,并促進了正確關系的生成。
(3)內(nèi)容選擇(CS)
在內(nèi)容選擇方面,不同模型各具特色。三維層次編碼器模型通過多個維度觀察表格,可以抽取到行、列和時間三個維度的信息,這種機制更貼近人類的書寫習慣,也使得生成的文本描述有更豐富的信息。層次化模型通過層次化編碼機制,從表格中抽取了更多的信息。同時該模型編碼器部分使用Transformer 而不是RNN,Transformer 通過直接比較表格信息之間的關系,避免了RNN 對輸入元素順序的假設,這有利于模型提取正確信息,從而選擇正確的表格內(nèi)容。顯著內(nèi)容選擇、跟蹤和生成模型通過其獨特的顯著內(nèi)容追蹤機制,在顯著內(nèi)容發(fā)生轉變時,能及時感知并選擇新的顯著內(nèi)容,這使得對內(nèi)容選擇能力有不小提升。
(4)內(nèi)容排序(CO)
盡管模型可以生成流暢的文本描述,但文本內(nèi)容的排序可能并不合理。三維層次編碼器模型有著優(yōu)秀的內(nèi)容排序能力。該模型有行級編碼器,可以從更高層次看待表格數(shù)據(jù),解碼器生成每個單詞時,首先選擇重要的行再選擇記錄,這樣的機制對內(nèi)容排序有著指導意義。顯著內(nèi)容選擇、跟蹤和生成模型在內(nèi)容排序方面同樣有著優(yōu)秀表現(xiàn)。該模型在生成文本的同時動態(tài)更新顯著內(nèi)容編碼信息,這有利于模型產(chǎn)生更好的內(nèi)容排序。
5.1.3 層次化模型分析比較
將非層次化模型(Flat)、內(nèi)容層次編解碼模型-k(Hierarchical Transformer-k)和內(nèi)容層次編解碼模型-kv(Hierarchical Transformer-kv)進行對比,結果如表2 所示。與其他模型相比,非層次化模型的得分較低,這證明了分層編碼器對表格數(shù)據(jù)結構進行編碼的有效性。這是因為非層次化模型在編碼過程中丟失了區(qū)別不同實體的邊界信息,所以非層次化編碼器很難對存在多個實體的表格進行有效編碼。
內(nèi)容層次編解碼模型-kv是指在解碼時模型的注意力關注每一個記錄。內(nèi)容層次編解碼模型-k是指在解碼時模型僅關注每一個實體(一個實體有多個記錄信息),即模仿人類書寫習慣:以人為單位,提到某人時會自動報告其比賽得分,這種宏觀角度的注意力機制使得該模型有著更好的內(nèi)容選擇能力。
將三維層次編碼器模型中的三維編碼器分別替換為LSTM、CNN、Self-Attention、Transformer 進行對比,結果如表2所示。可以發(fā)現(xiàn)沒有三維層次編碼器的幫助,所有層次化模型的表現(xiàn)都不好。為了評估該模型每一個組件的貢獻,分別將行、列、時間等單維編碼器從模型中移除,所有不完整的模型表現(xiàn)都變差,這說明三個維度的信息和記錄融合門都非常重要。同時位置編碼也非常重要,它保證了模型能夠提取表格結構信息。結果表明,該模型中每一個組件對整體性能都有貢獻。
表2 層次化模型實驗結果對比Table 2 Comparison of experiment results of hierarchical models
5.1.4 內(nèi)容選擇模型分析比較
將表格內(nèi)容選擇與計劃模型(neural content selection and planning model,NCP)、編碼器-解碼器模型(encoder-decoder,ED)分別結合聯(lián)合拷貝(joint copy,JC)、條件拷貝(conditional copy,CC)進行實驗比較,結果如表3 所示。其中w是作者信息。表格內(nèi)容選擇與計劃模型與兩種復制機制的結合都比普通編碼器-解碼器模型優(yōu)秀。表格內(nèi)容選擇與計劃模型與條件拷貝相結合(NCP+CC)的整體表現(xiàn)最優(yōu),其生成的文本最流暢。該模型相較于編碼器-解碼器模型(ED+CC)性能有著不小提升,尤其在內(nèi)容選擇方面提升最多,這表明內(nèi)容選擇與計劃機制有利于提升內(nèi)容選擇能力。
表3 內(nèi)容選擇模型實驗結果對比Table 3 Comparison of experiment results of content selection models
相較于表格內(nèi)容選擇與計劃模型,表格顯著內(nèi)容選擇、跟蹤和生成模型(STG)在關系生成方面性能提升最多。該模型在文本生成過程中通過追蹤顯著內(nèi)容的變化情況,動態(tài)更新編碼信息,在關系生成方面這種機制比模型直接預測文本計劃更有指導意義。
Wikibio數(shù)據(jù)集包含來自英國維基百科的728 321篇文章,分為3個子部分,分別提供582 659個訓練實例、72 831個驗證實例和72 831個測試實例。它使用每篇文章的第一個句子作為相關信息框的描述。該數(shù)據(jù)集有數(shù)據(jù)量較大、詞匯豐富等特點。每個描述中平均有26.1個單詞,表中也出現(xiàn)9.5個單詞。表格中平均包含53.1 字和19.7 個屬性。實驗結果如表4所示[30,44,48]。其中Structure-aware Seq2seq對應于表格結構感知模型,MBD 對應于多分支表格信息解碼器模型。
表4 Wikibio實驗結果Table 4 Experiment results of Wikibio
5.2.1 各模型特點
(1)表格結構感知模型表現(xiàn)最好,BLEU 和ROUGE兩項指標都取得最高分,這歸功于表內(nèi)容信息、表結構信息的充分抽取,并在解碼階段使用雙重注意力機制確保生成文本的高質量。但是由于數(shù)據(jù)噪聲,該模型生成的文本存在“幻覺”問題。
(2)多分支表格信息解碼器模型(multi-branch decoder,MBD)雖然得分低于表格結構感知模型,但是由于詞級標注過程,模型在訓練過程中不會受到未對齊數(shù)據(jù)的影響,有效改善了“幻覺”問題。
5.2.2 性能分析比較
(1)BLEU
表格結構感知模型在BLEU指標中得分最高,這歸功于該模型的表格結構感知編碼器。傳統(tǒng)的方法只是簡單地將表格詞編碼與表格字段編碼做拼接,再一起輸入給編碼器進行編碼,這種方式忽略了表格的結構信息,使得模型無法有效地對表格進行編碼。表格結構感知編碼器通過在LSTM中加入字段控制門,以此對記憶單元的內(nèi)容以及何時更新進行有效控制,這種機制有助于模型理解表格的結構信息,從而提高模型生成文本的質量。
(2)ROUGE
表格結構感知模型生成的文本與參考文本最相似,這得益于雙重注意力機制。該機制中詞級注意力關注表格記錄之間的關系,字段級注意力對模型生成的描述和表格記錄的信息相關性進行編碼。詞級注意力和字段級注意力的聚合可以在表格內(nèi)容與其模型生成的描述間建立更精確的聯(lián)系,這保證了模型生成高質量文本描述。
5.2.3 “幻覺”情況分析比較
由于數(shù)據(jù)集通過程序在互聯(lián)網(wǎng)中收集整理而成,數(shù)據(jù)中存在未對齊的表格-文本對。這樣的噪聲將對模型訓練產(chǎn)生影響,導致模型生成表格未提及的內(nèi)容,俗稱“幻覺”。即使是表現(xiàn)優(yōu)秀的表格結構感知模型也會出現(xiàn)“幻覺”。
將標準編碼器-解碼器模型(Stnd)、多分支編碼器解碼器模型(Hsmm)、分層模型(Hier)、多分支表格信息解碼器模型(MBD)進行對比,結果如表5 所示??梢园l(fā)現(xiàn),除了多分支表格信息解碼器模型,唯一幻覺率較低的模型(Stnd_filtered),其使用的訓練數(shù)據(jù)是按照幻覺分數(shù)清洗后的數(shù)據(jù),獲取這樣的數(shù)據(jù)成本較高。
表5 “幻覺”情況實驗結果對比Table 5 Comparison of experiment results of“hallucination”
在一般的數(shù)據(jù)集中進行訓練,其他模型很難避免“幻覺”問題。而多分支表格信息解碼器模型可以很好地應對這一問題。利用解碼器中內(nèi)容、幻想和流暢度三個分支,實現(xiàn)對文本描述三種要素的控制,并且可以手動設置不同分支的權重以達到降低幻覺的目的,因此多分支表格信息解碼器模型可以生成幻覺率極低并且十分流暢的文本。
(1)內(nèi)容選擇。結構復雜的表格中存在多種屬性,每種屬性有多個值,并且表格在不同維度均含有信息,模型不能有效理解表結構及其內(nèi)容,這給模型生成文本描述帶來困擾。
(2)內(nèi)容排序。當模型生成文本時,沒有優(yōu)秀的機制去引導模型描述什么,按照什么順序描述。導致模型盡管可以生成流暢的文本,但很難保持句間連貫,生成文本的排序也不恰當。
(3)“幻覺”問題。當前數(shù)據(jù)集中存在不完全對齊的表格-文本對,這導致即使最優(yōu)模型也會出現(xiàn)脫離表格內(nèi)容的文本描述,俗稱“幻覺”。
(4)理解表格中的數(shù)字。許多數(shù)據(jù)集(如Roto-Wire)中存在大量數(shù)字,普通embedding 方法無法表示這些數(shù)字在表格中的含義,因此模型很難理解表格中的數(shù)字。
(1)高效的表格編碼器。目前已有多種對表格編碼的方式,它們分別針對于內(nèi)容選擇、內(nèi)容排序等問題,但都有局限性,不能全方位提取表格信息。因此如何全面地理解表格結構、理解表格中的數(shù)字、抽取表格多維信息,還有較大的研究空間。
(2)使用預訓練模型。由于預訓練模型輸入與表格到文本輸入之間存在較大差異,在該領域應用預訓練模型十分困難。但是預訓練模型有著豐富的語言知識,使用價值極高。因此如何轉換表格輸入形式,表示表格結構信息,從而高效使用預訓練模型是未來研究中急需解決的問題。
(3)提高文本描述準確性。對于文本描述,用戶更關心其信息的準確性,因此如何最大程度減少“幻覺”文本的出現(xiàn)是未來研究重點之一。
(4)構建高質量數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)集主要是通過程序在互聯(lián)網(wǎng)中收集整理而成,因此存在較大的噪聲。表格到文本生成領域的研究需要更加干凈的數(shù)據(jù)集來減少噪聲對模型訓練的影響。
本文描述了表格到文本的任務背景、任務難點以及主流研究方法。同時介紹了表格結構感知模型等表現(xiàn)優(yōu)秀的表格到文本生成新模型,這些模型在主流數(shù)據(jù)集上進行的實驗中表現(xiàn)優(yōu)秀。與此同時,還介紹了表格到文本領域較為通用的評價方法,如BLEU、ROUGE等。對各種先進的模型在Wikibio和RotoWire 等公用數(shù)據(jù)集上的實驗結果進行了比較與分析,并分析了各模型在不同指標下的優(yōu)勢與劣勢。最后總結了該領域目前的挑戰(zhàn)并展望了未來的發(fā)展趨勢。