馬廷淮 于 信 榮 歡
1 (南京信息工程大學(xué)軟件學(xué)院 南京 210044)
2 (南京信息工程大學(xué)人工智能學(xué)院(未來技術(shù)學(xué)院) 南京 210044)(thma@nuist.edu.cn)
21 世紀(jì)以來,隨著互聯(lián)網(wǎng)的快速發(fā)展,出現(xiàn)了大批的互聯(lián)網(wǎng)媒體平臺(tái),例如新聞傳媒機(jī)構(gòu)、網(wǎng)絡(luò)購物網(wǎng)站、社交網(wǎng)絡(luò)平臺(tái)等,這些平臺(tái)的出現(xiàn)使得互聯(lián)網(wǎng)中的數(shù)據(jù)呈指數(shù)級(jí)增長.在這其中,文本數(shù)據(jù)由于其編寫容易、傳播方便的特性成為了這些平臺(tái)中數(shù)據(jù)的主要組成.大量文本數(shù)據(jù)的涌現(xiàn),導(dǎo)致平臺(tái)中的用戶很難在短時(shí)間內(nèi)獲取到自己想要的信息,這既不利于互聯(lián)網(wǎng)平臺(tái)的發(fā)展同時(shí)又降低了用戶的瀏覽體驗(yàn),為此需要快速有效的方法從海量文本中提煉出關(guān)鍵的信息.文本生成方法作為自然語言處理領(lǐng)域的重要研究內(nèi)容之一,利用深度神經(jīng)網(wǎng)絡(luò)模型可以實(shí)現(xiàn)自動(dòng)化的文本摘要(automatic text summarization)生成,例如給長文章生成相應(yīng)的摘要內(nèi)容,或者給新聞生成對(duì)應(yīng)的標(biāo)題等.通過自動(dòng)文摘技術(shù)可以從海量文本數(shù)據(jù)中生成能準(zhǔn)確反映原文中心內(nèi)容的簡短文本,這既幫助用戶快速篩選出了有價(jià)值的文本信息內(nèi)容,又降低了各個(gè)平臺(tái)的人工編輯成本,提升了內(nèi)容的傳播速率,因此具有重要的現(xiàn)實(shí)意義[1].
然而,傳統(tǒng)的基于深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)文摘生成模型依賴于大量的含有標(biāo)注的數(shù)據(jù)進(jìn)行模型的訓(xùn)練[2],且訓(xùn)練出來的模型只適用于單一的任務(wù)領(lǐng)域,無法在其他領(lǐng)域中有效地泛化.但在實(shí)際的應(yīng)用場景中,文本數(shù)據(jù)往往存在多主題、多領(lǐng)域的特點(diǎn)[1],且一個(gè)新領(lǐng)域出現(xiàn)時(shí),很難在短時(shí)間內(nèi)獲得該領(lǐng)域中大量含有標(biāo)注的數(shù)據(jù)對(duì)文本生成模型進(jìn)行傳統(tǒng)有監(jiān)督地訓(xùn)練.因此,在目標(biāo)領(lǐng)域參考真值標(biāo)注數(shù)據(jù)缺失的情況下,如何有效訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)文本生成模型,以達(dá)到較好的領(lǐng)域泛化效果值得進(jìn)一步研究.
為了解決上述的問題,現(xiàn)有工作多采用遷移學(xué)習(xí)中的“預(yù)訓(xùn)練-微調(diào)”(pre-train & fine-tune)方法,來緩解目標(biāo)任務(wù)領(lǐng)域中已標(biāo)注真值數(shù)據(jù)缺失的限制[2],即針對(duì)給定的深度神經(jīng)網(wǎng)絡(luò)文本生成模型,由相關(guān)源域中大量已標(biāo)注的文本數(shù)據(jù)對(duì)生成模型進(jìn)行預(yù)訓(xùn)練;在此基礎(chǔ)上,基于從源域?qū)W習(xí)到的模型參數(shù),通過目標(biāo)域中少量已標(biāo)注的文本數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)[2],以使生成模型由源域有效遷移至目標(biāo)域,從而達(dá)到領(lǐng)域適應(yīng)的目的.由此,通過引用相關(guān)源域的先驗(yàn)知識(shí),輔助標(biāo)注數(shù)據(jù)量較少的目標(biāo)域完成摘要文本的生成.
然而,“預(yù)訓(xùn)練-微調(diào)”的遷移學(xué)習(xí)范式仍存在不足.首先,源域和目標(biāo)領(lǐng)域之間存在較明顯的數(shù)據(jù)差異,除通過微調(diào)手段外,仍需進(jìn)一步從數(shù)據(jù)分布的角度消除數(shù)據(jù)差異對(duì)領(lǐng)域遷移效果的負(fù)面影響.其次,當(dāng)目標(biāo)域中缺少足夠或不存在任何可用于微調(diào)的標(biāo)注數(shù)據(jù)時(shí),所給定深度文本生成模型無法通過微調(diào)有效適應(yīng)至目標(biāo)領(lǐng)域,進(jìn)而導(dǎo)致遷移式文本生成性能欠佳,直接削弱了文本生成模型在目標(biāo)領(lǐng)域上的適應(yīng)性.
對(duì)此,零次學(xué)習(xí)(zero-shot learning)提供了較好的思路啟發(fā)[3],通過特征屬性為各領(lǐng)域構(gòu)建“領(lǐng)域要素”(domain prototype)以描述該領(lǐng)域下的數(shù)據(jù)語義,通過不同領(lǐng)域要素之間的語義關(guān)聯(lián)性,由最相關(guān)源域的“已標(biāo)注樣本”輔助處理目標(biāo)域“未標(biāo)注樣本”(即語義要素傳導(dǎo)),進(jìn)而針對(duì)自動(dòng)文本摘要生成任務(wù).即便沒有給定任何目標(biāo)域人工標(biāo)注數(shù)據(jù),仍可借助深度文本生成模型,根據(jù)零次學(xué)習(xí)語義要素傳導(dǎo)原理,為目標(biāo)域中大量未標(biāo)注原始文本產(chǎn)生領(lǐng)域適應(yīng)性較好的目標(biāo)領(lǐng)域摘要文本[4].
綜上所述,本文提出了一種基于中間域語義傳導(dǎo)的跨領(lǐng)域文本生成方法,旨在通過源域和目標(biāo)域數(shù)據(jù)之間的語義關(guān)聯(lián),由最為相關(guān)的源域已標(biāo)注樣本指導(dǎo)目標(biāo)域文本生成,從而克服新領(lǐng)域標(biāo)注樣本稀缺的限制,提升深度文本生成模型在真實(shí)場景中的可用性.本文的主要貢獻(xiàn)有5 點(diǎn):
1)為源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)構(gòu)建文本數(shù)據(jù)語義要素;
2)改進(jìn)深度神經(jīng)網(wǎng)絡(luò)文本生成模型內(nèi)部結(jié)構(gòu),強(qiáng)化模型編碼和解碼過程,使模型可以接收文本語義要素的各個(gè)要素,從模型結(jié)構(gòu)上提升領(lǐng)域間的可遷移性;
3)在核空間中,對(duì)源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)進(jìn)行數(shù)據(jù)表示分布對(duì)齊,緩解不同領(lǐng)域間數(shù)據(jù)表示的分布差異對(duì)領(lǐng)域間遷移所帶來的負(fù)面影響,在數(shù)據(jù)表示層面增強(qiáng)了領(lǐng)域間的可遷移性;
4)將源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)按照文本相似性綜合指標(biāo)劃分至K個(gè)中間過渡域中,由此目標(biāo)域數(shù)據(jù)可以通過更為恰當(dāng)?shù)念I(lǐng)域數(shù)據(jù)選擇,在生成過程中參考更具有語義相似性的源域數(shù)據(jù);
5)基于改進(jìn)后的文本生成模型,為文本語義要素中的不同要素構(gòu)建相應(yīng)的文本生成損失函數(shù),以此引導(dǎo)模型捕捉跨領(lǐng)域數(shù)據(jù)在語義要素上的近似參考關(guān)系,進(jìn)而學(xué)習(xí)到跨領(lǐng)域數(shù)據(jù)間的語義關(guān)聯(lián),從而在中間域內(nèi)將相關(guān)新源域已標(biāo)注文本作為目標(biāo)域無標(biāo)注原始文本的可參考真值.
自動(dòng)文本摘要生成技術(shù)屬于自然語言處理領(lǐng)域中文本生成任務(wù)的一個(gè)分支[1].當(dāng)前主流的自動(dòng)文本摘要生成模型主要依賴于大量已標(biāo)注真值摘要樣本對(duì)生成模型進(jìn)行有監(jiān)督訓(xùn)練,從而得到具有較好生成性能的模型.但在實(shí)際應(yīng)用場景中常出現(xiàn)真值文本缺失的問題,由此引入了遷移學(xué)習(xí)相關(guān)方法用于解決此問題.現(xiàn)對(duì)自動(dòng)文本摘要生成方法、文本生成任務(wù)中傳統(tǒng)的遷移學(xué)習(xí)方法以及零次學(xué)習(xí)方法相關(guān)工作進(jìn)行歸納總結(jié).
自動(dòng)文本摘要生成是指利用計(jì)算機(jī)通過算法自動(dòng)地將文本或文本集合轉(zhuǎn)換成簡短摘要,幫助用戶通過摘要全面準(zhǔn)確了解原始文獻(xiàn)的中心內(nèi)容[1],此類自動(dòng)文本摘要生成任務(wù)的變體包括論文生成摘要、新聞生成標(biāo)題[5]、海量社交媒體文本生成的關(guān)鍵內(nèi)容.
當(dāng)前主流的自動(dòng)文本摘要生成方法可分為抽取式(extractive)和生成式(abstractive).抽取式方法是從原始文章中提取突出的句子或短語[1];而生成式方法則產(chǎn)生新的詞語或短語,這些詞語可能會(huì)改寫或使用原始文章中沒有的詞語[6].在本文中,主要研究生成式文本摘要生成模型,具體是根據(jù)給定原始文本產(chǎn)生相應(yīng)的標(biāo)題.
近年來,許多研究者采用序列到序列(sequence to sequence)的模型結(jié)構(gòu)建立生成式文本摘要生成模型.Rush 等人[7]在“編碼器-解碼器”的形式中,將包含注意力(attention)機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)應(yīng)用于生成式摘要任務(wù),與傳統(tǒng)的方法相比,該方法的性能得到了有效的提升;吳仁守等人[8]同樣基于“編碼器-解碼器”的形式,但在編碼器端引入全局自匹配機(jī)制,根據(jù)文本中每個(gè)單詞的語義和文本整體語義的匹配程度,尋找出文本的核心內(nèi)容為給定文本生成核心摘要內(nèi)容;Narayan 等人[9]使用指針生成器網(wǎng)絡(luò)[10]在輸入文檔中識(shí)別突出的句子和關(guān)鍵詞,將句子和關(guān)鍵詞結(jié)合以形成最終的摘要.此外,文本摘要生成模型也可以通過基于自注意力(self-attention)機(jī)制的神經(jīng)網(wǎng)絡(luò)組件進(jìn)行構(gòu)建,如Transformer[11].基于Transformer 的文本生成模型同樣以“編碼器-解碼器”的形式進(jìn)行構(gòu)建,解決了傳統(tǒng)RNN 架構(gòu)不能并行計(jì)算的問題,提高了文本生成的效率.勞南新等人[12]將改進(jìn)的預(yù)訓(xùn)練語言模型作為編碼器,用于提取詞級(jí)粒度的信息特征,同時(shí)采用多層Transformer 作為解碼器,以字為粒度生成混合字詞特征的中文文本摘要.
由此可見,目前主流的文本生成模型結(jié)構(gòu)仍為“編碼器-解碼器”的形式.目前采用RNN 或Transformer對(duì)其構(gòu)建,結(jié)構(gòu)為“編碼器-解碼器”的生成式文本摘要生成模型通常采用傳統(tǒng)有監(jiān)督方式進(jìn)行訓(xùn)練[13],并不適用于目標(biāo)域已標(biāo)注真值樣本缺失的應(yīng)用場景[14],這意味著需要研究針對(duì)此類場景下的遷移式文本生成方法,以克服目標(biāo)域已標(biāo)注真值數(shù)據(jù)稀缺的限制.
對(duì)于遷移學(xué)習(xí)方法在文本生成任務(wù)中的應(yīng)用,已有研究工作表明,使用特定語料數(shù)據(jù)訓(xùn)練的模型不能跨領(lǐng)域通用[15].目前,傳統(tǒng)遷移學(xué)習(xí)方法側(cè)重于通過某種遷移策略,由源域數(shù)據(jù)輔助目標(biāo)域完成特定任務(wù)[13].典型的遷移策略包括3 個(gè)方面:
1)基于參數(shù)的遷移策略.先從源域數(shù)據(jù)中學(xué)習(xí)模型參數(shù);再基于全部或部分已學(xué)習(xí)到的模型參數(shù),在目標(biāo)域數(shù)據(jù)上進(jìn)行微調(diào);最后使用微調(diào)后的模型完成目標(biāo)任務(wù).這也是目前最常見的遷移學(xué)習(xí)策略.
2)基于特征的遷移策略.側(cè)重于尋找“好的”特征表示,以減少源域和目標(biāo)域之間數(shù)據(jù)的表示差異.
3)基于關(guān)系的遷移策略.根據(jù)領(lǐng)域語義關(guān)聯(lián)在源域和目標(biāo)域之間建立映射.
在基于參數(shù)的遷移策略研究方面,隨著深度學(xué)習(xí)的不斷發(fā)展,預(yù)訓(xùn)練模型被引入到自然語言生成任務(wù)中并獲得了廣泛的應(yīng)用.通過使用大規(guī)模語料庫獲得預(yù)訓(xùn)練模型,并使用目標(biāo)域中相對(duì)少量的訓(xùn)練數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),實(shí)現(xiàn)從源域到目標(biāo)域的遷移[16].按照“預(yù)訓(xùn)練-微調(diào)”模式,多種預(yù)訓(xùn)練語言模型被提出.具體地:Raffel 等人[17]提出了預(yù)訓(xùn)練文本生成模型T5,通過使用包含多個(gè)領(lǐng)域數(shù)據(jù)的大規(guī)模common crawl 數(shù)據(jù)庫來進(jìn)行不同跨度掩碼填充任務(wù)的預(yù)訓(xùn)練;Lewis 等人[18]使用去噪自動(dòng)編碼器預(yù)訓(xùn)練了序列到序列的模型BART,在預(yù)訓(xùn)練過程中采用噪聲函數(shù)來掩碼隨機(jī)跨度的文本,引導(dǎo)模型學(xué)習(xí)如何重建原始文本;Zhang 等人[19]提出的預(yù)訓(xùn)練文本生成模型PEGASUS 在語料庫中學(xué)習(xí)如何重新填充多個(gè)被掩碼的句子以進(jìn)行預(yù)訓(xùn)練.
在基于特征的遷移策略研究方面,有研究者提出了用多種方法來獲得文本或特征上的可遷移表示,從而在不同特征空間的領(lǐng)域之間轉(zhuǎn)移知識(shí).由于不同特征空間之間通常沒有對(duì)應(yīng)關(guān)系,因此需要額外的信息來連接各個(gè)領(lǐng)域[20].通過將不同領(lǐng)域之間的數(shù)據(jù)聯(lián)系起來,在盡可能保留數(shù)據(jù)原始特征信息的同時(shí),減少源域和目標(biāo)域之間的數(shù)據(jù)特征差異,從而達(dá)到領(lǐng)域適應(yīng)目的.具體地,Chen 等人[21]設(shè)計(jì)了一種廣義協(xié)變量遷移假設(shè)方法對(duì)無監(jiān)督領(lǐng)域適應(yīng)問題進(jìn)行建模,通過在子空間中應(yīng)用分布適應(yīng)函數(shù)并使用凸優(yōu)化損失函數(shù),使源域數(shù)據(jù)分布適應(yīng)于目標(biāo)域數(shù)據(jù)分布,從而解決當(dāng)領(lǐng)域差異較大時(shí),傳統(tǒng)特征轉(zhuǎn)換方法不能使轉(zhuǎn)換后的源域分布和目標(biāo)域分布近似的問題;Li 等人[22]提出一種基于矩陣分解的半監(jiān)督異構(gòu)域適應(yīng)方法,在再生希爾伯特核空間(reproducing kernel Hilbert space,RKHS)內(nèi)進(jìn)行矩陣分解,利用特征和數(shù)據(jù)實(shí)例之間的非線性關(guān)系學(xué)習(xí)源域和目標(biāo)域的異質(zhì)特征,以彌補(bǔ)核空間中源域和目標(biāo)域之間的特征差異;Zellinger 等人[23]提出了基于度量的正則化方法,該方法通過最大化不同領(lǐng)域中特定激活分布之間的相似性,來表示不同領(lǐng)域中相似的潛在特征,以實(shí)現(xiàn)無監(jiān)督的領(lǐng)域自適應(yīng);王文琦等人[24]和Deng等人[25]沒有直接將不同領(lǐng)域的數(shù)據(jù)表示進(jìn)行對(duì)齊,而是利用生成對(duì)抗網(wǎng)絡(luò),將源域和目標(biāo)域中的原始文檔輸入到生成器中生成新的文本,使判別器無法區(qū)分生成文本所屬領(lǐng)域,從而獲得不同領(lǐng)域數(shù)據(jù)潛在的遷移式文本表示.
現(xiàn)有的研究表明[16],一方面,通過少量目標(biāo)域數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語言模型,可以有效地進(jìn)行語言模型的領(lǐng)域適應(yīng).但另一方面,將預(yù)訓(xùn)練語言模型應(yīng)用到目標(biāo)領(lǐng)域時(shí),仍需通過一定量的數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)才能達(dá)到較好的領(lǐng)域適應(yīng)效果[26].若目標(biāo)域缺乏已標(biāo)注真值數(shù)據(jù),會(huì)直接影響模型在目標(biāo)域中的泛化效果,新領(lǐng)域標(biāo)注數(shù)據(jù)缺失的限制仍然存在.因此越來越多的研究者開始關(guān)注在目標(biāo)域缺乏已標(biāo)注數(shù)據(jù)的情況下,研究更有效的方法將文本生成模型從源域向目標(biāo)域遷移,從而在目標(biāo)域中達(dá)到較好的文本生成效果.
在基于關(guān)系的遷移策略方面,近年來,許多研究者將零次學(xué)習(xí)[27]相關(guān)方法應(yīng)用于遷移式文本生成任務(wù)中.零次學(xué)習(xí)方法相比于傳統(tǒng)的遷移學(xué)習(xí)方法,更加針對(duì)于解決目標(biāo)域已標(biāo)注樣本缺失的問題.在目標(biāo)域可參考真值數(shù)據(jù)缺失的條件下,零次學(xué)習(xí)方法通常會(huì)給每個(gè)領(lǐng)域構(gòu)建相應(yīng)的“要素描述”.由此,即使輸入數(shù)據(jù)是未標(biāo)注的,但若輸入數(shù)據(jù)的一組屬性“接近”某個(gè)領(lǐng)域的“要素描述”,就可以推斷出給定輸入數(shù)據(jù)的類別標(biāo)簽[4].由此,目標(biāo)域中缺乏可參考真值數(shù)據(jù)的問題就可以通過領(lǐng)域要素傳導(dǎo)的方式解決.具體地:Zhao 等人[28]通過從各領(lǐng)域數(shù)據(jù)選擇若干具有代表性的對(duì)話文本,將相應(yīng)的真值文本作為種子,以及將代表性對(duì)話文本中的關(guān)鍵實(shí)體詞作為注釋,使用跨域編碼器對(duì)源域和目標(biāo)域之間共享的領(lǐng)域要素進(jìn)行編碼,再通過解碼器生成對(duì)話文本,由此根據(jù)不同領(lǐng)域間領(lǐng)域要素的相似性實(shí)現(xiàn)了從源域到目標(biāo)域的遷移;Liu 等人[29]在多語言場景下的源語言和目標(biāo)語言中收集語義相似的術(shù)語(包括從目標(biāo)語言真值文本中所收集的詞匯)作為領(lǐng)域語義要素,并在此基礎(chǔ)上,使用隱變量模型處理不同語言間相似句子的領(lǐng)域分布差異;Ayana 等人[30]和Duan 等人[31]提出的遷移式文本生成模型將源域的原始文檔作為輸入,直接為目標(biāo)域生成文本,并采用目標(biāo)域真值文本訓(xùn)練生成模型,并通過建立結(jié)構(gòu)相同的精簡文本生成模型,模仿“輸入→輸出”過程,建立從源域到目標(biāo)域的語義要素映射,最終將目標(biāo)域的原始文檔作為輸入,以產(chǎn)生目標(biāo)域?qū)?yīng)的文本生成結(jié)果.由此可見,目前已有大量的零次學(xué)習(xí)方法用于解決跨域的文本生成任務(wù),但目前應(yīng)用在跨域文本生成任務(wù)中的零次學(xué)習(xí)方法通常會(huì)使用目標(biāo)域真值數(shù)據(jù)參與領(lǐng)域語義要素構(gòu)建.但是當(dāng)目標(biāo)域真值數(shù)據(jù)缺失時(shí),相關(guān)工作仍存在限制.
綜上所述,通過對(duì)現(xiàn)有遷移式文本生成方法的歸納總結(jié),發(fā)現(xiàn)仍有3 個(gè)方面需進(jìn)一步研究:首先,通過大規(guī)模語料庫預(yù)訓(xùn)練的語言模型應(yīng)用到目標(biāo)域上時(shí),仍然需要目標(biāo)域中一定量的已標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),從而使模型適應(yīng)到目標(biāo)域,這意味著目標(biāo)域中可參考真值數(shù)據(jù)缺失的限制依然存在;其次,不同領(lǐng)域間數(shù)據(jù)在數(shù)據(jù)表示分布上的差異性會(huì)對(duì)模型產(chǎn)生跨域的負(fù)面影響[15],這意味需要通過有效的方法減少不同領(lǐng)域數(shù)據(jù)表示之間的差異性;最后,在進(jìn)行跨域的模型生成過程中,目標(biāo)域數(shù)據(jù)要盡可能地借助源域數(shù)據(jù)進(jìn)行輔助,以提升文本生成效果,這意味需要從已有源域數(shù)據(jù)中挖掘出對(duì)目標(biāo)域數(shù)據(jù)有幫助的信息,通過獲取數(shù)據(jù)間信息的關(guān)聯(lián)性改進(jìn)模型獲取關(guān)聯(lián)信息的能力,針對(duì)目標(biāo)域數(shù)據(jù)找出最有幫助的源域數(shù)據(jù),從而輔助目標(biāo)域數(shù)據(jù)生成.
采用基于零次學(xué)習(xí)方法進(jìn)行遷移式文本生成的任務(wù),主要的挑戰(zhàn)是如何充分借助源域中已有的標(biāo)注數(shù)據(jù),幫助無參考真值的目標(biāo)域數(shù)據(jù)進(jìn)行文本生成.
本文要解決的問題可以定義為:給定源域的原始正文Xsource、源域真值文本Ysource和目標(biāo)域的原始文本Xtarget.在目標(biāo)域沒有可參考真值文本Ytarget的情況下,通過提出的基于零次學(xué)習(xí)語義要素傳導(dǎo)的文本生成方法,生成出目標(biāo)域的相應(yīng)摘要文本Ytarget.
本節(jié)將分別從文本語義原型構(gòu)建、遷移式文本生成模型構(gòu)建、領(lǐng)域數(shù)據(jù)分布對(duì)齊、中間域重劃分和零次學(xué)習(xí)語義要素傳導(dǎo)這5 個(gè)方面闡述所提出的遷移式文本生成方法.
1)在各個(gè)中間域中,為不同領(lǐng)域形如(新聞x, 標(biāo)題y)的數(shù)據(jù)構(gòu)建“語義要素”.
2)針對(duì)跨域遷移式的文本生成場景,改進(jìn)“編碼器-解碼器”結(jié)構(gòu)的文本生成模型,以適用于零次學(xué)習(xí)中的語義要素傳導(dǎo)方法,實(shí)現(xiàn)從源域到目標(biāo)域的遷移.
3)將源域和目標(biāo)域數(shù)據(jù)的文本表示投射到再生希爾伯特核空間中,將源域的數(shù)據(jù)分布與目標(biāo)域的數(shù)據(jù)分布對(duì)齊,從而減少不同領(lǐng)域之間數(shù)據(jù)分布差異所帶來的負(fù)面影響,從數(shù)據(jù)表示層面提升領(lǐng)域間的可遷移性.
4)建立中間域,將源域和目標(biāo)域中的數(shù)據(jù)根據(jù)文本相似性的綜合指標(biāo)重新劃分至若干中間域中,使得在中間域內(nèi)進(jìn)行更為恰當(dāng)?shù)念I(lǐng)域數(shù)據(jù)選擇,為目標(biāo)域數(shù)據(jù)分配了更具有語義相似性的源域數(shù)據(jù).
5)通過零次學(xué)習(xí)語義要素傳導(dǎo),將中間域中的目標(biāo)域無標(biāo)注原始文本與新源領(lǐng)域中最相關(guān)的標(biāo)題進(jìn)行語義關(guān)聯(lián),根據(jù)語義要素上的相似或接近,為目標(biāo)域原始文本遷移式生成摘要文本.
最終,在遷移式文本生成過程中,相關(guān)源域中的真值文本將充當(dāng)目標(biāo)域文本生成的參考真值,從而不再依賴于對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行人工標(biāo)注.
首先,利用原始文本x、相應(yīng)的真值文本y和基于原始文本x得到的語義注釋a這3 個(gè)要素,為源域和目標(biāo)域中各個(gè)數(shù)據(jù)(原始文本x,摘要文本y)構(gòu)建一個(gè)語義要素,記為z=(xd, yd, ad), 其中,d表示領(lǐng)域(domains),d∈{src,tar}.表 示 數(shù) 據(jù) 來 自 源 域(source domains,src)或目標(biāo)域(target domain,tar).語義要素z中源域和目標(biāo)域的原始文本表示為xsrc和xtar;源域的摘要文本表示為ysrc.在涉及到目標(biāo)域的摘要文本數(shù)據(jù)ytar時(shí),將根據(jù)相應(yīng)的原始文本xtar中每個(gè)子句與整個(gè)原始文本xtar之間的ROUGE-L指標(biāo)得分,從原始文本xtar中抽取得分最高的前n個(gè)子句作為當(dāng)前目標(biāo)域原始文本的“偽真值”ytar(即目標(biāo)域偽摘要文本).此處,抽取的子句數(shù)量n由當(dāng)前目標(biāo)域原始文本xtar所屬中間域內(nèi)源域(原始文本x,摘要文本y)數(shù)據(jù)的平均長度壓縮率決定;源域和目標(biāo)域的語義注釋asrc和atar是將源域和目標(biāo)域的原始文本xsrc和xtar分詞轉(zhuǎn)換為關(guān)鍵詞序列得到的,該關(guān)鍵詞序列中各詞匯詞性屬于名詞、動(dòng)詞、形容詞或副詞中的一種,并且各詞匯均被賦予相應(yīng)的情感極性值(即在[-1,1]之間).由此,通過上述過程為源域和目標(biāo)域中各“原始文本x-(偽)摘要文本y”對(duì)構(gòu)建了數(shù)據(jù)級(jí)語義要素,記為z=(xd, yd, ad),d∈{src,tar}.
遷移式文本生成模型可以有效應(yīng)對(duì)生成過程中目標(biāo)域缺少參考真值的問題,本文設(shè)計(jì)了基于中間域的零次學(xué)習(xí)語義要素傳導(dǎo)遷移式文本生成模型.通過語義要素傳導(dǎo)策略,遷移式文本生成模型可以學(xué)習(xí)到不同領(lǐng)域之間的文本語義關(guān)聯(lián),這樣的語義關(guān)聯(lián)可以被認(rèn)為是所涉及領(lǐng)域的先驗(yàn)知識(shí).當(dāng)為目標(biāo)領(lǐng)域生成文本時(shí),若無可供參考的真值數(shù)據(jù),可將領(lǐng)域先驗(yàn)知識(shí)作為參考.
本文提出的遷移式文本生成模型基于“編碼器-解碼器”的形式進(jìn)行構(gòu)建,如圖1 所示.
Fig.1 Structure of the transferable text generation model圖1 遷移式文本生成模型結(jié)構(gòu)
圖1 中,編碼器端由2 個(gè)結(jié)構(gòu)相同的編碼器模塊E1和E2組成.E1和E2以及解碼器端的解碼器模塊D是將Transformer 模型[11]與雙向長短期記憶網(wǎng)絡(luò)(bidirectional long-short term memory,Bi-LSTM)相結(jié)合構(gòu)建的,這樣的設(shè)計(jì)使得遷移式文本生成模型可以整合自注意力機(jī)制與循環(huán)神經(jīng)網(wǎng)絡(luò).此外在模型解碼端添加了指針生成器網(wǎng)絡(luò)[10],以解決文本生成任務(wù)中的未登錄詞(out-of-vocabulary,OOV)問題.
圖2 中遷移式文本生成模型的編碼器模塊E以及解碼器模塊D參考原始的Transformer 模型[11]設(shè)計(jì),每個(gè)模塊中都包括了N個(gè)堆疊的子層,每一個(gè)子層中由多頭注意力機(jī)制(multi-head attention)與全連接前饋(feed forward)網(wǎng)絡(luò)組成,同時(shí)都采用了殘差連接再歸一化的處理.將Bi-LSTM 層添加到E和D的每個(gè)子層中,構(gòu)建增強(qiáng)型的編碼器與解碼器.在這樣設(shè)計(jì)的每個(gè)子層中,Bi-LSTM 層的輸入與子層的原輸入相同,而輸出在子層最后的歸一化之前,與子層的原輸出相加.此外,如果Bi-LSTM 使用與Transformer 模型相同數(shù)量的隱藏單元數(shù)h,就會(huì)得到維度為2h的Bi-LSTM 輸出,因此設(shè)計(jì)添加一個(gè)線性層(linear layer),將Bi-LSTM 的輸出維度2h投射到維度h,以便與Transformer 的輸出維度相匹配.
Fig.2 Internal structure of encoder E and decoder D圖2 編碼器E 和解碼器D 內(nèi)部結(jié)構(gòu)
由此,輸入數(shù)據(jù)中的語義關(guān)聯(lián)性(由Transformer中的自注意力機(jī)制提供)和時(shí)序依賴性(由Bi-LSTM提供)可以同時(shí)得到保留.在模型訓(xùn)練過程中編碼器端的編碼器模塊E1用于接收原始文本xd作為輸入,另一個(gè)編碼編碼器模塊E2用于接收摘要文本yd或語義注釋ad作為輸入,而解碼器端模塊D會(huì)接收摘要文本yd參與模型訓(xùn)練.當(dāng)摘要文本yd是來自源域時(shí),使用源域的真值摘要文本ysrc;當(dāng)摘要文本yd來自目標(biāo)域時(shí),則使用目標(biāo)域的偽摘要文本ytar.
通過上述方式,將源域和目標(biāo)域的原始文本xd和摘要文本yd同時(shí)反饋給編碼器和解碼器,從而在零次學(xué)習(xí)語義要素傳導(dǎo)階段建立源域和目標(biāo)域數(shù)據(jù)之間的語義關(guān)聯(lián).由此,在遷移式文本生成模型的訓(xùn)練過程中,解碼器模塊會(huì)分別和2 個(gè)編碼器模塊的輸出進(jìn)行多頭注意力計(jì)算[11],在編碼器端和解碼器端捕捉原始文本xd、語義注釋ad和摘要文本yd之間的全局依賴性.此外,由于指針生成器網(wǎng)絡(luò)的加入,解碼器在生成文本的過程中,會(huì)使用指針生成器網(wǎng)絡(luò)提供的“復(fù)制機(jī)制”[10],在生成摘要文本的每個(gè)時(shí)間步上決定是從編碼器端的輸入文本中復(fù)制詞匯或是從詞表中生成詞匯,從而完成最終的摘要文本生成.
本文構(gòu)建的適用于語義要素傳導(dǎo)的文本生成模型,接收語義要素z=(xd,yd,ad),d∈{src, tar}作為輸入,輸出生成的摘要文本yd'.具體地,模型編碼器接收語義要素z=(xd,yd,ad),d∈{src, tar}作為輸入,在編碼階段,編碼器接收輸入v=(w1,w2, …,wn)得到編碼器隱藏狀態(tài)h=(h1,h2, …,hn).在解碼階段,給定輸入xt后,可以得出時(shí)間步驟t的解碼隱藏狀態(tài)st,并計(jì)算出編碼器隱藏狀態(tài)h的注意力分布at,以結(jié)合編碼器隱藏狀態(tài)h和解碼器狀態(tài)st的線性轉(zhuǎn)換.接下來,在時(shí)間步驟t,由編碼器隱藏狀態(tài)對(duì)注意力分布的加權(quán)和計(jì)算得出上下文向量表示ct.于是可以得到詞匯分布Pvocab(wt),而Pvocab(wt)表示在時(shí)間步驟t預(yù)測單詞時(shí)詞表中所有單詞的概率分布.
此外,使用指針生成器網(wǎng)絡(luò)在解碼的時(shí)間步驟t采用指針ptgen作為軟開關(guān),以選擇是按概率Pvocab(wt)從詞匯表中選擇生成一個(gè)詞匯,或根據(jù)注意力權(quán)重at從輸入的文本中復(fù)制一個(gè)詞匯.因此,得到最終擴(kuò)展詞表的概率分布P(wt).其中,ptgen是根據(jù)上下文向量ct、解碼器狀態(tài)st和解碼器輸入xt計(jì)算得到的.圖1所示模型生成摘要文本ydgen的具體過程如式(1)所示:
其中v,Wh,Ws,batt,Vp,bv,Wc,Wx,bgen都是可學(xué)習(xí)的參數(shù).
由此,在圖1 所示模型的訓(xùn)練過程中,模型接收輸入xd,yd,ad,并按式(1)將詞匯生成概率分布Pvocab和注意力概率分布at與指針開關(guān)ptgen加權(quán)求和獲得最終的詞序分布概率P(wt),以生成相應(yīng)的摘要文本ydgen.
一般而言,2 個(gè)領(lǐng)域的特征空間存在相似性與差異性[3].具體地,不同的領(lǐng)域間有一些共同的特征,但每個(gè)領(lǐng)域也有自己域的特有特征.在領(lǐng)域適應(yīng)的過程中,利用不同領(lǐng)域的共同特征將不同的領(lǐng)域聯(lián)系起來,可以有效減少不同領(lǐng)域數(shù)據(jù)分布之間的差異性.如圖3 所示,2 個(gè)領(lǐng)域間會(huì)存在一些共同特征Sc和Tc,其中Sc表示源域內(nèi)部所包含的源域和目標(biāo)域的共同特征,Tc表示目標(biāo)域內(nèi)部所包含的源域和目標(biāo)域的共同特征.同時(shí)每個(gè)領(lǐng)域中也存在各自特有的領(lǐng)域特征Ss和Tt,其中Ss表示源域特有特征,Tt表示目標(biāo)域特有特征.因此,為了在遷移式文本生成上取得更好的性能指標(biāo),首先要對(duì)齊源域和目標(biāo)域之間的數(shù)據(jù)分布表示,以減小不同領(lǐng)域間數(shù)據(jù)表示的分布差異對(duì)遷移式文本生成造成的影響.
Fig.3 Feature fill alignment圖3 特征填充對(duì)齊
具體地,通過預(yù)訓(xùn)練語言模型BERT[32]分別輸出源域和目標(biāo)域的文本詞嵌入(word embedding)表示.將源域原始文本表示為Xsrc,輸入特征的詞嵌入表示為Xsrc=[Sc;Ss],其中Sc表示Xsrc中包含c個(gè)共同特征的特征矩陣,Ss表示Xsrc中包含s個(gè)源域特有特征的特征矩陣;目標(biāo)域原始文本數(shù)據(jù)表示為Xtar,輸入特征的詞嵌入表示為Xtar=[Tc;Tt],其中Tc表示Xtar中包含c個(gè)共同特征的特征矩陣,Tt表示Xtar中包含t個(gè)目標(biāo)域特有特征的特征矩陣,如圖3 所示.
圖3 中,Xsrc和Xtar之間的數(shù)據(jù)分布首先通過類交叉填充的方式實(shí)現(xiàn)特征填充對(duì)齊,減小領(lǐng)域特有特征影響;在此基礎(chǔ)上,使用最大均值差異(maximum mean discrepancy,MMD)在再生希爾伯特核空間內(nèi)通過最小化最大均值差異以減小填充后的領(lǐng)域數(shù)據(jù)分布差異,從數(shù)據(jù)分布層面對(duì)齊填充后的源域和目標(biāo)域數(shù)據(jù).
具體地:
1)特征映射函數(shù)Φsrc和Φtar將源域和目標(biāo)域中的共同特征與各自領(lǐng)域中的特有特征進(jìn)行映射聯(lián)系,如式(2)所示:
2)將所得特征映射Φsrc和Φtar交叉作用于Tc和Sc上以進(jìn)行特征填充,如圖3 所示,將從目標(biāo)域得到的特征映射Φtar應(yīng)用到源域的共同特征Sc上,得到領(lǐng)域適應(yīng)化特征矩陣Sa.為目標(biāo)域做相同的交叉操作,得到領(lǐng)域適應(yīng)化特有特征矩陣Ta:
3)將源域和目標(biāo)域的原始特征矩陣Sc、特有特征矩陣Ss和適應(yīng)化特征矩陣Sa進(jìn)行填充,分別得到填充后的特征矩陣Xsf和Xtf,如式(4)所示:
特別地,式(3)中的2 個(gè)特征映射Φsrc和Φtar可以分 別 表 示為Φsrc(Sc)=WSTSc和Φtar(Tc)=WTTTc,則Sa=于是式(2)可以進(jìn)一步推導(dǎo)為式(5):
4)為了使源域更好地適應(yīng)于目標(biāo)域,還需要確保式(4)所輸出源域和目標(biāo)域的特征矩陣Xsf和Xtf在分布上盡可能接近.將填充對(duì)齊后的表示映射到再生希爾伯特核空間中;在此核空間中,通過最大均值差異來度量不同領(lǐng)域數(shù)據(jù)映射到核空間后的分布距離Dist.通過縮小Xsf和Xtf映射結(jié)果之間的分布距離Dist從而減小源域和目標(biāo)域數(shù)據(jù)的分布差異,如式(6)所示:
最后,源域文本詞嵌入表示通過全連接層與激活函數(shù)sigmoid 進(jìn)行特征變換,再將其結(jié)果投射到核空間中,而目標(biāo)域的文本詞嵌入表示則直接投射到核空間中,如圖4 所示.
Fig.4 Data distribution alignment schematic diagram圖4 數(shù)據(jù)分布對(duì)齊示意圖
通過最小化式(6)中的目標(biāo)函數(shù)Dist(Xsf,Xtf)使源域與目標(biāo)域的數(shù)據(jù)分布接近.由此,圖4 中全連接層的參數(shù)將在式(6)目標(biāo)函數(shù)最小化的過程中被更新.
按式(6)訓(xùn)練后,將源域全連接層映射FCΦ輸出的源域文本表示X'src作為與目標(biāo)域分布對(duì)齊的表示結(jié)果.而目標(biāo)域自身的文本表示X'tar則是通過將目標(biāo)域的原始詞嵌入表示輸入至源域映射FCΦ中計(jì)算所得,如式(7)所示:
當(dāng)有多個(gè)源域時(shí),如式(7)所示,則目標(biāo)域的文本表示將為多個(gè)源域上的平均表示.此處,式(7)中N表示所有領(lǐng)域的總數(shù)量.綜上,針對(duì)源域原始文本Xsrc和目標(biāo)域原始文本Xtar的領(lǐng)域數(shù)據(jù)分布對(duì)齊總體過程如算法1 所示.
算法1.領(lǐng)域數(shù)據(jù)分布對(duì)齊過程.
輸入:源域原始文本Xsrc,目標(biāo)域原始文本Xtar;源域特征表示Xsrc=[Sc;Ss],目標(biāo)域特征表示Xtar=[Tc;Tt];
輸出:源域分布對(duì)齊表示X'src,目標(biāo)域分布對(duì)齊表示X'tar.
① 通過最小化式(2)的目標(biāo)函數(shù),獲取特征映射函數(shù)Φsrc和Φtar;
② 將特征映射Φsrc和Φtar交叉作用于Tc和Sc上獲取式(3)中的領(lǐng)域適應(yīng)化特征矩陣和Ta;
③ 進(jìn)行式(4)中的特征填充操作,獲取源域和目標(biāo)域填充對(duì)齊后的特征矩陣Xsf和Xtf;
④ 通過最小化式(6)中的最大均值差異Dist來減小分布差異,獲取源域全連接層映射FCΦ;
⑤ 將③中得到的Xsf輸入式(7)中源域全連接層映射FCΦ,獲取對(duì)齊后的源域分布對(duì)齊表示X'src;
⑥ 將③中得到的Xtf輸入式(7)中源域全連接層映射FCΦ,獲取對(duì)齊后的目標(biāo)域分布對(duì)齊表示X'tar.如果有多個(gè)源域則取平均表示.
為加強(qiáng)源域和目標(biāo)域之間的可遷移性,提高遷移過程中領(lǐng)域數(shù)據(jù)的相關(guān)性,從而為目標(biāo)域原始文本尋找更為適配的源域摘要文本作為生成參考,本文進(jìn)一步將源域和目標(biāo)域中所有數(shù)據(jù)根據(jù)文本相似性綜合指標(biāo)歸納成簇,重新劃分至K個(gè)中間過渡域中,從而在中間域中,為目標(biāo)域數(shù)據(jù)分配更為合適的源域數(shù)據(jù),即更為恰當(dāng)?shù)念I(lǐng)域數(shù)據(jù)選擇,如圖5 所示.
Fig.5 Intermediate domain redistribution schematic diagram圖5 中間域重劃分示意圖
具體地,每個(gè)重劃分的中間域內(nèi)包含了最具有相似性的源域和目標(biāo)域數(shù)據(jù).由于不同領(lǐng)域數(shù)據(jù)之間具有語義差異,不恰當(dāng)?shù)闹虚g域劃分會(huì)導(dǎo)致其所包含的源域和目標(biāo)域數(shù)據(jù)之間產(chǎn)生負(fù)遷移問題[3].因此,各中間域內(nèi)的數(shù)據(jù)應(yīng)擁有盡可能多的相似特征.
首先,由式(7)得到各源域和目標(biāo)域的分布對(duì)齊表示X'src和X'tar之后,對(duì)每個(gè)源域中所有數(shù)據(jù)的分布對(duì)齊表示取平均,得到各源域內(nèi)的平均分布對(duì)齊表示向量.接著,將各源域內(nèi)與平均分布對(duì)齊表示向量距離最相近的數(shù)據(jù)點(diǎn)作為各中間域的起始點(diǎn),由此得到源域個(gè)數(shù)N-1 個(gè)中間域起始點(diǎn).最后,本文研究并選擇了4 個(gè)相似性計(jì)算指標(biāo),從文本內(nèi)容相似性角度進(jìn)行中間域重劃分:
1)特定詞重合度Soverlap.計(jì)算給定文本對(duì)的相似度,即文本中特定用詞的重合度越高,表示文本傳達(dá)的主要信息越相似.使用余弦相似度來量化這一指標(biāo),如式(8)所示:
其中xi和yi表示源域文本和目標(biāo)域文本經(jīng)過OneHot編碼后,詞頻向量x和y在同位i上的值,即每個(gè)分詞出現(xiàn)的次數(shù).
2)用詞覆蓋率Scoverage.將給定文本對(duì)中重合詞的數(shù)量除以目標(biāo)域文本中的詞數(shù)量,即文本中相同用詞越多表明源域文本與目標(biāo)域文本越相似.根據(jù)召回率(recall)來衡量源域文本和目標(biāo)域文本在單個(gè)詞語上的共現(xiàn)性,如式(9)所示:
其中g(shù)ram1表示共現(xiàn)詞的詞粒度為1,式(9)中分子部分表示源域文本與目標(biāo)域文本中同時(shí)出現(xiàn)gram1的個(gè)數(shù),式(9)中分母部分表示目標(biāo)域文本中出現(xiàn)的gram1個(gè)數(shù).
3)信息密度Sdensity.將給定文本對(duì)中的重合詞數(shù)量除以源域文本中的詞數(shù)量,即高信息密度表明源域文本中有大量可遷移至目標(biāo)域的信息.根據(jù)信息密度(density)來衡量源域文本和目標(biāo)域文本在詞語上的重復(fù)度,如式(10)所示:
其中g(shù)ram1表示共現(xiàn)詞的詞粒度為1,式(10)分子部分表示源域文本與目標(biāo)域文本中同時(shí)出現(xiàn)的gram1個(gè)數(shù),式(10)分母部分表示源域文本中出現(xiàn)的gram1個(gè)數(shù).
4)文本長度Slength.文本長度可以反映出所包含信息量的多少,即擁有相似長度的文本對(duì)所包含的信息量大致相同.使用源域文本和目標(biāo)域文本標(biāo)記長度絕對(duì)差值與文本標(biāo)記長度和比值的負(fù)值來量化這一指標(biāo),如式(11)所示:
其中Star_len表示目標(biāo)域文本經(jīng)過分詞后得到的詞序列中的詞數(shù)量,Ssrc_len表示源域文本經(jīng)過分詞后得到的詞序列中的詞數(shù)量.
最終如式(12)所示,將特定詞重合度Soverlap、用詞覆蓋率Scoverage、信息密度Sdensity和文本長度Slength相加,得到用于計(jì)算源域文本和目標(biāo)域文本內(nèi)容相似性的綜合指標(biāo)S:
然后,在得到源域個(gè)數(shù)N-1 個(gè)中間域起始點(diǎn)后,使用聚類方法中常用的輪廓系數(shù)(silhouette coefficient)[33]對(duì)起始點(diǎn)個(gè)數(shù)進(jìn)行評(píng)價(jià),從而從N-1 個(gè)中間域起始點(diǎn)中確定最佳的K個(gè)中間域起始點(diǎn).假設(shè)已經(jīng)將源域和目標(biāo)域數(shù)據(jù)按照文本內(nèi)容相似性的綜合指標(biāo)S劃分為源域數(shù)量個(gè)中間域,對(duì)于每個(gè)中間域中的每個(gè)樣本點(diǎn)i,分別計(jì)算其輪廓系數(shù).具體地,需要對(duì)每個(gè)樣本點(diǎn)i計(jì)算2 個(gè)指標(biāo):a(i)表示樣本點(diǎn)i到同一中間域中其他樣本點(diǎn)距離的平均值;b(i)表示樣本點(diǎn)i到其他中間域Cj中所有樣本的距離的平均值bi,j,其中b(i)=min{bi1,bi2, …,bik}.則樣本點(diǎn)i的輪廓系數(shù)如式(13)所示:
中間域中所有樣本點(diǎn)i的輪廓系數(shù)的平均值,即為該中間域總的輪廓系數(shù)S∈[-1, 1],S越接近于1,說明中間域劃分效果越好.接著將每個(gè)中間域的輪廓系數(shù)進(jìn)行相加排名,獲得輪廓系數(shù)總和得分最高的中間域組合,此時(shí)組合的中間域個(gè)數(shù)即為中間域劃分最優(yōu)K取值.最后,將源域和目標(biāo)域剩余的原始文本分別與K個(gè)中間域起始點(diǎn)所對(duì)應(yīng)的原始文本,通過式(12)進(jìn)行內(nèi)容相似性指標(biāo)計(jì)算,按所得綜合相似性指標(biāo)評(píng)分排序,逐個(gè)將源域和目標(biāo)域剩余的原始文本劃分到得分排名第1 的中間域中,由此將所有領(lǐng)域文本劃分到各自最相似的中間域中,如圖5所示,形成K個(gè)中間域每個(gè)中間域均同時(shí)包含了最相似的源域和目標(biāo)域數(shù)據(jù),由此在后續(xù)利用語義要素傳導(dǎo)策略進(jìn)行遷移時(shí),中間域內(nèi)的目標(biāo)域原始文本可按照語義要素的相似性將最為相關(guān)的源域摘要文本作為模型訓(xùn)練參考真值.圖5 基于文本相似性指標(biāo)的領(lǐng)域文本中間域重劃分總體過程如算法2 所示.
算法2.中間域重劃分過程.
輸入:源域原始文本,源域數(shù)量為N-1,目標(biāo)域原始文本,目標(biāo)域數(shù)量為1;
輸出:重新劃分為K個(gè)(不超過N-1 個(gè))中間域的新源域原始文本和目標(biāo)域原始文本.
① 對(duì)式(7)獲取的源域分布對(duì)齊詞嵌入表示取平均,獲取源域中的平均分布對(duì)齊表示;
② 獲取源域中與平均分布對(duì)齊表示最相近的原始文本作為起始文本,獲取N-1 個(gè)中間域起始點(diǎn)新聞文本數(shù)據(jù);
③ 根據(jù)式(13)的輪廓系數(shù),獲得每個(gè)起始點(diǎn)為中心的新中間域輪廓系數(shù)s;
④ 根據(jù)N-1 個(gè)輪廓系數(shù),得出排名最高的中間域廓系數(shù)s的得分組合,此時(shí)的中間域個(gè)數(shù)即為最佳K取值;
⑤ 將剩余的源域和目標(biāo)域中的數(shù)據(jù)分別與K個(gè)中間域起始新聞文本通過式(12)計(jì)算文本相似性綜合指標(biāo)S,并根據(jù)得分進(jìn)行排序,根據(jù)指標(biāo)得分,將文本劃分到得分最高的中間域中;
⑥ 對(duì)源域和目標(biāo)域剩余的原始文本重復(fù)⑤操作,直到所有數(shù)據(jù)被劃分到新的K個(gè)中間域中.
基于圖1 中構(gòu)建的遷移式文本生成模型、分布對(duì)齊后的源域數(shù)據(jù)表示X'src和目標(biāo)域數(shù)據(jù)表示X'tar,以及圖5 中重新劃分的K個(gè)中間域D′i中的數(shù)據(jù),本文設(shè)計(jì)了一種基于中間域的語義要素傳導(dǎo)方法,訓(xùn)練遷移式的文本生成模型,從而有效解決新領(lǐng)域存在的數(shù)據(jù)缺失問題.
值得注意的是:1)原始文本xd、摘要文本yd和語義注釋ad(包含關(guān)鍵詞序列及關(guān)鍵詞情感極性值)均通過BERT 模型獲取其詞嵌入表示;2)在構(gòu)建語義要素z=(xd, yd, ad),d∈{src,tar}時(shí),所有領(lǐng)域數(shù)據(jù)均已遵循圖5 所示的領(lǐng)域重劃分原則被劃分至K個(gè)中間域中,并且原始文本表示xd已按式(7)進(jìn)行了領(lǐng)域數(shù)據(jù)分布對(duì)齊;3)所構(gòu)建語義要素z=(xd, yd, ad),d∈{src,tar}將會(huì)輸入至如圖1 所示的適用于語義要素傳導(dǎo)的遷移式文本生成模型中.
具體地,基于式(1)所示的生成過程,針對(duì)零次學(xué)習(xí)語義要素傳導(dǎo),按式(14)為語義要素z中的(xd,yd)設(shè)計(jì)損失函數(shù)Loss1,從而使所輸入原始文本xd生成的摘要文本“接近于”xd對(duì)應(yīng)的參考摘要文本yd,以此推導(dǎo)出原始文本xd、真值摘要文本yd和所生成摘要文本?d三者間的語義轉(zhuǎn)導(dǎo)關(guān)系.
具體地,如式(14)所示,E1(xd)表示將原始文本xd輸入到編碼器端的編碼器模塊E1中;E2(yd)表示將摘要所包含的領(lǐng)域數(shù)據(jù)而言,給定語義要素z=(xd, yd, ad),d∈{src,tar},通過最小化損失函數(shù)Loss1,可以在中間域D′i內(nèi)建立隱式的語義轉(zhuǎn)導(dǎo)關(guān)系
類似地,基于式(1)所示的生成過程,針對(duì)零次學(xué)習(xí)語義要素傳導(dǎo),按式(15)為語義要素z中的(ad,yd)設(shè)計(jì)損失函數(shù)Loss2,從而使所輸入語義注釋ad生成的標(biāo)題“接近于”ad對(duì)應(yīng)的真值摘要文本yd,以此推導(dǎo)出語義注釋ad、摘要文本yd和所生成摘要文本?d三者間的語義轉(zhuǎn)導(dǎo)關(guān)系.
具體地,如式(15)所示,將原始文本xd對(duì)應(yīng)的語義注釋ad輸入到編碼器模塊E2后,仍然令模型生成摘要文本?d.與此同時(shí),通過最小化MSE[E2(ad)||E2(yd)],引導(dǎo)編碼器模塊E2輸出的隱藏狀態(tài)E2(ad)“接近于”E2(yd)輸出的隱藏狀態(tài).最終,對(duì)于中間域所包含的領(lǐng)域數(shù)據(jù)而言,給定數(shù)據(jù)語義要素z=(xd, yd, ad),d∈{src, tar},通過最小化損失函數(shù)Loss2,可以在中間域內(nèi)建立隱式的語義轉(zhuǎn)導(dǎo)關(guān)系
最后,如式(16)所示,通過將損失函數(shù)Loss1和Loss2相結(jié)合,構(gòu)建了復(fù)合生成損失函數(shù)Lossco,從而間接反映了基于語義要素傳導(dǎo)的遷移式文本生成原理,即當(dāng)輸入語義要素z=(xd, yd, ad),d∈{src,tar}時(shí),圖1 中遷移式文本生成模型的參數(shù)將通過式(16)中的復(fù)合損失函數(shù)Lossco進(jìn)行訓(xùn)練,從而如圖6 所示,在中間域內(nèi)建立語義轉(zhuǎn)導(dǎo)關(guān)系xd≈yd≈ad→?d≈yd.
因此,在每個(gè)中間域中,當(dāng)給定來自新源域的語義要素zsrc=(xsrc,ysrc,asrc)時(shí),新源域內(nèi)可建立語義關(guān)聯(lián)xsrc≈ysrc≈asrc→ysrc.接著,當(dāng)給定來自目標(biāo)域的語義要素ztar=(xtar,ytar,atar)時(shí),目標(biāo)域內(nèi)可建立語義關(guān)聯(lián)xtar≈ytar≈atar.當(dāng)涉及新源域和目標(biāo)域之間的語義要素傳導(dǎo)時(shí),如圖6 所示,如果在一個(gè)中間域中,存在任何一對(duì)(原始文本x, 摘要文本y)的語義要素ztar=(xtar,ytar,atar)與zsrc=(xsrc,ysrc,asrc)接近或相似,則會(huì)產(chǎn)生一 個(gè) 跨 域 的 語 義 關(guān)聯(lián)xtar≈ysrc≈asrc→ysrc,即 為xtar→ysrc,如圖6 所示.
因此,當(dāng)給定目標(biāo)域原始文本xtar時(shí),可以參考新源域中相關(guān)的真值文本ysrc來輔助生成目標(biāo)域中的摘要文本ytar.由此,即使目標(biāo)域中沒有真值文本數(shù)據(jù),也可以通過零次學(xué)習(xí)語義要素傳導(dǎo)的方式借助新源域數(shù)據(jù)幫助目標(biāo)域中的原始文本生成摘要文本,整體過程如算法3 所示.
算法3.基于零次學(xué)習(xí)語義要素傳導(dǎo)的遷移式文本生成過程.
輸入:源域語義要素zsrc=(xsrc,ysrc,asrc),目標(biāo)域語義要素ztar=(xtar,ytar,atar);
輸出:生成摘要文本?d,d∈{src, tar}.
① 在中間域內(nèi),通過式(14)中Loss1訓(xùn)練遷移式文本生成模型,構(gòu)建源域內(nèi)語義關(guān)聯(lián):
xsrc≈ysrc≈asrc→ysrc;
xtar≈ysrc≈asrc→ysrc;
③ 在中間域內(nèi),通過式(16)中Lossco訓(xùn)練遷移式文本生成模型,構(gòu)建跨域語義關(guān)聯(lián):
xtar≈ysrc≈asrc→ysrc,即為xtar→ysrc;
④ 模型通過式(1)生成摘要文本?d,d∈{src, tar}.生成過程中更新遷移式文本生成模型參數(shù).
在實(shí)驗(yàn)中,針對(duì)本文設(shè)計(jì)的多領(lǐng)域場景下的遷移式文本生成任務(wù),因?yàn)樾侣勌烊坏鼐哂卸囝I(lǐng)域、多主題的特點(diǎn),所以選擇了新聞標(biāo)題生成任務(wù)進(jìn)行實(shí)驗(yàn).本文選取了公開數(shù)據(jù)集PENS(personalized news headlines)[5]個(gè)性化新聞標(biāo)題生成數(shù)據(jù)集.PENS 中包含113 762 篇新聞,分為15 個(gè)主題,每篇新聞包含標(biāo)題和正文.本文從PENS 數(shù)據(jù)集中隨機(jī)選擇8 個(gè)新聞主題作為不同領(lǐng)域,包括體育(sports)、金融(finance)、音 樂(music)、天 氣(weather)、汽 車(auto)、電 影(movie)、健康(health)和兒童(kid).在每一個(gè)領(lǐng)域中,隨機(jī)選擇8 000 條新聞數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集.
表1 中描述了實(shí)驗(yàn)所使用數(shù)據(jù)集的相關(guān)信息.其中,“平均長度”和“最大長度”表示每個(gè)領(lǐng)域中,所有新聞?wù)暮托侣剺?biāo)題通過預(yù)訓(xùn)練BERT 模型進(jìn)行分詞后,所得詞序列的最大長度與平均長度.“壓縮率”表示一個(gè)領(lǐng)域中新聞標(biāo)題的文本平均長度與新聞?wù)奈谋酒骄L度的比率.
Table 1 Statistical Information on the News Data Extracted from PENS Dataset表1 PENS 數(shù)據(jù)集中提取的新聞數(shù)據(jù)的統(tǒng)計(jì)信息
在實(shí)驗(yàn)中,圖6 中遷移式文本生成模型編碼器模塊和解碼器模塊的子層數(shù)量均為4,子層的輸入輸出維度為512,多頭注意力的注意力頭數(shù)量為8;用于獲取詞嵌入表示的預(yù)訓(xùn)練BERT 模型采用維度大小為512 的BERT-Medium;Bi-LSTM 的 隱 藏 單 元 數(shù) 量 為512;模型訓(xùn)練采用帶有自定義學(xué)習(xí)率的Adam 優(yōu)化器[11];在每個(gè)領(lǐng)域上訓(xùn)練的迭代次數(shù)(epochs)為1 000;本文所有實(shí)驗(yàn)均采用Python 3.8 和tensorflow-gpu 2.5.0 實(shí)現(xiàn),實(shí)驗(yàn)平臺(tái)配置為Windows 10 操作系統(tǒng),GPU 為NVIDIA 2080Ti 顯 卡,內(nèi) 存 為32GB RAM,CPU 為Intel Core i7-11700K 處理器.
為了評(píng)估本文提出的遷移式文本生成模型應(yīng)用到新聞標(biāo)題生成任務(wù)時(shí)的有效性,將本文提出的遷移式文本生成模型與現(xiàn)有性能表現(xiàn)出眾的預(yù)訓(xùn)練語言模型和零樣本數(shù)據(jù)或小樣本數(shù)據(jù)學(xué)習(xí)相關(guān)的文本生成模型進(jìn)行比較.
本實(shí)驗(yàn)選擇T5[17],BART[18],PEGASUS[19],BertSum[34]預(yù)訓(xùn)練語言模型.這4 個(gè)預(yù)訓(xùn)練語言模型均使用預(yù)訓(xùn)練參數(shù)作為模型的初始參數(shù),在不改變其他超參數(shù)情況下,使用表1 中的數(shù)據(jù)對(duì)這4 個(gè)模型在預(yù)訓(xùn)練初始參數(shù)的基礎(chǔ)上繼續(xù)進(jìn)行訓(xùn)練.
對(duì)于零樣本數(shù)據(jù)或小樣本數(shù)據(jù)文本生成模型,選擇ZSDG[28], TransferRL[35], DAML[36], MTL-ABS[37].其中,ZSDG 通過將“種子級(jí)別”的數(shù)據(jù)描述投射到一個(gè)子空間中,再在領(lǐng)域?qū)用嫔线M(jìn)行語義描述遷移,從而使用零次學(xué)習(xí)方法通過領(lǐng)域描述進(jìn)行目標(biāo)域零數(shù)據(jù)的遷移式文本生成.TransferRL 包含一個(gè)在不同領(lǐng)域之間共享的解碼器,并通過強(qiáng)化學(xué)習(xí)自我批評(píng)(self-critic)策略最大化解碼器泛化至不同領(lǐng)域的“獎(jiǎng)勵(lì)”,提升模型的領(lǐng)域適應(yīng)性,從而只需要在小批量數(shù)據(jù)上進(jìn)行微調(diào)便可快速適應(yīng)至目標(biāo)領(lǐng)域.DAML和MTL-ABS 均根據(jù)元學(xué)習(xí)(meta-learning)原理,使用序列到序列的形式構(gòu)建生成模型,但DAML 使用門控循環(huán)神經(jīng)網(wǎng)絡(luò)作為編碼器和解碼器,而MTL-ABS以Transformer 作為編碼器和解碼器.DAML 和MTLABS 通過元學(xué)習(xí)方式從梯度優(yōu)化層面,為模型搜索最具潛力的參數(shù)取值,使模型對(duì)目標(biāo)域少樣本數(shù)據(jù)反應(yīng)更加靈敏,提升模型的領(lǐng)域泛化性.與預(yù)訓(xùn)練語言模型相比,零樣本數(shù)據(jù)或少樣本數(shù)據(jù)學(xué)習(xí)模型都直接使用表1 中的數(shù)據(jù),并根據(jù)各自的遷移策略對(duì)模型進(jìn)行訓(xùn)練.
本文對(duì)比模型的生成效果采用文本生成任務(wù)中常用的評(píng)價(jià)指標(biāo)ROUGE-1/2/L[38],BLEU[38],METEOR[38]來評(píng)估.將目標(biāo)域中的新聞?wù)妮斎胫劣?xùn)練后的模型中,計(jì)算模型生成的新聞標(biāo)題與相應(yīng)的真值新聞標(biāo)題之間的評(píng)價(jià)指標(biāo)得分.其中,目標(biāo)域中的真值新聞標(biāo)題僅用于評(píng)估而不參與模型訓(xùn)練過程.基于上述指標(biāo)得分,考察本文提出的遷移式文本生成模型能否有效地從源域數(shù)據(jù)中獲取相關(guān)的可借鑒知識(shí),從而在不給定目標(biāo)域文本參考真值的前提下,有效輔助目標(biāo)域完成文本生成任務(wù).
3.3.1 數(shù)據(jù)分布對(duì)齊效果
為了更直接展示本文所提出遷移式文本生成模型各階段內(nèi)部機(jī)制實(shí)際效果,如圖7 所示,以“兒童”新聞主題作為目標(biāo)域,進(jìn)一步展示領(lǐng)域數(shù)據(jù)分布對(duì)齊效果.其中源域與目標(biāo)域數(shù)據(jù)按式(7)進(jìn)行映射訓(xùn)練.圖7(a)中源域和目標(biāo)域的原始詞嵌入表示Xsrc與Xtar,以及圖7(b)中通過式(7)獲得的對(duì)齊后表示X'src和X'tar均采用主成分分析(principal component analysis,PCA)方法進(jìn)行降維表示.
Fig.7 Visualization of the alignment effect of the data distribution after dimensionality reduction圖7 降維后的數(shù)據(jù)分布對(duì)齊效果可視化
具體地,在圖7 中,不同領(lǐng)域的數(shù)據(jù)表示采用不同顏色進(jìn)行顯示,位于上層的深藍(lán)色區(qū)域表示“兒童”新聞主題作為目標(biāo)域時(shí),領(lǐng)域中數(shù)據(jù)的詞嵌入分布表示.
圖7(a)中展示了8 個(gè)領(lǐng)域的文本數(shù)據(jù)通過預(yù)訓(xùn)練BERT 模型輸出的原始表示分布,此時(shí)的原始表示分布沒有經(jīng)過任何交叉特征填充和數(shù)據(jù)分布對(duì)齊處理.可以發(fā)現(xiàn),所給定的8 個(gè)領(lǐng)域的原始表示分布存在明顯差異.其次,如圖7(b)所示,將除了“兒童”以外的其他7 個(gè)領(lǐng)域作為源域.源域中的數(shù)據(jù)與目標(biāo)域“兒童”領(lǐng)域新聞數(shù)據(jù)首先按式(2)~(6)進(jìn)行源域和目標(biāo)域之間的交叉特征填充;在此基礎(chǔ)上,按圖4 所示過程由式(7)做領(lǐng)域數(shù)據(jù)分布對(duì)齊處理,最終結(jié)果如圖7(b)所示.可以發(fā)現(xiàn),經(jīng)領(lǐng)域數(shù)據(jù)分布對(duì)齊后,源域和目標(biāo)域數(shù)據(jù)之間雖然仍有輕微差異,但不同領(lǐng)域間數(shù)據(jù)的分布差異已明顯縮小.將對(duì)齊前的圖7(a)和對(duì)齊后的圖7(b)進(jìn)行對(duì)比可以發(fā)現(xiàn),本文所提出模型涉及的領(lǐng)域數(shù)據(jù)分布對(duì)齊在不同領(lǐng)域間先采用交叉填充為源域和目標(biāo)域數(shù)據(jù)填充特征,再用最小化源域與目標(biāo)域間的最大均值差異距離度量,有效降低了源域和目標(biāo)域之間的數(shù)據(jù)分布差異.
3.3.2 目標(biāo)域輪循實(shí)驗(yàn)
針對(duì)零次學(xué)習(xí)語義要素傳導(dǎo),依次將表1 列出的8 個(gè)域中的1 個(gè)域選作目標(biāo)域,其余的7 個(gè)域作為源域.根據(jù)中間域重劃分方法將7 個(gè)源域和1 個(gè)目標(biāo)域組成如圖5 所示的K個(gè)中間域進(jìn)行實(shí)驗(yàn).在目標(biāo)域輪循過程中,通過式(13),即K-聚類(K-means)方法中常用的輪廓系數(shù)(silhouette coefficient)[33]來評(píng)價(jià)不同K取值下的中間域劃分效果,從而確定K的取值,此時(shí)K的取值不超過源域數(shù)量7.輪廓系數(shù)的取值范圍為[-1,1],若輪廓系數(shù)的值越趨近于1,代表內(nèi)聚度和分離度相對(duì)較優(yōu),聚類效果較好,由此確定中間域個(gè)數(shù)K.
圖8 表示通過算法2 確定在每個(gè)領(lǐng)域作為目標(biāo)域時(shí),不同的K值取值下輪廓系數(shù)的大小.取輪廓系數(shù)最大的K值點(diǎn)作為該領(lǐng)域下的中間域最佳個(gè)數(shù)K.在得到每個(gè)領(lǐng)域作為目標(biāo)域時(shí)的最佳中間域個(gè)數(shù)K的取值后,表2 中ROUGE-1/2/L,BLEU,METEOR 指標(biāo)得分是輪循實(shí)驗(yàn)中每次確定目標(biāo)域后,在相應(yīng)的中間域劃分方案下,由模型生成的新聞標(biāo)題和相應(yīng)的標(biāo)題參考真值計(jì)算得出的.具體地,首先評(píng)估每個(gè)目標(biāo)域中的文本生成效果.在這種情況下,只有源域的真值新聞標(biāo)題文本數(shù)據(jù)參與了模型訓(xùn)練,目標(biāo)域中沒有標(biāo)題真值數(shù)據(jù)參與,目標(biāo)域僅使用從新聞?wù)某槿〉膫涡侣剺?biāo)題文本.由此,基于式(7)獲得的領(lǐng)域數(shù)據(jù)分布對(duì)齊表示和按式(14)(15)進(jìn)行的零次學(xué)習(xí)語義要素傳導(dǎo),每個(gè)目標(biāo)域中的新聞?wù)目梢圆灰蕾囉谌魏稳斯?biāo)注的參考真值,直接生成新聞標(biāo)題.
Table 2 Different Evaluating Indicator Scores in Different Target Domains表2 不同目標(biāo)域中各項(xiàng)評(píng)價(jià)指標(biāo)的得分
Fig.8 The silhouette coefficients corresponding to different K values in different fields圖8 不同領(lǐng)域中不同K 值對(duì)應(yīng)的輪廓系數(shù)
表2 列出了本文提出的適用于語義要素傳導(dǎo)的遷移式文本生成模型在不同目標(biāo)域中的新聞標(biāo)題生成性能.可以看出,除了“電影”領(lǐng)域外,其余各領(lǐng)域的指標(biāo)表現(xiàn)相對(duì)穩(wěn)定;“健康”“汽車”“天氣”領(lǐng)域的指標(biāo)表現(xiàn)綜合來看排在前3 位.由此,雖然模型在生成訓(xùn)練過程中沒有參考目標(biāo)域中的標(biāo)題真值數(shù)據(jù),但通過圖4 中根據(jù)式(7)所采用的領(lǐng)域數(shù)據(jù)分布對(duì)齊和圖6 中基于(新聞x,標(biāo)題y)進(jìn)行的語義要素傳導(dǎo)遷移,獲取到不同領(lǐng)域之間的數(shù)據(jù)語義關(guān)聯(lián)性,從而在不同目標(biāo)域輪循的過程中和各評(píng)價(jià)指標(biāo)上都能獲得較好的得分.該現(xiàn)象可以歸因于:首先基于圖4 在領(lǐng)域數(shù)據(jù)分布對(duì)齊后,數(shù)據(jù)在不同領(lǐng)域間的分布差異被縮小,因此可以在模型從源域遷移至目標(biāo)域的過程中,減少不同領(lǐng)域數(shù)據(jù)分布差異所帶來的負(fù)面影響;接著通過零次學(xué)習(xí)語義要素傳導(dǎo),本文提出的遷移式文本生成模型通過圖2 中增強(qiáng)型編碼器與解碼器中的注意力機(jī)制與時(shí)序依賴性來同時(shí)獲取不同領(lǐng)域數(shù)據(jù)之間的語義關(guān)聯(lián)性,從而調(diào)整模型參數(shù)以提高模型領(lǐng)域遷移效果.
更進(jìn)一步,圖9 展示了全部領(lǐng)域作為目標(biāo)域時(shí)在零次學(xué)習(xí)語義要素傳導(dǎo)階段,文本生成模型的訓(xùn)練表現(xiàn).在該階段中,模型通過式(16)定義的損失函數(shù)Lossco經(jīng)過1 000 次迭代進(jìn)行訓(xùn)練.詞匯準(zhǔn)確率是計(jì)算生成文本在每個(gè)時(shí)間步上生成的文本與參考真值文本之間相同詞匯的比率.從圖9 可以看出,即使是文本生成評(píng)價(jià)指標(biāo)最低的3 個(gè)領(lǐng)域,訓(xùn)練中的損失函數(shù)Lossco也在逐漸減小,證明了模型在目標(biāo)域無參考真值情況下,能夠通過為語義要素z中(xd,yd)設(shè)計(jì)的損失函數(shù)Loss1和(ad,yd)設(shè)計(jì)的損失函數(shù)Loss2,使得編碼器和解碼器按零次學(xué)習(xí)語義要素傳導(dǎo)方法充分解析各領(lǐng)域數(shù)據(jù)的語義要素,使模型在生成過程中捕捉到不同領(lǐng)域數(shù)據(jù)語義要素間的關(guān)聯(lián)性,從而進(jìn)行從源域至目標(biāo)域的有效遷移;而詞匯準(zhǔn)確率的平穩(wěn)上升,證明了本文提出的遷移式文本生成模型在從源域遷移至目標(biāo)域后所生成文本的準(zhǔn)確性,其中指針生成器網(wǎng)絡(luò)負(fù)責(zé)處理未登錄詞問題,進(jìn)一步提升了文本質(zhì)量.
Fig.9 Loss function curves and word accuracy curves in different target domains圖9 不同目標(biāo)域中的損失函數(shù)曲線與詞匯準(zhǔn)確率曲線
3.3.3 消融性實(shí)驗(yàn)
從表2 可以看出,當(dāng)“健康”“汽車”“天氣”這3個(gè)領(lǐng)域作為目標(biāo)域時(shí),遷移式文本生成性能最佳.因此,使用這3 個(gè)域進(jìn)一步對(duì)本文提出的遷移式文本生成方法進(jìn)行消融實(shí)驗(yàn),結(jié)果如表3 所示.
Table 3 Results of Ablation Experiments表3 消融性實(shí)驗(yàn)結(jié)果 %
表3 中,“語義轉(zhuǎn)導(dǎo)”表示直接采用預(yù)訓(xùn)練BERT模型輸出的原始詞嵌入表示,不進(jìn)行中間域劃分,直接使用圖6 中基于式(14)~(16) 的語義要素傳導(dǎo)進(jìn)行模型訓(xùn)練;“中間域劃分+語義傳導(dǎo)”表示直接采用預(yù)訓(xùn)練BERT 模型輸出的原始表示,按最佳中間域個(gè)數(shù)K取值進(jìn)行中間域劃分后,再使用圖6 中基于式(14)~(16) 的語義要素傳導(dǎo)進(jìn)行模型訓(xùn)練;“分布對(duì)齊+中間域劃分+語義轉(zhuǎn)導(dǎo)”表示基于圖4 中按式(7)采用分布對(duì)齊后的數(shù)據(jù)表示,按最佳中間域個(gè)數(shù)K取值進(jìn)行中間域劃分后,再進(jìn)行圖6 中基于式(14)~(16) 的語義要素傳導(dǎo)訓(xùn)練.
從表3 可以看出,在每個(gè)目標(biāo)域中采用了分布表示對(duì)齊方法后,其文本生成效果要優(yōu)于直接使用原始表示的方法,這意味著通過領(lǐng)域數(shù)據(jù)分布對(duì)齊可以有效消除領(lǐng)域間的數(shù)據(jù)分布差異,提升從源域向目標(biāo)域的可遷移性.此外,將表3 與表4 對(duì)比可以看出,本文提出的模型僅使用語義要素傳導(dǎo)方法進(jìn)行訓(xùn)練,與多數(shù)其他的遷移式文本生成模型相比,也可以獲得更高的評(píng)價(jià)指標(biāo)得分.該現(xiàn)象表明了在本文提出的遷移方案中,零次學(xué)習(xí)語義要素傳導(dǎo)在不同領(lǐng)域間探索數(shù)據(jù)語義關(guān)聯(lián)性,通過“編碼器-解碼器”結(jié)構(gòu)中增強(qiáng)型編碼器與解碼器使目標(biāo)領(lǐng)域中的無標(biāo)注新聞?wù)呐c源領(lǐng)域中最相關(guān)的新聞標(biāo)題進(jìn)行關(guān)聯(lián),根據(jù)注意力機(jī)制與時(shí)序依賴性獲得語義要素上的相似性或接近性,得出目標(biāo)域在文本生成時(shí)對(duì)源域數(shù)據(jù)的參考,從而提升了遷移的文本生成效果.
Table 4 Comparison of Experimental Results表4 實(shí)驗(yàn)結(jié)果對(duì)比
另外,從圖10 可以看出,采用了“中間域劃分+語義轉(zhuǎn)導(dǎo)”組合的方法相比僅采用“語義轉(zhuǎn)導(dǎo)”的方法獲得了更高的評(píng)價(jià)指標(biāo)得分,說明了在通過內(nèi)容相似性綜合指標(biāo)劃分的中間域中,目標(biāo)域文本在生成過程中根據(jù)更具有語義相似性的相關(guān)源域數(shù)據(jù),實(shí)現(xiàn)了更好的遷移式文本生成性能.同時(shí),完整采用表3 中的“分布對(duì)齊+中間域劃分+語義轉(zhuǎn)導(dǎo)”的方法能夠取得模型最優(yōu)的文本生成效果,意味著模型在獲得式(7)的領(lǐng)域數(shù)據(jù)分布對(duì)齊表示和通過式(16)進(jìn)行零次學(xué)習(xí)語義要素傳導(dǎo)的復(fù)合遷移策略時(shí),能在目標(biāo)域沒有參考真值數(shù)據(jù)的情況下,在中間域中從相關(guān)源域中獲取有幫助的信息,從而在目標(biāo)域上帶來最優(yōu)的遷移式文本生成性能,同時(shí)指針生成器網(wǎng)絡(luò)也會(huì)提升生成文本的準(zhǔn)確性.
Fig.10 Comparison results of the ablation experiments圖10 消融性實(shí)驗(yàn)對(duì)比結(jié)果
3.3.4 對(duì)比實(shí)驗(yàn)
如表2 所示,“電影”域作為目標(biāo)域時(shí)模型的文本生成性能最差,因此針對(duì)“電影”領(lǐng)域,從預(yù)訓(xùn)練語言模型(即T5,BART,PEGASUS,BertSum)和“零數(shù)據(jù)/小數(shù)據(jù)學(xué)習(xí)模型”(即TransferRL,ZSDG,DAML,MTL-ABS)2 方面,進(jìn)一步比較本文提出的適用于零次學(xué)習(xí)語義要素傳導(dǎo)的文本生成模型方法與其他遷移式文本生成模型方法之間的性能,結(jié)果如表4 所示.
在經(jīng)過領(lǐng)域數(shù)據(jù)分布對(duì)齊后,表4 中所有模型均采用圖5 所示的中間域數(shù)據(jù)進(jìn)行訓(xùn)練,且所有模型在訓(xùn)練過程中都未使用目標(biāo)域中的真值數(shù)據(jù).其中,性能提升率是指本文提出的“分布對(duì)齊+中間域劃分+語義轉(zhuǎn)導(dǎo)”方法在各項(xiàng)性能評(píng)價(jià)指標(biāo)得分上相較于對(duì)比模型中最高得分的提升差值.
具體地,如圖11 所示,在本文方法效果最差的“電影”領(lǐng)域作為目標(biāo)域的情況下,首先,根據(jù)各項(xiàng)評(píng)價(jià)指標(biāo)得分,本文提出的遷移式文本生成模型在對(duì)比中取得了最佳性能表現(xiàn),其次是預(yù)訓(xùn)練語言模型的方法,最后是零樣本數(shù)據(jù)/小樣本數(shù)據(jù)學(xué)習(xí)模型的方法.該現(xiàn)象可歸因于本文提出的遷移式方案首先基于圖4 按式(7)在文本表示層面通過領(lǐng)域數(shù)據(jù)分布對(duì)齊,緩解了領(lǐng)域間的數(shù)據(jù)分布差異,然后基于圖1通過改進(jìn)文本生成模型結(jié)構(gòu),使其更加適用于式(16)進(jìn)行的零次學(xué)習(xí)語義要素傳導(dǎo),從而模型可以更為有效地從相關(guān)源域中獲取有助于遷移的先驗(yàn)知識(shí),提高模型在目標(biāo)域中的文本生成性能.
Fig.11 Results of comparative experiments圖11 對(duì)比實(shí)驗(yàn)結(jié)果
表4 中 的 預(yù) 訓(xùn) 練 語 言 模 型T5, BART, PEGASUS,BertSum 已經(jīng)在大規(guī)模語料庫中進(jìn)行了預(yù)訓(xùn)練,因此更多的先驗(yàn)知識(shí)已經(jīng)提前被納入此類預(yù)訓(xùn)練語言模型的參數(shù)中.但是通過表4 可以看出,T5,BART,PEGASUS,BertSum 的各項(xiàng)評(píng)價(jià)指標(biāo)得分均低于遷移式方法.由此可以發(fā)現(xiàn),遷移式文本生成模型在領(lǐng)域可遷移性方面優(yōu)于通過大規(guī)模語料訓(xùn)練的預(yù)訓(xùn)練語言模型,此現(xiàn)象可歸因?yàn)殡m然預(yù)訓(xùn)練語言模型通過大規(guī)模語料庫預(yù)訓(xùn)練已經(jīng)獲得了大量的領(lǐng)域先驗(yàn)知識(shí),但這些知識(shí)并不針對(duì)特定的目標(biāo)領(lǐng)域及其任務(wù).相比之下,遷移式文本生成模型首先通過領(lǐng)域數(shù)據(jù)分布對(duì)齊,從目標(biāo)域角度降低了與其他相關(guān)源域數(shù)據(jù)在數(shù)據(jù)表示上的分布差異,并通過零次學(xué)習(xí)語義要素傳導(dǎo),根據(jù)語義要素zsrc=(xsrc,ysrc,asrc)與ztar=(xtar,ytar,atar),建立跨域語義關(guān)聯(lián)xtar→ysrc,最大程度挖掘了不同領(lǐng)域數(shù)據(jù)間的語義相關(guān)性,確保目標(biāo)域即使沒有參考真值數(shù)據(jù),也可以通過語義要素傳導(dǎo)的方式,借助源域數(shù)據(jù)幫助目標(biāo)域生成文本,從而針對(duì)特定的目標(biāo)領(lǐng)域及其下任務(wù)有更好的領(lǐng)域遷移適應(yīng)性.
最后,對(duì)于表4 中的零樣本數(shù)據(jù)/小樣本數(shù)據(jù)學(xué)習(xí)模型TransferRL,ZSDG,DAML/MTL-ABS 而言,這些模型分別采用了強(qiáng)化學(xué)習(xí)、零次學(xué)習(xí)或元學(xué)習(xí)方法進(jìn)行遷移.但從圖11 可以看到,這些方法的各項(xiàng)評(píng)價(jià)指標(biāo)得分均低于遷移式文本生成模型.該現(xiàn)象可歸因于本文在圖1 中對(duì)遷移式文本生成模型所采取的結(jié)構(gòu)改進(jìn).具體地,如圖2 所示,改進(jìn)后的文本生成模型通過加入Bi-LSTM 層解析文本序列化依賴關(guān)系,同時(shí)由Transformer 多頭注意力機(jī)加大對(duì)文本內(nèi)部上下文觀察,借助指針生成器網(wǎng)絡(luò)處理未登錄詞匯,故模型可更大程度挖掘文本蘊(yùn)含的語義;在此基礎(chǔ)上,通過構(gòu)建數(shù)據(jù)級(jí)語義要素,將目標(biāo)域中無標(biāo)注新聞?wù)呐c源域中最相關(guān)的新聞標(biāo)題進(jìn)行關(guān)聯(lián),并根據(jù)語義要素上的近似捕捉跨域文本的語義關(guān)聯(lián)性;由此,當(dāng)給定目標(biāo)域新聞?wù)膞tar時(shí),將參考源域中最為相關(guān)的真值新聞標(biāo)題ysrc以輔助生成目標(biāo)域中的新聞標(biāo)題ytar,因而在ROUGE-1/2/L,BLEU,METEOR這些評(píng)價(jià)指標(biāo)上也就有了更高的得分表現(xiàn).
本文針對(duì)多領(lǐng)域的文本生成任務(wù),提出了基于領(lǐng)域數(shù)據(jù)分布對(duì)齊和零次學(xué)習(xí)語義要素傳導(dǎo)的跨域遷移式文本生成模型,其主要原理是借助相關(guān)源域的已標(biāo)注數(shù)據(jù)輔助目標(biāo)域進(jìn)行文本生成,以克服目標(biāo)域中參考真值數(shù)據(jù)缺失的問題.本文提出的方法在傳統(tǒng)文本生成模型的基礎(chǔ)上主要改進(jìn)了5 個(gè)方面:
1)從原始文本、摘要文本和正文語義注釋3 個(gè)方面,構(gòu)建數(shù)據(jù)級(jí)語義要素;
2)在適用于語義要素傳導(dǎo)的生成模型結(jié)構(gòu)上,構(gòu)建增強(qiáng)型“編碼器-解碼器”,通過為不同語義要素構(gòu)建的損失函數(shù),從而使模型在生成過程中捕捉不同領(lǐng)域數(shù)據(jù)語義要素間的關(guān)聯(lián)性,同時(shí)在文本生成過程中通過指針生成器網(wǎng)絡(luò)提高生成文本的準(zhǔn)確度;
3)在文本數(shù)據(jù)表示上,通過特征填充與分布對(duì)齊使數(shù)據(jù)在表示層面減少分布差異性;
4)通過文本相似性綜合指標(biāo)將源域和目標(biāo)域數(shù)據(jù)劃分為中間域,從而為目標(biāo)域數(shù)據(jù)進(jìn)行更為合適的源域數(shù)據(jù)選擇;
5)在基于語義要素的語義轉(zhuǎn)導(dǎo)方法上,由語義要素之間的相似性使目標(biāo)域數(shù)據(jù)在文本生成過程中參考最具關(guān)聯(lián)性的源域已標(biāo)注數(shù)據(jù),由此不依賴目標(biāo)域自身的已標(biāo)注真值.
實(shí)驗(yàn)結(jié)果表明,本文提出的遷移式方法可以有效地應(yīng)用于實(shí)際的新聞標(biāo)題生成場景中,通過領(lǐng)域數(shù)據(jù)遷移解決目標(biāo)域真值數(shù)據(jù)缺失問題.
未來工作有2 個(gè)方面值得進(jìn)一步探討:1)當(dāng)給定一個(gè)目標(biāo)域時(shí),相關(guān)源域的選擇對(duì)最終遷移式生成性能來說非常關(guān)鍵.因此,需要進(jìn)一步研究更具有關(guān)聯(lián)性的領(lǐng)域數(shù)據(jù)選擇方法.2)源域數(shù)據(jù)在遷移過程中往往也會(huì)提供與目標(biāo)域不相關(guān)的噪聲信息,從而影響遷移效果導(dǎo)致“負(fù)遷移”.因此如何避免“負(fù)遷移”問題,也是值得進(jìn)一步研究的方向.
作者貢獻(xiàn)聲明:馬廷淮提出指導(dǎo)意見并修改論文;于信負(fù)責(zé)完成實(shí)驗(yàn),并撰寫、修改論文;榮歡提出實(shí)驗(yàn)方案設(shè)計(jì)和寫作思路.