基于改進(jìn)生成對抗網(wǎng)絡(luò)的文本生成模型

2023-05-26 02:05裴志利姜明洋包啟明

內(nèi)蒙古民族大學(xué)學(xué)報(自然科學(xué)版) 2023年2期

熊露，裴志利，姜明洋，包啟明

（1.內(nèi)蒙古民族大學(xué) 數(shù)理學(xué)院，內(nèi)蒙古通遼 028043；2.內(nèi)蒙古民族大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院，內(nèi)蒙古通遼 028043）

隨著互聯(lián)網(wǎng)、信息技術(shù)的發(fā)展，人工智能方法在許多不同的領(lǐng)域發(fā)揮著重要作用。自然語言處理是人工智能領(lǐng)域的一個重要研究方向，而文本生成是自然語言處理的研究熱點(diǎn)之一。文本生成是自然語言處理的一項(xiàng)基礎(chǔ)性研究內(nèi)容，對話系統(tǒng)、機(jī)器翻譯、圖像描述、人工智能詩詞寫作等應(yīng)用都依賴于文本生成技術(shù)[1-3］。早期用循環(huán)神經(jīng)網(wǎng)絡(luò)[4］（Recurrent Neural Network，RNN）進(jìn)行文本訓(xùn)練，但對于時間序列的長期依賴問題無法得到有效解決，隨后長短時記憶網(wǎng)絡(luò)[5］（Long Short-Term Memory，LSTM）和門控循環(huán)單元[6］（Gated Recurrent Unit，GRU）的出現(xiàn)解決了長期依賴問題，應(yīng)用于文本生成任務(wù)[7］。2014 年，GOODFEL?LOW首次提出了生成對抗網(wǎng)絡(luò)[8-9］（Generative Adversarial Networks，GAN），早期它主要用于處理連續(xù)型數(shù)據(jù)，例如圖片的生成；后逐漸用于處理離散型數(shù)據(jù)，例如文本生成。2016年，杜克大學(xué)的ZHANG等[10］提出了TextGAN，通過使用匹配特征分布將句子向量轉(zhuǎn)化為協(xié)方差矩陣，使得生成更加真實(shí)的句子。YU等[11］提出了SeqGAN，將強(qiáng)化學(xué)習(xí)與GAN相結(jié)合，引入蒙特卡洛搜索方法，解決了序列生成問題。CHE等[12］提出了MaliGAN，通過判別器的輸出導(dǎo)出最低方差目標(biāo)，使得訓(xùn)練過程穩(wěn)定并降低梯度方差。LIN等[13］提出了RankGAN，判別器通過給出的參考組對真實(shí)句子和生成句子進(jìn)行分析和排序，最后通過排名得分評估生成文本質(zhì)量。GUO等[14］提出了LeakGAN的新算法框架，通過分層強(qiáng)化學(xué)習(xí)的方法進(jìn)行泄露，由判別器泄露的特征對生成器進(jìn)行指導(dǎo)，以此更好地生成長文本。NIE等[15］提出了RelGAN，生成器采用relational memory，同時利用gumbel-softmax替代強(qiáng)化學(xué)習(xí)啟發(fā)式算法，使得生成的文本更具表達(dá)力，判別器利用多層次向量表示，使得生成的文本具有多樣性。由于生成器輸出的結(jié)果可以精確到小數(shù)點(diǎn)后8位或者更高，但對于文本生成結(jié)果要求精確到個位數(shù)，造成很多精度的丟失，故筆者提出了一種改進(jìn)的GAN模型（LFM?GAN，Loss Function Mali Generation Adversarial Networks），該模型基于MaliGAN，在此基礎(chǔ)上，設(shè)計了一種Loss函數(shù)，用于解決精度影響問題，其中，生成器采用GPT-2模型[16］，判別器采用RoBerta模型[17］作二分類，通過與基礎(chǔ)模型、MaliGAN模型和LeakGAN模型以及基線模型MLE對比實(shí)驗(yàn)表明，文中所提出的模型在精度、適用性方面要優(yōu)于其他模型，說明該方法在尋找全局最優(yōu)、降低離散型變量帶來的精度影響方面，具有較好的效果。

1 基于Loss函數(shù)的LFMGAN模型

1.1 生成對抗網(wǎng)絡(luò) 生成對抗網(wǎng)絡(luò)[8-9］是由判別器D和生成器G兩個部分組成。生成器的目標(biāo)是生成以假亂真的數(shù)據(jù)；判別器的目標(biāo)是判斷出數(shù)據(jù)是真實(shí)數(shù)據(jù)還是生成器生成的數(shù)據(jù)。兩者在對抗中不斷學(xué)習(xí)，最終生成器生成的數(shù)據(jù)越來越接近真實(shí)數(shù)據(jù)，判別器越來越能區(qū)分出與真實(shí)數(shù)據(jù)接近的假數(shù)據(jù)，在不斷迭代的過程中，二者能力得到提升。生成對抗網(wǎng)絡(luò)框架見圖1。

圖1 生成對抗網(wǎng)絡(luò)Fig.1 Generative adversarial network

生成對抗網(wǎng)絡(luò)進(jìn)行文本生成的目的是盡可能讓生成器生成的文本質(zhì)量高，對生成器來說目的是讓判別器無法區(qū)別出真實(shí)文本和假文本，對判別器來說目的是能夠正確區(qū)分真實(shí)文本和假文本。

設(shè)輸入生成器的隨機(jī)噪聲為z，噪聲的先驗(yàn)分布為pz，該分布符合正態(tài)分布或均值分布。生成器用G(z;θg)表示，判別器用D(x;θd)表示，其中，θg為生成器的參數(shù)，θd為判別器的參數(shù)，假設(shè)生成器生成的最終數(shù)據(jù)樣本分布為pg，真實(shí)數(shù)據(jù)樣本分布為pdata，生成器就是讓pg達(dá)到盡量擬合pdata的目的。生成對抗網(wǎng)絡(luò)優(yōu)化的目標(biāo)函數(shù)如下：

其中，第一項(xiàng)為判別器對真實(shí)數(shù)據(jù)樣本的判別期望，第二項(xiàng)為判別器對生成數(shù)據(jù)樣本的判別期望，V(D,G)表示為判別器判斷兩分布之間的差距。當(dāng)數(shù)據(jù)分布為連續(xù)概率分布時，通過概率密度函數(shù)與期望之間的關(guān)系，可將式（1）轉(zhuǎn)化為：

在生成對抗網(wǎng)絡(luò)的訓(xùn)練過程中，生成器和判別器交替訓(xùn)練，通過固定生成器的參數(shù)，來訓(xùn)練判別器，在判別器能夠正確區(qū)別生成數(shù)據(jù)樣本和真實(shí)數(shù)據(jù)樣本時，V(G,D)取極值，即得判別器的解：

對于不全為0的實(shí)數(shù)a、b，形如y=alog(y)+blog(1-y)的函數(shù)在0與1之間的數(shù)取得極大值，判別器的訓(xùn)練過程可看作條件概率P(Y=y|x)的對數(shù)似然估計，故有：

其中，KL為KL散度，JS為JS散度。當(dāng)JSD 函數(shù)的值為0時，pdata和pg兩個分布相同，此時生成器訓(xùn)練完成，達(dá)到最優(yōu)；當(dāng)JSD 函數(shù)值為log 2 時，pdata和pg兩個分布不同。

在生成對抗網(wǎng)絡(luò)中，通過梯度傳播，幫助生成器完成參數(shù)更新，同時還能根據(jù)生成數(shù)據(jù)樣本以及真實(shí)數(shù)據(jù)樣本進(jìn)行自我更新。

1.2 Sentence-Bert Bert模型需要兩個句子同時進(jìn)入模型進(jìn)行信息交換來計算語義相似度，但是大量的計算造成了訓(xùn)練速度慢。Sentence-Bert的提出解決了Bert存在的不足，利用孿生網(wǎng)絡(luò)的結(jié)構(gòu)生成帶有語義的句子，把不同句子分別輸入到2個Bert模型中，獲取每一個句子的embedding向量，語義相似度高的句子其embedding向量距離也就越小。

Regression Objective Function 是將2個句子的句子向量u和v的余弦相似度作為目標(biāo)函數(shù)，隨后使用均方誤差計算損失并與當(dāng)前隱藏狀態(tài)相結(jié)合產(chǎn)生目標(biāo)向量。

余弦相似度是通過計算2個向量夾角之間的余弦值，以此來得到兩向量之間的相似度。在二維空間中，將向量坐標(biāo)值投影到向量空間。余弦相似度通常用來計算詞語或句子相似度，將文本編碼為embedding向量，計算余弦相似度。余弦相似度的表達(dá)式為：

當(dāng)余弦值為1 時，說明2 個向量重合；當(dāng)余弦值為-1時，說明2個向量相反；當(dāng)余弦值為0時，2個向量正交。故2個向量越相似，即余弦值越接近1。

1.3 LFMGAN 模型文中基于MaliGAN 模型，設(shè)計了一種Loss 函數(shù)，改進(jìn)后的模型能夠通過尋找全局最優(yōu)解，同時降低離散型帶來精度影響，以此提高文本生成質(zhì)量。LFMGAN模型結(jié)構(gòu)見圖2。

圖2 LFMGAN模型Fig.2 LFMGAN model

1.3.1 LFMGAN生成器生成器包含3層，分別為Embedding層、GPT-2網(wǎng)絡(luò)層、softmax層。先對數(shù)據(jù)進(jìn)行預(yù)處理，在Embedding層輸入真實(shí)文本訓(xùn)練集I轉(zhuǎn)換為映射向量x，將其轉(zhuǎn)化為具有查表操作的詞嵌入向量再加上其對應(yīng)的位置向量。GPT-2網(wǎng)絡(luò)層包含掩碼多頭注意力層、批歸一化層、多頭注意力層、全連接層，經(jīng)過位置編碼后的每一個詞向量y產(chǎn)生其相應(yīng)3 個向量：Query 向量（Q）、Key 向量（K）、Value 向量（V），它們是通過詞嵌入矩陣進(jìn)行變換而得到的，隨后計算詞向量的分?jǐn)?shù)score：

整個過程會進(jìn)行多次重復(fù)，最后取平均值，這就是多頭注意力。

對于掩碼機(jī)制來說，它是對詞庫中的一些單詞進(jìn)行隨機(jī)性的遮掩，防止出現(xiàn)過擬合情況，增加多樣性。

對批歸一化層作以下處理：

其中，yn為沒有經(jīng)過歸一化的詞向量，μB為詞向量的均值，σ2B為詞向量的方差，為第n個詞的批歸一化后的詞向量，ε、β為較小數(shù)，防止分母不存在的情況。

在上述過程中通過注意力機(jī)制學(xué)習(xí)了每個單詞新表達(dá)能力，但體現(xiàn)的表達(dá)能力并不是很強(qiáng)，由此希望通過激活函數(shù)強(qiáng)化表達(dá)能力，加強(qiáng)數(shù)值較大部分，抑制數(shù)值較小部分；最后加入了dropout和Layer Nor?malization層，防止數(shù)據(jù)過擬合，提高模型泛化能力以及對數(shù)據(jù)進(jìn)行歸一化。其整個過程的計算公式為：

其中，max為激活函數(shù)。

1.3.2 LFMGAN判別器判別器采用RoBerta模型，將輸入的真實(shí)數(shù)據(jù)與生成數(shù)據(jù)進(jìn)行真假判斷，同時將判別器的反饋結(jié)果傳至生成器并進(jìn)行不斷優(yōu)化，因此，判別器可作為一個二分類模型。首先，數(shù)據(jù)輸入特征提取層對數(shù)據(jù)進(jìn)行特征提取，然后，輸入Embedding層，它主要作用是對數(shù)據(jù)進(jìn)行降維，最后，對生成數(shù)據(jù)進(jìn)行真假判斷。

本實(shí)驗(yàn)通過計算Loss值作為指導(dǎo)生成器進(jìn)行優(yōu)化，計算公式如下：

其中，0

其中，pg(x)是生成器的生成分布，pdata(x)為真實(shí)分布。

Reward2的公式表達(dá)為：

其中，cosine-sim表示生成文本與真實(shí)文本之間的語義相似度，是通過Sentence-Bert計算獲得。

若Loss值越大，則生成的文本效果越不好；若Loss值越小，則生成的文本效果越好。

2 實(shí)驗(yàn)及分析

本文模型是基于Python語言實(shí)現(xiàn)的，實(shí)驗(yàn)環(huán)境為GPU 12 GB的英偉達(dá)GeForce RTX 3080Ti。為了驗(yàn)證提出方法的有效性，與基礎(chǔ)模型MaliGAN模型和LeakGAN模型以及基線模型MLE進(jìn)行了對比。

2.1 數(shù)據(jù)集實(shí)驗(yàn)采用Image_COCO 數(shù)據(jù)集和EMNLP2017 WMT News 數(shù)據(jù)集，在Image_COCO 數(shù)據(jù)集中，訓(xùn)練集和測試集分別由10 000 個句子組成，單個句子最大長度為37，詞匯表大小4 683。在EMN?LP2017 WMT News數(shù)據(jù)集中訓(xùn)練集包含278 586個句子，測試集包含10 000個句子，單個句子最大長度為51，詞匯表大小為5 256。

2.2 評價指標(biāo) 為了評估模型對于生成文本的相似性，本實(shí)驗(yàn)采用n元組出現(xiàn)的程度評價方法BLEU[18］評分作為評價指標(biāo)進(jìn)行評估。它具有計算速度快、應(yīng)用范圍廣的特點(diǎn)。計算公式如下：

pn用來評估生成文本與實(shí)際文本中n元詞組出現(xiàn)的重合度。

對于較短文本來說，使用BLEU會造成分?jǐn)?shù)過高，因此，加入了懲罰因子BP，計算公式如下：

其中，c為生成文本的長度，r為實(shí)際文本長度。

最后的BLEU值的計算公式如下：

在本實(shí)驗(yàn)中，n取2、3、4、5。BLEU的取值范圍為[0，1］，數(shù)值越接近1，文本生成結(jié)果質(zhì)量越好。

2.3 實(shí)驗(yàn)結(jié)果及分析

2.3.1 COCO IMAGE CAPTIONS 數(shù)據(jù)集通過LFMGAN模型驗(yàn)證在COCO IMAGE CAPTIONS 數(shù)據(jù)上的文本生成效果，實(shí)驗(yàn)結(jié)果見表1。本實(shí)驗(yàn)的LFMGAN模型在該數(shù)據(jù)集上的文本生成結(jié)果要優(yōu)于MaliGAN模型和LeakGAN 模型，而LeakGAN 模型的生成效果要優(yōu)于MaliGAN 模型，LFMGAN 模型對比LeakGAN模型的評價指標(biāo)（BLEU-2，3，4，5）分別提升了3.9%、2.9%、3.1%、5.0%。MaliGAN模型使得生成器不再聚焦于具體樣本的生成效果，轉(zhuǎn)而尋找全局最優(yōu)解，但是離散型數(shù)據(jù)帶來的精度影響仍未得到解決。而文中保留了MaliGAN模型Reward1的優(yōu)勢，引入的Reward2則更關(guān)注于樣本的生成效果，計算過程避免了離散型數(shù)值帶來的精度下降，進(jìn)而提高了BLEU值。

表1 COCO IMAGE CAPTIONS數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of COCO IMAGE CAPTIONS data set

2.3.2 EMNLP2017 WMT NEWS 數(shù)據(jù)集同時用LFMGAN 模型在EMNLP2017 WMT NEWS 數(shù)據(jù)集上驗(yàn)證生成文本的性能，實(shí)驗(yàn)結(jié)果見表2。實(shí)驗(yàn)結(jié)果表明：在EMNLP2017 WMT NEWS數(shù)據(jù)集上LFMGAN模型對比LeakGAN 模型的評價指標(biāo)（BLEU-2，3，4，5）分別提升了4.0%、4.9%、3.5%、3.5%。表明在尋找全局最優(yōu)解的同時降低了離散型數(shù)值所帶來的精度影響，同時讓BLEU指標(biāo)有所提升。

表2 EMNLP2017 WMT NEWS數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of EMNLP2017 WMT NEWS data set

3 結(jié)語

針對離散型數(shù)據(jù)所帶來的精度影響問題，筆者提出了一種改進(jìn)的生成對抗網(wǎng)絡(luò)文本生成模型。設(shè)計了一種Loss函數(shù)，保留了MaliGAN 模型尋找全局最優(yōu)解的優(yōu)勢，引入的Reward2可促使生成樣本的語義分布與原樣本一致，避免了離散數(shù)值帶來的精度下降，提高文本生成效果。實(shí)驗(yàn)結(jié)果顯示，本模型在2個數(shù)據(jù)集上取得了較好的結(jié)果、BLEU評價指標(biāo)有所提升、模型收斂難度有所降低，但仍然存在無法收斂的情況。因此，接下來可以在生成器上加入語法規(guī)則，同時引入情感因素，進(jìn)一步提高文本的多樣性與文本生成質(zhì)量。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于改進(jìn)生成對抗網(wǎng)絡(luò)的文本生成模型

1 基于Loss函數(shù)的LFMGAN模型

2 實(shí)驗(yàn)及分析

3 結(jié)語