魯 強(qiáng),劉興昱
(石油數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室(中國石油大學(xué)(北京)),北京 102249)(*通信作者電子郵箱luqiang@cup.edu.cn)
基于知識圖譜問答系統(tǒng)[1-2]中的語義匹配是指根據(jù)用戶輸入的問句,在特定知識圖譜中匹配與該問句對應(yīng)的關(guān)系。在所有問句中有一種只需要知識圖譜中單一事實(shí)(三元組)作為支持證據(jù)的問句,在本文稱其為單一事實(shí)類問句。例如問句“奧巴馬的夫人是誰?”能夠被單一事實(shí)〈奧巴馬,配偶,米歇爾〉回答。為了回答單一事實(shí)類問句,需要在知識圖譜中匹配與問句相對應(yīng)的關(guān)系,如例句對應(yīng)知識圖譜中的關(guān)系是“配偶”,本文稱該任務(wù)為語義匹配任務(wù)。語義匹配任務(wù)可表示為概率形式:給定單一事實(shí)類問句q,從知識圖譜K中找出關(guān)系r*,使其最大化條件概率p(r|q),即:
(1)
在特定領(lǐng)域的問答系統(tǒng)中,例如石油勘探、醫(yī)療等領(lǐng)域,由于數(shù)據(jù)來源有限、人工標(biāo)注樣本的難度和成本過高,經(jīng)常只能獲取少量(數(shù)千條)的有標(biāo)注樣本。而當(dāng)前解決語義匹配任務(wù)的方法[3-6]主要是有監(jiān)督的學(xué)習(xí)方法,這些方法的語義匹配準(zhǔn)確率依賴于標(biāo)注樣本的數(shù)據(jù)量,在標(biāo)注樣本數(shù)量較少的情況下難以學(xué)習(xí)到較高的語義匹配準(zhǔn)確率,但是大部分情況下,通過互聯(lián)網(wǎng)等途徑容易獲取大量通用領(lǐng)域的無標(biāo)注樣本,因此研究利用這些無標(biāo)注樣本來提高語義匹配的準(zhǔn)確率具有重要意義。
通過引入大量通用領(lǐng)域(源領(lǐng)域)的無標(biāo)注樣本來提升少量專業(yè)領(lǐng)域(目標(biāo)領(lǐng)域)有標(biāo)注樣本學(xué)習(xí)效果的方法,可以看作是一種遷移學(xué)習(xí)方法[7]。已知的遷移學(xué)習(xí)方法[8-11]通常假設(shè)源領(lǐng)域采用有標(biāo)注樣本進(jìn)行訓(xùn)練,不能直接解決本文提出的問題。其中自學(xué)習(xí)方法[12]跟本文提出的問題比較接近,但其源領(lǐng)域的無監(jiān)督學(xué)習(xí)方法適合處理圖像數(shù)據(jù),無法直接應(yīng)用于自然語言處理問題。至于自然語言處理方面的無監(jiān)督學(xué)習(xí)方法主要有word2vec[13]、GloVe[14]等方法,但是這些方法只解決了詞粒度的語義學(xué)習(xí),不能學(xué)習(xí)到句子粒度的語義特征,因此需要設(shè)計(jì)一種能夠解決源領(lǐng)域是無標(biāo)注自然語言數(shù)據(jù)的遷移學(xué)習(xí)模型。
本文針對特定領(lǐng)域內(nèi)有標(biāo)注樣本數(shù)量不足的問題,提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的遷移學(xué)習(xí)模型,能夠利用大量無標(biāo)注樣本學(xué)習(xí)問句的語義空間分布以提高語義匹配準(zhǔn)確率,進(jìn)而解決面向特定領(lǐng)域單一事實(shí)類問答系統(tǒng)中的語義匹配任務(wù)。該模型首先使用基于RNN的序列到序列(sequence-to-sequence, seq2seq)無監(jiān)督學(xué)習(xí)算法,通過序列重構(gòu)的方式在大量無標(biāo)注樣本中學(xué)習(xí)問句的語義空間分布,即詞向量和RNN,作為遷移學(xué)習(xí)模型中源領(lǐng)域的特征空間分布。然后,使用此語義空間分布作為有監(jiān)督語義匹配算法相應(yīng)的參數(shù)。最后,通過計(jì)算問句特征和關(guān)系特征內(nèi)積的方式,在有標(biāo)注樣本下訓(xùn)練并生成語義匹配模型,其中通過線性函數(shù)來建立源領(lǐng)域語義空間分布到目標(biāo)領(lǐng)域語義空間分布的映射。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的有監(jiān)督學(xué)習(xí)方法相比,本文提出的遷移學(xué)習(xí)模型在小規(guī)模有標(biāo)注樣本中取得較高語義匹配準(zhǔn)確率。此模型在解決因特定領(lǐng)域標(biāo)注樣本不足而導(dǎo)致語義匹配準(zhǔn)確率不高的問題有重要意義。此外,該模型還可以擴(kuò)展應(yīng)用到如情感分析等其他的語義匹配相關(guān)任務(wù)。
本文主要研究工作如下:
1)提出了序列到序列無監(jiān)督學(xué)習(xí)問句語義空間分布的算法,該算法使用大量無標(biāo)注樣本學(xué)習(xí)問句的語義空間分布,作為遷移學(xué)習(xí)模型中源領(lǐng)域的特征空間分布;
2)提出了基于RNN的遷移學(xué)習(xí)模型,該模型通過將源領(lǐng)域的語義空間分布映射到目標(biāo)領(lǐng)域的語義空間分布來提高語義匹配準(zhǔn)確率;
3)通過實(shí)驗(yàn)驗(yàn)證了基于遷移學(xué)習(xí)的語義匹配模型在小規(guī)模標(biāo)注樣本情況下可以提高語義匹配準(zhǔn)確率。
在基于知識圖譜單一事實(shí)類問答系統(tǒng)的研究工作中,一條傳統(tǒng)的研究線路是采用語義解析的方式[15],該方式針對特定領(lǐng)域設(shè)計(jì)語法解析規(guī)則,對于規(guī)則可以覆蓋到的情況有較高的準(zhǔn)確率,但是泛化能力較差,不易擴(kuò)展。
除此之外,另一條重要的研究線路是詞嵌入方式[16],這種方式主要使用基于深度學(xué)習(xí)的相似匹配來完成語義匹配任務(wù)。其核心思想是學(xué)習(xí)問句和知識圖譜中關(guān)系的語義特征向量表示,使相匹配的問句和關(guān)系在向量空間中距離最接近。目前已經(jīng)提出很多基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)問句和關(guān)系語義特征的方法。其中:Bordes等[3]使用相對淺層的詞嵌入模型學(xué)習(xí)問句和關(guān)系的語義向量空間分布;Yih等[4]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)生成問句和關(guān)系的語義向量空間分布;Dai等[5]使用RNN提取問句的語義向量空間分布。詞嵌入方式具有很強(qiáng)的泛化能力,易于擴(kuò)展,但是該方式采用有監(jiān)督學(xué)習(xí)模型,依賴于有標(biāo)注樣本數(shù)量,在標(biāo)注樣本數(shù)量少的情況下準(zhǔn)確率不高。
本文提出的方法接近第二條研究線路,應(yīng)用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)問句和關(guān)系的語義特征向量表示;但是有別于傳統(tǒng)的有監(jiān)督學(xué)習(xí)算法,本文提出遷移學(xué)習(xí)模型來解決標(biāo)注樣本不足的問題,通過無監(jiān)督算法預(yù)學(xué)習(xí)問句的語義空間分布來提高有監(jiān)督語義匹配算法的準(zhǔn)確率。該方法解決了有監(jiān)督學(xué)習(xí)算法在特定領(lǐng)域標(biāo)注樣本數(shù)量少而語義匹配準(zhǔn)確率不高的問題,擁有更強(qiáng)的泛化能力。
遷移學(xué)習(xí)[7]主要分為基于實(shí)例和基于特征的兩種方式。其中基于實(shí)例的方法,具有代表性的工作有Dai等[8]提出的提升方法,其通過改變源領(lǐng)域和目標(biāo)領(lǐng)域中有標(biāo)注數(shù)據(jù)樣本的權(quán)值來達(dá)到遷移學(xué)習(xí)的目的;但基于實(shí)例的方法通常假設(shè)源領(lǐng)域和目標(biāo)領(lǐng)域都是有標(biāo)注數(shù)據(jù),而本文中源領(lǐng)域采用無標(biāo)注數(shù)據(jù),目標(biāo)領(lǐng)域采用有標(biāo)注數(shù)據(jù),所以不適用于本文提出的問題。
此外,基于特征的方法對于源領(lǐng)域和目標(biāo)領(lǐng)域是否有標(biāo)簽沒有嚴(yán)格要求,其主要解決兩個(gè)問題:如何學(xué)習(xí)特征和如何遷移特征。例如Oquab等[9]提出的基于特征遷移的方法與本文方法比較接近,其首先通過有監(jiān)督訓(xùn)練方式學(xué)習(xí)得到源領(lǐng)域的分類器,然后將該分類器的模型參數(shù)作為目標(biāo)領(lǐng)域分類器參數(shù)的初始值,最終通過訓(xùn)練目標(biāo)領(lǐng)域的有標(biāo)注數(shù)據(jù)學(xué)習(xí)得到目標(biāo)領(lǐng)域的分類器。由于該方法假設(shè)源領(lǐng)域是有標(biāo)注數(shù)據(jù),所以具有一定局限性,不能完全適用本文所要解決的問題。在圖像識別領(lǐng)域,Raina等[12]提出的自學(xué)習(xí)方法與本文方法更加接近,其首先通過源領(lǐng)域無標(biāo)注數(shù)據(jù)學(xué)習(xí)得到表示圖像的基特征;然后根據(jù)上步的基來表示目標(biāo)領(lǐng)域的有標(biāo)注數(shù)據(jù);最終根據(jù)這些數(shù)據(jù)的特征進(jìn)行有監(jiān)督訓(xùn)練學(xué)習(xí)得到目標(biāo)領(lǐng)域的分類器。本文與自學(xué)習(xí)方法的主要區(qū)別在于學(xué)習(xí)無標(biāo)注數(shù)據(jù)特征的方法不同,并且特征遷移的方式也有所區(qū)別。近幾年領(lǐng)域適應(yīng)(domain adaptation)[10-11]結(jié)合對抗訓(xùn)練思想取得了一些進(jìn)展,但是由于這些方法假設(shè)源領(lǐng)域采用有標(biāo)注數(shù)據(jù),目標(biāo)領(lǐng)域采用無標(biāo)注數(shù)據(jù),所以不能直接解決本文提出的問題。
本文假設(shè)Dt={〈qt,r〉|qt∈Qt,r∈K}表示目標(biāo)領(lǐng)域的有標(biāo)注數(shù)據(jù)集,其中Qt是有標(biāo)注問句集,關(guān)系r取自知識圖譜K;Ds={〈qs〉|qs∈Qs}表示源領(lǐng)域的無標(biāo)注數(shù)據(jù)集,其中Qs是無標(biāo)注問句集。需要強(qiáng)調(diào)的是有標(biāo)注數(shù)據(jù)集的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)少于無標(biāo)注數(shù)據(jù)集的數(shù)據(jù)量,即|Qt|?|Qs|,并且無標(biāo)注問句Qs不需要與有標(biāo)注問句Qt符合同一分布。由于目標(biāo)領(lǐng)域有標(biāo)注數(shù)據(jù)量較少,難以直接學(xué)習(xí)得到準(zhǔn)確率較高的語義匹配模型;而源領(lǐng)域無標(biāo)注數(shù)據(jù)量龐大,可以用來輔助學(xué)習(xí)語義匹配模型。本文通過將源領(lǐng)域中無標(biāo)注問句的語義空間分布Fs映射到目標(biāo)領(lǐng)域中有標(biāo)注問句的語義空間分布Ft來提高語義匹配準(zhǔn)確率,得到語義匹配模型h:
(2)
首先為了學(xué)習(xí)得到源領(lǐng)域中無標(biāo)注問句的語義空間分布Fs,本文使用無監(jiān)督學(xué)習(xí)算法,令qs=d(Fs(qs)),其中Fs也可以視為源領(lǐng)域問句的編碼過程,d表示解碼過程,最終通過類似自編碼的方式學(xué)習(xí)得到Fs。
然后通過特征遷移的方式令Ft(qt)=φ(Fs(qt)),其中映射函數(shù)φ將源領(lǐng)域語義空間分布Fs映射到目標(biāo)領(lǐng)域語義空間分布Ft。
最后語義匹配模型h(qt,r)=f(Ft(qt),r),其中f表示問句與關(guān)系的語義匹配函數(shù),即語義匹配模型推導(dǎo)為:
(3)
本文提出的遷移學(xué)習(xí)模型通過預(yù)學(xué)習(xí)大量無標(biāo)注樣本數(shù)據(jù)的語義空間分布來提高小規(guī)模標(biāo)注樣本環(huán)境下的語義匹配準(zhǔn)確率。如圖1所示,步驟①用于學(xué)習(xí)無標(biāo)注問句的語義特征,本文使用基于RNN的序列到序列無監(jiān)督學(xué)習(xí)算法,在大量無標(biāo)注樣本Ds中學(xué)習(xí)問句的語義空間分布Fs,而此空間分布Fs由詞向量Es和編碼RNNEncoders組成,解碼過程d由Decoders組成,該部分在3.2節(jié)詳細(xì)描述;步驟②用于遷移參數(shù),本文使用步驟①中學(xué)習(xí)得到的語義空間分布作為有監(jiān)督語義匹配算法中詞向量Et和編碼RNNEncodert的參數(shù),即令Et=Es,Encodert=Encoders;在步驟③中,本文使用有標(biāo)注樣本Dt訓(xùn)練生成語義匹配模型h,其中將線性函數(shù)Linear作為特征映射函數(shù)φ來建立源領(lǐng)域語義空間分布到目標(biāo)領(lǐng)域語義空間分布的映射,語義匹配函數(shù)f通過內(nèi)積(Linear(ct)TEr(r))的方式計(jì)算問句與關(guān)系的語義匹配程度,該部分在3.3節(jié)詳細(xì)描述。本文最后在3.4節(jié)詳細(xì)闡述了遷移學(xué)習(xí)模型的整體訓(xùn)練算法。
圖1 遷移學(xué)習(xí)模型框架
本文通過序列到序列算法[17]學(xué)習(xí)源領(lǐng)域問句Qs的語義空間分布。該算法在給定輸入序列x=(x1,x2,…,xT)后,可以計(jì)算與之相對應(yīng)的最可能的輸出序列y=(y1,y2,…,yT′),其采用兩種RNN共同訓(xùn)練以最大化lnP(y|x),其中所有序列的結(jié)尾加入“
vs=Es(x)
(4)
cs=Encoders(vs)
(5)
y=Decoders(cs)
(6)
其中編碼部分首先通過一層詞嵌入層Es將詞序列x映射到分布式的向量表示vs,然后經(jīng)過由兩層BiLSTM組成的編碼器Encoders轉(zhuǎn)化為固定長度的向量cs,作為問句的語義特征向量表示,其中cs是BiLSTM的最終隱層狀態(tài);解碼器Decoders通過另外的一層LSTM進(jìn)行解碼得到輸出序列y。最終通過自編碼的方式使詞嵌入層Es和編碼RNNEncoders學(xué)習(xí)到源領(lǐng)域問句的語義空間分布。
本文采用最大似然估計(jì)(Maximum Likelihood Estimation, MLE)和反向傳播(Back Propagation, BP)算法訓(xùn)練序列到序列算法的參數(shù),解碼器Decoders以固定長度的向量cs為條件計(jì)算y=(y1,y2,…,yT′)的產(chǎn)生概率,計(jì)算公式如下:
其中,每一個(gè)p(yt|cs,y1,…,yt-1)的分布由作用于詞嵌入層中所有詞的softmax函數(shù)表示。
本文定義給定目標(biāo)領(lǐng)域問句qt與對應(yīng)關(guān)系r的概率為p(r|qt),由以下公式建模:
(8)
其中r′是知識圖譜K中的負(fù)例關(guān)系,打分函數(shù)s(r,qt)衡量了問句和關(guān)系的匹配相似度,計(jì)算公式如下:
s(r,qt)=g(qt)TEr(r)
(9)
其中,關(guān)系的詞嵌入層Er將關(guān)系r映射到分布式的向量表示,作為關(guān)系的語義空間分布。Er中的關(guān)系向量參數(shù)經(jīng)過語義匹配算法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。g(qt)計(jì)算了問句的語義向量,代表問句的語義空間分布,兩者語義向量的內(nèi)積數(shù)值代表兩者語義向量的空間距離大小,內(nèi)積得分越高代表兩者語義向量的空間距離越近,即兩者語義的匹配程度越高,其計(jì)算過程如式(10)~(12)所示:
vt=Et(qt)
(10)
ct=Encodert(vt)
(11)
g(qt)=Linear(ct)
(12)
其中g(shù)(qt)先由一層詞嵌入層Et將詞序列qt映射為分布式的向量表示vt,然后經(jīng)過由兩層BiLSTM組成的編碼器Encodert學(xué)習(xí)問句的語義特征向量ct,其中ct是BiLSTM的最終隱層狀態(tài),最終經(jīng)過一層線性層Linear進(jìn)一步學(xué)習(xí)問句的語義空間分布,并將ct映射到與Er中向量維數(shù)相等的向量空間。
本文采用MLE和BP算法估計(jì)語義匹配算法中pθ(r|qt)的參數(shù)θ:
(13)
本文采用基于負(fù)采樣的合頁損失(Hinge Loss)函數(shù)作為語義匹配算法訓(xùn)練過程中的損失函數(shù),其計(jì)算公式如下:
(14)
其中:N是Dt中的樣本數(shù)量;rj是負(fù)例集合Mr中的一個(gè)負(fù)例,隨機(jī)從知識圖譜K中采樣;γ是預(yù)設(shè)的邊界值。
綜上所述,此遷移學(xué)習(xí)模型的訓(xùn)練算法如下所示。
Input:Ds,Dt。
Output:Et,Encodert,Linear,Er。
1) Training semantic space distribution:
2) Randomly initialize the parameters ofEs,Encoders,Decoderslayers
3) On theDsdata set, the parameters of each layer are unsupervised trained by MLE and BP algorithm according to formula (7)
4) Get the parameters ofEs,Encoders,Decoderslayers
5) Training semantic matching:
6) LetEt=Es,Encodert=Encoders, and random initialize the parameters ofLinearandErlayers
7) On theDtdata set, the parameters ofEt,Encodert,Linear,Erlayers are supervisedly trained by MLE and BP algorithm according to formula (14)
8) Get the parameters ofEt,Encodert,Linear,Erlayers
該訓(xùn)練算法的輸入是無標(biāo)注數(shù)據(jù)集Ds和有標(biāo)注數(shù)據(jù)集Dt,輸出是語義匹配算法中Et、Encodert、Linear、Er層的參數(shù)。其中第1)~4)行用來訓(xùn)練源領(lǐng)域的語義空間分布,第2)行是隨機(jī)初始化Es、Encoders、Decoders層的參數(shù),第3)行是在無標(biāo)注數(shù)據(jù)集Ds上根據(jù)式(7)采用MLE和BP算法無監(jiān)督訓(xùn)練各層的參數(shù),第4)行是得到訓(xùn)練完成后Es、Encoders、Decoders層的參數(shù);第5)~8)行用來訓(xùn)練語義匹配算法,第6)行是用第4)行得到的Es、Encoders層的參數(shù)作為Et、Encodert層的初始值,并隨機(jī)初始化Linear、Er層的參數(shù),第7)行是在有標(biāo)注數(shù)據(jù)集Dt上根據(jù)式(14)采用MLE和BP算法有監(jiān)督訓(xùn)練各層的參數(shù),第8)行是得到訓(xùn)練完成后Et、Encodert、Linear、Er層的參數(shù)。
語義匹配算法分別采用三套有標(biāo)注數(shù)據(jù)集作為遷移學(xué)習(xí)的目標(biāo)領(lǐng)域。為了驗(yàn)證本文提出的遷移學(xué)習(xí)算法在特定專業(yè)領(lǐng)域有標(biāo)注數(shù)據(jù)量較少情況下的效果,本文制定了一套中文有標(biāo)注數(shù)據(jù)集OIL進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集由4 465條有標(biāo)注數(shù)據(jù)組成,主要涉及石油探勘領(lǐng)域,并且該數(shù)據(jù)集的每條問句都對應(yīng)同一個(gè)石油勘探領(lǐng)域知識圖譜的實(shí)體-關(guān)系-客體三元組。
除此之外,為了驗(yàn)證算法的有效性和泛化能力,本文采用兩套英文數(shù)據(jù)集WebQuestions(WBQ)[15]和SIMPLE-QUESTIONS(SQ)[19]。WBQ包含5 810條有標(biāo)注數(shù)據(jù),SQ包含108 442條有標(biāo)注數(shù)據(jù)。WBQ和SQ中的每條問句分別對應(yīng)來自Freebase[20]知識圖譜中的實(shí)體-關(guān)系-客體三元組,主要涉及人物、地理等有限的幾個(gè)領(lǐng)域。
本文將以上有標(biāo)注數(shù)據(jù)集全部按照訓(xùn)練70%、驗(yàn)證10%和測試20%進(jìn)行劃分。
序列到序列算法采用兩套無標(biāo)注數(shù)據(jù)作為遷移學(xué)習(xí)的源領(lǐng)域。中文采用WebQA[21]作為訓(xùn)練集,該數(shù)據(jù)集來源于某度知道的問答語料,包含42 223條無標(biāo)注問句樣本,主要涉及人文、地理、影視、學(xué)科知識以及一些專業(yè)性的領(lǐng)域等多種領(lǐng)域。英文采用WikiAnswers Paraphrase(WAP)[22]數(shù)據(jù)集作為訓(xùn)練集,該數(shù)據(jù)集來源于WikiAnswers互動(dòng)問答網(wǎng)站,用戶可以在該網(wǎng)站提問或回答任何問題。該數(shù)據(jù)集包含258萬條無標(biāo)注問句樣本,沒有包含與之匹配的關(guān)系,其中問句涉及科技、生活、人文、歷史、地理等眾多領(lǐng)域,問句描述較為復(fù)雜,有些問句可能涉及多種關(guān)系。
本實(shí)驗(yàn)采用Tensorflow[23]深度學(xué)習(xí)開發(fā)平臺,其中問句詞向量的維數(shù)設(shè)為200,所有RNN結(jié)構(gòu)體的隱層大小設(shè)為256,關(guān)系詞向量維數(shù)設(shè)為256;其中問句詞向量和關(guān)系詞向量參數(shù)的隨機(jī)初始值滿足均值為0,標(biāo)準(zhǔn)差為1E-4的正態(tài)分布,RNN參數(shù)的隨機(jī)初始值都采用服從[-1,1]均勻分布的初始化方式;所有合頁損失函數(shù)的邊界值γ設(shè)為0.1,負(fù)采樣數(shù)量設(shè)為1 024;所有實(shí)驗(yàn)采用基于mini-batch的Adam[24]優(yōu)化方式訓(xùn)練參數(shù),學(xué)習(xí)率設(shè)為0.001。
本實(shí)驗(yàn)采用詞嵌入平均模型[3]作為對照基準(zhǔn),該模型的核心思想是采用問句中每個(gè)詞向量的平均值作為其問句的向量表示,本文稱之為Embed-AVG(Average Embeddings)。此外,本文將基于遷移學(xué)習(xí)的語義匹配模型稱為RNNpretrain,將基于RNN的完全隨機(jī)初始化參數(shù)進(jìn)行監(jiān)督訓(xùn)練的語義匹配算法稱為RNNrandom(random initialization of RNN)。
為了驗(yàn)證遷移學(xué)習(xí)算法在小規(guī)模標(biāo)注樣本環(huán)境下的學(xué)習(xí)效果,本文分別設(shè)置了三組對照實(shí)驗(yàn)數(shù)據(jù)。如表1所示,語義匹配算法數(shù)據(jù)集表示Embed-AVG、RNNrandom和RNNpretrain語義匹配模型采用的訓(xùn)練集和測試集,序列到序列算法數(shù)據(jù)集表示RNNpretrain中序列到序列算法訓(xùn)練階段的訓(xùn)練集。其中SQ(5k)表示從SQ數(shù)據(jù)集中隨機(jī)抽樣5 000條樣本,WAP(200k)表示從WAP數(shù)據(jù)集中隨機(jī)抽樣20萬條樣本。
除此之外,為了驗(yàn)證有標(biāo)注樣本的數(shù)據(jù)量對實(shí)驗(yàn)的影響,本實(shí)驗(yàn)從SQ數(shù)據(jù)集的訓(xùn)練集中分別隨機(jī)采樣,產(chǎn)生多個(gè)不同數(shù)量的樣本集,作為Embed-AVG、RNNrandom和RNNpretrain語義匹配模型的訓(xùn)練集。為了驗(yàn)證無標(biāo)注樣本的數(shù)據(jù)量對實(shí)驗(yàn)的影響,本實(shí)驗(yàn)從WAP數(shù)據(jù)集中分別隨機(jī)采樣,產(chǎn)生多個(gè)不同數(shù)量的樣本集,作為RNNpretrain中序列到序列算法訓(xùn)練階段的訓(xùn)練集。最終所有語義匹配算法的評估全部采用SQ數(shù)據(jù)集的21 687條測試樣本作為測試集。本文實(shí)驗(yàn)以目標(biāo)關(guān)系得分最高視為匹配正確,以問句和關(guān)系的匹配正確率作為評估標(biāo)準(zhǔn)。
表1 實(shí)驗(yàn)數(shù)據(jù)集設(shè)置
圖2展示了Embed-AVG、RNNrandom和RNNpretrain算法分別在data1、data2和data3數(shù)據(jù)集上的表現(xiàn)。從圖2可以明顯看出,在有標(biāo)注數(shù)據(jù)量較少的情況下,RNNpretrain在各個(gè)數(shù)據(jù)集上的準(zhǔn)確率,與RNNrandom相比分別大約提高8.6、9.1和8.8個(gè)百分點(diǎn),平均提高8.8個(gè)百分點(diǎn);與Embed-AVG相比分別大約提高6.7、5.7和4.4個(gè)百分點(diǎn),平均提高5.6個(gè)百分點(diǎn)。甚至簡單的Embed-AVG也比RNNrandom的學(xué)習(xí)效果好。從中可以看出RNNrandom在有標(biāo)注樣本規(guī)模很小的情況下學(xué)習(xí)效果比較差,因?yàn)樵綇?fù)雜的模型需要越多數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)。而本文提出的RNNpretrain可以在有標(biāo)注數(shù)據(jù)量較少的情況下,通過學(xué)習(xí)大量無標(biāo)注數(shù)據(jù)來明顯提高語義匹配準(zhǔn)確率。
圖2 各語義匹配模型對不同測試數(shù)據(jù)集測試準(zhǔn)確率
此外,為了展示有標(biāo)注樣本和無標(biāo)注樣本的數(shù)據(jù)量對實(shí)驗(yàn)的影響,表2列舉了各個(gè)模型分別在不同有標(biāo)注數(shù)據(jù)量和不同無標(biāo)注數(shù)據(jù)量學(xué)習(xí)后的語義匹配準(zhǔn)確率,其中:SQ后面的括號內(nèi)容表示語義匹配算法訓(xùn)練階段在SQ數(shù)據(jù)集中隨機(jī)采樣的樣本數(shù)量,WAP后面的括號內(nèi)容表示序列到序列算法訓(xùn)練階段從WAP數(shù)據(jù)集中隨機(jī)采樣的樣本數(shù)量。例如:SQ(20k)情況下的Embed-AVG和RNNrandom分別表示從SQ數(shù)據(jù)集中隨機(jī)采用兩萬條樣本用來訓(xùn)練其語義匹配算法;SQ(5k)情況下的RNNpretrain(WAP100k)表示RNNpretrain模型首先從WAP數(shù)據(jù)集中隨機(jī)采樣10萬條樣本用來訓(xùn)練序列到序列算法,然后從SQ數(shù)據(jù)集中隨機(jī)采用5 000條樣本用來訓(xùn)練語義匹配算法。圖3以折線圖的方式描繪了表2中的數(shù)據(jù),通過圖3可以更加明顯地觀察到所有語義匹配算法的準(zhǔn)確率在不同數(shù)量訓(xùn)練樣本上的變化趨勢,以及其相互間的差距。
表2 語義匹配模型測試準(zhǔn)確率對比 %
從表2可以看出在SQ(5k)的情況下,RNNpretrain(WAP200k)的準(zhǔn)確率分別比RNNpretrain(WAP50k)和RNNpretrain(WAP100k)大約提高3.7和2.8個(gè)百分點(diǎn),說明在一定范圍內(nèi)使用相同數(shù)量的有標(biāo)注樣本,RNNpretain會隨著預(yù)訓(xùn)練無標(biāo)簽樣本W(wǎng)AP數(shù)量的增加而提高語義匹配準(zhǔn)確率,說明增加無標(biāo)注樣本數(shù)量可以提升語義特征提取效果,使源領(lǐng)域?qū)W習(xí)到的語義空間分布能更大程度地覆蓋目標(biāo)領(lǐng)域的語義空間分布。
此外,RNNpretrain(WAP200k)使用5k有標(biāo)注樣本訓(xùn)練得到的學(xué)習(xí)效果超過了Embed-AVG使用10k有標(biāo)注樣本訓(xùn)練得到的學(xué)習(xí)效果,體現(xiàn)了遷移學(xué)習(xí)算法在小規(guī)模樣本集上優(yōu)越的性能。而且隨著有標(biāo)注樣本數(shù)量的增加,RNNrandom的學(xué)習(xí)效果逐漸超越了Embed-AVG的學(xué)習(xí)效果,證明在有監(jiān)督學(xué)習(xí)中,越復(fù)雜的模型需要越多數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)。
從圖3可以看出,隨著有標(biāo)注樣本數(shù)量的增加,RNNrandom的學(xué)習(xí)效果將會縮小與RNNpretrain的差距。其中RNNpretrain(WAP200k)的準(zhǔn)確率相比RNNrandom在SQ(5k)、SQ(10k)的情況下分別大約提升8.6和2.3個(gè)百分點(diǎn)。這主要有兩點(diǎn)原因:一個(gè)直觀的原因是增加有標(biāo)注樣本的數(shù)量,可以學(xué)習(xí)到更加精準(zhǔn)的目標(biāo)領(lǐng)域語義空間分布,進(jìn)而提升語義匹配準(zhǔn)確率,但是在專業(yè)領(lǐng)域的實(shí)際開發(fā)中,難以獲得數(shù)量足夠龐大的有標(biāo)注樣本集;另一個(gè)原因是當(dāng)RNNpretrain使用相同數(shù)量的無標(biāo)注樣本,在序列到序列算法訓(xùn)練階段沒有學(xué)習(xí)到更加通用的問句語義空間分布時(shí),隨著有標(biāo)注樣本的增加,將會減弱這些預(yù)訓(xùn)練得到的特征在有監(jiān)督訓(xùn)練中發(fā)揮的作用。
圖3 各語義匹配模型在不同數(shù)據(jù)集規(guī)模時(shí)測試準(zhǔn)確率
為了更加直觀地分析實(shí)驗(yàn)結(jié)果,本文采用t-SNE(t-distributed Stochastic Neighbor Embedding)[25]算法將各個(gè)模型的詞向量映射到二維空間并進(jìn)行可視化展示。如圖4,本文畫出了詞頻數(shù)量排名前300的詞向量,其中,“+”符號表示源領(lǐng)域詞向量的分布,此分布通過對源領(lǐng)域數(shù)據(jù)使用序列到序列(seq2seq)算法進(jìn)行預(yù)訓(xùn)練而生成;“o”符號表示目標(biāo)領(lǐng)域詞向量分布,此分布通過對目標(biāo)領(lǐng)域有標(biāo)注數(shù)據(jù)使用RNNrandom算法訓(xùn)練而生成;“△”符號表示源領(lǐng)域到目標(biāo)領(lǐng)域遷移后的詞向量分布,此分布通過RNNpretrain算法訓(xùn)練而生成。其中每一幅對比圖中RNNpretrain和RNNrandom使用的有標(biāo)注樣本SQ完全相同,例如“SQ (10k) WAP (50k)”表示序列到序列算法采用50 000的WAP進(jìn)行訓(xùn)練,RNNpretrain在該預(yù)訓(xùn)練基礎(chǔ)上采用10 000的SQ數(shù)據(jù)進(jìn)行訓(xùn)練,RNNrandom采用同樣10 000的SQ數(shù)據(jù)進(jìn)行訓(xùn)練。
從圖4(a)可以看出,源領(lǐng)域(“+”符號)與目標(biāo)領(lǐng)域(“o”符號)的詞向量分布雖然有較大差異但是也有相似的部分,最終源領(lǐng)域經(jīng)過遷移學(xué)習(xí)之后的詞向量分布(“△”符號)趨近于目標(biāo)領(lǐng)域的詞向量分布,發(fā)生了明顯的遷移現(xiàn)象。由此可以說明本文提出的遷移學(xué)習(xí)方法可以將源領(lǐng)域的詞向量分布遷移到目標(biāo)領(lǐng)域的詞向量分布,進(jìn)而提升最終的語義匹配準(zhǔn)確率。從圖4(b)和圖4(a)對比來看,在增加無標(biāo)注樣本的情況下,源領(lǐng)域的詞向量分布更加全面廣泛,經(jīng)過遷移學(xué)習(xí)后的詞向量分布更接近目標(biāo)領(lǐng)域的詞向量分布。這說明增加無標(biāo)注樣本可以學(xué)習(xí)到更通用的源領(lǐng)域詞向量分布,使遷移現(xiàn)象更加明顯,進(jìn)而更加有效地提升語義匹配準(zhǔn)確率。從圖4(c)和圖4(b)對比來看,在增加有標(biāo)注樣本的情況下,目標(biāo)領(lǐng)域的詞向量分布更加廣泛并且與源領(lǐng)域詞向量分布的差異變小,經(jīng)過遷移學(xué)習(xí)后的詞向量分布非常接近目標(biāo)領(lǐng)域,發(fā)生了較弱的遷移現(xiàn)象。這說明增加有標(biāo)注樣本可以學(xué)習(xí)到更好的目標(biāo)領(lǐng)域詞向量分布,在源領(lǐng)域沒有學(xué)習(xí)到更通用的詞向量分布的前提下,會降低遷移學(xué)習(xí)的提升效果。
圖4 詞向量空間分布圖
此外,為了更好地展示實(shí)驗(yàn)結(jié)果,本實(shí)驗(yàn)列舉出一些具體的例子。例如有標(biāo)注數(shù)據(jù)集OIL的測試集中存在樣本〈“油氣開采技術(shù)水平的重要指標(biāo)是什么?”,“評價(jià)標(biāo)準(zhǔn)”〉,輸入該樣本中的問句,RNNrandom計(jì)算出得分前兩名的關(guān)系為“重要環(huán)節(jié)(0.71),評價(jià)標(biāo)準(zhǔn)(0.65)”,而RNNpretrain計(jì)算的結(jié)果為“評價(jià)標(biāo)準(zhǔn)(0.73),重要環(huán)節(jié)(0.64)”,其中括號內(nèi)的數(shù)值表示問句和關(guān)系的語義匹配得分。對于該測試樣本,RNNrandom匹配錯(cuò)誤的主要原因是OIL的訓(xùn)練集中包含關(guān)系“評價(jià)標(biāo)準(zhǔn)”的標(biāo)注樣本較少,導(dǎo)致RNNrandom在訓(xùn)練過程中難以學(xué)習(xí)到與“評價(jià)標(biāo)準(zhǔn)”相關(guān)的問句語義空間分布。而且該測試問句中出現(xiàn)“重要”等詞語,進(jìn)一步導(dǎo)致“重要環(huán)節(jié)”被錯(cuò)誤地計(jì)算為最佳匹配關(guān)系。
但是對于該測試樣本,RNNpretrain計(jì)算得到了正確的匹配結(jié)果。其主要原因是無標(biāo)注數(shù)據(jù)集WebQA的訓(xùn)練集中包含大量與測試樣本相關(guān)的問句,如“霧霾污染指標(biāo)是什么?”“如何衡量霧霾污染程度?”“米其林餐廳評價(jià)主要標(biāo)準(zhǔn)是什么?”等。這些無標(biāo)注問句不僅提供了對同一關(guān)系“評價(jià)標(biāo)準(zhǔn)”的多種形式表示,而且還展現(xiàn)出豐富多樣的提問方式,進(jìn)而促使RNNpretrain在訓(xùn)練過程中可以學(xué)習(xí)到關(guān)于“評價(jià)標(biāo)準(zhǔn)”更加通用的問句語義空間分布。
綜合以上實(shí)驗(yàn)結(jié)果表明,在有標(biāo)注樣本數(shù)量較少且無標(biāo)注樣本數(shù)量較大的情況,RNNpretrain的語義匹配準(zhǔn)確率相比RNNrandom和Embed-AVG有明顯提升,擁有更強(qiáng)的泛化能力。
對于單一事實(shí)類問答系統(tǒng)中的語義匹配任務(wù),傳統(tǒng)的有監(jiān)督學(xué)習(xí)方法需要依賴大量的有標(biāo)注樣本才能取得較高的語義匹配準(zhǔn)確率。針對這種問題,本文提出基于RNN的遷移學(xué)習(xí)模型,其通過預(yù)學(xué)習(xí)大量無標(biāo)注樣本數(shù)據(jù)的語義空間分布來提高小規(guī)模標(biāo)注樣本環(huán)境下的語義匹配準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,在小規(guī)模有標(biāo)注樣本上,該模型可以明顯提高語義匹配準(zhǔn)確率,并且該準(zhǔn)確率在一定范圍內(nèi)隨著無標(biāo)注樣本數(shù)據(jù)量的增大而有所提升。本文提出的模型適用于特定領(lǐng)域因有標(biāo)注數(shù)據(jù)量少而導(dǎo)致有監(jiān)督學(xué)習(xí)模型準(zhǔn)確率不高的情況,此外這種遷移學(xué)習(xí)的方式也可以推廣應(yīng)用到其他與語義匹配相關(guān)的任務(wù)中。
下一步本文將探究預(yù)處理無標(biāo)注樣本的方法來過濾更多的噪聲,以及探索使用生成對抗網(wǎng)絡(luò)[26]改進(jìn)序列到序列算法來提升學(xué)習(xí)問句語義空間分布的能力。