毛存禮,王 斌,雷雄麗,滿志博,王紅斌,張亞飛
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650000)
2(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650000)
3(昆明冶金高等??茖W(xué)校,昆明 650000)
采用文本分類技術(shù)從互聯(lián)網(wǎng)中獲取與跨境民族文化相關(guān)的數(shù)據(jù),并自動(dòng)標(biāo)注所屬文化類別,這對(duì)開(kāi)展跨境民族文化融合研究[1]具有重要的價(jià)值.在跨境民族文化的文本分類問(wèn)題中,如何解決標(biāo)簽歧義是當(dāng)前需要解決的重要問(wèn)題,例如,文本1“傣族有很多的節(jié)日文化,比如浴佛、丟包、賽龍船等活動(dòng)”和文本2“傣族清晨男女老少沐浴更衣到佛寺進(jìn)行浴佛活動(dòng),有些寺院的浴佛方法還是與它的規(guī)定有所不同,大致說(shuō)來(lái)這些寺院浴佛更側(cè)重于法會(huì)的儀規(guī),具體分為4個(gè)步驟來(lái)進(jìn)行……”中都含有相同的頭實(shí)體和尾實(shí)體[“傣族”,”浴佛”],但是,尾實(shí)體表示的含義又不相同,文本1表示的是傣族節(jié)日的活動(dòng),而文本2中所表示的就是傣族宗教的活動(dòng).文本1中的“浴佛”在知識(shí)圖譜中的標(biāo)簽為{“傣族”,“節(jié)日”,“活動(dòng)”},文本2中的“浴佛”在知識(shí)圖譜中的標(biāo)簽為{“傣族”,“宗教”,“活動(dòng)”},由此可以看出,尾實(shí)體產(chǎn)生了歧義的現(xiàn)象,會(huì)導(dǎo)致分類錯(cuò)誤.
文本分類主流方法主要分為傳統(tǒng)機(jī)器學(xué)習(xí)分類算法模型和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)分類算法模型[2].1)基于傳統(tǒng)機(jī)器學(xué)習(xí)分類算法模型的核心是利用概率統(tǒng)計(jì)的思想對(duì)文本中的特征詞語(yǔ)進(jìn)行加權(quán),選擇權(quán)值較高的詞語(yǔ)作為文本特征,以此來(lái)進(jìn)行分類模型的學(xué)習(xí)[3-6].這類基于特征工程的方法嚴(yán)重依賴于人工選取特征的質(zhì)量,而且很難獲取到文本深層的語(yǔ)義特征;2)深度學(xué)習(xí)是當(dāng)前文本分類的主流方法,其核心是將文本中的詞語(yǔ)以向量的形式進(jìn)行表示,通過(guò)不斷的調(diào)整網(wǎng)絡(luò)參數(shù),使輸出的數(shù)據(jù)能夠更好的代表輸入數(shù)據(jù),使用最后的輸出作為文本特征進(jìn)行學(xué)習(xí),以此來(lái)得到文本的分類模型,如,Keeling等人[7]提出將卷積神經(jīng)網(wǎng)絡(luò)用于法律文獻(xiàn)檢索任務(wù).肖琳等人[8]提出一種基于標(biāo)簽語(yǔ)義注意力的多標(biāo)簽文本分類方法.Peng等人[9]提出了一種新的層次分類意識(shí)和注意圖膠囊遞歸CNNs框架,用于大規(guī)模多標(biāo)簽文本分類.Banerjee等人[10]提出一種基于層次遷移學(xué)習(xí)的多標(biāo)簽文本分類算法.顧天飛等人[11]基于配對(duì)排序損失的文本多標(biāo)簽學(xué)習(xí)算法.Yao等人[12]提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法.以上的方法雖然給跨境民族文化分類任務(wù)提供了較好的思路,基于傳統(tǒng)的機(jī)器學(xué)習(xí)分類的算法模型依賴于數(shù)據(jù)標(biāo)注的準(zhǔn)確性,針對(duì)于跨境民族文化文本分類的問(wèn)題,數(shù)據(jù)稀缺并且存在一定的歧義,僅僅利用機(jī)器學(xué)習(xí)的思想無(wú)法準(zhǔn)確的對(duì)跨境民族文本文化進(jìn)行準(zhǔn)確的分類.基于深度學(xué)習(xí)的方式是一種數(shù)據(jù)驅(qū)動(dòng)的方法,需要大規(guī)模的分類數(shù)據(jù),跨境民族文本文化的數(shù)據(jù)大多來(lái)自于網(wǎng)絡(luò),這部分?jǐn)?shù)據(jù)較難獲取,且如何定義跨境民族文化文本分類的標(biāo)簽也是需要考慮的因素之一,結(jié)合知識(shí)圖譜處理跨境民族文化文本分類問(wèn)題是一種較好的思路,目前,跨境民族文本文化分類問(wèn)題中面臨的挑戰(zhàn)主要有:如何將知識(shí)圖譜信息有效地和跨境民族分類問(wèn)題結(jié)合以及如何解決民族文化標(biāo)簽歧義的問(wèn)題.
針對(duì)以上在跨境民族文化領(lǐng)域分類存在的問(wèn)題,提出一種融合領(lǐng)域知識(shí)圖譜的跨境民族文化分類方法,把跨境民族文化知識(shí)圖譜中的知識(shí)三元組以及實(shí)體標(biāo)簽利用TransE知識(shí)表示模型[13,14]進(jìn)行向量化表示,采用BERT預(yù)訓(xùn)練模型進(jìn)行詞向量表示,以增強(qiáng)文本的語(yǔ)義表達(dá).本文的貢獻(xiàn)具體如下:
1)構(gòu)建了跨境民族文化的知識(shí)圖譜,并將知識(shí)圖譜引入到文本分類中,融合了實(shí)體的語(yǔ)義信息,擴(kuò)充了語(yǔ)義信息的表達(dá),緩解了由于標(biāo)簽歧義導(dǎo)致的文本分類不準(zhǔn)確的問(wèn)題.
2)基于預(yù)訓(xùn)練BERT的思想,增強(qiáng)語(yǔ)義信息,將BERT的向量表征與知識(shí)圖譜向量表征進(jìn)行融合,得到具有實(shí)體語(yǔ)義信息表征的向量,進(jìn)一步將跨境民族文化中實(shí)體信息進(jìn)行增強(qiáng).
本文提出的模型架構(gòu)如圖2所示,包含了以下5個(gè)部分:
圖1 跨境民族文化知識(shí)圖譜構(gòu)建示例圖
圖2 模型構(gòu)架圖
1)數(shù)據(jù)輸入層:把跨境民族文化知識(shí)圖譜中實(shí)體、關(guān)系以及實(shí)體標(biāo)簽輸入到TransE模型中;2)BERT預(yù)訓(xùn)練模型層:基于Transformer的最后一層輸出的向量作為文本的詞語(yǔ)向量;3)TransE實(shí)體向量表示層:對(duì)輸入的實(shí)體、關(guān)系以及實(shí)體標(biāo)簽進(jìn)行分布式向量表示,然后進(jìn)行對(duì)位融合得到實(shí)體語(yǔ)義向量;4)BiGRU神經(jīng)網(wǎng)絡(luò)層:該層的輸入為TransE模型輸出的實(shí)體向量和BERT預(yù)訓(xùn)練模型層輸出的詞語(yǔ)向量所融合的增強(qiáng)向量,通過(guò)雙向GRU的門結(jié)構(gòu)對(duì)每個(gè)詞的進(jìn)行篩選,保留下重要的詞語(yǔ)特征,以此來(lái)提高文本特征的質(zhì)量;5)輸出層:該層是通過(guò)注意力機(jī)制對(duì)BiGRU的輸出進(jìn)行注意力加權(quán),并且利用最大池化的思想獲取最顯著的信息,再經(jīng)過(guò)一個(gè)全連接層,最終通過(guò)Softmax進(jìn)行歸一化,得到待分類的跨境民族文化文本對(duì)應(yīng)每個(gè)類別的得分.
知識(shí)圖譜本質(zhì)上是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò).知識(shí)圖譜是由(實(shí)體,關(guān)系,實(shí)體)或(實(shí)體,屬性,屬性值)的三元組形式組成的,通過(guò)這些三元組之間的相互連接,可以構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu).本文以人工構(gòu)建的方式構(gòu)建了跨境民族文化知識(shí)圖譜.具體的類別如表1所示.
表1 跨境民族文化知識(shí)圖譜類別
在確定跨境民族文化的分類體系后,需要根據(jù)各個(gè)類別來(lái)定義與跨境民族文化相關(guān)的屬性包括實(shí)體的名稱、別稱、描述內(nèi)容、實(shí)體標(biāo)簽以及實(shí)體存在的一些特征.通過(guò)定義實(shí)體的這些信息,就可以使實(shí)體完整的對(duì)跨境民族文化進(jìn)行詳細(xì)的描述.如圖1所示,對(duì)于“潑水節(jié)”這個(gè)實(shí)體來(lái)說(shuō),它的實(shí)體標(biāo)簽類別信息即為“傣族”、“傣族習(xí)俗文化”、“傣族節(jié)日文化”等.建立實(shí)體與實(shí)體之間的關(guān)系對(duì)跨境民族文化領(lǐng)域知識(shí)圖譜中的知識(shí)進(jìn)行關(guān)聯(lián)整合,使得跨境民族文化知識(shí)圖譜更加具有表示性以及提高跨境民族文化知識(shí)圖譜的查詢性能.跨境民族文化領(lǐng)域的實(shí)體關(guān)系錯(cuò)綜復(fù)雜,主要可以歸納為:包含、跨境、位置、同屬、屬性.最后通過(guò)百科詞條信息和結(jié)構(gòu)化知識(shí)的組合就可以得到知識(shí)三元組信息.具體如圖1所示.
本文采用TransE模型進(jìn)行實(shí)體語(yǔ)義向量表示,將實(shí)體、關(guān)系以及實(shí)體標(biāo)簽信息訓(xùn)練成分布式向量,然后對(duì)這3種向量進(jìn)行對(duì)位累加得到實(shí)體語(yǔ)義向量.相比于傳統(tǒng)的TransE模型來(lái)說(shuō),由于在訓(xùn)練的過(guò)程中添加了實(shí)體標(biāo)簽信息,所以本文的TransE基本計(jì)算如公式(1)所示:
(h+Lh)+r≈(t+Lt)
(1)
在三元組訓(xùn)練的過(guò)程中,由于沒(méi)有明顯的監(jiān)督信號(hào),也就是不會(huì)明確告訴模型學(xué)到的知識(shí)表示是否正確,所以需要根據(jù)正確的三元組S構(gòu)造一些錯(cuò)誤的三元組S′,其中S′的構(gòu)造規(guī)則為將正確的三元組中的實(shí)體、關(guān)系或者實(shí)體標(biāo)簽隨機(jī)替換為其它元素.在模型訓(xùn)練的過(guò)程中,通過(guò)設(shè)置一個(gè)損失函數(shù)L來(lái)對(duì)這些三元組進(jìn)行打分,相比之下,正確的三元組打分要高于錯(cuò)誤的三元組,損失函數(shù)設(shè)計(jì)如公式(2)所示:
(2)
其中,h′和t′為隨機(jī)構(gòu)造的負(fù)例頭實(shí)體和尾實(shí)體,Lh′和Lt′為隨機(jī)構(gòu)造的負(fù)例頭實(shí)體和尾實(shí)體標(biāo)簽,γ為大于0的超參,+的作用是篩選,具體規(guī)則為大于0取原值,小于0則為0.
訓(xùn)練TransE模型時(shí),首先需要把三元組的實(shí)體、關(guān)系和該三元組的標(biāo)簽分別按序進(jìn)行id標(biāo)記,具體形式為(實(shí)體,id)、(關(guān)系,id)和(實(shí)體標(biāo)簽,id),訓(xùn)練數(shù)據(jù)格式為(頭實(shí)體,尾實(shí)體,關(guān)系,實(shí)體標(biāo)簽),模型的輸入為隨機(jī)初始化的實(shí)體量、關(guān)系向量以及實(shí)體標(biāo)簽向量,向量維度一致.通過(guò)不斷地對(duì)實(shí)體和關(guān)系的向量進(jìn)行調(diào)整,使其滿足公式(2)的計(jì)算,就可以得到最終的實(shí)體向量Eid和關(guān)系向量Rid和實(shí)體標(biāo)簽向量Lid,把這3種向量進(jìn)行對(duì)位累加得到相應(yīng)的實(shí)體語(yǔ)義向量.
BERT通過(guò)雙向Transformer對(duì)文本進(jìn)行表征,在模型處理某一個(gè)詞語(yǔ)時(shí),如:句子“香茅草烤魚(yú)是傣族的傳統(tǒng)美食”,分詞之后可以得到[香茅草烤魚(yú)是傣族的傳統(tǒng)美食],BERT模型會(huì)隨機(jī)遮罩一些詞匯得到“香茅草烤魚(yú)是 [Mask] 的傳統(tǒng)美食”,然后根據(jù)上下文信息對(duì)[Mask]進(jìn)行預(yù)測(cè),這樣就可以很好的把上下文的語(yǔ)義信息融入到[Mask]這個(gè)詞語(yǔ)的表示中中句子“香茅草烤魚(yú)是傣族的傳統(tǒng)美食”為文本句子,“傣族,傣族飲食文化,傣族食品”為文本中的實(shí)體對(duì)[香茅草烤魚(yú),傣族]的標(biāo)簽信息,“傣族,傣族菜,香茅草烤魚(yú)”為知識(shí)圖譜中的三元組信息.Transformer Encoder的輸入Input Embedding為文本經(jīng)過(guò)Token Embedding,Segment Embedding和Position Embedding后按位相加的詞語(yǔ)向量,例如文本“潑水節(jié)是傣族的傳統(tǒng)節(jié)日”經(jīng)過(guò)以上3個(gè)Embedding的元素按位相加后表示為A={a[CLS],a潑水節(jié),a是,a傣族,a的,a傳統(tǒng),a節(jié)日,a[SEP]},其中a[CLS]和a[SEP]為文本的特殊標(biāo)記向量,每個(gè)詞語(yǔ)都被表示為k維的向量.對(duì)于輸入的向量利用Multi-Head Attention(多頭注意力機(jī)制)計(jì)算文本中每個(gè)詞語(yǔ)與其它詞語(yǔ)之間的相互關(guān)系,計(jì)算公式如公式(3)-公式(5)所示.
(3)
MHA=Concat(head1,…,headk)WO
(4)
(5)
(6)
GRU是Chung等人[15]提出的LSTM的一個(gè)變種,既繼承了LSTM可以學(xué)習(xí)長(zhǎng)期依賴信息的特性,而且又減少了訓(xùn)練參數(shù),提高了模型的訓(xùn)練效率.BiGRU的輸入x的表示如公式(7)所示:
xi={wi+Ei,p1,p2}
(7)
其中,p1表示第這個(gè)詞語(yǔ)與第1個(gè)實(shí)體“香茅草烤魚(yú)”和第2個(gè)實(shí)體“傣族”之間的位置向量,因?yàn)樵撛~語(yǔ)就是第1個(gè)實(shí)體本身,相對(duì)位置的id為0,所以p1的值為與詞向量維度相同的隨機(jī)初始化向量,同理可知該詞語(yǔ)到第2個(gè)實(shí)體的相對(duì)位置的id為2,所以p2的值為與詞向量維度相同的隨機(jī)初始化向量.
(8)
ri=σ(Wr·[xi,hi-1])
(9)
其中,σ()是激活函數(shù)Sigmoid函數(shù),其值域范圍在(0,1)之間.
更新門z決定的是上一個(gè)隱含狀態(tài)hi-1向下一個(gè)狀態(tài)傳遞的信息.控制hi-1中有多少信息可以流入hi中.
z=σ(Wz·[xi,hi-1])
(10)
隱含狀態(tài)hi由上一個(gè)隱含狀態(tài)hi-1產(chǎn)生,新的記憶由更新門判定.
(11)
根據(jù)對(duì)跨境民族文化數(shù)據(jù)的分析,文本中的某些關(guān)鍵特征詞具有很重要的語(yǔ)義信息,需要著重的進(jìn)行考慮.因此,本文利用注意力機(jī)制來(lái)為這些特征詞語(yǔ)分配更高的權(quán)重,突出這些特征的重要性.通過(guò)2.6節(jié)可以得到文本中的第i個(gè)文本特征詞語(yǔ)的向量表示hi,通過(guò)隨機(jī)初始化一個(gè)向量uw作為模型參數(shù)一起訓(xùn)練,得到每個(gè)詞語(yǔ)的注意力得分αi,計(jì)算如公式(12)所示:
(12)
令第i個(gè)文本特征詞語(yǔ)的向量表示hi與其注意力得分αi相乘,從而獲得該詞語(yǔ)新的特征向量.最后采用最大池化的思想獲取最顯著的跨境民族文化特征信息,計(jì)算如公式(13)所示:
(13)
對(duì)于輸入的文本來(lái)說(shuō),通過(guò)注意力機(jī)制加權(quán)后可以得到該句子的向量形式表示C={c1,c2,…,cn},其中C∈Rn×d為句子向量,d為句子向量的維度,n為文本數(shù)據(jù)的詞語(yǔ)數(shù)量.再經(jīng)過(guò)一個(gè)全連接層可以得到輸出為Y的一維向量,表示為Y=[y1,y2,…,yk],其中k為類別數(shù),yi為輸入的句子向量C屬于第i類的預(yù)測(cè)值,yi的計(jì)算方式如公式(14)所示:
yi=Wi·C+b
(14)
其中,Wi為該句子對(duì)應(yīng)類別i的權(quán)重矩陣,b為偏置值,表示為b=[b1,b2,…,bk].通過(guò)公式(14)得到y(tǒng)i后,再通過(guò)Softmax函數(shù)進(jìn)行歸一化處理,得到C屬于各個(gè)類別的概率值,公式如公式(15)所示:
p(y=j|C)=softmax(yj)
(15)
其中,公式(15)表示句子C屬于類別j的概率值.
本文使用交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù),通過(guò)刻畫預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽之間的距離來(lái)判定這兩者的接近程度,也就是交叉熵越小,距離越近,預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽越相似.目標(biāo)函數(shù)定義如公式(16)所示:
(16)
其中,θ表示模型中的所有參數(shù),初始值隨機(jī);T代表句子集合數(shù),本文使用Adam優(yōu)化器對(duì)參數(shù)進(jìn)行更新.
本文所使用的數(shù)據(jù)集包含兩部分:
1)跨境民族文化知識(shí)圖譜:其中包括了863個(gè)三元組,13個(gè)小類.其中知識(shí)三元組的具體格式是[“實(shí)體”,“關(guān)系”,“實(shí)體”]或者[“實(shí)體”,“屬性”,“屬性值”],例如:知識(shí)三元組[“傣族”,“節(jié)日”,“潑水節(jié)”]和[“潑水節(jié)”,“時(shí)間”,“公歷4月13~15日”].
2)文本數(shù)據(jù):利用已經(jīng)構(gòu)建好的跨境民族文化知識(shí)圖譜中的知識(shí)三元組與跨境民族文化文本進(jìn)行實(shí)體對(duì)齊所獲取的實(shí)驗(yàn)數(shù)據(jù).如果知識(shí)圖譜中三元組的頭實(shí)體和尾實(shí)體同時(shí)出現(xiàn)在跨境民族文化文本中,我們就把這個(gè)文本歸為實(shí)驗(yàn)所需的標(biāo)注數(shù)據(jù),對(duì)于這些標(biāo)注好的數(shù)據(jù)則利用人工進(jìn)行校驗(yàn),然后對(duì)每條數(shù)據(jù)打上類別標(biāo)簽.標(biāo)注數(shù)據(jù)的格式為:[標(biāo)簽->文本].本文實(shí)驗(yàn)從跨境民族文化領(lǐng)域文本集中抽取了40種類別共計(jì)46251條語(yǔ)料,4000條作為測(cè)試集,標(biāo)注的每條數(shù)據(jù)的平均長(zhǎng)度為67個(gè)字符,總共標(biāo)注的類別有40個(gè).每個(gè)類別的數(shù)據(jù)的數(shù)量為1110~1190條.而且本次實(shí)驗(yàn)中還加入了一些特殊的文本類別NA(NA:表示句子不屬于任何一個(gè)文本類別),實(shí)驗(yàn)數(shù)據(jù)示例如表2所示.
表2 標(biāo)注數(shù)據(jù)樣例
實(shí)驗(yàn)過(guò)程中,通過(guò)不斷的調(diào)節(jié)實(shí)驗(yàn)參數(shù),以確保模型在參數(shù)最優(yōu)的情況下進(jìn)行訓(xùn)練,具體的參數(shù)設(shè)置如表3所示.
表3 模型參數(shù)設(shè)置
本文為了證明實(shí)驗(yàn)的有效性,通過(guò)精確率(Precision)、召回率(Recall)和F_1值來(lái)對(duì)模型進(jìn)行評(píng)估.精確率、召回率和F_1值的計(jì)算方法如公式(17)-公式(19)所示.
(17)
(18)
(19)
其中,Right_num為預(yù)測(cè)正確的文本數(shù)量,Recognize_num為識(shí)別出的文本數(shù)量,All_num為此次測(cè)試的文本數(shù)量.由于本文的任務(wù)是做跨境民族文化文本分類任務(wù),需要在保持高精確率的情況下有一個(gè)高召回率,所以F1越高代表模型的平衡性越好,分類效果越好.
實(shí)驗(yàn)1.不同方法實(shí)驗(yàn)結(jié)果對(duì)比
為了驗(yàn)證本文方法的有效性,在相同實(shí)驗(yàn)語(yǔ)料的情況下,設(shè)計(jì)了7組不同分類方法的對(duì)比實(shí)驗(yàn)進(jìn)行本文方法有效性的驗(yàn)證.其中,各個(gè)模型的實(shí)驗(yàn)數(shù)據(jù)完全一致,實(shí)驗(yàn)中使用領(lǐng)域分詞的方法對(duì)文本進(jìn)行預(yù)處理.
1)文獻(xiàn)[17]所提出的一種基于word-level級(jí)別的深層卷積神經(jīng)網(wǎng)絡(luò)模型DPCNN文本分類模型;
2)文獻(xiàn)[18]所提出的基于Attention_BiLSTM的神經(jīng)網(wǎng)絡(luò)文本分類方法;
3)文獻(xiàn)[19]提出的TextCNN文本分類經(jīng)典模型;
4)文獻(xiàn)[20]所提出的Transformer模型應(yīng)用于文本分類的方法;
5)文獻(xiàn)[21]提出的BiLSTM-CNN文本分類模型;
6)文獻(xiàn)[22]提出的FastText文本分類模型.實(shí)驗(yàn)結(jié)果如表3所示;
7)Baseline(Attention_BiGRU):Attention是指注意力機(jī)制,這一機(jī)制已經(jīng)被廣泛應(yīng)用于多種領(lǐng)域,包括圖像標(biāo)題生成、文本分類、語(yǔ)音識(shí)別和機(jī)器翻譯[24].雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)可以看做雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)的一種拓展[23].
如表4所示,本文方法在跨境民族文化文本分類任務(wù)上的精確率和召回率方面都優(yōu)于本文的Baseline以及其他方法.
表4 與其它模型的分類效果對(duì)比
對(duì)于本文的Baseline方法Attention_BiGRU來(lái)說(shuō),本文方法優(yōu)于它的原因是本文的詞向量表示使用的是BERT模型,所表示的每個(gè)詞語(yǔ)都帶有上下文語(yǔ)義信息,使特征更具有代表性.而B(niǎo)aseline方法的詞向量表示使用的是Word2vec模型,而且還沒(méi)有融入實(shí)體向量和對(duì)特征進(jìn)行加權(quán).所以本文方法優(yōu)于Baseline模型Attention_BiGRU.Transformer模型和BiLSTM-CNN模型的精確率優(yōu)于本文的模型,造成這種結(jié)果的原因是這兩個(gè)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)層數(shù)大于本文模型的網(wǎng)絡(luò)層數(shù).而對(duì)于網(wǎng)絡(luò)層數(shù)更深的DPCNN模型來(lái)說(shuō),其結(jié)果不理想的原因是因?yàn)榫W(wǎng)絡(luò)模型單一,而且詞語(yǔ)級(jí)的輸入不能很好的對(duì)文本進(jìn)行表示.
實(shí)驗(yàn)2.不同詞向量表示方法對(duì)實(shí)驗(yàn)結(jié)果的影響
為了驗(yàn)證本文所使用的BERT預(yù)訓(xùn)練模型表示的文本詞向量對(duì)于分類任務(wù)的有效性.本文通過(guò)幾種不同的向量表征方式來(lái)對(duì)文本進(jìn)行表征,其中的詳細(xì)實(shí)驗(yàn)方式是分別利用Word2vec模型和Glove模型對(duì)文本進(jìn)行詞向量表示,并且與TransE模型的實(shí)體向量進(jìn)行融合,而其它保持不變進(jìn)行模型訓(xùn)練.實(shí)驗(yàn)結(jié)果如表4所示.
從表5可以看出,本文通過(guò)把BERT預(yù)訓(xùn)練模型所表示的文本詞向量和TransE模型所表示的實(shí)體向量進(jìn)行融合,在跨境民族文化文本分類任務(wù)上具有較好的性能.其根本原因在于BERT預(yù)訓(xùn)練模型對(duì)文本中的詞語(yǔ)進(jìn)行向量表示時(shí),利用雙向Transformer對(duì)文本中的每個(gè)詞語(yǔ)進(jìn)行表示,充分考慮了文本的上下文語(yǔ)義信息;而Word2vec模型只考慮了詞語(yǔ)的局部信息,沒(méi)有考慮詞語(yǔ)與局部窗口之外詞的聯(lián)系;GloVe模型雖然彌補(bǔ)Word2vec模型的缺陷,考慮了詞語(yǔ)的整體信息,但還存在一個(gè)問(wèn)題,就是所表示的詞語(yǔ)在不同語(yǔ)境下的詞向量是相同的,沒(méi)有考慮語(yǔ)境的問(wèn)題;BERT模型對(duì)于上述問(wèn)題都進(jìn)行了綜合的考慮,即考慮了詞語(yǔ)的局部以及整體信息,又考慮了詞語(yǔ)在不同語(yǔ)境下的詞向量變化,能夠充分的對(duì)文本中的每個(gè)詞語(yǔ)進(jìn)行表示.
表5 不同詞向量方式對(duì)實(shí)驗(yàn)結(jié)果的影響
實(shí)驗(yàn)3.領(lǐng)域詞匯對(duì)實(shí)驗(yàn)結(jié)果的影響
由于本文需要通過(guò)融入領(lǐng)域?qū)嶓w來(lái)解決文本中實(shí)體特征存在歧義的問(wèn)題.本文通過(guò)領(lǐng)域分詞的方法來(lái)對(duì)文本進(jìn)行分詞處理,以此來(lái)保證文本中實(shí)體特征詞的完整性.所以本文分別采用通用分詞工具和領(lǐng)域分詞分詞實(shí)驗(yàn)對(duì)比,其中,通用分詞使用jieba分詞工具,領(lǐng)域分詞采用構(gòu)建的領(lǐng)域詞典+jieba分詞,實(shí)驗(yàn)結(jié)果如表5所示.
從表6可以看出,采用領(lǐng)域分詞的效果明顯高于直接使用jieba分詞的效果.本文中將跨境民族文化相關(guān)文本中由多個(gè)詞匯構(gòu)成的跨境民族文化特征詞匯作為領(lǐng)域詞匯來(lái)處理,如,“南傳上部座佛教”這個(gè)詞語(yǔ)在使用jieba分詞時(shí)可以分為“南傳”、“上部座”和“佛教”這3個(gè)獨(dú)立的詞語(yǔ),而利用領(lǐng)域分詞就可以得到一個(gè)完整的詞語(yǔ).諸如此類的詞語(yǔ)還有很多,如:淺色大襟短衫、大襟小袖短衫.這些詞匯如果直接使用jieba分詞后將導(dǎo)致具有完整語(yǔ)義的設(shè)備缺陷特征拆開(kāi)后導(dǎo)致語(yǔ)義信息丟失,而作為領(lǐng)域詞匯利用BERT進(jìn)行詞向量表征后能夠有效獲取到跟跨境民族文化相關(guān)的詞匯的語(yǔ)義特征,更有利于通過(guò)Attention層進(jìn)行捕捉.
表6 領(lǐng)域分詞對(duì)實(shí)驗(yàn)結(jié)果的影響
實(shí)驗(yàn)4.不同實(shí)驗(yàn)參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
設(shè)置不同的參數(shù)迭代次數(shù)、批次大小以及隨機(jī)失活率進(jìn)行實(shí)驗(yàn)的結(jié)果如圖3-圖5所示,根據(jù)實(shí)驗(yàn)結(jié)果可知,設(shè)置epochs為20、Dropout為0.4以及Batch為32時(shí),實(shí)驗(yàn)結(jié)果達(dá)到了最佳.
針對(duì)跨境民族文化標(biāo)簽類別存在歧義的問(wèn)題.本文提出了融合領(lǐng)域知識(shí)圖譜的跨境民族文化文本分類方法,該方法利用TransE知識(shí)表示模型得到文本中知識(shí)三元組,利用BERT預(yù)訓(xùn)練模型得到文本中每個(gè)詞語(yǔ)的向量表示,再通過(guò)BiGRU神提取文本的深層語(yǔ)義信息.實(shí)驗(yàn)表明,本文方法對(duì)于特定領(lǐng)域的文本分類任務(wù)有著良好的效果.在未來(lái)的工作中將進(jìn)一步的解決向量的表征問(wèn)題和提升文本特征的質(zhì)量,使模型的抽取效果進(jìn)一步的提升.