融合領(lǐng)域知識(shí)圖譜的跨境民族文化分類

2022-05-10 08:45毛存禮雷雄麗滿志博王紅斌張亞飛

小型微型計(jì)算機(jī)系統(tǒng) 2022年5期

關(guān)鍵詞：向量實(shí)體標(biāo)簽

毛存禮，王斌，雷雄麗，滿志博，王紅斌，張亞飛

1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院，昆明 650000)

2(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室，昆明 650000)

3(昆明冶金高等?？茖W(xué)校，昆明 650000)

1 引言

采用文本分類技術(shù)從互聯(lián)網(wǎng)中獲取與跨境民族文化相關(guān)的數(shù)據(jù)，并自動(dòng)標(biāo)注所屬文化類別，這對(duì)開(kāi)展跨境民族文化融合研究[1]具有重要的價(jià)值.在跨境民族文化的文本分類問(wèn)題中，如何解決標(biāo)簽歧義是當(dāng)前需要解決的重要問(wèn)題，例如，文本1“傣族有很多的節(jié)日文化，比如浴佛、丟包、賽龍船等活動(dòng)”和文本2“傣族清晨男女老少沐浴更衣到佛寺進(jìn)行浴佛活動(dòng)，有些寺院的浴佛方法還是與它的規(guī)定有所不同，大致說(shuō)來(lái)這些寺院浴佛更側(cè)重于法會(huì)的儀規(guī)，具體分為4個(gè)步驟來(lái)進(jìn)行……”中都含有相同的頭實(shí)體和尾實(shí)體[“傣族”，”浴佛”]，但是，尾實(shí)體表示的含義又不相同，文本1表示的是傣族節(jié)日的活動(dòng)，而文本2中所表示的就是傣族宗教的活動(dòng).文本1中的“浴佛”在知識(shí)圖譜中的標(biāo)簽為{“傣族”，“節(jié)日”，“活動(dòng)”}，文本2中的“浴佛”在知識(shí)圖譜中的標(biāo)簽為{“傣族”，“宗教”，“活動(dòng)”}，由此可以看出，尾實(shí)體產(chǎn)生了歧義的現(xiàn)象，會(huì)導(dǎo)致分類錯(cuò)誤.

文本分類主流方法主要分為傳統(tǒng)機(jī)器學(xué)習(xí)分類算法模型和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)分類算法模型[2].1)基于傳統(tǒng)機(jī)器學(xué)習(xí)分類算法模型的核心是利用概率統(tǒng)計(jì)的思想對(duì)文本中的特征詞語(yǔ)進(jìn)行加權(quán)，選擇權(quán)值較高的詞語(yǔ)作為文本特征，以此來(lái)進(jìn)行分類模型的學(xué)習(xí)[3-6].這類基于特征工程的方法嚴(yán)重依賴于人工選取特征的質(zhì)量，而且很難獲取到文本深層的語(yǔ)義特征；2)深度學(xué)習(xí)是當(dāng)前文本分類的主流方法，其核心是將文本中的詞語(yǔ)以向量的形式進(jìn)行表示，通過(guò)不斷的調(diào)整網(wǎng)絡(luò)參數(shù)，使輸出的數(shù)據(jù)能夠更好的代表輸入數(shù)據(jù)，使用最后的輸出作為文本特征進(jìn)行學(xué)習(xí)，以此來(lái)得到文本的分類模型，如，Keeling等人[7]提出將卷積神經(jīng)網(wǎng)絡(luò)用于法律文獻(xiàn)檢索任務(wù).肖琳等人[8]提出一種基于標(biāo)簽語(yǔ)義注意力的多標(biāo)簽文本分類方法.Peng等人[9]提出了一種新的層次分類意識(shí)和注意圖膠囊遞歸CNNs框架，用于大規(guī)模多標(biāo)簽文本分類.Banerjee等人[10]提出一種基于層次遷移學(xué)習(xí)的多標(biāo)簽文本分類算法.顧天飛等人[11]基于配對(duì)排序損失的文本多標(biāo)簽學(xué)習(xí)算法.Yao等人[12]提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法.以上的方法雖然給跨境民族文化分類任務(wù)提供了較好的思路，基于傳統(tǒng)的機(jī)器學(xué)習(xí)分類的算法模型依賴于數(shù)據(jù)標(biāo)注的準(zhǔn)確性，針對(duì)于跨境民族文化文本分類的問(wèn)題，數(shù)據(jù)稀缺并且存在一定的歧義，僅僅利用機(jī)器學(xué)習(xí)的思想無(wú)法準(zhǔn)確的對(duì)跨境民族文本文化進(jìn)行準(zhǔn)確的分類.基于深度學(xué)習(xí)的方式是一種數(shù)據(jù)驅(qū)動(dòng)的方法，需要大規(guī)模的分類數(shù)據(jù)，跨境民族文本文化的數(shù)據(jù)大多來(lái)自于網(wǎng)絡(luò)，這部分?jǐn)?shù)據(jù)較難獲取，且如何定義跨境民族文化文本分類的標(biāo)簽也是需要考慮的因素之一，結(jié)合知識(shí)圖譜處理跨境民族文化文本分類問(wèn)題是一種較好的思路，目前，跨境民族文本文化分類問(wèn)題中面臨的挑戰(zhàn)主要有：如何將知識(shí)圖譜信息有效地和跨境民族分類問(wèn)題結(jié)合以及如何解決民族文化標(biāo)簽歧義的問(wèn)題.

針對(duì)以上在跨境民族文化領(lǐng)域分類存在的問(wèn)題，提出一種融合領(lǐng)域知識(shí)圖譜的跨境民族文化分類方法，把跨境民族文化知識(shí)圖譜中的知識(shí)三元組以及實(shí)體標(biāo)簽利用TransE知識(shí)表示模型[13，14]進(jìn)行向量化表示，采用BERT預(yù)訓(xùn)練模型進(jìn)行詞向量表示，以增強(qiáng)文本的語(yǔ)義表達(dá).本文的貢獻(xiàn)具體如下：

1)構(gòu)建了跨境民族文化的知識(shí)圖譜，并將知識(shí)圖譜引入到文本分類中，融合了實(shí)體的語(yǔ)義信息，擴(kuò)充了語(yǔ)義信息的表達(dá)，緩解了由于標(biāo)簽歧義導(dǎo)致的文本分類不準(zhǔn)確的問(wèn)題.

2)基于預(yù)訓(xùn)練BERT的思想，增強(qiáng)語(yǔ)義信息，將BERT的向量表征與知識(shí)圖譜向量表征進(jìn)行融合，得到具有實(shí)體語(yǔ)義信息表征的向量，進(jìn)一步將跨境民族文化中實(shí)體信息進(jìn)行增強(qiáng).

2 融合知識(shí)表示的跨境民族文本分類模型

2.1 跨境民族文化分類模型架構(gòu)

本文提出的模型架構(gòu)如圖2所示，包含了以下5個(gè)部分：

圖1 跨境民族文化知識(shí)圖譜構(gòu)建示例圖

圖2 模型構(gòu)架圖

1)數(shù)據(jù)輸入層：把跨境民族文化知識(shí)圖譜中實(shí)體、關(guān)系以及實(shí)體標(biāo)簽輸入到TransE模型中；2)BERT預(yù)訓(xùn)練模型層：基于Transformer的最后一層輸出的向量作為文本的詞語(yǔ)向量；3)TransE實(shí)體向量表示層：對(duì)輸入的實(shí)體、關(guān)系以及實(shí)體標(biāo)簽進(jìn)行分布式向量表示，然后進(jìn)行對(duì)位融合得到實(shí)體語(yǔ)義向量；4)BiGRU神經(jīng)網(wǎng)絡(luò)層：該層的輸入為TransE模型輸出的實(shí)體向量和BERT預(yù)訓(xùn)練模型層輸出的詞語(yǔ)向量所融合的增強(qiáng)向量，通過(guò)雙向GRU的門結(jié)構(gòu)對(duì)每個(gè)詞的進(jìn)行篩選，保留下重要的詞語(yǔ)特征，以此來(lái)提高文本特征的質(zhì)量；5)輸出層：該層是通過(guò)注意力機(jī)制對(duì)BiGRU的輸出進(jìn)行注意力加權(quán)，并且利用最大池化的思想獲取最顯著的信息，再經(jīng)過(guò)一個(gè)全連接層，最終通過(guò)Softmax進(jìn)行歸一化，得到待分類的跨境民族文化文本對(duì)應(yīng)每個(gè)類別的得分.

2.2 跨境民族知識(shí)圖譜構(gòu)建

知識(shí)圖譜本質(zhì)上是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò).知識(shí)圖譜是由(實(shí)體，關(guān)系，實(shí)體)或(實(shí)體，屬性，屬性值)的三元組形式組成的，通過(guò)這些三元組之間的相互連接，可以構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu).本文以人工構(gòu)建的方式構(gòu)建了跨境民族文化知識(shí)圖譜.具體的類別如表1所示.

表1 跨境民族文化知識(shí)圖譜類別

在確定跨境民族文化的分類體系后，需要根據(jù)各個(gè)類別來(lái)定義與跨境民族文化相關(guān)的屬性包括實(shí)體的名稱、別稱、描述內(nèi)容、實(shí)體標(biāo)簽以及實(shí)體存在的一些特征.通過(guò)定義實(shí)體的這些信息，就可以使實(shí)體完整的對(duì)跨境民族文化進(jìn)行詳細(xì)的描述.如圖1所示，對(duì)于“潑水節(jié)”這個(gè)實(shí)體來(lái)說(shuō)，它的實(shí)體標(biāo)簽類別信息即為“傣族”、“傣族習(xí)俗文化”、“傣族節(jié)日文化”等.建立實(shí)體與實(shí)體之間的關(guān)系對(duì)跨境民族文化領(lǐng)域知識(shí)圖譜中的知識(shí)進(jìn)行關(guān)聯(lián)整合，使得跨境民族文化知識(shí)圖譜更加具有表示性以及提高跨境民族文化知識(shí)圖譜的查詢性能.跨境民族文化領(lǐng)域的實(shí)體關(guān)系錯(cuò)綜復(fù)雜，主要可以歸納為：包含、跨境、位置、同屬、屬性.最后通過(guò)百科詞條信息和結(jié)構(gòu)化知識(shí)的組合就可以得到知識(shí)三元組信息.具體如圖1所示.

2.3 基于TransE的跨境民族文化知識(shí)表示

本文采用TransE模型進(jìn)行實(shí)體語(yǔ)義向量表示，將實(shí)體、關(guān)系以及實(shí)體標(biāo)簽信息訓(xùn)練成分布式向量，然后對(duì)這3種向量進(jìn)行對(duì)位累加得到實(shí)體語(yǔ)義向量.相比于傳統(tǒng)的TransE模型來(lái)說(shuō)，由于在訓(xùn)練的過(guò)程中添加了實(shí)體標(biāo)簽信息，所以本文的TransE基本計(jì)算如公式(1)所示：

(h+Lh)+r≈(t+Lt)

(1)

在三元組訓(xùn)練的過(guò)程中，由于沒(méi)有明顯的監(jiān)督信號(hào)，也就是不會(huì)明確告訴模型學(xué)到的知識(shí)表示是否正確，所以需要根據(jù)正確的三元組S構(gòu)造一些錯(cuò)誤的三元組S′，其中S′的構(gòu)造規(guī)則為將正確的三元組中的實(shí)體、關(guān)系或者實(shí)體標(biāo)簽隨機(jī)替換為其它元素.在模型訓(xùn)練的過(guò)程中，通過(guò)設(shè)置一個(gè)損失函數(shù)L來(lái)對(duì)這些三元組進(jìn)行打分，相比之下，正確的三元組打分要高于錯(cuò)誤的三元組，損失函數(shù)設(shè)計(jì)如公式(2)所示：

(2)

其中，h′和t′為隨機(jī)構(gòu)造的負(fù)例頭實(shí)體和尾實(shí)體，Lh′和Lt′為隨機(jī)構(gòu)造的負(fù)例頭實(shí)體和尾實(shí)體標(biāo)簽，γ為大于0的超參，+的作用是篩選，具體規(guī)則為大于0取原值，小于0則為0.

訓(xùn)練TransE模型時(shí)，首先需要把三元組的實(shí)體、關(guān)系和該三元組的標(biāo)簽分別按序進(jìn)行id標(biāo)記，具體形式為(實(shí)體，id)、(關(guān)系，id)和(實(shí)體標(biāo)簽，id)，訓(xùn)練數(shù)據(jù)格式為(頭實(shí)體，尾實(shí)體，關(guān)系，實(shí)體標(biāo)簽)，模型的輸入為隨機(jī)初始化的實(shí)體量、關(guān)系向量以及實(shí)體標(biāo)簽向量，向量維度一致.通過(guò)不斷地對(duì)實(shí)體和關(guān)系的向量進(jìn)行調(diào)整，使其滿足公式(2)的計(jì)算，就可以得到最終的實(shí)體向量Eid和關(guān)系向量Rid和實(shí)體標(biāo)簽向量Lid，把這3種向量進(jìn)行對(duì)位累加得到相應(yīng)的實(shí)體語(yǔ)義向量.

2.4 基于BERT預(yù)訓(xùn)練的文本詞向量表征

BERT通過(guò)雙向Transformer對(duì)文本進(jìn)行表征，在模型處理某一個(gè)詞語(yǔ)時(shí)，如：句子“香茅草烤魚(yú)是傣族的傳統(tǒng)美食”，分詞之后可以得到[香茅草烤魚(yú)是傣族的傳統(tǒng)美食]，BERT模型會(huì)隨機(jī)遮罩一些詞匯得到“香茅草烤魚(yú)是 [Mask] 的傳統(tǒng)美食”，然后根據(jù)上下文信息對(duì)[Mask]進(jìn)行預(yù)測(cè)，這樣就可以很好的把上下文的語(yǔ)義信息融入到[Mask]這個(gè)詞語(yǔ)的表示中中句子“香茅草烤魚(yú)是傣族的傳統(tǒng)美食”為文本句子，“傣族，傣族飲食文化，傣族食品”為文本中的實(shí)體對(duì)[香茅草烤魚(yú)，傣族]的標(biāo)簽信息，“傣族，傣族菜，香茅草烤魚(yú)”為知識(shí)圖譜中的三元組信息.Transformer Encoder的輸入Input Embedding為文本經(jīng)過(guò)Token Embedding，Segment Embedding和Position Embedding后按位相加的詞語(yǔ)向量，例如文本“潑水節(jié)是傣族的傳統(tǒng)節(jié)日”經(jīng)過(guò)以上3個(gè)Embedding的元素按位相加后表示為A={a[CLS]，a潑水節(jié)，a是，a傣族，a的，a傳統(tǒng)，a節(jié)日，a[SEP]}，其中a[CLS]和a[SEP]為文本的特殊標(biāo)記向量，每個(gè)詞語(yǔ)都被表示為k維的向量.對(duì)于輸入的向量利用Multi-Head Attention(多頭注意力機(jī)制)計(jì)算文本中每個(gè)詞語(yǔ)與其它詞語(yǔ)之間的相互關(guān)系，計(jì)算公式如公式(3)-公式(5)所示.

(3)

MHA=Concat(head1，…，headk)WO

(4)

(5)

2.5 融合實(shí)體語(yǔ)義向量的詞向量表征

(6)

2.6 基于BiGRU神經(jīng)網(wǎng)絡(luò)的文本特征抽取

GRU是Chung等人[15]提出的LSTM的一個(gè)變種，既繼承了LSTM可以學(xué)習(xí)長(zhǎng)期依賴信息的特性，而且又減少了訓(xùn)練參數(shù)，提高了模型的訓(xùn)練效率.BiGRU的輸入x的表示如公式(7)所示：

xi={wi+Ei，p1，p2}

(7)

其中，p1表示第這個(gè)詞語(yǔ)與第1個(gè)實(shí)體“香茅草烤魚(yú)”和第2個(gè)實(shí)體“傣族”之間的位置向量，因?yàn)樵撛~語(yǔ)就是第1個(gè)實(shí)體本身，相對(duì)位置的id為0，所以p1的值為與詞向量維度相同的隨機(jī)初始化向量，同理可知該詞語(yǔ)到第2個(gè)實(shí)體的相對(duì)位置的id為2，所以p2的值為與詞向量維度相同的隨機(jī)初始化向量.

(8)

ri=σ(Wr·[xi，hi-1])

(9)

其中，σ()是激活函數(shù)Sigmoid函數(shù)，其值域范圍在(0，1)之間.

更新門z決定的是上一個(gè)隱含狀態(tài)hi-1向下一個(gè)狀態(tài)傳遞的信息.控制hi-1中有多少信息可以流入hi中.

z=σ(Wz·[xi，hi-1])

(10)

隱含狀態(tài)hi由上一個(gè)隱含狀態(tài)hi-1產(chǎn)生，新的記憶由更新門判定.

(11)

2.7 基于Attention機(jī)制的特征加權(quán)

根據(jù)對(duì)跨境民族文化數(shù)據(jù)的分析，文本中的某些關(guān)鍵特征詞具有很重要的語(yǔ)義信息，需要著重的進(jìn)行考慮.因此，本文利用注意力機(jī)制來(lái)為這些特征詞語(yǔ)分配更高的權(quán)重，突出這些特征的重要性.通過(guò)2.6節(jié)可以得到文本中的第i個(gè)文本特征詞語(yǔ)的向量表示hi，通過(guò)隨機(jī)初始化一個(gè)向量uw作為模型參數(shù)一起訓(xùn)練，得到每個(gè)詞語(yǔ)的注意力得分αi，計(jì)算如公式(12)所示：

(12)

令第i個(gè)文本特征詞語(yǔ)的向量表示hi與其注意力得分αi相乘，從而獲得該詞語(yǔ)新的特征向量.最后采用最大池化的思想獲取最顯著的跨境民族文化特征信息，計(jì)算如公式(13)所示：

(13)

對(duì)于輸入的文本來(lái)說(shuō)，通過(guò)注意力機(jī)制加權(quán)后可以得到該句子的向量形式表示C={c1，c2，…，cn}，其中C∈Rn×d為句子向量，d為句子向量的維度，n為文本數(shù)據(jù)的詞語(yǔ)數(shù)量.再經(jīng)過(guò)一個(gè)全連接層可以得到輸出為Y的一維向量，表示為Y=[y1，y2，…，yk]，其中k為類別數(shù)，yi為輸入的句子向量C屬于第i類的預(yù)測(cè)值，yi的計(jì)算方式如公式(14)所示：

yi=Wi·C+b

(14)

其中，Wi為該句子對(duì)應(yīng)類別i的權(quán)重矩陣，b為偏置值，表示為b=[b1，b2，…，bk].通過(guò)公式(14)得到y(tǒng)i后，再通過(guò)Softmax函數(shù)進(jìn)行歸一化處理，得到C屬于各個(gè)類別的概率值，公式如公式(15)所示:

p(y=j|C)=softmax(yj)

(15)

其中，公式(15)表示句子C屬于類別j的概率值.

2.8 模型訓(xùn)練及優(yōu)化策略

本文使用交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)，通過(guò)刻畫預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽之間的距離來(lái)判定這兩者的接近程度，也就是交叉熵越小，距離越近，預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽越相似.目標(biāo)函數(shù)定義如公式(16)所示：

(16)

其中，θ表示模型中的所有參數(shù)，初始值隨機(jī)；T代表句子集合數(shù)，本文使用Adam優(yōu)化器對(duì)參數(shù)進(jìn)行更新.

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文所使用的數(shù)據(jù)集包含兩部分：

1)跨境民族文化知識(shí)圖譜：其中包括了863個(gè)三元組，13個(gè)小類.其中知識(shí)三元組的具體格式是[“實(shí)體”，“關(guān)系”，“實(shí)體”]或者[“實(shí)體”，“屬性”，“屬性值”]，例如：知識(shí)三元組[“傣族”，“節(jié)日”，“潑水節(jié)”]和[“潑水節(jié)”，“時(shí)間”，“公歷4月13～15日”].

2)文本數(shù)據(jù)：利用已經(jīng)構(gòu)建好的跨境民族文化知識(shí)圖譜中的知識(shí)三元組與跨境民族文化文本進(jìn)行實(shí)體對(duì)齊所獲取的實(shí)驗(yàn)數(shù)據(jù).如果知識(shí)圖譜中三元組的頭實(shí)體和尾實(shí)體同時(shí)出現(xiàn)在跨境民族文化文本中，我們就把這個(gè)文本歸為實(shí)驗(yàn)所需的標(biāo)注數(shù)據(jù)，對(duì)于這些標(biāo)注好的數(shù)據(jù)則利用人工進(jìn)行校驗(yàn)，然后對(duì)每條數(shù)據(jù)打上類別標(biāo)簽.標(biāo)注數(shù)據(jù)的格式為：[標(biāo)簽->文本].本文實(shí)驗(yàn)從跨境民族文化領(lǐng)域文本集中抽取了40種類別共計(jì)46251條語(yǔ)料，4000條作為測(cè)試集，標(biāo)注的每條數(shù)據(jù)的平均長(zhǎng)度為67個(gè)字符，總共標(biāo)注的類別有40個(gè).每個(gè)類別的數(shù)據(jù)的數(shù)量為1110～1190條.而且本次實(shí)驗(yàn)中還加入了一些特殊的文本類別NA(NA：表示句子不屬于任何一個(gè)文本類別)，實(shí)驗(yàn)數(shù)據(jù)示例如表2所示.

表2 標(biāo)注數(shù)據(jù)樣例

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)過(guò)程中，通過(guò)不斷的調(diào)節(jié)實(shí)驗(yàn)參數(shù)，以確保模型在參數(shù)最優(yōu)的情況下進(jìn)行訓(xùn)練，具體的參數(shù)設(shè)置如表3所示.

表3 模型參數(shù)設(shè)置

3.3 實(shí)驗(yàn)評(píng)測(cè)指標(biāo)

本文為了證明實(shí)驗(yàn)的有效性，通過(guò)精確率(Precision)、召回率(Recall)和F_1值來(lái)對(duì)模型進(jìn)行評(píng)估.精確率、召回率和F_1值的計(jì)算方法如公式(17)-公式(19)所示.

(17)

(18)

(19)

其中，Right_num為預(yù)測(cè)正確的文本數(shù)量，Recognize_num為識(shí)別出的文本數(shù)量，All_num為此次測(cè)試的文本數(shù)量.由于本文的任務(wù)是做跨境民族文化文本分類任務(wù)，需要在保持高精確率的情況下有一個(gè)高召回率，所以F1越高代表模型的平衡性越好，分類效果越好.

3.4 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)1.不同方法實(shí)驗(yàn)結(jié)果對(duì)比

為了驗(yàn)證本文方法的有效性，在相同實(shí)驗(yàn)語(yǔ)料的情況下，設(shè)計(jì)了7組不同分類方法的對(duì)比實(shí)驗(yàn)進(jìn)行本文方法有效性的驗(yàn)證.其中，各個(gè)模型的實(shí)驗(yàn)數(shù)據(jù)完全一致，實(shí)驗(yàn)中使用領(lǐng)域分詞的方法對(duì)文本進(jìn)行預(yù)處理.

1)文獻(xiàn)[17]所提出的一種基于word-level級(jí)別的深層卷積神經(jīng)網(wǎng)絡(luò)模型DPCNN文本分類模型；

2)文獻(xiàn)[18]所提出的基于Attention_BiLSTM的神經(jīng)網(wǎng)絡(luò)文本分類方法；

3)文獻(xiàn)[19]提出的TextCNN文本分類經(jīng)典模型；

4)文獻(xiàn)[20]所提出的Transformer模型應(yīng)用于文本分類的方法；

5)文獻(xiàn)[21]提出的BiLSTM-CNN文本分類模型；

6)文獻(xiàn)[22]提出的FastText文本分類模型.實(shí)驗(yàn)結(jié)果如表3所示；

7)Baseline(Attention_BiGRU)：Attention是指注意力機(jī)制，這一機(jī)制已經(jīng)被廣泛應(yīng)用于多種領(lǐng)域，包括圖像標(biāo)題生成、文本分類、語(yǔ)音識(shí)別和機(jī)器翻譯[24].雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)可以看做雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)的一種拓展[23].

如表4所示，本文方法在跨境民族文化文本分類任務(wù)上的精確率和召回率方面都優(yōu)于本文的Baseline以及其他方法.

表4 與其它模型的分類效果對(duì)比

對(duì)于本文的Baseline方法Attention_BiGRU來(lái)說(shuō)，本文方法優(yōu)于它的原因是本文的詞向量表示使用的是BERT模型，所表示的每個(gè)詞語(yǔ)都帶有上下文語(yǔ)義信息，使特征更具有代表性.而B(niǎo)aseline方法的詞向量表示使用的是Word2vec模型，而且還沒(méi)有融入實(shí)體向量和對(duì)特征進(jìn)行加權(quán).所以本文方法優(yōu)于Baseline模型Attention_BiGRU.Transformer模型和BiLSTM-CNN模型的精確率優(yōu)于本文的模型，造成這種結(jié)果的原因是這兩個(gè)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)層數(shù)大于本文模型的網(wǎng)絡(luò)層數(shù).而對(duì)于網(wǎng)絡(luò)層數(shù)更深的DPCNN模型來(lái)說(shuō)，其結(jié)果不理想的原因是因?yàn)榫W(wǎng)絡(luò)模型單一，而且詞語(yǔ)級(jí)的輸入不能很好的對(duì)文本進(jìn)行表示.

實(shí)驗(yàn)2.不同詞向量表示方法對(duì)實(shí)驗(yàn)結(jié)果的影響

為了驗(yàn)證本文所使用的BERT預(yù)訓(xùn)練模型表示的文本詞向量對(duì)于分類任務(wù)的有效性.本文通過(guò)幾種不同的向量表征方式來(lái)對(duì)文本進(jìn)行表征，其中的詳細(xì)實(shí)驗(yàn)方式是分別利用Word2vec模型和Glove模型對(duì)文本進(jìn)行詞向量表示，并且與TransE模型的實(shí)體向量進(jìn)行融合，而其它保持不變進(jìn)行模型訓(xùn)練.實(shí)驗(yàn)結(jié)果如表4所示.

從表5可以看出，本文通過(guò)把BERT預(yù)訓(xùn)練模型所表示的文本詞向量和TransE模型所表示的實(shí)體向量進(jìn)行融合，在跨境民族文化文本分類任務(wù)上具有較好的性能.其根本原因在于BERT預(yù)訓(xùn)練模型對(duì)文本中的詞語(yǔ)進(jìn)行向量表示時(shí)，利用雙向Transformer對(duì)文本中的每個(gè)詞語(yǔ)進(jìn)行表示，充分考慮了文本的上下文語(yǔ)義信息；而Word2vec模型只考慮了詞語(yǔ)的局部信息，沒(méi)有考慮詞語(yǔ)與局部窗口之外詞的聯(lián)系；GloVe模型雖然彌補(bǔ)Word2vec模型的缺陷，考慮了詞語(yǔ)的整體信息，但還存在一個(gè)問(wèn)題，就是所表示的詞語(yǔ)在不同語(yǔ)境下的詞向量是相同的，沒(méi)有考慮語(yǔ)境的問(wèn)題；BERT模型對(duì)于上述問(wèn)題都進(jìn)行了綜合的考慮，即考慮了詞語(yǔ)的局部以及整體信息，又考慮了詞語(yǔ)在不同語(yǔ)境下的詞向量變化，能夠充分的對(duì)文本中的每個(gè)詞語(yǔ)進(jìn)行表示.

表5 不同詞向量方式對(duì)實(shí)驗(yàn)結(jié)果的影響

實(shí)驗(yàn)3.領(lǐng)域詞匯對(duì)實(shí)驗(yàn)結(jié)果的影響

由于本文需要通過(guò)融入領(lǐng)域?qū)嶓w來(lái)解決文本中實(shí)體特征存在歧義的問(wèn)題.本文通過(guò)領(lǐng)域分詞的方法來(lái)對(duì)文本進(jìn)行分詞處理，以此來(lái)保證文本中實(shí)體特征詞的完整性.所以本文分別采用通用分詞工具和領(lǐng)域分詞分詞實(shí)驗(yàn)對(duì)比，其中，通用分詞使用jieba分詞工具，領(lǐng)域分詞采用構(gòu)建的領(lǐng)域詞典+jieba分詞，實(shí)驗(yàn)結(jié)果如表5所示.

從表6可以看出，采用領(lǐng)域分詞的效果明顯高于直接使用jieba分詞的效果.本文中將跨境民族文化相關(guān)文本中由多個(gè)詞匯構(gòu)成的跨境民族文化特征詞匯作為領(lǐng)域詞匯來(lái)處理，如，“南傳上部座佛教”這個(gè)詞語(yǔ)在使用jieba分詞時(shí)可以分為“南傳”、“上部座”和“佛教”這3個(gè)獨(dú)立的詞語(yǔ)，而利用領(lǐng)域分詞就可以得到一個(gè)完整的詞語(yǔ).諸如此類的詞語(yǔ)還有很多，如：淺色大襟短衫、大襟小袖短衫.這些詞匯如果直接使用jieba分詞后將導(dǎo)致具有完整語(yǔ)義的設(shè)備缺陷特征拆開(kāi)后導(dǎo)致語(yǔ)義信息丟失，而作為領(lǐng)域詞匯利用BERT進(jìn)行詞向量表征后能夠有效獲取到跟跨境民族文化相關(guān)的詞匯的語(yǔ)義特征，更有利于通過(guò)Attention層進(jìn)行捕捉.

表6 領(lǐng)域分詞對(duì)實(shí)驗(yàn)結(jié)果的影響

實(shí)驗(yàn)4.不同實(shí)驗(yàn)參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

設(shè)置不同的參數(shù)迭代次數(shù)、批次大小以及隨機(jī)失活率進(jìn)行實(shí)驗(yàn)的結(jié)果如圖3-圖5所示，根據(jù)實(shí)驗(yàn)結(jié)果可知，設(shè)置epochs為20、Dropout為0.4以及Batch為32時(shí)，實(shí)驗(yàn)結(jié)果達(dá)到了最佳.

4 結(jié)束語(yǔ)

針對(duì)跨境民族文化標(biāo)簽類別存在歧義的問(wèn)題.本文提出了融合領(lǐng)域知識(shí)圖譜的跨境民族文化文本分類方法，該方法利用TransE知識(shí)表示模型得到文本中知識(shí)三元組，利用BERT預(yù)訓(xùn)練模型得到文本中每個(gè)詞語(yǔ)的向量表示，再通過(guò)BiGRU神提取文本的深層語(yǔ)義信息.實(shí)驗(yàn)表明，本文方法對(duì)于特定領(lǐng)域的文本分類任務(wù)有著良好的效果.在未來(lái)的工作中將進(jìn)一步的解決向量的表征問(wèn)題和提升文本特征的質(zhì)量，使模型的抽取效果進(jìn)一步的提升.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡