王澤輝 徐萬通 鄭藝葦 林嘉儀 周伏倪 李世中
摘要:旅游業(yè)是許多國家和地區(qū)的重要支柱產(chǎn)業(yè)之一,對促進經(jīng)濟增長和就業(yè)起到關(guān)鍵作用。其次,旅游是人們之間交流和相互了解的重要途徑,有助于促進不同地域、民族和文化之間的交流與融合。因此,文章采用BERT-BiGRU-CRF命名實體識別模型和BERT-TextCNN文本分類模型,對旅游領(lǐng)域文本數(shù)據(jù)進行了知識抽取。其中,BERT-BiGRU-CRF在旅游實體數(shù)據(jù)集上的F1值達到了90.69%,BERT-TextCNN在旅游分類數(shù)據(jù)集上的F1值達到了92.51%,實驗效果良好。文章提出的知識抽取方案為旅游領(lǐng)域的知識抽取提供了新方向,同時為基于該領(lǐng)域知識圖譜的知識問答、知識檢索等應(yīng)用提供了幫助。
關(guān)鍵詞:旅游領(lǐng)域;知識抽取;命名實體識別;文本分類
中圖分類號:TP81 文獻標識碼:A
文章編號:1009-3044(2024)13-0042-03 開放科學(xué)(資源服務(wù))標識碼(OSID) :
0 引言
旅游業(yè)是國家和地區(qū)的產(chǎn)業(yè),能夠創(chuàng)造就業(yè)機會、促進貨物和服務(wù)的流通、推動地方經(jīng)濟的發(fā)展[1]。還能夠促進文化傳承和保護,許多旅游目的地擁有豐富的歷史文化遺產(chǎn),通過旅游活動,可以促進這些文化資源的傳承和保護,提高人們對文化遺產(chǎn)的認識和重視。
知識圖譜是一種用于表示知識的圖形化結(jié)構(gòu)[2],它以實體和實體之間的關(guān)系為基礎(chǔ),將現(xiàn)實世界中的信息進行抽象和組織,形成一種圖形化的知識表達方式。知識圖譜的核心思想是將知識以圖的形式進行建模,從而幫助計算機系統(tǒng)理解和處理復(fù)雜的語義關(guān)系。一個知識圖譜通常由節(jié)點和邊組成。節(jié)點代表現(xiàn)實世界中的實體,邊則表示節(jié)點之間的關(guān)系。知識圖譜的構(gòu)建通常依賴于多種信息源,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文本等[3]。構(gòu)建知識圖譜的過程包括數(shù)據(jù)抽取、實體識別、關(guān)系抽取、知識表示等多個步驟。
構(gòu)建旅游旅游知識圖譜,可以將豐富多彩的旅游資源進行整合和展示,包括景點名稱、地理位置、特色景觀、歷史文化等,其次有助于傳承和宣傳歷史文化和民族風情,促進地方經(jīng)濟發(fā)展、文化傳承和社會進步。
1 相關(guān)理論與技術(shù)
1.1 BERT-BiGRU-CRF 模型
構(gòu)建知識圖譜需要對非結(jié)構(gòu)化文本數(shù)據(jù)進行實體抽取,本文選擇了BERT-BiGRU-CRF模型,如圖1 所示:
首先,BERT作為底層模型,負責學(xué)習(xí)句子中每個詞的上下文語義表示。然后,BiGRU模型用于進一步處理詞語序列,通過雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),能夠有效地捕捉序列數(shù)據(jù)的上下文信息。BiGRU模型從兩個方向(左到右和右到左)掃描輸入序列,然后將兩個方向的隱藏狀態(tài)進行拼接,提供更全面的信息。最后,CRF模型用于對BiGRU輸出的特征序列進行標簽預(yù)測,利用標簽之間的轉(zhuǎn)移概率建模序列標注任務(wù)中的約束關(guān)系,從而得到最終的命名實體識別結(jié)果。
1) BERT模型。BERT[4]是由Google于2018年提出的一種基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型。相較于之前的語言模型,BERT的主要創(chuàng)新在于引入了雙向性,即同時考慮了上下文左右兩側(cè)的信息。BERT模型的預(yù)訓(xùn)練過程包括兩個任務(wù)[5]:Masked Language Model(MLM) 和Next Sentence Prediction(NSP) 。在MLM任務(wù)中,輸入序列中的一部分詞會被隨機地mask掉,模型需要預(yù)測這些被mask的詞。而在NSP任務(wù)中,模型需要判斷兩個句子是否相鄰。這樣的預(yù)訓(xùn)練任務(wù)設(shè)計使得BERT能夠?qū)W習(xí)到更豐富的句子表示,從而在各種自然語言處理任務(wù)中取得了非常好的效果。
2) BiGRU模型。GRU是一種循環(huán)神經(jīng)網(wǎng)絡(luò)的變體[6],具有門控機制,有助于克服傳統(tǒng)RNN中的梯度消失問題。GRU包含更新門和重置門,它們決定了當前時間步的輸入是否被更新到隱藏狀態(tài)中,從而控制了信息的流動。相比于傳統(tǒng)的RNN結(jié)構(gòu),GRU更容易訓(xùn)練,參數(shù)數(shù)量也更少。更新門和重置門的計算公式如下:
zt=σ(Wz?[ht?1,xt]+bz )
rt=σ(Wr?[ht?1,xt]+br )
更新后的候選隱藏狀態(tài)的計算公式如下:
H=tanh(W?[rt×ht?1,xt]+b)
BiGRU是一種雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由兩個方向的GRU組成,分別從左到右和從右到左地掃描輸入序列,然后將兩個方向的隱藏狀態(tài)進行拼接或合并,以捕獲序列數(shù)據(jù)中的上下文信息。BiGRU結(jié)構(gòu)通過同時考慮序列數(shù)據(jù)的前后信息,能夠更好地捕獲序列數(shù)據(jù)中的依賴關(guān)系和語義信息。它不僅能夠利用當前時間步之前的信息,還能夠利用當前時間步之后的信息,從而提供更全面的上下文信息。
3) CRF。CRF[7]是一種概率圖模型,常用于序列標注任務(wù),如命名實體識別、詞性標注等。在CRF中,假設(shè)給定輸入序列和輸出序列,CRF通過定義一組特征函數(shù)來建模輸入序列和標簽序列之間的關(guān)系。這些特征函數(shù)衡量了輸入序列和標簽序列之間的對應(yīng)關(guān)系以及相鄰標簽之間的轉(zhuǎn)移概率。CRF模型的核心是學(xué)習(xí)條件概率分布,即給定輸入序列,預(yù)測輸出序列的概率分布。模型參數(shù)通過最大化對數(shù)似然函數(shù)進行學(xué)習(xí),通常采用隨機梯度下降等優(yōu)化算法進行參數(shù)估計。CRF模型能夠有效地捕捉序列數(shù)據(jù)中的依賴關(guān)系,提高模型在序列標注任務(wù)中的性能。CRF模型的條件概率分布可以通過以下公式表示:
1.2 BERT-TextCNN 模型
對文本數(shù)據(jù)識別出實體信息后,還需確定兩個實體之間的關(guān)系,才能轉(zhuǎn)換為三元組數(shù)據(jù)進行存儲。本文選擇了BERT-TextCNN模型來實現(xiàn)實體間的關(guān)系分類,如圖2所示。
首先,BERT用于學(xué)習(xí)文本中每個詞的上下文語義表示。接下來,TextCNN 用于進一步處理文本特征,通過卷積和池化操作對文本進行特征提取和壓縮。TextCNN利用卷積神經(jīng)網(wǎng)絡(luò)的局部感知能力,能夠有效地捕捉文本中的局部特征。最后,將輸出向量傳入全連接層進行分類預(yù)測。
1) TextCNN。TextCNN[8]是一種用于文本分類任務(wù)的深度學(xué)習(xí)模型。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)或者長短期記憶網(wǎng)絡(luò)相比[9],TextCNN能夠更好地捕捉文本中的局部特征,從而在文本分類任務(wù)中取得了良好的性能。TextCNN的核心思想是將文本表示為固定長度的向量,并通過卷積和池化操作對文本進行特征提取和壓縮。卷積層通過多個卷積核對詞向量序列進行卷積操作,以捕捉不同長度的局部特征。每個卷積核對輸入進行一維卷積操作,產(chǎn)生一個特征圖。池化層對每個特征圖進行池化操作,通常采用最大池化操作來壓縮特征圖的維度,保留最顯著的特征。
2) 全連接層。全連接層[10],也稱為密集連接層或者仿射層,是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中常見的一種層類型。在全連接層中,每個神經(jīng)元都與上一層的所有神經(jīng)元相連,每個連接都有一個權(quán)重參數(shù)。因此,全連接層中的每個神經(jīng)元都接收上一層所有神經(jīng)元的輸入,并輸出給下一層所有神經(jīng)元。全連接層通常用于網(wǎng)絡(luò)的最后幾層,用于將前面層提取的特征進行組合和整合,從而得到最終的輸出。在分類任務(wù)中,全連接層的最后一層通常使用softmax激活函數(shù),將模型的輸出轉(zhuǎn)換為類別的概率分布。全連接層的輸出計算可以用以下數(shù)學(xué)公式表示:
z=Wx+b
式中,x 為輸入向量,W 為權(quán)重矩陣,b 為偏置向量,z 為全連接層的輸出。
3) Softmax層。Softmax函數(shù)是一種常用的激活函數(shù),主要用于多分類問題中的輸出層。它將輸入的原始分數(shù)轉(zhuǎn)換成每個類別的概率值。Softmax函數(shù)對每個原始分數(shù)進行指數(shù)化,并將結(jié)果歸一化,使得輸出的概率之和等于1。這樣的輸出可以被解釋為每個類別的置信度或概率。Softmax計算公式如下:
2 實驗設(shè)置
2.1 實驗參數(shù)設(shè)置
本文的實驗基于TensorFlow平臺搭建,實驗環(huán)境配置如表1所示:
BERT-BiGRU-CRF命名實體識別模型參數(shù)設(shè)置如下:batch_size 設(shè)置為32,gru_units 設(shè)置為128,drop_rate設(shè)置為0.5,learn_rate設(shè)置為0.0001,共訓(xùn)練20個epoch。
Bert-TextCNN文本分類模型參數(shù)設(shè)置如下:優(yōu)化器選擇Adam,卷積核設(shè)置為(3,4,5) ,drop_rate設(shè)置為0.5,共訓(xùn)練20個epoch。
2.2 實驗結(jié)果分析
為了比較各模型在旅游領(lǐng)域命名實體識別和文本分類上的表現(xiàn),本文使用準確率、召回率和F1值衡量不同模型的性能,實驗結(jié)果如表2和表3所示:
從表2可以看出,BERT-BiGRU-CRF模型相較于傳統(tǒng)的BiGRU-CRF和BERT-CRF模型,在F1值上取得了3.61% 和2.11% 的提升,說明結(jié)合了BERT預(yù)訓(xùn)練的語義表示和BiGRU-CRF模型的序列標注能力,在命名實體識別任務(wù)中取得了顯著的性能提升。BERT 模型能夠?qū)W習(xí)到豐富的語義信息,通過預(yù)訓(xùn)練的方式在大規(guī)模文本語料上學(xué)習(xí)詞語之間的語義關(guān)系,能夠更好地捕捉詞語的上下文信息。而BiGRU-CRF模型則能夠有效地捕捉序列數(shù)據(jù)中的依賴關(guān)系,并通過條件隨機場模型進行序列標注,具有良好的序列標注能力。結(jié)合BERT的語義表示和BiGRU-CRF模型的序列標注能力,BERT-BiGRU-CRF 模型能夠更全面地利用文本中的語義和序列信息,從而取得了較大的性能提升。
從表3可以看出,BERT-TextCNN模型相較于傳統(tǒng)的TextCNN和BERT模型,在F1值上取得了4.71%和3.12% 的提升,說明結(jié)合了BERT 的語義表示和TextCNN模型的特征提取能力,能夠在文本分類任務(wù)中取得顯著的性能提升。BERT模型能夠?qū)W習(xí)到豐富的文本語義信息,而TextCNN模型則通過卷積和池化操作對文本進行特征提取和壓縮,能夠有效地捕捉文本的局部特征。結(jié)合BERT的語義表示和TextCNN模型的特征提取能力,BERT-TextCNN模型能夠更全面地利用文本中的語義和局部特征信息,在文本分類任務(wù)中更準確地判斷文本的類別。
3 結(jié)束語
在基于深度學(xué)習(xí)的旅游領(lǐng)域知識抽取研究中,通過本文所提出的BERT-BiGRU-CRF命名實體識別模型、BERT-TextCNN文本分類模型,我們成功地實現(xiàn)了對旅游領(lǐng)域相關(guān)知識的自動化抽取。通過深度學(xué)習(xí)技術(shù),我們能夠更準確、更高效地從海量的旅游文本數(shù)據(jù)中提取出有用的信息,為旅游業(yè)的發(fā)展和決策提供了有力支持。未來會進一步改進模型的性能和泛化能力,提高知識抽取的準確度和效率,同時結(jié)合領(lǐng)域知識和人類專家經(jīng)驗,進一步優(yōu)化模型的設(shè)計和訓(xùn)練過程,探索多模態(tài)數(shù)據(jù)融合的方法,提升知識抽取的綜合能力和應(yīng)用效果。
參考文獻:
[1]林婷,孫妍,易敏,等.“互聯(lián)網(wǎng)+”時代智慧旅游發(fā)展及盈利模式探索[J]. 商展經(jīng)濟,2024(5):31-34.
[2] 趙卓,田侃,張殊,等. 面向智慧文博的知識圖譜構(gòu)建綜述[J].軟件導(dǎo)刊,2022,21(5):1-8.
[3] 張吉祥,張祥森,武長旭,等. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計算機工程,2022,48(3):23-37.
[4] DEVLIN J,CHANG M W,LEE K,et al. BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL]. arXiv preprint arXiv:1810. 04805, 2018.
[5] 宋璐璐. 基于知識圖譜的水稻病蟲害問答系統(tǒng)的設(shè)計與實現(xiàn)[D]. 雅安:四川農(nóng)業(yè)大學(xué),2023.
[6] 翟文鵬,宋一嶠,張兆寧. 基于Transformer-GRU網(wǎng)絡(luò)的4D航跡預(yù)測[J/OL]. 重慶交通大學(xué)學(xué)報(自然科學(xué)版),1-7[2024-03-27].
[7] LAFFERTY J D,MCCALLUM A,PEREIRA F C N. Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning. ACM,2001:282–289.
[8] 鄒旺,張吳波. 基于BERT-TextCNN 的汽車評論情感分析[J]. 天津理工大學(xué)學(xué)報,2024,40(1):101-108.
[9] SUNDERMEYER M,SCHL?TER R,NEY H. LSTM neural net?works for language modeling[C]//Interspeech 2012. ISCA:ISCA,2012:194-197.
[10] 張靜,高子信,丁偉杰.基于BERT-DPCNN的警情文本分類研究[J/OL].數(shù)據(jù)分析與知識發(fā)現(xiàn),1-15[2024-03-27].
【通聯(lián)編輯:唐一東】
基金項目:大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目:高原地區(qū)車內(nèi)智能化檢測供氧換氣裝置 (S202310694017) ;大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目“: 主動式”道路智能交互系統(tǒng)的研發(fā)(2024XCX015)