鞏一璞 王小偉 王濟民 王順仁
內(nèi)容摘要:命名實體識別是自然語言處理基礎(chǔ)任務(wù)之一。針對“數(shù)字敦煌”項目應(yīng)用命名實體識別技術(shù)存在的實體邊界難以確定等問題,通過構(gòu)建小規(guī)模敦煌石窟專有名詞數(shù)據(jù)集,對基于BERT-BiLSTM-CRF的命名實體識別基本方法,和基于Multi-digraph的詞匯增強方法進行了實驗對比,結(jié)果表明基本方法已具備較高的識別準(zhǔn)確率,而基于詞匯增強的方法對未登錄詞識別效果提升顯著。最后將訓(xùn)練得到的模型應(yīng)用于“數(shù)字敦煌”資源庫命名實體識別任務(wù),證明了方法的有效性。
關(guān)鍵詞:命名實體識別;BERT;LSTM;詞匯增強;數(shù)字敦煌
中圖分類號:K854.3? 文獻標(biāo)識碼:A? 文章編號:1000-4106(2022)02-0149-10
Practical Research of? NER Technology in the “Digital Dunhuang” Project
GONG Yipu1,2,3,4 WANG Xiaowei1,2,3,4 WANG Jimin5 WANG Shunren1,2,3,4
(1. Dunhuang Academy, Dunhuang, Gansu 736200;
2. National Research Center for Conservation of Ancient Wall Paintings and Earthen Sites, Dunhuang, Gansu 736200;
3. Key Scientific Research Base for Conservation of Ancient Wall Paintings of NCHA, Dunhuang, Gansu 736200;
4. Research Center for Conservation of Cultural Relics of Dunhuang, Dunhuang, Gansu 736200;
5. Swiss Federal Institute of Technology in Lausanne, CH-1015 Lausanne, Swiss)
Abstract:Named Entity Recognition(NER) is one of the basic tasks of NLP studies(Natural Language Processing). The purpose of this study is to determine the entity boundaries in the NER tasks of the“Digital Dunhuang” project, and to construct a small-scale proper noun dataset for terms relevant to Dunhuang. By comparing the basic methods of NER, which are based on the BERT-BiLSTM-CRF model, with a vocabulary enhancement methodology based on a multi-digraph model, research shows that the basic NER strategy achieves an acceptable recall score, while the method based on vocabulary enhancement provides a noticeable improvement to the recognition of unlogged vocabulary words. Finally, after a period of training the model was applied to the “Digital Dunhuang” NER task and proved to be a highly effective methodology.
Keywords:NER; BERT; LSTM; vocabulary enhancement; Digital Dunhuang
一 引 言
敦煌石窟內(nèi)容博大精深,具有豐富的歷史、藝術(shù)、科學(xué)、社會、文化價值。當(dāng)前,隨著數(shù)字人文研究的興起,將新技術(shù)融入敦煌學(xué)研究已成為一個熱點。命名實體識別作為自然語言處理基礎(chǔ)任務(wù)之一,是指利用計算機程序?qū)ξ谋局谐霈F(xiàn)的人名、地名、機構(gòu)名以及專有名詞術(shù)語進行自動識別并分類,是信息抽取的重要環(huán)節(jié)[1]。針對敦煌石窟保護、研究工作積累的海量數(shù)字化文獻資源開展命名實體識別技術(shù)研究,一方面可用于各類文本內(nèi)容的關(guān)鍵詞提取和結(jié)構(gòu)化處理,實現(xiàn)文本數(shù)據(jù)的分析挖掘;另一方面,也可用于“數(shù)字敦煌”項目實體鏈接、智能檢索、個性化推薦、知識圖譜等服務(wù),通過知識重構(gòu)進一步提升檢索能力;此外,將命名實體識別技術(shù)與敦煌壁畫數(shù)字化圖像相結(jié)合,通過跨媒體計算,開展圖像語義理解研究,可以實現(xiàn)對敦煌壁畫內(nèi)容的自動描述,從而進一步挖掘壁畫價值。因此,開展命名實體識別技術(shù)在敦煌石窟的應(yīng)用研究具有重要意義。
當(dāng)前,在通用命名實體識別領(lǐng)域,采用純數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法,從大規(guī)模公開語料中學(xué)習(xí)文本語義信息,已經(jīng)取得了較好的識別效果[2-4]。然而在數(shù)字人文領(lǐng)域,相關(guān)研究依然較少。哈佛大學(xué)利用文本挖掘技術(shù)構(gòu)建了中國歷代人物傳記資料庫[5],武漢大學(xué)采用人機協(xié)同的方式構(gòu)建了敦煌壁畫主題詞表[6],上海圖書館利用命名實體識別技術(shù)挖掘館藏數(shù)字化資源[7],但這些成果多數(shù)采用基于規(guī)則匹配的方法或面向通用領(lǐng)域的自然語言處理工具,對于一些專業(yè)詞匯分詞準(zhǔn)確率不高,需要人工進行審核。近年來,針對古漢語、少數(shù)民族語言等領(lǐng)域,有學(xué)者通過構(gòu)建專用數(shù)據(jù)集,開展了基于深度學(xué)習(xí)的命名實體識別模型研究,也取得了一些研究成果[8-13]。但是,總體來看,缺乏開放共享的專業(yè)語料庫,依然是制約數(shù)字人文領(lǐng)域命名實體識別研究的主要因素。
與通用命名實體識別工作相比,數(shù)字人文等特定領(lǐng)域命名實體識別,因行業(yè)數(shù)據(jù)準(zhǔn)備不充分,主要存在實體邊界難以確定、未登錄詞識別困難等兩方面的問題。針對中文實體邊界的確定,通用命名實體識別方法可通過中文分詞工具或公開語料訓(xùn)練得到較為準(zhǔn)確的詞語邊界識別模型,但是在特定領(lǐng)域,由于待識別實體往往就是領(lǐng)域內(nèi)的專有名詞術(shù)語,所以僅使用公開數(shù)據(jù)集以及通用方法很難準(zhǔn)確界定詞語邊界。另一方面,針對特定領(lǐng)域的未登錄詞或不斷出現(xiàn)的新詞,已有模型并未學(xué)習(xí)過此類詞匯的特征,因此也很難正確識別。對于以考古、宗教、歷史、文保等題材為主的敦煌石窟研究文獻和出版物而言,其涵蓋領(lǐng)域?qū)S忻~類別龐雜、數(shù)量眾多,但由于缺乏相關(guān)研究,目前還未形成統(tǒng)一的語料標(biāo)注規(guī)范以及標(biāo)準(zhǔn)的命名實體識別數(shù)據(jù)集。如果對這些文本數(shù)據(jù)僅使用通用命名實體識別工具進行識別,很難取得理想效果。
針對上述問題,本文通過文獻調(diào)研分析,選擇BERT-BiLSTM-CRF模型作為命名實體識別基本方法,同時考慮到敦煌學(xué)研究領(lǐng)域已經(jīng)形成《敦煌學(xué)大辭典》等權(quán)威著作,因此選擇基于Multi-digraph的詞匯增強方法作為對比模型,驗證二者在敦煌石窟命名實體識別任務(wù)中的實際效果。文章首先構(gòu)建了一個小規(guī)模的敦煌石窟專有名詞數(shù)據(jù)集作為訓(xùn)練語料,并對兩種方法的選型依據(jù)及工作原理做了介紹;之后利用本文數(shù)據(jù)集將兩種模型從多個維度進行了實驗對比,驗證了本文方法在敦煌石窟命名實體識別任務(wù)中的適用性及有效性;最后將上述方法在“數(shù)字敦煌”資源庫中進行了實際應(yīng)用,結(jié)果表明本文方法有效擴充了“數(shù)字敦煌”資源庫實體鏈接覆蓋范圍,通過洞窟文字內(nèi)容的結(jié)構(gòu)化呈現(xiàn),提升了系統(tǒng)檢索能力。
二 相關(guān)工作
命名實體識別遵循自然語言處理技術(shù)變遷歷程,從早期基于“詞典+規(guī)則”的方法過渡到統(tǒng)計機器學(xué)習(xí)模型,當(dāng)前處于神經(jīng)網(wǎng)絡(luò)模型階段。這一階段的發(fā)展主要得益于互聯(lián)網(wǎng)上不斷豐富的大數(shù)據(jù)資源以及詞向量模型的提出。詞向量是表達單詞含義的低維向量,傳統(tǒng)機器學(xué)習(xí)方法依賴人工選擇特征構(gòu)建特征向量,存在高維向量數(shù)據(jù)稀疏以及特征包含語義信息不完整等情況。使用詞向量技術(shù)不僅可以解決以上問題,而且從異構(gòu)文本中也可獲取統(tǒng)一向量空間下的特征表示,因此相比傳統(tǒng)特征構(gòu)建方法更具優(yōu)勢。2013年,Google團隊提出了Word2vec詞向量計算工具,實現(xiàn)了對不同詞間相似和類比關(guān)系的向量表達[14]。將詞向量作為文本特征,利用RNN、CNN等深度神經(jīng)網(wǎng)絡(luò)進行命名實體識別,是當(dāng)前的基本方法。由于傳統(tǒng)RNN模型存在梯度消失和爆炸等問題,于是產(chǎn)生了以LSTM[15]為代表的RNN變體,有效解決了RNN缺陷。使用雙向LSTM網(wǎng)絡(luò)來建模上下文語義,在此基礎(chǔ)上使用CRF網(wǎng)絡(luò)建模標(biāo)簽序列,二者結(jié)合在命名實體識別任務(wù)中取得了較好效果[2],得到了廣泛應(yīng)用。
傳統(tǒng)詞向量模型雖然解決了詞的語義表達問題,但由于上下文無關(guān),因此無法實現(xiàn)多義詞的動態(tài)表征。2018年華盛頓大學(xué)提出的ELMo模型使用一個雙向LSTM網(wǎng)絡(luò)預(yù)訓(xùn)練獲得上下文相關(guān)的語義表示,實現(xiàn)了對詞的復(fù)雜特征以及多義詞的建模[16]。之后OpenAI提出GPT預(yù)訓(xùn)練模型,使用Transformer解碼器代替LSTM更好地捕獲了長距離語言結(jié)構(gòu),有效提升了模型能力[17]。Google公司基于上述研究提出了BERT預(yù)訓(xùn)練模型,該模型使用雙向Transformer編碼器作為網(wǎng)絡(luò)結(jié)構(gòu),同時提出掩碼語言模型和預(yù)測下一句兩個新的無監(jiān)督學(xué)習(xí)任務(wù),通過在海量語料中訓(xùn)練,實現(xiàn)了更好的上下文語義建模,最終在11個自然語言處理任務(wù)中取得了當(dāng)時最好成績[3]。
BERT等預(yù)訓(xùn)練模型實現(xiàn)了詞的動態(tài)語義表達,但是,針對中文特定領(lǐng)域面臨的問題,還需要對相關(guān)方法做進一步提升。一種思路是使用特定領(lǐng)域大量無標(biāo)注語料資源預(yù)訓(xùn)練BERT等語言模型,之后針對下游具體任務(wù)設(shè)計特定神經(jīng)網(wǎng)絡(luò)并使用少量標(biāo)注數(shù)據(jù)對模型進行微調(diào),實現(xiàn)更好的識別效果[18]。但是,該方法需要極高的數(shù)據(jù)量和算力做支撐,阻礙了其在特定領(lǐng)域的應(yīng)用。另一種思路是在神經(jīng)網(wǎng)絡(luò)模型中加入詞典等人工特征,利用外部知識增強模型對詞語邊界及未登錄詞的識別能力??紤]到中文特定領(lǐng)域通常擁有較為權(quán)威的行業(yè)詞典等資源,因此,詞匯增強的命名實體識別方法更為實用。
近年來,詞匯增強的命名實體識別方法主要有動態(tài)模型設(shè)計和編碼層詞匯嵌入兩個研究方向。其中, Lattice LSTM[19]、LR-CNN[20]、CGN[21]等方法通過設(shè)計動態(tài)模型融入詞匯信息,有效提升了命名實體識別準(zhǔn)確率,但普遍存在計算復(fù)雜度較高或可遷移性差等問題。與上述方法不同,編碼層嵌入是指以字向量嵌入為基礎(chǔ),同時通過不同方法嵌入外部詞匯信息,然后接入通用序列標(biāo)注模型,實現(xiàn)詞匯增強效果,如WC-LSTM[22]、Multi-digraph[23]等方法。其中,WC-LSTM方法存在詞典信息缺失問題,Multi-digraph方法使用一種有向多圖數(shù)據(jù)結(jié)構(gòu)來捕獲詞典增強信息,同時使用上下文對來自不同詞典的信息進行加權(quán)融合,解決了詞典匹配沖突的問題。
基于上述分析,當(dāng)前深度神經(jīng)網(wǎng)絡(luò)與動態(tài)詞向量技術(shù)相結(jié)合是命名實體識別建模的主流方案,與此同時,詞匯增強的命名實體識別方法也可以有效提升模型準(zhǔn)確率。但上述技術(shù)在敦煌石窟是否適用,能否在實際業(yè)務(wù)數(shù)據(jù)上取得較好的識別效果,還有待進一步的實踐檢驗。
三 數(shù)據(jù)和方法
1. 研究數(shù)據(jù)
(1)數(shù)據(jù)來源
本文選取敦煌石窟公共網(wǎng)發(fā)布的莫高窟、榆林窟等文化遺產(chǎn)中54個洞窟的內(nèi)容介紹作為實驗語料,共計46211字,對其中專業(yè)領(lǐng)域命名實體進行人工標(biāo)注,構(gòu)建訓(xùn)練數(shù)據(jù)集。
此外,本文將探索詞匯增強的方法對敦煌石窟命名實體識別任務(wù)的提升效果,選擇《敦煌學(xué)大辭典》作為詞匯數(shù)據(jù)來源,共計5858個詞條。
(2)實體類別
敦煌學(xué)作為一門綜合性學(xué)科,相關(guān)文獻資料中通常包含宗教、歷史、藝術(shù)、考古、建筑等多個領(lǐng)域的專業(yè)詞匯,因此,在數(shù)據(jù)集標(biāo)注時,對于實體邊界和實體類別的定義,需要邀請領(lǐng)域?qū)<疫M行專題研究,制定相關(guān)分類規(guī)范??紤]到本文側(cè)重于命名實體識別技術(shù)在敦煌石窟的適用性研究,因此,本文通過對待標(biāo)注文本內(nèi)容分析,僅將語料中的命名實體簡單劃分為三個類別,分別是“歷史朝代”“人物稱謂”和“專有名詞”。三者對應(yīng)文本類別標(biāo)簽分別定義為“TIME”“PER”和“PRO”。
歷史朝代:包括洞窟開鑿年代、歷史事件發(fā)生時期等時間名詞。這類名詞通常表述形式豐富,導(dǎo)致實體邊界較難確定。例如“前秦苻堅建元二年”中既包含朝代,同時還有君主名稱以及年號等信息,但總體上還是指一個特定歷史時期,因此本文將類似情況總體標(biāo)注為“歷史朝代”。
人物稱謂:包括各類宗教人物及形象的稱謂、歷史人物名稱、敦煌學(xué)相關(guān)人物名稱等,例如“羅睺羅”“須阇提”。這類名詞多來源于梵語或史書記載,較為生僻,同時部分無標(biāo)準(zhǔn)譯名,不同文獻可能存在多種漢字表達,通用命名實體識別方法很難準(zhǔn)確識別,本文將這類名詞統(tǒng)一標(biāo)注為“人物稱謂”。
專有名詞:該類別包含內(nèi)容較為豐富,既有壁畫內(nèi)容描述,如“兜率天宮”“忉利天”等,又有壁畫名稱如“維摩詰經(jīng)變”“勞度叉斗圣變”,此外,對于洞窟形制描述也歸于此類,如“覆斗頂”“中心塔柱”等。由于這類名詞多為各領(lǐng)域?qū)I(yè)詞匯,較為晦澀,且表述形式多樣,存在詞邊界確定以及未登錄詞識別困難問題,因此將這類術(shù)語統(tǒng)一標(biāo)注為“專有名詞”。
(3)實體標(biāo)注
命名實體識別屬于序列標(biāo)注任務(wù),常用序列標(biāo)注方式有BIO和BIOES兩種,二者形式相近,本文選擇BIOES標(biāo)注方案。具體標(biāo)注類別及實體標(biāo)簽如表1所示。
在對命名實體進行標(biāo)注之前,首先對原始文本進行預(yù)處理。根據(jù)原始文本句子長度分布統(tǒng)計,將全部訓(xùn)練語料切分為911個句子,每個句子占一行,最大長度為128字。之后根據(jù)實體類別定義對語料集進行人工標(biāo)注,標(biāo)注完成后,對數(shù)據(jù)格式進行調(diào)整,以滿足模型輸入要求。最終敦煌石窟命名實體識別數(shù)據(jù)集中標(biāo)注“歷史朝代”實體537條,“人物稱謂”實體370條,“專有名詞”實體4266條。
(4)數(shù)據(jù)集劃分
為了滿足實驗要求,將標(biāo)注完成的數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,三者分別占全部標(biāo)注數(shù)據(jù)的65%、17.5%和17.5%。其中,根據(jù)測試集中標(biāo)簽在訓(xùn)練集中出現(xiàn)的比例,設(shè)計細(xì)分了“測試集—高”和“測試集—低”兩個不同的集合,分別對應(yīng)測試集中75%的標(biāo)簽出現(xiàn)在訓(xùn)練集中和測試集中10%以下的標(biāo)簽出現(xiàn)在訓(xùn)練集中,用于檢測模型對未登錄詞的識別效果。
(5)詞典構(gòu)建
針對本文詞匯增強方法,對《敦煌學(xué)大辭典》收錄詞條進行處理,構(gòu)建實體詞典。為了與本文構(gòu)建數(shù)據(jù)集相匹配,對《敦煌學(xué)大辭典》中部分詞條進一步人工分詞,然后將全部詞條按“歷史朝代”、“人物稱謂”和“專有名詞”三類進行劃分,同時從互聯(lián)網(wǎng)檢索補充部分“歷史朝代”數(shù)據(jù),最終得到“歷史朝代”詞條60個,“人物稱謂”詞條932個,“專有名詞”詞條5686個,作為基礎(chǔ)詞典。此外,為了檢驗詞典準(zhǔn)確性對模型效果的影響,將本文數(shù)據(jù)集中全部標(biāo)注實體按照實體類別構(gòu)建精簡詞典,該詞典僅包含出現(xiàn)在數(shù)據(jù)集中的實體,其中“歷史朝代”詞條95個,“人物稱謂”詞條76個,“專有名詞”詞條1169個。同時,將各標(biāo)注實體擴充至對應(yīng)基礎(chǔ)詞典,構(gòu)成擴充詞典,該詞典中包含所有來自《敦煌學(xué)大辭典》的實體以及所有出現(xiàn)在本文數(shù)據(jù)集中的實體,擴充后“歷史朝代”詞條95個,“人物稱謂”詞條954個,“專有名詞”詞條5794個。
2. 基于BERT-BiLSTM-CRF的基本方法
當(dāng)前主流基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別模型包括字符編碼層、序列建模層和標(biāo)簽預(yù)測層。本節(jié)針對每一層擇優(yōu)選擇技術(shù)方案,構(gòu)建基于BERT-BiLSTM-CRF的敦煌石窟命名實體識別基本方法。
字符編碼層:主要是將句子中的每個字符或詞語映射到一個固定維度的稠密向量空間。對于中文特定領(lǐng)域命名實體識別任務(wù),由于采用詞語級向量編碼存在中文分詞錯誤傳播問題,因此本文采用基于字符級別的向量編碼作為基本輸入特征。在字符級向量技術(shù)選型方面,動態(tài)詞向量技術(shù)可以根據(jù)上下文語境實現(xiàn)多義詞的動態(tài)表征,因此本文選擇BERT預(yù)訓(xùn)練模型作為文本向量化方案。
序列建模層:經(jīng)過字符編碼層輸出的字級別特征向量序列直接傳入序列建模層,學(xué)習(xí)句子級別語義及結(jié)構(gòu)信息。LSTM神經(jīng)網(wǎng)絡(luò)可以通過門控機制保證時序信息的長距離傳播,是一種經(jīng)典的序列建模模型[2]。因此本文采用主流BiLSTM作為序列建模層網(wǎng)絡(luò)結(jié)構(gòu),對于輸入序列中當(dāng)前位置字符,分別通過正反向LSTM網(wǎng)絡(luò)輸出雙向隱藏狀態(tài),然后將兩個隱藏狀態(tài)向量連接,即可提取到當(dāng)前字符的上下文語義及結(jié)構(gòu)信息。
標(biāo)簽預(yù)測層:序列建模層能夠為標(biāo)簽預(yù)測提供足夠的上下文信息,但卻無法建模標(biāo)簽之間的依賴關(guān)系,為此,通常在標(biāo)簽預(yù)測層使用CRF對網(wǎng)絡(luò)進行優(yōu)化。CRF能夠計算標(biāo)簽間的轉(zhuǎn)移概率并輸出全局最優(yōu)標(biāo)簽序列,因此可以進一步提升本文命名實體識別任務(wù)準(zhǔn)確率。
以句子“中晚唐的維摩詰經(jīng)變”為例,如圖1所示,經(jīng)過字符編碼層對輸入句子中每個字生成相應(yīng)字向量,之后輸入BiLSTM層建模上下文序列,最后將結(jié)果輸入標(biāo)簽預(yù)測層,通過CRF網(wǎng)絡(luò)得到每個字的預(yù)測標(biāo)簽。
3. 基于Multi-digraph的詞匯增強方法
雖然BERT-BiLSTM-CRF模型在當(dāng)前主流命名實體識別任務(wù)中取得了較好效果,但是,通過對本文構(gòu)建的數(shù)據(jù)集進行分析發(fā)現(xiàn),各實體類別中均只有少數(shù)實體被經(jīng)常使用,絕大多數(shù)實體標(biāo)簽使用頻率很低,這會在一定程度上造成模型在訓(xùn)練過程中的邊際效應(yīng),即模型比較容易達到一個可接受的結(jié)果,但想要進一步提升模型表現(xiàn)卻很困難。因此,根據(jù)前文分析,本節(jié)選擇基于Multi-digraph的詞匯增強方法,作為與上一小節(jié)基本方法的對比,借助《敦煌學(xué)大辭典》等領(lǐng)域?qū)S迷~典,來探索外部知識對模型未登錄詞識別能力的提升效果。
基于Multi-digraph的詞匯增強方法序列建模層和標(biāo)簽預(yù)測層與基于BERT-BiLSTM-CRF的基本命名實體識別方法相同,區(qū)別在于Multi-digraph方法提出在字符編碼層采用一種有向多圖數(shù)據(jù)模型,來建模輸入字符和與之對應(yīng)的實體詞典信息,最終將該有向多圖輸入一個改造后的GGNN圖神經(jīng)網(wǎng)絡(luò),構(gòu)造具有統(tǒng)一特征表達空間的特征向量[23]。
以句子“維摩詰所說經(jīng)又名凈名經(jīng)”為例,每個字符代表有向圖中的一個節(jié)點,則句子可以表示為S={vc1,…,vc11}。假設(shè)詞語“維摩詰”來自于佛教人名詞典PER,“維摩詰所說經(jīng)”和“凈名經(jīng)”分別來自于兩個不同的專業(yè)詞典PRO1和PRO2,則模型需要額外6個節(jié)點D =,其中,上標(biāo)表示該節(jié)點對應(yīng)的專業(yè)詞匯詞典,下標(biāo)為s表示開始節(jié)點,下標(biāo)為e表示結(jié)束節(jié)點,這樣每2個節(jié)點為一對,用來記錄句子中與該詞典匹配到的每個實體的開始位置和結(jié)束位置。之后為節(jié)點之間添加有向邊,除了對句子中每個鄰接字之間從左向右添加一條有向邊外,同時對每個在詞典中匹配到的命名實體,從D中對應(yīng)的實體開始節(jié)點到S中該實體所含每個節(jié)點,最后到D中實體結(jié)束節(jié)點添加有向邊。例如詞語“維摩詰”對應(yīng)S中的vc1,vc2,vc3,則會構(gòu)建以下邊:(,vc1),(vc1,vc2)(vc2,vc3)(vc3,),每個邊與一個實體類別標(biāo)簽關(guān)聯(lián),再利用這些邊構(gòu)建對應(yīng)標(biāo)簽的鄰接矩陣,從而完成有向圖的構(gòu)建。此外,由于經(jīng)典的GGNN網(wǎng)絡(luò)只能針對單一的圖,并不適用于面向不同標(biāo)簽構(gòu)建的多圖結(jié)構(gòu),因此,Multi-digraph方法通過拼接不同標(biāo)簽所對應(yīng)的鄰接矩陣,并通過統(tǒng)計將不同標(biāo)簽的貢獻系數(shù),以權(quán)重的方式賦值在對應(yīng)鄰接矩陣特定邊上的方式對該網(wǎng)絡(luò)做了改進,使模型能夠?qū)W習(xí)到來自不同詞典信息的加權(quán)組合。
基于Multi-digraph的詞匯增強方法通過這種有向多圖的數(shù)據(jù)結(jié)構(gòu),利用圖神經(jīng)網(wǎng)絡(luò)自動編碼外部詞典信息,之后將特征向量輸入BiLSTM-
CRF網(wǎng)絡(luò)提取上下文語義及結(jié)構(gòu)信息,最終完成實體標(biāo)簽預(yù)測。
四 實驗分析及技術(shù)應(yīng)用
1. 實驗設(shè)計及評價指標(biāo)
為了檢驗本文基于BERT-BiLSTM-CRF的基本命名實體識別方法以及基于Multi-digraph的詞匯增強方法在敦煌石窟相關(guān)語料中的適用性以及實際效果,本章基于前述敦煌石窟命名實體識別數(shù)據(jù)集,設(shè)計并開展以下實驗:1)針對本文提出的基本方法,分別使用靜態(tài)詞向量和動態(tài)詞向量作為字符編碼方案,以BiLSTM-CRF為網(wǎng)絡(luò)結(jié)構(gòu),驗證動態(tài)詞向量技術(shù)在本文命名實體識別任務(wù)中的優(yōu)越性;2)實驗對比基于BERT-BiLSTM-
CRF的命名實體識別基本方法和基于Multi-digraph的詞匯增強方法,探究詞匯增強方法對命名實體邊界確定和未登錄詞識別的提升作用。
本文采用命名實體識別任務(wù)常用的精確率P、召回率R和F1值作為模型評價指標(biāo)。其中精確率P代表了預(yù)測結(jié)果中識別正確的命名實體數(shù)量占全部預(yù)測結(jié)果的比例;召回率R代表了預(yù)測結(jié)果中預(yù)測正確的命名實體數(shù)量占該句中命名實體實際數(shù)量的比例;F1值是模型精確率和召回率的一種加權(quán)平均。
2. 運行環(huán)境及實驗過程
本文實驗運行環(huán)境如表2所示。
根據(jù)實驗設(shè)計,本文提出的四個對比模型分別為Word2vec-BiLSTM-CRF、BERT-BiLSTM-
CRF、Word2vec-MultiDic-BiLSTM-CRF以及BERT-
MultiDic-BiLSTM-CRF。其中Word2vec字向量使用“Chinese Word Vectors”項目[24]基于百度百科預(yù)訓(xùn)練的字向量,特征向量維度為300維;BERT模型使用Google公司發(fā)布的“BERT-Base, Chinese”預(yù)訓(xùn)練模型,特征向量維度為768維;MultiDic表示詞匯增強的方法,詞典數(shù)據(jù)分別使用第三章第一節(jié)介紹的基礎(chǔ)詞典、擴充詞典和精簡詞典。對于詞匯增強的模型,原文[23]中僅基于靜態(tài)詞向量開展了相關(guān)實驗,本文對該模型做了簡單修改,將其與BERT預(yù)訓(xùn)練模型進行適配,并對使用兩種字向量的模型效果進行了對比。模型序列建模層和標(biāo)簽預(yù)測層均采用相同的BiLSTM-CRF結(jié)構(gòu),主要訓(xùn)練參數(shù)如表3所示。
為了使模型最優(yōu),在訓(xùn)練時針對每個模型選擇不同隱藏層大小,同時Adam優(yōu)化器也會根據(jù)訓(xùn)練過程自動調(diào)節(jié)學(xué)習(xí)率。以BERT-MultiDic-BiLSTM-CRF模型為例,如圖2所示,在200個訓(xùn)練周期中,當(dāng)隱藏層為1400時,模型損失函數(shù)不斷震蕩,無法收斂,而當(dāng)隱藏層大小為256時,模型的損失值不斷減小并趨于穩(wěn)定,在較小的訓(xùn)練周期實現(xiàn)了收斂,因此,將該模型的隱藏層大小確定為256。
3. 結(jié)果分析
實驗第一部分針對本文命名實體識別基本方法,開展Word2vec-BiLSTM-CRF與BERT-BiLSTM-CRF模型的對比實驗,驗證基于BERT的動態(tài)詞向量技術(shù)對本文任務(wù)的提升作用,實驗結(jié)果如表4所示。
從實驗結(jié)果看,基于BERT動態(tài)詞向量的命名實體識別模型在本文任務(wù)中效果優(yōu)于傳統(tǒng)靜態(tài)詞向量方法。在“測試集—高”上,提升效果并不顯著,這主要是因為該測試集與訓(xùn)練集的標(biāo)簽重疊率較高,使得模型能夠盡可能多地學(xué)習(xí)到該實體在句子不同位置以及不同語境下的信息,增加了模型的魯棒性,彌補了靜態(tài)詞向量相對于BERT缺乏上下文信息的缺點。而在“測試集—低”上,包含大量未登錄詞,雖然兩種字符編碼方案效果均不理想,但是,由于BERT在上下文語義建模方面的優(yōu)勢,使其相對靜態(tài)詞向量模型效果有較大幅度的提升。
實驗第二部分開展基本方法與詞匯增強方法的對比實驗,用于檢驗詞匯增強方法對本文任務(wù)的提升效果,其中,詞匯增強方法分別使用本文構(gòu)建的基礎(chǔ)詞典、擴充詞典和精簡詞典。實驗同時使用Word2vec靜態(tài)詞向量和BERT動態(tài)詞向量作為字符編碼方案進行對比,最終實驗結(jié)果如圖3所示。
從結(jié)果看,基于BERT的動態(tài)詞向量編碼方法總體上優(yōu)于傳統(tǒng)靜態(tài)詞向量方法,但是就詞典的增強效果而言,對本文任務(wù)提升最為顯著的還是在未登錄詞較多的“測試集-低”上,且基于傳統(tǒng)靜態(tài)詞向量的模型提升幅度更大。在該測試集上,使用Word2vec靜態(tài)詞向量時,利用基礎(chǔ)詞典、擴充詞典和精簡詞典使本文任務(wù)F1值較基本方法分別提升6%、16%和34%;而在使用BERT詞向量時,三種詞典對本文任務(wù)F1值分別提升2%、3%和24%。之所以詞典增強方法對靜態(tài)詞向量模型效果提升更明顯,主要是因為基于BERT的模型已經(jīng)較為充分地學(xué)習(xí)了前后文信息,使模型具備較高的識別精度,因此,詞典對其增強作用難以凸顯。但是,綜合來看,即便使用精簡詞典,基于BERT詞向量的模型還是比靜態(tài)詞向量模型F1值高出14%。在“測試集—高”的實驗結(jié)果上,也可以看到類似現(xiàn)象。
由此可見,字符編碼方案的選擇是影響模型最終識別效果的重要因素之一,同時,在未登錄詞較多的場景中使用基于詞匯增強的方法也可以較好地提升模型效果,其中詞典的精度是影響模型準(zhǔn)確率的又一重要因素。隨著詞典精度的提升,模型識別效果不斷提高。在本文實驗中,未登錄詞較多的“測試集—低”在使用基于BERT詞向量及精簡詞典的詞匯增強方法后,其F1值已經(jīng)接近于“測試集—高”在使用基于BERT-BiLSTM-CRF的基本方法時的識別結(jié)果,二者僅相差7%左右。這是因為詞匯增強方法中詞典精度的提升將使模型更加信任詞典數(shù)據(jù),當(dāng)詞典變得非常精確,與當(dāng)前任務(wù)數(shù)據(jù)高度契合時,模型對實體邊界的判定及未登錄詞的識別精度也將達到非常高的水準(zhǔn)。
4. 技術(shù)應(yīng)用
根據(jù)實驗結(jié)果,將本文訓(xùn)練得到的命名實體識別模型在“數(shù)字敦煌”資源庫進行了初步應(yīng)用。本文選取莫高窟第285窟文字簡介{1}作為識別語料,使用實驗結(jié)果最好的BERT-MultiDic-BiLSTM-CRF詞匯增強模型進行命名實體識別,對識別結(jié)果進行簡單處理,構(gòu)建了以洞窟編號和實體為節(jié)點,以實體類型為邊的圖數(shù)據(jù)結(jié)構(gòu),并使用Neo4j數(shù)據(jù)庫進行數(shù)據(jù)管理,可視化效果如圖4所示。
與“數(shù)字敦煌”資源庫當(dāng)前內(nèi)鏈實體相比,通過本文命名實體識別技術(shù)應(yīng)用,較為全面地提取了洞窟內(nèi)容介紹中的各類專業(yè)名詞術(shù)語,極大地豐富了內(nèi)鏈詞庫,與此同時,也實現(xiàn)了洞窟內(nèi)容的結(jié)構(gòu)化呈現(xiàn),有效提升了系統(tǒng)檢索能力。而結(jié)合本文命名實體識別技術(shù),通過進一步實體關(guān)系挖掘,構(gòu)建敦煌石窟知識圖譜,可以實現(xiàn)實體之間更深層次和更長范圍的關(guān)聯(lián),優(yōu)化資源庫內(nèi)容推薦、檢索等服務(wù)質(zhì)量,提升資源庫知識發(fā)現(xiàn)能力。
五 總結(jié)及展望
本文針對“數(shù)字敦煌”命名實體識別任務(wù)存在的實體邊界難以確定以及未登錄詞識別困難等兩方面問題,通過文獻調(diào)研,分別提出基于BERT-
BiLSTM-CRF的命名實體識別基本方法和基于Multi-digraph的詞匯增強方法。文章通過構(gòu)建一個小規(guī)模的敦煌石窟專有名詞數(shù)據(jù)集作為訓(xùn)練語料,將本文選擇的兩種模型從多個維度進行了實驗對比。結(jié)果表明,本文基本方法已具備較高的識別準(zhǔn)確率,而基于詞匯增強的方法對未登錄詞識別提升效果顯著。文章最后將實驗訓(xùn)練得到的模型應(yīng)用于“數(shù)字敦煌”資源庫命名實體識別任務(wù),證明了本文方法的有效性。
通過本文研究,未來可以從數(shù)據(jù)、算法以及技術(shù)應(yīng)用三個方面進一步開展此項工作。在數(shù)據(jù)方面,本文存在標(biāo)注數(shù)據(jù)集規(guī)模太小、標(biāo)注不準(zhǔn)確等問題,因此,后續(xù)工作首先應(yīng)該結(jié)合敦煌學(xué)專家意見,制定敦煌石窟專有名詞標(biāo)注規(guī)范,進而構(gòu)建完善的專有名詞數(shù)據(jù)集;此外,本文實驗表明在基于詞匯增強的方法中,詞典的精度對任務(wù)識別準(zhǔn)確率有較大影響,因此應(yīng)該基于《敦煌學(xué)大辭典》等權(quán)威著作,進一步構(gòu)建準(zhǔn)確、完備的詞典數(shù)據(jù)庫。在算法方面,應(yīng)該及時關(guān)注本領(lǐng)域最新研究進展,不斷優(yōu)化模型設(shè)計,實現(xiàn)在小規(guī)模數(shù)據(jù)集上更好的識別效果,同時也應(yīng)該關(guān)注模型計算效率及模型部署等實際應(yīng)用中面臨的問題。在技術(shù)應(yīng)用上,一方面可以結(jié)合實體關(guān)系提取任務(wù),構(gòu)建敦煌石窟知識圖譜,實現(xiàn)知識結(jié)構(gòu)化表達以及關(guān)聯(lián)分析;另一方面,也可以與敦煌石窟數(shù)字化圖像結(jié)合開展圖像語義理解研究,實現(xiàn)壁畫內(nèi)容自動描述。總之,期望通過上述研究可以進一步提升敦煌石窟數(shù)字化資源的知識發(fā)現(xiàn)能力,更好地挖掘石窟藝術(shù)價值。
參考文獻:
[1]劉瀏,王東波. 命名實體識別研究綜述[J]. 情報學(xué)報,2018(3):329-340.
[2]Lample G,Ballesteros M,Subramanian S,et al. Neural architectures for named entity recognition[C]. north american chapter of the association for computational linguistics,2016:260-270.
[3]Devlin J,Chang M,Lee K,et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv:Computation and Language,2018.
[4]Cui Y,Che W,Liu T,et al. Pre-Training with Whole Word Masking for Chinese BERT[J]. arXiv:Computation and Language, 2019.
[5]Harvard University,Academia Sinica,Peking University.China Biographical Database[EB/OL]. https://projects.iq.harvard.edu/cbdb,2020-10-15.
[6]武漢大學(xué). 敦煌壁畫主題詞表[EB/OL]. http://dh.whu.edu.cn/dhvocab/home,2020-10-15.
[7]朱武信,夏翠娟.命名實體識別在數(shù)字人文中的應(yīng)用——基于ETL的實現(xiàn)[J]. 圖書館論壇,2020(5):16-20.
[8]崔丹丹,劉秀磊,陳若愚,劉旭紅,李臻,齊林. 基于Lattice LSTM的古漢語命名實體識別[J]. 計算機科學(xué),2020(S2):18-22.
[9]任明,許光,王文祥. 家譜文本中實體關(guān)系提取方法研究[J]. 中文信息學(xué)報,2020(6):45-54.
[10]朱順樂. 基于深度學(xué)習(xí)的維吾爾語命名實體識別模型[J]. 計算機工程與設(shè)計,2019(10):2874-2878,2890.
[11]董瑞,楊雅婷,蔣同海. 融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實體識別[J]. 計算機應(yīng)用與軟件,2020(5):183-188.
[12]孔祥鵬,吾守爾·斯拉木,楊啟萌,李哲. 基于遷移學(xué)習(xí)的維吾爾語命名實體識別[J]. 東北師大學(xué)報(自然科學(xué)版),2020(2):58-65.
[13]麗麗. 蒙古文化知識圖譜的構(gòu)建與研究[D]. 內(nèi)蒙古大學(xué),2020.
[14]Mikolov T,Chen K,Corrado G S,et al. Efficient Estimation of Word Representations in Vector Space[C]. international conference on learning representations,2013.
[15]Sundermeyer M,Schlüter R,Ney H. LSTM neural networks for language modeling[C]//Thirteenth annual conference of the international speech communication association. 2012.
[16]Peters M E,Neumann M,Iyyer M,et al. Deep contextualized word representations [C]. north american chapter of the association for computational linguistics,2018:2227-2237.
[17]Radford A,Narasimhan K,Salimans T,et al. Improving language understanding by generative pre-training[J].2018.
[18]Lee J,Yoon W,Kim S,et al. BioBERT:a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics,2019(4):1234-1240.[19]Zhang Y,Yang J. Chinese NER Using Lattice LSTM[C]. meeting of the association for computational linguistics, 2018:1554-1564.
[20]Gui T,Ma R,Zhang Q,et al. CNN-Based Chinese NER with Lexicon Rethinking.[C]. international joint conference on artificial intelligence,2019:4982-4988.
[21]Sui D,Chen Y,Liu K,et al. Leverage lexical knowledge for chinese named entity recognition via collaborative graph network[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing [EMNLP-IJCNLP]. 2019:3821-3831.
[22]Liu W,Xu T,Xu Q,et al. An Encoding Strategy Based Word-Character LSTM for Chinese NER[C]. north american chapter of the association for computational linguistics,2019:2379-2389.
[23]Ding R,Xie P,Zhang X,et al. A Neural Multi-digraph Model for Chinese NER with Gazetteers[C]. meeting of the association for computational linguistics,2019:1462-1467.
[24]Li S,Zhao Z,Hu R,et al. Analogical reasoning on chinese morphological and semantic relations[J]. arXiv pre-print arXiv:1805.06504,2018.