付瑞 李劍宇 王笳輝 岳昆 胡礦
摘要:文本數(shù)據(jù)中的實(shí)體和關(guān)系抽取是領(lǐng)域知識(shí)圖譜構(gòu)建和更新的來(lái)源.針對(duì)金融科技領(lǐng)域中文本數(shù)據(jù) 存在重疊關(guān)系、訓(xùn)練數(shù)據(jù)缺乏標(biāo)注樣本等問(wèn)題,提出一種融合主動(dòng)學(xué)習(xí)思想的實(shí)體關(guān)系聯(lián)合抽取方法.首 先,基于主動(dòng)學(xué)習(xí),以增量的方式篩選出富有信息量的樣本作為訓(xùn)練數(shù)據(jù);其次,采用面向主實(shí)體的標(biāo)注策 略將實(shí)體關(guān)系聯(lián)合抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題;最后,基于改進(jìn)的BERT-BiGRU-CRF模型實(shí)現(xiàn)領(lǐng)域?qū)?體與關(guān)系的聯(lián)合抽取,為知識(shí)圖譜構(gòu)建提供支撐技術(shù),有助于金融從業(yè)者根據(jù)領(lǐng)域知識(shí)進(jìn)行分析、投資、 交易等操作,從而降低投資風(fēng)險(xiǎn).針對(duì)金融領(lǐng)域文本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文所提出的方法 有效,驗(yàn)證了該方法后續(xù)可用于金融知識(shí)圖譜的構(gòu)建.
關(guān)鍵詞:領(lǐng)域文本;領(lǐng)域知識(shí)圖譜;實(shí)體關(guān)系聯(lián)合抽取;主動(dòng)學(xué)習(xí);序列標(biāo)注 中圖分類(lèi)號(hào):TP391???? 文獻(xiàn)標(biāo)志碼:A DOI: 10.3969/j.issn.1000-5641.2021.05.003
Joint extraction of entities and relations for domain knowledge graph
FU Rui, LI Jianyu, WANG Jiahui, YUE Kun, HU Kuang
(School of Information Science and Engineering, Yunnan University, Kunming 650500, China)
Abstract: Extraction of entities and relationships from text data is used to construct and update domain knowledge graphs. In this paper, we propose a method to jointly extract entities and relations by incorporating the concept of active learning; the proposed method addresses problems related to the overlap of vertical domain data and the lack of labeled samples in financial technology domain text data using the traditional approach. First, we select informative samples incrementally as training data sets. Next, we transform the exercise of joint extraction of entities and relations into a sequence labeling problem by labelling the main entities. Finally, we fulfill the joint extraction using the improved BERT-BiGRU-CRF model for construction of a knowledge graph, and thus facilitate financial analysis, investment, and transaction operations based on domain knowledge, thereby reducing investment risks. Experimental results with finance text data shows the effectiveness of our proposed method and verifies that the method can be successfully used to construct financial knowledge graphs.
Keywords: domain text;domain knowledge graph;?? joint extration of entities and relations; active learning; sequence labeling
0引 言
隨著海量數(shù)據(jù)處理和人工智能技術(shù)的快速發(fā)展,以數(shù)據(jù)密集型為主導(dǎo)的研究范式為推動(dòng)各領(lǐng)域
收稿日期:2021-08-05
基金項(xiàng)目:國(guó)家自然科學(xué)基金(U180227(1);云南省重大科技專(zhuān)項(xiàng)(202002AD080002-1-B);云南省青年拔尖人才計(jì)劃 (C619303(2);云南省教育廳科研基金(2020J000(4)
通信作者:岳昆,男,教授,博士生導(dǎo)師,研究方向?yàn)閿?shù)據(jù)與知識(shí)工程.E-mail: kyue@ynu.edu.cn
數(shù)字化轉(zhuǎn)型提供了新的研究思路.知識(shí)圖譜(Knowledge Graph, KG)作為一種用圖模型描述知識(shí)和建 模世界萬(wàn)物之間關(guān)聯(lián)關(guān)系的方法,通過(guò)一系列形如〈頭實(shí)體,關(guān)系,尾實(shí)體〉的三元組對(duì)知識(shí)進(jìn)行結(jié) 構(gòu)化表示[1],為跨領(lǐng)域知識(shí)融合提供了解決方案.近年來(lái),在搜索引擎、推薦計(jì)算和智能問(wèn)答[4]等 KG下游應(yīng)用的驅(qū)動(dòng)下,以及DBpedia[5]、YAGO[6]和Freebase[7]等跨領(lǐng)域知識(shí)庫(kù)的誕生,研究人員對(duì) 從非結(jié)構(gòu)化數(shù)據(jù)源特別是文本數(shù)據(jù)中挖掘高質(zhì)量的領(lǐng)域知識(shí)產(chǎn)生了極大興趣[8].例如,隨著金融科技 進(jìn)入智能時(shí)代,面對(duì)大規(guī)模、多來(lái)源、不規(guī)則的金融文本數(shù)據(jù),通過(guò)構(gòu)建金融領(lǐng)域KG能夠高效利用 各個(gè)數(shù)據(jù)之間的聯(lián)系,實(shí)現(xiàn)金融與信息科技深度融合,為預(yù)測(cè)市場(chǎng)趨勢(shì)、支持政府監(jiān)管市場(chǎng)、防范金 融風(fēng)險(xiǎn)提供智能化解決方案[9].
實(shí)際上,大量的文本數(shù)據(jù)是KG構(gòu)建和領(lǐng)域知識(shí)更新的來(lái)源,如何有效地從文本數(shù)據(jù)中抽取實(shí)體 和關(guān)系,是KG構(gòu)建、更新和推理的重要基礎(chǔ).例如,金融領(lǐng)域?qū)?shù)據(jù)依賴性較大,對(duì)數(shù)據(jù)分析的準(zhǔn)確 性要求很高,股票的價(jià)格可以視作市場(chǎng)對(duì)金融新聞和事件的反映,通過(guò)有效分析相關(guān)金融新聞和事件 文本數(shù)據(jù),并將其表征為結(jié)構(gòu)化知識(shí),能夠直觀有效地展示金融領(lǐng)域覆蓋實(shí)體之間關(guān)聯(lián)對(duì)股票價(jià)格的 影響,對(duì)用戶做出明智的投資決策至關(guān)重要.從這個(gè)角度來(lái)說(shuō),只有高質(zhì)量的金融知識(shí)圖譜中的知識(shí) 有實(shí)際應(yīng)用價(jià)值.因此,本文研究從領(lǐng)域文本數(shù)據(jù)識(shí)別命名實(shí)體和聯(lián)合抽取實(shí)體關(guān)系的方法,為領(lǐng)域 KG的構(gòu)建和增量更新提供技術(shù)支撐.
領(lǐng)域文本數(shù)據(jù)是對(duì)特定領(lǐng)域知識(shí)的描述和記錄,具有以下特點(diǎn).
(1)領(lǐng)域文本數(shù)據(jù)的標(biāo)注樣本極其缺乏,對(duì)數(shù)據(jù)的標(biāo)注往往需要專(zhuān)家的指導(dǎo)和協(xié)助,導(dǎo)致標(biāo)注語(yǔ)料 庫(kù)的構(gòu)建成本極高.因此,如何以盡可能少的標(biāo)注樣本量實(shí)現(xiàn)模型訓(xùn)練,是本文研究面臨的挑戰(zhàn).
(2)領(lǐng)域文本數(shù)據(jù)中實(shí)體分布密度高且實(shí)體間存在重疊關(guān)系.數(shù)據(jù)實(shí)例圍繞主實(shí)體展開(kāi)具體描述, 如一個(gè)金融數(shù)據(jù)實(shí)例描述一家公司的創(chuàng)始人、股東、注冊(cè)地址等信息,一個(gè)公司實(shí)體同時(shí)與創(chuàng)始人、 股東等實(shí)體存在關(guān)系.因此,如何有效地抽取領(lǐng)域文本數(shù)據(jù)中實(shí)體和實(shí)體間的重疊關(guān)系,是本文研究 面臨的另一個(gè)挑戰(zhàn).
主動(dòng)學(xué)習(xí)算法[10]旨在針對(duì)模型主動(dòng)參與樣本選擇的情形,優(yōu)先標(biāo)注并訓(xùn)練那些相對(duì)有價(jià)值的樣 本,從而達(dá)到以盡可能少的標(biāo)注樣本量達(dá)到模型預(yù)期性能的目標(biāo).為了從領(lǐng)域文本數(shù)據(jù)中選取待標(biāo)注 樣本,本文提出一種基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣方法,用以篩選出富有信息量的樣本,從而降低 標(biāo)注成本.
為了有效地抽取實(shí)體和實(shí)體間的重疊關(guān)系,本文提出一種考慮主實(shí)體的序列標(biāo)注策略,將實(shí)體關(guān) 系聯(lián)合抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題.基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)[11]可同時(shí)獲取上下文信息并存儲(chǔ)記憶,從而被廣泛地應(yīng)用于基于序列標(biāo)注的實(shí)體 關(guān)系聯(lián)合抽取任務(wù);但是基于BiLSTM改進(jìn)的雙向門(mén)控循環(huán)單元(Bidirectional Gated Recurrent Unit, BiGRU)[12]不僅具備長(zhǎng)時(shí)序依賴能力和更快的運(yùn)行效率,而且簡(jiǎn)化了 BiLSTM復(fù)雜的結(jié)構(gòu).為緩 解BiGRU模型在訓(xùn)練過(guò)程中出現(xiàn)的過(guò)擬合問(wèn)題以及梯度爆炸問(wèn)題,本文通過(guò)改進(jìn)BiGRU提出 BiGRU*.首先提出TaLU激活函數(shù)替換傳統(tǒng)GRU的雙曲正切(tanh)激活函數(shù),從而解決因tanh函 數(shù)的軟飽和性而導(dǎo)致的梯度消失問(wèn)題;其次,結(jié)合層標(biāo)準(zhǔn)化(Layer Normalization, LN)技術(shù),使模型 在沒(méi)有發(fā)生嚴(yán)重梯度爆炸的情況下提高網(wǎng)絡(luò)性能,從而獲得改進(jìn)的GRU*,最后使用BERT-BiGRU*- CRF序列模型來(lái)對(duì)金融領(lǐng)域文本數(shù)據(jù)集進(jìn)行實(shí)體關(guān)系聯(lián)合抽取.
綜上所述,本文的工作主要包括以下幾個(gè)方面.
(1)針對(duì)垂直領(lǐng)域數(shù)據(jù)缺乏的問(wèn)題,融合主動(dòng)學(xué)習(xí)思想,提出一種基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣 方法.通過(guò)評(píng)估樣本的價(jià)值與樣本的相似性來(lái)選擇標(biāo)注樣本,從未標(biāo)注數(shù)據(jù)池中增量地采樣出富有信 息的樣本.
(2)通過(guò)將實(shí)體識(shí)別和關(guān)系抽取兩個(gè)子任務(wù)聯(lián)合起來(lái),并將其建模為序列標(biāo)注,提出一種基于 BERT-BiGRU*-CRF的實(shí)體關(guān)系聯(lián)合抽取模型,用于對(duì)垂直領(lǐng)域文本的實(shí)體和關(guān)系同時(shí)進(jìn)行抽取.
(3)基于金融領(lǐng)域和少數(shù)民族領(lǐng)域文本數(shù)據(jù)對(duì)本文提出的方法進(jìn)行實(shí)驗(yàn)測(cè)試和性能分析,實(shí)驗(yàn)結(jié) 果表明,本文提出的基于BERT-BiGRU*-CRF的實(shí)體關(guān)系聯(lián)合抽取方法,效果均優(yōu)于其他傳統(tǒng)的序 列標(biāo)注模型.
1相關(guān)工作
傳統(tǒng)的實(shí)體關(guān)系抽取一般采用流水線方法,該方法將命名實(shí)體識(shí)別和關(guān)系抽取分成兩個(gè)獨(dú)立的 子任務(wù),在實(shí)體識(shí)別已經(jīng)完成的基礎(chǔ)上直接進(jìn)行實(shí)體之間的關(guān)系抽取.例如,文獻(xiàn)[13]和文獻(xiàn)[14]首 先識(shí)別文本中的實(shí)體,然后抽取出文本中實(shí)體之間的關(guān)系.盡管流水線方法更加靈活且易于建模,但 實(shí)體識(shí)別階段產(chǎn)生的錯(cuò)誤將傳播到關(guān)系抽取階段,影響關(guān)系抽取的性能,將實(shí)體識(shí)別與關(guān)系抽取分開(kāi) 執(zhí)行,忽略兩個(gè)子任務(wù)之間的聯(lián)系,若識(shí)別到的實(shí)體間不存在語(yǔ)義關(guān)系,無(wú)法剔除冗余實(shí)體對(duì).
相比傳統(tǒng)的流水線方法,實(shí)體關(guān)系聯(lián)合抽取方法采用一個(gè)聯(lián)合模型同時(shí)識(shí)別出實(shí)體和關(guān)系類(lèi)型. 根據(jù)建模對(duì)象不同,實(shí)體關(guān)系聯(lián)合抽取方法分為參數(shù)共享和序列標(biāo)注兩類(lèi).參數(shù)共享方法是分別對(duì)實(shí) 體和關(guān)系進(jìn)行建模,例如,Miwa等[15]采用參數(shù)共享的方式來(lái)對(duì)實(shí)體和關(guān)系進(jìn)行聯(lián)合提取,將BiLSTM 與樹(shù)狀LSTM用于文本的建模任務(wù),BiLSTM完成對(duì)實(shí)體的提取,樹(shù)狀LSTM實(shí)現(xiàn)對(duì)于關(guān)系的分類(lèi), 通過(guò)兩個(gè)模型的互相堆疊來(lái)實(shí)現(xiàn)參數(shù)的共享.序列標(biāo)注方法將實(shí)體與關(guān)系聯(lián)合抽取任務(wù)轉(zhuǎn)換成序列 標(biāo)注問(wèn)題,基于實(shí)體關(guān)系的聯(lián)合標(biāo)注策略進(jìn)行建模,直接得到實(shí)體-關(guān)系三元組.例如,Zheng等[16]首 次提出一種特殊的標(biāo)注方案,將實(shí)體關(guān)系聯(lián)合抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,并在通用領(lǐng)域的知識(shí)抽 取中取得了較好的效果,但無(wú)法解決重疊關(guān)系問(wèn)題.為了能更好地解決可能存在的實(shí)體關(guān)系三元組重 疊問(wèn)題,Zeng等[17]提出了一種基于復(fù)制機(jī)制的端到端神經(jīng)網(wǎng)絡(luò)模型,采用了一種編碼器解碼器架構(gòu) 的實(shí)體關(guān)系抽取模型,首先完成對(duì)關(guān)系的提取,然后通過(guò)復(fù)制機(jī)制,依次復(fù)制主實(shí)體和客實(shí)體,解決了 實(shí)體關(guān)系重疊的問(wèn)題,但該模型未考慮實(shí)體對(duì)之間存在多種關(guān)系的問(wèn)題.
主動(dòng)學(xué)習(xí)是一種用于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)篩選方法,相較于人工操作,它只需花費(fèi)較少的時(shí)間即 可自動(dòng)找到富有信息量的樣本來(lái)構(gòu)建更好的數(shù)據(jù)集,進(jìn)而以較低的標(biāo)注代價(jià)實(shí)現(xiàn)模型較高的性能.研 究者們依據(jù)不同的樣本選擇標(biāo)準(zhǔn)開(kāi)發(fā)出一系列主動(dòng)學(xué)習(xí)的方法,Houlsby等[18]提出了一種貝葉斯不一 致主動(dòng)學(xué)習(xí)算法,其中采樣函數(shù)通過(guò)訓(xùn)練樣本關(guān)于模型參數(shù)的互信息來(lái)進(jìn)行不確定性度量.Tang等[19] 提出一種自定步長(zhǎng)的主動(dòng)學(xué)習(xí)方法,該方法一方面考慮了樣本的信息量和代表性,選取的樣本對(duì)模型 的改進(jìn)具有較高的潛在價(jià)值;另一方面,利用樣本的易用性,使模型能夠充分利用樣本潛在價(jià)值.近年 來(lái),隨著深度學(xué)習(xí)模型的發(fā)展,主動(dòng)學(xué)習(xí)也應(yīng)用于序列標(biāo)注任務(wù).Tran等[20]針對(duì)Twitter數(shù)據(jù)進(jìn)行命 名實(shí)體識(shí)別問(wèn)題,提出了一種將自學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的方法,降低了標(biāo)注成本.Shen等[21]通過(guò)將 主動(dòng)學(xué)習(xí)與一種基于深度學(xué)習(xí)的輕量級(jí)命名實(shí)體識(shí)別模型相結(jié)合,減少25%的訓(xùn)練數(shù)據(jù)量.雖然上述 方法在解決樣本標(biāo)注問(wèn)題上取得了很大進(jìn)展,但這些方法往往只關(guān)注低置信度的不確定樣本,未能綜 合考慮樣本的價(jià)值與代表性.
2實(shí)體關(guān)系聯(lián)合抽取
2.1相關(guān)定義
定義1領(lǐng)域文本數(shù)據(jù)集D {d1, d2, · · · , dn} (n > 1)是蘊(yùn)含實(shí)體集五和關(guān)系集^的句子集合,其 中,di (1 ? i ? n)表示一個(gè)蘊(yùn)含實(shí)體和關(guān)系集合的句子,E表示乃中描述領(lǐng)域知識(shí)的實(shí)體集合,^表 示丑中實(shí)體間的關(guān)系集合.
例 1 針對(duì)句子“Paul Allen, who come from Seattle, founded Microsoft in 1975 in Albuquerque.”,可得到實(shí)體集合{_PaMMZZen, Microso/尤,與實(shí)體間的關(guān)系集合{/ownders, _pZace_/OMnded}.
定義2領(lǐng)域KG G=(盡fi)是描述領(lǐng)域?qū)嶓w之間關(guān)系的有向圖,其中,五表示領(lǐng)域KG中實(shí)體 對(duì)應(yīng)的節(jié)點(diǎn)集合,表示實(shí)體關(guān)系對(duì)應(yīng)邊的集合,G中任意兩個(gè)節(jié)點(diǎn)構(gòu)成的有向邊表示為一個(gè)三元組 (h, r,t) (h,t G E,r G R).
給定領(lǐng)域文本數(shù)據(jù)集乃,領(lǐng)域KG G = (E,fi)的構(gòu)建可通過(guò)對(duì)乃進(jìn)行實(shí)體關(guān)系抽取來(lái)獲取對(duì)應(yīng)E 中實(shí)體和fi中關(guān)系的三元組集合,再將三元組中的實(shí)體和關(guān)系映射為節(jié)點(diǎn)和邊,進(jìn)而構(gòu)建領(lǐng)域KG.
2.2標(biāo)注策略
本節(jié)討論面向主實(shí)體的序列標(biāo)注策略.首先將文本中主實(shí)體的關(guān)系標(biāo)簽固定為“MAIN”,然后將 與主實(shí)體存在關(guān)系的實(shí)體的關(guān)系標(biāo)簽設(shè)置為兩個(gè)實(shí)體間的關(guān)系類(lèi)型,最后通過(guò)標(biāo)簽匹配直接獲取三 元組,從而實(shí)現(xiàn)對(duì)重疊關(guān)系的抽取.
面向主實(shí)體的序列標(biāo)注策略的標(biāo)簽由實(shí)體邊界、關(guān)系類(lèi)別和實(shí)體位置3個(gè)部分組成,具體描述 如下.
(1)實(shí)體邊界對(duì)于實(shí)體邊界標(biāo)簽,本文采用“BIFSO”標(biāo)注方式來(lái)表示單字在實(shí)體中的位置信息, B表示此元素在實(shí)體的頭部,I表示此元素在實(shí)體的中部,F(xiàn)表示此元素在實(shí)體的尾部,S表示此元素 為單個(gè)實(shí)體,O則表示該元素不屬于任何實(shí)體.
(2)關(guān)系類(lèi)別關(guān)系類(lèi)別標(biāo)簽由該垂直領(lǐng)域預(yù)先定義的關(guān)系類(lèi)別來(lái)確定,對(duì)于一個(gè)圍繞主實(shí)體展開(kāi) 描述的句子,定義一種新的關(guān)系標(biāo)簽類(lèi)型“MAIN”,將主實(shí)體關(guān)系類(lèi)別標(biāo)簽表示為固定關(guān)系類(lèi)別 “MAIN”.
(3)實(shí)體位置實(shí)體位置由數(shù)字“1”和“2”來(lái)標(biāo)識(shí),“1”表示該實(shí)體為三元組中的頭實(shí)體,“2”表示該 實(shí)體為三元組中的尾實(shí)體.
例2 例1中的句子圍繞主實(shí)體“Microsoft”展開(kāi),因此將“Microsoft”關(guān)系類(lèi)別標(biāo)簽標(biāo)注為固定 標(biāo)簽“MAIN”,句子包含(Microsoft, founders, Paul Allen)和(Microsoft, place_founded, Albuquerque) 2個(gè)三元組,其中“founders”和“place_founded”為預(yù)先定義的金融領(lǐng)域關(guān)系類(lèi)別.根據(jù)上述標(biāo)注策略, 句子序列中每個(gè)字都被賦予相應(yīng)的標(biāo)簽,非實(shí)體用O來(lái)標(biāo)注,如圖1所示.
為了準(zhǔn)確且高效地獲取標(biāo)注序列中的實(shí)體關(guān)系三元組,采取如下的實(shí)體關(guān)系三元組匹配規(guī)則.首 先根據(jù)實(shí)體邊界獲得實(shí)體,并根據(jù)最鄰近原則確定實(shí)體關(guān)系.當(dāng)實(shí)體關(guān)系類(lèi)別為非“MAIN”時(shí),分別 向前向后查找與之距離最近、關(guān)系類(lèi)別與之相同且實(shí)體位置不同的實(shí)體來(lái)組成實(shí)體關(guān)系三元組;當(dāng)實(shí) 體關(guān)系類(lèi)別為“MAIN”時(shí),則查找前后兩個(gè)方向上實(shí)體位置不同的能與之匹配的實(shí)體來(lái)組成實(shí)體關(guān)系 三元組.通過(guò)上述步驟,實(shí)體關(guān)系聯(lián)合抽取問(wèn)題能夠被轉(zhuǎn)化為序列標(biāo)注問(wèn)題.
2.3改進(jìn)的GRU*
由于GRU神經(jīng)網(wǎng)絡(luò)使用的雙曲正切激活函數(shù)會(huì)導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)梯度消失,因此,本
文設(shè)計(jì)一種新的激活函數(shù)TaLU來(lái)替換GRU候選狀態(tài)的雙曲正切激活函數(shù).具體而言,針對(duì)神經(jīng)元x , 由于ReLU函數(shù)在x處于正區(qū)間時(shí)不會(huì)出現(xiàn)神經(jīng)元飽和問(wèn)題,而t雙曲正切函數(shù)在x反向傳播過(guò)程中 不會(huì)出現(xiàn)由于梯度為0而導(dǎo)致權(quán)重不更新的問(wèn)題.因此,TaLU函數(shù)在x > 0時(shí),采用ReLU函數(shù)解決 由于雙曲正切函數(shù)的軟飽和性而導(dǎo)致的梯度消失問(wèn)題;在x < 0時(shí),采用tanh函數(shù)解決ReLU函數(shù)因 不更新權(quán)重而導(dǎo)致的神經(jīng)元死亡問(wèn)題.TaLU激活函數(shù)見(jiàn)式(1).
在模型訓(xùn)練中,由于缺乏訓(xùn)練數(shù)據(jù)會(huì)出現(xiàn)模型過(guò)擬合問(wèn)題.為此,對(duì)GRU的輸入序列做層標(biāo)準(zhǔn)化 處理,即針對(duì)輸入激活函數(shù)前的每個(gè)小批量塊(mini-batch),將非線性變換前的激活值重新規(guī)范化,在 改善TaLU適應(yīng)性的同時(shí)起到緩解梯度爆炸、加速訓(xùn)練、正則化作用.
最后,為提升模型性能,本文將GRU神經(jīng)元的tanh函數(shù)替換為T(mén)aLU激活函數(shù),并對(duì)GRU神經(jīng) 元的輸入序列進(jìn)行LN處理,改進(jìn)的GRU神經(jīng)元GRU*內(nèi)部結(jié)構(gòu)如圖2所示.
2.4基于BERT-BiGRU*-CRF的實(shí)體關(guān)系聯(lián)合抽取模型
完成對(duì)領(lǐng)域文本數(shù)據(jù)的實(shí)體關(guān)系標(biāo)注后,將數(shù)據(jù)作為BERT-BiGRU*-CRF實(shí)體關(guān)系聯(lián)合抽取模 型的輸入進(jìn)行訓(xùn)練,進(jìn)而對(duì)每個(gè)句子的標(biāo)簽序列進(jìn)行預(yù)測(cè).針對(duì)領(lǐng)域文本數(shù)據(jù)具有存在關(guān)系的實(shí)體對(duì) 之間的距離較遠(yuǎn)的特點(diǎn),采用BERT[22]模型將輸入的句子序列轉(zhuǎn)換為詞向量表示,所獲得的詞向量不 僅隱含上下文詞級(jí)特征,還能有效捕捉句子級(jí)別特征.為更好地捕捉句子較長(zhǎng)距離的雙向語(yǔ)義依賴, 擴(kuò)展GRU*模型,使用BiGRU*模型來(lái)充分捕獲上下文信息.針對(duì)BiGRU*因未考慮標(biāo)簽之間的關(guān)聯(lián) 而導(dǎo)致輸出非法標(biāo)簽的問(wèn)題,基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)為預(yù)測(cè)標(biāo)簽添加約 束條件,進(jìn)而獲得最佳標(biāo)簽序列.
模型整體架構(gòu)如圖3所示,包括BERT表示層、BiGRU*編碼層和CRF解碼層.首先基于BERT 表示層將輸入文本映射為句子序列的詞向量表示.為了構(gòu)建BERT表示層的輸入,將數(shù)據(jù)中每個(gè)句子 表示為長(zhǎng)度為^的序列,即d = (w1, w2, · · · , wl),然后將d中的每個(gè)單詞叫wi (1 ? i ? l)使用BERT表示 層映射成維數(shù)為m的詞向量,最終轉(zhuǎn)換成如下詞向量表示序列:
V = (v1, v2, · · · , vl), vi ∈ Rm (1 ? i ? l)????? (2)
接下來(lái),將BERT表示層的輸出F作為BiGRU*編碼層的輸入,針對(duì)每次新輸入到BiGRU*編碼 層的詞向量序列V,通過(guò)正向GRU*和反向GRU*的編碼得到隱藏層狀態(tài)為c,將隱藏層狀態(tài)向量c 經(jīng)過(guò)一個(gè)全連接層夂維度映射為序列總標(biāo)簽數(shù)目k,作為CRF解碼層的輸入,描述如下:
Cin = L (c) G Rlxk.???? ⑶
最后采用CRF模型來(lái)捕獲前后文標(biāo)簽之間的依賴關(guān)系,通過(guò)標(biāo)簽轉(zhuǎn)移概率和約束條件得到文本 的標(biāo)簽序列.
2.5基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣
在主動(dòng)學(xué)習(xí)中,如何選擇富有信息量的樣本對(duì)模型性能的提升至關(guān)重要,主動(dòng)學(xué)習(xí)的過(guò)程關(guān)鍵在 于建立一個(gè)判斷待標(biāo)注樣本“信息量”的標(biāo)準(zhǔn).因此,為了以較低的標(biāo)注成本保證實(shí)體關(guān)系聯(lián)合抽取模 型的性能,結(jié)合領(lǐng)域文本數(shù)據(jù)特點(diǎn),提出一種基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣方法,通過(guò)綜合評(píng)估樣 本的價(jià)值與樣本間的相似性來(lái)選擇具有代表性的待標(biāo)注樣本,樣本間的相似性評(píng)估能夠輔助去除冗 余樣本,以更少的標(biāo)注樣本獲得最優(yōu)的關(guān)系抽取模型.
由于實(shí)體關(guān)系聯(lián)合抽取任務(wù)最終可歸結(jié)為關(guān)系分類(lèi)問(wèn)題,因此,提出基于樣本的分類(lèi)概率來(lái)評(píng)估 樣本的價(jià)值.本文采用CNN來(lái)對(duì)樣本進(jìn)行分類(lèi),通過(guò)設(shè)置不同大小的卷積核能有效提取樣本的局部 關(guān)鍵信息.本文采用“一維卷積層一最大池化層一全連接層一分類(lèi)層”的結(jié)構(gòu)模式,添加dropout層, 防止模型訓(xùn)練過(guò)程中出現(xiàn)的過(guò)擬合、過(guò)度參數(shù)化等現(xiàn)象.
首先預(yù)定義g個(gè)樣本所屬的領(lǐng)域關(guān)系類(lèi)別,將領(lǐng)域文本數(shù)據(jù)集乃中的每一個(gè)樣本A經(jīng)過(guò) BERT特征編碼層獲取特征向量Ft接下來(lái),將特征向量作為CNN的輸入提取特征,獲得樣本 分配到每個(gè)類(lèi)別的概率.最后,將選擇樣本所屬類(lèi)別概率值最大的兩個(gè)值P/和P,2之間的差值作為選 擇樣本的價(jià)值指標(biāo),計(jì)算方法見(jiàn)式(4).若和之間的差值越小,越無(wú)法確定待標(biāo)注樣本%所屬的 類(lèi)別,表明對(duì)%的分類(lèi)很困難,即樣本的價(jià)值越高.本文所提出樣本的價(jià)值計(jì)算公式如下:
針對(duì)因只考慮樣本的價(jià)值而導(dǎo)致的冗余樣本問(wèn)題,本文提出通過(guò)衡量樣本的相似性來(lái)去除冗余 樣本.事實(shí)上,樣本通過(guò)BERT模型生成的特征向量包含豐富的領(lǐng)域語(yǔ)義信息,為此,本文提出通過(guò) 計(jì)算特征向量之間的余弦相似度來(lái)獲取樣本間的相似性,樣本表和dj之間的相似性由式(5)計(jì)算:
主動(dòng)學(xué)習(xí)是一個(gè)不斷循環(huán)學(xué)習(xí)的過(guò)程,在訓(xùn)練過(guò)程中,為選擇領(lǐng)域文本數(shù)據(jù)集乃中的待標(biāo)注樣本, 首先,通過(guò)式(4)選取D中價(jià)值最高的樣本集合;然后通過(guò)式(5)評(píng)估集合中樣本間的相似性 并去除冗余樣本,從中選擇有代表性的樣本集合并由專(zhuān)家進(jìn)行標(biāo)注.訓(xùn)練過(guò)程中,新標(biāo)注的樣 本集合被不斷添加到訓(xùn)練集Aram中,使用Aram對(duì)實(shí)體關(guān)系聯(lián)合抽取模型重新進(jìn)行訓(xùn)練,不斷更新模型參數(shù),進(jìn)而提高模型性能.
2.6領(lǐng)域KG的構(gòu)建
通過(guò)以上的實(shí)體關(guān)系聯(lián)合抽取模型和主動(dòng)學(xué)習(xí)方法,可從領(lǐng)域文本乃中得到構(gòu)建領(lǐng)域KG G的 三元組集合T = {?h, r, t? |h, t ∈ E, r ∈ R} .首先,融合主動(dòng)學(xué)習(xí)思想,選擇并標(biāo)注D中價(jià)值較高和具有
代表性的樣本認(rèn),將認(rèn)添加到訓(xùn)練集中.然后利用對(duì)BERT-BiGRU*-CRF實(shí)體關(guān)系聯(lián) 合抽取模型進(jìn)行迭代訓(xùn)練,并使用訓(xùn)練好的BERT-BiGRU*-CRF模型抽取D中的三元組集T =
{?h, r, t? |h, t ∈ E, r ∈ R},從而構(gòu)建領(lǐng)域KG.上述思想見(jiàn)算法1.
算法1領(lǐng)域KG構(gòu)建
輸入:領(lǐng)域文本數(shù)據(jù)集D ,訓(xùn)練模型的迭代次數(shù)凡pOch 輸出:領(lǐng)域KG
變量:實(shí)體關(guān)系聯(lián)合抽取模型的訓(xùn)練集從ram
1:計(jì)算D中樣本的價(jià)值和相似性,并標(biāo)注價(jià)值較高和具有代表性的樣本
2: Strain 氣~ Ds
3: b ^ 0
4: While b < #epoch do??? //訓(xùn)練 BERT-BiGRU*-CRF 模型
5: For each Strain in Dtrain do
6:? ^ ^ BERT (dtrain)?????? //將句子序列轉(zhuǎn)化為詞向量表示
7:????? —BiGRU*(y)?????? //學(xué)習(xí)句子上文語(yǔ)義特征
8:????? CRF(Qn)????? //獲取句子的標(biāo)簽序列
9:????? End for
10:?? bh b+1
11: End while
12:使用訓(xùn)練好的BERT-BiGRU*-CRF模型抽取數(shù)據(jù)集D中的三元組集T = {〈^r,0lM G E,r G fl}
13: Return G = (E, fl)
若領(lǐng)域文本數(shù)據(jù)集D中包含n個(gè)樣本,則步驟5—9的時(shí)間復(fù)雜度為O(n).若訓(xùn)練模型的迭代次 數(shù)為 Nepoch 次,即While循環(huán)執(zhí)行Nepoch 次,則算法1的時(shí)間復(fù)雜度為O (n . Wepoch).
3實(shí)驗(yàn)與結(jié)果分析
3.1實(shí)驗(yàn)設(shè)置
3.1.1數(shù)據(jù)集
為驗(yàn)證本文所提出的模型在垂直領(lǐng)域上實(shí)體關(guān)系聯(lián)合抽取的有效性,分別采用英文的金融領(lǐng)域 數(shù)據(jù)集和中文的少數(shù)民族領(lǐng)域數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集.《紐約時(shí)報(bào)》(The New York Times, NYT)數(shù)據(jù) 集包含150篇來(lái)自《紐約時(shí)報(bào)》的商業(yè)文章,由Riedel等[23]通過(guò)將Freebase知識(shí)庫(kù)中的關(guān)系與《紐約時(shí)報(bào)》語(yǔ)料庫(kù)對(duì)齊而生成.按照其中實(shí)體與關(guān)系的類(lèi)別,篩選出其中2043條與金融領(lǐng)域密切相關(guān)的語(yǔ)句 作為本文使用的金融領(lǐng)域數(shù)據(jù)集,用以檢驗(yàn)本文提出的模型在金融領(lǐng)域?qū)嶓w關(guān)系抽取的表現(xiàn).同時(shí), 從近十年人民網(wǎng)發(fā)布的少數(shù)民族新聞數(shù)據(jù)和百度百科、維基百科(中文)中篩選出1864條相關(guān)數(shù)據(jù), 并使用本文的標(biāo)注策略進(jìn)行標(biāo)注,作為少數(shù)民族領(lǐng)域數(shù)據(jù)集并驗(yàn)證本文方法在該領(lǐng)域的表現(xiàn).對(duì)上述 兩個(gè)數(shù)據(jù)集按照7 : 2 : 1的比例隨機(jī)劃分訓(xùn)練集、測(cè)試集和驗(yàn)證集.兩個(gè)數(shù)據(jù)集的具體信息如表1所示.
3.1.2對(duì)比模型
BERT-BiLSTM-CRF+RBert首先采用BERT模型生成詞向量,然后使用BiLSTM-CRF進(jìn)行實(shí) 體識(shí)別,最后使用BERT作為編碼器并連接全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系分類(lèi).
BiLSTM-CRF首先使用Word2vec[24]語(yǔ)言模型生成詞向量,然后使用BiLSTM進(jìn)行雙向編碼來(lái)預(yù) 測(cè)標(biāo)簽序列,最后利用CRF對(duì)BiLSTM的輸出進(jìn)行解碼以完成關(guān)系分類(lèi).
BiGRU-CRF首先使用Word2vec語(yǔ)言模型生成詞向量,然后用BiGRU循環(huán)編碼以獲取輸入序 列的特征,最后通過(guò)CRF輸出概率最大標(biāo)簽序列.
BERT-BiLSTM-CRF將BiLSTM-CRF序列標(biāo)注模型的Word2vec詞向量編碼模型替換為BERT 預(yù)訓(xùn)練語(yǔ)言模型.
BERT-BiGRU-CRF將BiGRU-CRF序列標(biāo)注模型的Word2vec詞向量編碼模型替換為BERT 預(yù)訓(xùn)練語(yǔ)言模型.
3.1.3評(píng)價(jià)指標(biāo)
在評(píng)價(jià)領(lǐng)域?qū)嶓w關(guān)系聯(lián)合抽取結(jié)果時(shí),若實(shí)體邊界被模型標(biāo)記正確,則認(rèn)為實(shí)體識(shí)別結(jié)果正確; 若實(shí)體邊界及所屬關(guān)系類(lèi)別均標(biāo)記正確,即三元組抽取正確,則判定關(guān)系抽取結(jié)果正確.所有實(shí)驗(yàn)結(jié) 果為3次測(cè)試結(jié)果取平均值以消除隨機(jī)影響.通過(guò)采用實(shí)體關(guān)系聯(lián)合抽取任務(wù)中通用的評(píng)價(jià)指標(biāo),即 通過(guò)準(zhǔn)確率((Precision, P)、召回率(Recall,R)均以及F1值(F1
-score)這3項(xiàng)指標(biāo)來(lái)評(píng)價(jià)模型的性能,并 將巧值作為評(píng)價(jià)模型性能的綜合性指標(biāo).P = Np/NF R = Np/NA F1 = (2 × P × R)/(P + R),其中Np為抽取的正確三元組數(shù)量,為抽取的三元組數(shù)量,Wa為測(cè)試集中標(biāo)記的三元組數(shù)量.
3.1.4實(shí)驗(yàn)環(huán)境
CPU 為 Intel(R) Core(TM) i7-10700K @3.80 GHz, GPU 為 NVIDIA Titan V,內(nèi)存為 128 GB,編 碼語(yǔ)言為 Python3.7,采用 Tensorflow2.1.0 框架.
3.1.5實(shí)驗(yàn)參數(shù)
在模型訓(xùn)練過(guò)程中,經(jīng)過(guò)多次實(shí)驗(yàn)微調(diào),設(shè)置的主要超參數(shù)值如表2所示.
3.2實(shí)驗(yàn)結(jié)果與分析
3.2.1金融領(lǐng)域?qū)嶓w關(guān)系聯(lián)合抽取的有效性
為了驗(yàn)證本文提出的BERT-BiGRU*-CRF模型在金融領(lǐng)域數(shù)據(jù)集上的有效性,按照面向主實(shí)體 的標(biāo)注策略來(lái)標(biāo)注數(shù)據(jù)集,并進(jìn)行不同模型的對(duì)比實(shí)驗(yàn),測(cè)試命名實(shí)體識(shí)別、關(guān)系抽取兩個(gè)任務(wù)的準(zhǔn) 確率、召回率以及巧值,具體結(jié)果如表3所示.
可以看出,本文提出的BERT-BiGRU*-CRF模型在實(shí)體識(shí)別和關(guān)系抽取任務(wù)上都取得最高的 巧值,說(shuō)明該模型能有效地抽取金融領(lǐng)域的實(shí)體和關(guān)系.相較于BERT-BiGRU-CRF模型,巧值在命 名實(shí)體識(shí)別任務(wù)和關(guān)系抽在取任務(wù)上分別提升了 1.32%和0.66%,綜合性能BiGRU*-CRF模型優(yōu)于 BiGRU-CRF模型,驗(yàn)證了 BiGRU*模型的有效性.同時(shí),基于Word2vec編碼方式的BiGRU*-CRF模 型在命名實(shí)體識(shí)別和關(guān)系抽取任務(wù)上的綜合巧值分別為69.28%和43.07%,優(yōu)于BiGRU-CRF模型 所對(duì)應(yīng)的巧值,也驗(yàn)證了 BiGRU*-CRF模型的有效性.
相較于基于BERT的流水線方法在命名實(shí)體識(shí)別和關(guān)系抽取的巧值(分別為71.46%和40.75%), 實(shí)體關(guān)系聯(lián)合抽取模型在關(guān)系抽取任務(wù)上模型性能有較大提升,其關(guān)系抽取結(jié)果的巧值增加了 7.93%,說(shuō)明實(shí)體關(guān)系聯(lián)合抽取方法能有效利用命名實(shí)體識(shí)別和關(guān)系抽取任務(wù)間的語(yǔ)義聯(lián)系,能進(jìn)一 步高效抽取重疊關(guān)系.以上實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的詞向量模型相比,BERT預(yù)訓(xùn)練語(yǔ)言模型能更好 地提取語(yǔ)義特征,具有更好的抽取效果.
3.2.2少數(shù)民族領(lǐng)域?qū)嶓w關(guān)系聯(lián)合抽取的有效性
為了驗(yàn)證本文提出的BERT-BiGRU*-CRF模型在少數(shù)民族領(lǐng)域數(shù)據(jù)集上的有效性,按照本文的 面向主實(shí)體的標(biāo)注策略進(jìn)行數(shù)據(jù)集,并進(jìn)行不同模型的對(duì)比實(shí)驗(yàn),測(cè)試命名實(shí)體識(shí)別、關(guān)系抽取兩個(gè) 任務(wù)的準(zhǔn)確率、召回率以及巧值,結(jié)果如表4所示.
可以看出,本文提出的BERT-BiGRU*-CRF模型在實(shí)體識(shí)別和關(guān)系抽取任務(wù)上同樣取得最高的 巧值,表明所提出的模型同樣適用于少數(shù)民族領(lǐng)域.相較于BERT-BiGRU-CRF模型,巧值在命名實(shí) 體識(shí)別任務(wù)和關(guān)系抽在取任務(wù)上分別提升了 2.4%和2.34%,表明BiGRU*-CRF模型的綜合性能優(yōu) 于BiGRU-CRF模型,說(shuō)明改進(jìn)的GRU神經(jīng)元能提升實(shí)體關(guān)系聯(lián)合抽取任務(wù)的效果.同時(shí),基于 Word2vec編碼方式的BiGRU*-CRF模型在命名實(shí)體識(shí)別和關(guān)系抽取任務(wù)上的巧值,高于BiGRU- CRF模型對(duì)應(yīng)任務(wù)的巧值,也驗(yàn)證了 BiGRU*-CRF模型的有效性.
雖然流水線方法的準(zhǔn)確率較高,但召回率偏低,導(dǎo)致朽值只有49.86%,通過(guò)對(duì)預(yù)測(cè)結(jié)果的分析發(fā) 現(xiàn),流水線方法很難預(yù)測(cè)重疊關(guān)系,而少數(shù)民族領(lǐng)域數(shù)據(jù)集具有實(shí)體分布密集、重疊關(guān)系多的特點(diǎn),是 導(dǎo)致流水線模型召回率偏低的主要原因.而B(niǎo)ERT- BiGRU*-CRF模型能夠達(dá)到69.83%的召回率,遠(yuǎn) 優(yōu)于基于BERT的流水線方法.基于BERT編碼方式的BiGRU*-CRF模型較基于Word2vec編碼的 模型巧值在命名實(shí)體識(shí)別任務(wù)上提升了 13.89%,關(guān)系抽取任務(wù)上提升了 11.06%,表明加入BERT預(yù) 訓(xùn)練語(yǔ)言模型能夠顯著提升實(shí)體關(guān)系抽取效果.
結(jié)合表3和表4, BERT-BiGRU*-CRF模型在金融領(lǐng)域數(shù)據(jù)集和少數(shù)民族領(lǐng)域數(shù)據(jù)集上都分別取 得了最高的巧值,說(shuō)明BERT-BiGRU*-CRF模型針對(duì)領(lǐng)域文本的實(shí)體關(guān)系聯(lián)合抽取任務(wù)的優(yōu)越性.
3.2.3重疊關(guān)系抽取的有效性
為了測(cè)試本文提出的BERT-BiGRU*-CRF模型能否有效抽取領(lǐng)域文本中的重疊關(guān)系,分別在金 融領(lǐng)域數(shù)據(jù)集和少數(shù)民族領(lǐng)域數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比不同模型對(duì)于重疊關(guān)系抽取的準(zhǔn)確率、召回率 以及巧值,結(jié)果如表5所示.
可以看出,在兩個(gè)領(lǐng)域數(shù)據(jù)集上,本文提出的BERT-BiGRU*-CRF模型對(duì)于重疊關(guān)系的抽取都 取得了最高的巧值,而流水線方法對(duì)于重疊關(guān)系抽取的準(zhǔn)確率和召回率遠(yuǎn)低于實(shí)體關(guān)系聯(lián)合抽取模 型,表明流水線方法很難預(yù)測(cè)重疊關(guān)系.基于BERT編碼方式的BiGRU*-CRF模型較基于Word2vec 編碼的模型,其巧值在金融領(lǐng)域數(shù)據(jù)集上提升了 5.66%,少數(shù)民族領(lǐng)域數(shù)據(jù)集上提升了 8.46%,表明 加入BERT預(yù)訓(xùn)練語(yǔ)言模型能夠根據(jù)單詞的上下文信息來(lái)獲得動(dòng)態(tài)的詞向量,使用自注意力機(jī)制獲 得雙向的語(yǔ)義特征,進(jìn)而大幅提升了重疊關(guān)系抽取的有效性.
3.2.4基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣方法性能評(píng)估
為驗(yàn)證本文所提基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣方法的有效性,針對(duì)金融領(lǐng)域數(shù)據(jù)集和少數(shù)民 族領(lǐng)域數(shù)據(jù)集,分別以完整的標(biāo)簽訓(xùn)練集和通過(guò)待標(biāo)注數(shù)據(jù)采樣篩選獲得的訓(xùn)練集,評(píng)估實(shí)體關(guān)系聯(lián) 合抽取模型的關(guān)系抽取性能,結(jié)果如表6所示.可以看出,隨著標(biāo)注樣本的增加,模型整體性能不斷提 升.在金融領(lǐng)域數(shù)據(jù)集上,當(dāng)獲得全部標(biāo)注數(shù)據(jù)的60%,并對(duì)模型重新進(jìn)行訓(xùn)練時(shí),模型性能與使用完 整標(biāo)簽訓(xùn)練集訓(xùn)練后的模型性能非常接近;在少數(shù)民族領(lǐng)域數(shù)據(jù)集上,當(dāng)獲得全部標(biāo)注數(shù)據(jù)的50%, 并對(duì)模型重新進(jìn)行訓(xùn)練時(shí),模型性能與使用完整標(biāo)簽訓(xùn)練集訓(xùn)練后的模型性能非常接近.實(shí)驗(yàn)結(jié)果證 明了本文所提基于主動(dòng)學(xué)習(xí)的待標(biāo)注數(shù)據(jù)采樣方法的有效性.
3.2.5參數(shù)影響
統(tǒng)一設(shè)置batch_size為32, GRU單元數(shù)量為256,測(cè)試dropout變化對(duì)綜合評(píng)價(jià)指標(biāo)巧值的影 響,如表7所示.分別將金融領(lǐng)域數(shù)據(jù)集和少數(shù)民族領(lǐng)域數(shù)據(jù)集上的dropout值設(shè)置為0.4和0.5, batch_size統(tǒng)一設(shè)置為32,測(cè)試GRU單元數(shù)量變化對(duì)綜合評(píng)價(jià)指標(biāo)巧值的影響,如表8所示.
在BERT-BiGRU*-CRF模型中,增加模型GRU單元數(shù)量,會(huì)在一定程度上改善模型性能,但隨 著GRU單元數(shù)量不斷增加,模型會(huì)出現(xiàn)過(guò)擬合問(wèn)題以及提高模型訓(xùn)練成本的問(wèn)題.通過(guò)加入 dropout可以減弱深層神經(jīng)網(wǎng)絡(luò)的過(guò)擬合效應(yīng),但dropout越大,舍棄的信息越多,模型性能也會(huì)慢慢 降低.因此,選定合適的GRU單元數(shù)量以及dropout值可有效提升BERT-BiGRU*-CRF模型性能以 及緩解由于訓(xùn)練樣本過(guò)少帶來(lái)的過(guò)擬合問(wèn)題.從表7和表8可知,在金融領(lǐng)域數(shù)據(jù)集和少數(shù)民族領(lǐng)域 數(shù)據(jù)集上,關(guān)系抽取任務(wù)的dropout分別為0.5和0.4時(shí),巧值達(dá)到最高;同時(shí)GRU單元數(shù)量為256 時(shí),BERT-BiGRU*-CRF模型實(shí)體關(guān)系聯(lián)合抽取的巧值達(dá)到最高,此時(shí)整個(gè)模型達(dá)到最優(yōu).
綜上,本文提出的BERT-BiGRU*-CRF模型針對(duì)不同垂直領(lǐng)域數(shù)據(jù)集,在實(shí)體關(guān)系聯(lián)合抽取任 務(wù)上巧值相較于其他方法均達(dá)到最高,說(shuō)明了本文模型的綜合性能優(yōu)越.在不同領(lǐng)域的關(guān)系抽取任 務(wù)上,相較其他同類(lèi)方法巧值均能達(dá)到1%?3%的提升,模型性能穩(wěn)定,說(shuō)明了 GRU改進(jìn)策略的優(yōu)異性.不同編碼方式下的實(shí)驗(yàn)結(jié)果,也驗(yàn)證了 BERT編碼方法的合理性.
4總結(jié)與展望
為獲取構(gòu)建領(lǐng)域知識(shí)圖譜的實(shí)體關(guān)系三元組集,本文以金融科技領(lǐng)域?yàn)榇?,提出一種融合主動(dòng) 學(xué)習(xí)的實(shí)體關(guān)系聯(lián)合抽取模型,采用一種面向主實(shí)體的標(biāo)注策略,將實(shí)體關(guān)系聯(lián)合抽取問(wèn)題轉(zhuǎn)化為序 列標(biāo)注問(wèn)題,并且基于BERT-BiGRU*-CRF模型實(shí)現(xiàn)了對(duì)于領(lǐng)域文本的實(shí)體關(guān)系抽取任務(wù).實(shí)驗(yàn)結(jié) 果證明,本文所提出的模型能夠有效地抽取領(lǐng)域文本數(shù)據(jù)中實(shí)體和實(shí)體間的重疊關(guān)系,但是,本文的 模型主要適用于抽取實(shí)體間存在的一對(duì)多重疊關(guān)系,而對(duì)于實(shí)體間多對(duì)多重疊關(guān)系的抽取效果不夠 理想.因此,未來(lái)工作考慮通過(guò)改進(jìn)面向主實(shí)體的標(biāo)注策略,從而進(jìn)一步提高對(duì)于實(shí)體間多對(duì)多重疊 關(guān)系抽取的準(zhǔn)確率.同時(shí),下一步工作考慮爬取并處理實(shí)際的金融文本數(shù)據(jù),并采用本文所提出的實(shí) 體關(guān)系聯(lián)合抽取模型來(lái)構(gòu)建金融領(lǐng)域知識(shí)圖譜.
[參考文獻(xiàn)]
[1]劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研宄與發(fā)展,2016, 53(3): 582-600.
[2]LI J, WANG Z, WANG Y, et al. Research on distributed search technology of multiple data sources intelligent information based on knowledge graph [J]. Journal of Signal Processing Systems, 2021, 93(2): 239-248.
[3]鐃子昀,張毅,劉俊濤,等.應(yīng)用知識(shí)圖譜的推薦方法與系統(tǒng)[J/OL].自動(dòng)化學(xué)報(bào),2020. (2020-07-09)[2021-08-05]. https://doi.org/ 10.16383/j.aas.c200128.
[4] LU X, PRAMANIK S, ROY R., et al. Answering complex questions by joining multi-document evidence with quasi knowledge graphs [C]//Proceedings of the 42nd International ACM SIGIR Conference. NewYork: ACM, 2019: 105-114.
[5]LEHMANN J, ISELE R., JAKOB M, et al. DBpedia - A large-scale, multilingual knowledge base extracted from Wikipedia [J]. Semantic Web, 2015, 6(2): 167-195.
[6] MAHDISOLTANI F, BIEGA J, SUCHANEK F. YAGO3: A knowledge base from multilingual Wikipedias [C/OL]//Proceedings of the 7th Biennial Conference on Innovative Data Systems Research. 2015. [2021-08-05]. https://suchanek.name/work/publications/ cidr2015.pdf.
[7] BOLLACKER K, COOK R, TUFTS P. Freebase: A shared database of structured general human knowledge [C] //Proceedings of the 22nd AAAI Conference on Artificial Intelligence. California: AAAI, 2007: 1962-1963.
[8] ELHAMMADI S, LAKSHMANAN L, NG R, et al. A high precision pipeline for financial knowledge graph construction [C]//Proceedings of the 28th International Conference on Computational Linguistics. Berlin: Springer, 2020: 967-977.
[9] YANG Y, WEI Z, CHEN Q, et al. Using external knowledge for financial event prediction based on graph neural networks [C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. Beijing: ACM, 2019: 2161-2164.
[10]龍軍,殷建平,祝恩,等.主動(dòng)學(xué)習(xí)研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2008(S(1): 300-304.
[11]HOCHREITER S, SCHMIDHUBER J. Long short-term memory [J]. Neural Computation, 1997, 9(8): 1735-1780.
[12]CHO K, MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [J]. Computer Science, 2014: 1724-1734.
[13]ZENG D, LIU K, LAI S, et al. Relation classification via convolutional deep neural network [C] //Proceedings of the 25th International Conference on Computational Linguistics. Pennsylvania: ACL, 2014: 2335-2344.
[14]XU Y, MOU L, GE L, et al. Classifying relations via long short term memory networks along shortest dependency paths [C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Pennsylvania: ACL, 2015: 1785-1794.
[15]MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures [C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Pennsylvania: ACL, 2016: 1105-1116.
[16]ZHENG S, WANG F, BAO H, et al. Joint extraction of entities and relations based on a novel tagging scheme [C] //Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Pennsylvania: ACL, 2017: 1227-1236.
[17]ZENG X, ZENG D, HE S, et al. Extracting relational facts by an end-to-end neural model with copy mechanism [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Pennsylvania: ACL, 2018: 506-514.
[18]HOULSBY N, HUSZaR F, GHAHRAMANI Z, et al. Bayesian active learning for classification and preference learning [EB/OL]. (2011-12-2(4) [2021-08-05]. https://arxiv.org/pdf/1112.5745.pdf.
[19]TANG P, HUANG S. Self-paced active learning: Query the right thing at the right time [C] //Proceedings of the 33rd AAAI Conference on Artificial Intelligence. California: AAAI, 2019: 5117-5124.
[20]TRAN V, NGUYEN N, FUJITA H, et al. A combination of active learning and self-learning for named entity recognition on Twitter using conditional random fields [J]. Knowledge-Based Systems, 2017, 132: 179-187.
[21]SHEN Y, YUN H, LIPTON Z, et al. Deep active learning for named entity recognition [EB/OL]. (2018-02-0(4) [2021-09-08]. https://arxiv.org/pdf/1707.05928.pdf.
[22]JACOB D,?? CHANG M, LEE K, et al. BERT: Pretraining of deep bidirectional transformers for language understanding [C] //
Proceedings???? of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. 2019: 4171-4186.
[23]RIEDEL S,?? YAO L, MCCALLUM A K. Modeling relations and their mentions without labeled text [C]//Proceedings of the 2010
European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2010: 148-163.
[24]郁可人,傅云斌,董啟文.基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的分布式詞向量研究進(jìn)展[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(5): 52-65.
(責(zé)任編輯:張晶)