熊常春 辜賢杰 張林
【摘要】知識圖譜在人工智能領(lǐng)域扮演了重要角色,在智能搜索、千人千面推薦、機(jī)器人助手等智能信息服務(wù)中創(chuàng)造了巨大價值。構(gòu)建知識圖譜不可或缺的工作是關(guān)系抽取,同時隨著基于深度學(xué)習(xí)的預(yù)訓(xùn)練、圖神經(jīng)網(wǎng)絡(luò)、遠(yuǎn)程監(jiān)督等研究與實踐的開展,關(guān)系抽取工作碩果累累。本論文總結(jié)了近幾年來基于深度學(xué)習(xí)的關(guān)系抽取研究進(jìn)展的同時,并就未來關(guān)系抽取研究與工業(yè)實踐工作存在的機(jī)遇與挑戰(zhàn)進(jìn)行了梳理。
【關(guān)鍵詞】關(guān)系抽取? 深度學(xué)習(xí)? 聯(lián)合學(xué)習(xí)? 遠(yuǎn)程監(jiān)督? 預(yù)訓(xùn)練
引言:在知識圖譜領(lǐng)域,Google做了很多開創(chuàng)性的工作,其概念最早來自于該公司2012年一篇博文,在這之前的語義網(wǎng)、鏈接數(shù)據(jù)的概念已經(jīng)流行,其初衷是讓搜索引擎能洞察用戶語義信息,提高信息搜索質(zhì)量和網(wǎng)絡(luò)服務(wù)體驗。知識圖譜在學(xué)術(shù)上來說可以解釋為是一種語義網(wǎng)絡(luò)或本體論,即我們口頭常說的多關(guān)系圖。目前一大批知識圖譜系統(tǒng)如KnowItAll、YAGO、DBpedia、Freebase、Probase、Microsoft Concept Graph和OpenKG等相繼建設(shè)起來。知識圖譜可以用RDF格式對事物、關(guān)系進(jìn)行形式化描述,目前在智能搜索系統(tǒng)、個性化推薦應(yīng)用和目標(biāo)導(dǎo)向型、閑聊型的智能助手系統(tǒng)等領(lǐng)域得到廣泛使用。
知識圖譜工程工作量相對來說比較大,內(nèi)容涉及比較多,其中知識抽取主要包括實體識別、關(guān)系抽取和事件抽取。“關(guān)系抽取[2]就是找出文本中的實體,同時區(qū)別實體間的語義關(guān)系”。即從待處理的文本中抽取<實體,關(guān)系,實體>集合。
傳統(tǒng)的實體關(guān)系抽取方法主要有基于特征向量、核函數(shù)和神經(jīng)網(wǎng)絡(luò)模型等多種基于模板、監(jiān)督或無監(jiān)督的方式方法,隨著研究和實踐的深入,當(dāng)前預(yù)訓(xùn)練模型在垂直和開放領(lǐng)域都取得不錯的效果。由于篇幅所限本文主要探討基于深度學(xué)習(xí)的關(guān)系抽取關(guān)鍵技術(shù)即:流水線、聯(lián)合學(xué)習(xí)、遠(yuǎn)程監(jiān)督和預(yù)訓(xùn)練等。
本文首先以知識圖譜框架體系為基礎(chǔ),以關(guān)系抽取核心技術(shù)為重點(diǎn),詳細(xì)闡述流水線學(xué)習(xí)、聯(lián)合學(xué)習(xí)、遠(yuǎn)程監(jiān)督、預(yù)訓(xùn)練模型的相關(guān)研究。其次介紹了關(guān)系抽取在金融、醫(yī)療、機(jī)器人助手等領(lǐng)域的相關(guān)應(yīng)用,最后討論了關(guān)系抽取技術(shù)研究和工業(yè)實踐所面臨的機(jī)遇和挑戰(zhàn)。
一、知識圖譜框架體系
知識圖譜(體系架構(gòu)如示意圖1)一般是從結(jié)構(gòu)化、非結(jié)構(gòu)化等授權(quán)數(shù)據(jù)、公開數(shù)據(jù)或者第三方數(shù)據(jù)中來,通過圖映射、D2R轉(zhuǎn)換、包裝器和知識抽取等多種方法獲取數(shù)據(jù)。經(jīng)過知識獲取(如實體識別、概念提取、關(guān)系抽取、新詞發(fā)現(xiàn))、知識融合(實體對齊、消歧、分類、規(guī)范化)、知識存儲(如圖數(shù)據(jù)庫Neo4j)、知識計算(知識表示、知識推理)以及后期的可視化等環(huán)節(jié)來為推薦、搜索、推理等應(yīng)用服務(wù)。
搭建工業(yè)級知識圖譜的方式多樣,大多數(shù)都采用自底向上的方式進(jìn)行建設(shè)。最底層是各種數(shù)據(jù)源,包括人、事、物和機(jī)器的相關(guān)數(shù)據(jù);中間層是通過信息抽取技術(shù)形成知識圖譜,最上層是語義搜索、輔助推薦及智能助手等應(yīng)用。
二、關(guān)系抽取的核心技術(shù)
隨著深度學(xué)習(xí)的發(fā)展,關(guān)系抽取相關(guān)綜述論文熱度不減,呈現(xiàn)百花齊放的態(tài)勢,關(guān)系抽取模型有流水線和聯(lián)合學(xué)習(xí)的監(jiān)督模型,以及后來的遠(yuǎn)程監(jiān)督、預(yù)訓(xùn)練模型等。
在有監(jiān)督的關(guān)系抽取技術(shù)中,卷積神經(jīng)網(wǎng)絡(luò)CNN首先被引進(jìn)來,隨后注意力機(jī)制Attention以及 Attention+Bi-LSTM等神經(jīng)網(wǎng)絡(luò)模型先后被借鑒。在這過程中有很多開創(chuàng)先河的研究者譬如Zeng D、Katiyar A等人。后期還有一些學(xué)者把增強(qiáng)學(xué)習(xí)也引用到關(guān)系抽取任務(wù)中,不過案例較少。
最近用于處理圖數(shù)據(jù)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)結(jié)模型GNN越來越引起研究者注意,在各個領(lǐng)域包括社交網(wǎng)絡(luò)、推薦系統(tǒng)以及生命制藥等領(lǐng)域都有不同的發(fā)展。圖神經(jīng)網(wǎng)絡(luò)一般分為:圖卷積網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)、圖自編碼器、圖生成網(wǎng)絡(luò)和圖時空網(wǎng)絡(luò)。鑒于一般深度學(xué)習(xí)模型只提取實體之間的關(guān)系,2019年Zhu Hao等人利用圖神經(jīng)網(wǎng)絡(luò)GNN實現(xiàn)關(guān)系抽取,由于GNN在復(fù)雜圖結(jié)構(gòu)建模方面的超強(qiáng)能力,在關(guān)系推理、鏈路預(yù)測方面取得了非常好的效果,架構(gòu)如圖2。
同時遠(yuǎn)程監(jiān)督學(xué)習(xí)方法也被借鑒到實體關(guān)系抽取中來,遠(yuǎn)程監(jiān)督就是將已有的知識庫“映射”到可以獲取的自有非結(jié)構(gòu)化數(shù)據(jù)中,從而生成大量的訓(xùn)練數(shù)據(jù),進(jìn)而為工業(yè)知識圖譜打磨出一個效果不錯的關(guān)系抽取器。學(xué)者們提出PCNN與多示例學(xué)習(xí)的融合方法、PCNN與注意力機(jī)制的融合方法、Ji GL等人提出在PCNN和 Attention的基礎(chǔ)上添加實體的描述信息方法等取得重大進(jìn)展,這些模型總體說來不但高效、而且成本低。
自2018年10月,Google公布BERT預(yù)訓(xùn)練模型后,關(guān)系抽取取得劃時代的進(jìn)步。
(一)流水線(Pipeline)學(xué)習(xí)
流水線方法中一般是基于RNN、CNN和LSTM模型。其中CNN模、CNN模型+ Attention注意力機(jī)制、LSTM 模型+最短依存路徑(SDP)、和LSTM+CNN結(jié)合等幾種模型表現(xiàn)較好。
Zeng 等人第一次借鑒卷積神經(jīng)網(wǎng)絡(luò)模型CNN思路來構(gòu)建關(guān)系抽取任務(wù),盡管設(shè)定的卷積核大小是固定的,能夠抽取到的特征相對來說也比較少,但是其F1值達(dá)到當(dāng)時的最高值82.7,是早期的CNN實現(xiàn)關(guān)系抽取的經(jīng)典方法。Thien Huu Nguyen等人把關(guān)系抽取、關(guān)系分類當(dāng)做兩個主要任務(wù),在Zeng等前人卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上且有別于使用多粒度卷積核進(jìn)行特征抽取,效果提升了0.1%。Santos Cicero Nogueira dos在Zeng等人基礎(chǔ)上創(chuàng)新性的優(yōu)化損失函數(shù)為Ranking loss函數(shù),F(xiàn)1值達(dá)到84.1,其在結(jié)構(gòu)上沒有什么區(qū)別,都是CNN+全連接。其主要創(chuàng)新點(diǎn)在:①模型為句子的每種關(guān)系學(xué)習(xí)一個向量表示:②訓(xùn)練過程中每個句子對應(yīng)一個正、負(fù)例;而且正例分?jǐn)?shù)要盡量高,其他類別分?jǐn)?shù)盡量低,其函數(shù)為:
L=log(1+exp(γ(m+sθ(x)y+))+log(1+exp(γ(m-+ sθ(x)c- )
為解決Santos解決方案的缺點(diǎn)——模型結(jié)構(gòu)缺陷,Zhou P等人利用Attention注意力機(jī)制以及Bi-LSTM ,雖然F1值84.0,但是操作方便簡單,為后續(xù)研究解放了思路。Cai R等人跳出CNN、RNN研究框架的限制,提出了一種 BRCNN 網(wǎng)絡(luò)模型即:雙通道LSTM +最短依賴路徑SDP模型,該論文的亮點(diǎn)比較突出,雙向進(jìn)行了融合,F(xiàn)1值達(dá)到歷史最高86.3。
(二)聯(lián)合學(xué)習(xí)(Joint Learning)
聯(lián)合學(xué)習(xí)模型主要解決以前模型存在三種問題:①錯誤傳播會累積,②子任務(wù)間關(guān)系依賴被忽視;③而且容易產(chǎn)生冗余實體。綜合來看,根據(jù)其研究模型的建模對象不同有參數(shù)共享和序列標(biāo)注兩類聯(lián)合學(xué)習(xí)方法:①參數(shù)共享就好比一個4*4*3的卷積核,這個卷積核內(nèi)48個參數(shù)被整張圖共享,而不會因為圖像內(nèi)位置不同而改變卷積核系數(shù);就關(guān)系抽取參數(shù)共享模型,解碼層目前探索出 Bi-LSTM、依賴樹和注意力機(jī)制等幾種變化來解決上述錯誤傳播等問題;②序列標(biāo)注有很多種方法,就關(guān)系抽取模型主要用了一種端到端模型的新標(biāo)注策略,目的是解決實體冗余問題。
M Miwa提出端到端實體關(guān)系聯(lián)合抽取開山巨作模型,首次將神經(jīng)網(wǎng)絡(luò)模型運(yùn)用到實體關(guān)系聯(lián)合抽取任務(wù)中,為后來很多研究工作者提供了參考和借鑒。隨后Zheng Suncong等人利用共享神經(jīng)網(wǎng)絡(luò)來進(jìn)行聯(lián)合學(xué)習(xí)。根據(jù)Miwa和Zheng等人的實踐,充分說明使用共享參數(shù)聯(lián)合學(xué)習(xí)比流水線學(xué)習(xí)方法有一定的優(yōu)勢(F1值約提高1%),這促使該方法成為當(dāng)時通用的研究與實踐方法。Zheng Suncong等人又提出不同的端到端模型,該方法優(yōu)美的將實體、關(guān)系聯(lián)合抽取工作看作序列標(biāo)注任務(wù),創(chuàng)新性的采用新標(biāo)注策略,能讓人眼前一亮的直接展示結(jié)果,成果當(dāng)然顯著,后來該篇論文不負(fù)眾望的被評為2017年ACL最佳論文。
(三)遠(yuǎn)程監(jiān)督學(xué)習(xí)
遠(yuǎn)程監(jiān)督關(guān)系抽取技術(shù)使用外部知識庫作為監(jiān)督源,基于一個小型標(biāo)注好的語料庫,自動對現(xiàn)有語料庫進(jìn)行標(biāo)注,這樣可以節(jié)省人工標(biāo)注成本,為研究或工業(yè)界的數(shù)據(jù)收集開啟了新紀(jì)元。
Mike Mintz等人第一個將遠(yuǎn)程監(jiān)督模型引用到關(guān)系抽取工作中。Zeng等人使用神經(jīng)網(wǎng)絡(luò)+遠(yuǎn)程監(jiān)督模型(如圖3),該論文成為當(dāng)時的扛鼎之作,其主要奉獻(xiàn)是:1)使用PCNN解決標(biāo)注問題即:主動學(xué)習(xí)文本特征,并有效提取實體對關(guān)鍵信息;2)使用多層實例解決錯誤標(biāo)簽問題。
Yankai Lin等人用注意力機(jī)制Attention來選取對關(guān)系提取有影響的句子,刷新了歷史最好記錄。后來Ji GL等人使用APCNN模型,具有兩大優(yōu)勢:①使用句子層注意力模型,同時像PCNN一樣,在一個包里選擇多個有效實例;②使用傳統(tǒng)CNN抽取實體特征,為預(yù)測關(guān)系提供描述信息。清華大學(xué)、復(fù)旦大學(xué)針對篇章級別、開放領(lǐng)域做了大量富有成效的研究。
(四)預(yù)訓(xùn)練模型
2018年10月,Google發(fā)布了預(yù)訓(xùn)練模型BERT在自然語言處理任務(wù)中的實驗結(jié)果,取代了特別有影響的殘差網(wǎng)絡(luò)效果,標(biāo)志著NLP工作取得劃時代的進(jìn)步。研究發(fā)現(xiàn)從word2vec到ELMo到BERT,是NLP把具體任務(wù)的工作逐漸上移到預(yù)訓(xùn)練產(chǎn)生詞向量的過程。BERT模型出現(xiàn)后,預(yù)訓(xùn)練詞向量級別變成句子級別,方便下游NLP應(yīng)用調(diào)用。BERT采納Masked Language Model(MLM)模型,解決“自己看到自己問題”,最終能生成雙向的語言表征。
2003年Mikolov T等人首次向世人展示了影響深遠(yuǎn)的word2vec模型,該模型采用無監(jiān)督的訓(xùn)練方法以得到詞嵌入,當(dāng)時取得巨大成功。后期谷歌、微軟等公司或?qū)W者提出基于語言模型的預(yù)訓(xùn)練方法。Matthew Peters等人提出了ELMo模型來取得深層的上下文表示。Alec Radford 等人提出了將LSTM更改成單向Transformer生成預(yù)訓(xùn)練模型 GPT,后來Logan Iv R L等人將語言模型和知識圖譜嵌入結(jié)合使用,Bosselut A等人將 GPT2 語言模型與種子知識圖譜相結(jié)合,不但可以生成新的種子圖,而且學(xué)習(xí)到其結(jié)構(gòu)和關(guān)系。Devlin等人提出了具有劃時代意義的雙向預(yù)訓(xùn)練模型BERT(ELMo、GPT和BERT架構(gòu)比較如圖四),采用Transformer雙向編碼器提取更為有效的信息;Soares L B等人提出一種通用目的關(guān)系抽取器,一種在零樣本和小樣本任務(wù)中效果比較突出的關(guān)系模型——像 BERT預(yù)訓(xùn)練,提取非常通用的關(guān)系。微軟研究者提出MASS模型,解決了BERT預(yù)訓(xùn)練過程Encoder-Decoder的相互脫離問題。同時清華大學(xué)的ERNIE、哈工大訊飛聯(lián)合實驗室在多個中文數(shù)據(jù)集上取得了當(dāng)時最好水平。當(dāng)然還有北京大學(xué)和騰訊聯(lián)合研究的基于垂直領(lǐng)域關(guān)系抽取模型也收獲不少,讀者還可以參考國內(nèi)清華大學(xué)劉知遠(yuǎn)團(tuán)隊論文以及中科院計算機(jī)所、復(fù)旦大學(xué)、西湖大學(xué)等NLP相關(guān)杰作。針對BERT比較耗時問題,You Y等人提出了LAMB優(yōu)化器,屬于通用的神經(jīng)網(wǎng)絡(luò)優(yōu)化器,無需大量調(diào)試超參數(shù),可以應(yīng)用的網(wǎng)絡(luò)也較多,最終該算法提速驚人,BERT訓(xùn)練從81.4小時縮短到76分。
三、典型應(yīng)用
經(jīng)過關(guān)系抽取,能使互聯(lián)網(wǎng)的信息服務(wù)更貼近人類思想,更能滿足人類所搜所要。充分運(yùn)用關(guān)系抽取構(gòu)建的知識圖譜,不但可以讓人類擁有開放的知識庫,而且還能找到一把開啟各個智慧行業(yè)的鑰匙。當(dāng)前關(guān)系抽取運(yùn)用在搜索、推薦和推理案例多而且價值巨大,其中今日頭條、谷歌Google Search等搜索、推薦技術(shù)服務(wù)于廣大人民大眾,創(chuàng)造了不可估量的價值;在垂直行業(yè)如在金融、醫(yī)療、電商和機(jī)器人助手等均有不少案例。平安科技基于BERT預(yù)訓(xùn)練的方法攻克的法律關(guān)系抽取模型,能從法律文書、合同等文本中實現(xiàn)關(guān)系抽取,從而獲得如人物與擔(dān)保、質(zhì)押、股權(quán)的機(jī)構(gòu)關(guān)系。同樣在醫(yī)療健康領(lǐng)域,中國中醫(yī)科學(xué)院構(gòu)建了6個中醫(yī)藥知識圖譜資源集,把各個醫(yī)學(xué)概念的語義關(guān)系,各個應(yīng)用系統(tǒng)的知識等鏈接起來,為人民大眾提供智能化的醫(yī)療健康服務(wù);中國科學(xué)院自動化研究所類腦智能研究中心通過文獻(xiàn)自動分析與挖掘,構(gòu)建了腦科學(xué)領(lǐng)域的腦結(jié)構(gòu)與各種認(rèn)知功能、腦疾病之間的關(guān)聯(lián)關(guān)系。另隨處可見外機(jī)器人助手出現(xiàn)在移動大廳、醫(yī)院大堂或大型游樂場,為人們提供智能客服或閑聊服務(wù)。
四、關(guān)系抽取面臨的挑戰(zhàn)
知識圖譜的構(gòu)建不光涉及人工智能具體技術(shù),而且觸摸到人類的思維運(yùn)作原理。在當(dāng)前行業(yè)數(shù)據(jù)之間差異性、數(shù)據(jù)分布不均性的情況下,要做好這項任務(wù)是極具挑戰(zhàn)的。我們可以嘗試從模型可解釋性這點(diǎn)上來優(yōu)化和建模,可以找尋“通用特征”(如常用知識庫)來豐富其他特征。
(一)降噪問題
噪音問題的研究到目前為止涌現(xiàn)出很多新思路,譬如基于圖譜的去噪方法就有空間域濾波、基于變換域濾波、偏微分方程、小波域濾波、全變分圖像去噪和形態(tài)學(xué)噪聲濾除器等;噪聲的研究范圍和深度也在不不斷擴(kuò)展,譬如有圖像去噪、音頻去噪、文本去噪等。噪聲問題是建立數(shù)據(jù)集的最大挑戰(zhàn),特別是在海量非結(jié)構(gòu)化數(shù)據(jù)方面存在準(zhǔn)確率過低,成本過大的問題。在研究實踐時需要把噪音樣例過濾掉,目前吸引了大批的學(xué)者。
(二)數(shù)據(jù)問題
自然語言處理領(lǐng)域主要有低資源、復(fù)雜樣本和數(shù)據(jù)質(zhì)量等主要問題。同時還有數(shù)據(jù)隱私問題:即使匿名情況下,也可以根據(jù)關(guān)系特征搜索出個人或企業(yè)不愿意公開的相關(guān)信息。這些問題將是未來一段時間內(nèi)研究的熱點(diǎn)。
(三)可解釋性問題
可解釋性屬于深度學(xué)習(xí)需要攻克的高地,需要打通機(jī)器感知和認(rèn)知,這將是關(guān)系抽取乃至整個人工智能領(lǐng)域的主要研究方向之一。隨著深度學(xué)習(xí)的研究和實踐,深度學(xué)習(xí)的可解釋性在不斷突破,特別是在智能助手系統(tǒng)、閱讀理解中取得一定成績。Keras的作者認(rèn)為:深度學(xué)習(xí)有可能把自然語言、數(shù)學(xué)方程等與已經(jīng)比較發(fā)達(dá)的符號處理系統(tǒng)融合。如果把深度學(xué)習(xí)的智能高效化優(yōu)勢;把符號處理系統(tǒng)已經(jīng)在垂直行業(yè)積累的專家知識、方法和思想;把知識圖譜、推理和上下文融合起來,最終以智能大腦的形式為人類美好生活服務(wù),那么未來可期。
參考文獻(xiàn):
[1]AMIT S.Introducing the knowledge graph[R].America:Official Blog of Google, 2012.
[2]肖仰華等著.知識圖譜-概念與技術(shù) [Z].網(wǎng)站,2020-03-20.
[3]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報,2016,45(4):589-606.
[4]Jacob Devlin,Ming-Wei Chang,Kenton Lee,and Kristina Toutanova.2018.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.arXiv preprint arXiv:1810.04805.
[5]Zeng D,Liu K,Lai S,Zhou G,Zhao J.Relation? classification? via convolutional? deep? neural network. In: Proc.of the 25th Intl Conf.on Computational Linguistics: Technical Papers (COLING 2014).2014.2335 2344.
[6]S.Zheng,F(xiàn).Wang,H.Bao,Y.Hao,P.Zhou,B.Xu,Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme,ACL.(2017).
[7]Zeng D,Liu K,Chen Y, Zhao J.Distant supervision for relation extraction via piecewise convolutional neural networks.In:Proc.of the Conf.on Empirical Methods in Natural Language Processing.2015.1753 1762.
[8]Zhu H, Lin Y,Liu Z,et al.Graph Neural Networks with Generated Parameters for Relation Extraction[J].2019.
[9]Zhang Z,Han X,Liu Z,Jiang X,Sun M and Liu Q.2019.ERNIE:Enhanced language representation with informative entities.arXiv preprint arXiv:1905.07129.
[10]Yuan Yao,Deming Ye,Peng Li,Xu Han,Yankai Lin,Zhenghao Liu,Zhiyuan Liu,Lixin Huang,Jie Zhou,Maosong Sun.DocRED:A Large-Scale Document-Level Relation Extraction Dataset.The 57th Annual Meeting of the Association for Computational Linguistics(ACL 2019).