国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融入互注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取研究

2023-05-12 12:34:28楊美芳
關(guān)鍵詞:圖譜注意力實(shí)體

楊美芳,楊 波

(江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,南昌 330013) (江西財(cái)經(jīng)大學(xué) 信息資源管理研究所,南昌 330013)

1 引 言

隨著人工智能技術(shù)的發(fā)展與應(yīng)用,學(xué)界與工業(yè)界開始加大對(duì)知識(shí)圖譜的關(guān)注和投入.百度CTO王海峰在世界人工智能大會(huì)上指出,如果知識(shí)是人類進(jìn)步的階梯,知識(shí)圖譜就是AI進(jìn)步的階梯[1].Gartner于2020年發(fā)布的人工智能技術(shù)成熟度曲線表明,知識(shí)圖譜的成熟度由2019年的創(chuàng)新出發(fā)階段一躍達(dá)到預(yù)期膨脹高峰階段且非常接近最高點(diǎn)[2].伴隨著知識(shí)圖譜在各行各業(yè)的深入應(yīng)用,通用型知識(shí)圖譜難以滿足領(lǐng)域個(gè)性化知識(shí)需求.鑒于此,國(guó)務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》中,明確將“領(lǐng)域知識(shí)計(jì)算引擎”作為“新一代人工智能關(guān)鍵共性技術(shù)”的第一要?jiǎng)?wù),提出要“具備概念識(shí)別、實(shí)體發(fā)現(xiàn)、屬性預(yù)測(cè)、知識(shí)演化建模和關(guān)系挖掘等能力,實(shí)現(xiàn)知識(shí)持續(xù)增量的自動(dòng)獲取,形成可泛化的領(lǐng)域知識(shí)圖譜”.

領(lǐng)域?qū)嶓w關(guān)系抽取是領(lǐng)域知識(shí)圖譜構(gòu)建的核心問題之一,旨在從領(lǐng)域文本中挖掘?qū)嶓w間的關(guān)系,進(jìn)而為構(gòu)建領(lǐng)域知識(shí)庫、語料庫與知識(shí)圖譜提供知識(shí)支持[3].目前,面向通用領(lǐng)域的實(shí)體關(guān)系抽取已取得較好的效果.然而,在風(fēng)險(xiǎn)領(lǐng)域特定情境下,受限于可靠標(biāo)注的領(lǐng)域知識(shí)與開放數(shù)據(jù)集的規(guī)模,以風(fēng)險(xiǎn)領(lǐng)域文本為核心的實(shí)體關(guān)系抽取仍面臨諸多挑戰(zhàn).

面向風(fēng)險(xiǎn)領(lǐng)域的實(shí)體關(guān)系抽取的核心難題在于領(lǐng)域文本中實(shí)體的類型多樣且實(shí)體間關(guān)系的交叉互聯(lián),該特性主要表現(xiàn)為風(fēng)險(xiǎn)領(lǐng)域文本數(shù)據(jù)中包含多種不同類型的實(shí)體,實(shí)體間可能產(chǎn)生多種類型的關(guān)系,且相同實(shí)體可能參與不同的關(guān)系對(duì)[4,5].以風(fēng)險(xiǎn)領(lǐng)域語料為例:“2016年8月25日海底撈爆出老鼠爬竄、餐具清洗不到位等一系列衛(wèi)生問題,當(dāng)日下午北京食藥監(jiān)局立即對(duì)其進(jìn)行調(diào)查,并通報(bào)存在的安全衛(wèi)生問題,對(duì)此海底撈發(fā)布公開致歉信,并對(duì)門店實(shí)現(xiàn)后廚公開可視化,落實(shí)食品安全主體責(zé)任,全面進(jìn)行限期整改.”該風(fēng)險(xiǎn)領(lǐng)域文本描述中包含6類風(fēng)險(xiǎn)實(shí)體與10組實(shí)體關(guān)系對(duì),且同一實(shí)體“海底撈”參與7組實(shí)體關(guān)系對(duì)中.領(lǐng)域文本中實(shí)體間關(guān)系錯(cuò)綜復(fù)雜且相互關(guān)聯(lián),容易導(dǎo)致模型的欠擬合,從而影響風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的性能.因此,風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取模型需充分理解文本語義層面的信息,而并非簡(jiǎn)單的語法或字詞信息.

早期的領(lǐng)域?qū)嶓w關(guān)系抽取主要采用基于規(guī)則或統(tǒng)計(jì)學(xué)習(xí)的方法[6,7],這些方法需預(yù)先人工抽取大量的領(lǐng)域特征集,耗時(shí)費(fèi)力且抽取效果參差不齊.近年來,研究者嘗試使用深度神經(jīng)網(wǎng)絡(luò)方法進(jìn)行領(lǐng)域?qū)嶓w關(guān)系抽取[8,9].此類方法可減少模型對(duì)特征工程的依賴,有效提高模型的訓(xùn)練效率,同時(shí)能夠挖掘領(lǐng)域?qū)嶓w間深層次的特征與聯(lián)系,進(jìn)一步提升模型的抽取性能.最近,有學(xué)者將注意力機(jī)制成功應(yīng)用于實(shí)體關(guān)系抽取中,并在模型訓(xùn)練效率與抽取性能方面獲得較好的效果[10,11].然而,這些方法均為通用領(lǐng)域?qū)嶓w關(guān)系抽取模型向特定領(lǐng)域文本關(guān)系抽取的簡(jiǎn)單遷移,仍未解決風(fēng)險(xiǎn)領(lǐng)域文本中豐富的語義信息與復(fù)雜的實(shí)體關(guān)系給模型帶來的數(shù)據(jù)噪聲問題.

針對(duì)風(fēng)險(xiǎn)領(lǐng)域文本特點(diǎn)與領(lǐng)域?qū)嶓w關(guān)系抽取的最新進(jìn)展,本文提出基于知識(shí)圖譜與文本互注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取模型.該模型引入了風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜與文本的互注意力機(jī)制,運(yùn)用各自特有的信息輔助彼此相互學(xué)習(xí),并結(jié)合領(lǐng)域知識(shí)圖譜“量少質(zhì)優(yōu)”和領(lǐng)域文本“規(guī)模效應(yīng)”的特點(diǎn),充分挖掘知識(shí)圖譜中的隱性知識(shí),以此開展大規(guī)模領(lǐng)域語料文本中的知識(shí)深入挖掘與學(xué)習(xí),實(shí)現(xiàn)已有領(lǐng)域知識(shí)與機(jī)器深度學(xué)習(xí)的優(yōu)勢(shì)互補(bǔ).

2 相關(guān)研究

領(lǐng)域?qū)嶓w關(guān)系抽取的本質(zhì)是領(lǐng)域?qū)嶓w關(guān)系識(shí)別問題,其任務(wù)在于挖掘蘊(yùn)含于特定領(lǐng)域?qū)嶓w間類型多樣化的語義關(guān)系,挖掘結(jié)果通常用于構(gòu)建或動(dòng)態(tài)更新已有的領(lǐng)域知識(shí)圖譜.領(lǐng)域?qū)嶓w關(guān)系抽取的相關(guān)研究從基于統(tǒng)計(jì)方法的分類模型向深度學(xué)習(xí)模型逐漸演進(jìn).早期的領(lǐng)域?qū)嶓w關(guān)系抽取大多采用基于統(tǒng)計(jì)特征的分類學(xué)習(xí)方法,其核心在于從領(lǐng)域文本中抽取語義特征,并運(yùn)用支持向量機(jī)(SVM)[12]、條件隨機(jī)場(chǎng)(CRF)[13]與最大熵[14]等模型進(jìn)行關(guān)系分類.Zhao等人運(yùn)用SVM的核函數(shù)表征領(lǐng)域文本中的詞句語法信息,并利用SVM分類模型在ACE競(jìng)賽數(shù)據(jù)集上取得較好的效果[15].Culotta等人將條件隨機(jī)場(chǎng)應(yīng)用到領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)中,同時(shí)充分利用詞性、上下文等特征進(jìn)一步提高關(guān)系抽取的性能[16].Mikolov等人提出了融合詞性、實(shí)體類型與依存樹等特征的最大熵分類模型,該模型驗(yàn)證了多層次的語言特征能夠有效提升領(lǐng)域?qū)嶓w關(guān)系抽取的效果[17].此類方法雖然在領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)上取得了較好的效果,但往往依賴于大量的人工干預(yù),如通過繁瑣的特征工程獲取領(lǐng)域文本特征.

與傳統(tǒng)基于統(tǒng)計(jì)特征的領(lǐng)域?qū)嶓w關(guān)系抽取相比,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法無需進(jìn)行大量的人工特征篩選,為通用領(lǐng)域?qū)嶓w關(guān)系抽取研究提供了新的方向.此類方法通常采用基礎(chǔ)神經(jīng)網(wǎng)絡(luò)模型將領(lǐng)域?qū)嶓w關(guān)系抽取問題轉(zhuǎn)換為文本分類問題,具有代表性的方法是循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)與卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)[18,19].Socher等人采用RNN模型學(xué)習(xí)領(lǐng)域文本中詞句間關(guān)系路徑的向量表示,從而用于領(lǐng)域?qū)嶓w關(guān)系分類[20].RNN模型能夠有效學(xué)習(xí)領(lǐng)域文本上下文的依賴信息,但很難發(fā)掘詞句層面的關(guān)系特征.王林玉等人運(yùn)用CNN卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域文本詞性與實(shí)體位置等特征,該方法可將文本中的實(shí)體語義信息融入關(guān)系抽取模型中,能夠有效提升關(guān)系抽取性能[21].CNN模型重點(diǎn)關(guān)注了領(lǐng)域文本中的局部信息,而對(duì)于全局信息的學(xué)習(xí)能力不足.鑒于此,有學(xué)者在基于神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取方法上提出相應(yīng)改進(jìn).Lin等人將CNN模型與注意力機(jī)制相結(jié)合,進(jìn)一步對(duì)句級(jí)別的特征進(jìn)行語義編碼與深度學(xué)習(xí)[22].

近年來,以知識(shí)圖譜與深度學(xué)習(xí)為支撐的理論與方法為風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取問題的研究提供了有效的解決方案.He等人運(yùn)用CNN基礎(chǔ)模型對(duì)該問題進(jìn)行建模并在工業(yè)風(fēng)險(xiǎn)領(lǐng)域數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,CNN模型所學(xué)習(xí)的風(fēng)險(xiǎn)領(lǐng)域局部特征有利于表達(dá)高密度實(shí)體對(duì)的特性,而對(duì)于相距較遠(yuǎn)的實(shí)體對(duì)缺乏辨識(shí)能力[23].肖毅等人運(yùn)用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)BiLSTM對(duì)企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)文本信息進(jìn)行特征抽取,然后通過池化層對(duì)隱藏層輸出進(jìn)一步編碼,最后通過特征向量合并的方式傳入softmax層進(jìn)行模型訓(xùn)練與分類[24].雖然BiLSTM模型有效解決了CNN模型的長(zhǎng)層依賴問題,但對(duì)風(fēng)險(xiǎn)領(lǐng)域文本信息重要性的區(qū)分能力不足,仍無法適應(yīng)風(fēng)險(xiǎn)領(lǐng)域復(fù)雜的實(shí)體關(guān)系抽取任務(wù).隨后,有學(xué)者將注意力機(jī)制引入CNN模型,并驗(yàn)證了該模型在風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)中的有效性.Su等人將注意力機(jī)制融入CNN模型的池化層,進(jìn)一步對(duì)風(fēng)險(xiǎn)領(lǐng)域文本中的噪聲數(shù)據(jù)進(jìn)行過濾,從而使模型更關(guān)注領(lǐng)域文本短語級(jí)特征的學(xué)習(xí)[25].然而,融合注意力機(jī)制的CNN模型仍存在梯度消失的問題,無法對(duì)風(fēng)險(xiǎn)領(lǐng)域篇章級(jí)文本進(jìn)行依賴信息的學(xué)習(xí).

隨著領(lǐng)域知識(shí)圖譜理論與技術(shù)的發(fā)展與完善,有學(xué)者以現(xiàn)有的領(lǐng)域小規(guī)模知識(shí)圖譜為指導(dǎo),充分提取與利用其中的語義信息輔助領(lǐng)域?qū)嶓w關(guān)系的自動(dòng)抽取[26].基于此,本文引入新穎的互注意力機(jī)制,允許小規(guī)模領(lǐng)域知識(shí)圖譜與大規(guī)模領(lǐng)域文本利用各自特有的信息進(jìn)行相互學(xué)習(xí).在領(lǐng)域知識(shí)圖譜的指導(dǎo)下,關(guān)系抽取模型中的噪聲數(shù)據(jù)被削弱.同時(shí),領(lǐng)域文本關(guān)系特征被反饋回知識(shí)圖譜模型,從而進(jìn)一步增強(qiáng)對(duì)訓(xùn)練影響較大的領(lǐng)域知識(shí)權(quán)重.知識(shí)圖譜表示學(xué)習(xí)模型與領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型在訓(xùn)練推進(jìn)過程中通過相互指導(dǎo)逐步強(qiáng)化各自效果.因此,本文針對(duì)風(fēng)險(xiǎn)領(lǐng)域文本的特征與差異性,同時(shí)考慮模型整體訓(xùn)練的效率,提出基于知識(shí)圖譜與文本互注意力的關(guān)系抽取框架,用于提升實(shí)體關(guān)系抽取在大規(guī)模風(fēng)險(xiǎn)領(lǐng)域文本上的性能表現(xiàn).

3 方法與關(guān)鍵問題

基于知識(shí)圖譜與文本互注意力的關(guān)系抽取框架主要包括知識(shí)表示學(xué)習(xí)與基于互注意力的聯(lián)合學(xué)習(xí)模型.領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型的核心在于運(yùn)用深度神經(jīng)網(wǎng)絡(luò)方法挖掘蘊(yùn)含于領(lǐng)域文本中的語義信息,并將語義信息所描述的關(guān)系嵌入低維空間進(jìn)行關(guān)系抽取.領(lǐng)域文本關(guān)系表示學(xué)習(xí)是基于關(guān)系實(shí)例的表示學(xué)習(xí),其效果主要取決于量少質(zhì)優(yōu)的基準(zhǔn)表示向量.另外,相同類型的關(guān)系表示向量具有聚集性,提供一定量的基準(zhǔn)關(guān)系表示向量能夠有效避免單個(gè)表示向量的偏差.因此,領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型適用于小規(guī)模知識(shí)圖譜指導(dǎo)下的語義關(guān)系學(xué)習(xí).此外,領(lǐng)域文本關(guān)系表示學(xué)習(xí)是基于詞嵌入表示向量進(jìn)行學(xué)習(xí),而詞嵌入表示向量的學(xué)習(xí)無需標(biāo)注語料,因而可以充分發(fā)揮大規(guī)模領(lǐng)域文本語料集的作用.

由此可見,在小規(guī)模知識(shí)圖譜的指導(dǎo)下,從領(lǐng)域文本關(guān)系表示學(xué)習(xí)入手開展風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取具有其獨(dú)特的優(yōu)勢(shì).既可以發(fā)揮大規(guī)模領(lǐng)域文本語料集的作用,又可以充分發(fā)揮小規(guī)模知識(shí)圖譜的指導(dǎo)作用.鑒于此,本文將領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型與領(lǐng)域知識(shí)圖譜表示學(xué)習(xí)模型聯(lián)合起來進(jìn)行統(tǒng)一的關(guān)系抽取.該聯(lián)合學(xué)習(xí)框架將詞句與實(shí)體、文本關(guān)系模式與圖譜關(guān)系模式進(jìn)行全面對(duì)齊,使得它們的特征能夠充分融合,同時(shí)讓各模型能夠在統(tǒng)一的連續(xù)空間中同時(shí)訓(xùn)練學(xué)習(xí).在領(lǐng)域文本與知識(shí)圖譜全面對(duì)齊的基礎(chǔ)上,為進(jìn)一步解決實(shí)體間關(guān)系的交叉互聯(lián)以及遠(yuǎn)程監(jiān)督標(biāo)注存在噪聲數(shù)據(jù)的問題,本文在聯(lián)合學(xué)習(xí)框架中融入新穎的互注意力機(jī)制,允許知識(shí)圖譜與領(lǐng)域文本模型運(yùn)用各自特有的語義信息來輔助彼此進(jìn)行相互學(xué)習(xí),從而有效提升風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取性能.

3.1 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系判定思路

本文研究的問題為知識(shí)圖譜指導(dǎo)下風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取,即給定風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w及其對(duì)應(yīng)的領(lǐng)域文本,判定領(lǐng)域?qū)嶓w間存在的關(guān)系類型.根據(jù)領(lǐng)域?qū)嶓w關(guān)系抽取的研究成果并結(jié)合風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的特點(diǎn),本文通過實(shí)體關(guān)系約束條件判定實(shí)體間存在的關(guān)系類型,如表1所示.由表1可知,大規(guī)模風(fēng)險(xiǎn)領(lǐng)域文本語料集可用于訓(xùn)練實(shí)體關(guān)系表示向量;而小規(guī)模領(lǐng)域知識(shí)圖譜既可用于構(gòu)造實(shí)體類型約束,還可以作為領(lǐng)域?qū)嶓w關(guān)系抽取模型訓(xùn)練的基準(zhǔn)表示向量.有研究表明,少量質(zhì)優(yōu)的領(lǐng)域知識(shí)圖譜可高效的生成領(lǐng)域文本關(guān)系表示向量[27].因此,本文提出同時(shí)滿足實(shí)體類型約束、關(guān)系判別約束與事實(shí)關(guān)聯(lián)約束的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取思路,如圖1所示.圖1所示的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取思路既能夠發(fā)揮大規(guī)模領(lǐng)域文本與小規(guī)模領(lǐng)域知識(shí)圖譜的各自作用,又能緩解模型對(duì)人工標(biāo)注語料的過度依賴.

表1 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系判定的約束條件Table 1 Risk field entity relationship decision constraint

圖1 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取思路Fig.1 Risk field entity relationship extraction ideas

3.2 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取方案與關(guān)鍵問題

基于上述風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取思路,結(jié)合當(dāng)前風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取與注意力機(jī)制的相關(guān)研究,本文將風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)劃分為4個(gè)子任務(wù),如圖2所示.風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)包括4個(gè)關(guān)鍵問題:1)風(fēng)險(xiǎn)領(lǐng)域小規(guī)模知識(shí)圖譜的構(gòu)建與領(lǐng)域?qū)嶓w關(guān)系類型約束的表示;2)基于領(lǐng)域未標(biāo)注文本與知識(shí)圖譜的表示學(xué)習(xí)問題;3)基于互注意力機(jī)制的聯(lián)合學(xué)習(xí)問題;4)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取問題.

圖2 融入互注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取流程Fig.2 Integration of risk-related risk sector entity

整個(gè)過程形成具有一定可靠性的動(dòng)態(tài)知識(shí)抽取模式.本節(jié)針對(duì)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的關(guān)鍵問題予以闡述,其中具體的抽取方法可視不同領(lǐng)域?qū)嵺`情況進(jìn)行相應(yīng)的調(diào)整.

3.2.1 實(shí)體類型約束規(guī)則的構(gòu)建

風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w類型約束規(guī)則包括領(lǐng)域?qū)嶓w類型與實(shí)體間關(guān)系的類型.該約束規(guī)則是針對(duì)特定的風(fēng)險(xiǎn)領(lǐng)域的實(shí)體及其關(guān)系,且要求領(lǐng)域知識(shí)具有高度的概括性與準(zhǔn)確性.風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w類型約束規(guī)則的構(gòu)建包括風(fēng)險(xiǎn)領(lǐng)域小規(guī)模知識(shí)圖譜的構(gòu)建以及風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系類型的界定與實(shí)體約束規(guī)則的表示.

1)風(fēng)險(xiǎn)領(lǐng)域小規(guī)模知識(shí)圖譜的構(gòu)建

風(fēng)險(xiǎn)領(lǐng)域小規(guī)模知識(shí)圖譜對(duì)領(lǐng)域知識(shí)的精確度要求較高.因此,本文在前期對(duì)風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜研究的基礎(chǔ)上,再借鑒清華大學(xué)知識(shí)工程實(shí)驗(yàn)室提出的“四步法”進(jìn)行風(fēng)險(xiǎn)領(lǐng)域小規(guī)模知識(shí)圖譜的構(gòu)建[28,29].風(fēng)險(xiǎn)領(lǐng)域小規(guī)模知識(shí)圖譜的構(gòu)建過程如圖3所示,具體內(nèi)容如下.

圖3 風(fēng)險(xiǎn)領(lǐng)域小規(guī)模知識(shí)圖譜的構(gòu)建過程Fig.3 Construction process of small-scale knowledge maps in risk

首先,風(fēng)險(xiǎn)領(lǐng)域本體構(gòu)建.基于項(xiàng)目合作單位搜集的風(fēng)險(xiǎn)領(lǐng)域數(shù)據(jù)資源,以及通過網(wǎng)絡(luò)爬蟲與信息抽取等技術(shù)獲取的公開風(fēng)險(xiǎn)數(shù)據(jù),本文運(yùn)用OWL本體建模工具與OpenIE知識(shí)抽取方法,并結(jié)合風(fēng)險(xiǎn)領(lǐng)域?qū)<业闹笇?dǎo)意見,完成風(fēng)險(xiǎn)領(lǐng)域本體知識(shí)庫的構(gòu)建.

其次,風(fēng)險(xiǎn)領(lǐng)域文本語義自動(dòng)標(biāo)注.本文將獲取的公開風(fēng)險(xiǎn)數(shù)據(jù)作為語義標(biāo)注的對(duì)象,并以風(fēng)險(xiǎn)領(lǐng)域本體知識(shí)庫作為標(biāo)注依據(jù),運(yùn)用文本標(biāo)注系統(tǒng)進(jìn)行自動(dòng)語義標(biāo)注,最終形成已標(biāo)注的風(fēng)險(xiǎn)領(lǐng)域文本.

再次,風(fēng)險(xiǎn)領(lǐng)域外源數(shù)據(jù)補(bǔ)全.按照風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜的本體結(jié)構(gòu),從結(jié)構(gòu)化的風(fēng)險(xiǎn)領(lǐng)域外部數(shù)據(jù)庫中獲取相關(guān)實(shí)體、關(guān)系及其類型,這將作為風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜重要的知識(shí)來源.

最后,風(fēng)險(xiǎn)領(lǐng)域知識(shí)抽取與圖譜構(gòu)建.針對(duì)半結(jié)構(gòu)化與非結(jié)構(gòu)化風(fēng)險(xiǎn)領(lǐng)域數(shù)據(jù),本文將已標(biāo)注的風(fēng)險(xiǎn)領(lǐng)域本體知識(shí)庫作為標(biāo)注數(shù)據(jù)完成實(shí)體關(guān)系及其類型的抽取,同時(shí)結(jié)合知識(shí)元與神經(jīng)網(wǎng)絡(luò)等方法實(shí)現(xiàn)有效知識(shí)元的融合[30].在此基礎(chǔ)上,本文通過知識(shí)分類、推演及關(guān)聯(lián)挖掘等推理操作發(fā)現(xiàn)風(fēng)險(xiǎn)領(lǐng)域新知識(shí),從而進(jìn)一步擴(kuò)充風(fēng)險(xiǎn)領(lǐng)域知識(shí).最終將風(fēng)險(xiǎn)領(lǐng)域知識(shí)存儲(chǔ)在Neo4J圖數(shù)據(jù)庫中,形成風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜[31].

2)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系類型的界定與實(shí)體約束規(guī)則的表示

風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系類型的界定需要領(lǐng)域?qū)<乙欢ǔ潭鹊膮⑴c,但本文中的領(lǐng)域?qū)<腋鼈?cè)重于對(duì)領(lǐng)域?qū)嶓w類型及實(shí)體關(guān)系等知識(shí)規(guī)律的描述,而非傳統(tǒng)知識(shí)圖譜構(gòu)建中提供的領(lǐng)域中具體的實(shí)體關(guān)聯(lián)知識(shí).此方案設(shè)計(jì)的優(yōu)勢(shì)在于,既能夠避免出現(xiàn)大量窮舉式的繁瑣工作,又能有效挖掘領(lǐng)域?qū)<宜鶕碛械碾[性知識(shí).風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系類型的界定方法包括兩個(gè)方面,一方面可以通過“自頂向下”的方式列舉風(fēng)險(xiǎn)領(lǐng)域常見的實(shí)體類型與實(shí)體關(guān)系約束;另一方面可以通過“自底向上”的方式統(tǒng)計(jì)領(lǐng)域圖譜中知識(shí)結(jié)構(gòu)較復(fù)雜的實(shí)體關(guān)聯(lián)類型及其組成實(shí)體類型的約束.風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系類型界定的過程中,本文采用三元組表示實(shí)體約束規(guī)則,如<實(shí)體類型1,實(shí)體類型2,實(shí)體關(guān)系類型>.

3.2.2 基于領(lǐng)域未標(biāo)注文本與知識(shí)圖譜的表示學(xué)習(xí)模型

1)風(fēng)險(xiǎn)領(lǐng)域詞嵌入的向量表示

近年來,廣泛適用的詞嵌入表示受到學(xué)者們的關(guān)注,尤其是在深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型中,詞嵌入向量常用于神經(jīng)網(wǎng)絡(luò)模型的輸入,而詞嵌入向量的質(zhì)量對(duì)領(lǐng)域?qū)嶓w關(guān)系抽取性能具有重要影響.

傳統(tǒng)的詞向量方法對(duì)于領(lǐng)域文本中的每個(gè)字詞均適用相同的向量進(jìn)行表示,而實(shí)際的風(fēng)險(xiǎn)領(lǐng)域文本中,不同語境中的字詞可能具有不同的含義.針對(duì)這一問題,Perters等人提出基于上下文相關(guān)的詞向量表示模型ELMo[32].該模型通過詞嵌入的雙向神經(jīng)網(wǎng)絡(luò)提取領(lǐng)域文本上下文特征,從而獲取具有上下文語義的詞向量.ELMo模型最早應(yīng)用于英文領(lǐng)域,將空格切分的英文單詞特征化后作為輸入進(jìn)行訓(xùn)練學(xué)習(xí).隨后,Che等人將ELMo模型應(yīng)用于中文領(lǐng)域.而中文領(lǐng)域文本無空格切分,因此他們首先利用中文分詞工具對(duì)文本進(jìn)行分詞,然后使用ELMo模型訓(xùn)練中文詞向量[33].雖然ELMo模型能夠有效表示文本上下文語義信息,但未針對(duì)漢字特點(diǎn)進(jìn)行學(xué)習(xí),無法獲取字詞內(nèi)部的結(jié)構(gòu)信息.因此,本文運(yùn)用基于筆畫的ELMo模型訓(xùn)練風(fēng)險(xiǎn)領(lǐng)域詞向量,通過引入筆畫序列既能刻畫漢字的內(nèi)部結(jié)構(gòu),又能描述字詞間內(nèi)在關(guān)系.筆畫ELMo模型的優(yōu)勢(shì)在于:1)傳統(tǒng)的字符ELMo以字符向量作為實(shí)體抽取模型的輸入,將導(dǎo)致低頻字與未登錄字難以獲取準(zhǔn)確的特征向量.但筆畫ELMo能夠根據(jù)筆畫序列生成任意的字向量,從而緩解低頻字或未登錄字存在的問題;2)傳統(tǒng)的字符ELMo難以獲取漢子的內(nèi)部結(jié)構(gòu)特征,而筆畫ELMo能夠在大規(guī)模領(lǐng)域文本上通過輸入漢字筆畫特征學(xué)習(xí)字詞間的內(nèi)在關(guān)系,進(jìn)一步增強(qiáng)領(lǐng)域文本的語義表示能力.筆畫ELMo嵌入預(yù)訓(xùn)練語言模型結(jié)構(gòu)如圖4所示.

圖4 筆畫ELMo嵌入預(yù)訓(xùn)練語言模型Fig.4 Strike ELMO embedded pre-training language model

表2 筆畫信息映射表Table 2 Stroke information mapping table

在此基礎(chǔ)上,本文運(yùn)用筆畫ELMo模型對(duì)企業(yè)大規(guī)模語料進(jìn)行預(yù)訓(xùn)練.針對(duì)后續(xù)具體企業(yè)風(fēng)險(xiǎn)領(lǐng)域文本的表示,本文通過筆畫ELMo模型的中間層線性合并獲取文本字向量.筆畫ELMo模型中雙向LSTM的2K+1層表示為公式(1):

(1)

(2)

其中,wj表示雙向LSTM模型各層的標(biāo)準(zhǔn)化權(quán)重,σ是筆畫ELMo模型的優(yōu)化參數(shù).

因此,筆畫ELMo模型能有效刻畫漢字內(nèi)部結(jié)構(gòu)特征,并能有效學(xué)習(xí)風(fēng)險(xiǎn)領(lǐng)域文本上下文的語義關(guān)系,從而增強(qiáng)詞向量表示能力.

2)知識(shí)圖譜表示學(xué)習(xí)模型

(3)

其中,P(KGrd|ξE,ξR)為條件概率,用于刻畫風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系嵌入表示向量對(duì)知識(shí)圖譜的表征能力,即能夠找到最好的嵌入表示最大限度的使KGrd中的事實(shí)概率變大.而知識(shí)圖譜表示學(xué)習(xí)模型可將該條件概率轉(zhuǎn)化為P(e1|(r,e2),ξE,ξR)、P(e1|(r,e2),ξE,ξR)和P(r|(e1,e2),ξE,ξR).

對(duì)于風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜中的實(shí)體對(duì)(e1,e2),本文定義潛在的關(guān)系向量re1e2表示實(shí)體向量e1到實(shí)體向量e2的關(guān)聯(lián)關(guān)系,具體形式為公式(4):

re1e2=e1-e2

(4)

與此同時(shí),風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜中的三元組存在顯式關(guān)系向量r′描述實(shí)體e1和實(shí)體e2之間的關(guān)聯(lián)關(guān)系.因此,三元組(e1,r,e2)的能量函數(shù)為公式(5):

(5)

其中b為偏置向量.基于能量函數(shù),條件概率P(e1|(r,e2),ξE,ξR)可表示為公式(6):

(6)

類似的,可以定義P(e1|(r,e2),ξE,ξR)和P(r|(e1,e2),ξE,ξR)的條件概率.為適應(yīng)知識(shí)圖譜與領(lǐng)域文本的聯(lián)合學(xué)習(xí),本文引入TransD對(duì)知識(shí)圖譜中的三元組進(jìn)行編碼和嵌入,具體如公式(7):

(7)

其中,rn,e1n,e2n均用于向量間的映射向量,pepr分別為實(shí)體向量與關(guān)系向量的維度.

3)風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型

風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型通常運(yùn)用深度神經(jīng)網(wǎng)絡(luò)的方法挖掘風(fēng)險(xiǎn)領(lǐng)域文本的語義信息,并將語義信息中所描述的實(shí)體關(guān)系嵌入低維空間以進(jìn)行關(guān)系抽取.如給定一個(gè)包含兩個(gè)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w的句子“海底撈爆出一系列安全衛(wèi)生風(fēng)險(xiǎn)事件”,通過該句字詞與句子本身的語義信息可以直接推測(cè)“安全衛(wèi)生風(fēng)險(xiǎn)”與“海底撈”存在風(fēng)險(xiǎn)與風(fēng)險(xiǎn)所屬組織的關(guān)系.

考慮到風(fēng)險(xiǎn)領(lǐng)域文本語料的內(nèi)容較長(zhǎng)且其中蘊(yùn)含的實(shí)體間關(guān)系復(fù)雜,本文運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)對(duì)風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系進(jìn)行表示學(xué)習(xí).卷積神經(jīng)網(wǎng)絡(luò)具備更強(qiáng)的并行性與泛化能力,更少依賴人工特征選擇,且能充分利用GPU的并行性,適用于從大規(guī)模風(fēng)險(xiǎn)領(lǐng)域文本語料中抽取風(fēng)險(xiǎn)信息.本文將風(fēng)險(xiǎn)領(lǐng)域文本語料D通過卷積神經(jīng)網(wǎng)絡(luò)得到關(guān)系表示向量rtext之后,風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示模型最終會(huì)得到評(píng)分函數(shù),見公式(8):

S=Mrtext

(8)

其中,M表示風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系評(píng)分矩陣.

(9)

其中,P(D|ξV)為條件概率,用于從風(fēng)險(xiǎn)領(lǐng)域文本語料D中學(xué)習(xí)文本特征,并得到領(lǐng)域文本與語義關(guān)系的嵌入表示,即能夠最大限度地使D中的文本語義信息與其描述的實(shí)體關(guān)系相對(duì)應(yīng).為具體描述語義信息與實(shí)體關(guān)系匹配的概率,本文將P(D|ξV)變換為公式(10):

P(D|ξV)=P((d,rd)|ξv)

(10)

該公式定義了在已知風(fēng)險(xiǎn)領(lǐng)域詞嵌入的向量表示的基礎(chǔ)上D中句子d能準(zhǔn)確描述語義關(guān)系ds的條件概率.根據(jù)風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示模型得到的評(píng)分函數(shù),本文將P((d,rd)|ξv)表示為公式(11):

(11)

3.2.3 基于互注意力機(jī)制的聯(lián)合學(xué)習(xí)模型

從已有研究來看,風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系獲取方法通常有兩種:1)通過構(gòu)建實(shí)體關(guān)系抽取模型從風(fēng)險(xiǎn)領(lǐng)域文本中獲取;2)通過使用知識(shí)表示學(xué)習(xí)模型從風(fēng)險(xiǎn)領(lǐng)域圖譜中獲取.以上兩種方法均可以有效獲取風(fēng)險(xiǎn)領(lǐng)域文本中的實(shí)體關(guān)系,但已有的研究較少將兩種途徑結(jié)合起來進(jìn)行風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系的獲取.

針對(duì)這一問題,本文采用基于知識(shí)圖譜與領(lǐng)域文本互注意力的聯(lián)合學(xué)習(xí)模型進(jìn)行風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取,如圖5所示.該模型中的聯(lián)合學(xué)習(xí)方法主要是在風(fēng)險(xiǎn)領(lǐng)域文本與實(shí)體、風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系模式與圖譜模式上進(jìn)行全面對(duì)齊,使它們的特征得以充分融合.在風(fēng)險(xiǎn)領(lǐng)域文本與知識(shí)圖譜全面對(duì)齊的基礎(chǔ)上,為進(jìn)一步緩解遠(yuǎn)程監(jiān)督的噪聲問題,該模型在聯(lián)合學(xué)習(xí)的基礎(chǔ)上引入新穎的互注意力機(jī)制,允許知識(shí)圖譜與風(fēng)險(xiǎn)領(lǐng)域文本模型使用各自特有的信息來輔助彼此進(jìn)行學(xué)習(xí).

圖5 融入互注意力機(jī)制的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取框架Fig.5 Risk field entity in the intense attention mechanism Extraction framework

在風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜的指導(dǎo)下,充分運(yùn)用圖譜中蘊(yùn)含的領(lǐng)域?qū)嶓w關(guān)系信息,在一定程度上能夠幫助風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系的自動(dòng)抽取.與此同時(shí),風(fēng)險(xiǎn)領(lǐng)域文本特征也被反饋回領(lǐng)域知識(shí)圖譜模型去加強(qiáng)那些對(duì)訓(xùn)練影響較大的知識(shí)三元組.在訓(xùn)練推進(jìn)的過程中風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜表示學(xué)習(xí)模型與領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型通過相互指導(dǎo)可以逐步強(qiáng)化各自效果.

1)聯(lián)合學(xué)習(xí)的整體模式

整個(gè)聯(lián)合學(xué)習(xí)模型能夠支持風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型與知識(shí)圖譜表示學(xué)習(xí)模型在統(tǒng)一的低維空間中同時(shí)進(jìn)行訓(xùn)練,從而可以同步獲取領(lǐng)域?qū)嶓w、關(guān)系及文本的嵌入表示.在訓(xùn)練的過程中,本模型通過統(tǒng)一低維空間使風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系判定約束與特征信息能夠便捷的在領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型與知識(shí)圖譜表示學(xué)習(xí)模型中進(jìn)行共享和傳遞.本文將嵌入表示學(xué)習(xí)模型及其涉及到的參數(shù)均定義為模型參數(shù)ξ,并將其表示為ξ={ξE,ξR,ξV},其中ξE、ξR和ξV為上文介紹的風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型與知識(shí)圖譜表示學(xué)習(xí)模型中的實(shí)體、關(guān)系與文本的嵌入向量和相關(guān)參數(shù).因此,該模型的任務(wù)是找到一組最優(yōu)的參數(shù)ξ使其滿足公式(12):

(12)

而聯(lián)合學(xué)習(xí)模型的條件概率P(KGrd,D|ξE,ξR,ξV)可進(jìn)行變換得到公式(13):

P(KGrd,D|ξE,ξR,ξV)=P(KGrd|ξE,ξR)P(D|ξV)

(13)

其中,P(KGrd|ξE,ξR)為知識(shí)圖譜表示學(xué)習(xí)模型優(yōu)化的條件概率,P(D|ξV)為風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型優(yōu)化的條件概率.P(KGrd,D|ξ)為聯(lián)合學(xué)習(xí)模型待優(yōu)化的條件概率,用于刻畫風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w、關(guān)系與領(lǐng)域文本嵌入ξ的情況下,嵌入表示學(xué)習(xí)對(duì)領(lǐng)域文本與知識(shí)圖譜的擬合能力.該聯(lián)合學(xué)習(xí)模型本質(zhì)上是找到最好的嵌入表示向量最大限度的擬合給定的風(fēng)險(xiǎn)領(lǐng)域文本語義信息與知識(shí)圖譜結(jié)構(gòu).

2)知識(shí)圖譜與文本的互注意力機(jī)制

風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜與領(lǐng)域文本互注意力機(jī)制主要由兩部分組成,包括基于知識(shí)的注意力機(jī)制與基于語義的注意力機(jī)制.這兩部分相互指導(dǎo)與合作,輔助聯(lián)合學(xué)習(xí)模型進(jìn)行關(guān)系抽取.

①基于知識(shí)的注意力機(jī)制

對(duì)于風(fēng)險(xiǎn)領(lǐng)域知識(shí)(e1,rd,e2),可能存在多個(gè)包含實(shí)體對(duì)(e1,e2)的句子Trd=(d1,…,dn),這些句子往往蘊(yùn)含實(shí)體間的關(guān)系rd,其中n為包含實(shí)體對(duì)的句子總數(shù),且句子的表示向量為{x1,…,xn}.由于基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取算法標(biāo)注的句子可能存在錯(cuò)誤或模糊的噪聲成分.因此,本文認(rèn)為這些句子中有部分句子對(duì)領(lǐng)域文本關(guān)系表示發(fā)揮著較大的作用.而聯(lián)合學(xué)習(xí)模型可以充分利用這部分額外的風(fēng)險(xiǎn)領(lǐng)域知識(shí)來強(qiáng)化模型訓(xùn)練過程中領(lǐng)域文本詞句的向量表示.具體地,本文定義潛在關(guān)系向量re1e2為基于知識(shí)的注意力用于突出訓(xùn)練數(shù)據(jù)中較為重要的詞句,并通過加權(quán)求和獲取全局最優(yōu)的領(lǐng)域文本關(guān)系模式的表示向量rs,從而有效緩解模型訓(xùn)練的噪聲數(shù)據(jù).領(lǐng)域文本關(guān)系模式的表示向量rd的計(jì)算方法見公式(14):

(14)

其中,Md為權(quán)重矩陣,bd為權(quán)重的偏置向量,wi是句子輸出xi的權(quán)重.

該表示向量rs可用于計(jì)算風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型的評(píng)分函數(shù)S與概率分布P((Trd,rd)|ξv).

S=Mrd

(15)

(16)

②基于語義的注意力機(jī)制

風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜的任意關(guān)系r均有多個(gè)蘊(yùn)含該關(guān)系的實(shí)體對(duì)EPr={(e11,e21),…,(e1n,e2n)}.實(shí)體對(duì)EPr對(duì)應(yīng)的潛在關(guān)系向量表示為{re11,e21,…,re1n,e2n},其中n為實(shí)體對(duì)的數(shù)量.風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜表示學(xué)習(xí)模型的目標(biāo)是運(yùn)用知識(shí)表示學(xué)習(xí)方法使領(lǐng)域?qū)嶓w對(duì)間的所有潛在關(guān)系嵌入盡可能接近實(shí)體的關(guān)系向量.

由于風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w間關(guān)系的復(fù)雜性與領(lǐng)域知識(shí)圖譜構(gòu)建過程中引入的誤差,因此風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜表示學(xué)習(xí)模型訓(xùn)練的過程中很難將實(shí)際的實(shí)體關(guān)系向量與潛在的實(shí)體關(guān)系向量相接近.為提升風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜表示學(xué)習(xí)模型的性能,本文嘗試從風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型中提取相關(guān)的語義信息,并運(yùn)用相關(guān)的語義信息幫助實(shí)際的關(guān)系向量逼近實(shí)體對(duì)所對(duì)應(yīng)的最準(zhǔn)確的潛在關(guān)系向量.

(17)

其中,Md和bd為公式(14)中的權(quán)重矩陣,用于將神經(jīng)網(wǎng)絡(luò)中的特征映射到實(shí)體關(guān)系的圖譜空間中.Hr為公式(15)中關(guān)系r對(duì)應(yīng)的特征.wi為第i個(gè)潛在關(guān)系向量re1ie2i的權(quán)重.

綜上,本文對(duì)這些實(shí)體對(duì)進(jìn)行合并,并計(jì)算出知識(shí)圖譜表示學(xué)習(xí)模型的概率分布P(r|(EPr,ξE,ξR),計(jì)算公式見式(18):

(18)

3.2.4 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系的抽取

本文結(jié)合小規(guī)模領(lǐng)域知識(shí)圖譜與大規(guī)模領(lǐng)域文本語料庫完成知識(shí)圖譜與領(lǐng)域文本關(guān)系表示的聯(lián)合學(xué)習(xí)任務(wù),并構(gòu)建了風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系預(yù)測(cè)模型,用于判別蘊(yùn)含于特定領(lǐng)域文本中實(shí)體間的關(guān)系類型.根據(jù)表1的實(shí)體關(guān)系判定的約束條件,風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取過程如下.

1)確定風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系的類型,并明確構(gòu)成實(shí)體關(guān)系的實(shí)體類型;

2)從大規(guī)模領(lǐng)域文本中獲取事實(shí)關(guān)聯(lián)強(qiáng)度較高的若干領(lǐng)域?qū)嶓w對(duì);

3)根據(jù)小規(guī)模領(lǐng)域知識(shí)圖譜與實(shí)體類型約束規(guī)則,將關(guān)聯(lián)度較強(qiáng)的實(shí)體對(duì)劃分為不同的實(shí)體類型;

4)結(jié)合風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系類型判別的實(shí)體類型約束與事實(shí)關(guān)聯(lián)約束,利用基于互注意力機(jī)制的聯(lián)合學(xué)習(xí)模型進(jìn)行風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取.

4 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取方案的有效性,本文以企業(yè)風(fēng)險(xiǎn)領(lǐng)域?yàn)槔归_實(shí)驗(yàn).本節(jié)主要從以下4個(gè)方面進(jìn)行詳細(xì)介紹,主要包括風(fēng)險(xiǎn)領(lǐng)域?qū)嶒?yàn)數(shù)據(jù)集構(gòu)建、風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w類型約束規(guī)則構(gòu)建、基于互注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取以及風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取實(shí)例分析.

4.1 風(fēng)險(xiǎn)領(lǐng)域?qū)嶒?yàn)數(shù)據(jù)集構(gòu)建

本實(shí)驗(yàn)需使用兩類數(shù)據(jù):1)用于指導(dǎo)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的小規(guī)模知識(shí)圖譜,通過爬取學(xué)校購(gòu)買的DIB風(fēng)控系統(tǒng)中企業(yè)風(fēng)險(xiǎn)數(shù)據(jù)構(gòu)建;2)用于提供基于互注意力機(jī)制的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取模型訓(xùn)練的領(lǐng)域語料庫,通過上市公司2019年企業(yè)年報(bào)中披露的風(fēng)險(xiǎn)內(nèi)容進(jìn)行構(gòu)建.

4.1.1 風(fēng)險(xiǎn)領(lǐng)域小規(guī)模知識(shí)圖譜構(gòu)建

本文綜合考慮企業(yè)風(fēng)險(xiǎn)內(nèi)容披露習(xí)慣、風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w豐富度以及實(shí)體關(guān)系復(fù)雜度與實(shí)體關(guān)系類型準(zhǔn)確度等因素,擬利用學(xué)校購(gòu)買的DIB風(fēng)控系統(tǒng)中企業(yè)風(fēng)險(xiǎn)數(shù)據(jù)作為構(gòu)建小規(guī)模知識(shí)圖譜的數(shù)據(jù)來源.為準(zhǔn)確高效獲取風(fēng)險(xiǎn)領(lǐng)域相關(guān)數(shù)據(jù),本文選取八爪魚采集器V8.3為工具采集企業(yè)年報(bào)中風(fēng)險(xiǎn)披露內(nèi)容條目下對(duì)應(yīng)的風(fēng)險(xiǎn)名稱、責(zé)任部門、風(fēng)險(xiǎn)源、風(fēng)險(xiǎn)后果和應(yīng)對(duì)方法等實(shí)體,并根據(jù)風(fēng)險(xiǎn)與各類實(shí)體對(duì)應(yīng)關(guān)系構(gòu)造層次關(guān)系、演化關(guān)系、影響部門關(guān)系、風(fēng)險(xiǎn)表征關(guān)系、影響后果關(guān)系和風(fēng)險(xiǎn)應(yīng)對(duì)關(guān)系等六類領(lǐng)域?qū)嶓w關(guān)系類型.風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜中的實(shí)體、關(guān)系類型及數(shù)量等相關(guān)統(tǒng)計(jì)信息如表3所示.

表3 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w與關(guān)系類型統(tǒng)計(jì)Table 3 Risk field entity and relationship type statistics

4.1.2 風(fēng)險(xiǎn)領(lǐng)域語料庫構(gòu)建

由于目前國(guó)內(nèi)尚未有標(biāo)準(zhǔn)的企業(yè)風(fēng)險(xiǎn)領(lǐng)域文本語料庫可用于實(shí)驗(yàn)研究,因此本文選取學(xué)校購(gòu)買的DIB風(fēng)控?cái)?shù)據(jù)作為領(lǐng)域文本語料對(duì)象.選取DIB風(fēng)控?cái)?shù)據(jù)的原因在于:1)該庫基本涵蓋各行各業(yè)風(fēng)險(xiǎn)信息與風(fēng)險(xiǎn)案例,能夠反映最完整的企業(yè)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w動(dòng)態(tài);2)該庫針對(duì)校園網(wǎng)用戶開源共享,方便研究者下載與文本數(shù)據(jù)處理.

企業(yè)風(fēng)險(xiǎn)領(lǐng)域語料庫構(gòu)建步驟如下.首先,選取DIB風(fēng)險(xiǎn)數(shù)據(jù)庫中近幾年上市公司的風(fēng)險(xiǎn)數(shù)據(jù)(即10299條粗粒度的文本記錄),作為語料庫構(gòu)建的對(duì)象.然后,根據(jù)Mint等人提出的遠(yuǎn)程監(jiān)督算法提取包含表3中風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w、關(guān)系與事實(shí)的句子加入文本語料庫[34].企業(yè)風(fēng)險(xiǎn)領(lǐng)域語料庫包含102990個(gè)句子,6369個(gè)實(shí)體,共58931個(gè)事實(shí)三元組.本文將提取的企業(yè)風(fēng)險(xiǎn)領(lǐng)域文本語料庫命名為RCData.

4.2 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w類型約束規(guī)則構(gòu)建

風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系較為復(fù)雜,本文參考國(guó)資委發(fā)布的風(fēng)險(xiǎn)管理數(shù)據(jù)以及企業(yè)年報(bào)中披露的風(fēng)險(xiǎn)數(shù)據(jù),同時(shí)結(jié)合風(fēng)險(xiǎn)領(lǐng)域?qū)<医ㄗh,構(gòu)建了不同實(shí)體關(guān)系對(duì)應(yīng)的實(shí)體類型約束,如表4所示.

4.3 基于互注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取

4.3.1 實(shí)驗(yàn)設(shè)置

本文從{0.1,0.01,0.001}中為P(KGrd|ξE,ξR)和P(D|ξV)選取知識(shí)圖譜表示學(xué)習(xí)模型與領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型的學(xué)習(xí)率,從{3,5,7}中為卷積神經(jīng)網(wǎng)絡(luò)CNN選取滑動(dòng)窗口數(shù).由于其他的參數(shù)對(duì)實(shí)驗(yàn)影響較小,且為保證實(shí)驗(yàn)結(jié)果的

表4 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w類型約束規(guī)則Table 4 Risk field entity type constraint rules

表5 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取參數(shù)設(shè)置Table 5 Risk field entity relationship extraction parameter setting

準(zhǔn)確性與對(duì)比的公平性,本實(shí)驗(yàn)使用已有研究中對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)定.領(lǐng)域文本中字、實(shí)體和關(guān)系的嵌入維度設(shè)置為50.風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取模型中具體的實(shí)驗(yàn)參數(shù)設(shè)置如表5所示.

4.3.2 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取結(jié)果分析

為驗(yàn)證基于互注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取模型的有效性,本文選取基于統(tǒng)計(jì)特征的word2vec相似詞算法(STAT)、卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、加入句子級(jí)別注意力的卷積神經(jīng)網(wǎng)絡(luò)模型(CNN+ATT)以及聯(lián)合學(xué)習(xí)后具有知識(shí)導(dǎo)向注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型(JointL+KGATT)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6所示,圖中曲線由上至下分別對(duì)應(yīng)于JointL+KGATT、CNN+ATT、CNN與STAT模型.

實(shí)驗(yàn)結(jié)果表明,JointL+KGATT模型的精度和效果均優(yōu)于其他模型.當(dāng)召回率>0.4時(shí),JointL+KGATT模型的精度整體提升10%~20%,當(dāng)召回率<0.4時(shí),JointL+KGATT模型也取得較好的效果,且模型的穩(wěn)定性更好.整體來看,經(jīng)特征融合后具有知識(shí)導(dǎo)向注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型在風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)上具有明顯的優(yōu)勢(shì).此外,相比基于統(tǒng)計(jì)特征的關(guān)系抽取模型,CNN-ATT和CNN模型在召回率超過0.4時(shí)取得了超10%的準(zhǔn)確度提升.這表明基于深度神經(jīng)網(wǎng)絡(luò)的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w抽取模型不局限于風(fēng)險(xiǎn)領(lǐng)域特征工程,并能夠自動(dòng)發(fā)掘風(fēng)險(xiǎn)領(lǐng)域文本數(shù)據(jù)中的關(guān)系特征,抽取性能穩(wěn)定且有效.盡管基于統(tǒng)計(jì)特征的關(guān)系抽取模型精度下降較快,但在最高置信度的推薦中(即召回率在0.1~0.2區(qū)間上)能夠取得較高的準(zhǔn)確度.這表明人工設(shè)計(jì)的領(lǐng)域特征雖然存在局限性,但存在一定的有效性.基于統(tǒng)計(jì)特征的關(guān)系抽取模型的優(yōu)勢(shì)在于其計(jì)算規(guī)模較小,且無需大量的訓(xùn)練數(shù)據(jù),但有效的特征需人工構(gòu)建.基于統(tǒng)計(jì)特征的模型訓(xùn)練難度相比基于深度神經(jīng)網(wǎng)絡(luò)模型簡(jiǎn)單,將兩者相結(jié)合用于風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取將是未來模型改進(jìn)的重要方向.

圖6 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取模型的準(zhǔn)確率-召回率對(duì)比Fig.6 Accuracy of the entity of the risk field entity-recall rate comparison

為進(jìn)一步驗(yàn)證基于知識(shí)圖譜與領(lǐng)域文本互注意力機(jī)制對(duì)關(guān)系抽取模型性能的影響,本文部分實(shí)驗(yàn)采用評(píng)估高置信度推薦效果的測(cè)試方法.在風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取模型的實(shí)際應(yīng)用中,人們通常更關(guān)注較高置信度區(qū)間的推薦結(jié)果,高置信度的推薦能夠穩(wěn)定保持較好的準(zhǔn)確率往往更符合企業(yè)實(shí)際應(yīng)用需求.評(píng)估高置信度推薦效果的測(cè)試方法是指將實(shí)驗(yàn)部分的推薦得分進(jìn)行排序,選取較高置信度區(qū)間的推薦結(jié)果作為衡量模型性能的指標(biāo).本實(shí)驗(yàn)選取卷積神經(jīng)網(wǎng)絡(luò)模型與不同種類的注意力機(jī)制相結(jié)合,包括未添加注意力機(jī)制(NULL)、語句級(jí)注意力機(jī)制(ATT)與基于知識(shí)的注意力機(jī)制(KGATT).同時(shí),本實(shí)驗(yàn)也將知識(shí)圖譜表示學(xué)習(xí)模型與風(fēng)險(xiǎn)領(lǐng)域文本關(guān)系表示學(xué)習(xí)模型相結(jié)合,從而定量對(duì)比分析聯(lián)合學(xué)習(xí)模型及各組合模型性能的優(yōu)劣.JointL表示聯(lián)合學(xué)習(xí)后卷積神經(jīng)網(wǎng)絡(luò)得到的關(guān)系抽取模型,CNN表示未與知識(shí)圖譜進(jìn)行聯(lián)合學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)實(shí)體關(guān)系抽取模型.各組合實(shí)驗(yàn)結(jié)果如表6所示,其中P@N表示前N個(gè)推薦準(zhǔn)確率,AVG表示平均準(zhǔn)確率.

表6 不同組合模型的P@N抽取結(jié)果Table 6 P@N extract results of different combined models

實(shí)驗(yàn)結(jié)果表明,聯(lián)合學(xué)習(xí)框架下基于知識(shí)注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w抽取模型精度優(yōu)于其他組合模型,且抽取效果顯著提升.從平均推薦準(zhǔn)確率來看,CNN模型與CNN+ATT模型經(jīng)聯(lián)合學(xué)習(xí)后準(zhǔn)確率也呈現(xiàn)一定程度的提升.這表明,聯(lián)合學(xué)習(xí)框架下融合特征的有效性以及聯(lián)合學(xué)習(xí)后文本模型在知識(shí)圖譜指導(dǎo)下提升了自身的關(guān)系抽取效果.同時(shí),對(duì)比引入注意力機(jī)制與未引入注意力機(jī)制的組合模型可知,引入注意力的語句合并機(jī)制的ATT與KGATT組合模型比未引入注意力機(jī)制的組合模型效果更好.原因在于各組合模型訓(xùn)練中使用的風(fēng)險(xiǎn)領(lǐng)域文本語料是通過遠(yuǎn)程監(jiān)督機(jī)制自動(dòng)構(gòu)建的,構(gòu)建過程中可能存在一些噪聲數(shù)據(jù).而注意力機(jī)制可以更多的關(guān)注風(fēng)險(xiǎn)領(lǐng)域文本中對(duì)于實(shí)體關(guān)系抽取更有意義的語句,從而有效削弱噪聲數(shù)據(jù)對(duì)抽取效果的影響.

此外,KGATT和ATT模型對(duì)比進(jìn)一步表明,在跨句注意力機(jī)制中,未引入風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜的注意力機(jī)制仍略顯薄弱.原因在于風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w豐富且關(guān)系復(fù)雜,即使相同關(guān)系的不同實(shí)體對(duì)間也會(huì)存在細(xì)微的差別.簡(jiǎn)單的ATT機(jī)制是通過模糊的全局向量進(jìn)行語句重要性的選擇,難以滿足風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系多樣性的特征.而KGATT模型將知識(shí)圖譜的實(shí)體關(guān)系相關(guān)信息融入注意力機(jī)制中.對(duì)于不同的實(shí)體對(duì),KGATT模型運(yùn)用局部向量對(duì)重要的語句進(jìn)行選擇,而這些局部向量又在全局上密切相關(guān).因此,引入KGATT機(jī)制的組合模型相比ATT機(jī)制更具有區(qū)分度與識(shí)別能力.

4.4 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取實(shí)例分析

由于風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系多樣,為便于風(fēng)險(xiǎn)領(lǐng)域?qū)<业脑u(píng)估,本實(shí)驗(yàn)選取“新冠疫情風(fēng)險(xiǎn)”為例展開風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的實(shí)例分析.根據(jù)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的3個(gè)約束條件,本文采用已有的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w抽取方法篩選“新冠疫情風(fēng)險(xiǎn)”強(qiáng)相關(guān)的領(lǐng)域?qū)嶓w,再運(yùn)用基于互注意力機(jī)的聯(lián)合學(xué)習(xí)模型預(yù)測(cè)領(lǐng)域?qū)嶓w關(guān)系的條件概率.風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系預(yù)測(cè)的概率分布結(jié)果如表7所示.

為進(jìn)一步檢驗(yàn)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取效果,本文邀請(qǐng)風(fēng)控領(lǐng)域?qū)<以u(píng)估關(guān)系抽取結(jié)果.具體評(píng)估方法為從“是否可構(gòu)成該實(shí)體關(guān)系”的角度考察聯(lián)合學(xué)習(xí)模型下風(fēng)險(xiǎn)領(lǐng)域中“新冠疫情風(fēng)險(xiǎn)”相關(guān)實(shí)體關(guān)系抽取結(jié)果是否成立,按照“成立,模糊成立,不成立”等3個(gè)等級(jí).

考慮到風(fēng)險(xiǎn)領(lǐng)域知識(shí)的復(fù)雜性與風(fēng)控領(lǐng)域?qū)<抑R(shí)的全面性,本實(shí)驗(yàn)還配備了專業(yè)的信息分析人員,輔助風(fēng)控領(lǐng)域?qū)<夜餐M(jìn)行結(jié)果評(píng)估,進(jìn)一步確保了評(píng)估結(jié)果的公平性與準(zhǔn)確性.評(píng)估結(jié)果為該關(guān)系類型成立、模糊成立或不成立的數(shù)量占該類關(guān)系總數(shù)的比例,如表8所示.

由表8可知,風(fēng)險(xiǎn)領(lǐng)域中“新冠疫情風(fēng)險(xiǎn)”相關(guān)實(shí)體關(guān)系總體評(píng)估為成立的關(guān)系占89.3%,評(píng)估為模糊成立的關(guān)系占3.5%,評(píng)估為不成立的關(guān)系為7.2%.鑒于風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w豐富且關(guān)系復(fù)雜,風(fēng)險(xiǎn)間的演化、風(fēng)險(xiǎn)引發(fā)的后果及其應(yīng)對(duì)措施等關(guān)系存在模糊不確定性,本文方法的整體誤判率為10.7%,表明該方法整體有效可行.

從風(fēng)險(xiǎn)領(lǐng)域各類實(shí)體關(guān)系抽取角度分析,風(fēng)險(xiǎn)應(yīng)對(duì)措施與風(fēng)險(xiǎn)影響部門關(guān)系判定為成立的比率較高,而風(fēng)險(xiǎn)演化關(guān)系與風(fēng)險(xiǎn)源表征關(guān)系判定為不成立的比率較高.其原因在于,風(fēng)險(xiǎn)領(lǐng)域中各風(fēng)險(xiǎn)間的演化復(fù)雜多變,且影響風(fēng)險(xiǎn)發(fā)生的內(nèi)在因素多樣,而風(fēng)險(xiǎn)責(zé)任部門及其應(yīng)對(duì)措施等知識(shí)相對(duì)較明確.因此,風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的準(zhǔn)確率一定程度上受領(lǐng)域知識(shí)特性的影響.

綜上所述,考慮到風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系的復(fù)雜性與不確定性,本文在實(shí)驗(yàn)和評(píng)估中均采用了較為嚴(yán)格的標(biāo)準(zhǔn),但實(shí)驗(yàn)結(jié)果仍表明基于知識(shí)圖譜與領(lǐng)域文本互注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w

表7 風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系預(yù)測(cè)概率Table 7 Risk field entity relationship prediction probability

表8 風(fēng)險(xiǎn)領(lǐng)域相關(guān)實(shí)體關(guān)系抽取評(píng)估結(jié)果

抽取思路的可行性.通過風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的實(shí)例分析,本文發(fā)現(xiàn)較多在領(lǐng)域知識(shí)圖譜中不存在的“新冠疫情風(fēng)險(xiǎn)”相關(guān)實(shí)體關(guān)系對(duì),如應(yīng)收賬款回收風(fēng)險(xiǎn)、產(chǎn)業(yè)鏈中斷、技術(shù)部等.針對(duì)這一現(xiàn)象,風(fēng)險(xiǎn)領(lǐng)域?qū)<冶硎?本實(shí)驗(yàn)抽取過程中發(fā)現(xiàn)的間接關(guān)系和誘發(fā)關(guān)系將對(duì)風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜的完善以及風(fēng)險(xiǎn)防控具有較高的參考價(jià)值.因此,基于知識(shí)圖譜與領(lǐng)域文本互注意力的風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w抽取研究與結(jié)果具有重要的實(shí)踐意義.

5 結(jié) 論

本文從小規(guī)模知識(shí)圖譜視角出發(fā),在知識(shí)圖譜與領(lǐng)域文本表示學(xué)習(xí)的基礎(chǔ)上,引入新穎的互注意力機(jī)制輔助領(lǐng)域圖譜與文本間相互學(xué)習(xí),提出基于互注意力的聯(lián)合學(xué)習(xí)模型,并在風(fēng)險(xiǎn)領(lǐng)域數(shù)據(jù)集上驗(yàn)證了該模型對(duì)風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取的效果.本文的主要貢獻(xiàn)在于,理論上,將新穎的互注意力機(jī)制引入風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取中,深入研究了知識(shí)圖譜指導(dǎo)下領(lǐng)域文本關(guān)系表示學(xué)習(xí)和領(lǐng)域?qū)嶓w關(guān)系抽取的原理與方法,系統(tǒng)性的構(gòu)建了風(fēng)險(xiǎn)領(lǐng)域?qū)嶓w關(guān)系抽取模型與框架,這對(duì)于知識(shí)圖譜與表示學(xué)習(xí)在風(fēng)險(xiǎn)管理領(lǐng)域的理論與發(fā)展具有促進(jìn)作用.實(shí)踐上,本文探究了不同的關(guān)系抽取模型在風(fēng)險(xiǎn)領(lǐng)域數(shù)據(jù)集上的效果,并結(jié)合風(fēng)險(xiǎn)領(lǐng)域具體實(shí)例對(duì)比分析了各類領(lǐng)域?qū)嶓w關(guān)系類型抽取效果,研究結(jié)果對(duì)風(fēng)險(xiǎn)領(lǐng)域知識(shí)圖譜的完善以及風(fēng)險(xiǎn)防控具有借鑒作用.

本文的不足之處在于,受限于時(shí)間與數(shù)據(jù)集,本文僅在企業(yè)風(fēng)險(xiǎn)領(lǐng)域情境下研究關(guān)系抽取.在后續(xù)的研究中,本文將進(jìn)一步探索本模型的擴(kuò)展能力,并探索在實(shí)體關(guān)系復(fù)雜多變的領(lǐng)域文本中關(guān)系抽取的解決方法.此外,相比于通識(shí)領(lǐng)域風(fēng)險(xiǎn)領(lǐng)域本文仍存在較多的獨(dú)特性.因此,風(fēng)險(xiǎn)領(lǐng)域文本特征的表達(dá)能力仍有較大的研究與提升空間,這也是未來風(fēng)險(xiǎn)領(lǐng)域知識(shí)抽取亟待研究與解決的問題之一.

猜你喜歡
圖譜注意力實(shí)體
讓注意力“飛”回來
繪一張成長(zhǎng)圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
A Beautiful Way Of Looking At Things
主動(dòng)對(duì)接你思維的知識(shí)圖譜
常宁市| 齐齐哈尔市| 玛曲县| 克拉玛依市| 漾濞| 叙永县| 宁城县| 元阳县| 呼伦贝尔市| 武定县| 寿光市| 离岛区| 陈巴尔虎旗| 五华县| 青河县| 花莲市| 肇东市| 成武县| 蒙山县| 韶山市| 大埔县| 新郑市| 南丰县| 曲水县| 沅陵县| 沁阳市| 克山县| 文山县| 博兴县| 隆德县| 凤凰县| 马边| 蓬莱市| 秦安县| 泰州市| 兴安县| 疏附县| 通河县| 余江县| 鸡西市| 唐海县|