基于自然語言處理的監(jiān)管文本知識圖譜構(gòu)建

2021-12-31 03:24高赫

中國科技縱橫 2021年21期

高赫

（北京金融安全產(chǎn)業(yè)園，北京 100005）

近年來，互聯(lián)網(wǎng)與金融不斷融合，大數(shù)據(jù)和云計算等信息技術(shù)使傳統(tǒng)金融業(yè)務(wù)得以重塑，推動類金融機構(gòu)和新金融業(yè)態(tài)快速發(fā)展，但也衍生出一定風(fēng)險，對金融監(jiān)管提出新的挑戰(zhàn)。通過調(diào)整監(jiān)管方式、明確監(jiān)管職能，一系列監(jiān)管法規(guī)陸續(xù)出臺，力求維護(hù)金融體系健康有序發(fā)展。

就網(wǎng)絡(luò)借貸行業(yè)而言，目前已形成“3+1”架構(gòu)的監(jiān)管體系（“1”即《網(wǎng)絡(luò)借貸信息中介機構(gòu)業(yè)務(wù)活動管理暫行辦法》；“3”即《網(wǎng)絡(luò)借貸信息中介備案登記管理指引》《網(wǎng)絡(luò)借貸資金存管業(yè)務(wù)指引》和《網(wǎng)絡(luò)借貸信息中介機構(gòu)信息披露指引》）。為便利上述監(jiān)管體系落地，作者所在機構(gòu)與北京市相關(guān)監(jiān)管部門合作，基于相關(guān)監(jiān)管文本，采用NLP技術(shù)構(gòu)建知識圖譜，實現(xiàn)文本內(nèi)容的邏輯化，為相關(guān)金融業(yè)務(wù)的合規(guī)檢查提供支撐。

1.工作目標(biāo)設(shè)定及技術(shù)方案選擇

監(jiān)管文本邏輯化的核心技術(shù)方案為條件隨機場（Conditional Random Fields，CRF）以及深度學(xué)習(xí)方法的結(jié)合。

1.1 監(jiān)管文本實體抽取

實體抽取主要涉及從文本中抽取出特定實體信息。目前較成熟的方法主要包括基于規(guī)則、基于統(tǒng)計及基于深度學(xué)習(xí)3種。

1.1.1 基于規(guī)則的方法

基于相關(guān)領(lǐng)域?qū)＜姨峁I(yè)知識，人工構(gòu)造抽取規(guī)則，再將之與文本字符匹配，以識別實體。其優(yōu)點在于算法實現(xiàn)簡單；缺點在于隨數(shù)據(jù)集增大，人工成本增加，且規(guī)則可移植性差，不同領(lǐng)域的應(yīng)用效果懸殊。

1.1.2 基于統(tǒng)計模型的方法

基于經(jīng)人工標(biāo)注語料訓(xùn)練模型，常見模型包括隱馬爾可夫（Hidden Markov Model，HMM）、最大熵（Maximum Entropy，ME）和條件隨機場（CRF）。將實體抽取轉(zhuǎn)化為序列標(biāo)注，預(yù)測標(biāo)簽序列以達(dá)到抽取目的，性能明顯優(yōu)于基于規(guī)則的方法。

1.1.3 基于深度學(xué)習(xí)的方法

以詞向量作為輸入，借助神經(jīng)網(wǎng)絡(luò)完成端到端實體抽取。常見模型包括：卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）及包含注意力機制（Attention Mechanism）的神經(jīng)網(wǎng)絡(luò)。

單向長短期記憶神經(jīng)網(wǎng)絡(luò)（Long Short-term Memory Networks，LSTM）模型[1]基于RNN優(yōu)化，結(jié)合詞向量特征進(jìn)行實體抽取。雙向LSTM（Bi-directional Long Shortterm Memory，BiLSTM）模型[2]，則通過順逆序計算增強語義信息理解力，并結(jié)合CRF模型抽取實體，進(jìn)一步提升準(zhǔn)確率。

綜合上述方法優(yōu)勢，本研究選擇基于已有的標(biāo)注數(shù)據(jù)集和規(guī)則模板，并采用BiLSTM-CRF模型實現(xiàn)。

1.2 監(jiān)管文本實體關(guān)系抽取

實體關(guān)系抽取本質(zhì)是對抽取出的實體及各實體間關(guān)系的可能分類進(jìn)行預(yù)測。與實體抽取類似，主流方法同樣是基于規(guī)則、基于統(tǒng)計機器學(xué)習(xí)及基于深度學(xué)習(xí)3種。

1.2.1 基于規(guī)則的方法

深入分析數(shù)據(jù)后，由專家人工設(shè)定規(guī)則，盡可能覆蓋全部領(lǐng)域。該方法同樣有明顯局限性，只適用特定領(lǐng)域，移植困難。

1.2.2 基于統(tǒng)計機器學(xué)習(xí)的方法

此類方法主要有2種：即基于特征向量和基于核函數(shù)。前者缺點在于可移植性差，而特征選擇也對模型效果影響顯著；后者的劣勢則在于計算復(fù)雜度高、模型訓(xùn)練耗時長，效果也取決于所選特征。

1.2.3 基于深度學(xué)習(xí)的方法

該方法優(yōu)勢在于可自主發(fā)現(xiàn)隱含語義特征，且抽取精度高?；赗NN 的實體關(guān)系抽取[3]，輸入變量為向量和矩陣，以掌握詞義及其相互關(guān)系；缺點在于需學(xué)習(xí)的參數(shù)較多?；贑NN的實體關(guān)系抽取[4]，預(yù)先將詞轉(zhuǎn)為輸入向量進(jìn)行關(guān)系分類。Nian Yang等人于2019年提出SDP-BGRU模型[5]，從非結(jié)構(gòu)化數(shù)據(jù)中抽取企業(yè)（實體）關(guān)系，轉(zhuǎn)化為分類問題處理。模型使用兩實體之間最短依賴路徑（SDP），通過雙向門控循環(huán)單元網(wǎng)絡(luò)（BiGRU）獲取特征向量，采用支持向量機作為分類器。實驗表明，模型在測試數(shù)據(jù)集上效果良好。

鑒于監(jiān)管文本部分抽象關(guān)系無法直接提取，決定采用基于BERT的雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)合注意力機制（BERT-Att-BiGRU）來訓(xùn)練關(guān)系抽取模型，輸出形如“實體I～關(guān)系～實體 II ”的關(guān)系組合。

1.3 監(jiān)管文本知識圖譜構(gòu)建

語義網(wǎng)絡(luò)（Semantic Network）本質(zhì)是一種有向圖：頂點代表概念，而邊表示概念間語義關(guān)系，并由此發(fā)展出多種優(yōu)秀語義知識圖譜。

常見構(gòu)建方法包括：基于專家知識、基于眾包數(shù)據(jù)及基于機器學(xué)習(xí)。

1.3.1 基于專家知識

Cyc和Wordnet等通過語言學(xué)家人工構(gòu)建語義關(guān)系，具有結(jié)果準(zhǔn)確度高的優(yōu)點，但構(gòu)建速度也因此受制約，只能適用小規(guī)模數(shù)據(jù)集。

1.3.2 基于眾包數(shù)據(jù)

ConceptNet、Yago、Wikidata、DBpedia等英文知識圖譜為此類代表。由大量志愿者共同合作構(gòu)建，成本低，速度快；但個體認(rèn)知差異決定了圖譜質(zhì)量無法保證。

1.3.3 基于機器學(xué)習(xí)

構(gòu)建方法主要基于從海量數(shù)據(jù)中獲得RDF三元組，適用于處理主、客觀世界中數(shù)量龐大的概念和實體，以及實體和概念間的復(fù)雜關(guān)系[6]。

在完成實體和實體關(guān)系抽取后，本研究將獲得的結(jié)果在圖數(shù)據(jù)庫中保存，并支持查詢操作及內(nèi)容展示。

2.監(jiān)管文本實體抽取

本項工作的主要任務(wù)是提取文本中行為主體名、金融產(chǎn)品名等要素。首先利用規(guī)則模板抽取出文本首尾的半結(jié)構(gòu)化信息，對正文的復(fù)雜邏輯則采用BiLSTM-CRF模型，結(jié)構(gòu)如圖1所示。

圖1 BiLSTM-CRF模型

基于1998年人民日報標(biāo)注數(shù)據(jù)、MSRA微軟亞洲研究院、玻森等數(shù)據(jù)集，采用Pytorch的BiLSTM_CRF模型訓(xùn)練，結(jié)果如表1所示。

表1 BiLSTM-CRF模型測試結(jié)果

該模型既可減少工作量，又較好地完成實體抽取任務(wù)，為后續(xù)實體關(guān)系抽取任務(wù)打下良好基礎(chǔ)。

3.監(jiān)管文本實體關(guān)系抽取

本項工作的主要任務(wù)是對抽取出的各實體間的關(guān)系進(jìn)行預(yù)測，本節(jié)針對法律文書中正文的實體關(guān)系抽取任務(wù)，使用 BERT-Att-BiGRU模型，以一段文本及2個實體作為輸入，輸出實體間關(guān)系。模型結(jié)構(gòu)如圖2所示。

圖2 BERT-Att-BiGRU模型

模型融合BERT、雙向門控循環(huán)單元以及注意力機制，對經(jīng)人工標(biāo)注的2000條監(jiān)管規(guī)定進(jìn)行訓(xùn)練，結(jié)果如表2所示。

表2 BERT-Att-BiGRU模型測試結(jié)果

實驗結(jié)果證明該模型準(zhǔn)確率可達(dá)80%以上，能夠有效提取關(guān)系三元組，為構(gòu)建復(fù)雜知識圖譜系統(tǒng)提供了便利。

4.監(jiān)管文本知識圖譜構(gòu)建

將前兩步從監(jiān)管文本中提取出的實體及實體關(guān)系三元組存儲至Neo4j圖數(shù)據(jù)庫（如圖3所示），共抽取43項合規(guī)風(fēng)險指標(biāo)、21項管理風(fēng)險指標(biāo)（如表3所示），實現(xiàn)對網(wǎng)貸業(yè)務(wù)的合規(guī)監(jiān)測。

表3 風(fēng)險監(jiān)測指標(biāo)抽取結(jié)果

圖3 Neo4j圖數(shù)據(jù)庫（局部）

5.結(jié)語

本次研究圍繞監(jiān)管文本知識圖譜構(gòu)建，探索了具體構(gòu)建方法并實際測試。實驗結(jié)果表明，所采用的方法能有效抽取監(jiān)管文本中的實體及實體關(guān)系，并構(gòu)建知識圖譜，便利相關(guān)金融風(fēng)險的監(jiān)測和預(yù)警。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡