国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自然語言處理的監(jiān)管文本知識圖譜構(gòu)建

2021-12-31 03:24高赫
中國科技縱橫 2021年21期
關(guān)鍵詞:圖譜實體語義

高赫

(北京金融安全產(chǎn)業(yè)園,北京 100005)

近年來,互聯(lián)網(wǎng)與金融不斷融合,大數(shù)據(jù)和云計算等信息技術(shù)使傳統(tǒng)金融業(yè)務(wù)得以重塑,推動類金融機構(gòu)和新金融業(yè)態(tài)快速發(fā)展,但也衍生出一定風(fēng)險,對金融監(jiān)管提出新的挑戰(zhàn)。通過調(diào)整監(jiān)管方式、明確監(jiān)管職能,一系列監(jiān)管法規(guī)陸續(xù)出臺,力求維護(hù)金融體系健康有序發(fā)展。

就網(wǎng)絡(luò)借貸行業(yè)而言,目前已形成“3+1”架構(gòu)的監(jiān)管體系(“1”即《網(wǎng)絡(luò)借貸信息中介機構(gòu)業(yè)務(wù)活動管理暫行辦法》;“3”即《網(wǎng)絡(luò)借貸信息中介備案登記管理指引》《網(wǎng)絡(luò)借貸資金存管業(yè)務(wù)指引》和《網(wǎng)絡(luò)借貸信息中介機構(gòu)信息披露指引》)。為便利上述監(jiān)管體系落地,作者所在機構(gòu)與北京市相關(guān)監(jiān)管部門合作,基于相關(guān)監(jiān)管文本,采用NLP技術(shù)構(gòu)建知識圖譜,實現(xiàn)文本內(nèi)容的邏輯化,為相關(guān)金融業(yè)務(wù)的合規(guī)檢查提供支撐。

1.工作目標(biāo)設(shè)定及技術(shù)方案選擇

監(jiān)管文本邏輯化的核心技術(shù)方案為條件隨機場(Conditional Random Fields,CRF)以及深度學(xué)習(xí)方法的結(jié)合。

1.1 監(jiān)管文本實體抽取

實體抽取主要涉及從文本中抽取出特定實體信息。目前較成熟的方法主要包括基于規(guī)則、基于統(tǒng)計及基于深度學(xué)習(xí)3種。

1.1.1 基于規(guī)則的方法

基于相關(guān)領(lǐng)域?qū)<姨峁I(yè)知識,人工構(gòu)造抽取規(guī)則,再將之與文本字符匹配,以識別實體。其優(yōu)點在于算法實現(xiàn)簡單;缺點在于隨數(shù)據(jù)集增大,人工成本增加,且規(guī)則可移植性差,不同領(lǐng)域的應(yīng)用效果懸殊。

1.1.2 基于統(tǒng)計模型的方法

基于經(jīng)人工標(biāo)注語料訓(xùn)練模型,常見模型包括隱馬爾可夫(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)和條件隨機場(CRF)。將實體抽取轉(zhuǎn)化為序列標(biāo)注,預(yù)測標(biāo)簽序列以達(dá)到抽取目的,性能明顯優(yōu)于基于規(guī)則的方法。

1.1.3 基于深度學(xué)習(xí)的方法

以詞向量作為輸入,借助神經(jīng)網(wǎng)絡(luò)完成端到端實體抽取。常見模型包括:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)及包含注意力機制(Attention Mechanism)的神經(jīng)網(wǎng)絡(luò)。

單向長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory Networks,LSTM)模型[1]基于RNN優(yōu)化,結(jié)合詞向量特征進(jìn)行實體抽取。雙向LSTM(Bi-directional Long Shortterm Memory,BiLSTM)模型[2],則通過順逆序計算增強語義信息理解力,并結(jié)合CRF模型抽取實體,進(jìn)一步提升準(zhǔn)確率。

綜合上述方法優(yōu)勢,本研究選擇基于已有的標(biāo)注數(shù)據(jù)集和規(guī)則模板,并采用BiLSTM-CRF模型實現(xiàn)。

1.2 監(jiān)管文本實體關(guān)系抽取

實體關(guān)系抽取本質(zhì)是對抽取出的實體及各實體間關(guān)系的可能分類進(jìn)行預(yù)測。與實體抽取類似,主流方法同樣是基于規(guī)則、基于統(tǒng)計機器學(xué)習(xí)及基于深度學(xué)習(xí)3種。

1.2.1 基于規(guī)則的方法

深入分析數(shù)據(jù)后,由專家人工設(shè)定規(guī)則,盡可能覆蓋全部領(lǐng)域。該方法同樣有明顯局限性,只適用特定領(lǐng)域,移植困難。

1.2.2 基于統(tǒng)計機器學(xué)習(xí)的方法

此類方法主要有2種:即基于特征向量和基于核函數(shù)。前者缺點在于可移植性差,而特征選擇也對模型效果影響顯著;后者的劣勢則在于計算復(fù)雜度高、模型訓(xùn)練耗時長,效果也取決于所選特征。

1.2.3 基于深度學(xué)習(xí)的方法

該方法優(yōu)勢在于可自主發(fā)現(xiàn)隱含語義特征,且抽取精度高?;赗NN 的實體關(guān)系抽取[3],輸入變量為向量和矩陣,以掌握詞義及其相互關(guān)系;缺點在于需學(xué)習(xí)的參數(shù)較多?;贑NN的實體關(guān)系抽取[4],預(yù)先將詞轉(zhuǎn)為輸入向量進(jìn)行關(guān)系分類。Nian Yang等人于2019年提出SDP-BGRU模型[5],從非結(jié)構(gòu)化數(shù)據(jù)中抽取企業(yè)(實體)關(guān)系,轉(zhuǎn)化為分類問題處理。模型使用兩實體之間最短依賴路徑(SDP),通過雙向門控循環(huán)單元網(wǎng)絡(luò)(BiGRU)獲取特征向量,采用支持向量機作為分類器。實驗表明,模型在測試數(shù)據(jù)集上效果良好。

鑒于監(jiān)管文本部分抽象關(guān)系無法直接提取,決定采用基于BERT的雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)合注意力機制(BERT-Att-BiGRU)來訓(xùn)練關(guān)系抽取模型,輸出形如“實體I~關(guān)系~實體 II ”的關(guān)系組合。

1.3 監(jiān)管文本知識圖譜構(gòu)建

語義網(wǎng)絡(luò)(Semantic Network)本質(zhì)是一種有向圖:頂點代表概念,而邊表示概念間語義關(guān)系,并由此發(fā)展出多種優(yōu)秀語義知識圖譜。

常見構(gòu)建方法包括:基于專家知識、基于眾包數(shù)據(jù)及基于機器學(xué)習(xí)。

1.3.1 基于專家知識

Cyc和Wordnet等通過語言學(xué)家人工構(gòu)建語義關(guān)系,具有結(jié)果準(zhǔn)確度高的優(yōu)點,但構(gòu)建速度也因此受制約,只能適用小規(guī)模數(shù)據(jù)集。

1.3.2 基于眾包數(shù)據(jù)

ConceptNet、Yago、Wikidata、DBpedia等英文知識圖譜為此類代表。由大量志愿者共同合作構(gòu)建,成本低,速度快;但個體認(rèn)知差異決定了圖譜質(zhì)量無法保證。

1.3.3 基于機器學(xué)習(xí)

構(gòu)建方法主要基于從海量數(shù)據(jù)中獲得RDF三元組,適用于處理主、客觀世界中數(shù)量龐大的概念和實體,以及實體和概念間的復(fù)雜關(guān)系[6]。

在完成實體和實體關(guān)系抽取后,本研究將獲得的結(jié)果在圖數(shù)據(jù)庫中保存,并支持查詢操作及內(nèi)容展示。

2.監(jiān)管文本實體抽取

本項工作的主要任務(wù)是提取文本中行為主體名、金融產(chǎn)品名等要素。首先利用規(guī)則模板抽取出文本首尾的半結(jié)構(gòu)化信息,對正文的復(fù)雜邏輯則采用BiLSTM-CRF模型,結(jié)構(gòu)如圖1所示。

圖1 BiLSTM-CRF模型

基于1998年人民日報標(biāo)注數(shù)據(jù)、MSRA微軟亞洲研究院、玻森等數(shù)據(jù)集,采用Pytorch的BiLSTM_CRF模型訓(xùn)練,結(jié)果如表1所示。

表1 BiLSTM-CRF模型測試結(jié)果

該模型既可減少工作量,又較好地完成實體抽取任務(wù),為后續(xù)實體關(guān)系抽取任務(wù)打下良好基礎(chǔ)。

3.監(jiān)管文本實體關(guān)系抽取

本項工作的主要任務(wù)是對抽取出的各實體間的關(guān)系進(jìn)行預(yù)測,本節(jié)針對法律文書中正文的實體關(guān)系抽取任務(wù),使用 BERT-Att-BiGRU模型,以一段文本及2個實體作為輸入,輸出實體間關(guān)系。模型結(jié)構(gòu)如圖2所示。

圖2 BERT-Att-BiGRU模型

模型融合BERT、雙向門控循環(huán)單元以及注意力機制,對經(jīng)人工標(biāo)注的2000條監(jiān)管規(guī)定進(jìn)行訓(xùn)練,結(jié)果如表2所示。

表2 BERT-Att-BiGRU模型測試結(jié)果

實驗結(jié)果證明該模型準(zhǔn)確率可達(dá)80%以上,能夠有效提取關(guān)系三元組,為構(gòu)建復(fù)雜知識圖譜系統(tǒng)提供了便利。

4.監(jiān)管文本知識圖譜構(gòu)建

將前兩步從監(jiān)管文本中提取出的實體及實體關(guān)系三元組存儲至Neo4j圖數(shù)據(jù)庫(如圖3所示),共抽取43項合規(guī)風(fēng)險指標(biāo)、21項管理風(fēng)險指標(biāo)(如表3所示),實現(xiàn)對網(wǎng)貸業(yè)務(wù)的合規(guī)監(jiān)測。

表3 風(fēng)險監(jiān)測指標(biāo)抽取結(jié)果

圖3 Neo4j圖數(shù)據(jù)庫(局部)

5.結(jié)語

本次研究圍繞監(jiān)管文本知識圖譜構(gòu)建,探索了具體構(gòu)建方法并實際測試。實驗結(jié)果表明,所采用的方法能有效抽取監(jiān)管文本中的實體及實體關(guān)系,并構(gòu)建知識圖譜,便利相關(guān)金融風(fēng)險的監(jiān)測和預(yù)警。

猜你喜歡
圖譜實體語義
繪一張成長圖譜
語言與語義
前海自貿(mào)區(qū):金融服務(wù)實體
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
振興實體經(jīng)濟(jì)地方如何“釘釘子”
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
雜草圖譜
阳泉市| 新田县| 昌平区| 柳河县| 青龙| 吉首市| 三门县| 三江| 武义县| 潮安县| 偏关县| 上犹县| 文昌市| 福贡县| 肃北| 德清县| 泰和县| 建始县| 林州市| 抚远县| 图片| 泽库县| 高雄县| 伽师县| 浦北县| 南汇区| 和田县| 成武县| 油尖旺区| 海晏县| 清丰县| 聂拉木县| 保靖县| 肃宁县| 确山县| 丽江市| 尚义县| 兴国县| 揭东县| 松阳县| 洮南市|