高赫
(北京金融安全產(chǎn)業(yè)園,北京 100005)
近年來,互聯(lián)網(wǎng)與金融不斷融合,大數(shù)據(jù)和云計算等信息技術(shù)使傳統(tǒng)金融業(yè)務(wù)得以重塑,推動類金融機構(gòu)和新金融業(yè)態(tài)快速發(fā)展,但也衍生出一定風(fēng)險,對金融監(jiān)管提出新的挑戰(zhàn)。通過調(diào)整監(jiān)管方式、明確監(jiān)管職能,一系列監(jiān)管法規(guī)陸續(xù)出臺,力求維護(hù)金融體系健康有序發(fā)展。
就網(wǎng)絡(luò)借貸行業(yè)而言,目前已形成“3+1”架構(gòu)的監(jiān)管體系(“1”即《網(wǎng)絡(luò)借貸信息中介機構(gòu)業(yè)務(wù)活動管理暫行辦法》;“3”即《網(wǎng)絡(luò)借貸信息中介備案登記管理指引》《網(wǎng)絡(luò)借貸資金存管業(yè)務(wù)指引》和《網(wǎng)絡(luò)借貸信息中介機構(gòu)信息披露指引》)。為便利上述監(jiān)管體系落地,作者所在機構(gòu)與北京市相關(guān)監(jiān)管部門合作,基于相關(guān)監(jiān)管文本,采用NLP技術(shù)構(gòu)建知識圖譜,實現(xiàn)文本內(nèi)容的邏輯化,為相關(guān)金融業(yè)務(wù)的合規(guī)檢查提供支撐。
監(jiān)管文本邏輯化的核心技術(shù)方案為條件隨機場(Conditional Random Fields,CRF)以及深度學(xué)習(xí)方法的結(jié)合。
實體抽取主要涉及從文本中抽取出特定實體信息。目前較成熟的方法主要包括基于規(guī)則、基于統(tǒng)計及基于深度學(xué)習(xí)3種。
1.1.1 基于規(guī)則的方法
基于相關(guān)領(lǐng)域?qū)<姨峁I(yè)知識,人工構(gòu)造抽取規(guī)則,再將之與文本字符匹配,以識別實體。其優(yōu)點在于算法實現(xiàn)簡單;缺點在于隨數(shù)據(jù)集增大,人工成本增加,且規(guī)則可移植性差,不同領(lǐng)域的應(yīng)用效果懸殊。
1.1.2 基于統(tǒng)計模型的方法
基于經(jīng)人工標(biāo)注語料訓(xùn)練模型,常見模型包括隱馬爾可夫(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)和條件隨機場(CRF)。將實體抽取轉(zhuǎn)化為序列標(biāo)注,預(yù)測標(biāo)簽序列以達(dá)到抽取目的,性能明顯優(yōu)于基于規(guī)則的方法。
1.1.3 基于深度學(xué)習(xí)的方法
以詞向量作為輸入,借助神經(jīng)網(wǎng)絡(luò)完成端到端實體抽取。常見模型包括:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)及包含注意力機制(Attention Mechanism)的神經(jīng)網(wǎng)絡(luò)。
單向長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory Networks,LSTM)模型[1]基于RNN優(yōu)化,結(jié)合詞向量特征進(jìn)行實體抽取。雙向LSTM(Bi-directional Long Shortterm Memory,BiLSTM)模型[2],則通過順逆序計算增強語義信息理解力,并結(jié)合CRF模型抽取實體,進(jìn)一步提升準(zhǔn)確率。
綜合上述方法優(yōu)勢,本研究選擇基于已有的標(biāo)注數(shù)據(jù)集和規(guī)則模板,并采用BiLSTM-CRF模型實現(xiàn)。
實體關(guān)系抽取本質(zhì)是對抽取出的實體及各實體間關(guān)系的可能分類進(jìn)行預(yù)測。與實體抽取類似,主流方法同樣是基于規(guī)則、基于統(tǒng)計機器學(xué)習(xí)及基于深度學(xué)習(xí)3種。
1.2.1 基于規(guī)則的方法
深入分析數(shù)據(jù)后,由專家人工設(shè)定規(guī)則,盡可能覆蓋全部領(lǐng)域。該方法同樣有明顯局限性,只適用特定領(lǐng)域,移植困難。
1.2.2 基于統(tǒng)計機器學(xué)習(xí)的方法
此類方法主要有2種:即基于特征向量和基于核函數(shù)。前者缺點在于可移植性差,而特征選擇也對模型效果影響顯著;后者的劣勢則在于計算復(fù)雜度高、模型訓(xùn)練耗時長,效果也取決于所選特征。
1.2.3 基于深度學(xué)習(xí)的方法
該方法優(yōu)勢在于可自主發(fā)現(xiàn)隱含語義特征,且抽取精度高?;赗NN 的實體關(guān)系抽取[3],輸入變量為向量和矩陣,以掌握詞義及其相互關(guān)系;缺點在于需學(xué)習(xí)的參數(shù)較多?;贑NN的實體關(guān)系抽取[4],預(yù)先將詞轉(zhuǎn)為輸入向量進(jìn)行關(guān)系分類。Nian Yang等人于2019年提出SDP-BGRU模型[5],從非結(jié)構(gòu)化數(shù)據(jù)中抽取企業(yè)(實體)關(guān)系,轉(zhuǎn)化為分類問題處理。模型使用兩實體之間最短依賴路徑(SDP),通過雙向門控循環(huán)單元網(wǎng)絡(luò)(BiGRU)獲取特征向量,采用支持向量機作為分類器。實驗表明,模型在測試數(shù)據(jù)集上效果良好。
鑒于監(jiān)管文本部分抽象關(guān)系無法直接提取,決定采用基于BERT的雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)合注意力機制(BERT-Att-BiGRU)來訓(xùn)練關(guān)系抽取模型,輸出形如“實體I~關(guān)系~實體 II ”的關(guān)系組合。
語義網(wǎng)絡(luò)(Semantic Network)本質(zhì)是一種有向圖:頂點代表概念,而邊表示概念間語義關(guān)系,并由此發(fā)展出多種優(yōu)秀語義知識圖譜。
常見構(gòu)建方法包括:基于專家知識、基于眾包數(shù)據(jù)及基于機器學(xué)習(xí)。
1.3.1 基于專家知識
Cyc和Wordnet等通過語言學(xué)家人工構(gòu)建語義關(guān)系,具有結(jié)果準(zhǔn)確度高的優(yōu)點,但構(gòu)建速度也因此受制約,只能適用小規(guī)模數(shù)據(jù)集。
1.3.2 基于眾包數(shù)據(jù)
ConceptNet、Yago、Wikidata、DBpedia等英文知識圖譜為此類代表。由大量志愿者共同合作構(gòu)建,成本低,速度快;但個體認(rèn)知差異決定了圖譜質(zhì)量無法保證。
1.3.3 基于機器學(xué)習(xí)
構(gòu)建方法主要基于從海量數(shù)據(jù)中獲得RDF三元組,適用于處理主、客觀世界中數(shù)量龐大的概念和實體,以及實體和概念間的復(fù)雜關(guān)系[6]。
在完成實體和實體關(guān)系抽取后,本研究將獲得的結(jié)果在圖數(shù)據(jù)庫中保存,并支持查詢操作及內(nèi)容展示。
本項工作的主要任務(wù)是提取文本中行為主體名、金融產(chǎn)品名等要素。首先利用規(guī)則模板抽取出文本首尾的半結(jié)構(gòu)化信息,對正文的復(fù)雜邏輯則采用BiLSTM-CRF模型,結(jié)構(gòu)如圖1所示。
圖1 BiLSTM-CRF模型
基于1998年人民日報標(biāo)注數(shù)據(jù)、MSRA微軟亞洲研究院、玻森等數(shù)據(jù)集,采用Pytorch的BiLSTM_CRF模型訓(xùn)練,結(jié)果如表1所示。
表1 BiLSTM-CRF模型測試結(jié)果
該模型既可減少工作量,又較好地完成實體抽取任務(wù),為后續(xù)實體關(guān)系抽取任務(wù)打下良好基礎(chǔ)。
本項工作的主要任務(wù)是對抽取出的各實體間的關(guān)系進(jìn)行預(yù)測,本節(jié)針對法律文書中正文的實體關(guān)系抽取任務(wù),使用 BERT-Att-BiGRU模型,以一段文本及2個實體作為輸入,輸出實體間關(guān)系。模型結(jié)構(gòu)如圖2所示。
圖2 BERT-Att-BiGRU模型
模型融合BERT、雙向門控循環(huán)單元以及注意力機制,對經(jīng)人工標(biāo)注的2000條監(jiān)管規(guī)定進(jìn)行訓(xùn)練,結(jié)果如表2所示。
表2 BERT-Att-BiGRU模型測試結(jié)果
實驗結(jié)果證明該模型準(zhǔn)確率可達(dá)80%以上,能夠有效提取關(guān)系三元組,為構(gòu)建復(fù)雜知識圖譜系統(tǒng)提供了便利。
將前兩步從監(jiān)管文本中提取出的實體及實體關(guān)系三元組存儲至Neo4j圖數(shù)據(jù)庫(如圖3所示),共抽取43項合規(guī)風(fēng)險指標(biāo)、21項管理風(fēng)險指標(biāo)(如表3所示),實現(xiàn)對網(wǎng)貸業(yè)務(wù)的合規(guī)監(jiān)測。
表3 風(fēng)險監(jiān)測指標(biāo)抽取結(jié)果
圖3 Neo4j圖數(shù)據(jù)庫(局部)
本次研究圍繞監(jiān)管文本知識圖譜構(gòu)建,探索了具體構(gòu)建方法并實際測試。實驗結(jié)果表明,所采用的方法能有效抽取監(jiān)管文本中的實體及實體關(guān)系,并構(gòu)建知識圖譜,便利相關(guān)金融風(fēng)險的監(jiān)測和預(yù)警。