司元成 溫珂 朱妍 霍方柏
互聯(lián)網(wǎng)高速發(fā)展帶來的是數(shù)據(jù)井噴式的增加,如何從海量的數(shù)據(jù)中獲取有效信息成為金融機構(gòu)需要面對的挑戰(zhàn)。在此背景下,知識圖譜開始嶄露頭角。知識圖譜作為大規(guī)模知識工程,涉及到數(shù)據(jù)庫、自然語言處理、知識表示、機器學(xué)習(xí)、深度學(xué)習(xí)等相關(guān)學(xué)科,在金融機構(gòu)業(yè)務(wù)應(yīng)用領(lǐng)域具有十分廣泛的應(yīng)用前景。本文簡要分析了行業(yè)知識圖譜(Domain-specific Knowledge Graph,DKG)落地金融租賃領(lǐng)域時可能遇到的問題,并基于業(yè)務(wù)層面給出相關(guān)分析與建議。
作為一種用圖模型來描述知識和建模與世界萬物之間關(guān)聯(lián)關(guān)系的大規(guī)模語義網(wǎng)絡(luò),知識圖譜支持非線性、多層次、高階關(guān)系的分析,幫助查詢端實現(xiàn)理解、解釋和推理的能力,而這正好滿足金融租賃業(yè)務(wù)過程中對大量結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)知識的需求,因此,如何有效構(gòu)建基于金融租賃行業(yè)業(yè)務(wù)方向的知識圖譜,對于提升金融租賃行業(yè)的工作效能而言至關(guān)重要。
知識圖譜(Knowledge Graph)是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系”。知識圖譜是關(guān)系的最有效表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)。知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。實體是知識圖譜中最基本元素,不同的實體間存在不同的關(guān)系。每個實體可用一個全局唯一確定的ID來標(biāo)識,每個屬性—屬性值對(attribute-value pair,AVP)可用來刻畫實體的內(nèi)在特性,而關(guān)系可用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)。簡而言之,知識圖譜是一種用圖模型來描述標(biāo)的產(chǎn)品和標(biāo)的屬性之間相互關(guān)聯(lián)關(guān)系的技術(shù)和方法。結(jié)合具體實例,參考天眼查的企業(yè)圖譜或者股權(quán)結(jié)構(gòu)圖譜,其更傾向于一種以圖數(shù)據(jù)庫的形式展現(xiàn)知識內(nèi)容,并不涉及到知識推理和知識應(yīng)用的相關(guān)過程,而是更多的聚焦在知識抽取和知識融合層面,提供更多的方向是知識展示,而非內(nèi)容推導(dǎo)和判斷,具體的決策過程,更多是由查詢機構(gòu)基于已有先驗知識進行主觀判斷后得出的結(jié)論,所以從某種意義上說,我們所要構(gòu)建的金融租賃行業(yè)知識圖譜,是結(jié)合行業(yè)內(nèi)特定知識屬性的圖譜,可以理解為是在基礎(chǔ)知識圖譜的基礎(chǔ)上,添加上行業(yè)特定的屬性關(guān)系以后,一種基于租賃這個垂直領(lǐng)域的圖數(shù)據(jù)庫(Graph Database)。在知識推理或者規(guī)則推理部分,我們更多的是依托圖譜查詢?nèi)藛T,如業(yè)務(wù)經(jīng)理,在接受標(biāo)的物的圖譜相關(guān)標(biāo)的信息展示后,根據(jù)個人業(yè)務(wù)經(jīng)驗,或者業(yè)務(wù)邏輯判斷去做分析,圖譜作用更多定位在輔助查詢或者業(yè)務(wù)字典的角色。所以在第二部分,我們主要考慮基于租賃垂直領(lǐng)域的相關(guān)業(yè)務(wù),我們該如何尋找本體和屬性,去構(gòu)建基于部門業(yè)務(wù)內(nèi)容的知識圖譜。這里同時也建議,在獲得充分的歷史數(shù)據(jù)之后,在圖譜的后續(xù)版本中加入基于算法或者歸納的推理部分作為信息的補充,但要提前進行風(fēng)險聲明和披露。
業(yè)務(wù)面結(jié)合分析:知識圖譜的構(gòu)建前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來。對于垂直領(lǐng)域的知識圖譜來說,它們的數(shù)據(jù)源主要來自兩種渠道:一種是業(yè)務(wù)本身的數(shù)據(jù),這部分數(shù)據(jù)通常包含在公司或承租人的數(shù)據(jù)庫,并以結(jié)構(gòu)化的形式存儲;另一種則是可以從網(wǎng)絡(luò)或其他第三方媒介合法公開獲取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁、文本、多媒體等形式存在,如公開的公報、研報及新聞的聯(lián)合抽取等,通常以非結(jié)構(gòu)化的形式存在。前者一般只需要簡單預(yù)處理即可以作為后續(xù)決策系統(tǒng)的知識輸入,但后者一般需要借助自然語言處理等技術(shù)來提取結(jié)構(gòu)化信息,而且對于金融租賃領(lǐng)域而言尤其需要考慮所獲取非結(jié)構(gòu)化信息的時效性。在具體的業(yè)務(wù)操作當(dāng)中,我們應(yīng)該去關(guān)注哪些實體和屬性,以及通過何種關(guān)系去定義實體和屬性之間的連接關(guān)系,這將在很大程度上影響圖譜展示的有效性以及查詢?nèi)藛T收集信息的效率。垂直領(lǐng)域的知識圖譜并非展示的信息越全越好,過于龐雜的信息反而會掩蓋真正有效的屬性和關(guān)系,因此我們提取了以下和金融租賃全領(lǐng)域業(yè)務(wù)都密切相關(guān)的知識屬性作為內(nèi)容補充。
一、數(shù)據(jù)收集——基于業(yè)務(wù)層面的公開數(shù)據(jù)知識抽取建議
由于不同業(yè)務(wù)條線對于知識信息獲取意愿不同,本文結(jié)合前臺盡調(diào)業(yè)務(wù)面的基本訴求,提供一些可以作為備選實體和關(guān)系的素材,主要聚焦在非實地調(diào)查領(lǐng)域的信息收集和獲取。其中相關(guān)資本充足性、流動性、質(zhì)量維度、經(jīng)營管理以及盈利能力方面的財務(wù)數(shù)據(jù)可以從承租人處直接獲得,所以這里我們主要聚焦在基于網(wǎng)絡(luò)或者第三方平臺公開數(shù)據(jù)的獲取與知識抽取方面。綜合來說,可獲取的實體或?qū)傩詢?nèi)容(通過第三方接口調(diào)用或者爬蟲技術(shù))可分為以下幾個部分:
(一)承租人基礎(chǔ)資料
承租人/擔(dān)保人營業(yè)執(zhí)照 (國家企業(yè)信用信息公示系統(tǒng)、小微企業(yè)名錄、增值稅一般納稅人資格查詢、國家工商總局商標(biāo)局等);行業(yè)屬性(全國組織機構(gòu)統(tǒng)一社會信用代碼、中國證券投資基金業(yè)協(xié)會、高新技術(shù)企業(yè)認定查詢等);主體資質(zhì)及信用信息查詢 (人行、信用中國、各省、市級信用網(wǎng)、信用視界、長三角征信鏈等);法定代表人或?qū)嶋H控制人相關(guān)個人或關(guān)系屬性 (企查查、天眼查、國家企業(yè)信用信息公示系統(tǒng)等);股東,高管及關(guān)聯(lián)企業(yè)情況;知識產(chǎn)權(quán) (國家知識產(chǎn)權(quán)局、中國版權(quán)保護中心等);法律訴訟 (裁判文書網(wǎng)、人民法院訴訟資產(chǎn)網(wǎng)、全國法院被執(zhí)行人信息查詢系統(tǒng)等)。
(二)租賃物資料
租賃物清單,評估報告,權(quán)屬關(guān)系材料(全國金融租賃企業(yè)管理信息系統(tǒng),公司內(nèi)部數(shù)據(jù)庫等)。
(三)擔(dān)保資料
抵押物權(quán)屬證明文件,處置權(quán)情況查詢,抵押物價值預(yù)評估(動產(chǎn)融資統(tǒng)一登記公示系統(tǒng),中證登股票質(zhì)押信息等)。
(四)基于第三方企業(yè)風(fēng)控信息系統(tǒng)提供的次級數(shù)據(jù)
基于特定業(yè)務(wù)規(guī)則的風(fēng)險模型輸出(基于業(yè)務(wù)規(guī)則下的不一致性驗證、基于規(guī)則下的特征提取等),基于特定算法的風(fēng)險概率模型結(jié)果輸出(社區(qū)挖掘、標(biāo)簽傳播等)。
需要注意的是以上來源的知識結(jié)構(gòu)更加復(fù)雜,通常包含較為復(fù)雜的本體知識工程和規(guī)則型知識,同時對知識抽取的質(zhì)量要求更高,很多情況下需要結(jié)合企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)和第三方以及網(wǎng)絡(luò)數(shù)據(jù)進行聯(lián)合抽取,同時通過人工進行審核校驗,保證知識抽取質(zhì)量。
二、圖譜設(shè)計——基于業(yè)務(wù)層面的實體關(guān)系構(gòu)建相關(guān)建議
由以上模擬圖示可以看出,雖然可以通過知識圖譜對相關(guān)信息進行一覽無余的展示,但實際和傳統(tǒng)的通過數(shù)據(jù)庫或者人工收集信息相比,只是提高了信息采集效率,并未在知識挖掘上體現(xiàn)出知識圖譜的技術(shù)優(yōu)勢?;谥R圖譜的關(guān)系挖掘簡單來說可以通過以下兩種方式去實現(xiàn):一是通過相關(guān)算法計算(基于圖結(jié)構(gòu)化數(shù)據(jù)之間關(guān)聯(lián)性的推理運算)、概率圖模型、知識表示學(xué)習(xí)(將知識映射到向量空間參與計算,用深度學(xué)習(xí)挖掘隱藏關(guān)系)等技術(shù)手段,進行規(guī)則挖掘。這可以作為技術(shù)部門今后發(fā)展研究的一個長期方向;二是通過業(yè)務(wù)知識構(gòu)建有效實體屬性去搭建知識圖譜的基本框架,這是短期內(nèi)可以提升關(guān)系挖掘效率的手段。在設(shè)計知識圖譜框架的時候,一定要把握業(yè)務(wù)原則,即要盡可能的從業(yè)務(wù)邏輯出發(fā)。同時觀察知識圖譜的設(shè)計也很容易推測其背后業(yè)務(wù)的邏輯,并且提前在設(shè)計時考慮未來業(yè)務(wù)可能的變化并預(yù)留可能的接口。由于不同方向的業(yè)務(wù)部門對進件審核流程可能存在較大的差異性,因此建議技術(shù)部門在進行知識圖譜構(gòu)建時,要加強和業(yè)務(wù)部門的業(yè)務(wù)專家交流,明確相關(guān)個體屬性的時序?qū)徍肆鞒?,并在不斷反饋更新迭代中完善?gòu)圖邏輯。具體可采用多人協(xié)作構(gòu)建領(lǐng)域schema的方式,在權(quán)限管理、協(xié)作模式、schema融合等框架下完成圖譜的快速構(gòu)建。
三、應(yīng)用開發(fā)——基于業(yè)務(wù)層面的構(gòu)建圖譜關(guān)系視圖及附加功能的相關(guān)建議
(一)構(gòu)建基于業(yè)務(wù)導(dǎo)向的封閉分類知識圖譜
隨著實體和屬性的大量引入,整個知識圖譜的復(fù)雜程度會急劇上升,這里建議將對應(yīng)的實體關(guān)系,按照業(yè)務(wù)流程,劃分成幾個業(yè)務(wù)圖譜大類分別進行展示,如承租人基本關(guān)系圖譜、租賃物圖譜、抵押物圖譜、擔(dān)保圈圖譜等。舉例來說,在承租人基本關(guān)系圖譜中,包括但不局限于承租人關(guān)聯(lián)關(guān)系圖譜、投融資圖譜、上下游企業(yè)圖譜等業(yè)務(wù)部門關(guān)注的信息,同時可以把那些對分析業(yè)務(wù)關(guān)系無關(guān)緊要的信息存儲在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,這樣即兼顧了信息完整性,同時也保證了圖譜的輕量化。另外,如何兼顧業(yè)務(wù)需求的廣度與圖譜構(gòu)建的封閉性要求,需要在設(shè)計層面做好可行性分析。
(二)構(gòu)建基于信息檢索的知識圖譜問答系統(tǒng)
知識圖譜在研究之初即是作為google優(yōu)化搜索引擎的重要輔助工具,具有較強的工程應(yīng)用價值。基于知識圖譜問答描述的是通過查詢知識圖譜的內(nèi)容獲得相關(guān)知識,自動回答提問人提出的自然語言問題的過程。按照知識源類型可將問答分成三種類型:一是機器閱讀理解式問答,即從非結(jié)構(gòu)文本化數(shù)據(jù)中檢索和抽取答案。二是知識圖譜問答,即直接從構(gòu)建好的結(jié)構(gòu)化知識庫中檢索答案。三是開放領(lǐng)域問答基于公開語義資料如百科,社區(qū)問答等檢索答案。
這里考慮到垂直領(lǐng)域的數(shù)據(jù)來源和對金融系統(tǒng)對知識質(zhì)量和精度的高要求,而KGQA的工作方式涉及到將自然語言問題轉(zhuǎn)換成知識圖譜上的查詢語句(即映射成結(jié)構(gòu)化查詢的過程,包括實體鏈接和屬性理解兩個主要子過程)為了減少文本分析過程中多次跳躍迭代后可能產(chǎn)生的語義漂移(Semantic drift)所導(dǎo)致的技術(shù)性風(fēng)險,這里我們建議問答系統(tǒng)僅僅作為一種關(guān)鍵詞檢索工具,通過查詢?nèi)藛T輸入關(guān)鍵詞快速查找定位實體,而非復(fù)雜的自然語言長句或語義模板進行語義拆分運算查找。目的是允許非專業(yè)用戶,使用關(guān)鍵詞檢索知識庫,并獲得相關(guān)信息,從而無需使用專業(yè)的數(shù)據(jù)庫查詢語言來構(gòu)建查詢?;蛘吒M一步,可以構(gòu)建基于問答模板的KGQA系統(tǒng),人工標(biāo)注每個模板所有對應(yīng)知識圖譜中的屬性來完成屬性關(guān)聯(lián),這樣可以從一定程度上提高問答系統(tǒng)的可控性,但缺點在于人工標(biāo)注的模板數(shù)量有限,而且需要查詢?nèi)藛T對問答模板語句提前熟悉了解(當(dāng)然可以為后續(xù)功能如智能問答,智能客服等保留拓展接口)。
四、決策支持——基于業(yè)務(wù)層面前期業(yè)務(wù)的一些想法和行業(yè)觀察
考慮到前期業(yè)務(wù)層面的具體工作流程,知識圖譜在金融租賃垂直領(lǐng)域可以為前期業(yè)務(wù)進件判斷環(huán)節(jié)提供具體的深層關(guān)系并提升業(yè)務(wù)人員的判斷推理能力。由于相關(guān)垂直領(lǐng)域歷史數(shù)據(jù)的樣本量不足和垂直領(lǐng)域數(shù)據(jù)的保密性,根據(jù)相關(guān)圖結(jié)構(gòu)數(shù)據(jù)的機器學(xué)習(xí)算法進行關(guān)于進件接收/拒絕的判斷具有極大的風(fēng)險和不確定性。如何基于處理后的結(jié)構(gòu)化文本數(shù)據(jù)和圖結(jié)構(gòu)在最大程度上對有效信息進行挖掘,是值得思考的問題。目前來看對圖結(jié)構(gòu)進行數(shù)據(jù)挖掘主要為了解決以下六個方向的問題:路徑發(fā)現(xiàn)和搜索、中心性、社區(qū)發(fā)現(xiàn)、相似度、節(jié)點鏈接預(yù)測、圖嵌入。帶回到具體的業(yè)務(wù)內(nèi)容,可以運用相對應(yīng)的算法對項目審批中的以下(包括但不局限于)常見問題提供相應(yīng)的信息支持:企業(yè)實際控制人、關(guān)聯(lián)企業(yè)發(fā)現(xiàn)、承租人推薦、業(yè)務(wù)因果分析、業(yè)務(wù)知識構(gòu)建。結(jié)合最新知識圖譜領(lǐng)域大量的專利申請,已有如中行、建行等金融機構(gòu)近期在知識圖譜金融應(yīng)用落地領(lǐng)域進行專利申請布局,這也從側(cè)面印證了以上結(jié)合業(yè)務(wù)問題確定研究方向的可行性。
五、質(zhì)量評估——基于業(yè)務(wù)層面的質(zhì)量評估方法
知識圖譜質(zhì)量評估的考察對象涉及到知識圖譜的方方面面,一般來說知識圖譜結(jié)合業(yè)務(wù)層面的質(zhì)量評估考慮以下四個維度:一是準(zhǔn)確性,即主要考慮圖譜中各類信息的準(zhǔn)確程度,數(shù)據(jù)源中原始數(shù)據(jù)的準(zhǔn)確程度和知識抽取過程中產(chǎn)生的誤差會直接影響到知識圖譜的有效應(yīng)用;二是一致性,即圖譜中的內(nèi)部知識表達是否一致,如已有先驗知識A和B是同一公司的高管,由圖譜知識得知A的公司為X(A),B的公司為X(B),如果X(A)和X(B)并非指向同一實體,則此處便存在不一致性錯誤;三是完整性,主要考察的是知識圖譜對于業(yè)務(wù)所需信息的覆蓋程度,對于垂直領(lǐng)域知識圖譜來說構(gòu)建相對封閉的知識圖譜較為容易;四是時效性,時效性考察知識圖譜中的知識是否為最新知識,在金融租賃領(lǐng)域信息的有效性尤為重要,如股東變更、司法信息變更、質(zhì)押物信息變更等。因此,圖譜信息的更新頻率是金融行業(yè)知識圖譜準(zhǔn)確性的一個重要度量。
為了有效確保知識圖譜中知識的可靠性,我們結(jié)合業(yè)務(wù)層面提出以下四種質(zhì)量評估方式:一是業(yè)務(wù)專家根據(jù)實體關(guān)系的重要性程度,對信息集合采用概率或者非概率抽樣的方式(如重點抽樣或者典型抽樣)對實體關(guān)系進行人工抽樣檢測;二是業(yè)務(wù)專家根據(jù)具體的工作流程制定一致性檢驗規(guī)則,檢測符合規(guī)則定義類型的質(zhì)量問題;三是針對不同的業(yè)務(wù)類型,在業(yè)務(wù)專家的指導(dǎo)下,找出所需實體關(guān)系信息的最大閉集,確保圖譜的完整性要求;四是對標(biāo)與業(yè)務(wù)知識圖譜有較高重合度的高質(zhì)量外部數(shù)據(jù)作為基準(zhǔn)數(shù)據(jù),定期對目標(biāo)知識圖譜進行質(zhì)量和對比檢測,保證信息的時效性。
六、總結(jié)
當(dāng)前知識圖譜在金融租賃這一垂直領(lǐng)域的應(yīng)用場景尚未有明確的規(guī)劃和布局,仍處于探索研究階段。但可以預(yù)見的是,隨著互聯(lián)網(wǎng)技術(shù)和人工智能等技術(shù)的進一步發(fā)展,知識推理等功能模塊的完整性和準(zhǔn)確性的逐步提升,知識圖譜作為一種打破行業(yè)知識孤島的有效工具,將會大大降低金融租賃公司的風(fēng)險識別成本,并給公司的全面風(fēng)險管理水平帶來質(zhì)的飛越。
作者單位:蘇銀金融租賃有限公司