李玲 魏國華 胡峰 楊旸
作為企業(yè)經(jīng)營管理的重要組成部分,合同管理工作作為在各企業(yè)經(jīng)營中的重要一環(huán)重要性日益凸顯。合同管理在簽訂、履行等階段的風險識別、防控能力的提升將為企業(yè)經(jīng)營活動帶來更大的收益。
為提升企業(yè)合同管理工作中的風險識別能力,中國海油在2019年度立項了自然語言分析在合同文本校核中的應(yīng)用研究項目,探究自然語言分析技術(shù)在合同管理中的應(yīng)用。以中國海油集團公司信息化部和信息技術(shù)中心的合同編制和校核工作為研究試點,以自然語言分析為入口,研究論證如下的內(nèi)容:
驗證人工智能相關(guān)技術(shù)在海油合同管理應(yīng)用實現(xiàn)落地效果,以期達到降低人工操作的錯誤,提高工作效率的目標;
通過將本次項目,論證將自然語言分析技術(shù)在中國海油合同管理系統(tǒng)中真正落地,將員工時間與精力,從簡單、重復性的工作中釋放出來,投入到更具創(chuàng)造力的工作中;
同時通過人工智能的相關(guān)技術(shù)的應(yīng)用,在信息化企業(yè)架構(gòu)方法、智慧海油頂層設(shè)計以及實現(xiàn)路徑探索方面為海油帶來更多助益等目標。
(一)自然語言分析技術(shù)說明
詞法分析:詞法分析包括詞形和詞匯兩個方面。一般來講,詞形主要表現(xiàn)在對單詞的前綴、后綴等的分析,而詞匯則表現(xiàn)在對整個詞匯系統(tǒng)的控制。在中文全文檢索系統(tǒng)中,詞法分析主要表現(xiàn)在對漢語信息進行詞語切分,即漢語自動分詞技術(shù)。通過這種技術(shù)能夠比較準確的分析用戶輸入信息的特征,從而完成準確的搜索過程。它是中文全文檢索技術(shù)的重要發(fā)展方向。
句法分析:句法分析是對用戶輸入的自然語言進行詞匯短語的分析,目的是識別句子的句法結(jié)構(gòu),實現(xiàn)自動句法分析過程。其基本方法有線圖分析法、短語結(jié)構(gòu)分析、完全句法分析、局部句法分析、依存句法分析等。
語義分析:語義分析是基于自然語言語義信息的一種分析方法,其不僅僅是詞法分析和句法分析這樣語法水平上的分析,而是涉及到了單詞、詞組、句子、段落所包含的意義。其目的是從句子的語義結(jié)構(gòu)表示言語的結(jié)構(gòu)。中文語義分析方法是基于語義網(wǎng)絡(luò)的一種分析方法。語義網(wǎng)絡(luò)則是一種結(jié)構(gòu)化的,靈活、明確、簡潔的表達方式。
語用分析:語用分析相對于語義分析又增加了對上下文、語言背景、環(huán)境等的分析,從文章的結(jié)構(gòu)中提取到意象、人際關(guān)系等的附加信息,是一種更高級的語言學分析。它將語句中的內(nèi)容與現(xiàn)實生活的細節(jié)相關(guān)聯(lián),從而形成動態(tài)的表意結(jié)構(gòu)。
語境分析:語境分析主要是指對原查詢語篇以外的大量“空隙”進行分析從而更為正確地解釋所要查詢語言的技術(shù)。這些“空隙”包括一般的知識,特定領(lǐng)域的知識以及查詢用戶的需要等。它將自然語言與客觀的物理世界和主觀的心理世界聯(lián)系起來,補充完善了詞法、語義、語用分析的不足。
(二)文本分類方法
經(jīng)典文本分類方法主要包括: Rocchio 方法、決策樹方法、貝葉斯分類、K近鄰算法和支持向量機等分類方法。近年來, 隨著人工智能、機器學習、模式識別和數(shù)據(jù)挖掘等領(lǐng)域的不斷發(fā)展, 促使文本分類方法得到了長足的發(fā)展。
Rocchio 方法———相似度計算方法:Rocchio是情報檢索領(lǐng)域最經(jīng)典的算法。在算法中, 首先為每一個類C 建立一個原型向量(即訓練集中C 類的所有樣本的平均向量) , 然后通過計算文檔向量D 與每一個原型向量的距離來給D分類。可以通過點積或者Jaccard 近似來計算這個距離。這種方法學習速度非常快。
NaveBayes (NB) ———貝葉斯方法:貝葉斯分類是統(tǒng)計學分類在方法, 它可以預測一個給定樣本屬于某一類別的概率。貝葉斯分類是基于貝葉斯定理而構(gòu)造出來的。
樸素貝葉斯分類器是以貝葉斯定理為理論基礎(chǔ)的一種在已知先驗概率與條件概率的情況下得到后驗概率的模式分類方法, 用這種方法可以確定一個給定樣本屬于一個特定類的概率。目前基于樸素貝葉斯方法的分類器被認為是一個簡單、有效而且在實際應(yīng)用中很成功的分類器。樸素貝葉斯分類方法是機器學習中常用的方法之一。
K- NN 方法———K- 近鄰方法:K- NN 方法是一種基于實例的文本分類方法。首先, 對于一個待分類文本, 計算它與訓練樣本集中每個文本的文本相似度, 根據(jù)文本相似度找出可k 個最相似的訓練文本。這最相似的k 個文本按其和待分類文本的相似度高低對類別予以加權(quán)平均,從而預測待分類文本的類別。其中最重要的是參數(shù)K的選擇, k 過小, 不能充分體現(xiàn)待分類文本的特點; 而k 過大,會造成噪聲增加而導致分類效果降低。
SVM———向量機:支持向量機(Support Vector Machines : SVM) 理論, 由Vapnik 在1995 年提出, 并用于解決二分類模式識別問題。它基于結(jié)構(gòu)風險最小化原則, 在向量空間中找到一個決策面(decision surface) , 這個面能“最好”地分割兩個分類中的數(shù)據(jù)點。
目前, 比較有效的SVM實現(xiàn)方法包括Joachims的SVMlight 系統(tǒng)和Platt 的序列最小優(yōu)化算法。隨著人們對文本分類的深入, 不斷有許多新方法涌現(xiàn), 如基于潛在語義結(jié)構(gòu)的文本分類模型,基于模糊- 粗糙集的文本分類方法。但要從根本上解決文本分類中所固有的一些問題, 還需加強研究的力度, 找到更先進的理論和方法。
DecisionTree ———決策樹方法:決策樹方法是從訓練集中自動歸納出分類樹。在應(yīng)用于文本分類時,決策樹算法基于一種信息增益標準來選擇具有信息的詞, 然后根據(jù)文本中出現(xiàn)的詞的組合判斷類別歸屬。
(一)中國海油合同管理現(xiàn)狀分析
中國海油集團于2014年開始了合同管理的數(shù)字化管理進程,合同管理系統(tǒng)于2015年正式上線并面向中國海油集團提供服務(wù)。系統(tǒng)管理涵蓋了合同管理簽訂前、簽訂中、履行中、履行后的全生命周期。如圖1所示。
在合同簽訂前階段:提供了對合同的基礎(chǔ)資料進行維護,包括相對方信息同步,項目信息同步及新建,合同預算計劃填報,標準合同范本維護,授權(quán)委托書的申請等功能。
在合同簽訂階段:用戶可以在系統(tǒng)中進行合同文本的審查會簽,根據(jù)總公司合同管理規(guī)范的要求,對合同進行審查和會簽的操作,若合同無需審查會簽,直接進行備案登記即可。若需要加蓋印章,在定稿會簽后可發(fā)起用印申請。合同線下簽訂后,用戶可以在系統(tǒng)中進行簽署登記,填寫必要的簽署信息。
在合同履行階段:用戶可進行收付款登記,框架協(xié)議下的訂單執(zhí)行情況登記,合同變更/補充協(xié)議登記,合同中止/回復登記,糾紛爭議登記,監(jiān)控合同的執(zhí)行過程。
合同履行后:用戶可在合同管理系統(tǒng)中進行合同關(guān)閉操作。
同時在合同簽訂、執(zhí)行、關(guān)閉的過程中,用戶可以對合同相關(guān)的文件進行歸檔清單登記。同時,用戶可以對合同管理信息系統(tǒng)中的合同相關(guān)信息進行查詢統(tǒng)計,生成報表等操作。
(二)項目研究目標
本次研究項目以中國海油集團公司信息化部和信息技術(shù)中心的合同編制和校核為研究試點,以自然語言分析為入口,將人工智能相關(guān)技術(shù)落地中國海油辦公應(yīng)用,降低人工操作的錯誤,提高工作效率,將員工時間與精力,從簡單、重復性的工作中釋放出來,投入到更具創(chuàng)造力的工作中,同時降低人工操作可能存在的錯誤,在信息化企業(yè)架構(gòu)方法、智慧海油頂層設(shè)計以及實現(xiàn)路徑探索方面為海油帶來更多助益。
同時自然語言處理技術(shù)(簡稱NLP)是人工智能的重要分支,通過NLP對合同文本進行深度的分析挖掘,實現(xiàn)計算機對文本語義層面的閱讀和理解。采用當前最領(lǐng)先的遷移學習和深度學習技術(shù),打造智能文本分析AI平臺,并結(jié)合人機交互強化學習,由通用AI智能平臺演變?yōu)橹袊S酮氂械纳疃華I智能平臺。如圖2所示。
(三)應(yīng)用場景設(shè)計
本次研究項目針對中國海油合同管理系統(tǒng)提供基于自然語言分析技術(shù)的智能平臺,應(yīng)用于中國海油合同管理業(yè)務(wù)的合同預審場景中。如圖3所示。
在本次研究項目中,在合同管理業(yè)務(wù)的預審環(huán)節(jié)介入了智能應(yīng)用來輔助對合同的內(nèi)容進行審核。
通過調(diào)用經(jīng)過訓練的模型,對合同中的格式化信息、合同關(guān)鍵審核要素、合同中的費用計算、合同合法性檢查、合同合規(guī)性審查等內(nèi)容進行審核,并將相關(guān)的結(jié)果在合同系統(tǒng)中加以標識,以供審核人員對審核結(jié)果進行確認與標定。
(四)應(yīng)用功能說明
在應(yīng)用場景設(shè)計的基礎(chǔ)之上,為驗證實現(xiàn)研究目標,本次項目中將中國海油現(xiàn)有的合同管理業(yè)務(wù)特點與自然語言分析技術(shù)相融合,提出了圖3的應(yīng)用場景邏輯架構(gòu)。如圖4所示。
并以此邏輯架構(gòu)為基礎(chǔ),將研究方向集中在,智能合同要素提取、合同智能預審兩個方面。進而依據(jù)項目研究的需要開發(fā)了如下的功能:
合同要素提?。汉贤靥崛?,是本次項目智能應(yīng)用服務(wù)的基礎(chǔ)能力。提供了基于自然語言處理技術(shù)的合同正文解析及合同關(guān)鍵要素提取的能力。提取后的合同要素內(nèi)容,可用于進行合同智能審核、合同表單數(shù)據(jù)驗證及表單回填。
合同智能預審:合同智能審核,是本次項目的核心應(yīng)用。
根據(jù)業(yè)務(wù)需求,本次項目共提煉并實現(xiàn)了18條合同審查規(guī)則。
合同智能審核的結(jié)果分為兩大部分。
一是摘要信息,展示本次審核的風險及問題等數(shù)據(jù)統(tǒng)計結(jié)果,同時展示合同關(guān)鍵要素提取的內(nèi)容。
二是審查信息,提供根據(jù)規(guī)則審查的結(jié)果。展示內(nèi)容按照規(guī)則類型進行分類。
此外,合同智能審核,還提供了用戶進行語料標注或反饋問題的渠道,以實現(xiàn)數(shù)據(jù)模型在實際使用過程中的持續(xù)優(yōu)化。
樣本標注:標注管理提主要供了合同樣本管理及樣本標注的功能。此外,還提供了輔助標注的業(yè)務(wù)領(lǐng)域管理及標簽管理功能。對樣本標注產(chǎn)生的實體詞還提供了實體詞庫管理和詞庫標簽映射功能。
通過標注管理,用戶可以實現(xiàn)對樣本標注,其輸出成果主要包括兩部分內(nèi)容:
一是標注結(jié)果數(shù)據(jù);二是實體詞庫。
這兩部分數(shù)據(jù)會輸入到語料生成環(huán)節(jié),進行語料數(shù)據(jù)的生成。
模型管理:模型管理是對合同審核模型進行管理的功能模塊,其主要功能包括模型管理、模型評估、模型優(yōu)化。
模型管理是對模型的基本信息及版本進行管理的功能。
模型評估是對模型訓練結(jié)果進行評估及指標數(shù)據(jù)查看的功能。
模型優(yōu)化是根據(jù)最終用戶提供的問題數(shù)據(jù)進行樣本再標注及模型優(yōu)化訓練的功能。
通過模型管理,系統(tǒng)會生成可供相關(guān)智能應(yīng)用進行實際管理服務(wù)的數(shù)據(jù)模型。
規(guī)則管理:規(guī)則管理,是對合同審查業(yè)務(wù)規(guī)則進行管理、配置的功能模塊。
系統(tǒng)提供的配置管理提供了黑名單、白名單等具有海油審查特色的配置能力,輔助合同審批管理用戶不斷豐富、完善合同審核規(guī)則。
除了基礎(chǔ)的配置管理功能,系統(tǒng)還提供了針對審查過程的記錄查看功能,可以查看相關(guān)規(guī)則對應(yīng)的審查問題結(jié)果數(shù)據(jù)。
應(yīng)用接口:合同要素提取,是本次項目智能應(yīng)用服務(wù)的基礎(chǔ)能力。提供了基于自然語言處理技術(shù)的合同正文解析及合同關(guān)鍵要素提取的能力。提取后的合同要素內(nèi)容,可用于進行合同智能審核、合同表單數(shù)據(jù)驗證及表單回填。
統(tǒng)計分析:合同要素提取,是本次項目智能應(yīng)用服務(wù)的基礎(chǔ)能力。提供了基于自然語言處理技術(shù)的合同正文解析及合同關(guān)鍵要素提取的能力。提取后的合同要素內(nèi)容,可用于進行合同智能審核、合同表單數(shù)據(jù)驗證及表單回填。
在本次研究項目中,中國海油著重研究了自然語言分析在公司合同管理中的應(yīng)用效果。經(jīng)過論證、研究以及實驗,達到了項目預期的目標。通過項目研究我們得出如下的結(jié)論:
本次項目既驗證了相關(guān)技術(shù)的可行性,也驗證了在海油合同管理業(yè)務(wù)中的實用及推廣可能性。
總體來說,自然語言分析——即以自然語言處理為核心的相關(guān)技術(shù)在合同管理中具有一定的實用和推廣價值。
合同智能審查作為核心業(yè)務(wù)應(yīng)用,為了達到更好的審查效果,除了自然語言處理技術(shù)之外,還應(yīng)根據(jù)實際情況,結(jié)合其它相關(guān)技術(shù)共同進行開發(fā)應(yīng)用。
目前的自然語言處理技術(shù)還不具備替代人工檢查的條件,只能實現(xiàn)對合同基礎(chǔ)完備性、關(guān)鍵要素準確性、一致性等方面的檢查。
作者單位:海洋石油