曹杰*,張巖松,劉速,楊文軍,高峰,劉增霞
(昆侖數(shù)智科技有限責(zé)任公司)
石油企業(yè)是一個(gè)龐大的生產(chǎn)運(yùn)營(yíng)綜合體,涉及上、中、下游復(fù)雜的業(yè)務(wù)鏈,集勘探開發(fā)、煉油化工、物流運(yùn)輸、成品油銷售、天然氣銷售、石油貿(mào)易、裝備制造、工程技術(shù)等業(yè)務(wù)于一體[1]。在實(shí)際生產(chǎn)經(jīng)營(yíng)中,石油企業(yè)及下屬單位與大量供應(yīng)商有著交易往來。供應(yīng)商作為供應(yīng)鏈的源頭,在石油企業(yè)物流中有著不可替代的作用。面對(duì)良莠不齊的供應(yīng)商,如何識(shí)別和評(píng)估供應(yīng)商存在的各類風(fēng)險(xiǎn),降低采購(gòu)成本,有針對(duì)性地選擇優(yōu)質(zhì)供應(yīng)商,成為石油企業(yè)采購(gòu)管理的核心。
對(duì)采購(gòu)供應(yīng)商進(jìn)行風(fēng)險(xiǎn)識(shí)別和評(píng)估,是采購(gòu)管理的關(guān)鍵環(huán)節(jié),且采購(gòu)是最為重要的成本開支之一,每年采購(gòu)的進(jìn)項(xiàng)發(fā)票有幾千萬張,金額巨大,業(yè)務(wù)范圍廣、采購(gòu)種類多、供應(yīng)商數(shù)量多,采購(gòu)過程中一般基于歷史采購(gòu)經(jīng)驗(yàn)、招投標(biāo)和合作往來的方式進(jìn)行供應(yīng)商評(píng)選。隨著“電算化”時(shí)代的到來和大數(shù)據(jù)技術(shù)的迅速發(fā)展,數(shù)字化技術(shù)為企業(yè)管理提供更有效的手段[2],采購(gòu)行為信息能夠以結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)形式存儲(chǔ),大量數(shù)據(jù)資源形成了龐大的數(shù)據(jù)庫(kù),蘊(yùn)含著巨大的價(jià)值,通過深入挖掘數(shù)據(jù)標(biāo)簽和風(fēng)險(xiǎn)因素,建立供應(yīng)商風(fēng)險(xiǎn)模型能夠助力石油企業(yè)采購(gòu)管理的提升,輔助供應(yīng)商評(píng)估。
供應(yīng)商風(fēng)險(xiǎn)模型的建立在不同行業(yè)存在一定的差異,許多學(xué)者將各類模型算法應(yīng)用在相應(yīng)的領(lǐng)域。梁梁等在供應(yīng)商管理庫(kù)存中運(yùn)用歐式和美式期權(quán)對(duì)供應(yīng)商經(jīng)營(yíng)風(fēng)險(xiǎn)進(jìn)行分析[3]。梁澤彬等基于灰色層次分析和灰聚類相結(jié)合的分析方法,建立了供應(yīng)商風(fēng)險(xiǎn)評(píng)價(jià)模型,并應(yīng)用在物流企業(yè)的供應(yīng)商風(fēng)險(xiǎn)管理[4]。李輝運(yùn)用粗糙集與模糊綜合評(píng)價(jià),從交互能力風(fēng)險(xiǎn)、合作風(fēng)險(xiǎn)、服務(wù)風(fēng)險(xiǎn)指標(biāo)維度對(duì)一家混泥土外加劑生產(chǎn)企業(yè)建立供應(yīng)風(fēng)險(xiǎn)評(píng)價(jià)模型[5]。繆琳以物流企業(yè)為例,運(yùn)用物元和可拓理論建立供應(yīng)商風(fēng)險(xiǎn)評(píng)價(jià)模型[6]。胡爽等以航空企業(yè)的供應(yīng)商風(fēng)險(xiǎn)管理為例,應(yīng)用層次分析法建立供應(yīng)商風(fēng)險(xiǎn)評(píng)估體系[7]。祝思佳等基于航空轉(zhuǎn)包生產(chǎn)行業(yè)的復(fù)雜性,采用TOPSIS(熵權(quán))算法模型對(duì)航空轉(zhuǎn)包供應(yīng)商進(jìn)行風(fēng)險(xiǎn)評(píng)估[8]。耿俊成等基于基本屬性、用電行為、95598信息等維度數(shù)據(jù)運(yùn)用邏輯回歸模型建立電力客戶停電敏感度評(píng)分卡[9]。邏輯回歸評(píng)分卡是一種成熟的風(fēng)險(xiǎn)評(píng)估模型,在客戶信用風(fēng)險(xiǎn)評(píng)估和金融風(fēng)險(xiǎn)控制領(lǐng)域有著廣泛的應(yīng)用,其原理是從歷史數(shù)據(jù)中探查良與不良客戶或供應(yīng)商的特征,運(yùn)用邏輯回歸算法基于WOE離散化后的模型變量進(jìn)行二分類,建立數(shù)據(jù)模型,為信用評(píng)估提供依據(jù)。相較于層次分析法及物元和可拓理論依賴專家主觀評(píng)價(jià)、熵權(quán)法對(duì)樣本量要求較高且僅適用于計(jì)算權(quán)重,邏輯回歸評(píng)分卡基于供應(yīng)商特征數(shù)據(jù)進(jìn)行邏輯回歸模型訓(xùn)練,實(shí)現(xiàn)簡(jiǎn)單,訓(xùn)練速度快,結(jié)果客觀可信,因此在供應(yīng)商評(píng)價(jià)中得到廣泛應(yīng)用。
本文以石油企業(yè)進(jìn)項(xiàng)發(fā)票數(shù)據(jù)和供應(yīng)商主數(shù)據(jù)為數(shù)據(jù)來源,結(jié)合石油企業(yè)的采購(gòu)特性,運(yùn)用邏輯回歸評(píng)分卡建立石油企業(yè)的供應(yīng)商風(fēng)險(xiǎn)模型。
邏輯回歸是廣義的線性回歸,常用于信貸評(píng)估等二分類問題,包含因變量和自變量?jī)煞N變量類型,其中因變量屬于二元分類變量,自變量呈現(xiàn)供應(yīng)商或客戶的信息。
設(shè)邏輯回歸模型有r個(gè)自變量,用x1、x2、…,xr表示,因變量y∈{1,0}表示供應(yīng)商良與不良信息這一事件,y=1表示不良的供應(yīng)商,y=0表示良好的供應(yīng)商。y=1事件概率以p表示,其公式為:
式中:β0、β1、…、βr——模型參數(shù);β0——截距項(xiàng)[10]。經(jīng)轉(zhuǎn)換簡(jiǎn)化公式為:
式中:1-p——供應(yīng)商良好的可能性;p(1-p)——不良事件與良好事件發(fā)生的可能性比,被稱為odds。對(duì)odds取對(duì)數(shù),得到線性函數(shù)。邏輯回歸通過尋找最佳的參數(shù)β0、β1、…、βr實(shí)現(xiàn)模型優(yōu)化。
采用最大似然估計(jì)函數(shù)測(cè)算β0、β1、…、βr模型參數(shù),設(shè)有m組觀測(cè)數(shù)據(jù),則極大似然函數(shù)為:
式中:分別對(duì)參數(shù)β求偏導(dǎo)數(shù),求得使對(duì)數(shù)似然函數(shù)最大的邏輯回歸系數(shù)的估計(jì)值。
邏輯回歸評(píng)分卡是指基于邏輯回歸算法生成的評(píng)分卡,最常見的是信用評(píng)分卡,它是根據(jù)客戶屬性和行為數(shù)據(jù),利用邏輯回歸模型計(jì)算客戶信用評(píng)分,據(jù)此建立客戶信用等級(jí),輔助貸款、授信等業(yè)務(wù)決策。
結(jié)合評(píng)分卡和邏輯回歸的基本原理,評(píng)分卡的分值以發(fā)生比的對(duì)數(shù)線性表達(dá)式表示:
式中:A與B是常數(shù),高分值代表低風(fēng)險(xiǎn),低分值代表高風(fēng)險(xiǎn)。
結(jié)合公式(3)和公式(6),評(píng)分卡分值計(jì)算公式表示為:
式中:x1、x2、…、xr——入模變量。經(jīng)WOE轉(zhuǎn)換后以 (βiωij)δij形式表示:
式中:A-Bβ0——基礎(chǔ)分值;ωij——第i個(gè)變量的第j個(gè)分箱的WOE值;βi——回歸方程系數(shù);δij——二元變量,表示第i個(gè)變量的取值。
隨著數(shù)字化時(shí)代的發(fā)展,石油企業(yè)建立了多項(xiàng)成熟的管理系統(tǒng),存儲(chǔ)了大量業(yè)務(wù)數(shù)據(jù),其中發(fā)票作為商品(服務(wù))交易的原始憑證,是石油企業(yè)采購(gòu)交易的體現(xiàn),可以提煉出供應(yīng)商的交易往來、主銷商品、稅務(wù)風(fēng)險(xiǎn)、歷史開票行為等特征,供應(yīng)商主數(shù)據(jù)包含:?jiǎn)挝恍再|(zhì)、企業(yè)類型、注冊(cè)資本等自然屬性特征,能夠?yàn)槟P驮u(píng)估提供豐富的數(shù)據(jù)基礎(chǔ)。本文以石油企業(yè)進(jìn)項(xiàng)發(fā)票和供應(yīng)商主數(shù)據(jù)為數(shù)據(jù)來源構(gòu)建供應(yīng)商風(fēng)險(xiǎn)模型,構(gòu)建流程如圖1所示。
圖1 石油企業(yè)供應(yīng)商風(fēng)險(xiǎn)模型構(gòu)建流程
從石油企業(yè)進(jìn)項(xiàng)發(fā)票數(shù)據(jù)和供應(yīng)商主數(shù)據(jù)提取62項(xiàng)供應(yīng)商相關(guān)的屬性,主要包括以下3類數(shù)據(jù):①基礎(chǔ)屬性數(shù)據(jù),如供應(yīng)商稅號(hào)、單位性質(zhì)、企業(yè)類型、所屬集團(tuán)、所屬板塊、所屬行業(yè)等。②經(jīng)營(yíng)表征數(shù)據(jù),如經(jīng)營(yíng)現(xiàn)狀、注冊(cè)資本、內(nèi)部合作單位數(shù)、主銷商品等。③發(fā)票表征數(shù)據(jù),如開票數(shù)量、開票金額、作廢發(fā)票、失控發(fā)票、異常發(fā)票、紅沖發(fā)票、風(fēng)險(xiǎn)發(fā)票等。
為了保證字段變量的完整性,選取具有較好代表性的樣本,訓(xùn)練集樣本量為22 544條,占比60%,測(cè)試集樣本量為15 029條,占比40%,總計(jì)樣本量37 573條。其中訓(xùn)練集好樣本20 844條,壞樣本1 700條,測(cè)試集好樣本13 895條,壞樣本1 134條,訓(xùn)練集和測(cè)試集好樣本合計(jì)34 739條,壞樣本合計(jì)2 834條。樣本數(shù)據(jù)分布如表1所示。
表1 樣本數(shù)據(jù)分布表 單位:個(gè)
模型經(jīng)過缺失值處理、相關(guān)性變量剔除、數(shù)據(jù)轉(zhuǎn)換(分箱離散化)及IV值變量篩選等優(yōu)化過程,變量從最初62項(xiàng)到最終選定9項(xiàng)作為模型的特征指標(biāo),具體優(yōu)化過程如下。
2.2.1 缺失值處理
本次研究初步提取 62項(xiàng)供應(yīng)商相關(guān)的屬性數(shù)據(jù),但其中不少變量包含大量缺失值且部分變量與目標(biāo)變量無關(guān)(如國(guó)家、編碼等字段),因此將缺失比例在50%以上的變量及無關(guān)變量一并剔除。經(jīng)過本次剔除,對(duì)剩余39個(gè)變量進(jìn)行缺失值賦值,本文對(duì)缺失值處理,采用變量的眾數(shù)進(jìn)行插補(bǔ)。
2.2.2 相關(guān)性變量剔除
邏輯回歸模型中自變量間若存在高度的多重共線性會(huì)影響模型估計(jì)結(jié)果,如偏回歸系數(shù)估計(jì)困難,偏回歸系數(shù)的估計(jì)方差會(huì)隨自變量相關(guān)性的增大而增大,偏回歸系數(shù)估計(jì)值的不穩(wěn)定性增強(qiáng),偏回歸系數(shù)假設(shè)檢驗(yàn)的結(jié)果不顯著等。因此,本文研究中考慮變量之間的相關(guān)程度,根據(jù) Pearson相關(guān)系數(shù)剔除相關(guān)系數(shù)在 0.6以上而對(duì)目標(biāo)變量影響相對(duì)較小的變量。經(jīng)過相關(guān)性剔除,篩選11個(gè)變量進(jìn)入分箱處理。
2.2.3 卡方分箱及IV值變量篩選
分箱的目的是實(shí)現(xiàn)數(shù)據(jù)的離散化,降低過度擬合風(fēng)險(xiǎn)。信息價(jià)值IV是衡量變量預(yù)測(cè)能力的指標(biāo),能夠判斷特征變量對(duì)結(jié)果的重要程度,IV值越大表示特征變量的預(yù)測(cè)能力越強(qiáng)。對(duì)于分組變量,IV值計(jì)算公式如下:
式中:pyi——當(dāng)前分箱中不良供應(yīng)商占樣本中不良供應(yīng)商的比例;pni——該分箱中良好供應(yīng)商占樣本中良好供應(yīng)商的比例;WOEi——當(dāng)前分箱中不良供應(yīng)商和良好供應(yīng)商的比值和樣本中不良供應(yīng)商和良好供應(yīng)商比值的差異。差異越大,該分組里的樣本響應(yīng)的可能性就越大。計(jì)算公式為:
式中:yi——當(dāng)前分箱中不良供應(yīng)商的數(shù)量;ni——該分箱中良好供應(yīng)商的數(shù)量;yT——樣本中不良供應(yīng)商的數(shù)量;nT——樣本中良好供應(yīng)商的數(shù)量。
特征變量的IV值如表2所示,選取IV值大于0.01的9個(gè)變量作為入模變量,分別是歷史作廢發(fā)票數(shù)量比例、歷史年均交易頻次、近三個(gè)月作廢發(fā)票金額、歷史開發(fā)數(shù)量、供應(yīng)商近一年內(nèi)部合作單位數(shù)、供應(yīng)商歷史上內(nèi)部合作單位數(shù)、所屬板塊、所屬集團(tuán)、單位性質(zhì)。
表2 入模變量IV值表
采用最大似然估計(jì)法計(jì)算回歸系數(shù)的估算值,模型擬合結(jié)果如表3所示。入模變量9項(xiàng),其中歷史作廢發(fā)票數(shù)量比例、歷史年均交易頻次、近三個(gè)月作廢發(fā)票金額、歷史開票數(shù)量、所屬板塊p值遠(yuǎn)小于 0.01,具有非常顯著的意義,單位性質(zhì)p值小于0.05有顯著意義。
表3 邏輯回歸結(jié)果
此外,根據(jù)表3邏輯回歸系數(shù)顯著性檢驗(yàn)結(jié)果,變量顯著性指標(biāo)多為進(jìn)項(xiàng)發(fā)票指標(biāo),考慮供應(yīng)商評(píng)價(jià)應(yīng)綜合考慮多個(gè)業(yè)務(wù)維度,因此在不影響邏輯回歸模型整體效果的前提下,將供應(yīng)商歷史上內(nèi)部合作單位數(shù)、所屬集團(tuán)兩個(gè)變量納入評(píng)分卡模型。
基于邏輯回歸算法模型輸出的回歸系數(shù)和WOE編碼對(duì)每個(gè)入模變量按照不同的分箱建立評(píng)分刻度,如表4所示。邏輯回歸評(píng)分卡模型通過綜合計(jì)算入模變量的評(píng)分值和初始基礎(chǔ)分,來統(tǒng)計(jì)每個(gè)供應(yīng)商的總體得分。當(dāng)有新的供應(yīng)商數(shù)據(jù)進(jìn)入模型時(shí),模型會(huì)自動(dòng)計(jì)算出供應(yīng)商的分?jǐn)?shù),從而實(shí)現(xiàn)供應(yīng)商風(fēng)險(xiǎn)的判斷。
表4 評(píng)分刻度表
二分類問題常見的評(píng)價(jià)指標(biāo)有準(zhǔn)確率、精準(zhǔn)率、召回率、F1值、ROC(感受性曲線)曲線和AUC等。準(zhǔn)確率是指分類正確的樣本占總樣本的比率,在不均衡的樣本集上度量效果較差。精準(zhǔn)率是指預(yù)測(cè)為正的樣本中實(shí)際為正的比率。召回率是指正樣本中被預(yù)測(cè)為正的比率。F1值是精準(zhǔn)率和召回率的調(diào)和平均。ROC曲線是以真正率為縱坐標(biāo)、假正類率為橫坐標(biāo)繪制的曲線[11]。AUC值被定義為ROC曲線下的面積,AUC越接近于1,模型效果越好,其中AUC介于0.5~0.7,模型效果一般;AUC介于0.7~0.9,模型效果較強(qiáng);AUC大于0.9,模型效果很強(qiáng)。相比于其他評(píng)價(jià)指標(biāo),當(dāng)樣本集中正負(fù)樣本不均衡時(shí),ROC曲線能夠保持相對(duì)的穩(wěn)定,而精準(zhǔn)率、召回率等會(huì)出現(xiàn)較大的變化。因此,本文采用ROC曲線和AUC面積值作為模型的評(píng)價(jià)指標(biāo)。由圖2訓(xùn)練數(shù)據(jù)和圖3測(cè)試數(shù)據(jù)的ROC曲線可以看出,曲線明顯高于對(duì)角線,證明模型是有強(qiáng)規(guī)則性的,且曲線上凸于縱坐標(biāo)軸,AUC面積區(qū)域接近于梯形狀,證明模型分類效果較好。該模型測(cè)試AUC為0.82,說明模型分類能力較好。
圖2 訓(xùn)練數(shù)據(jù)ROC圖
圖3 測(cè)試數(shù)據(jù)ROC圖
測(cè)試樣本共有15 029個(gè)供應(yīng)商,其中不良供應(yīng)商1 134個(gè)。基于邏輯回歸評(píng)分卡對(duì)測(cè)試樣本數(shù)據(jù)進(jìn)行評(píng)分計(jì)算和驗(yàn)證,分值段按照供應(yīng)商數(shù)量劃分,每段供應(yīng)商數(shù)量約為5%,以分值從低到高排序,見表5和圖4。
表5 驗(yàn)證數(shù)據(jù)表
圖4 分段提升度
分段提升度作為評(píng)估預(yù)測(cè)模型有效性的度量指標(biāo),衡量的是一個(gè)模型(或規(guī)則)對(duì)目標(biāo)中“響應(yīng)”的預(yù)測(cè)能力優(yōu)于隨機(jī)選擇的倍數(shù)。通過驗(yàn)證數(shù)據(jù)表,測(cè)試集中供應(yīng)商自然不良率為 7.55%,(0,376]分段不良率71.18%,比自然不良率提高了9.43倍,提升度顯著大于1,在(0,447]低分段區(qū)間,分段提升度均大于2.5,預(yù)測(cè)能力明顯優(yōu)于隨機(jī)選擇,說明算法性能較好,且提升度曲線單調(diào)下降,呈“L”型,表明模型分類效果良好。
建立評(píng)分卡的目的是根據(jù)供應(yīng)商的模型評(píng)分,對(duì)供應(yīng)商做出風(fēng)險(xiǎn)判斷,采取相應(yīng)的防范措施。結(jié)合 Lift提升度曲線,(0,447]分段區(qū)間的提升度均大于2.5,相比自然隨機(jī)抽取有較大的概率提升,存在風(fēng)險(xiǎn)供應(yīng)商的可能性較大,基于分值區(qū)間的劃分和業(yè)務(wù)考慮,將(0,376]劃分為高風(fēng)險(xiǎn),(376,433]劃分為中風(fēng)險(xiǎn),(433,447]劃分為低風(fēng)險(xiǎn)。通過應(yīng)用供應(yīng)商風(fēng)險(xiǎn)模型,采購(gòu)管理者一方面能夠掌握供應(yīng)商警示名單等信息,對(duì)447分段內(nèi)的供應(yīng)商重點(diǎn)關(guān)注,另一方面可以洞察供應(yīng)商有關(guān)風(fēng)險(xiǎn)影響指標(biāo),輔助采購(gòu)決策。
石油企業(yè)進(jìn)項(xiàng)發(fā)票數(shù)據(jù)和供應(yīng)商主數(shù)據(jù)是本文運(yùn)用邏輯回歸評(píng)分卡建立供應(yīng)商風(fēng)險(xiǎn)模型的主要數(shù)據(jù)來源,經(jīng)過特征篩選選定了9項(xiàng)特征變量進(jìn)行邏輯回歸擬合,模型驗(yàn)證效果良好。供應(yīng)商風(fēng)險(xiǎn)模型將可能存在風(fēng)險(xiǎn)的供應(yīng)商劃分為高、中、低三個(gè)等級(jí),風(fēng)險(xiǎn)等級(jí)越高,存在生產(chǎn)經(jīng)營(yíng)風(fēng)險(xiǎn)的可能性越大。石油企業(yè)在進(jìn)行采購(gòu)交易時(shí),可參考本文提出的供應(yīng)商風(fēng)險(xiǎn)模型,并結(jié)合實(shí)際采購(gòu)需求做出合理的判斷,對(duì)于高風(fēng)險(xiǎn)供應(yīng)商重點(diǎn)關(guān)注,盡量避免交易往來;對(duì)于中風(fēng)險(xiǎn)供應(yīng)商綜合評(píng)估采購(gòu)需求,慎重交易;對(duì)于低風(fēng)險(xiǎn)供應(yīng)商進(jìn)一步分析風(fēng)險(xiǎn)指標(biāo)項(xiàng),綜合評(píng)估采購(gòu)的關(guān)聯(lián)性,減少交易風(fēng)險(xiǎn)。
本文供應(yīng)商風(fēng)險(xiǎn)模型的數(shù)據(jù)來源存在一定局限性,隨著司法風(fēng)險(xiǎn)、立案信息、經(jīng)營(yíng)狀況等外部數(shù)據(jù)的引入能夠進(jìn)一步豐富模型變量,提升適用范圍。