陳 艷,葉 翀,蔣偉杰
(1.福州大學至誠學院 經(jīng)濟管理系,福建 福州 350002;2.福州大學經(jīng)濟與管理學院,福建 福州 350108;3.福州大學計算機與大數(shù)據(jù)學院,福建 福州 350108)
根據(jù)2021年9月商務部電子商務和信息化司發(fā)布的《中國電子商務報告2020》顯示,2020年中國電子商務交易總額37.21萬億元(人民幣),同比增長4.5%,電子商務的從業(yè)人員達6015.33萬人,同比增長17%[1],在疫情常態(tài)化背景下國內(nèi)電子商務呈快速發(fā)展態(tài)勢,在拉動經(jīng)濟、增加就業(yè)方面發(fā)揮著重要的作用。同時報告也指出,雖然電子商務信用體系建設取得明顯成效,但是新型網(wǎng)絡營銷方式也帶來信用治理難題,涉及商品質(zhì)量、刷單、信用造假、虛假宣傳、價格欺詐等問題;報告要求電子商務行業(yè)及信用服務行業(yè)需要立足行業(yè)自身,利用專業(yè)優(yōu)勢進一步加強誠信建設,推動信用評價、信用監(jiān)測以及信用管理等多項信用服務,促進電子商務經(jīng)濟的規(guī)范健康發(fā)展。
電子商務中交易主體的信用風險評估是電子商務信用體系中的基本環(huán)節(jié)之一,有效的信用風險評估可以規(guī)避電子商務平臺中的“檸檬問題”,降低可能發(fā)生的交易風險和交易主體的損失。信用風險等級與交易主體的各項指標之間往往存在著復雜的非線性關系,依據(jù)人工經(jīng)驗判斷難以發(fā)現(xiàn)其中的規(guī)律,傳統(tǒng)基于統(tǒng)計決策的方法僅適用于低維數(shù)據(jù)的情況,在高維數(shù)據(jù)下的表現(xiàn)不盡如人意。因此依托現(xiàn)有的機器學習、數(shù)據(jù)挖掘技術從交易主體的各項指標數(shù)據(jù)中快速有效的評估信用風險等級對降低信用分析成本,加快電子商務信用體系的建設具有重要的現(xiàn)實意義。
國內(nèi)外已有不少研究利用機器學習技術根據(jù)企業(yè)數(shù)據(jù)實現(xiàn)信用評估,按照評估結果為企業(yè)信用得分和信用風險等級兩種形式分別構建回歸模型[2-5]和分類模型[6-13];按照模型的學習過程可以分為“端到端”的一站式學習[2,9,11-13]和兩階段式[3-8,10]的學習。一站式的學習方式中模型從原始數(shù)據(jù)所有維度的特征中直接進行學習;而兩階段式的學習方式中,首先對原始數(shù)據(jù)進行特征選擇降低數(shù)據(jù)的維度,其次在降維后的數(shù)據(jù)中進行學習。在回歸模型的構建過程中,余樂安提出了最小二乘近似支持向量回歸(LS-PSVR)模型,其構建的企業(yè)信用風險預警模型按照企業(yè)指標給出風險評估分數(shù),根據(jù)分數(shù)可以進一步劃分風險等級進行預警[2],在此基礎上,有些研究結合粗糙集或大數(shù)據(jù)分析技術進一步提升了模型的風險預警性能;另外有研究使用了基于主成分分析(PCA)的方法,首先使用PCA提取出主要指標后通過核支持向量機回歸(KSVR)得到風險評估分數(shù),KSVR中的超參數(shù)懲罰因子C和徑向基核寬度σ由粒子群優(yōu)化算法來選擇[4];其后,一些研究在此基礎上進一步使用核主成分分析(KPCA)來提取主要指標,接下來風險評估分數(shù)由改進的粒子群算法(PSO)結合神經(jīng)網(wǎng)絡計算而得[5]。在信用風險預警等級分類模型的學習中,王新輝先是利用PCA等技術從多個調(diào)研的企業(yè)數(shù)據(jù)中提取出主要指標,再利用反向傳播神經(jīng)網(wǎng)絡(BPNN)從這些指標中學習得到能夠?qū)ζ髽I(yè)信用進行分類的風險預警分類模型[6];其后李兵同樣使用了KPCA進行特征選擇,然后在高斯先驗假設的基礎上應用樸素貝葉斯設計了分類模型,模型能夠根據(jù)主要指標輸出風險預警等級[7];還有些研究是以支持向量機(SVM)為基分類器,通過bagging集成方式增強了模型的泛化能力,其中周可瀅在自行調(diào)研的企業(yè)數(shù)據(jù)集上獲得了良好的效果[8],陳云等在UCI機器學習數(shù)據(jù)庫的兩組公共信用數(shù)據(jù)集上得到了驗證[9];Xu YZ研究了決策樹(DT)分別與邏輯回歸(LR)、動態(tài)貝葉斯網(wǎng)絡(DBN)及神經(jīng)網(wǎng)絡相結合的模型性能,在淘寶賣家信用案例上驗證的結果表明,決策樹-神經(jīng)網(wǎng)絡的組合達到了最高的準確率[10]。Chang YC提出了一種基于決策樹的信用風險評估模型,通過在訓練模型的過程中將自助聚合和少數(shù)抽樣技術相結合,提高了決策樹的穩(wěn)定性和非平衡數(shù)據(jù)的性能[11];Zhang X基于粒子群優(yōu)化遺傳算法(PSO-GA)的神經(jīng)網(wǎng)絡,研究了跨境電子商務信用風險評估模型,提出了信用風險評估模型構建過程,并驗證上述模型能夠有效滿足跨境電子商務信用風險評估的要求[12];Huang XB則系統(tǒng)地研究了BPNN,徑向基函數(shù)(RBF),廣義回歸神經(jīng)網(wǎng)絡(GRNN)及概率神經(jīng)網(wǎng)絡(PNN)等不同類型的神經(jīng)網(wǎng)絡在信用風險預警等級分類上的表現(xiàn)[13],在公開的信用數(shù)據(jù)集上測試表明,PNN在二分類問題的準確率,ROC曲線下面積(AUROC)等度量上具有最佳的性能和魯棒性。
現(xiàn)有的信用風險評估模型加快和推動了信用風險評估體系的發(fā)展,但在實際使用過程中還存在著不足,主要體現(xiàn)在以下兩點。第一點是基于SVM、DT、LR等模型的方法難以直接擬合高維數(shù)據(jù),往往需要使用特征選擇手段先對數(shù)據(jù)進行降維操作。在樣本數(shù)量有限的情況下,數(shù)據(jù)降維的過程無法判斷和選擇出真正有效的特征屬性,因此會造成有效信息量的丟失,影響模型的性能和效果;第二點是近期越來越多的研究使用神經(jīng)網(wǎng)絡進行模型的回歸和分類,神經(jīng)網(wǎng)絡在低維和高維數(shù)據(jù)上都體現(xiàn)出了優(yōu)越的性能,但是神經(jīng)網(wǎng)絡的參數(shù)量大大超過其它模型,容易出現(xiàn)過擬合的問題。針對以上的問題,本文提出了基于類別平衡校正的集成極限學習機(EELM)企業(yè)信用風險預警等級預測模型。該模型通過樣本過采樣進行類別平衡校正,以解決少樣本數(shù)據(jù)集中的類別不平衡問題;其次模型中的極限學習機(ELM)能夠?qū)⒏呔S數(shù)據(jù)進行隨機投影后再優(yōu)化求解,可以增加模型的泛化能力,避免過擬合,然后以ELM為基學習器進行投票集成,進一步降低ELM隨機投影過程中造成的預測偏差,為信用風險評估體系提供穩(wěn)定有效的結果。
根據(jù)以上的分析,本文主要的貢獻和創(chuàng)新點如下:
一是研究了ELM模型在信用風險等級預警分類中的應用,并通過集成進一步提升了模型的效果。
二是提出了通過樣本過采樣來解決企業(yè)指標數(shù)據(jù)集上的樣本類別不平衡問題。
三是在實際數(shù)據(jù)集上進行了驗證,與基于BPNN、SVM的集成學習算法相比較,本文所提出的模型展示出更好的性能和效果。
假設要學習的任務為分類任務,訓練數(shù)據(jù)集(X,Y)={(xi,yi)|i={1,…,N}},其 中xi∈Rd,yi∈ {0,1}k,,即yi為k分類任務的one-hot編碼。ELM為黃廣斌[14]提出的屬于單隱層的前饋神經(jīng)網(wǎng)絡,結構如圖1所示。
圖1 極限學習機網(wǎng)絡結構
輸入層為d個結點,對應輸入數(shù)據(jù)x的d維數(shù)據(jù);隱藏層共h個結點,h為極限學習的超參,根據(jù)具體的應用進行設置,g(·)為激活函數(shù),為極限學習機提供非線性映射的能力;輸出層共k個結點,對應于k分類。模型中的共有三組參數(shù),W[d,h]和B[h]是輸入層到隱藏層的線性映射權重及其偏置;β[h,k]是隱藏層的輸出到最終輸出的線性映射權重。模型中輸入數(shù)據(jù)X和輸出預測值之間關系如公式1所示。
在極限學習機中,學習的目標函數(shù)為min||Y-||,這里的參數(shù)W[d,h]和B[h]在隨機初始化便不再改變,要學習的參數(shù)僅有β[h,k],即要求解的問題如公式2所示:
這里根據(jù)公式2可以得到β的解析表達式:
其中,g(WTX+B)-1可以使用矩陣廣義逆來近似求解。
ELM將樣本X以非線性的方式隨機投影到不同的特征空間,然后在新的特征空間中進行學習。由于投影的參數(shù)W,B在初始化的過程中隨機生成并不再改變,投影的過程在樣本數(shù)量有限的情況下不可避免地造成原始信息偏歧,最終得到的模型效果容易受到初始投影參數(shù)的影響。集成學習要求基分類器具備“好而不同”的特點,使用ELM作為基分類器,其隨機投影保證了基分類器之間的差異性,而其后的近似解析表達可以為效果提供保障。使用集成學習結合多個ELM基分類器,相當于以不同的方式對原始數(shù)據(jù)進行投影后再學習,可以通過不同的“角度”充分地利用原始數(shù)據(jù)信息,有效的降低偏差,獲得更準確和穩(wěn)定的預測結果。對多個基分類器的結果使用相對多數(shù)投票法的結合策略,即預測為得票最多的類別,若同時有類別票數(shù)相同,則隨機選取一個。
在現(xiàn)實的電子商務過程中,需要預警的企業(yè)遠少于正常的企業(yè)數(shù)量,這將在數(shù)據(jù)集中造成類別不平衡問題,會降低模型的性能和預測效果。為了使數(shù)據(jù)集中的類別達到平衡狀態(tài),一般可以通過少數(shù)類樣本的過采樣技術和多數(shù)類樣本的欠采樣來緩解類別不平衡的問題。在企業(yè)信用風險預警數(shù)據(jù)樣本量有限的情況,使用對多數(shù)類的欠采樣會進一步減少樣本的數(shù)量,往往比基于少數(shù)類的過采樣造成更嚴重的分類器過擬合問題。因此在本文中采用對少數(shù)類的樣本隨機過采樣的方法來使數(shù)據(jù)集的類別達到平衡狀態(tài)。
根據(jù)上述的步驟,基于類別平衡校正的EELM模型的訓練過程如算法1所示:
算法1基于類別平衡校正的集成極限學習機模型訓練算法輸入:訓練數(shù)據(jù)集D={X,Y),模型集成的數(shù)量M,ELM的激活函數(shù)g(·),隱藏結點數(shù)h過程:1:i=0 2:repeat 3:對D中的少數(shù)類樣本進行隨機過采樣以達到類別平衡4:隨機初始化ELM的分類器Fi權重W和B 5:根據(jù)公式3計算出分類器Fi的權重β 6:i=i+1 7:util i==M輸出:M個ELM分類器{F1,F2,…,FM}
基于類別平衡校正的EELM模型算法的推斷過程如算法2所示:
算法2基于類別平衡校正的集成極限學習機模型推斷算法輸入:測試數(shù)據(jù)X,M個ELM分類器{F1,F2,…,FM}過程:1:i=0 2:foreach Fi 3:根據(jù)公式1計算 Y?i=Fi(X)4:根據(jù){ ⌒Y1,⌒Y2,… ,⌒YM}的結果使用相對多數(shù)投票法計算得到最終預測結果 Y?輸出:最終預測結果Y?
電子商務信用風險數(shù)據(jù)樣本的采集首先要建立其對應的指標體系,本文采用王新輝的指標體系及其調(diào)研的18家企業(yè)數(shù)據(jù)[6]。由于電子商務信用風險的復雜性,因此使用指標體系中全部的19個指標,指標及其計算方法如表1所示。
表1 電子商務企業(yè)信用風險預警指標體系
王新輝在論文中對18家企業(yè)的信用風險等級評定由不同崗位的專家組對企業(yè)進行綜合評定打分后,再由不同的分數(shù)確定其風險等級[6]。本文根據(jù)其論文中提供的分值范圍、綜合得分分布以及信用風險的經(jīng)驗等級劃分,按照得分情況將風險等級劃分為三類,對應的預警等級和分值范圍為:無風險預警A(70-100)、低風險預警B(40-69)、高風險預警C(0-39)。原始數(shù)據(jù)中的18家企業(yè)信用風險分值和風險預警等級如表2所示。
表2 18家企業(yè)信用風險分值及其風險預警等級
根據(jù)表2,本文實驗取前13家企業(yè)為訓練樣本,后5家為測試樣本。在訓練樣本中,共有5個A類樣本,5個B類樣本,3個C類樣本。在實驗中,本文將對C類樣本進行過采樣以達到和其它類別一致的5個樣本。為了對比其實驗效果,過采樣后的訓練數(shù)據(jù)集記為校正數(shù)據(jù)集,未校正的數(shù)據(jù)集記為原始數(shù)據(jù)集。
在ELM中最重要的和需要設置的參數(shù)為隱層結點的數(shù)量,隱層結點的數(shù)量決定隨機投影的維度,合適的維度可以有效的緩解ELM在學習過程中過擬合和欠擬合的情況。在實驗中使用ELM最常用的Sigmoid激活函數(shù),在基分類器數(shù)量為100個的情況下,隱層結點數(shù)量從3個到10個模型的各運行10次的平均準確率如圖4所示。
準確率包括在原始數(shù)據(jù)集上的訓練準確率和測試準確率,校正后的數(shù)據(jù)集上的訓練準確率和測試準確率??梢园l(fā)現(xiàn),隨著隱層結點數(shù)量的增加,原始訓練準確率和校正訓練準確率都在上升,但是在原始測試準確率和校正測試準確率先上升再下降,這個現(xiàn)象說明當隱層結點數(shù)量超過一定數(shù)量時造成了模型的過擬合現(xiàn)象。根據(jù)圖4所顯示的結果,ELM的隱層結點數(shù)量選擇為7個結點。
在EELM中的參數(shù)還涉及到基分類器數(shù)量選擇。如圖5所示,可以觀測到兩個現(xiàn)象:一是隨著基分類器數(shù)量的增加,無論是訓練準確率還是測試準確率校正后的數(shù)據(jù)集都明顯高于原始數(shù)據(jù)集,說明校正后的類別平衡有助于提高模型的性能;二是隨著基分類器數(shù)量增加,校正測試準確率先呈上升趨勢,隨后在一定水平線上波動,說明在當前基分類器參數(shù)下模型性能具有較小的偏差。根據(jù)圖5所顯示的結果,將EELM的基分類器數(shù)量設置為1000。
首先驗證集成學習對應單個基分類器的效果,在7個隱層結點,1000個基分類器的情況下,運行模型10次取準確率均值,與所有基分類器的準確率均值比較如圖6所示。
圖6 集成模型與基分類器準確率對比
根據(jù)圖6展示的結果,可以發(fā)現(xiàn)集成模型的準確率明顯高于基分類器的準確率,在測試數(shù)據(jù)集上體現(xiàn)得更加顯著。
為了驗證ELM相對于其它分類器的有效性,本文選取在信用風險評估中常用的BPNN、SVM模型作為比較算法,對BPNN和SVM同樣使用相對多數(shù)的投票法進行集成。這三個算法基分類器的數(shù)量都設置為1000,其它兩個算法具體的參數(shù)如下:為方便比較,BPNN使用和ELM相同的單隱層結構,使用10個隱層結點,激活函數(shù)采用同ELM一樣的Sigmoid函數(shù),使用基于L-BFGS的梯度下降優(yōu)化算法,迭代至200次或誤差小于0.001時停止;SVM選擇核支持向量機,核函數(shù)選擇為RBF函數(shù),為了進一步增大SVM基分類器之間的差異性,懲罰因子C以及RBF函數(shù)的核寬度參數(shù)從(0,1)的高斯分布中采樣,迭代至誤差小于0.001時停止。另外為了比較模型的計算效率,還將給出模型在相同環(huán)境下的運行時間,運行環(huán)境為:windows10操作系統(tǒng),Intel Xeon E5型號的CPU,32G內(nèi)存。在不同的基分類器下的準確率和運行時間如表3所示。
表3 不同基分類器性能對比
根據(jù)表3所展示的結果,基于ELM的集成模型在測試準確率上明顯優(yōu)于基于BPNN和SVM的集成模型,同時可以看出基于解析求解的SVM和ELM在計算速度上遠遠超過基于迭代優(yōu)化的BPNN模型。在校正的數(shù)據(jù)集上所有模型的訓練準確率都高于原始數(shù)據(jù)集,說明類別平衡校正有助于模型更容易地尋找分類邊界;在校正的數(shù)據(jù)集上ELM和BPNN的測試準確率高于原始數(shù)據(jù)集,說明類別平衡校正能夠進一步提高模型的泛化能力,值得注意的是BPNN的訓練準確率達到了100%,遠超測試準確率,說明基于梯度下降的BPNN容易在少樣本數(shù)據(jù)集上造成過擬合現(xiàn)象;但是SVM在校正的測試數(shù)據(jù)集上取出現(xiàn)了性能下滑,造成這個現(xiàn)象的原因過采樣的樣本干擾了SVM支持向量的選擇,導致SVM模型產(chǎn)生了過擬合現(xiàn)象。
在電子商務活動中,有效準確的企業(yè)信用風險預警等級評估是健全電子商務信用體系的重要環(huán)節(jié),能夠積極推動電子商務的進一步發(fā)展,本文根據(jù)當前電子商務企業(yè)數(shù)據(jù)樣本數(shù)量少且類別不平衡的特點,提出了基于過采樣的類別平衡校正集成極限學習(EELM)模型,與現(xiàn)有的研究相比較具有泛化能力強、求解速度快,適用于高維的少樣本數(shù)據(jù)集。EELM模型在18家電子商務企業(yè)數(shù)據(jù)的全部19個指標上進行了實證分析,EELM能夠有效的預測企業(yè)信用風險預警等級,且在性能和效果上優(yōu)于基于BPNN和SVM的集成模型,較好解決了電子商務企業(yè)信用評價數(shù)據(jù)樣本少且類別不平衡的問題。由于企業(yè)信用數(shù)據(jù)采集存在一定的困難性,本文所提出來的模型有效性還有待在更多的企業(yè)信用數(shù)據(jù)上進行驗證。
針對三類風險等級界定,建議如下:
第一,處于A級無風險預警的企業(yè),信用風險較小,有較好的抗風險能力,可繼續(xù)深度合作,加強信用評級信息收集,優(yōu)化風險調(diào)控結構,提升企業(yè)信用。
第二,處于B級低風險預警的企業(yè),有一定的信用風險發(fā)生的可能性,要加強對企業(yè)產(chǎn)生信用風險的潛在因素進行分析,加強溝通和管理,改進工作,督促提高信用,防止信用風險的發(fā)生。
第三,處于C級高風險預警的企業(yè),處于預警狀態(tài),有較大信用風險發(fā)生的可能性,建議進入風險預案程序,暫停合作,督促加強各項工作,提升信用風險防范意識,避免出現(xiàn)慘重損失。