蒲京京 蘇巧榮 張朝瑜 肖振東 吳養(yǎng)會
摘 要:針對農戶產權抵押貸款信用問題,利用陜西高陵、臨潼、楊陵3個地區(qū)農村金融抵押貸款的有關調研數(shù)據,運用貝葉斯網絡分類模型進行分類研究,以農戶所在地區(qū)、家庭類型、教育程度等10個因素作為自變量,以產權抵押貸款的意愿作為分類依據,結果表明,采用十折交叉驗證的貝葉斯網絡分類器對解決此類問題具有良好的分類效果,其分類結果可以為農戶抵押貸款研究提供理論參考。
關鍵詞:農村金融;貝葉斯網絡分類器;ROC曲線;交叉驗證
中圖分類號 F832 文獻標識碼 A 文章編號 1007-7731(2018)11-0002-04
Abstract:According to the problem of farmers' property mortgage credit,the Bayes Network classification model was constructed which based on the investigation data related to the property mortgage in Gaoling,Lingtong and Yangling.We chosed the region,family type,level of education and other 7 factors as the independent variables,the property mortgage loan willingness as the independent variables.The analysis results show that Bayes Network classification model which used ten-fold cross validation has good effect in solving these problems.Besides,the classification results provided the certain reference role in the household mortgage policy.
Key words:Rural finance;Bayes network;ROC curve;K-fold cross validation
1 引言
當前中國經濟正在飛速發(fā)展,這其中金融業(yè)起著至關重要的作用,然而我國農村金融行業(yè)的創(chuàng)新能力仍然明顯不足。圍繞農村產權抵押貸款,國內學者展開了大量的研究,現(xiàn)有研究大多局限在對農村產權抵押貸款發(fā)展意義、現(xiàn)狀、制約因素及其制度中存在的問題等方面上的定性分析,而基于農戶微觀數(shù)據的定量研究則相對偏少。曾慶芬[1]以成都試點為例,利用二項logit模型分析了影響農戶參與土地使用權和宅基地使用權融資意愿的影響因素,并提出了相關政策建議;美國耶魯大學經濟學家Hugh T.Patrick研究中,強調農村經濟主體的金融服務需求以及農村金融組織及相關服務的供給先于農村經濟主體的需求。值得我們借鑒的還有像孟加拉國那樣的農村金融機構,孟加拉國鄉(xiāng)村銀行模式調動了農村的發(fā)展積極性,不僅充分發(fā)揮了鄉(xiāng)村銀行對農村經濟發(fā)展的作用,而且提高了農村銀行自身的發(fā)展效率。對于中國農村現(xiàn)狀,孟加拉國的小額扶貧貸款模式適用于我國如此之多的農村人口數(shù)量,能有效地帶動銀行資金的流動,促進農村銀行的發(fā)展。從以上研究方法可以看出,對農村產權抵押貸款的研究更多的集中于制度研究,少有的實證分析也僅局限與二項logit模型或二項logistic回歸模型,受限于模型同性質和獨立同分布等理想化假設的影響,所得到的結論難以全面、客觀地反映出農戶融資的實際需求。
李旭升[2]在個人信用評估中使用樸素貝葉斯分類器(Neive Bayesian,NB)建立分類模型,對數(shù)據類型進行細致分類,實驗表明,NB進行信用分類可以取得更好的效果,由于NB作為一種概率型分類,各類概率以及各屬性的條件概率有明顯的物理意義,具有較好的解釋性??登f[3]在納稅評估方面建立貝葉斯分類納稅評估模型,有效地發(fā)現(xiàn)稅法執(zhí)行偏差,能夠較為準確地發(fā)現(xiàn)稅收執(zhí)行偏差者;吳陳和張明華[4]研究分析了樸素貝葉斯分類算法在個人信用預測方面的應用,實驗表明,基于最大后驗概率熵的最優(yōu)樸素貝葉斯算法在個人信用預測方面顯著提高了預測的準確性。唐爐亮[5]在針對浮動車數(shù)據的城市車道數(shù)量信息調查采用樸素貝葉斯分類方法確定目標路段的車道數(shù)量,最終結果表明其提取的精度高達76.3%。作為一種良好的分類器,樸素貝葉斯分類器受到越來越多的研究者的關注,在各個研究領域都得到了廣泛的應用。
為研究我國西部農戶產權抵押貸款中的農戶分類問題,本文利用貝葉斯網絡具有較高的分類精度和優(yōu)良準確性的特征,以農戶抵押貸款的預期為分類指標,建立影響農戶類型的貝葉斯網絡結構,以為金融機構提供有價值的信用參考。
2 貝葉斯網絡分類器
貝葉斯網絡[6](Bayesian Network)是一種概率網絡,是基于概率推理的圖形網,而貝葉斯公式則是這個概率網絡的基礎。貝葉斯網絡又稱為信用網絡(Belief Networks),是用來表示變量之間連接關系與概率關系的一種圖形模型,是目前不確定知識表達和推理領域最有效的理論模型之一。貝葉斯網絡是貝葉斯方法的拓展,提供了一種表示因果信息的方法,適用于不確定性和概率性事件的表達和分析,可以從不完全性、不精確或不確定的知識或信息中進行推理,主要處理人工智能中的不確定性信息,在計算機智能科學、工業(yè)控制、醫(yī)療診斷等領域等許多智能化系統(tǒng)中得到了重要應用。
貝葉斯網絡采用一個DAG(Directed Acyclic Graph,有向無環(huán)圖)表示,由代表變量的節(jié)點和連接這些節(jié)點的郵箱邊構成。節(jié)點代表隨機變量,節(jié)點間的有向邊代表了節(jié)點間的相互關系(由父節(jié)點指向其子節(jié)點)。如果變量是離散型,可以采用表的形式表示,稱為條件概率表,列出子節(jié)點與其父節(jié)點的每一種值的祝賀所對應的概率。有父節(jié)點的節(jié)點用條件概率表示關系強度,沒有父節(jié)點的節(jié)點使用先驗概率。貝葉斯分類器的分類原理是經過實驗中某樣本對象的先驗概率,使用貝葉斯公式計算出其相應的后驗概率,從最大的后驗概率的類中進行選擇。貝葉斯分類基于貝葉斯原理,以貝葉斯公式為中心。貝葉斯公式如下:
樸素貝葉斯分類假定所有屬性變量是“類條件下相互獨立”的,即每個屬性變量[Xi]只與類變量[ti]相關。拓撲結構圖如圖1所示。
估計每個類的先驗概率,一般可以按照[P(t=ti)=Ni/N]進行估算,其中:[Ni]為子數(shù)據集中[t=ti]的樣本數(shù),[N]為訓練集樣本總數(shù),之后按照最大似然估計準則,在每個由[ti]標定的子集,對類條件下屬性變量的概率進行估計。
3 數(shù)據來源、變量選擇及數(shù)據處理
3.1 數(shù)據來源 本文使用的數(shù)據是西北農林科技大學經管學院學生采用調查問卷的方式走訪陜西高陵、臨潼、楊陵3個地區(qū)所獲取的。問卷主要分為5個部分,即農戶基本信息、貸款經歷與評價、產權抵押政策的落實情況、未來融資的需要與意見和建議。數(shù)據樣本容量為349。
3.2 變量選擇 產權抵押貸款一般是根據個人信用評估的指標進行的。個人信用評估的指標是綜合反映個人本身和環(huán)境所共同作用產生的復雜系統(tǒng)的不同屬性的指標,按照隸屬關系、層次結構可將影響個人信用評估的因素加以分類和綜合,使個人信用的特征劃分為5個部分:品行、償付能力、資金。抵押擔保和條件,即常用的“5C評估法”[7]。參考“5C評估法”,最終選取所在地區(qū)、家庭規(guī)模、家庭經營類型、文化程度、近6年年均收入、近六年年均支出、家庭土地經營面積、當?shù)剞r信社信譽情況、工作人員服務態(tài)度、政策了解程度等10個因素作為本文研究的自變量,并以對產權抵押貸款意愿作為因變量來進行研究。
3.3 數(shù)據處理
3.3.1 數(shù)據清洗 數(shù)據處理旨在清除掉與分類無關的數(shù)據,對與本分類無關的數(shù)據進行清除。同時還應清除與分類無關的指標以及重復指標,減少計算中帶來的不必要工作。
3.3.2 數(shù)據集成 將多個數(shù)據按照格式統(tǒng)一起來存儲,并建立信用數(shù)據庫。
3.3.3 數(shù)據轉換 主要是對數(shù)據進行離散化。不同的算法對輸入數(shù)據的要求不同,而且獲取的數(shù)據較為原始,計算時需要對數(shù)據進行相應轉換。本文所使用數(shù)據經過預處理后,各變量屬性及編碼如表1所示。
4 農戶分類研究
利用Weka軟件[8]建立貝葉斯網絡模型,利用模型進行預測及檢驗模型的有效性及真實性。該貝葉斯網絡分類模型是以對產權抵押貸款意愿(Class)為因變量,利用349條數(shù)據的訓練集建立貝葉斯網絡模型。
采用BayesNet下的local TAN模型構建方法,并采用交叉驗證方法,通過weka軟件分析得到模型。圖2為建立所獲得的貝葉斯網絡結構圖。
從圖2可以看出,家庭規(guī)模、文化程度、家庭經驗類型、近6年的平均收入、工作人員服務態(tài)度以及當?shù)剞r信社信譽情況作為子節(jié)點時,它們的父節(jié)點同時是所在地區(qū)和對產權抵押貸款意愿。所在地區(qū)作為子節(jié)點時,相應的父節(jié)點是近6年的平均支出和對產權抵押貸款意愿,近6年的支出作為子節(jié)點時,其父節(jié)點為政策了解程度和對產權抵押貸款意愿,政策了解程度作為子節(jié)點時只有一個相應的父節(jié)點為對產權抵押貸款意愿。其中正確分類的實例到達58.7%,Kappa統(tǒng)計為0.3178,案例的覆蓋程度(0.95 level)為99.4269%,表現(xiàn)出較好的分類效果。
ROC曲線指受試者工作特征曲線,是反映敏感性和特異性連續(xù)變量的綜合指標,是用構圖法揭示敏感性和特異性的相互關系,它通過將連續(xù)變量設定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標、(1-特異性)為橫坐標繪制成曲線,曲線下面積越大,診斷準確性越高。在ROC曲線上,最靠近坐標圖左上方的點為敏感性和特異性均較高的臨界值。針對上述網絡結構圖分類結果,利用weka軟件構造roc曲線,對貝葉斯網絡分類結果進行分類效果評價。
圖3~5分別表示對應分類結果為a、b及c,根據貝葉斯分類器所獲得結果分類準確性比較,其曲線下對應的圖形面積分別為0.692,0.6902和0.701??梢钥闯?,本次建立的貝葉斯網絡分類模型對金融農村具有較高的正確性及可靠性。在此基礎上,為了改進并提高分類效果,在交叉驗證上進行參數(shù)修改,將Cross-validation Fold原定參數(shù)15改為10,即采用十折交叉驗證(表2)。通過交叉驗證的參數(shù)改變,貝葉斯網絡分類效果,有明顯的提高。
5 結論
本文針對農戶產權抵押貸款,對農村金融數(shù)據進行貝葉斯網絡分類研究。在對調查數(shù)據進行數(shù)據處理后,通過利用“5C評估法”,將大量的數(shù)據變量進行篩選,選出了10個有顯著影響的數(shù)據變量,并將對產權抵押貸款的意愿作為數(shù)據類進行分類研究。分類結果表明,采取十折交叉驗證方法的貝葉斯網絡分類模型中,在農村金融數(shù)據中有較高的正確性和覆蓋性。同時,構建反映各因素間相關關系的貝葉斯網絡結構圖,能更進一步解釋影響農戶抵押貸款的各因素及其作用大小,對于農村金融機構進行貸款決策起到了一定的積極作用。由于本研究所獲得數(shù)據容量較小,在后續(xù)的研究中,將擴大調查范圍,以擴大樣本容量,更進一步提高分類的準確性,為農村金融改革提供有價值的參考。
參考文獻
[1]曾慶芬.產權改革背景下農村居民產權融資意愿的實證研究——以成都“試驗區(qū)”為個案[J].中央財經大學學報,2010(11):63-68.
[2]李旭升,郭耀煌.基于樸素貝葉斯分類器的個人信用評估模型[J].計算機工程與應用,2006,30:197-202.
[3]康莊,余元全.基于貝葉斯分類器的納稅評估模型研究[J].經濟問題,2009(06):124-126.
[4]吳陳,張明華.基于最優(yōu)樸素貝葉斯分類器的個人信用預測[J].江蘇科技大學學報(自然科學版),2012,26(04):376-380.
[5]唐爐亮,楊雪,闞子涵,等.一種基于樸素貝葉斯分類的車道數(shù)量探測[J].中國公路學報,2016,29(03):116-123.
[6]吳養(yǎng)會,羅劍朝.農村金融計量研究方法及應用[M].北京:中國金融出版社,2015:244.
[7]王夢琪.應收賬款管理的“5C評估法”及補充[J/OL].經營與管理,2017(07):29-32[2018-05-01].https://doi.org/10.16517/j.cnki.cn12-1034/f.2017.07.012.
[8]袁梅宇.數(shù)據挖掘與機器學習-WEKA應用技術與實踐[M].北京:清華大學出版社,2014.
(責編:張宏民)