劉曉鑫 景祥云 葉駿驊 金 博 畢文祥
(中國(guó)人民銀行長(zhǎng)春中心支行,吉林長(zhǎng)春 130051)
2008年全球金融危機(jī)爆發(fā)以來(lái),隨著國(guó)際金融監(jiān)管改革的深化和拓展,如何有效使用快速增長(zhǎng)的金融數(shù)據(jù)成為擺在各國(guó)中央銀行面前的一項(xiàng)重要課題。由于大數(shù)據(jù)技術(shù)能夠有效提升數(shù)據(jù)挖掘和使用的效率,并通過(guò)提供更完整、即時(shí)和詳細(xì)的資料作為“傳統(tǒng)”宏觀經(jīng)濟(jì)指標(biāo)的補(bǔ)充,從而增強(qiáng)分析能力,以便做出更好的決策,因此大數(shù)據(jù)分析工具得到了各國(guó)央行的高度重視。在此背景下,本文重點(diǎn)搜集了央行應(yīng)用大數(shù)據(jù)方法的相關(guān)文獻(xiàn),探索大數(shù)據(jù)為央行制定和執(zhí)行經(jīng)濟(jì)政策提供的支持,尤其是如何改善統(tǒng)計(jì)信息、宏觀經(jīng)濟(jì)分析和預(yù)測(cè)、金融市場(chǎng)監(jiān)測(cè)和金融風(fēng)險(xiǎn)評(píng)估。
從央行應(yīng)用大數(shù)據(jù)的領(lǐng)域來(lái)看,大數(shù)據(jù)可以在提高經(jīng)濟(jì)分析和金融管理等方面發(fā)揮重要作用。國(guó)際貨幣基金組織正在研究大數(shù)據(jù)模型,將大數(shù)據(jù)作為衡量經(jīng)濟(jì)指標(biāo)的一種新方法,如分析價(jià)格、勞動(dòng)力市場(chǎng)狀況、住房市場(chǎng)、商業(yè)情緒等(Hammer等,2017年)。許多央行目前正在研究如何利用金融大數(shù)據(jù)集的特點(diǎn)來(lái)執(zhí)行其任務(wù)(Coeuré,2017)。大數(shù)據(jù)在細(xì)節(jié)、靈活性、及時(shí)性和效率方面具有許多優(yōu)勢(shì)(Nymand Andersen,2016)。中央銀行有興趣開發(fā)各種試點(diǎn)項(xiàng)目,以更好地理解新的數(shù)據(jù)集和技術(shù),評(píng)估其與傳統(tǒng)方法相比的附加值,并開發(fā)具體的“用例”(IFC,2015)。
大數(shù)據(jù)可以成為改進(jìn)官方統(tǒng)計(jì)機(jī)構(gòu)的有用手段。首先,它可以成為支持目前官方統(tǒng)計(jì)數(shù)據(jù)編制的新來(lái)源,使人們能夠獲得更廣泛的數(shù)據(jù)集。這些數(shù)據(jù)通常不是為特定的統(tǒng)計(jì)目的而收集或設(shè)計(jì),而是其他活動(dòng)的副產(chǎn)品(Groves,2011)。它們的范圍相當(dāng)大,包括交易數(shù)據(jù)(如在線記錄的價(jià)格)、其他的數(shù)據(jù)(如社交媒體帖子、互聯(lián)網(wǎng)上顯示的產(chǎn)品評(píng)論),以及各種商業(yè)、財(cái)務(wù)和行政指標(biāo),如克強(qiáng)指數(shù)①克強(qiáng)指數(shù)是三種經(jīng)濟(jì)指標(biāo)(工業(yè)用電量新增、鐵路貨運(yùn)量新增和銀行中長(zhǎng)期貸款新增)來(lái)評(píng)估GDP的增長(zhǎng)。。
數(shù)據(jù)可以用來(lái)加強(qiáng)現(xiàn)有的統(tǒng)計(jì)工作,特別是在現(xiàn)有的統(tǒng)計(jì)體系難以完全覆蓋的情況下。例如,在一些發(fā)達(dá)經(jīng)濟(jì)體在線零售商價(jià)格數(shù)據(jù)的直接網(wǎng)絡(luò)抓取可以用來(lái)更好地衡量通貨膨脹的某些特定組成部分。在極端情況下這些數(shù)據(jù)可以取代官方統(tǒng)計(jì)系統(tǒng)不發(fā)達(dá)的國(guó)家的傳統(tǒng)指標(biāo)。正如美國(guó)麻省理工學(xué)院的Roberto Rigobon所開展的“十億價(jià)格項(xiàng)目”研究,該項(xiàng)目允許為缺乏官方或綜合指數(shù)的國(guó)家構(gòu)建通脹指數(shù)。
第二,大數(shù)據(jù)分析模型可以更加高效便捷地獲取和分析除官方數(shù)據(jù)以外的海量數(shù)據(jù),消除傳統(tǒng)意義上的統(tǒng)計(jì)時(shí)間差。由各種網(wǎng)絡(luò)和電子設(shè)備(如搜索查詢)即時(shí)生成的信息提供了高頻指標(biāo),有助于當(dāng)局更及時(shí)地跟蹤當(dāng)前的經(jīng)濟(jì)發(fā)展。實(shí)際上,“十億價(jià)格項(xiàng)目”的另一個(gè)目標(biāo)是以更高的頻率提供包括發(fā)達(dá)經(jīng)濟(jì)體在內(nèi)的許多國(guó)家的通貨膨脹的先行信息,例如消費(fèi)者物價(jià)指數(shù)(CPI)是每天而不是每月一次。在實(shí)體經(jīng)濟(jì)方面,如新西蘭銀行的Tugrul Vehbi提出的一些指標(biāo)現(xiàn)在可以通過(guò)使用基于網(wǎng)絡(luò)的信息和機(jī)器學(xué)習(xí)算法來(lái)提前估計(jì),大數(shù)據(jù)源的高速運(yùn)行有助于提供更及時(shí)的信息,這在危機(jī)期間尤為重要。
第三,大數(shù)據(jù)分析提供新類型的統(tǒng)計(jì)數(shù)據(jù)能夠“補(bǔ)充”傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)集。一方面,數(shù)字化文本信息的可用性大大增加,這使得人們能夠從社交媒體數(shù)據(jù)中得出諸如經(jīng)濟(jì)主體的情緒和預(yù)期等有用信息?;诨ヂ?lián)網(wǎng)的資源可以涵蓋更廣泛的主題,例如宏觀經(jīng)濟(jì)金融形勢(shì)特別是系統(tǒng)性風(fēng)險(xiǎn)發(fā)生的概率。另一方面,一個(gè)重要因素是增加使用大顆粒數(shù)據(jù)集來(lái)改進(jìn)宏觀經(jīng)濟(jì)總量的匯編,從而更好地了解其分散性(IFC,2016)——這類分布信息在國(guó)民賬戶體系(SNA)中普遍缺失。李紅艷等(2013)提出新型國(guó)民經(jīng)濟(jì)核算體系的概念,對(duì)全社會(huì)經(jīng)濟(jì)活動(dòng),即每一個(gè)產(chǎn)品或服務(wù)(存款、或貸款)從其產(chǎn)生到被消費(fèi)(消亡)的全過(guò)程進(jìn)行動(dòng)態(tài)跟蹤記錄,對(duì)每個(gè)經(jīng)濟(jì)主體的每次經(jīng)濟(jì)活動(dòng)和經(jīng)濟(jì)關(guān)聯(lián)活動(dòng)進(jìn)行跟蹤記錄,2013年末我國(guó)國(guó)家統(tǒng)計(jì)局就與百度、阿里巴巴等多家企業(yè)簽署的《大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議》以及2020年人民銀行成立的金融基礎(chǔ)數(shù)據(jù)中心使得這一構(gòu)想成為可能。
許多國(guó)家的中央銀行已經(jīng)在使用大數(shù)據(jù)集進(jìn)行宏觀經(jīng)濟(jì)預(yù)測(cè)。例如,Per Nymand-Andersen(ECB)展示了如何利用Google-Trends數(shù)據(jù)編制歐元區(qū)汽車銷售預(yù)估的短期預(yù)測(cè);英格蘭銀行的Eleni Kalamara等將文本信息與有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,改進(jìn)了對(duì)宏觀經(jīng)濟(jì)變量(包括GDP、通貨膨脹和失業(yè))的預(yù)測(cè)。從統(tǒng)計(jì)學(xué)視角來(lái)看,有些指標(biāo)在預(yù)測(cè)國(guó)內(nèi)生產(chǎn)總值時(shí)可能效果良好,但在預(yù)測(cè)其未來(lái)發(fā)展時(shí)可能效果不佳。事實(shí)上,一些基于網(wǎng)絡(luò)的指標(biāo)在即時(shí)預(yù)測(cè)中的效果可能不如傳統(tǒng)的商業(yè)信心調(diào)查。
鑒于這些注意事項(xiàng),并考慮到可能獲得的大量數(shù)據(jù),遵循結(jié)構(gòu)化的過(guò)程可能是有用的。泰國(guó)銀行的Paphatsorn Sawaengsuksant建議,在選擇諸如因特網(wǎng)搜索查詢等感興趣的指標(biāo)時(shí)采用系統(tǒng)方法。例如,Google-Trends數(shù)據(jù)中的關(guān)鍵詞可以根據(jù)其通用程度、受歡迎程度(即記錄的搜索次數(shù))、敏感性(即對(duì)微小語(yǔ)義變化的敏感度)、預(yù)測(cè)值(即與宏觀指標(biāo)的相關(guān)性)來(lái)選擇關(guān)鍵詞,從經(jīng)濟(jì)學(xué)的角度來(lái)看,被測(cè)試的關(guān)系是否有意義。
與宏觀經(jīng)濟(jì)領(lǐng)域一樣,大數(shù)據(jù)模型在監(jiān)測(cè)金融市場(chǎng)發(fā)展方面也很有價(jià)值,這是央行的一個(gè)關(guān)鍵領(lǐng)域。例如,香港金融管理局的調(diào)查報(bào)告顯示,一些新興的主權(quán)債券市場(chǎng)的回報(bào)可以用各種技術(shù)交易規(guī)則和機(jī)器學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè),評(píng)估其穩(wěn)健性與特定外國(guó)(如美國(guó)貨幣政策)和國(guó)內(nèi)因素的相對(duì)影響;許偉(2016)通過(guò)在基于網(wǎng)絡(luò)情感和搜索行為(谷歌搜索)的數(shù)據(jù)挖掘集成模型中加入房地產(chǎn)價(jià)格指數(shù)時(shí)間序列的滯后項(xiàng),運(yùn)用支持向量回歸模型對(duì)房地產(chǎn)價(jià)格指數(shù)進(jìn)行了更好的預(yù)測(cè)。
其他類型的項(xiàng)目是在尋找非結(jié)構(gòu)化的數(shù)據(jù)。例如,印度尼西亞銀行的Okiriza Wibisono(2018)描述了如何使用文本挖掘算法來(lái)監(jiān)測(cè)公眾對(duì)印度尼西亞利率走向的預(yù)期。已有多家央行的經(jīng)驗(yàn)表明,新的大數(shù)據(jù)來(lái)源也有助于監(jiān)測(cè)金融市場(chǎng)的發(fā)展,并預(yù)測(cè)其潛在的未來(lái)方向。就日本央行而言,高頻數(shù)據(jù)的使用有助于監(jiān)測(cè)政府債券市場(chǎng)的流動(dòng)性和因此有可能導(dǎo)致的價(jià)格風(fēng)險(xiǎn)。英格蘭銀行也制定了具體的項(xiàng)目,以監(jiān)測(cè)外匯市場(chǎng)動(dòng)態(tài)和在市場(chǎng)大幅波動(dòng)時(shí)的流動(dòng)性。
大數(shù)據(jù)方法還可以提升金融當(dāng)局識(shí)別金融風(fēng)險(xiǎn)的效果——無(wú)論是負(fù)責(zé)微觀金融監(jiān)管的機(jī)構(gòu),還是宏觀審慎監(jiān)管的機(jī)構(gòu)(Tissot,2019)。在該領(lǐng)域早期的研究包括:Nag & Mitra(1999)首次將人工神經(jīng)網(wǎng)絡(luò)引入預(yù)警模型,之后很多學(xué)者利用人工神經(jīng)網(wǎng)絡(luò)對(duì)系統(tǒng)性風(fēng)險(xiǎn)進(jìn)行分析,結(jié)果表示神經(jīng)網(wǎng)絡(luò)的樣本外預(yù)測(cè)能力明顯優(yōu)于KLR模型。陳秋玲等(2009)基于bp人工神經(jīng)網(wǎng)絡(luò)計(jì)算了2008年中國(guó)國(guó)家綜合金融風(fēng)險(xiǎn),財(cái)政貿(mào)易風(fēng)險(xiǎn),宏觀經(jīng)濟(jì)風(fēng)險(xiǎn)等預(yù)警等級(jí),與實(shí)際情況基本符合。Yu et al.(2010)提出了基于經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)的多量程神經(jīng)網(wǎng)絡(luò)模型,提高了預(yù)測(cè)精度,改善了泛化性能,結(jié)果優(yōu)于其它分類方法和bp神經(jīng)網(wǎng)絡(luò)。但是對(duì)于小型數(shù)據(jù)集而言,支持向量機(jī)有著更好的精度;林宇等(2013)將隨機(jī)欠采樣 (RU) 、合成少數(shù)類過(guò)采樣 (SMOTE) 與傳統(tǒng)支持向量機(jī) (SVM) 相結(jié)合, 提出一種改進(jìn)的SVM模型,具有更高的預(yù)測(cè)精度和性能。但是神經(jīng)網(wǎng)絡(luò)算法雖然預(yù)測(cè)結(jié)果精確但是計(jì)算量很大,計(jì)算速度也隨著數(shù)據(jù)量的增加指數(shù)級(jí)增長(zhǎng),對(duì)設(shè)備要求較高且參數(shù)很多不易解釋(李欣海,2013)。
2001年,Breiman等人在貝爾實(shí)驗(yàn)室(Ho,1995, 1998)所提出的隨機(jī)決策森林 (random decision forests)的基礎(chǔ)上創(chuàng)造了隨機(jī)森林算法,選用隨機(jī)化特征和數(shù)據(jù)建立決策樹來(lái)降低計(jì)算量,運(yùn)用建立多棵樹形成一片森林最后匯總結(jié)果投票選出最佳結(jié)果的方法來(lái)保證預(yù)測(cè)精度(Breiman,2001a)。在風(fēng)險(xiǎn)預(yù)警方面如Joy et al.(2015)分析1970-2010年36個(gè)發(fā)達(dá)經(jīng)濟(jì)體銀行和貨幣危機(jī)爆發(fā)前的經(jīng)濟(jì)、金融和結(jié)構(gòu)狀況,通過(guò)隨機(jī)森林確定了銀行業(yè)危機(jī)的短期先兆是凈息差較低,收益率曲線較淺,或是倒掛,長(zhǎng)期先兆是高房?jī)r(jià)通脹;而貨幣危機(jī)則可由國(guó)內(nèi)短期利率和匯率作為短期預(yù)測(cè)因素。Xu et al.(2018)結(jié)合Wavelet變化和隨機(jī)森林模型度貨幣危機(jī)進(jìn)行預(yù)測(cè),實(shí)證表示在16-32個(gè)月的時(shí)間范圍內(nèi)衡量的實(shí)際匯率升值是影響最大的因子。Takuji(2019)利用隨機(jī)森林和DWT變換結(jié)合,建立了貨幣危機(jī)預(yù)測(cè)模型,對(duì)危機(jī)預(yù)測(cè)具有較高的精度,并證明了月度實(shí)際匯率和外匯儲(chǔ)備凈國(guó)DWT變換之后可以作為可靠的預(yù)測(cè)指標(biāo)。
王克達(dá)(2019)基于1970—2011年全球各國(guó)金融危機(jī)數(shù)據(jù)對(duì)系統(tǒng)性銀行危機(jī)、貨幣危機(jī)和主權(quán)債務(wù)危機(jī)的預(yù)警進(jìn)行了實(shí)證研究表示隨機(jī)森林預(yù)測(cè)精度最優(yōu),最能識(shí)別先導(dǎo)指標(biāo)。蕭超武等(2014)建立了基于隨機(jī)森林組合分類算法的個(gè)人信用評(píng)估模型,實(shí)證表示該模型具有較好的預(yù)測(cè)精度和穩(wěn)定性。葉曉楓和魯亞會(huì)(2017)將樸素貝葉斯與隨機(jī)森林模型融合建立信用評(píng)估模型,實(shí)證表示具有更高的預(yù)測(cè)準(zhǔn)確度。還有企業(yè)信用及其破產(chǎn)研究,如盛夏等(2016)年比較隨機(jī)森林和adaboost對(duì)中國(guó)上市公司的信用評(píng)級(jí)變動(dòng)的預(yù)測(cè)顯示隨機(jī)森林具有更好的預(yù)測(cè)精度。信用卡風(fēng)險(xiǎn)評(píng)估如方匡南等(2010)對(duì)信用卡風(fēng)險(xiǎn)實(shí)證研究表明隨機(jī)森林比logistic回歸和支持向量機(jī)具有更好的預(yù)測(cè)性能。
2008年以來(lái),全球主要國(guó)家央行高度重視微觀金融數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè),大量顆粒度較高的微觀金融數(shù)據(jù)被源源不斷地匯聚到中央銀行的數(shù)據(jù)信息系統(tǒng)中。這對(duì)于央行的數(shù)據(jù)存儲(chǔ)和分析能力提出了巨大挑戰(zhàn)。如何開發(fā)適合央行特性的金融大數(shù)據(jù)系統(tǒng),探索金融大數(shù)據(jù)分析方法,已經(jīng)成為各國(guó)央行亟待解決的重要問題。一般而言,可供央行借鑒和使用的大數(shù)據(jù)分析方法主要包括機(jī)器學(xué)習(xí)、文本挖掘以及網(wǎng)絡(luò)分析等方法。中央銀行借助大數(shù)據(jù)分析方法,能夠進(jìn)一步拓展信息渠道、提升統(tǒng)計(jì)時(shí)效,改善宏觀經(jīng)濟(jì)預(yù)測(cè)效果,改進(jìn)金融市場(chǎng)監(jiān)測(cè)效率,并進(jìn)一步強(qiáng)化宏觀審慎監(jiān)管職能。當(dāng)然,央行在使用大數(shù)據(jù)方法履職時(shí),也面臨一系列的問題和挑戰(zhàn),包括在設(shè)立和運(yùn)行新的大數(shù)據(jù)組織的過(guò)程中如何契合現(xiàn)有的央行文化與組織機(jī)制,如何更加有效地對(duì)大數(shù)據(jù)方法和傳統(tǒng)的計(jì)量和統(tǒng)計(jì)方法進(jìn)行融合創(chuàng)新,以及如何解決在數(shù)據(jù)設(shè)備投資和數(shù)字人才培養(yǎng)等方面的挑戰(zhàn)等等。顯然,中央銀行探索大數(shù)據(jù)模型和方法的應(yīng)用,還有相當(dāng)長(zhǎng)一段路要走。