文/黃洲丹,河南大學經(jīng)濟學院
計算機現(xiàn)在涉及許多經(jīng)濟交易,并且可以捕獲與這些交易相關(guān)的數(shù)據(jù),然后可以對其進行操縱和分析。傳統(tǒng)的統(tǒng)計和計量經(jīng)濟學技術(shù)(如回歸)通常效果很好,但是大數(shù)據(jù)集可能需要使用不同的工具。
首先,所涉及的數(shù)據(jù)的龐大規(guī)??赡苄枰鼜姶蟮臄?shù)據(jù)處理工具。其次,我們可能有更多的潛在預(yù)測因子而不是估計的適當預(yù)測因子,因此我們需要進行某種變量選擇。第三,大型數(shù)據(jù)集可以允許比簡單線性模型更靈活的關(guān)系,諸如決策樹,支持向量機,神經(jīng)網(wǎng)絡(luò),深度學習等機器學習技術(shù)可以允許更有效的方式來建模復雜的關(guān)系。
歷史上經(jīng)濟學家一直在處理適合電子表格的數(shù)據(jù),但隨著新的更詳細的數(shù)據(jù)變得可用,這種情況正在發(fā)生變化。如果電子表格中有超過一百萬行,您可能希望將其存儲在關(guān)系數(shù)據(jù)庫中,例如MySQL。關(guān)系數(shù)據(jù)庫提供了一種使用結(jié)構(gòu)化查詢語言(SQL)存儲,操作和檢索數(shù)據(jù)的靈活方式,這種語言易于學習,對于處理中型數(shù)據(jù)集非常有用。
但是,如果您有幾千兆字節(jié)的數(shù)據(jù)或幾百萬個觀察值,標準關(guān)系數(shù)據(jù)庫就變得難以處理。管理這種大小數(shù)據(jù)的數(shù)據(jù)庫通常稱為“NoSQL”數(shù)據(jù)庫,它在數(shù)據(jù)處理能力方面比SQL數(shù)據(jù)庫更原始,但可以處理更大量的數(shù)據(jù)。
處理大型數(shù)據(jù)集的另一個潛在問題被稱為過度擬合問題。當線性回歸捕獲數(shù)據(jù)集中的穩(wěn)固關(guān)系但遇到非常差的樣本外預(yù)測能力時會遇到這種情況,非常復雜的模型可能描述的是噪聲或隨機誤差,而不是模型中真正的基礎(chǔ)關(guān)系,這稱為過度擬合。過度擬合是非參數(shù)非線性模型中特別關(guān)注的問題,其本質(zhì)上往往是復雜的,描述噪聲的模型僅適合該特定數(shù)據(jù)集,并且在樣本外數(shù)據(jù)集中表現(xiàn)不佳。解決此問題的兩種常用方法是使用不太復雜的模型,或是將大型數(shù)據(jù)集分解為小樣本,以測試和驗證是否存在過度擬合。
使用大數(shù)據(jù)進行預(yù)測是機器學習的重點,如果存在線性關(guān)系,可以利用回歸;如果存在非線性關(guān)系,機器學習可以部署工具,例如分類和回歸樹,交叉驗證,條件推理樹,隨機森林和懲罰回歸。分類可以被認為是二項式?jīng)Q策樹,分類和回歸樹在解釋復雜和非線性關(guān)系時非常有用,k折交叉驗證和隨機森林是操作和分析大數(shù)據(jù)的兩個主要工具。
前面提到的涉及大數(shù)據(jù)的一個主要問題是樹傾向于過度擬合數(shù)據(jù),這意味著樣本外預(yù)測不如樣本內(nèi)那樣可靠,過度擬合的一個潛在解決方案是交叉驗證。在k倍交叉驗證中,較大的數(shù)據(jù)集被分解為“k”個子集(也稱為折疊)。大型數(shù)據(jù)集可能會分解為10個較小的數(shù)據(jù)池。
這個過程從折疊1作為測試集開始,折疊2-10作為訓練集。研究人員將在所有訓練集中尋找統(tǒng)計關(guān)系,然后使用折疊1來測試輸出,看它是否具有預(yù)測用途;然后,他們將重復該過程k次,使得每次折疊成為測試集,結(jié)果最終取自所有測試的平均值以找到共同關(guān)系。通過這種方式,研究人員可以測試他們對樣本外數(shù)據(jù)集的預(yù)測,這些數(shù)據(jù)集實際上是較大數(shù)據(jù)集的一部分。
構(gòu)建隨機森林也是一種改進大型數(shù)據(jù)集預(yù)測的方法,此方法使用引導從大型數(shù)據(jù)集中生成多個樹,使用隨機森林來平均許多小模型即使在處理非線性數(shù)據(jù)時也會產(chǎn)生非常好的樣本外擬合。計算機使這種方法更加可行,因為有時可以在隨機森林中種植數(shù)千棵樹,創(chuàng)建隨機森林有四個步驟:
1.從完整數(shù)據(jù)集中選擇一個自舉樣本(帶有替換)并生成一棵樹;2.在樹上的每個節(jié)點上,選擇一個隨機的預(yù)測變量用于決策,在這個過程中不需要修剪;3.多次重復此過程以生長樹木的“森林”;4.使用每棵樹對新觀察進行分類,并根據(jù)森林的多數(shù)投票選擇最終分類。
有幾個不同的領(lǐng)域,計量經(jīng)濟學和機器學習之間可能存在有用的協(xié)作。大多數(shù)機器學習假設(shè)數(shù)據(jù)是獨立且相同的,并且大多數(shù)數(shù)據(jù)集都是橫截面數(shù)據(jù),在實踐中,時間序列分析可能更有用。計量經(jīng)濟學可以使用貝葉斯結(jié)構(gòu)時代系列模型等工具來預(yù)測時間序列數(shù)據(jù)。
也許最重要的合作機會與因果推理有關(guān),這可能是大數(shù)據(jù)的自然副產(chǎn)品,相關(guān)并不總是表明因果關(guān)系。傳統(tǒng)上,機器學習一直是最純粹的預(yù)測,但計量經(jīng)濟學家已經(jīng)開發(fā)了許多工具來揭示因果關(guān)系,將這些工具與機器學習相結(jié)合可以證明是非常有意義的合作。
大數(shù)據(jù)不再追尋經(jīng)濟行為之間的因果關(guān)系,轉(zhuǎn)而用相關(guān)關(guān)系挖掘經(jīng)濟行為之間的聯(lián)系。這給計量經(jīng)濟學研究帶來的好處就是:大數(shù)據(jù)量化經(jīng)濟風險,減弱了經(jīng)濟行為中因信息不確定性帶來的逆向選擇和道德風險;大數(shù)據(jù)提供計量經(jīng)濟學更大的探尋歷史、追尋未來的空間;傳統(tǒng)計量經(jīng)濟理論多為“紙上談兵”,大數(shù)據(jù)給傳統(tǒng)計量經(jīng)濟學帶來新轉(zhuǎn)機,使得經(jīng)濟理論預(yù)測和現(xiàn)實經(jīng)濟行為貼合度更高。種種跡象表明大數(shù)據(jù)和計量經(jīng)濟學融合必將結(jié)出豐厚的果實,未來可能誕生大數(shù)據(jù)計量經(jīng)濟學派。