摘 要:隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,高維數(shù)據(jù)的缺失問題變得愈發(fā)顯著,盡管如此,針對這一問題的研究仍然為準確識別并妥善處理數(shù)據(jù)存儲和采集中出現(xiàn)數(shù)據(jù)缺失問題,基于矩陣因子模型的缺失數(shù)據(jù)填補算法,在保證矩陣時序數(shù)據(jù)結(jié)構(gòu)的完整性的同時,可利用矩陣因子揭示數(shù)據(jù)中的行間依賴性和列間依賴性。進一步考慮到時間序列數(shù)據(jù)中可能存在動態(tài)交互作用,借助這種多維依賴性可以更精確地估算缺失值,從而構(gòu)建結(jié)合矩陣因子和時間序列的矩陣因子填補衍生模型。通過模擬數(shù)據(jù)和宏觀經(jīng)濟數(shù)據(jù)的應用,檢驗所提方法的有效性,展示了矩陣因子填補算法在解決高維數(shù)據(jù)缺失問題方面的卓越性能。通過實證分析發(fā)現(xiàn),相較于傳統(tǒng)的向量因子填補技術(shù),矩陣因子填補算法及其衍生模型均展現(xiàn)了更優(yōu)的性能,有效改善了向量因子填補方法的局限性。
關(guān)鍵詞:矩陣因子模型;宏觀經(jīng)濟;矩陣時間序列數(shù)據(jù);缺失值填補;動態(tài)交互作用
中圖分類號:F259.23;F271 文獻標識碼:A
0" " 引言
隨著人工智能時代的到來,萬物互聯(lián)和信息互通變得日益普遍,海量多源數(shù)據(jù)的可獲取性不斷提升。大數(shù)據(jù)不僅展現(xiàn)高維矩陣時間序列的特征,而且多以高階張量的形式出現(xiàn)。然而,在數(shù)據(jù)的存儲和采集過程中常常會出現(xiàn)數(shù)據(jù)缺失的現(xiàn)象,如何準確識別并妥善處理這些缺失數(shù)據(jù),已成為數(shù)據(jù)建模中一個難以回避的重要問題。
自Rubin首次提出缺失數(shù)據(jù)機制的概念以來,數(shù)據(jù)缺失問題便吸引了國內(nèi)外學者的廣泛關(guān)注[1]。缺失值填補方法通常包括基于統(tǒng)計原理和機器學習算法兩類。在基于統(tǒng)計原理的方法中,多重插補(Multiple Imputation,MI)和期望最大化算法(Expectation-Maximization Algorithm,EM)尤為突出。Rubin[2]提出了一種基于貝葉斯原理的多重插補方法,該方法結(jié)合先驗知識與樣本數(shù)據(jù)來推斷缺失值的后驗分布;Xue等[3]針對具有塊狀缺失協(xié)變量的數(shù)據(jù),提出了適用于高維線性回歸模型的多重插補方法;Dempster等[4]提出的期望最大化算法,通過交替執(zhí)行E步和M步來估算缺失值。然而,當難以直接計算對數(shù)似然期望時,可以考慮采用Meng等[5]提出的條件期望最大化算法。而那些在橫截面數(shù)據(jù)上表現(xiàn)優(yōu)異的方法往往難以適應面板數(shù)據(jù),因為面板數(shù)據(jù)通常具有跨單位和時間的復雜依賴性[6]。近年來,以生成對抗網(wǎng)絡(Generative Adversarial Networks,GANs)和深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNNs)為代表的深度學習模型在應對數(shù)據(jù)缺失問題方面顯示出了巨大的潛力。Dai等[7] 提出了與多重插補相結(jié)合的算法(Multiple Imputation via Generative Network,MI-GAN),專門解決高維分塊缺失問題。生成對抗網(wǎng)絡擅長處理復雜的數(shù)據(jù)結(jié)構(gòu),但在訓練過程中需要龐大的數(shù)據(jù)集和計算資源。通過利用神經(jīng)網(wǎng)絡在學習數(shù)據(jù)的深層特征方面的優(yōu)勢,Park等[8]改進了多層感知機(Multilayer Perceptron,MLP)架構(gòu),并通過超參數(shù)優(yōu)化方法提升了多步缺失值預測的性能,但該方法同樣需要大量的訓練數(shù)據(jù),并且模型的可解釋性較弱;何軍等[9]將張量低秩補全與循環(huán)神經(jīng)網(wǎng)絡相結(jié)合,并融合時間動態(tài)權(quán)重來捕捉時間序列間的關(guān)系,顯著提升了時間序列預測效果。然而,目前尚不存在一種普遍適用的解決方案[10]。
因子模型的核心在于共性與個性的統(tǒng)一和對立,每個數(shù)據(jù)點既基于反映共性的公共因子,也基于展現(xiàn)個性的特異性成分,并利用公共因子來解釋變量間的相關(guān)性,從而為數(shù)據(jù)的缺失值估算提供了一個有效框架。在存在缺失數(shù)據(jù)的情況下,Banbura等[11]和Jungbacker等[12]認為,可以采用狀態(tài)空間模型分析因子,這適用于誤差協(xié)方差矩陣異質(zhì)的情形。然而,由于因子載荷和誤差的隨機性,計算復雜度較高。Giannone等[13]提出,先利用平衡面板數(shù)據(jù)初始化缺失值,再通過卡爾曼濾波器進行迭代更新的方法。Stock等[14]進一步探討了高維因子模型的狀態(tài)空間估計,建議采用公共因子的主成分估計來填補缺失值。盡管基于因子模型的填補方法已被廣泛應用,但相關(guān)理論仍不斷被完善。近期,學者們從不同角度探討了強因子結(jié)構(gòu)的估計,并開發(fā)了針對不同缺失假設下的因子估計方法[15-16]。在面板數(shù)據(jù)研究中,未觀察到的反事實可視作缺失值,識別潛在的低秩模型有助于進行因果推斷[17]。Jin等[18]提出了一種將缺失值設為0并根據(jù)缺失概率對漸近主成分進行縮放的方法,這種估計雖具有一致性但不滿足漸近正態(tài)性。夏業(yè)茂等[19]使用貝葉斯方法和馬爾科夫鏈蒙特卡洛方法(Markov Chain Monte Carlo,MCMC)來分析帶有缺失數(shù)據(jù)的縱向隱馬爾可夫因子模型,有效地解釋了數(shù)據(jù)的異質(zhì)性。Xiong等[20]則通過加權(quán)協(xié)方差來估計因子,結(jié)合橫截面向量因子模型和時間序列的方法,提高了缺失數(shù)據(jù)填補的準確性。
在審視和整理相關(guān)文獻后筆者注意到,盡管在缺失值填補領(lǐng)域已取得了顯著的研究進展,但該領(lǐng)域仍存在一些不足。當前的統(tǒng)計方法和機器學習算法主要側(cè)重于數(shù)據(jù)缺失的隨機性和插補過程的優(yōu)化,卻忽視了對數(shù)據(jù)內(nèi)在結(jié)構(gòu)特性的考量,導致解釋性不足。同時,采用因子模型填補缺失值的做法,通常涉及將數(shù)據(jù)的矩陣結(jié)構(gòu)轉(zhuǎn)換為向量結(jié)構(gòu),或者僅從單一維度(行或列)提取因子,這種做法破壞了矩陣的原始結(jié)構(gòu),導致模型參數(shù)膨脹。在高維數(shù)據(jù)的背景下,數(shù)據(jù)的行和列通常蘊含著豐富的結(jié)構(gòu)信息和相互依賴性。然而,現(xiàn)有的研究方法往往單獨考慮行或列,這限制了模型捕捉數(shù)據(jù)內(nèi)在結(jié)構(gòu)的能力,會對填補效果產(chǎn)生不利影響。因此,為了應對上述挑戰(zhàn),本研究提出了一種新的矩陣因子填補模型,該模型能夠同時考慮行和列的相互依賴性,從而更全面地捕捉數(shù)據(jù)的潛在結(jié)構(gòu)。
為了確保表述的一致性并減少歧義,本研究所用的符號說明如下:變量使用斜體表示(斜C,c),向量使用小寫粗斜體表示(黑斜f),矩陣使用大寫粗斜體([X])表示,張量使用花體表示([?])。特別地,[Ip]代表一個[p]維單位矩陣;對于一個向量[x],[xi]表示其中的第[i]個元素;對于一個矩陣[X],[xij]表示其第[i]行第[j]列的元素,[Xt]表示序列中第[t]個截面矩陣,[Xt,i,j]表示[Xt]第[i]行第[j]列的元素,[xt,i?]表示其第[i]行元素構(gòu)成的列向量,[Xt,?j]表示其第[j]列元素構(gòu)成的列向量。
1" " 矩陣因子填補模型
1.1" "矩陣因子模型
Wang[21]等首次將矩陣因子模型引入矩陣時間序列數(shù)據(jù)中。假設在時間 [t]中觀察到的變量[Xt]是[p1×p2]的矩陣。[Xt]可分解為
[Xtp1×p2=Rp1×k1Ftk1×k2C′k2×p2+Etp1×p2, t=1, …, T] ," " " " " " " " " " " " " "(1)
式中,[R]是[p1×k1]的行因子載荷矩陣,用于捕捉[Xt]的行間變化,[C]是[p2×k2]的列因子載荷矩陣,反映了[Xt]列間的差異,[Ft]是[k1×k2]的公共因子矩陣。
該模型將每個矩陣分解為一個低秩的公共成分加上一個特異性成分,這可以看作是將向量因子模型擴展到矩陣結(jié)構(gòu)。不失一般性的,假設
[p?11R′R?Ik1→0" " 且" p?12C′C?Ik2→0] 。" " " " " " " " " " " " " " " " " " (2)
如果不是這樣的情況,那么2個矩陣[Q1]和[Q2]總是存在正交列,使得
[R=Q1W1 且 C=Q2W2] ," " " " " " " " " " " " " " " " " " " " " " " " " " "(3)
式中,[W1]和[W2]分別是[k1×k1]和[k2×k2]的滿秩矩陣。因此,[R](或者[C])位于相同的列空間[Q1](或者[Q2]),并且[Xt]也可以被表示為
滿足式(2),則[Xt]為一個具有行和列載荷矩陣的矩陣因子模型。式(2) 是因子載荷空間的可識別性條件和強因子條件。假定矩陣[C]是已知的并滿足正交條件 [C′C/p2=Ik2]??梢詫⒕仃嚁?shù)據(jù)投影到低維空間:
給定[Yt],筆者定義
式中,T為時間步數(shù)。行因子載荷矩陣[R]可通過[M1]的前[k1]個特征向量來估計。在某些條件下,
由式 (5)和式(7),觀察在時間[t]內(nèi)[Yt]中[k2]個列的值,不難發(fā)現(xiàn)[YtTt=1]實際上是一個特殊的向量因子模型。
1.2" "矩陣因子填補模型
矩陣因子填補模型首先假設數(shù)據(jù)中出現(xiàn)完全隨機缺失,在矩陣因子模型框架的基礎上,通過交替最小二乘算法(Alternating Least Squares,ALS)進行參數(shù)估計。相比于只提取某個維度信息來填補缺失值的向量因子填補模型,矩陣因子填補模型更注重行列的交互效應。當矩陣時間序列中出現(xiàn)完全隨機缺失的條件下,矩陣因子填補模型通過借助這個缺失值所在行的其他非缺失值和所在列的其他非缺失值的行列相依模式來估計該缺失值。為了估計參數(shù),首先最小化經(jīng)驗損失函數(shù)
式中,[S]代表數(shù)據(jù)集中可觀察到的數(shù)據(jù)(非缺失值),[S]代表數(shù)據(jù)集中的缺失數(shù)據(jù)。參數(shù)[θ={r1, …, rp1;c1, …, cp2;F1, …, FT}],其中行因子載荷[R=r1', r2', …, rp1'′]為[p1×k1]的矩陣,行因子載荷[C=c1', c2', …, cp2'′]為[p2×k2]的矩陣,[ri']和[cj']分別為矩陣[R]的第[i]行和矩陣[C]的第[j]行。同時滿足
矩陣因子填補模型的優(yōu)化問題可重寫為
2" " 交替最小二乘算法
2.1" "交替最小二乘算法過程
交替最小二乘算法(ALS)是一種優(yōu)化算法,具有易于并行化的特點。He等[22]證明了使用交替最小二乘算法所求得的因子估計,與使用投影估計方法[23]所得到的矩陣因子在本質(zhì)上是相同的。因此,為了估計出行列因子載荷和因子矩陣估計,筆者采用ALS算法進行迭代優(yōu)化。具體過程如下:
1) 初始化[r0i, F0t, c0j]。
2) 固定[r0i, F0t],令目標函數(shù)式(10)對[cj]求導等于0,可得
即求得[c1j],得到如下形式
對矩陣[C1=c11c12…c1p2]進行施密特正交化,使得
3) 固定[c1j, F0t],令目標函數(shù)式(10)對[ri]求導等于0,可得:
則[r1i]為如下形式
4) 固定[r1i, c1j],令目標函數(shù)式(10) 對[Ft]求導等于0,可得
即求得[r1i],得到如下形式
5)重復[k]次,給定[ri, Ft, cj]的第[k?1]次估計[rk?1i, Ftk?1, ck?1j],可獲得 [ri, Ft, cj]的更新估計為[rki, Ftk, ckj]。
矩陣因子填補模型中的因子載荷和因子估計可總結(jié)如表1所示 。
2.2" "交替最小二乘算法模型
交替最小二乘算法(ALS)的核心是將一個復雜的問題拆解為若干個更易處理的子問題,并通過交替的方式逐步求解這些子問題,從而逼近全局最優(yōu)解。在眾多應用場景中,例如解決矩陣分解問題,目標是確定2個或多個低秩矩陣的乘積來逼近原始矩陣,如果直接對所有矩陣元素進行優(yōu)化往往導致非凸問題,且計算量龐大,難以鎖定全局最優(yōu)解。而交替最小二乘方法通過固定部分變量,同時優(yōu)化其余變量,將原始非凸問題轉(zhuǎn)化為凸問題,從而簡化了求解過程。依據(jù)ALS算法模型,最終獲得的模型估計值為
2.3" "交替最小二乘算法 + 時間序列模型
汲取Svetlana等[24]將向量因子與時間序列相結(jié)合的理念,并進一步融合矩陣因子與時間序列,構(gòu)建了一系列動態(tài)矩陣因子填補模型,其中以B-ALS(Backward-ALS)模型、F-ALS(Forward-ALS)模型和BF-ALS(Backward-Forward-ALS)模型為代表。該模型不僅考慮了矩陣因子的估計,還引入了時間連續(xù)性的額外考量。在時間序列數(shù)據(jù)中,往往存在多個連續(xù)的觀測點。在處理這類數(shù)據(jù)時,不僅要關(guān)注當前數(shù)據(jù)點,還希望洞察數(shù)據(jù)隨時間演變的模式。然而,傳統(tǒng)的ALS模型并未將單個樣本的時間連續(xù)性納入考量。與此不同,動態(tài)矩陣因子填補模型在進行新估計時,會整合過去和未來的信息,確保模型在更新過程中能夠?qū)崿F(xiàn)平滑過渡,從而更準確地捕捉時間序列數(shù)據(jù)的動態(tài)特性。
則該優(yōu)化問題可寫成
令目標函數(shù)式 (22) 對[βj]求導等于0,即:
由此,B-ALS模型對模型缺失值的估計為:
B-ALS模型、F-ALS模型和BF-ALS模型在橫截面矩陣因子的基礎上,分別考慮了過去信息(能觀察到的上一時刻的值[Xt?1i,j])、未來信息(能觀察到的上一時刻的值[Xt+1i,j])、過去和未來信息融合對模型的影響,具體使用的估計量如表2所示。
具體來說,ALS模型著重于矩陣因子的運用,B-ALS模型則結(jié)合了歷史數(shù)據(jù)和矩陣因子,F(xiàn)-ALS模型更側(cè)重于未來趨勢的預測,而BF-ALS模型則兼顧了前兩者的優(yōu)勢,實現(xiàn)了對歷史和未來數(shù)據(jù)的綜合考量。
3" " 模擬分析
為了驗證矩陣因子填補模型的有效性,筆者采用數(shù)據(jù)模擬方法來評估模型在不同缺失數(shù)據(jù)比例下的性能。假設原始數(shù)據(jù)矩陣由矩陣因子模型生成,并在數(shù)據(jù)中加入高斯噪聲模擬真實世界的觀測數(shù)據(jù)。模擬步驟如下:
3.1" "數(shù)據(jù)生成
設置模擬參數(shù):時間步數(shù)[T]設為80,行維度[p1]和列維度[p2]大小分別設為100 和30,行因子[k1=2]和列因子[k2=2]。這些參數(shù)定義了數(shù)據(jù)張量的形狀和潛在因子結(jié)構(gòu)。
初始化隨機數(shù)生成器:為確保模擬結(jié)果的可重復性和可比較性,使用固定的隨機數(shù)生成器。
生成因子載荷矩陣:因子載荷矩陣[Rtrue]和[Ctrue]由標準正態(tài)分布產(chǎn)生,代表數(shù)據(jù)張量中的潛在結(jié)構(gòu)。
創(chuàng)建時間動態(tài)的因子數(shù)組:三維數(shù)組[?true]由標準正態(tài)分布生成,并模擬隨時間變化的潛在因子。在每一個特定時刻[t],都能從中提取出一個因子矩陣[Ft]。
構(gòu)建真實張量數(shù)據(jù):張量數(shù)據(jù)[xtrue]初始化為0張量,隨后利用矩陣因子模型如式(27)所示,將每一個時間[t]對應的矩陣[Xt]插入張量[xtrue]中,這樣就得到了一個具有矩陣因子結(jié)構(gòu)的數(shù)據(jù)張量。
[Xt=RtrueFtC′true]。" " " " " " " " " " " " nbsp; " " " " " " " " " " " " " " " " " " (27)
添加高斯噪聲:為了模擬現(xiàn)實世界中的數(shù)據(jù)干擾,在[xtrue]的基礎上加入高斯噪聲,得到帶有噪聲的[xnoisy]。
隨機挖空:為了模擬數(shù)據(jù)缺失情況,按照不同的比例隨機對[xnoisy]中的元素進行挖空處理(完全隨機缺失)。
利用Python按照以上的模擬設計生成了所需的觀測數(shù)據(jù),隨后將采用不同模型進行填補對比效果,所有的模擬結(jié)果都是基于500次重復。
3.2" "評價指標
平均絕對誤差(Mean Absolute Error,MAE)從絕對值角度來衡量模型填補的誤差。同樣,MAE的值(AME)越小,模型填補越準確。MAE的計算式為
3.3" "基線方法
筆者將新提出的方法與7個基線模型進行了比較,包括了傳統(tǒng)的缺失數(shù)據(jù)處理方法(平均值方法、向后填充法、中位數(shù)方法和自回歸方法)和向量因子模型(XS、B-XS、F-XS和BF-XS)。平均值方法(Average):對于每個特征,取在同一時刻下樣本的平均值作為填充值;中位數(shù)方法(Median):對于每個特征,取在同一時刻下樣本的中位數(shù)作為填充值;向后填充法(Previous Value):對于每個特征,取其能觀察到的上一時刻的值作為填充值;自回歸方法(AR-B):對于每個特征,使用一階自回歸模型來預測缺失值;向量因子XS模型(Cross-Sectional Model):對于每個特征,使用向量因子模型來預測缺失值;B-XS模型(Backward-Cross-Sectional Model):對于每個特征,使用融合了向量因子估計和能觀察到的上一時刻數(shù)據(jù)的模型來預測缺失值;F-XS模型(Forward-Cross-Sectional Model):對于每個特征,使用融合了向量因子和能觀察到的下一時刻數(shù)據(jù)的模型來預測缺失值;BF-XS模型(Backward-Forward-Cross-Sectional Model):對于每個特征,使用融合了向量因子和能觀察到的上一時刻和下一時刻數(shù)據(jù)的模型來預測缺失值。
3.4" "模擬結(jié)果
表3詳細呈現(xiàn)了在不同數(shù)據(jù)缺失比例下的實驗模擬結(jié)果,其中m代表缺失數(shù)據(jù)的比例。觀察表中數(shù)據(jù)可知,隨著缺失數(shù)據(jù)比例的提升,所有模型的填補準確度均呈現(xiàn)不同程度的下降趨勢。特別值得注意的是,B-ALS、F-ALS和BF-ALS等3個模型在處理數(shù)據(jù)缺失問題時,展現(xiàn)了相對較低的均方誤差,并且誤差變化不顯著,這表明這些模型在處理缺失數(shù)據(jù)方面具有較好的穩(wěn)定性。即便在高達0.7的數(shù)據(jù)缺失比例下,這些模型仍能保持較高的性能水平。此外,通過對比矩陣因子模型和向量因子模型的表現(xiàn),可以發(fā)現(xiàn),無論是哪種模型,引入時間序列信息均能有效提升缺失值的填補效果。同時,在相同的缺失率下,矩陣因子模型的填補效果明顯優(yōu)于向量因子模型。特別是在高缺失率的情況下,向量因子模型表現(xiàn)出較弱的穩(wěn)定性,誤差相對較高。這一對比結(jié)果充分證明了矩陣因子模型在處理數(shù)據(jù)間行列結(jié)構(gòu)關(guān)系方面的優(yōu)勢,并從模擬數(shù)據(jù)的角度驗證了其在缺失值填補領(lǐng)域的有效性。
圖1直觀地展示了在缺失率從0.1逐步增加至0.5的過程中,ALS、XS、AR-B和PV填補方法經(jīng)過500次模擬實驗的誤差變化趨勢。從平均絕對誤差(MAE)和均方誤差(MSE)2個維度來看,ALS模型均展現(xiàn)出了卓越的性能,這充分說明了在假定矩陣因子結(jié)構(gòu)成立的條件下,矩陣因子填補模型在數(shù)據(jù)缺失填補方面具有顯著優(yōu)勢。與此同時,筆者發(fā)現(xiàn),向量因子模型在MAE方面多數(shù)情況下差于一階自回歸模型,但從MSE角度來看則略勝一籌。然而,無論是MAE還是MSE,向后填充方法始終表現(xiàn)最差,進一步證明了其在缺失值處理方面的局限性。
4" " 實證分析
4.1" "數(shù)據(jù)來源
利用宏觀經(jīng)濟數(shù)據(jù),對本研究提出的矩陣因子填補模型在經(jīng)濟金融領(lǐng)域的應用性能進行深入分析和驗證。數(shù)據(jù)集取自經(jīng)濟合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)的公開數(shù)據(jù)庫,涵蓋了1987年第三季度至2020年第二季度共130個季度的數(shù)據(jù)。本研究選取了澳大利亞(AUS)、新西蘭(NZL)、美國(USA)、加拿大(CAN)、挪威(NOR)、德國(DEU)、法國(FRA)和英國(GBR)等8個具有代表性的國家作為研究樣本。此外,篩選了10個關(guān)鍵的宏觀經(jīng)濟變量,這些變量的具體定義和描述詳見表4。整個數(shù)據(jù)集構(gòu)成了一個130×8×10的三維矩陣時間序列。
4.2" "平穩(wěn)性檢驗
平穩(wěn)性構(gòu)成了運用因子模型分析時間序列數(shù)據(jù)的關(guān)鍵基礎。當樣本數(shù)據(jù)表現(xiàn)出非平穩(wěn)性時,其平均值和方差可能會隨著時間的推移而波動,這將對研究結(jié)果的可信度造成重大影響。因此,對樣本數(shù)據(jù)進行平穩(wěn)性檢驗是分析過程中的首要任務。運用ADF方法對10個經(jīng)濟指標進行了單位根檢驗。該檢驗的零假設是數(shù)據(jù)呈現(xiàn)恒定的均值和線性趨勢,檢驗結(jié)果已在表5中呈現(xiàn)。結(jié)果顯示,所有經(jīng)濟指標均未能通過平穩(wěn)性檢驗,表明它們屬于非平穩(wěn)時間序列。為了繼續(xù)深入分析,必須對數(shù)據(jù)進行差分處理或?qū)?shù)差分處理。
圖2為數(shù)據(jù)差分或?qū)?shù)差分后標準化的各個國家的CPI(Consumer Price Index,CPI)時間序列圖,觀察到時間序列基本平穩(wěn),可以進行下一步分析。
4.3" "因子個數(shù)的確定
在向量因子模型中,通過觀察特征值曲線的變化趨勢,可以較為準確地確定模型中的因子個數(shù)。如圖3所示,特征值曲線在4附近特征值曲線趨于平緩,因此選擇[k=4]作為模型中的因子個數(shù)。對于矩陣因子模型,可以通過秩最小化、信息準則和特征值比率閾值法等3種方法來確定行因子和列因子數(shù)[25],如表 6 所示,最終確定行因子和列因子各設定為2。
4.4" "實驗結(jié)果
表7的數(shù)據(jù)顯示,在缺失率為0.1的條件下,結(jié)合歷史和未來數(shù)據(jù)的BF-ALS模型在所有性能指標上都有卓越的表現(xiàn)。這充分驗證了在數(shù)據(jù)填補算法中,綜合考慮時間序列的過去和未來信息對于增強模型填補準確性的重要性。具體而言,BF-ALS模型在平均絕對誤差(MAE)和均方誤差(MSE)2項指標上均達到了最佳成績,分別為0.588和0.656,這些成績顯著超越了那些僅依賴歷史或未來數(shù)據(jù)的模型。在基于矩陣因子的ALS模型及其衍生模型中,無論是引入歷史數(shù)據(jù)的B-ALS模型還是使用未來數(shù)據(jù)的F-ALS模型,其性能都比原始的ALS模型有所提高。當同時考慮歷史數(shù)據(jù)和未來數(shù)據(jù)時,模型性能的提升最為顯著,這強調(diào)了多維度數(shù)據(jù)融合在處理缺失數(shù)據(jù)時的關(guān)鍵作用。此外,盡管基于向量因子的XS模型在引入額外數(shù)據(jù)后性能有所提升,但其表現(xiàn)仍然不及ALS模型和動態(tài)矩陣因子模型,這表明在處理矩陣時間序列的缺失數(shù)據(jù)時,矩陣因子填補模型可能具有更顯著的優(yōu)勢。在與其他基線方法的對比中,盡管一階自回歸模型的表現(xiàn)優(yōu)于單維度的XS模型,但其仍然未能超越ALS模型,這暗示了在這種情況下可能需要更復雜的數(shù)據(jù)建模方法來進一步提升其性能。然而,作為傳統(tǒng)的缺失處理方法,向后填充法在MAE和MSE方面的性能并不理想,盡管中位數(shù)填充和平均數(shù)填充的表現(xiàn)相對較好,但仍然不如后向填充法??傮w而言,表7不僅突出了綜合利用歷史與未來信息在數(shù)據(jù)填補任務中的關(guān)鍵作用,還進一步展示了矩陣因子填補模型在處理此類問題時的卓越性能。
圖4、圖5和圖6揭示了在不同數(shù)據(jù)缺失率下,各種模型的填補效果??傮w而言,隨著數(shù)據(jù)缺失率的提升,所有模型的填補誤差普遍呈上升趨勢。特別地,向量因子模型對缺失率的變化更為敏感,其誤差增長尤為顯著。觀察圖5,筆者發(fā)現(xiàn)BF-ALS模型在各種缺失率條件下均保持了最低的誤差水平,其次是F-ALS模型。這表明,在某些情況下,未來數(shù)據(jù)對模型性能的提升作用可能超過了歷史數(shù)據(jù)。同時,B-ALS模型也表現(xiàn)出了不錯的性能,但通常不及BF-ALS模型,這暗示了僅依賴單一時間方向的數(shù)據(jù)(無論是歷史還是未來)可能都不足以達到最佳填補性能。相比之下,圖6中XS模型及其衍生模型的誤差明顯高于ALS模型及其衍生模型,這一對比結(jié)果進一步證實了XS模型在處理此類數(shù)據(jù)填補任務時的局限性。此外,隨著缺失率的增加,矩陣因子填補模型的誤差增長逐漸趨于平緩,而向量因子填補模型的誤差增長則尤為顯著。這表明,矩陣因子填補模型在應對經(jīng)濟數(shù)據(jù)填補任務時具有更好的穩(wěn)定性。
5" " 結(jié)論和啟示
當前,高維矩陣時間序列數(shù)據(jù)因其在多個學科領(lǐng)域的普遍性而受到廣泛關(guān)注。這類數(shù)據(jù)不僅復雜性極高,而且其時間序列特性為揭示復雜現(xiàn)象背后的規(guī)律提供了關(guān)鍵線索。然而,數(shù)據(jù)缺失問題的存在嚴重阻礙了這些潛在信息的提取和利用,因此尋求有效的數(shù)據(jù)填補方法顯得尤為重要。傳統(tǒng)的向量因子模型在處理數(shù)據(jù)時雖然方法相對簡潔,但在面對高維矩陣時間序列數(shù)據(jù)時往往卻顯得力不從心,原因在于其往往只能捕捉單一維度的特性,有時還會破壞原來的矩陣結(jié)構(gòu),從而忽視了高維數(shù)據(jù)中各維度之間可能存在的內(nèi)在聯(lián)系,難以有效挖掘和利用數(shù)據(jù)的全貌。針對這一問題,本研究提出了一種基于矩陣因子模型的填補算法,該算法充分考慮了數(shù)據(jù)的行列結(jié)構(gòu)相依性,利用數(shù)據(jù)每個維度與其他維度之間的潛在聯(lián)系,從而更準確地填補缺失值。
這一創(chuàng)新不僅在理論上為高維數(shù)據(jù)的缺失值處理提供了新的視角,而且在實踐中也展示了其強大的應用潛力。為了進一步提升模型的性能,本研究在矩陣因子填補模型的基礎上引入了時間序列信息,提出了B-ALS、F-ALS和BF-ALS等動態(tài)矩陣因子填補模型。這些模型不僅繼承了矩陣因子模型處理行列交互的能力,還具備捕捉數(shù)據(jù)隨時間變化的能力。特別是BF-ALS模型,通過同時融合歷史和未來的時間序列信息,進一步增強了模型對數(shù)據(jù)動態(tài)特性的捕捉能力,使得在時間序列數(shù)據(jù)豐富的情況下,能更精準地描繪出數(shù)據(jù)的真實輪廓。通過對宏觀經(jīng)濟數(shù)據(jù)的實驗驗證,筆者發(fā)現(xiàn),基于矩陣因子的填補模型在不同的缺失率條件下均表現(xiàn)出較向量因子模型更優(yōu)越的性能。這一研究結(jié)果不僅證明了矩陣因子模型在處理具有復雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)時的有效性,也體現(xiàn)了歷史和未來信息在數(shù)據(jù)填補中的重要價值??傊狙芯坎粌H在理論上豐富了高維矩陣時間序列數(shù)據(jù)的缺失值處理方法,而且在實踐中為解決實際問題提供了有效的工具。通過深入研究和應用矩陣因子模型,我們可以更好地理解和分析真實世界中的復雜高維矩陣時間序列數(shù)據(jù),為各個領(lǐng)域的決策和研究提供了有力支持。
需要指出的是,盡管本文的研究工作已經(jīng)通過實驗得到了驗證,但未來研究仍需嘗試從如下幾個方面進行優(yōu)化:1) 采用穩(wěn)健的估計方法。鑒于當前的金融數(shù)據(jù)有時候會出現(xiàn)異常值或者重尾分布誤差的現(xiàn)象,可以考慮使用穩(wěn)健的估計方法,將[?2]的損失函數(shù)替換為更好地能應對殘差對估計影響的Huber損失函數(shù)。2) 結(jié)合多步時間序列信息。本研究提出的動態(tài)矩陣因子填補模型雖然已利用了時間序列信息,但是僅限于一階時間序列的使用。為了進一步增強模型的填補能力和動態(tài)適應性,未來可以考慮結(jié)合多步時間序列信息進行模型優(yōu)化。3) 融合現(xiàn)代機器學習技術(shù)。目前的矩陣因子模型雖然有效,但結(jié)合深度學習的技術(shù),如卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)或生成對抗網(wǎng)絡(GANs),可能會進一步提升模型處理復雜數(shù)據(jù)結(jié)構(gòu)和抓取時間序列深層次特征的能力。
參考文獻:
[1] 熊巍,王娟,潘晗,等.多重穩(wěn)健的高維缺失數(shù)據(jù)插補研究[J].統(tǒng)計與信息論壇, 2023,38(2):3-15.
[2] RUBIN D B. Inference and missing data[J]. Biometrika, 1975,63(3): 581-592.
[3] XUE F, MA R, LI H Z. Statistical inference for high-dimensional linear regression with blockwise missing data[J]. Statistica sinica, 2021,32 (4):1881-1909.
[4] DEMPSTER A P, LAIRD N M, RUBIN D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the royal statistical society, 1977,39(1): 1-22.
[5] MENG X L,RUBIN D B. Maximum likelihood estimation via the ECM algorithm: a general framework[J]. Biometrika,1993,80(2): 267-278.
[6] HONAKER J, KING G. What to do about missing values in time-series cross-section data[J]. American journal of political science,2010,54(2): 561-581.
[7] DAI Z Y, BU Z Q, LONG Q. Multiple imputation via generative adversarial network for high-dimensional blockwise missing value problems[C]//2021 20th IEEE International Conference on Machine Learning and Applications (ICMLA). IEEE, 2021: 791-798.
[8] PARK J, MüLLER J, ARORA B, et al. Long-term missing value imputation for time series data using deep neural networks[J]. Neural computing and applications, 2023,35(12): 9071-9091.
[9] 何軍,賴趙遠,時勘.聯(lián)合張量補全與循環(huán)神經(jīng)網(wǎng)絡的時間序列插補法[J].數(shù)據(jù)采集與處理,2024,39(3):598-608.
[10] EMMANUEL T, MAUPONG T, MPOELENG D, et al. A survey on missing data in machine learning[J]. Journal of big data, 2021,8(1) :1-37.
[11] BANBURA M, MODUGNO M. Maximum likelihood estimation of factor models on datasets with arbitrary pattern of missing data[J]. Journal of applied econometrics, 2014,29(1): 133-160.
[12] JUNGBACKER B, KOOPMAN S J, VAN D W M. Maximum likelihood estimation for dynamic factor models with missing data[J]. Journal of economic dynamics and control, 2011,35(8): 1358-1368.
[13] GIANNONE D,REICHLIN L,SMALL D. Nowcasting: the real-time informational content of macroeconomic data[J]. Journal of monetary economics, 2008,55(4) : 665-676.
[14] STOCK J H, WATSON M W. Dynamic factor models, factor-augmented vector autoregressions, and structural vector autoregressions in macroeconomics[M]//Handbook of macroeconomics. Amsterdam:Elsevier, 2016(2):415-525.
[15] BAI J S, NG S. Matrix completion, counterfactuals, and factor analysis of missing data[J].Journal of the American statistical association,2021,116(4): 1746-1763.
[16] CAHAN E, BAI J S, NG S. Factor-based imputation of missing values and covariances in panel data of large dimensions[J]. Journal of econometrics, 2023, 233(1): 113-131.
[17] ATHEY S, BAYATI M, DOUDCHENKO N, et al. Matrix completion methods for causal panel data models[J]. Journal of the American statistical association, 2021,116 (536): 1716-1730.
[18] JIN S N, MIAO K, SU L J. On factor models with random missing: EM estimation, inference, and cross validation[J]. Journal of econometrics,2021,222(1): 745-777.
[19] 夏業(yè)茂,陳宣.帶有缺失數(shù)據(jù)的縱向隱馬爾可夫因子模型的貝葉斯分析[J].應用數(shù)學,2017,30(2):457-468.
[20] XIONG R X, PELGER M. Large dimensional latent factor modeling with missing observations and applications to causal inference[J]. Journal of econometrics, 2023,233(1): 271-301.
[21] WANG D, LIU X L, CHEN R. Factor models for matrix-valued high-dimensional time series[J]. Journal of econometrics, 2019,208(1):231-248.
[22] HE Y, KONG X B, YU L, et al. Matrix factor analysis: from least squares to iterative projection[J]. Journal of business amp; economic statistics,2023: 1-13.
[23] YU L,HE Y,KONG X B,et al. Projected estimation for large-dimensional matrix factor models[J]. Journal of econometrics, 2022,229(1): 201-217.
[24] SVETLANA B, SVEN L, MARTIN L, et al. Missing financial data[J]. The review of financial studies,2024.
[25] KONG X B, LIU Y X, YU L, et al. Matrix quantile factor model[J]. arXiv preprint arXiv:2208.08693, 2022.