季姝,俞靜(河海大學(xué) 商學(xué)院,江蘇 南京 211100)
基于冗余數(shù)據(jù)壓縮算法的經(jīng)濟(jì)信用風(fēng)險研究
季姝,俞靜
(河海大學(xué) 商學(xué)院,江蘇 南京 211100)
針對信貸市場中的大數(shù)據(jù)難以有效分析經(jīng)濟(jì)信用風(fēng)險的問題,本研究以終端云計算存儲網(wǎng)絡(luò)平臺的金融數(shù)據(jù)包為基礎(chǔ),通過篩選過濾和降維處理的操作,在靜態(tài)的分塊模塊中將上傳的數(shù)據(jù)包文件進(jìn)行分割得到不同容量的數(shù)據(jù)包從而實現(xiàn)對冗余數(shù)據(jù)的高緯度的立體空間映射;動態(tài)的分塊模塊中時間序列數(shù)據(jù)副本邊緣特征空間向量的迭代操作步驟數(shù)對冗余數(shù)據(jù)包進(jìn)行模式的轉(zhuǎn)換。選取國民經(jīng)濟(jì)中劃分的18個行業(yè)81個月實驗結(jié)果表明:時間滑動窗口為5 s,對象個數(shù)為40個時,經(jīng)濟(jì)信用風(fēng)險的誤差在1%左右,數(shù)據(jù)誤差和標(biāo)準(zhǔn)差分別在3%和4%以內(nèi),數(shù)據(jù)集檢出準(zhǔn)確率超過95%;冗余數(shù)據(jù)的壓縮率為5.93%以內(nèi)。
壓縮算法;冗余數(shù)據(jù);云存儲;信用風(fēng)險
隨著當(dāng)代信息科技的發(fā)展,人們進(jìn)入大數(shù)據(jù)時代,信貸市場的大量數(shù)據(jù)猶是如此[1]。云端為信貸市場數(shù)據(jù)存儲提供了平臺[2],它不僅提供了存儲的空間,還提供了計算和管理的功能。在云計算系統(tǒng)背景之下大數(shù)據(jù)的處理問題也日益呈現(xiàn)[3]。在電子計算機(jī)云系統(tǒng)中,云端作為一個可變的規(guī)模,其能夠任意的伸縮[4],但是由于在計算過程中儲存子節(jié)點同構(gòu)互換,使得在數(shù)據(jù)傳輸?shù)拇瓮ǖ乐挟a(chǎn)生了大量的冗余數(shù)據(jù),通過對冗余數(shù)據(jù)的篩選和壓縮能夠減少云計算的成本[5]。因此,對數(shù)據(jù)庫數(shù)據(jù)進(jìn)行降維處理并實現(xiàn)對冗余數(shù)據(jù)的壓縮篩選[6]和濾除濾波并刪除[7],能夠提高云端計算的速度和效率,降低信貸雙方的計算開銷。目前對于云端次通道中產(chǎn)生的冗余數(shù)據(jù)處理方法主要有分?jǐn)?shù)階傅里葉變換的處理方法[8]、神經(jīng)網(wǎng)絡(luò)控制的處理方法[9]和支持向量機(jī)特征分類的處理方法[10],然而以上冗余數(shù)據(jù)的處理方法存在信息成本高,計算開銷大以及次通道中冗余數(shù)據(jù)特征維數(shù)較高等問題[11]。針對上述問題,文中提出一種基于特征壓縮的云計算冗余數(shù)據(jù)降維算法對經(jīng)濟(jì)信用風(fēng)險進(jìn)行研究,以期減少經(jīng)濟(jì)風(fēng)險成本。
1.1 冗余數(shù)據(jù)生成機(jī)制與體系構(gòu)架
一般情況下,基于電子計算機(jī)系統(tǒng)之下的外環(huán)境通過將用戶群使用的終端軟件、網(wǎng)絡(luò)處理器以及經(jīng)過虛擬處理的核心云計算電子平臺相結(jié)合[12]。但是很多情況下,隨著電子計算機(jī)云端存儲的中樞系統(tǒng)與電子設(shè)備結(jié)構(gòu)的發(fā)展相適應(yīng),其中的技術(shù)和結(jié)構(gòu)的變化容易對數(shù)據(jù)產(chǎn)生傳輸?shù)拇瓮ǖ繹13],在數(shù)據(jù)傳輸?shù)拇瓮ǖ乐袝霈F(xiàn)動態(tài)的衍生和節(jié)點轉(zhuǎn)換的現(xiàn)象,由此在數(shù)據(jù)處理和傳輸?shù)倪^程中就會產(chǎn)生相當(dāng)數(shù)量的冗余數(shù)據(jù),對于產(chǎn)生的冗余數(shù)據(jù)需要進(jìn)行篩選濾除以及降維處理[14],同時要兼顧開發(fā)處理使用的軟件以及電子計算機(jī)云端存儲平臺的特征相適應(yīng)。電子計算機(jī)的云端存儲平臺遵循的存儲機(jī)制如下:數(shù)據(jù)輸入輸出端口、存儲設(shè)備層,節(jié)點管理器和組件層調(diào)用管理云存儲外部環(huán)境下的大數(shù)據(jù)。基于電子計算機(jī)系統(tǒng)之下的外環(huán)境進(jìn)行存儲數(shù)據(jù)和管理數(shù)據(jù)的具體過程流程圖如圖1所示。
圖1 數(shù)據(jù)存儲與管理流程
為了使數(shù)據(jù)的處理更有針對性,面向不同的用戶群和受眾,在數(shù)據(jù)傳輸?shù)拇瓮ǖ乐蟹植加胁煌馁Y源節(jié)點,利用四元組G來表示在數(shù)據(jù)處理過程中冗余數(shù)據(jù)的存儲結(jié)構(gòu),即G=(V,E,W,C),同時對移動終端的云計算存儲網(wǎng)絡(luò)平臺的數(shù)據(jù)包進(jìn)行定義,將傳輸?shù)牡趇個數(shù)據(jù)包定義為ith,其主要的運行機(jī)制是首先在靜態(tài)的分塊模塊中將上傳的數(shù)據(jù)包文件進(jìn)行分割得到不同容量的數(shù)據(jù)包,故存在不同大小的冗余數(shù)據(jù)模塊,從而實現(xiàn)了對冗余數(shù)據(jù)的高緯度的立體空間映射。在電子計算機(jī)云端存儲系統(tǒng)中數(shù)據(jù)變化導(dǎo)致的次通道中存在的分隔分片函數(shù)可以如下表示:
其中,g表示在高緯度的立體空間中進(jìn)行迭代操作的步驟數(shù),t表示在動態(tài)的時間序列數(shù)據(jù)副本中的一些存在邊緣特征的空間向量的迭代操作步驟數(shù)。在資源節(jié)點的分布管理中,利用設(shè)置的組件進(jìn)行調(diào)用和降維處理和篩選,并對冗余數(shù)據(jù)包進(jìn)行模式的轉(zhuǎn)換,最終得到電子計算機(jī)云端存儲系統(tǒng)下次通道中冗余數(shù)據(jù)包的采樣時間向量,以及得到冗余數(shù)據(jù)包在云存儲系統(tǒng)中的處理順序序列,其規(guī)模如下:
在進(jìn)行冗余數(shù)據(jù)壓縮的同時可能會存在云端存儲的資源節(jié)點分布對冗余數(shù)據(jù)堆產(chǎn)生降維干擾的影響,為了盡可能的減少這樣的影響提升數(shù)據(jù)壓縮的效率,需要對分布節(jié)點進(jìn)行干擾濾波,并通過空間降維的方法最終實現(xiàn)對冗余數(shù)據(jù)的過濾和篩選達(dá)到冗余數(shù)據(jù)壓縮的目的。
1.2 冗余數(shù)據(jù)的空間降維與特征值提取
在進(jìn)行云存儲系統(tǒng)中系統(tǒng)結(jié)構(gòu)的冗余數(shù)據(jù)包進(jìn)行分析和空間重組降維處理[15],同時需要以互聯(lián)網(wǎng)為媒介進(jìn)行信號的算法處理并且實現(xiàn)對冗余數(shù)據(jù)的提取和讀取處理。在電子計算機(jī)云端存儲系統(tǒng)中利用資源節(jié)點分布來調(diào)用中間組件進(jìn)行調(diào)試,一般情況下會產(chǎn)生冗余數(shù)據(jù)包的漂移情況,設(shè)冗余數(shù)據(jù)包的時間區(qū)間長度為N,將收集錄入的數(shù)據(jù)進(jìn)行分類匯總,得到C個分類,根據(jù)其空間特征獲得電子計算機(jī)云端存儲系統(tǒng)中次通道冗余數(shù)據(jù)的空間重組表達(dá)公式:
其中,x(t)用以表明時間序列,j為對空間進(jìn)行重構(gòu)的分割尺度,m是冗余數(shù)據(jù)包中的維數(shù)。一般在上述構(gòu)建的多維空間內(nèi)對次通道中的冗余數(shù)據(jù)特征值進(jìn)行提取,設(shè)在向量特征值提取的過程中的降維矢量集合表示如下:
在電子計算機(jī)的云端存儲系統(tǒng)中,將次通道中的冗余數(shù)據(jù)集合形成向量進(jìn)行歷遍運算流程之后得到了含有n個樣本特征值的有限元,采集的樣本共有n個,冗余數(shù)據(jù)包的空間多維向量為:xi=(xi1,xi2,…,xis)T。對冗余數(shù)據(jù)的不同量化模式進(jìn)行不同步長的熵編碼[16],將編碼的矢量設(shè)為c類 ,其范圍為1<c<n,利用高階高維的特征向量壓縮處理方法處理冗余數(shù)據(jù)的聚類中心,表達(dá)如下:
其中,Vi表示第i個對冗余數(shù)據(jù)產(chǎn)生干擾的向量,通過SVD分解法得到冗余數(shù)據(jù)分解結(jié)果:
將冗余數(shù)據(jù)的降維目標(biāo)函數(shù)定義如下:
其中歐式距離dik公示表達(dá)如下:
結(jié)合上述所有的約束條件并聯(lián)系中心極限定理的原理得到如下的冗余數(shù)據(jù)特征空間壓縮的目標(biāo)函數(shù)的極值[17]:
通過設(shè)定能夠干擾向量,并輸入初值結(jié)合模糊度指標(biāo)m,最終實現(xiàn)高維冗余數(shù)據(jù)的降維處理和特征值提取。
2.1 信用風(fēng)險度量
對于信用風(fēng)險的度量目前主要是CCA方法[18],其理論根源為期權(quán)定價理論,對于信貸市場的信用風(fēng)險度量有著非常重要的經(jīng)濟(jì)意義。CCA方法主要特點在于其將企業(yè)的公開財務(wù)數(shù)據(jù)和市場的數(shù)據(jù)相結(jié)合,對于信用風(fēng)險的度量更為準(zhǔn)確也更為及時,能夠表現(xiàn)企業(yè)和銀行在信貸市場信用風(fēng)險變動的動態(tài)趨勢,從而在業(yè)界得到了廣泛的應(yīng)用。在CCA方法中利用違約距離DD來衡量信用風(fēng)險。當(dāng)假設(shè)企業(yè)資產(chǎn)價值A(chǔ)t服從幾何布朗運動時,根據(jù)Black-Scholes公式及伊藤引理得[19]:
其中,B為違約障礙,E為債務(wù)低級索取權(quán),σA、σE分別表示企業(yè)資產(chǎn)波動率及企業(yè)低級索取權(quán)波動率,r為無風(fēng)險利率,T-t為期限d2=d1-σ,滿足P{At≤Bt}=N-d2通過利用牛頓迭代法即可計算出違約距離DD。
2.2 信用風(fēng)險冗余數(shù)據(jù)壓縮算法步驟
根據(jù)經(jīng)濟(jì)中信用風(fēng)險數(shù)據(jù)的特性,將本算法具體劃分為3個步驟:1)時間序列的歸類:運行數(shù)據(jù)庫數(shù)據(jù),將經(jīng)濟(jì)市場數(shù)據(jù)按照特征根據(jù)元組標(biāo)碼,對于屬于同一個簇的元組分標(biāo),此處簇可為不動點也可為噪聲點的集合;2)對簇的類型進(jìn)行判別:對已標(biāo)號分類的聚類進(jìn)行判斷,并從中匯聚出不動的噪聲點和不動點和數(shù)據(jù)波動軌跡;3)壓縮數(shù)據(jù):根據(jù)特征提取和降維處理對數(shù)據(jù)進(jìn)行壓縮處理。從第一個未被標(biāo)記的子算法開始運行整個數(shù)據(jù)庫,按時間先后進(jìn)行處理,整個子算法的運行直到所有的數(shù)據(jù)遍歷為止,最終所有數(shù)據(jù)都會被標(biāo)注相應(yīng)的記號,最后再根據(jù)特征提取和降維處理實現(xiàn)冗余數(shù)據(jù)的壓縮。子算法的具體流程如圖2所示。
圖2 簇類別判斷與冗余壓縮合成算法
實驗中的算法運行CPU硬件選取雙核AMD FX-8350 4GHz,內(nèi)存DDR3 1866 8GB,并采用CSR-6930Z超高頻固定式讀寫器,在操作系統(tǒng)為Windows 7的PC機(jī)上完成。文中用于實驗的數(shù)據(jù)為國民經(jīng)濟(jì)中劃分的18個行業(yè),取其行業(yè)市值在全行業(yè)市值中所占比重為前九的行業(yè)作為樣本,樣本區(qū)間為2008 年1月至2014年9月,共81個月。為了驗證冗余數(shù)據(jù)壓縮算法對經(jīng)濟(jì)信用風(fēng)險分析的有效性,本研究選取數(shù)據(jù)壓縮率和準(zhǔn)確率作為標(biāo)準(zhǔn),同時實驗所用的時間滑動窗口大小和對象個數(shù)作為參數(shù),獨立重復(fù)實驗30次獲取對信貸市場所選取的9個行業(yè)作為樣本的月度數(shù)據(jù)的數(shù)據(jù)庫進(jìn)行降維處理和特征值提取進(jìn)行數(shù)據(jù)壓縮和冗余數(shù)據(jù)的篩選,如表1所示。
表1 時間滑動窗口大小與對象個數(shù)的壓縮率和準(zhǔn)確率
由表1可知,經(jīng)濟(jì)信用風(fēng)險的冗余數(shù)據(jù)的時間滑動窗口大小和對象個數(shù)對原始數(shù)據(jù)集有重要的影響。壓縮率愈小說明冗余數(shù)據(jù)在降維處理后的數(shù)據(jù)量占比愈小,并且準(zhǔn)確率愈大說明算法對經(jīng)濟(jì)信用風(fēng)險的冗余數(shù)據(jù)識別所占比愈大。其中,隨著時間滑動窗口用時遞增,壓縮率逐漸降低,而準(zhǔn)確率逐漸提高,且當(dāng)時間窗口為6 s時,壓縮率僅為9.54%,準(zhǔn)確率為99.89%;隨著對象個數(shù)的增加,壓縮率逐漸降低,準(zhǔn)確率逐提升,且當(dāng)對象個數(shù)為60時,壓縮率為24.54%,準(zhǔn)確率僅為99.91%。為了進(jìn)一步研究經(jīng)濟(jì)信用風(fēng)險的波動情況,本研究選用時間滑動窗口為5 s,對象個數(shù)為40個,標(biāo)記出經(jīng)濟(jì)信用風(fēng)險的違約距離的動態(tài)波動軌跡,其動態(tài)趨勢如圖3所示。
圖3 經(jīng)濟(jì)信用風(fēng)險的冗余數(shù)據(jù)動態(tài)趨勢檢驗
由圖3可知,經(jīng)濟(jì)信用風(fēng)險的誤差在1%左右,在本實驗中數(shù)據(jù)誤差和標(biāo)準(zhǔn)差分別在3%和4%以內(nèi),此時數(shù)據(jù)集中不動點的檢出準(zhǔn)確率最高,超過95%;冗余數(shù)據(jù)的壓縮率為5.93%以內(nèi)。
由于信貸市場由于貸款雙方信息不對稱所導(dǎo)致的信用風(fēng)險,為了解決在銀行在決定放貸之前對企業(yè)的財務(wù)數(shù)據(jù)進(jìn)行評級所遇到的數(shù)據(jù)冗余問題,本文根據(jù)數(shù)據(jù)特征進(jìn)行按簇分類提出了一種基于冗余數(shù)據(jù)壓縮壓縮算法的經(jīng)濟(jì)信用風(fēng)險研究方法。本文算法首先根據(jù)修正的CCA方法并結(jié)合冗余數(shù)據(jù)的壓縮算法,以經(jīng)濟(jì)運行中的九大行業(yè)為樣本采集到企業(yè)的財務(wù)狀況數(shù)據(jù),參照基于時序的聚類算法將每個行業(yè)的財務(wù)數(shù)據(jù)按照特征歸類并分成若干簇,形成的每個簇都是按照其屬性進(jìn)行歸類運動的運動軌跡或靜止點形成的噪聲數(shù)據(jù);根據(jù)之前設(shè)定的參數(shù)對所劃分歸類的簇進(jìn)行判斷并按照元組為單位對冗余數(shù)據(jù)進(jìn)行壓縮。通過進(jìn)行本實驗表明,本文提出的冗余數(shù)據(jù)壓縮算法能夠?qū)Ω鞣N類型的數(shù)據(jù)進(jìn)行壓縮聚類,實現(xiàn)對冗余數(shù)據(jù)的篩選壓縮和處理。對于經(jīng)濟(jì)信用風(fēng)險數(shù)據(jù)的壓縮準(zhǔn)確性和算法運行效率的提高將是研究的下一個方向。
[1]張杰,劉鳳,賀立龍.基于企業(yè)規(guī)模的中小企業(yè)信貸融資特征分析[J].統(tǒng)計與決策,2012(15):92-95.
[2]秦秀磊,張文博,王偉,等.面向云端Key/Value存儲系統(tǒng)的開銷敏感的數(shù)據(jù)遷移方法 [J].軟件學(xué)報,2013(6):1403-1417.
[3]劉正偉,文中領(lǐng),張海濤.云計算和云數(shù)據(jù)管理技術(shù)[J].計算機(jī)研究與發(fā)展,2012,49(1):26-31.
[4]張友鵬,權(quán)海寧.新型分布式全電子計算機(jī)聯(lián)鎖系統(tǒng)研究[J].計算機(jī)工程與應(yīng)用,2012,21(6):164-166.
[5]聶軍.基于K-L特征壓縮的云計算冗余數(shù)據(jù)降維算法[J].微電子學(xué)與計算機(jī),2016(2):125-129.
[6]王汝言,吳晴,熊余,等.壓縮感知的多參數(shù)鏈路故障定位算法 [J].電子與信息學(xué)報,2013(11): 2596-2601.
[7]郭鳳鳴,李兵,何怡剛.密集環(huán)境下RFID系統(tǒng)濾波方法研究[J].計算機(jī)工程與應(yīng)用,2014,50(13): 210-213.
[8]譚鴿偉,潘光武,林薇.基于分?jǐn)?shù)階傅里葉變換的兩步運動補(bǔ)償CS算法[J].計算機(jī)應(yīng)用研究,2015,32 (1):89-92.
[9]朱金華.組合模型在商業(yè)銀行信用風(fēng)險評估中的研究[J].計算機(jī)仿真,2011,28(9):361-364.
[10]焦衛(wèi)東,林樹森.整體改進(jìn)的基于支持向量機(jī)的故障診斷方法[J].儀器儀表學(xué)報,2015,36(8): 1861-1870.
[11]刁愛軍.基于壓縮特征編碼的混合云冗余數(shù)據(jù)刪除算法[J].科技通報,2015,31(8):42-44.
[12]張偉娜.以云計算為導(dǎo)向的計算機(jī)操作系統(tǒng)教學(xué)研究[J].軟件,2014(7):85-88.
[13]唐懿芳,鐘達(dá)夫.基于數(shù)據(jù)冗余的BDS長報文傳輸機(jī)制改進(jìn)算法[J].指揮控制與仿真,2016(1): 152-157.
[14]李蓉,周維柏.基于多特征選取和類完全加權(quán)的入侵檢測[J].計算機(jī)技術(shù)與發(fā)展,2014(7):145-148.
[15]付仲良,趙星源,王楠,等.一種基于流形學(xué)習(xí)的空間數(shù)據(jù)劃分方法[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2014(7):145-148.
[16]黃慶卿,湯寶平,鄧?yán)伲?無線傳感器網(wǎng)絡(luò)子帶能量自適應(yīng)數(shù)據(jù)壓縮方法 [J].儀器儀表學(xué)報,2014,35(9):1998-2003.
[17]葉清,吳曉平,葉曉慧,等.基于PCA與FCM的入侵檢測樣本數(shù)據(jù)壓縮方法[J].海軍工程大學(xué)學(xué)報,2012,24(5):25-30.
[18]管薇薇,周凱.信用風(fēng)險數(shù)據(jù)集市的構(gòu)建探討[J].電腦知識與技術(shù),2014(8):5155-5158.
[19]王飛,孫維堯.基于Black-Scholes方程的股指期貨期現(xiàn)套利模型及交易算法[J].計算機(jī)應(yīng)用,2013,33 (1):326-328.
Research on economic credit risk of based on redundant data compression algorithm
JI Shu,YU Jing
(Business School,Hohai University,Nanjing 211100,China)
For the credit markets effectively analyze large data difficult economic problems of credit risk,this study terminal cloud storage network platform of financial data packet basis,by operating the screening and filtration reducing the dimension of the block in the module,in a static Upload file packets obtained by dividing the capacity of different packets of three-dimensional space in order to achieve high latitudes redundant data mapping;Iterative procedure number of copies of the data dynamic partitioning module for the time series feature space vector edge of redundant data packet conversion mode.Select the national economy division 18 industry 81 months results show that:the sliding window of time 5 s,the number of objects is 40,the credit risk in the economy error of about 1%,the data error and standard deviation,respectively,and 3%less than 4%,the detection accuracy of the data set more than 95%;redundant data compression rate of less than 5.93%.
compression algorithm;redundant data;cloud storage;credit risk
TN<919.6 文獻(xiàn)標(biāo)識碼:A class="emphasis_bold">919.6 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-6236(2017)07-0015-04919.6 文獻(xiàn)標(biāo)識碼:A
1674-6236(2017)07-0015-04
A 文章編號:1674-6236(2017)07-0015-04
2016-06-22稿件編號:201606173
國家自然科學(xué)基金面上項目(71171207);河海大學(xué)中央高?;究蒲袠I(yè)務(wù)費項目(2013B33114)
季 姝(1992—),女,江蘇南通人,碩士研究生。研究方向:信用風(fēng)險。