蔚仁佳
一、研究背景及意義
隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)技術(shù)為我們分析問題和解決問題提供了新的思路和方法。與常規(guī)數(shù)據(jù)集相比,在大數(shù)據(jù)環(huán)境下進行數(shù)據(jù)挖掘?qū)⒌玫礁喔娴男畔?。未來從大?shù)據(jù)中發(fā)現(xiàn)因果關(guān)系以及在常規(guī)數(shù)據(jù)中挖掘一般因果關(guān)系將是一種趨勢。為了改善傳統(tǒng)格蘭杰模型在時間序列因果關(guān)系挖掘中出現(xiàn)的弊端,近一步改進并完善因果關(guān)系挖掘模型,本文提出了在大數(shù)據(jù)環(huán)境下使用二階貝葉斯網(wǎng)絡(luò)模型進行因果關(guān)系挖掘。該模型采用最小描述長度(Minimum Description Length, MDL)原理來進行打分。通過對期貨樣本數(shù)據(jù)分析,并對原始時間序列進行離散化、屬性約簡、重構(gòu)等處理后進行二階貝葉斯網(wǎng)絡(luò)模型訓(xùn)練,不僅可以挖掘節(jié)點與節(jié)點之間的因果關(guān)系而且可以發(fā)現(xiàn)因果關(guān)系之間的聯(lián)系。
二、時間序列數(shù)據(jù)獲取與預(yù)處理
從統(tǒng)計學(xué)的角度上來講,時間序列指的是將某一個維度在不同時間點上的不同數(shù)值,按照時間的先后順序排列而成的數(shù)據(jù)。因此,時間序列常常受到各種不確定因素的干擾而表現(xiàn)出一定的隨機性,數(shù)據(jù)之間往往存在一定的相關(guān)性。從數(shù)學(xué)的角度上來講,隨機序列指的是由一系列隨機變量組成的數(shù)組,如我們用X1,X2......Xt來表示,其中t=1, 2, 3,.....n。
時間序列是按照時間的順序來排列的,因此上面的表達式中t為時間的整數(shù)變量,用來表示等間隔的增長,比如第t時間點·第t月·第t個等等,我們用x,來表示,其中t=1, 2, 3,......n,這里的t表示時間的順序。另外還有一點不同的是在時間序列中變量t既可以為正數(shù)也可以為負(fù)數(shù),這是由于時間序列都是以當(dāng)前的時間為基準(zhǔn),若t為負(fù)數(shù)則說明該數(shù)據(jù)發(fā)生在當(dāng)前時間點之前,若t為正數(shù)則說明該數(shù)據(jù)發(fā)生在當(dāng)前時間點之后,但是t的值必須為整數(shù)。
(一)期貨時間序列數(shù)據(jù)的來源
期貨交易數(shù)據(jù)都是按照時間順序觀察收集得到的期貨合約交易的價格數(shù)據(jù),例如開盤價,收盤價,最低價,最高價等等。從期貨交易軟件上連續(xù)獲得的期貨時間序列數(shù)據(jù)稱作期貨時間序列數(shù)據(jù)流。時間序列數(shù)據(jù)有連續(xù)的,也有離散的。
期貨時間序列數(shù)據(jù)是一組隨時間變化而觀察得到的價格數(shù)據(jù),該數(shù)據(jù)是離散的。
我們假設(shè)
S={(x1, y1),(x2,y2),…,(x",yn)}
為時間序列,n表示數(shù)據(jù)點的個數(shù),Xi表示買賣期貨合約時的價格數(shù)據(jù),其中i屬于[1,n],表示買賣期貨合約的時間點;給定一個維度,規(guī)定該時間序列是某種價格數(shù)據(jù)。通常情況下,使用自動的期貨交易平臺進行交易的時候,只需要分析眾多維度中的一種期貨時間序列數(shù)據(jù)即可,即固定屬性,例如期貨收盤價時間序列數(shù)據(jù)。
本文采用的期貨時間序列數(shù)據(jù)來自UC工網(wǎng)站上的開源數(shù)據(jù),選取了其中3份期貨交易時間序列。每一份時間序列擁有1000萬左右的數(shù)據(jù)樣本。每個樣本擁有交易日期、該期貨的工D、更新時間、實時價格、開盤價、收盤價、最高價、最低價等維度,其中更新時間從幾秒至幾分鐘不等。
(二)貝葉斯網(wǎng)絡(luò)數(shù)據(jù)集的構(gòu)建
本文的貝葉斯網(wǎng)絡(luò)分為一階和二階,兩種貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)集構(gòu)建方式不一樣,本節(jié)主要敘述如何構(gòu)建一階貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)集。在經(jīng)過離散化處理后的時間序列上隨機(初始點不放回)截取5000個連續(xù)的時間序列片段,每個片段擁有5000個節(jié)點。經(jīng)過上面的隨機截取后獲得了5000個長度為5000的時間序列,下面將對每一個時間序列進行數(shù)據(jù)集的轉(zhuǎn)化。由于考慮到二階貝葉斯網(wǎng)絡(luò)訓(xùn)練時計算機的運行能力,在經(jīng)過多次試驗后決定選取5個節(jié)點,方便實驗。
三、基于貝葉斯網(wǎng)絡(luò)的因果關(guān)系挖掘
在貝葉斯網(wǎng)絡(luò)中,對期貨時間序列進行貝葉斯網(wǎng)絡(luò)的推理,即貝葉斯網(wǎng)絡(luò)的因果關(guān)系挖掘,其主要思想是:在給定某些證據(jù)變量取值的條件下,求解給定變量和目標(biāo)變量之間的因果關(guān)系。在本文中,我們利用最小描述長度(MDL)來對單時間序列(期貨)進行節(jié)點與節(jié)點之間,邊與邊之間的因果關(guān)系挖掘。
按照以上算法,我們對期貨的時間序列數(shù)據(jù)進行貝葉斯網(wǎng)絡(luò)模型訓(xùn)練后得到如下因果關(guān)系圖,整理后如下:
從上圖我們可以看到總共有5個節(jié)點,每個節(jié)點本身代表著在一階貝葉斯網(wǎng)絡(luò)中的一種因果關(guān)系。節(jié)點1表示在原始時間序列中第一個節(jié)點和第五個節(jié)點之間的因果關(guān)系,我們用因果關(guān)系1來表示。同理,用因果關(guān)系2和3分別表示上圖中的節(jié)點2和3。從上圖可以看到節(jié)點1是節(jié)點2和3的父節(jié)點,這說明因果關(guān)系1是因果關(guān)系2和3的父節(jié)點。由此可以得出以下結(jié)論:如果己知原始時間序列中節(jié)點1和節(jié)點5之間存在因果關(guān)系,那么節(jié)點2和節(jié)點3與節(jié)點5之間也存在著因果關(guān)系。
四、結(jié)語
采用貝葉斯網(wǎng)絡(luò)進行模型訓(xùn)練對輸入的數(shù)據(jù)集有著較高的要求,本文的原始數(shù)據(jù)集來自期貨時間序列,該數(shù)據(jù)集中有較多的缺陷,例如數(shù)據(jù)不完整,冗余數(shù)據(jù)過多等問題,所以試驗的第一步就是進行數(shù)據(jù)預(yù)處理,保證后期實現(xiàn)的高效和準(zhǔn)確。另外,由于本文采用了一種全新的貝葉斯網(wǎng)絡(luò)訓(xùn)練方法,需要大量的時間序列,所以需要對原始時間序列進行隨機截取來產(chǎn)生足夠多的小時間序列,保證模型的實現(xiàn)。最后,貝葉斯網(wǎng)絡(luò)訓(xùn)練需要的是矩陣形式的數(shù)據(jù)集,而單變量的時間序列是一個數(shù)組,需要考慮如何將數(shù)組轉(zhuǎn)化成符合貝葉斯網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集。(作者單位為山西財經(jīng)大學(xué))