易燕飛,郝藝達(dá)
(長春工業(yè)大學(xué),長春 130000)
?
基于ARMA模型的時(shí)間序列挖掘
易燕飛,郝藝達(dá)
(長春工業(yè)大學(xué),長春 130000)
[摘 要]數(shù)據(jù)挖掘作為時(shí)下IT等領(lǐng)域研究的重點(diǎn)與難點(diǎn),對(duì)其重要內(nèi)容之一的時(shí)間序列進(jìn)行分析與挖掘很有必要。實(shí)踐表明,利用ARMA模型來分析與挖掘時(shí)間序列能取得較好效果。因此,本文在詳細(xì)介紹時(shí)間序列基本概念和ARMA模型相關(guān)內(nèi)容的基礎(chǔ)上,對(duì)基于ARMA模型時(shí)間序列的挖掘進(jìn)行了深入探究。
[關(guān)鍵詞]ARMA模型;時(shí)間序列;挖掘
對(duì)數(shù)據(jù)挖掘進(jìn)行研究有利于人們對(duì)數(shù)據(jù)及其潛在價(jià)值進(jìn)行充分利用,有利于推動(dòng)IT等相關(guān)行業(yè)的快速發(fā)展。而時(shí)間序列作為數(shù)據(jù)挖掘的一個(gè)重要分支,在其中所具有的重要地位不言而喻。目前,很多領(lǐng)域都涉及時(shí)間序列分析,如教育、金融、工業(yè)、醫(yī)療等。隨著時(shí)間序列分析的不斷深入,利用ARMA模型對(duì)其進(jìn)行挖掘既是時(shí)代發(fā)展的必然趨勢(shì),也是對(duì)ARMA模型優(yōu)勢(shì)的一種充分體現(xiàn)。
所謂時(shí)間序列,指的是按照時(shí)間先后順序?qū)δ硞€(gè)變量進(jìn)行觀測(cè)所得到的一組觀測(cè)值。根據(jù)該定義可知,任何一個(gè)時(shí)間序列都可用若干個(gè)二元組(時(shí)間變量,觀測(cè)變量)來表示,根據(jù)觀測(cè)時(shí)間間隔的不同,時(shí)間變量可是時(shí)、分、秒等,也可是一些單調(diào)遞增的物理量,如溫度。觀測(cè)變量反映的是時(shí)間序列所具有的實(shí)際意義,如電壓、血壓、銷售數(shù)量等。
相關(guān)研究學(xué)者提出,可根據(jù)時(shí)間序列的值建立一個(gè)參數(shù)數(shù)學(xué)模型,但要保證所建參數(shù)化模型能真實(shí)準(zhǔn)確反映出時(shí)間序列的基本特征,以為后續(xù)時(shí)間序列的分類、聚類等操作提供必要的依據(jù)和參考。該模型即為ARMA模型(自回歸移動(dòng)平均模型),其基本思想是任何一個(gè)變量當(dāng)前的取值,不僅會(huì)受它本身過去取值的影響,而且會(huì)受過去與現(xiàn)在各種隨機(jī)因素的共同影響。依照該思想,可建立出相應(yīng)的數(shù)學(xué)模型。目前,較為常用的平穩(wěn)時(shí)間序列參數(shù)化模型主要包括AR模型(自回歸模型),MA模型(移動(dòng)平均模型)和ARMA模型(自回歸移動(dòng)平均模型)。
3.1時(shí)間序列基本特征提取
在今天的社會(huì)環(huán)境下,基于ARMA模型對(duì)數(shù)據(jù)挖掘中的時(shí)間序列分析是當(dāng)前該領(lǐng)域應(yīng)用十分普遍的一種分析方法。利用ARMA模型對(duì)時(shí)間序列進(jìn)行挖掘與分析需要提取時(shí)間序列的基本特征,具體提取步驟如下。首先,借助相關(guān)工具繪制出時(shí)間序列的時(shí)序圖,通過時(shí)序圖對(duì)待分析時(shí)間序列的基本特征仔細(xì)觀察,包括時(shí)間序列的周期性、趨勢(shì)變化等,觀察后對(duì)該時(shí)間序列是否為平穩(wěn)序列初步判定。如果初步判定該時(shí)間序列為非平穩(wěn)序列,則可利用差分運(yùn)算來將此時(shí)間序列本身的周期性與趨勢(shì)變化消除。接著,對(duì)原始時(shí)間序列的自相關(guān)函數(shù)和偏相關(guān)函數(shù)進(jìn)行計(jì)算,并對(duì)自相關(guān)函數(shù)的衰減速度認(rèn)真觀察,同時(shí)通過ADF檢驗(yàn)來確定時(shí)間序列的平穩(wěn)性,若時(shí)間序列為非平穩(wěn)序列,則需要利用差分運(yùn)算將這種不平穩(wěn)性消除,使之變成平穩(wěn)時(shí)間序列。然后,對(duì)變換后時(shí)間序列的自相關(guān)函數(shù)和偏相關(guān)函數(shù)仔細(xì)觀察,同時(shí)結(jié)合赤池信息量準(zhǔn)則(AIC)和貝葉斯信息準(zhǔn)則(BIC),對(duì)ARMA模型與自回歸和移動(dòng)平均相關(guān)的兩個(gè)階數(shù)數(shù)值進(jìn)行準(zhǔn)確確定。最后,利用最小二乘法計(jì)算出ARMA模型兩階數(shù)的估計(jì)值,并用該估計(jì)值來表示時(shí)間序列。
3.2時(shí)間序列的聚類
在數(shù)據(jù)挖掘研究當(dāng)中,聚類算法是一種非常重要的分析方法,目前已被廣泛應(yīng)用到醫(yī)學(xué)、心理學(xué)等諸多領(lǐng)域。若序列中的數(shù)據(jù)隨時(shí)間變化而變化,則這種數(shù)據(jù)稱為動(dòng)態(tài)數(shù)據(jù)。反之,稱為靜態(tài)數(shù)據(jù)。顯然,時(shí)間序列屬于一種典型的動(dòng)態(tài)數(shù)據(jù),而其所具有的最顯著特征即為時(shí)域性。目前,時(shí)間序列的聚類分析主要有兩種思路:通過一定處理將時(shí)間序列映射到靜態(tài)數(shù)據(jù)上,以數(shù)據(jù)轉(zhuǎn)換或特征提取等方式實(shí)現(xiàn)時(shí)間序列的聚類分析,修改靜態(tài)數(shù)據(jù)聚類分析方法,使之也能對(duì)時(shí)間序列進(jìn)行聚類分析。
基于ARMA模型對(duì)時(shí)間序列進(jìn)行聚類分析的一般過程為:首先,利用ARMA模型對(duì)時(shí)間序列進(jìn)行模擬擬合,即將時(shí)間序列用一組向量表示出來,確定模擬擬合后時(shí)間序列的序列個(gè)數(shù);然后,對(duì)系數(shù)向量進(jìn)行標(biāo)準(zhǔn)化處理,以系數(shù)向量的歐氏距離作為相似度測(cè)量,再利用同樣的方法得到首次聚類結(jié)果,從結(jié)果中得出每一序列數(shù)據(jù)在聚類分析中的貢獻(xiàn)率,計(jì)算前n個(gè)貢獻(xiàn)率達(dá)到一定數(shù)值的權(quán)重,并將其與模擬擬合得到的參數(shù)向量相乘;最后,將新得到的系數(shù)向量進(jìn)行標(biāo)準(zhǔn)化處理,利用同樣的聚類方法得出最后的聚類結(jié)果。
由上文分析可知,利用ARMA模型來分析時(shí)間序列,既方便快捷又高效準(zhǔn)確。而基于ARMA模型的時(shí)間序列分析在醫(yī)療、金融、經(jīng)濟(jì)等各行業(yè)中的應(yīng)用,能有效促進(jìn)各行業(yè)發(fā)展,提高各行業(yè)相關(guān)計(jì)算與檢測(cè)的準(zhǔn)確率,是今后數(shù)據(jù)挖掘領(lǐng)域研究的重中之重。
主要參考文獻(xiàn)
[1]孫承杰,劉豐,林磊,等.基于時(shí)間序列聚類和ARMA模型的檢索量預(yù)測(cè)[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011(4).
[2]馬亮亮.一種基于Hilbert-Huang變換和ARMA模型的時(shí)間序列預(yù)測(cè)方法[J].江漢大學(xué)學(xué)報(bào):自然科學(xué)版,2014(1).
[3]曹凈,丁文云,趙黨書,等.基于LSSVM-ARMA模型的基坑變形時(shí)間序列預(yù)測(cè)[J].巖土力學(xué),2014(2).
[4]韓曉飛,丁曉光,張永奇,等.基于ARMA模型的GPS基準(zhǔn)站坐標(biāo)時(shí)間序列分析[J].測(cè)繪與空間地理信息,2014(12).
[收稿日期]2015-12-04
[中圖分類號(hào)]TP311.13
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1673-0194(2016)02-0164-01
doi:10.3969/j.issn.1673 - 0194.2016.02.126