閔 盈 盈
(1. 東北農(nóng)業(yè)大學(xué) 工程學(xué)院,哈爾濱 150001; 2. 哈爾濱商業(yè)大學(xué),哈爾濱 150028)
信息技術(shù)的飛速發(fā)展以及廣泛應(yīng)用,使我們總在尋找數(shù)據(jù)統(tǒng)計(jì)或者數(shù)據(jù)處理的方法,從而產(chǎn)生了數(shù)據(jù)挖掘這一學(xué)科,數(shù)據(jù)挖掘可以應(yīng)用于任何類型的數(shù)據(jù)信息源,有的數(shù)據(jù)中含有時(shí)間的因素,而且時(shí)間之間還會存在有某種聯(lián)系,這樣的一些數(shù)據(jù)被稱為時(shí)間序列,時(shí)間序列目前在很多的領(lǐng)域都得到了應(yīng)用,時(shí)間序列模型也應(yīng)用于數(shù)據(jù)挖掘中,這種基于模型的時(shí)間序列數(shù)據(jù)挖掘具有很好的研究前景,目前的時(shí)間序列模型主要有隱馬爾可夫模型、隱半馬爾可夫模型、BOX-Jenkins回歸、ARIMA模型等方法[1-2].其中ARIMA模型是一種很重要的時(shí)間序列數(shù)據(jù)挖掘模型,但是這個模型往往只是對某個時(shí)間點(diǎn)進(jìn)行研究,事實(shí)上一段時(shí)間往往影響未來的預(yù)測,所以改進(jìn)ARIMA模型使其成為一段時(shí)間的預(yù)測模型有著重要的意義[3-5].
ARIMA(Auto Regressive Moving Average)模型是在1976年由Box和Jenkins等人提出,當(dāng)時(shí)應(yīng)用這個序列模型僅僅是在經(jīng)濟(jì)和金融等領(lǐng)域.可以把模型ARIMA(p,d,q) 的通式寫成以下形式:
yt=φ1yt-1+φ2yt-2+…+φpyt-p+et-(θ1et-1+θ2et-2+…+θqet-q)
(1)
該模型分為前后兩個部分,φ1yt-1+φ2yt-2+…+φpyt-q這部分是自回歸方程,et-(θ1et-1+θ2et-2+…+θqet-q)這部分是誤差移動方程.
這樣式(1)就變?yōu)椋?/p>
利用這個模型會更加精確的給出預(yù)測值.
對于這個改進(jìn)的ARIMA模型可以用圖1描述:
圖1 應(yīng)用ARIMA模型的流程圖
這個預(yù)測以當(dāng)天股票價(jià)格和對未來一天的收益率為基礎(chǔ)來預(yù)測未來的股票價(jià)格,用Java語言實(shí)現(xiàn)了相關(guān)算法,運(yùn)行環(huán)境為:Window XP.實(shí)際的股票價(jià)格序列使用了美國IT界的股票價(jià)格數(shù)據(jù)集.選取了2010年2月10日~2011年9月10日的數(shù)據(jù)來做試驗(yàn),用2011年9月13日~2012年10月1日的數(shù)據(jù)來做驗(yàn)證.
本文對ARIMA模型更新前和更新后的誤差進(jìn)行了比較,如圖2所示.
圖2 模型更新前后的對比
發(fā)現(xiàn)改良后的ARIMA模型誤差更小,說明改良后的ARIMA模型更優(yōu).對于股票的預(yù)測價(jià)格和實(shí)際價(jià)格也進(jìn)行了比較,如圖3所示.
圖3 預(yù)測價(jià)格與實(shí)際價(jià)格對比
應(yīng)用跟心模型對股票的價(jià)格進(jìn)行了預(yù)測,如圖4所示.
從以上圖形可以看出改進(jìn)后的ARIMA模型與改進(jìn)前的ARIMA模型具比較誤差更小,預(yù)測的股票價(jià)格也比較能夠反映實(shí)際的情況.能達(dá)到對于股票的基本預(yù)測,預(yù)測效果還好于改進(jìn)前的ARIMA模型.
圖4 三只股票的預(yù)測價(jià)格
本文以時(shí)間序列的數(shù)據(jù)挖掘模型ARIMA模型為基礎(chǔ),為了完成更好的時(shí)間段上的預(yù)測,對ARIMA模型進(jìn)行了改進(jìn),用改進(jìn)的ARIMA模型對美國IT界的股票價(jià)格進(jìn)行了預(yù)測,并比較了改進(jìn)前后的ARIMA模型的誤差變化,發(fā)現(xiàn)改進(jìn)后的ARIMA模型與改進(jìn)前的ARIMA模型具比較誤差更小,預(yù)測的股票價(jià)格也比較能夠反映實(shí)際的情況,取得了較好的效果,但是ARIMA模型具有短時(shí)性不能進(jìn)行長期的預(yù)測,這方面還有待進(jìn)一步的研究.
參考文獻(xiàn):
[1] 楊 明, 孫志揮, 宋余慶. 快速更新全局頻繁項(xiàng)集[J]. 軟件學(xué)報(bào), 2004, 15(8): 189-1197.
[2] 易 彤, 徐寶文, 叉方君. 一種基于FP樹的挖掘關(guān)聯(lián)規(guī)則的增呈更新算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2004, 27(5): 704-710.
[3] FRANK M C, WALTER S. 數(shù)據(jù)結(jié)構(gòu)與抽象: Java語言版 [M]. 北京: 清華大學(xué)出版社, 2004.
[4] HAN W S, LEE J, PHAM M D,etal. iGraph: A framework for comparisons of disk based graph indexing techniques [J]. Association for Computing Machinery, 2010, 3(1): 449-459.
[5] 許 麗. MATLAB程序設(shè)計(jì)及應(yīng)用[M].北京: 清華大學(xué)出版社, 2011.
[6] 閔盈盈,吳 娟.基于時(shí)間序列的可燃物平均含水率日變化預(yù)測模型[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2013,29(6):678-681.