国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林的LPG價格預測方法

2019-11-06 03:03
關鍵詞:決策樹森林樣本

1.中國科學院計算機網(wǎng)絡信息中心,北京 100190

2.中國科學院大學,北京 100049

引言

目前我國沿海發(fā)達地區(qū)液化氣需求旺盛,國內(nèi)資源供不應求,液化氣進出口貿(mào)易活躍,市場競爭激烈。對于各個液化氣公司來說,在自有大型存儲庫建成前,無法對市場價格進行有效預判成為業(yè)務突破的一大瓶頸,僅靠認為經(jīng)驗,缺乏信息支撐,液化氣進口貿(mào)易金額巨大,判斷失誤將造成巨額損失,操作風險極大。同時液化氣價格,特別是進口氣價格,涉及國內(nèi)外原油市場、物流運輸、地緣政治等眾多影響因素,能夠第一時間獲取相關信息并進行分析處理,最終通過運算預測價格,顯得尤為關鍵。雖然很多公司借助行業(yè)網(wǎng)站開展對國外貨源、國際船舶、國內(nèi)市場等信息進行跟蹤收集,人為預測價格,但信息渠道缺乏集成管理,來源分散,過程繁瑣,導致信息缺乏時效性,在經(jīng)營決策中所起的作用相對有限。綜上所訴,目前急需開發(fā)一套液化氣價格預測分析系統(tǒng),通過收集影響價格變動的主要因素,建立價格預測模型,實現(xiàn)價格預測,為經(jīng)營管理提供信息化保障和支撐,進而促進進口氣業(yè)務良好可持續(xù)發(fā)展。

現(xiàn)在有很多方法被用來預測石油價格,石油價格預測主要采用機器學習,神經(jīng)網(wǎng)絡和時間序列模型三種技術,分別或多種組合進行預測。Neha Sehgal和Krishan K.Pandey 在2014年提出了一種方法,包括兩個階段,稱為MI3 算法。該算法被用來確定影響油價的參數(shù),結果證實該算法采用級聯(lián)神經(jīng)網(wǎng)絡,多層感知神經(jīng)網(wǎng)絡和一般回歸神經(jīng)網(wǎng)絡用于預測,取得了與其他傳統(tǒng)方法相比更好的效果[1]。2013年,申玄俊等人采用半監(jiān)督學習方法研究經(jīng)濟因素對石油價格的影響,并利用該方法研究了價格走勢的變化算法[2]。Hassan Mohammadi and Lixian Su 用多種 ARIMAGARCH 模型預測從 1996年1月到2009年10月世界范圍內(nèi)的一些石油市場的每周的石油價格,結果顯示 ARIMA-GARCH 模型與其它方法對比有更好地效果[3]。I.Haider,S.Kulkarni and H.Pan 提出了一個前饋式人工神經(jīng)網(wǎng)絡,由三層網(wǎng)絡組成,用于短期預測石油價格。結果顯示即使是含有非線性或噪聲的數(shù)據(jù),其精度也達到了很高的水平[4]。Edmundo G.de Souza e Silva 等人研究了使用非線性時間序列模型來預測未來石油價格的波動。他們利用隱馬爾可夫模型(HMM)發(fā)展了一套新的預測方法,用來作為一種分析影響石油的因素的輔助決策機制[5]。

近年來,機器學習算法不斷被應用在銀行、股市、醫(yī)療、電子商務等諸多領域[6,7,8,9],并取得了顯著的效果。在眾多機器學習模型中,隨機森林(RandomForest)[10]的表現(xiàn)尤其突出,迅速成為多種分類回歸任務中最流行的框架之一。隨機森林算法基于決策樹算法,決策樹算法計算量小,速度快,并且具有很強的可解釋性,比較適合處理有數(shù)據(jù)不完整的樣本,它能夠處理不相關的特征,擅長對人,地點,事物的一系列不同特征和性質(zhì)進行評估。隨機森林算法就是構建多顆決策樹,由于在每次劃分時只考慮一部分的屬性,因此它在大型數(shù)據(jù)庫上非常有效,隨機森林算法還給出了變量重要性的內(nèi)在評估,對于不平衡樣本分類可以平衡誤差,可以計算各實例的親近度,對于數(shù)據(jù)挖掘,檢測離群點和數(shù)據(jù)可視化非常有用,但它在某些噪音較大的數(shù)據(jù)時可能會出現(xiàn)過擬合?;陔S機森林的種種特點和在價格預測方面的良好表現(xiàn),本文選擇基于隨機森林模型進行液化氣價格的預測,最終結果達到良好的準確度和實時性,能夠幫助液化氣公司進行自我管理,提高其液化氣盈利水平。

1 LPG價格預測框架

1.1 問題定義

LPG價格預測主要是借助人工智能技術選擇符合LPG行業(yè)特點的預測模型,根據(jù)影響 LPG價格形成的數(shù)據(jù)之間存在的本質(zhì)關聯(lián),進行數(shù)據(jù)擬合,模型訓練,模型學習,最終提供 7天、10天、15天等不等周期的價格預測。

1.2 隨機森林模型

決策樹是一個樹結構(其可以是一個二叉樹或非叉樹)。它的每個非葉節(jié)點表示數(shù)據(jù)的一個特征屬性的劃分。每個分支表示特征屬性在一定范圍的值的輸出,并且每個葉節(jié)點存儲類別或輸出值。使用決策樹決策過程是從根節(jié)點開始,測試在輸入數(shù)據(jù)中的對應特征的屬性,并根據(jù)它們的值選擇輸出分支,直到葉節(jié)點到達,并存儲最后的類別或值在葉節(jié)點被用作判定結果。

隨機森林,顧名思義,是以隨機的方式建立的森林。森林是由許多決策樹組成的。隨機森林的每個決策樹之間沒有相關性。隨機森林形成后,當一個新的輸入采樣輸入時,讓林中每個決策樹進行單獨判斷。對于分類模型,其類別被選擇最多的一類,就是預測所述樣品的類別;對于回歸模型,預測結果取所有決策樹預測的結果的平均值。圖1為隨機森林模型圖。LPG價格預測的研究屬于回歸預測問題,隨機森林回歸的基本思想是:首先利用自助抽樣法,每次都有放回地從原始數(shù)據(jù)集中抽取與原始數(shù)據(jù)集數(shù)量相等的樣本,一共抽取 B個樣本集;然后對 B個樣本集分別構建 B 棵樹,得到B個結果;最后,對這 B個結果取平均值得到最終的預測結果。

由上述隨機森林算法可得,隨機森林的隨機性主要體現(xiàn)在如下兩方面:(1)bootstrap 抽樣產(chǎn)生的樣本隨機性。關于LPG價格數(shù)據(jù),通過 bootstrap 抽樣,假設我們得到500個訓練集,每個訓練集中將近 37%的數(shù)據(jù)不會出現(xiàn),訓練集之間兩兩差異很大,由此對數(shù)據(jù)進行了充分利用;(2)在每個訓練集上選擇特征的隨機性。在每個訓練集上每一步進行特征選擇時,不同于bagging 選取所有變量的方法,隨機森林會根據(jù)變量的個數(shù)確定選擇幾個特征。本項目關于LPG價格數(shù)據(jù)的46個變量中,每一棵樹生成時每一步劃分我們選擇了 7個變量,這 7個變量根據(jù)最小均方差計算確定最優(yōu)的劃分變量,生成不剪枝的決策樹,依次生成一系列不剪枝決策樹,相對于bagging 方法,通過這樣的特征選取進一步提高了數(shù)據(jù)的利用率,從而提高了預測精度。由這兩點的隨機性決定著隨機森林的預測效果。

圖1 隨機森林模型圖Fig.1 Random forest model chart

1.3 特征工程

與 LPG價格相關的特征項一共分為國際指標,競爭對手數(shù)據(jù)和自身歷史數(shù)據(jù)三類。其中國際指標又分為原油價格,cp 指數(shù),進口其成本,現(xiàn)貨價格,交易貼水,運費共 20 項,競爭對手數(shù)據(jù)有 17 項,自身歷史數(shù)據(jù)選取當天和前一周的數(shù)據(jù)共 8 項,再加上時間序列一共是 46個輸入特征項。表1 展示了所有特征項。

表1 所有輸入特征項Table1 All input characteristics

為了更好地學習這些特征與 LPG價格之間的關系,將國際指標,競爭對手數(shù)據(jù)和自身歷史數(shù)據(jù)三組特征數(shù)據(jù)分別作為輸入特征輸入到模型進行訓練,再將所有特征數(shù)據(jù)輸入到模型進行訓練,通過比較得到的四組測試結果來系統(tǒng)地分析這些特征對 LPG價格的影響和關聯(lián)度。

1.4 基于隨機森林的LPG價格預測

首先輸入樣本數(shù)據(jù)集,再進行數(shù)據(jù)預處理,將缺失的特征值數(shù)據(jù)填充為0;應用 bootstrap 法有放回地隨機抽取 200個新的樣本集(bootstrap 每次有放回地抽取與原始數(shù)據(jù)集等量的數(shù)據(jù)作為樣本集,樣本集中存在重復數(shù)據(jù)),并由此構建 200 棵決策樹,每次未被抽到的樣本組成了 k個袋外數(shù)據(jù)(袋外數(shù)據(jù)用作驗證集);樣本中有 M個特征變量,在每一棵樹的每個節(jié)點處隨機抽取個變量,然后在個特征中通過最小均方差計算(最小均方差:對于任意劃分特征 A,對應的任意劃分點 s 兩邊劃分成的數(shù)據(jù)集D1和D2,求出使D1和D2各自集合的均方差最小,同時D1和D2的均方差之和最小所對應的特征和特征值劃分點)確定一個合適的變量,得到相應的分割;每個樹生長到最大,而沒有任何修整,重復上述步驟,直到最后產(chǎn)生 200個決策樹;200個決策樹組成隨機森林后,新的數(shù)據(jù)輸入由隨機森林進行預測,最終的預測值取所有的決策樹的平均預測值。

2 實驗數(shù)據(jù)

本實驗的實驗數(shù)據(jù)來源于金聯(lián)創(chuàng)提供的2016年1月- 2019年2月的數(shù)據(jù)(單位是美元),共 1147條。其中,前 1000條數(shù)據(jù)劃分為訓練集,剩下的147條數(shù)據(jù)劃分為測試集。

數(shù)據(jù)中的原油價格,進口氣成本,現(xiàn)貨價格,交易貼水和運費是每周一到周五更新;cp 指數(shù)是月初更新;競爭對手的數(shù)據(jù)是每日更新。缺失的數(shù)據(jù)用零填充。

3 實驗結果與分析

3.1 評價指標

在本研究中,采用 MAE(平均絕對誤差)作為驗證指標,具體的定義如下:

平均絕對誤差 MAE 是絕對誤差的平均值,在回歸模型中,平均絕對誤差能更好地反應預測值誤差的實際數(shù)量情況。

在本實驗中,通過預測價格和實際價格的平均絕對誤差可以直觀地看到模型的預測效果,從而判斷結果是否達到預期,也為特征的選取提供了依據(jù)。

3.2 實驗結果

表2和圖2-5 展示了輸入四種類型的特征進入隨機森林模型進行訓練得到的結果,可以看出,輸入所有指標數(shù)據(jù),輸入競爭對手數(shù)據(jù)和輸入歷史數(shù)據(jù)作為輸入特征項得到的預測結果基本相同,都是隨著預測天數(shù)的增加平均絕對誤差也越來越大,但在前七天還是達到了不錯的預測效果。相反,輸入國際指標作為輸入特征項訓練模型得到的預測結果則隨著預測天數(shù)的增加平均絕對誤差反而在減小,直到穩(wěn)定在230左右,而且在七天之后的預測結果優(yōu)于其它三種。說明競爭對手的數(shù)據(jù)和自身的歷史數(shù)據(jù)與未來短期內(nèi)的LPG價格在微觀上相關度很大,模型可以很好地擬合數(shù)據(jù)做出相對精確的預測,但從長期宏觀來看,LPG價格趨勢與國際指標的趨勢大體基本保持一致,所以預測未來十天甚至十五天的價格時反而要比預測未來幾天的價格更精確。

表2 測試集上的MAETable2 MAE on the test set

圖2 未來第1天的預測結果Fig.2 ResultofpredictingLPGpriceofthe next day

圖3 未來第7天的預測結果Fig.3 ResultofpredictingLPGpriceofthe 7th day in the future

圖4 未來第10天的預測結果Fig.4 Resultofpredictingthe tenth day in the future

圖5 未來第15天的預測結果現(xiàn)Fig.5 Resultofpredictingthe 15th day in the future

根據(jù)最后的預測結果,最終決定用采用所有特征數(shù)據(jù)作為輸入特征值進行訓練得到的模型來預測未來 7天的LPG價格,用采用國際指標數(shù)據(jù)作為輸入特征值進行訓練得到的模型來預測未來 8-15天的LPG價格。

此外,我們還對各種指標對模型的貢獻度進行了分析。當輸入特征為全部特征數(shù)據(jù)時,對模型的貢獻度排名前五的指標除了當天的LPG價格外就是競爭對手的LPG價格,并且隨著預測天數(shù)的增加競爭對手的貢獻度越來越大,說明在所有的指標中,除了自身 LPG價格,競爭對手的LPG價格與預測的LPG價格相關度最大,這也是符合實際邏輯的,現(xiàn)實中各個公司的LPG價格往往相差不大,并且它們也會參考競爭對手的LPG價格來制定自己的LPG價格;當輸入特征只有競爭對手的數(shù)據(jù)時,對模型的貢獻度最大的是中燃廣西的數(shù)據(jù),說明華南-槽批與中燃廣西的LPG價格是最接近的;當輸入特征只有華南-槽批自身的歷史數(shù)據(jù)時,只有當天的LPG價格對模型的貢獻度最大,其余天數(shù)的貢獻度幾乎可以忽略不計,說明歷史價格只取最近一天的歷史(也就是當天的價格)就足夠了;當輸入特征只有國際指標的數(shù)據(jù)時,對模型的貢獻度較高的是 cp 丁烷丙烷月度合同價和北海丁烷丙烷合同價,說明在國際指標中這些指標最能反映價格的變化趨勢。

4 結語

本文以華南-槽批 LPG價格為例,為了預測未來7天,10天,15天的LPG價格,使用了隨機森林模型進行訓練和預測,為了進一步分析不同指標對 LPG價格的影響和相關性,又對特征進行了特征選擇,將特征分為四種不同類型分別作為輸入特征輸入到模型進行訓練,最后對各種特征與 LPG價格的關系進行了詳細的分析和說明。

該實驗的預測結果為15天平均 MAE195,達到了預期的效果,不足之處就是結果出現(xiàn)了一定的過擬合。根本原因是數(shù)據(jù)集不夠大,訓練集與測試集數(shù)據(jù)分布存在一定的差異,解決方案就是擴大數(shù)據(jù)集,保證訓練集與測試集數(shù)據(jù)分布一致。后續(xù)會增加數(shù)據(jù)集進行進一步的訓練。

LPG價格預測對于LPG公司提高 LPG 營銷管理水平,增強對 LPG價格的分析判斷能力,進而提高盈利水平具有非常重要的意義。在下一步工作中,我們會將本模型部署到LPG價格預測系統(tǒng)中,作為LPG價格分析和日常監(jiān)控的輔助手段,同時嘗試使用更多模型進一步提高準確度。

猜你喜歡
決策樹森林樣本
用樣本估計總體復習點撥
決策樹和隨機森林方法在管理決策中的應用
隨機微分方程的樣本Lyapunov二次型估計
哈Q森林
哈Q森林
哈Q森林
基于決策樹的出租車乘客出行目的識別
村企共贏的樣本
哈Q森林
基于模糊關聯(lián)規(guī)則和決策樹的圖像自動標注
张家港市| 曲靖市| 浏阳市| 当阳市| 石楼县| 左贡县| 阳原县| 天全县| 偏关县| 自贡市| 托里县| 长海县| 加查县| 通州区| 靖州| 华亭县| 宕昌县| 石阡县| 南澳县| 江门市| 湘潭县| 南京市| 桃园市| 乐昌市| 翼城县| 勐海县| 丹东市| 遂溪县| 乌兰察布市| 杭锦后旗| 醴陵市| 陇川县| 彰化县| 穆棱市| 甘洛县| 文昌市| 陇南市| 普兰县| 永州市| 汾阳市| 泾川县|