国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于農(nóng)產(chǎn)品市場(chǎng)價(jià)格的數(shù)據(jù)挖掘預(yù)測(cè)分析*

2021-04-28 08:05:34趙宇蘭
山西電子技術(shù) 2021年2期
關(guān)鍵詞:銷售價(jià)格單位根爬蟲

趙宇蘭

(山西大學(xué)商務(wù)學(xué)院信息學(xué)院,山西 太原 030031)

0 引言

隨著大數(shù)據(jù)時(shí)代的到來(lái),人們對(duì)數(shù)據(jù)的獲取、統(tǒng)計(jì)的需求日益增大。爬蟲技術(shù)的不斷成熟為人們獲取互聯(lián)網(wǎng)數(shù)據(jù)提供了極大的便利。在農(nóng)業(yè)領(lǐng)域,人們開(kāi)始將農(nóng)業(yè)數(shù)據(jù)與大數(shù)據(jù)技術(shù)相結(jié)合,運(yùn)用大數(shù)據(jù)的采集、存儲(chǔ)、分析以及可視化等技術(shù),幫助人們快速挖掘、分析出數(shù)據(jù)背后有價(jià)值的信息,降低農(nóng)產(chǎn)品生產(chǎn)、銷售過(guò)程中不必要的風(fēng)險(xiǎn)。本文以中國(guó)飼料行業(yè)信息網(wǎng)中玉米的銷售價(jià)格為數(shù)據(jù)源,采用網(wǎng)絡(luò)爬蟲軟件GeeSooker進(jìn)行數(shù)據(jù)采集和存儲(chǔ),以玉米市場(chǎng)價(jià)格的歷史時(shí)間序列建立價(jià)格預(yù)測(cè)的ARIMA模型[1],進(jìn)一步分析玉米市場(chǎng)價(jià)格的波動(dòng)狀況和變化趨勢(shì)。

1 預(yù)測(cè)技術(shù)的概述

1.1 網(wǎng)絡(luò)爬蟲技術(shù)

農(nóng)產(chǎn)品市場(chǎng)價(jià)格挖掘預(yù)測(cè)是基于互聯(lián)網(wǎng)農(nóng)業(yè)數(shù)據(jù),為了滿足農(nóng)產(chǎn)品市場(chǎng)價(jià)格數(shù)據(jù)挖掘預(yù)測(cè)的需求,本文采用網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)獲取過(guò)程如圖1所示。

圖1 數(shù)據(jù)獲取組成圖

其中,爬蟲引擎[2]用于處理爬蟲系統(tǒng)的數(shù)據(jù)流處理并觸發(fā)事務(wù);調(diào)度器用于接受引擎發(fā)送的請(qǐng)求,將其放入處理隊(duì)列,并在引擎再次請(qǐng)求時(shí)返回;數(shù)據(jù)清洗模塊是將下載下來(lái)的信息進(jìn)行處理,剔除無(wú)效信息和冗余信息;下載器用于下載網(wǎng)站頁(yè)面內(nèi)容,并將其傳遞給下一個(gè)處理業(yè)務(wù);爬蟲規(guī)則用來(lái)指定下載網(wǎng)頁(yè),編寫用于分析網(wǎng)站源碼并聽(tīng)取信息。

1.2 數(shù)據(jù)的采集過(guò)程

本文采用GeeSooker爬蟲瀏覽器對(duì)中國(guó)飼料信息網(wǎng)的2018年1月到2019年2月玉米銷售價(jià)格進(jìn)行采集,采集過(guò)程[3]如下:

1) 加載網(wǎng)頁(yè),定義加載規(guī)則、主題;

2) 點(diǎn)選待采信息生成標(biāo)簽,抓取內(nèi)容并提交;

3) 測(cè)試,保存規(guī)則,開(kāi)始爬取數(shù)據(jù);

4) Data Scrape rworks文件夾中查看數(shù)據(jù)。

1.3 數(shù)據(jù)清洗

數(shù)據(jù)清洗是整個(gè)數(shù)據(jù)分析過(guò)程中不可或缺的一部分,結(jié)果的質(zhì)量與模型的效果和最終結(jié)論直接相關(guān)。本文重點(diǎn)對(duì)采集數(shù)據(jù)進(jìn)行缺失值清洗、邏輯錯(cuò)誤清洗和關(guān)聯(lián)性驗(yàn)證,最終得到表1中2018/1/2~2019/2/28玉米的銷售價(jià)格數(shù)據(jù)。

表1 玉米的銷售價(jià)格數(shù)據(jù)片段

2 模型建立的分析

2.1 ARIMA模型

ARIMA模型是差分整合移動(dòng)平均自回歸模型,它是時(shí)間序列預(yù)測(cè)分析方法之一。該模型可以通過(guò)時(shí)間序列數(shù)據(jù)了解數(shù)據(jù)或預(yù)測(cè)系列中的未來(lái)預(yù)測(cè)點(diǎn)。在數(shù)據(jù)顯示非平穩(wěn)性證據(jù)的一些情況下,可以應(yīng)用初始差異步驟一次或多次消除非平穩(wěn)性。

2.2 ARIMA模型運(yùn)用流程

首先獲得時(shí)間序列數(shù)據(jù);觀察模型可視化得到的原始時(shí)間序列圖是否平穩(wěn),如果不平穩(wěn),可通過(guò)差分運(yùn)算平穩(wěn)化;通過(guò)差分運(yùn)算后得到新的自相關(guān)圖和偏自相關(guān)圖來(lái)驗(yàn)證模型的穩(wěn)定性;對(duì)模型進(jìn)行參數(shù)檢驗(yàn),使結(jié)果更具合理性;利用已通過(guò)檢驗(yàn)的模型進(jìn)行預(yù)測(cè)。

差分平穩(wěn)時(shí)間序列建模步驟如圖2所示。

“Bin”這個(gè)詞原指酒窖里存儲(chǔ)葡萄酒的隔間或者格子,常以不同的序號(hào)來(lái)標(biāo)記不同的隔間,因此,澳大利亞很多酒莊都喜歡用“Bin”+序號(hào)來(lái)為自己的酒款命名。后來(lái),由于易記又順口,隔間的序號(hào)慢慢成為葡萄酒的代號(hào)。1959年,Bin 28成為Penfolds Bin系列葡萄酒第一個(gè)以此命名的葡萄酒。自此以后,Bin組合層出,為消費(fèi)者所記住和熟知,成了Penfolds旗下最為知名的受歡迎的一個(gè)系列。其中,價(jià)格由低到高,最受歡迎的王牌產(chǎn)品有:

圖2 差分平穩(wěn)時(shí)間序列建模步驟

3 模型的實(shí)現(xiàn)

3.1 建立模型

首先,利用Python語(yǔ)言將抓取數(shù)據(jù)對(duì)接[4],為后文模型的建立做鋪墊,具體代碼如下所示。

# arima時(shí)序模型

# 參數(shù)初始化

discfile = 'sun_C0.csv'

forecastnum = 31

# 讀取數(shù)據(jù),指定日期列為指標(biāo),Pandas自動(dòng)將“日期”列識(shí)別名Datetime格式

data = pd.read_csv(discfile, index_col='date')

date_range = pd.date_range(start=min(data.index), end=max(data.index))

date_df = pd.DataFrame(index=date_range)

data = pd.merge(date_df, data, left_index=True, right_index=True, how=' left')

data = data.fillna(method=' ffill')

print(data)

從圖3原始序列的時(shí)序圖可以看出2018年1月~2019年2月玉米的歷史銷售價(jià)格波動(dòng)情況呈現(xiàn)上升趨勢(shì),說(shuō)明模型沒(méi)有達(dá)到平穩(wěn)化要求,需要進(jìn)行處理。進(jìn)一步利用Python語(yǔ)言建立原始序列的自相關(guān)圖。圖4原始序列的自相關(guān)圖顯示玉米銷售價(jià)格波動(dòng)具有很強(qiáng)的非平穩(wěn)性。

圖3 原始序列的時(shí)序圖

圖4 原始序列的自相關(guān)圖

通過(guò)一階差分運(yùn)算對(duì)原始數(shù)據(jù)序列進(jìn)行平穩(wěn)化處理,使玉米銷售價(jià)格波動(dòng)趨向平穩(wěn),如圖5所示。

圖5 一階差分之后序列的時(shí)序圖

利用差分運(yùn)算轉(zhuǎn)化得到新的自相關(guān)圖和偏自相關(guān)圖,如圖6和圖7。結(jié)果顯示玉米銷售價(jià)格波動(dòng)趨向穩(wěn)定。

圖6 一階差分之后序列的自相關(guān)圖

圖7 一階差分之后序列的偏自相關(guān)圖

3.2 模型檢驗(yàn)

利用表2原始序列的單位根檢驗(yàn)所示,進(jìn)一步證明數(shù)據(jù)趨向穩(wěn)定性得到可靠的模型來(lái)提前預(yù)測(cè)短期玉米銷售價(jià)格的實(shí)際情況,為農(nóng)業(yè)預(yù)測(cè)合理數(shù)據(jù),避免供大于求或供不應(yīng)求的現(xiàn)象。差分序列的單位根檢驗(yàn)如表3所示。

表2 原始序列的單位根檢驗(yàn)

表3 差分序列的單位根檢驗(yàn)

表2和表3數(shù)據(jù)顯示,原始序列的單位根檢驗(yàn)沒(méi)有使模型平穩(wěn)化。然后通過(guò)差分序列之后得到的單位根檢驗(yàn)數(shù)據(jù)逐漸趨向平穩(wěn),通過(guò)P值可以看到其結(jié)果小于0.05,證明新的序列已達(dá)到平穩(wěn)。

3.3 模型預(yù)測(cè)

建立的ARIMA模型進(jìn)行短期預(yù)測(cè),為了得到可靠合理的數(shù)據(jù),使誤差降到最小,我們只能做未來(lái)1個(gè)月的預(yù)測(cè)[5,6]。所以應(yīng)用ARIMA模型對(duì)2019/3/1~2019/3/31玉米的銷售價(jià)格數(shù)據(jù)做為期31天的預(yù)測(cè),結(jié)果如表2所示。

表4 玉米的銷售價(jià)格數(shù)據(jù)

4 結(jié)語(yǔ)

本文利用Python語(yǔ)言進(jìn)行程序?qū)崿F(xiàn)ARIMA模型,實(shí)現(xiàn)了玉米銷售價(jià)格的預(yù)測(cè)。通過(guò)建立模型得到可視化預(yù)測(cè)圖表以驗(yàn)證模型的可靠性,并形象直觀表達(dá)價(jià)格波動(dòng)情況,得到為期1個(gè)月的短期預(yù)測(cè)數(shù)據(jù)。該模型的優(yōu)點(diǎn)是,在短期預(yù)測(cè)中誤差較小、數(shù)據(jù)變化較穩(wěn)定。但在長(zhǎng)期預(yù)測(cè)中,由于時(shí)間延遲,數(shù)據(jù)波動(dòng)較大,預(yù)測(cè)結(jié)果尚不穩(wěn)定。

猜你喜歡
銷售價(jià)格單位根爬蟲
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
70大中城市房?jī)r(jià)同比下跌城市增多
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
STAR模型下退勢(shì)單位根檢驗(yàn)統(tǒng)計(jì)量的比較
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
基于MCMC算法的貝葉斯面板單位根檢驗(yàn)
4月份大型零售企業(yè)服裝銷售價(jià)格同比下降12.3%零售額同比微降
銷售價(jià)格受產(chǎn)出率影響下訂單農(nóng)業(yè)的定價(jià)模型
ESTAR模型的單位根檢驗(yàn)統(tǒng)計(jì)量及其功效比較
科技| 小金县| 宜良县| 庆安县| 许昌市| 鞍山市| 太湖县| 青海省| 大同市| 墨脱县| 利川市| 永宁县| 徐汇区| 连江县| 衡阳市| 新营市| 洪洞县| 神农架林区| 八宿县| 衡水市| 承德市| 武邑县| 乌兰县| 克拉玛依市| 阿拉善盟| 彩票| 京山县| 兰溪市| 石嘴山市| 长丰县| 西贡区| 襄汾县| 永泰县| 从江县| 综艺| 南昌市| 牟定县| 南皮县| 兴隆县| 大同市| 宽甸|