国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)算法的廣東省假期旅游數(shù)據(jù)挖掘

2019-11-18 07:04:44陳懷娜曾毓芬鄧慧瓊連宗勝周燕
電子技術(shù)與軟件工程 2019年18期
關(guān)鍵詞:路況空氣質(zhì)量景區(qū)

文/陳懷娜 曾毓芬 鄧慧瓊 連宗勝 周燕

隨著旅游電子商務(wù)的蓬勃發(fā)展,互聯(lián)網(wǎng)成為人們獲取景點(diǎn)詳細(xì)信息、交通、天氣信息和作出旅游決策的重要途徑,同時(shí),網(wǎng)上巨大的信息量以及摻雜其中的商家廣告使得出行者難以獲取高效真實(shí)的信息,對(duì)這些信息加以正當(dāng)利用 我們可以提取許多有用的相關(guān)信息。假期出行需要綜合考慮多方面的因素,例如旅游景點(diǎn)的客流量情況、出行當(dāng)天的天氣環(huán)境狀況以及交通路況等。因而,對(duì)假期出行的預(yù)測(cè)又可以概括為對(duì)景區(qū)客流量情況、環(huán)境狀況以及交通路況等的預(yù)測(cè)。

近年來(lái),人工智能不斷有新的進(jìn)展和突破,機(jī)器學(xué)習(xí)發(fā)揮了非常重要的作用。當(dāng)下,社會(huì)各個(gè)領(lǐng)域都在利用機(jī)器學(xué)習(xí)來(lái)解決疑難問(wèn)題,機(jī)器學(xué)習(xí)成為了炙手可熱的處理手段。對(duì)此,本文亦運(yùn)用了隨機(jī)森林、SUV、Logistic、決策樹(shù)、樸素貝葉斯、KNN、BP神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法對(duì)交通路況、環(huán)境情況進(jìn)行分類預(yù)測(cè),并從中找出最優(yōu)預(yù)測(cè)方法。最后,綜合考慮得到的景區(qū)客流量、交通路況以及環(huán)境情況等預(yù)測(cè)數(shù)據(jù),提出對(duì)某一景點(diǎn)是否推薦假期出行的建議。

1 數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理

1.1 旅游數(shù)據(jù)采集

使用協(xié)程實(shí)現(xiàn)高并發(fā)實(shí)時(shí)數(shù)據(jù)采集,并部署至阿里云服務(wù)器實(shí)現(xiàn)24小時(shí)采集,將數(shù)據(jù)實(shí)時(shí)存儲(chǔ)到Mysql。用requests和BeautifulSoup網(wǎng)絡(luò)爬蟲(chóng)的頁(yè)面解析方法對(duì)指定景區(qū)實(shí)時(shí)客流量進(jìn)行數(shù)據(jù)采集。首先根據(jù)百度出行大數(shù)據(jù)網(wǎng)站的特性,在采集開(kāi)始前設(shè)置了反爬蟲(chóng)機(jī)制,即利用不斷變化的UserAgent和IP來(lái)避免百度對(duì)相同ID訪問(wèn)的限制,并部署到阿里云實(shí)現(xiàn)實(shí)時(shí)自動(dòng)爬取,減少重復(fù)的工作量。接下來(lái)在隱匿狀態(tài)下根據(jù)100個(gè)不同景區(qū)PID設(shè)置每間隔30分鐘邊爬取一次相應(yīng)景區(qū)客流量實(shí)時(shí)數(shù)據(jù)。根據(jù)景區(qū)所在城市,利用requests和XPath對(duì)高德地圖交通模塊進(jìn)行數(shù)據(jù)實(shí)時(shí)交通擁堵指數(shù)數(shù)據(jù)爬取。

使用進(jìn)程+線程對(duì)歷史天氣數(shù)據(jù)進(jìn)行采集,同時(shí)在服務(wù)器實(shí)時(shí)采集天氣數(shù)據(jù)。利用requests和BeautifulSoup對(duì)中國(guó)天氣進(jìn)行數(shù)據(jù)爬取,獲取景區(qū)所在城市過(guò)去十年的所有天氣數(shù)據(jù)、空氣污染數(shù)據(jù)與當(dāng)前實(shí)時(shí)數(shù)據(jù)。①景區(qū)天氣情況數(shù)據(jù)采集。

1.2 簡(jiǎn)單數(shù)據(jù)挖掘

從圖1可以看出,國(guó)慶前后景區(qū)旅客流量趨勢(shì)大體很一致,都在節(jié)日前有算是流量下降,都在10月2日左右達(dá)到峰值,而白云山這個(gè)景點(diǎn)趨勢(shì)有所不同,僅在假日前出現(xiàn)了流量下降,之后一直維持在較高的流量水平上。這一點(diǎn)與白云山作為周圍街坊散步健身的去處有較大的關(guān)系。從箱線圖分析可看出,絕大部分景點(diǎn)(除白云山)的人流量分布右偏,且存在離群點(diǎn)。這提醒我們?cè)诮酉聛?lái)建模時(shí)應(yīng)該考慮到離群點(diǎn)對(duì)模型的影響。

1.3 數(shù)據(jù)預(yù)處理

由于需要對(duì)交通路況與空氣質(zhì)量等情況進(jìn)行分類預(yù)測(cè),故首先應(yīng)對(duì)作為預(yù)測(cè)因變量的交通指數(shù)與空質(zhì)量AQI指數(shù)數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)化處理,將它們轉(zhuǎn)化為二分類因子變量。除此之外,在進(jìn)行KNN算法分類預(yù)測(cè)以及BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)時(shí),為確保結(jié)果的精準(zhǔn)度需對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。根據(jù)挖掘收集到的數(shù)據(jù)可知,分類數(shù)據(jù)的樣本量十分不均衡,因此,應(yīng)在分類預(yù)測(cè)前對(duì)數(shù)據(jù)進(jìn)行平衡處理,這里基于R語(yǔ)言,我們使用了SMOTE方法平衡兩類樣本,并在數(shù)據(jù)平衡后,使用LOF方法刪除異常點(diǎn),作為最終分類預(yù)測(cè)數(shù)據(jù)。

對(duì)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練集與測(cè)試集劃分,隨機(jī)抽取70%的數(shù)據(jù)作為分類預(yù)測(cè)訓(xùn)練樣本,剩余30%的數(shù)據(jù)則用于測(cè)試檢驗(yàn)。

2 數(shù)據(jù)挖掘分類預(yù)測(cè)

2.1 數(shù)據(jù)挖掘分類預(yù)測(cè)

對(duì)于交通路況以及空氣質(zhì)量,本文主要采用了Logistic回歸、非線性支持向量機(jī)、決策樹(shù)(ID3/CART/C5.0/條件推斷)、隨機(jī)森林、樸素貝葉斯、KNN的9種機(jī)器學(xué)習(xí)分類預(yù)測(cè)算法以及BP神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)預(yù)測(cè)算法進(jìn)行預(yù)測(cè)。

本文運(yùn)用R語(yǔ)言自帶的DMwR、randomForest、party、kknn以及pROC等程序包對(duì)東莞市區(qū)的交通路況、空氣質(zhì)量數(shù)據(jù)進(jìn)行預(yù)測(cè)。分別采用上述機(jī)器學(xué)習(xí)算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,并利用測(cè)試集對(duì)比預(yù)測(cè)結(jié)果,通過(guò)多個(gè)評(píng)價(jià)指標(biāo)綜合評(píng)價(jià)分類預(yù)測(cè)模型。經(jīng)過(guò)對(duì)比,返回效果最優(yōu)的分類分類器,并不斷調(diào)整參數(shù)設(shè)置,直至訓(xùn)練出最優(yōu)分類預(yù)測(cè)模型。

對(duì)于交通路況的預(yù)測(cè),分別采用了橫向預(yù)測(cè)以及縱向預(yù)測(cè)兩種預(yù)測(cè)形式。其中,橫向預(yù)測(cè)細(xì)分為以同一天每5個(gè)時(shí)間段預(yù)測(cè)下一個(gè)時(shí)間段(短期預(yù)測(cè))以及以每10個(gè)時(shí)間段預(yù)測(cè)下一個(gè)時(shí)間段(長(zhǎng)期預(yù)測(cè))的交通路況;縱向預(yù)測(cè)細(xì)分為以同一時(shí)間段下以每5天預(yù)測(cè)下一天該時(shí)間段(短期預(yù)測(cè))以及以每10天預(yù)測(cè)下一天該時(shí)間段(長(zhǎng)期預(yù)測(cè))的交通路況。

對(duì)于空氣質(zhì)量的預(yù)測(cè),采用了縱向預(yù)測(cè)形式。其中,縱向預(yù)測(cè)同樣分為短期和長(zhǎng)期預(yù)測(cè)。對(duì)于空氣質(zhì)量的預(yù)測(cè),采用了縱向預(yù)測(cè)形式。

2.2 預(yù)測(cè)效果評(píng)價(jià)

圖1:各景點(diǎn)國(guó)慶前后旅客流量折線圖與箱線圖

選擇東莞市區(qū)的數(shù)據(jù)為分類預(yù)測(cè)研究對(duì)象,以預(yù)測(cè)的準(zhǔn)確率、AUC指標(biāo)值以及平均相對(duì)誤差作為算法預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)。

總體上交通路況的橫向預(yù)測(cè)效果優(yōu)于縱向預(yù)測(cè),長(zhǎng)期預(yù)測(cè)效果優(yōu)于短期預(yù)測(cè)。對(duì)于BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),雖然預(yù)測(cè)的平均相對(duì)誤差均較小,但根據(jù)觀察,實(shí)際上存在誤差有小有大的情況,即預(yù)測(cè)效果不夠均衡,故運(yùn)用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)交通路況不夠合理。綜合準(zhǔn)確率與AUC指標(biāo)值可以得到,對(duì)于交通路況的預(yù)測(cè),各種分類預(yù)測(cè)算法的預(yù)測(cè)效果都還不錯(cuò),但總體上樸素貝葉斯的分類預(yù)測(cè)效果最差,而采用Logistic算法以同一天10個(gè)時(shí)間段預(yù)測(cè)下一時(shí)間段的橫向長(zhǎng)期預(yù)測(cè)方式預(yù)測(cè)的效果最佳。

總體上空氣質(zhì)量的長(zhǎng)期預(yù)測(cè)效果優(yōu)于短期預(yù)測(cè)。同樣地,對(duì)于BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),雖然預(yù)測(cè)的平均相對(duì)誤差均較小,但實(shí)際誤差有小有大,預(yù)測(cè)效果不夠均衡,故運(yùn)用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)空氣質(zhì)量也不夠合理。綜合準(zhǔn)確率與AUC指標(biāo)值可以得到,對(duì)于空氣質(zhì)量的預(yù)測(cè),總體上樸素貝葉斯的分類預(yù)測(cè)效果最差,而采用Logistic算法以5天預(yù)測(cè)下一天空氣質(zhì)量的縱向短期預(yù)測(cè)形式預(yù)測(cè)效果最佳,采用決策樹(shù)CART算法與KNN算法以10天預(yù)測(cè)下一天空氣質(zhì)量的縱向長(zhǎng)期預(yù)測(cè)形式預(yù)測(cè)的效果次之。

3 數(shù)據(jù)可視化

針對(duì)爬取到的景區(qū)客流量、實(shí)時(shí)交通以及天氣數(shù)據(jù)數(shù)據(jù),結(jié)合基于小波分析和ARIMA模型的假期客流量預(yù)測(cè)模型,我們構(gòu)建了監(jiān)測(cè)網(wǎng)頁(yè),網(wǎng)頁(yè)中的模塊包含站點(diǎn)導(dǎo)航模塊、景區(qū)實(shí)時(shí)監(jiān)測(cè)模塊、城市交通實(shí)時(shí)監(jiān)測(cè)模塊、天氣監(jiān)測(cè)模塊。該網(wǎng)頁(yè)通過(guò)圖形和色彩將關(guān)鍵數(shù)據(jù)和特征像客戶直觀地傳達(dá)出來(lái),從而實(shí)現(xiàn)對(duì)于相當(dāng)稀疏而又復(fù)雜的數(shù)據(jù)集的深入洞察。其中,在網(wǎng)頁(yè)前端運(yùn)用了html、css與javascript語(yǔ)言構(gòu)造網(wǎng)頁(yè)的結(jié)構(gòu)、外觀與頁(yè)面的行為,在后端運(yùn)用python、django與mysql編寫運(yùn)行于服務(wù)器上的代碼。

4 小結(jié)

根據(jù)問(wèn)題研究背景,結(jié)合文獻(xiàn)資料,選擇合適的統(tǒng)計(jì)分析方法建立模型,確定所需要的變量數(shù)據(jù),運(yùn)用python軟件使用協(xié)程、線程與進(jìn)程等實(shí)現(xiàn)高并發(fā)實(shí)時(shí)數(shù)據(jù)的挖掘并將數(shù)據(jù)部署至相應(yīng)的服務(wù)器中。然后對(duì)挖掘到的數(shù)據(jù)進(jìn)行分析與處理,運(yùn)用了隨機(jī)森林、SUV、Logistic回歸、決策樹(shù)、樸素貝葉斯、KNN、BP神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法對(duì)交通路況、環(huán)境情況進(jìn)行分類預(yù)測(cè),并從中對(duì)比得出分類預(yù)測(cè)的最優(yōu)算法。同時(shí),添加了網(wǎng)頁(yè)的可視化應(yīng)用,將這些預(yù)測(cè)數(shù)據(jù)實(shí)時(shí)的在頁(yè)面上展示出來(lái),方便人們對(duì)不同日期以及同一天中不同時(shí)段的景區(qū)客流量進(jìn)行直觀的觀察,對(duì)客流高峰時(shí)段以及客流低峰時(shí)段做出一個(gè)系統(tǒng)的判斷,結(jié)合網(wǎng)頁(yè)中的交通數(shù)據(jù)、實(shí)時(shí)天氣數(shù)據(jù)與空氣質(zhì)量數(shù)據(jù)等,得出假期是否推薦出行該景區(qū)的建議。

猜你喜歡
路況空氣質(zhì)量景區(qū)
高速公路路況信息系統(tǒng)
云南發(fā)布一批公示 10家景區(qū)擬確定為國(guó)家4A級(jí)旅游景區(qū)
『摘牌』
雜文月刊(2019年24期)2020-01-01 08:32:10
“摘牌”
某景區(qū)留念
雜文月刊(2018年21期)2019-01-05 05:55:28
從路況報(bào)道看廣播“類型化”新聞的要素構(gòu)成
“空氣質(zhì)量發(fā)布”APP上線
車內(nèi)空氣質(zhì)量標(biāo)準(zhǔn)進(jìn)展
汽車與安全(2016年5期)2016-12-01 05:22:14
重視車內(nèi)空氣質(zhì)量工作 制造更環(huán)保、更清潔、更健康的汽車
汽車與安全(2016年5期)2016-12-01 05:22:13
開(kāi)展“大氣污染執(zhí)法年”行動(dòng) 加快推動(dòng)空氣質(zhì)量改善
高清| 夏河县| 常山县| 吉安县| 行唐县| 汶川县| 陵川县| 来凤县| 任丘市| 资源县| 延吉市| 江口县| 英超| 墨玉县| 安国市| 新平| 万荣县| 大连市| 云和县| 宜黄县| 铅山县| 佳木斯市| 太仓市| 尖扎县| 宁陵县| 海门市| 伽师县| 且末县| 宁远县| 建平县| 红原县| 偏关县| 金沙县| 松原市| 万州区| 静海县| 常德市| 洞口县| 湘阴县| 五莲县| 祥云县|