包麗莉
(天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,甘肅 天水 741001)
基于數(shù)據(jù)挖掘的旅客運(yùn)輸量分析
包麗莉
(天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,甘肅 天水 741001)
現(xiàn)代旅客運(yùn)輸體系主要由鐵路運(yùn)輸、公路運(yùn)輸、水運(yùn)以及航空運(yùn)輸4種方式組合而成。鑒于它們各具備其經(jīng)濟(jì)、技術(shù)方面的特色,這4種運(yùn)輸方式形成了一個(gè)既相對(duì)獨(dú)立又相互聯(lián)系的有機(jī)體系。運(yùn)用平行線圖和決策樹模型對(duì)這四種運(yùn)輸方式下的旅客運(yùn)輸量進(jìn)行比較分析,發(fā)現(xiàn)公路運(yùn)輸系統(tǒng)在旅客運(yùn)輸體系中占主導(dǎo)位置。數(shù)據(jù)還顯示近年其他3種旅客運(yùn)輸方式市場(chǎng)份額占有量逐年攀升。這對(duì)于交通運(yùn)輸部門合理配置交通運(yùn)輸資源提供了有用信息。
旅客運(yùn)輸;鐵路;公路;水運(yùn);航空;數(shù)據(jù)可視化;決策樹模型
一直以來,交通運(yùn)輸都是國民經(jīng)濟(jì)的基礎(chǔ)產(chǎn)業(yè),而由鐵路、公路、水運(yùn)以及民航四種運(yùn)輸方式共同構(gòu)成的旅客運(yùn)輸體系是綜合運(yùn)輸系統(tǒng)的重要組成部分,他們分工明確且各有優(yōu)勢(shì)。[1]社會(huì)的進(jìn)步使得這4種運(yùn)輸方式之間存在的競(jìng)爭(zhēng)和合作關(guān)系日益加強(qiáng)。它們互補(bǔ)互助,共同搭建起一個(gè)完整的交通運(yùn)輸網(wǎng)絡(luò)。而人作為旅客運(yùn)輸?shù)姆?wù)對(duì)象,其行為又具有主觀性、不確定性等特點(diǎn),因此,加強(qiáng)對(duì)旅客運(yùn)輸市場(chǎng)的調(diào)查和研究,詳細(xì)了解各個(gè)運(yùn)輸方式下旅客運(yùn)輸量的變化規(guī)律,把握旅客運(yùn)輸量尤其是公路、鐵路等大眾運(yùn)輸工具的運(yùn)量大小、運(yùn)量變化的客觀規(guī)律,對(duì)保證國民經(jīng)濟(jì)的發(fā)展和社會(huì)穩(wěn)定目標(biāo)的實(shí)現(xiàn),都具有非常重要的意義。[2]
1.1數(shù)據(jù)預(yù)處理
本文選取了2012.1~2015.11共47個(gè)月的旅客運(yùn)輸量數(shù)據(jù)進(jìn)行分析,所使用的數(shù)據(jù)源自中國統(tǒng)計(jì)局官方網(wǎng)站。這里涉及到的變量有2012.1~2015.11共47個(gè)月的公路客運(yùn)量、鐵路客運(yùn)量、水路客運(yùn)量、民航客運(yùn)量以及當(dāng)期客運(yùn)總量。由于各指標(biāo)的量綱不同,并且數(shù)據(jù)間數(shù)值相差很大,不能直接對(duì)其進(jìn)行分析,因此要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理:
這里xij為數(shù)據(jù)中第i個(gè)指標(biāo)的第 j行元素,E(xi)和Var(xi)分別為第i個(gè)指標(biāo)的均值和方差,Xij表示標(biāo)準(zhǔn)化處理后相應(yīng)第i個(gè)指標(biāo)的第j行元素。
另外,本文將當(dāng)期客運(yùn)總量達(dá)到各月客運(yùn)總量平均值以上的月份界定為客運(yùn)量相對(duì)較大的月份,代表甲等,用1表示;小于各月客運(yùn)總量平均值的月份界定為客運(yùn)量相對(duì)較小的月份,代表乙等,用0表示。
1.2數(shù)據(jù)可視化
圖1 2012.1~2015.11旅客運(yùn)輸量平行線圖
圖1中每一根曲線代表一個(gè)月客運(yùn)量數(shù)據(jù)情況,曲線上的每一個(gè)拐點(diǎn)表示這個(gè)月各個(gè)運(yùn)輸方式下的客運(yùn)量具體數(shù)值??瓦\(yùn)總量歸類到上方的曲線代表2012.1~2015.11全國旅客運(yùn)輸量在均值以上的年月,歸類到下方的曲線代表2012.1~2015.11全國旅客運(yùn)輸量在均值以下的年月。從圖中可以看出:公路旅客客運(yùn)量狀況與旅客客運(yùn)總量的分類狀況完全一致,即公路旅客客運(yùn)量較大的年月,旅客運(yùn)輸總量也較大(歸類到甲等);公路旅客運(yùn)輸量較小的年月,旅客運(yùn)輸總量也較小(歸類到乙等)。且在公路運(yùn)輸量的位置,數(shù)據(jù)相對(duì)于鐵路、水運(yùn)與航空客運(yùn)量較集中。這表示公路運(yùn)輸對(duì)分類的貢獻(xiàn)較大,鐵路、水運(yùn)與航空這三種旅客運(yùn)輸方式對(duì)于當(dāng)期旅客運(yùn)輸總量的分類貢獻(xiàn)較小。
2.1決策樹分類法簡介
決策樹——一種主要運(yùn)用于分類和預(yù)測(cè)研究的樹結(jié)構(gòu)。它通過算法將未指定次序的訓(xùn)練集數(shù)據(jù)放在分類模型中,自動(dòng)地構(gòu)造用決策樹表示的分類規(guī)則,最后再根據(jù)決策樹對(duì)實(shí)例進(jìn)行判斷分類。[3]首先,我們將事先經(jīng)過處理、且具有各自類別標(biāo)記的訓(xùn)練數(shù)據(jù)集輸入決策樹分類器,然后運(yùn)用分類器進(jìn)行計(jì)算,最后輸出結(jié)果。決策樹分類模型的結(jié)果通常是一棵二叉樹或者是多叉樹。決策樹中,對(duì)某個(gè)屬性進(jìn)行一次測(cè)試,就會(huì)相應(yīng)地產(chǎn)生一個(gè)內(nèi)部結(jié)點(diǎn)——每一個(gè)邏輯判斷都可以由一顆二叉樹的內(nèi)部結(jié)點(diǎn)來顯示,形式為a=b,這里的a代表屬性,b代表與屬性對(duì)應(yīng)的屬性值,最后我們便可以根據(jù)不同的屬性判斷該結(jié)點(diǎn)的分支。[4]在模型中,每一個(gè)測(cè)試結(jié)果都由一條樹的邊來表示。它代表邏輯判斷的一個(gè)分支結(jié)果。數(shù)據(jù)中有多少個(gè)屬性值,決策樹就輸出多少條邊。通常,決策樹算法是理論研究中最引人注意的點(diǎn),能否構(gòu)造出精度較高而規(guī)模較小的樹是最終的目標(biāo)。ID3算法[5]的創(chuàng)造使用是決策樹算法的高潮階段,后來經(jīng)過專家學(xué)者不斷研究,陸續(xù)出現(xiàn)了C4.5、PUBLIC等算法。[6]
決策樹方法分類步驟:
(1)輸入數(shù)據(jù)集并生成初始決策樹;
(2)計(jì)算訓(xùn)練誤判率和交叉檢驗(yàn)誤判率;
(3)根據(jù)交叉檢驗(yàn)得到的最優(yōu)葉節(jié)點(diǎn)數(shù)對(duì)決策樹進(jìn)行剪枝操作,生成最小決策樹;
(4)計(jì)算最小決策樹的訓(xùn)練誤判率和交叉檢驗(yàn)誤判率;
(5)對(duì)上述過程重復(fù)進(jìn)行;
(6)得到交叉檢驗(yàn)誤判率達(dá)到最小的決策樹作為結(jié)果,并得到其訓(xùn)練誤判率和交叉檢驗(yàn)誤判率。
2.2決策樹模型在旅客運(yùn)輸量數(shù)據(jù)中的運(yùn)用
將2012.1~2015.11全國旅客運(yùn)輸量數(shù)據(jù)輸入決策樹分類器中,得到如圖2的一顆分類樹:
由圖2可以看出:2012.1~2015.11旅客運(yùn)輸總量的分類狀況完全由公路運(yùn)輸量這一個(gè)變量所決定。與鐵路、水運(yùn)與航空這三種運(yùn)輸方式的運(yùn)輸量沒有關(guān)系。當(dāng)公路客運(yùn)量的標(biāo)準(zhǔn)化值小于-0.0241586時(shí),當(dāng)期的全國旅客運(yùn)輸總量歸為乙類,表示其低于均值。當(dāng)公路客運(yùn)量的標(biāo)準(zhǔn)化值大于-0.0241586時(shí),當(dāng)期的全國旅客運(yùn)輸總量高于均值,屬于甲類。說明當(dāng)期旅客發(fā)送量較大。
圖2 初始決策樹
對(duì)于圖2得到的初始決策樹,通過100次生成,分別計(jì)算其訓(xùn)練誤判率和交叉檢驗(yàn)檢驗(yàn)誤判率的平均值,得到表1.
表1 初始決策樹的誤判率
表1表明:初始決策樹得出的訓(xùn)練誤判率較小,但是交叉檢驗(yàn)誤判率為1,顯著大于訓(xùn)練誤差的誤判率。這說明雖然生成的初始決策樹對(duì)所給數(shù)據(jù)集能進(jìn)行很好的分類,但是樹的結(jié)構(gòu)對(duì)于特定的數(shù)據(jù)集比較敏感,以至于對(duì)于新數(shù)據(jù)的分類效果將很差,即出現(xiàn)了過擬合現(xiàn)象。[7]
一般,我們可以找到一棵比初始決策樹更簡單的樹來對(duì)數(shù)據(jù)進(jìn)行分類。以交叉檢驗(yàn)誤判率為指標(biāo),最小交叉檢驗(yàn)誤判率的標(biāo)準(zhǔn)差為界限,隨著葉節(jié)點(diǎn)的增加,可找到最先使交叉檢驗(yàn)誤判率滿足小于所設(shè)界限的樹作為最小決策樹。[8]
對(duì)上述分類樹進(jìn)行交叉檢驗(yàn),如圖3,每次用46個(gè)觀測(cè)值作為訓(xùn)練值,1個(gè)觀測(cè)值作為檢驗(yàn)值,循環(huán)100次。通過循環(huán)實(shí)驗(yàn),選取100次中交叉檢驗(yàn)誤判率最小的那個(gè)樹作為結(jié)果。修剪后的樹的誤判率為0.075,其對(duì)應(yīng)了圖5的一棵最優(yōu)葉節(jié)點(diǎn)數(shù)為2的決策樹。
圖3 交叉驗(yàn)證
圖5表示了分類的結(jié)果:對(duì)上述過程重復(fù)100次后,選取交叉檢驗(yàn)誤判率最小的那個(gè)樹作為結(jié)果。最終得到一個(gè)節(jié)點(diǎn)數(shù)為2的決策樹,決策樹只有一層。其誤判率為0,表示決策樹模型沒有產(chǎn)生過擬合現(xiàn)象。這表明對(duì)于2012.1~2015.11的旅客運(yùn)輸量數(shù)據(jù)來說,決策樹模型最終產(chǎn)生的分類決策樹并沒有基于鐵路、公路、水運(yùn)以及航空運(yùn)輸這4種運(yùn)輸方式進(jìn)行,而是基于公路旅客運(yùn)輸量這一個(gè)指標(biāo)來對(duì)當(dāng)期旅客運(yùn)輸總量進(jìn)行分類。人們出行,選擇最多的仍然是公路交通工具。公路運(yùn)輸對(duì)于旅客的分流起到了至關(guān)重要的作用。
值得注意的是,模型的誤判率為0說明決策樹分類器對(duì)于現(xiàn)有數(shù)據(jù)的分類是完全正確的,沒有產(chǎn)生誤差。雖然平行線圖的結(jié)果與決策樹分類法的結(jié)果一致,但顯然地,決策樹分類方法通過建立決策樹模型,更加客觀、準(zhǔn)確地將數(shù)據(jù)進(jìn)行了分類,這為我們使用新的旅客運(yùn)輸量數(shù)據(jù)判斷其類別歸屬提供了可靠的依據(jù)。依據(jù)這個(gè)模型,我們可以對(duì)收集到的新的數(shù)據(jù)進(jìn)行分類,直接得出其準(zhǔn)確的分類結(jié)果,這是平行線分類方法所不能達(dá)到的效果。
圖4 最優(yōu)葉節(jié)點(diǎn)
圖5 凈化決策樹
從2012年1月到2015年11月的客運(yùn)量數(shù)據(jù)來看:在2012年1月到2013年12月這2年全國客運(yùn)量較高,保持在3億人以上,且客運(yùn)總量總體呈緩慢上升趨勢(shì)。從2014年開始,全國客運(yùn)量突然減少到2億人,且有繼續(xù)下滑的跡象。這與近幾年經(jīng)濟(jì)增長緩慢、經(jīng)濟(jì)下行壓力加大導(dǎo)致就業(yè)困難、外出務(wù)工人員減少、人們壓縮出行需求不無關(guān)系。另外,公路旅客運(yùn)輸量與全國旅客運(yùn)輸總量之間的差距非常小,也說明公路旅客運(yùn)輸量占旅客運(yùn)輸總量的比例相當(dāng)高。
公路客運(yùn)機(jī)動(dòng)靈活,對(duì)運(yùn)行條件適應(yīng)性強(qiáng),可達(dá)性好。隨著公路道路的新建、完善,公路運(yùn)輸已基本實(shí)現(xiàn)門到門對(duì)接;另一方面,公路旅客運(yùn)輸在時(shí)間上的即時(shí)性、服務(wù)上的個(gè)性化這些優(yōu)點(diǎn)使得乘坐公路運(yùn)輸交通工具成為人們短途出行的首選。[9]2015年交通運(yùn)輸行業(yè)發(fā)展統(tǒng)計(jì)公報(bào)顯示:截止2015年,我國公路總里程數(shù)為457.73萬公里,是全國最大的交通運(yùn)輸網(wǎng)絡(luò),2014年末的統(tǒng)計(jì)結(jié)果增加了11.34萬公里。全國有99.01%的鄉(xiāng)鎮(zhèn)和94.28%的建制村開通了客運(yùn)線路。全年客運(yùn)車輛完成客運(yùn)量161.91億人,比上年減少6.7%.然而,雖然現(xiàn)代公路運(yùn)輸依靠高速公路網(wǎng)絡(luò)加快旅客運(yùn)輸速度,提高客運(yùn)服務(wù)質(zhì)量,使得公路旅客運(yùn)輸服務(wù)逐步趨于高速化、高檔化和舒適化,但是由于其他旅客運(yùn)輸方式也在全力以赴,努力提高市場(chǎng)份額,這就使得公路運(yùn)輸本身的安全性低、花費(fèi)大等缺點(diǎn)更加凸顯。在選擇性較大的情況下,人們開始擇優(yōu)選取,使得公路運(yùn)輸?shù)母?jìng)爭(zhēng)力開始下降。
鐵路運(yùn)輸近幾年發(fā)展迅速,截止2015年底,全國鐵路營業(yè)里程12.1萬公里,比上年末增長8.2%.全年共發(fā)送旅客25.35億人,比上年增長了10.0%.同時(shí),鐵路部門也多舉措吸引出行旅客。如推行互聯(lián)網(wǎng)、電話和自動(dòng)售票機(jī)售票,開設(shè)綠色通道,為旅客出行購票提供了方便。開行多種精品列車如城際列車,尤其是高鐵和動(dòng)車的開通,大大提高了鐵路運(yùn)輸速度和運(yùn)輸能力,彰顯出鐵路系統(tǒng)改變?nèi)藗兂鲂校瑸槁每吞峁┓奖?、力?zhēng)占領(lǐng)更大市場(chǎng)份額的決心。加之乘坐鐵路運(yùn)輸交通工具比較平穩(wěn)、受自然條件限制較小、價(jià)格相對(duì)低廉且安全可靠,所以鐵路這一交通工具逐漸成為了人們的首選。[10]
在陸島間、河口、湖泊、海灣內(nèi)和水網(wǎng)發(fā)達(dá)地區(qū),交通運(yùn)輸工具以船舶為主;近年來,水運(yùn)系統(tǒng)加快全國水運(yùn)主通道系統(tǒng)的完善,向著高速化、旅游化方向發(fā)展。[11]數(shù)據(jù)顯示:2015年底全國內(nèi)河航道通航里程為12.70萬公里,與上年末相比增加了721公里。全年完成水路客運(yùn)量2.71億人,比上年增長3.0%.雖然水路運(yùn)輸速度相對(duì)較慢,且容易受到季節(jié)的影響,但這也恰好是許多旅客選擇水路交通工具出行的原因。近年來,選擇乘坐水上交通工具出行旅游成為一種時(shí)尚與享受??痛貏e是高速客船在未來將發(fā)揮重要作用。
乘坐飛機(jī)出行對(duì)于出行距離遠(yuǎn)、需要節(jié)約時(shí)間提高出行效率的旅客來說是最佳的選擇。初步統(tǒng)計(jì),至2015年末,全國共有頒證民用航空機(jī)場(chǎng)210個(gè),比2014年末增加8個(gè)。全年全國各大民航公司共完成旅客運(yùn)輸量4.36億人次,比上年增長11.1%.航空運(yùn)輸由于其速度快,機(jī)動(dòng)靈活,服務(wù)質(zhì)量高而深受旅客青睞。此外,除了適時(shí)增加航班航線,努力提高航班正點(diǎn)率,大力改善航空服務(wù)質(zhì)量,民航系統(tǒng)還通過大量新建或擴(kuò)建機(jī)場(chǎng),拓展支線航運(yùn),相互兼并擴(kuò)大經(jīng)營規(guī)模等方式來吸收客源。燃油附加費(fèi)的取消和機(jī)票價(jià)格的降低更是讓消費(fèi)者受益,使得航空旅客運(yùn)輸成為旅客運(yùn)輸系統(tǒng)中旅客數(shù)量增幅最大的系統(tǒng)。
在交通越來越發(fā)達(dá)的現(xiàn)代,人們對(duì)出行所選交通工具的要求越來越高。安全保障、旅途花費(fèi)、售票服務(wù)、運(yùn)行速度、旅途舒適度等成為公眾選擇交通工具普遍關(guān)注的重點(diǎn)。如鐵路運(yùn)輸方面,人們關(guān)注較多的為售票服務(wù)和候乘環(huán)境;公路客運(yùn)方面則更多地關(guān)注安全保障和道路狀況;水運(yùn)方面,出行的人們更容易關(guān)注旅途安全性、時(shí)效性與沿途風(fēng)景的優(yōu)美程度;航空運(yùn)輸則較多關(guān)注旅途花費(fèi)、航班準(zhǔn)點(diǎn)、安全保障和便捷性等。[12]
旅客運(yùn)輸總量的總體發(fā)展趨勢(shì)告訴我們:雖然鐵路、水運(yùn)與航空運(yùn)輸這3種方式對(duì)旅客的分流作用沒有公路運(yùn)輸大,但即使是在旅客運(yùn)輸總量減少,公路運(yùn)輸總量銳減的年月,這三種運(yùn)輸方式的旅客運(yùn)輸量仍然在逐年上升。說明近幾年這三種運(yùn)輸方式對(duì)旅客的分流作用愈加明顯。鐵路、水運(yùn)以及航空運(yùn)輸系統(tǒng)的這些發(fā)展,得益于他們的改革舉措切實(shí)提高了運(yùn)輸服務(wù)質(zhì)量,得到了社會(huì)的認(rèn)可。日益激烈化的運(yùn)輸市場(chǎng)爭(zhēng)奪使得道路旅客運(yùn)輸面臨巨大的壓力,如何保持甚至是提高公路旅客運(yùn)輸?shù)氖袌?chǎng)份額,需要公路運(yùn)輸部門仔細(xì)考慮一番。除了優(yōu)化線路網(wǎng)絡(luò)、及時(shí)更新硬件設(shè)施、提高運(yùn)輸效率以外,也許還需要他們?cè)诜?wù)理念和服務(wù)質(zhì)量上下功夫。樹立新的服務(wù)理念,提高服務(wù)標(biāo)準(zhǔn),豐富服務(wù)內(nèi)涵,以高效優(yōu)質(zhì)的服務(wù)吸引旅客,才是自己的立身之本。
[1]聶錕,唐錫晉.MAS在旅客運(yùn)輸量變化分析中的應(yīng)用[J]. Management Review,2004,(4).
[2]來曉峰.河南省客運(yùn)需求預(yù)測(cè)分析研究[D].西安:長安大學(xué),1999.
[3]張文彤,鐘云飛.數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹.北京:清華大學(xué)出版社,2013.
[4]張睿.ID3決策樹算法分析與改進(jìn)[D].蘭州:蘭州大學(xué),2010.
[5]NIBLETT T,BRATKO I.Learning deision rules in noisy domains[A].Proeedings of Expert System’86[C].Cambridge: Cambridge University Press:1986:25-34.
[6]BREIMAN L,FRIEDMAN J,OLSHEN R A.Classifieation and regression trees[M].Belmont:Wdsworth,1984.
[7]JIE CHENG,DAVID BELL,WEIRU LIU.Learning Bayesian Networks from Data:An Efficient Approach Based on Infor?mation Theory,1999.
[8]曲開社,成文麗,王俊紅.決策樹分類算法的研宄與改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2003,(25):104-105.
[9]王熙照.自頂向下決策樹增量剪枝方法研究[D].河北:河北大學(xué),2012.
[10]解曉玲.高速鐵路的發(fā)展對(duì)道路客運(yùn)的影響及對(duì)策[J].運(yùn)輸市場(chǎng),2010,(2).
[11]鄧楚利.鐵路旅客運(yùn)輸服務(wù)網(wǎng)絡(luò)層次規(guī)劃研究[D].湖南:中南大學(xué),2008.
[12]中國交通運(yùn)輸協(xié)會(huì)“中國旅客運(yùn)輸發(fā)展戰(zhàn)略研究”課題組.中國旅客運(yùn)輸發(fā)展戰(zhàn)略研究[J].中國鐵路,1997,(5).
〔責(zé)任編輯高忠社〕
An Analysis of Passenger Traffic Volume Based on Data Mining
Bao Lili
(School of Mathematics and Statistics,Tianshui Normal University,Tianshui Gansu741001,China)
Modern passenger transport system is mainly composed of railway transportation,road transportation,wa?ter transport and air transport.The paper,utilizing parallel graph and decision tree model,makes a comparative anal?ysis of the passenger traffic volume with these four different modes of transportation,which shows that road transpor?tation prevails in the passenger transport system,and what’s more,the other three modes of transportation increase year by year.
passenger transport;railway;road;water transport;air transport;data visualization;decision tree model
O213
A
1671-1351(2016)05-0001-04
2016-06-11
包麗莉(1990-),女,甘肅武威人,天水師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院教師,碩士。