黃子璇,李橋興,2
(1.貴州大學 管理學院,貴州 貴陽 550025;2.喀斯特地區(qū)發(fā)展戰(zhàn)略研究中心,貴州 貴陽 550025)
非法營運車輛指未依法取得營運權(quán)卻實施了營運行為的車輛,即未按規(guī)定領(lǐng)取有關(guān)主管部門核發(fā)的營運證件和超越核定范圍進行經(jīng)營的車輛。人流、物流和車流的增量與區(qū)域交通出行需求不匹配,在一定程度上給非法營運車輛的出現(xiàn)提供了市場契機[1]。非法營運車輛不交納任何運營費用且多數(shù)為低端和維修保養(yǎng)不到位的車輛,具有較大的安全隱患[2]。乘客對道路運輸相關(guān)法律法規(guī)缺乏了解,選擇乘坐非法營運車輛并與司機嚴密串詞為道路交通執(zhí)法增加了難度[3]。高速公路電子不停車收費系統(tǒng)(ETC)能夠根據(jù)車輛的行駛特征反映非法營運車輛的時空變化規(guī)律,可有效查處高速公路非法營運車輛從而優(yōu)化高速公路的運行秩序并提升管理水平。
數(shù)據(jù)挖掘是信息處理領(lǐng)域的重要課題,由人工智能、數(shù)據(jù)庫和機器學習等多領(lǐng)域的理論和技術(shù)融合而成,分類則是數(shù)據(jù)挖掘的重要功能之一。研究人員對分類算法進行了大量研究,具有代表性的算法包括隨機森林包括模型[4]、決策樹算法[5]和邏輯回歸模型[6]等。隨機森林模型主要用于回歸和分類,在生物信息、金融經(jīng)濟和新能源等的多維數(shù)據(jù)分析中具有廣泛的應用[7]。決策樹算法用于為各類方案的效益值而做出決策,在臨床試驗[8]和文本索引[9]等方面應用廣泛。邏輯回歸模型是一種廣義的線性回歸分析模型,被主要應用于地形探測[10]、經(jīng)濟預測[11]和文本識別[12]等領(lǐng)域。國內(nèi)研究人員針對網(wǎng)約車的非法營運[13]以及其司機與平臺間的演化博弈[14]、非法營運車輛的識別與安全監(jiān)管以及長效治理機制[15-17]等進行了研究。國外研究人員研究了運輸情況[18]、車票價格[19]及汽車類型對產(chǎn)能影響[20]等。另外,國內(nèi)研究人員多采用自組織映射神經(jīng)網(wǎng)絡(Self Organizing Maps,SOM)[21]、卷積神經(jīng)網(wǎng)絡[22]和K-Mediods及其改進算法[23]等數(shù)據(jù)挖掘方法構(gòu)建非法營運車輛識別算法。由于僅憑法律手段無法完全解決非法營運車輛在道路交通執(zhí)法中的識別和查處問題,因此本文基于城市高速公路有效指標的ETC數(shù)據(jù),采用隨機森林算法建立非法營運車輛的識別模型,并加入決策樹算法和邏輯回歸模型進行比較。最后,根據(jù)西南某市高速公路車輛的流水指標數(shù)據(jù)進行實證分析,驗證了本文所提出的隨機森林模型更適用于非法營運車輛識別。
隨機森林(Random Forest,RF)算法基于自助法(Boot Strap)重采樣技術(shù)對原始訓練集M中有放回地重復隨機抽取N(N≤M)個樣本生成新的訓練樣本集合,然后根據(jù)自助樣本集生成N個分類樹組成隨機森林。其實質(zhì)是改進的決策樹算法將多個決策樹合并在一起,在Bag-ging基礎(chǔ)上對每棵決策樹進行隨機特征選擇,然后對測試集進行回歸預測,最后整合預測結(jié)果并投票得出結(jié)果。
CART分類樹算法是一種應用廣泛的決策樹學習方法,由特征選擇、樹的生成以及剪枝組成。CART分類樹算法是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率分布的學習方法,其實質(zhì)是基于基尼系數(shù)最小化準則進行特征選擇的二分遞歸算法,可以避免數(shù)據(jù)過分擬合并有效提高預測精度。
邏輯回歸(Logistics Regression,LR)算法是一種針對被解釋變量為二分類的概率型非線性回歸統(tǒng)計方法,其優(yōu)點是對數(shù)據(jù)的方差性和正態(tài)性不做具體要求。二元邏輯回歸是邏輯回歸的最簡形式,其實質(zhì)是基于Sigmoid函數(shù)的有監(jiān)督二分類模型。
高速公路電子不停車收費系統(tǒng)主要包括車輛進出公路的收費站點名稱、時間、車型、交易類型、交易耗時、通行速度和車牌等。與普通車輛相比,非法營運車輛在工作日或周末行駛長途與短途的次數(shù)和天數(shù)不同、通行時間段與正常通勤車不同。因此,根據(jù)非法營運車輛行駛特點,本文構(gòu)建了累計通行天數(shù)、累計通行次數(shù)、單次平均通行時間、是否同城、是否周末通行和通行時間段等6個特征指標來識別非法營運車輛,6個特征指標的具體含義如表1所示。
表1 特征指標
為了解機器學習模型的泛化能力,本文使用常用的分類模型評價指標來衡量模型的性能,包括準確率(Accuracy)、精準率(Precison)、召回率(Recall)和F1分數(shù)。本文采用隨機森林預測模型的因變量即車輛是否為非法營運車輛,并當車輛為非法營運車輛時賦值為1,否則賦值為0,從而建立混淆矩陣,如圖1所示。當車輛實際為非法營運車輛時,通過隨機森林預測模型將其分類為非法營運車輛的樣本數(shù),設(shè)為TI,分類為合法營運車輛的樣本數(shù),設(shè)為FL。當車輛實際為合法營運車輛時,通過隨機森林預測模型將其分類為非法營運車輛的樣本數(shù),設(shè)為FI,分類為合法營運車輛的樣本數(shù),設(shè)為TL。本文的模型評價指標如下所示:
圖1 混淆矩陣Figure 1. Confusion matrix
準確率表示預測正確的樣本數(shù)占總樣本數(shù)的百分比。
(1)
精準率表示在預測為非法營運車輛的樣本中預測正確的比率。
(2)
召回率表示在實際為非法營運車輛的樣本中預測正確的比例。
(3)
F1分數(shù)綜合考慮了精準率和召回率,在兩者同時達到較高水平時取其平衡值。
(4)
本文使用數(shù)據(jù)為2022年2月6日~2022年3月8日西南某市409萬余條高速公路電子不停車收費系統(tǒng)(ETC)出口數(shù)據(jù),其中ETC收費系統(tǒng)共含93個字段。本文根據(jù)識別非法營運車輛的目的剔除無用字段, 篩選共10項有用字段,如表2所示。如圖2所示,本文在清除交易失敗(TRADE_RESULT)、特殊車輛(VEHIC LE_USER_TYPE)和非客車(VEHICLE_CLASS)的冗余通行數(shù)據(jù)后,得到100萬條行車數(shù)據(jù)和70 575輛車的車牌數(shù)據(jù),其中非法營運車輛52輛。
圖2 清除冗余數(shù)據(jù)流程Figure 2. Flow of clearing redundant data
表2 ETC數(shù)據(jù)有效字段
圖3表明天數(shù)(days)和次數(shù)(frequency)的相關(guān)系數(shù)為0.88。由于司機的出行天數(shù)與其出行頻率呈正比,故相關(guān)性較高。但出行天數(shù)和次數(shù)都可分別設(shè)置閾值判斷嫌疑車輛,因此不可去除這兩個指標的任意一個。是否同城(same time)、是否周末出行(weekend)、出行時間段(time period)、單次平均通行時間(mean time)與是否為非法營運車輛(label)這5個指標之間的相關(guān)性較低。是否同城(same time)、是否周末出行(weekend)、出行時間段(time period)、單次平均通行時間(mean time)、天數(shù)(days)和次數(shù)(frequency)分別與是否為非法營運車輛(label)未存在線性重疊。因此,這6個因變量指標可以被用于隨機森林算法計算。
圖3 相關(guān)系數(shù)Figure 3. Correlation coefficient
由于數(shù)據(jù)集為不平衡數(shù)據(jù)集,即檢測合法營運車輛樣本量遠大于非法營運車輛樣本量,因此對于各類別樣本數(shù)量不一致數(shù)據(jù),決策樹算法本身的信息增益偏向于具有更多數(shù)值的特征,即預測變量類不平衡較易影響決策樹模型,故需要對數(shù)據(jù)集檢測結(jié)果特征進行數(shù)據(jù)平衡操作。常用的數(shù)據(jù)平衡方式有欠采樣(對多數(shù)類)、過采樣(對稀有類)。其中,使用較多的過采樣方法有自助法、SMOTE(Synthetic Minority Oversampling Technique)算法(創(chuàng)建與稀有類相似的合成數(shù)據(jù))。由于對多數(shù)類做欠采樣存在丟棄有用信息的風險,本文采用SMOTE算法對訓練集稀有類進行過采樣,即對非法營運車輛樣本集進行過采樣。利用SMOTE算法找出與過采樣記錄相似的記錄,對原始記錄及其相鄰的記錄隨機加權(quán)后取平均,生成合成記錄。本文共有52條非法營運車輛樣本,隨機篩選100條合法營運車輛樣本數(shù)據(jù),經(jīng)過SMOTE算法采樣后組成1∶1比例的樣本子集各100條數(shù)據(jù),并且設(shè)置80%的訓練集和20%的測試集。
實驗使用Jupyter Notebook編輯器建立隨機森林模型、CART分類樹模型和二元邏輯回歸模型,在經(jīng)過SMOTE算法將樣本均衡化后,每次隨機選出100個合法營運車輛樣本和100個非法營運車輛樣本進行訓練,經(jīng)過10次訓練得到最后的分類器(Random Forest Classifier,RFC)。隨機森林模型、CART分類樹模型和二元邏輯回歸模型分類器評價指標及其結(jié)果如圖4~圖6所示。其中,模型分類器準確率由高到低依次為隨機森林模型RFC、二元邏輯回歸RFC和CART分類樹模型RFC,準確率分別為0.987 5、0.985 0和0.982 5。CART分類樹模型RFC的合法營運車輛召回率和非法營運車輛精確率與隨機森林算法RFC的合法營運車輛召回率和非法營運車輛精確率相同,但其余模型的精準率、召回率和F1分數(shù)均比隨機森林模型RFC的精準率、召回率和F1分數(shù)低,且準確率也低于隨機森林模型RFC準確率。雖然二元邏輯回歸RFC的合法營運車輛召回率和非法營運車輛精確率比隨機森林模型RFC的合法營運車輛召回率和非法營運車輛精確率高,但其余指標均低于隨機森林模型RFC,且其準確率為0.985 0,低于隨機森林模型RFC準確率。
圖4 隨機森林模型分類器評價指標及結(jié)果Figure 4. Evaluation indicators and results of random forest model classifier
圖5 CART分類樹模型分類器評價指標及結(jié)果Figure 5. Evaluation indicators and results of CART classification tree model classifier
圖6 二元邏輯回歸分類器評價指標及結(jié)果Figure 6. Evaluation indicators and results of binary logic regression classifier
為了優(yōu)化高速公路運行秩序,提升高速公路管理水平,有效稽查高速公路非法營運車輛,本文根據(jù)高速公路車輛流水數(shù)據(jù)建立識別非法營運車輛指標,并基于隨機森林模型、CART分類樹模型和二元邏輯回歸模型建立識別非法營運車輛訓練器。通過對西南某市2022年2月6日~2022年3月8日100萬條高速公路ETC出口數(shù)據(jù)和7萬余輛嫌疑車輛數(shù)據(jù)進行處理,提取有效字段和指標投入算法進行驗證,所得分類器準確率由高到低依次為隨機森林模型RFC、二元邏輯回歸RFC和CART分類樹模型RFC,準確率分別為98.75%、98.50%和98.25%。結(jié)果證明隨機森林模型訓練出的分類器可以較好地預測出非法營運車輛,其準確率最高。