文圖|孔晨晨 黃瑛 周云龍 趙磊
【導(dǎo)讀】
非法營運(yùn)、疲勞駕駛、“黑校車”、貨車載人等交通違法行為不易被主動發(fā)現(xiàn),只能依靠一線民警道路執(zhí)勤檢查或群眾舉報等方式發(fā)現(xiàn),查處數(shù)量少、效率低。本文利用公安交通集成指揮平臺匯聚的卡口車輛通行軌跡及圖片信息,綜合應(yīng)用大數(shù)據(jù)分析、車臉人臉AI智能識別等技術(shù),建立數(shù)據(jù)分析模型,用于識別發(fā)現(xiàn)嚴(yán)重交通違法行為的嫌疑車輛,為各地開展精準(zhǔn)緝查提供數(shù)據(jù)支撐。
為落實(shí)《全國主干公路交通安全防控體系建設(shè)三年規(guī)劃》要求,從2015年開始,公安部交通管理局組織在全國推廣應(yīng)用公安交通集成指揮平臺(以下簡稱“集指平臺”)。集指平臺采用了大數(shù)據(jù)云計(jì)算架構(gòu)的部署模式。目前,集指平臺已匯聚上萬億條通行軌跡記錄,具備了海量車輛通行軌跡數(shù)據(jù)資源的規(guī)模,也開展了假套牌、“紅眼客車”、報廢車、失駕等交通違法行為建模分析,但仍有部分嚴(yán)重交通違法行為仍未開展針對性分析。本文利用集指平臺海量數(shù)據(jù)資源,應(yīng)用大數(shù)據(jù)分析、車臉人臉AI智能識別等技術(shù),建立非法營運(yùn)、疲勞駕駛、“黑校車”、貨車載人等大數(shù)據(jù)分析模型,識別發(fā)現(xiàn)嚴(yán)重交通違法行為的嫌疑車輛,為公安交管部門開展路面違法車輛精準(zhǔn)查緝,為道路交通事故“減量控大”提供數(shù)據(jù)支撐。
1.卡口軌跡數(shù)據(jù)。選取2021年1個月匯聚的所有卡口車輛通行軌跡及部分車輛卡口通行圖片數(shù)據(jù)進(jìn)行分析。主要包括號牌種類、號牌號碼、過車時間、過車地點(diǎn)、卡口經(jīng)緯度、卡口所在道路、卡口所在行政區(qū)劃、卡口方向類型等字段項(xiàng)。
2.車輛基礎(chǔ)數(shù)據(jù)。小微面包車、7座及以上非營運(yùn)普通小客車、重中型貨車、校車、輕型貨車。主要包括號牌種類、號牌號碼、車輛類型、使用性質(zhì)、車輛狀態(tài)等字段項(xiàng)。
1.Spark SQL。Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,Spark SQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個模塊,它提供了一個編程抽象叫做DataFrame并且作為分布式SQL查詢引擎的作用。數(shù)據(jù)清洗和建模分析時需用到此技術(shù)。
2.Hive UDTF。用戶定義表生成函數(shù),用于輸入單個數(shù)據(jù)行產(chǎn)生多個輸出數(shù)據(jù)行的操作。建模分析方法使用此函數(shù)來實(shí)現(xiàn)。
3.車臉識別。集成應(yīng)用圖像分析技術(shù)、深度學(xué)習(xí)技術(shù),從車輛卡口通行圖片中提取機(jī)動車特征,支持前后位置、有無號牌、號牌種類、號牌號碼、車輛類型、車身顏色、車輛品牌等特征的識別。建模分析過程中需用到此技術(shù)進(jìn)行車輛特征提取和輔助驗(yàn)證,提高模型結(jié)果的準(zhǔn)確率。
4.人臉識別。對車輛通行圖片中人臉位置、數(shù)量檢測與特征提取。對于能夠檢測出駕駛?cè)巳四樀?,一方面提取人臉特征值,評價其清晰度;另一方面對駕駛?cè)耸欠衽宕髂R、口罩等特殊情形智能識別。建模分析過程中需用到此技術(shù)進(jìn)行輔助驗(yàn)證,提高模型結(jié)果的準(zhǔn)確率。
1.清洗情形。由于后續(xù)的交通違法行為建模分析本身有數(shù)據(jù)邏輯校驗(yàn),故在本文所進(jìn)行的數(shù)據(jù)分析之前只做數(shù)據(jù)清洗。
(1)數(shù)據(jù)重復(fù)。實(shí)際情況下,車輛可能會在短時間內(nèi)被同一卡口多次識別并記錄,從而造成數(shù)據(jù)冗余與重復(fù)。一是兩條相鄰的數(shù)據(jù)記錄中,所有屬性完全相同,任選一條記錄刪除。二是兩條相鄰的數(shù)據(jù)記錄中,僅過車時間存在差異,設(shè)置相鄰記錄過車時間差的閾值為 3s,若小于該閾值,認(rèn)為記錄重復(fù),保留該車牌被卡口記錄的最新一條數(shù)據(jù)。
(2)數(shù)據(jù)異常。由于前端卡口被樹木遮擋、信號傳輸受干擾等問題,卡口過車數(shù)據(jù)可能存在號牌號碼未識別、號牌長度不符合規(guī)則、卡口時間未校時等異常。一是只保留號牌規(guī)則為“省份簡稱+6位字符”或“省份簡稱+7位字符”的數(shù)據(jù)。二是保留數(shù)據(jù)中再剔除卡口未校時的數(shù)據(jù)。三是保留數(shù)據(jù)中再剔除車輛時空關(guān)系不合理(短時間內(nèi)不可能出現(xiàn)在兩個相距較遠(yuǎn)的地點(diǎn))的數(shù)據(jù)。
2.清洗結(jié)果。根據(jù)以上規(guī)則,經(jīng)過數(shù)據(jù)清洗后,基本只有70%的卡口車輛通行軌跡記錄可用作后續(xù)數(shù)據(jù)分析。
利用清洗后的車輛監(jiān)控?cái)?shù)據(jù),結(jié)合車輛基礎(chǔ)數(shù)據(jù),建立非法營運(yùn)、疲勞駕駛、“黑校車”、超員載客、貨車載人等數(shù)據(jù)分析模型,用于識別發(fā)現(xiàn)嚴(yán)重交通違法行為的嫌疑車輛。
非法營運(yùn)車輛分析流程如下:
步驟1:將卡口通行軌跡數(shù)據(jù)與面包車、7座及以上非營運(yùn)普通客車基礎(chǔ)數(shù)據(jù)碰撞分析,生成待分析車輛通行軌跡數(shù)據(jù)集;
步驟2:對于單輛車的軌跡數(shù)據(jù)集,按時間順序從前往后排列,計(jì)算車輛一個月內(nèi)上路行駛天數(shù)t;
步驟3:單輛車的軌跡數(shù)據(jù)集中,需要分析的第一條記錄記作Gs,依次分別計(jì)算相鄰兩條記錄的間隔時間ti,預(yù)設(shè)一個時間閾值T(設(shè)定為1小時),若ti>T,則第1條至第i條之間所有記錄為一次出行軌跡數(shù)據(jù)子集Gi,且第1條記錄中的地點(diǎn)為出行的起始點(diǎn)Jsi,第i條記錄中的地點(diǎn)為出行的終點(diǎn)Jei;若Jsi和Jei為不同城市的地點(diǎn),則為跨地市出行;
步 驟4:若 存 在Gi、Gj,使Jsi=Jej和Jei=Jsj,則為某一線路往返通行,記作Wij;
步驟5:對t≥20且∑Wij≥3的所有出行軌跡數(shù)據(jù)子集Gi、Gj、,每個子集中隨機(jī)抽取一條記錄,拉取卡口車輛通行圖片,進(jìn)行車內(nèi)人數(shù)和副駕駛?cè)藛T的AI智能識別,若車內(nèi)有2名及以上乘客且副駕駛乘客更換不同的車輛,則認(rèn)定車輛存在非法營運(yùn)嫌疑。
疲勞駕駛大貨車分析流程如下:
步驟1:將卡口通行軌跡數(shù)據(jù)與重中型貨車基礎(chǔ)數(shù)據(jù)碰撞分析,生成重中型貨車通行軌跡數(shù)據(jù)集;
步驟2:對于單輛貨車軌跡數(shù)據(jù)集,按時間順序從前往后排列;
步驟3:單輛貨車軌跡數(shù)據(jù)集中,需要分析的第一個卡口記作Ks,以Ks為起點(diǎn)獲取車輛途經(jīng)的所有卡口;
步驟4:計(jì)算以Ks為起點(diǎn)的每一對相鄰卡口之間的過車時間差ti、行駛距離si;
步驟5:選取一個檢測路段,路段最后一個經(jīng)過的卡口記作Ke;
步驟6:通過行駛距離si和過車時間差ti,從Ks開始到Ke為止,計(jì)算每一對相鄰卡口之間的平均通行速度vi, vi=si/ti;
步驟7:根據(jù)每一對相鄰的卡口之間所在路段的道路類型,分別預(yù)設(shè)有一個速度閾值wi(設(shè)定高速公路為80公里/小時、國省道為60公里/小時、城市道路為30公里/小時),通過平均通行速度vi和與其對應(yīng)的速度閾值wi進(jìn)行比較,可以判斷車輛是否在兩個卡口之間存在停車休息的行為(vi>超過wi則未停車休息;反之則停車休息),如果在每一對相鄰卡口之間的路段上,都沒有停車休息,且時間之和超過4小時,則認(rèn)定車輛存在疲勞駕駛嫌疑。疲勞駕駛嫌疑車輛分析如圖1所示。
圖1 疲勞駕駛嫌疑車輛分析示意圖
“黑校車”分析流程如下:
步驟1:通過地理信息系統(tǒng)中的POI數(shù)據(jù)和道路上的卡口設(shè)備進(jìn)行空間位置疊加分析,生成距離小學(xué)、幼兒園10公里以內(nèi)的卡口信息;
步驟2:將距離小學(xué)、幼兒園10公里以內(nèi)的卡口信息與道路卡口設(shè)備記錄的車輛通行軌跡信息碰撞比對,生成一個月內(nèi)小學(xué)、幼兒園附近卡口車輛通行軌跡記錄集合;
步驟3:將一個月內(nèi)小學(xué)、幼兒園附近卡口車輛通行軌跡記錄集合與小微型面包車及七座以上載客汽車基礎(chǔ)信息庫(排除已登記為校車的車輛)進(jìn)行號牌號碼與號牌種類比對,提取出一個月內(nèi)小學(xué)、幼兒園附近卡口小微型面包車及七座以上載客汽車(排除已登記為校車的車輛)通行軌跡記錄集合,即目標(biāo)卡口目標(biāo)車輛通行記錄集合;
步驟4:獲取分析區(qū)域內(nèi)學(xué)校的上學(xué)時間段p1與放學(xué)時間段p2,過濾出目標(biāo)卡口目標(biāo)車輛通行記錄集合中p1與p2時間段內(nèi)的車輛通行軌跡信息;
步驟5:分別統(tǒng)計(jì)所有目標(biāo)車輛在一個月(取完整4個星期)時間內(nèi)每周工作日于p1、p2時間段在距離學(xué)校2公里以內(nèi)卡口設(shè)備出現(xiàn)的天數(shù);
步驟6:對每周均出現(xiàn)2天及以上或一個月內(nèi)總出現(xiàn)天數(shù)超過10天的目標(biāo)車輛,拉取車輛通行軌跡圖片進(jìn)行AI智能識別,提取前排副駕駛座位人員數(shù)量及車輛本身特征信息,如人員數(shù)量超過2人且車輛特征信息符合小微型面包車或者7座以上載客汽車,則認(rèn)定車輛存在“黑校車”嫌疑?!昂谛\嚒毕右绍囕v分析如圖2所示。
圖2 嫌疑“黑校車”分析流程圖
輕型貨車違法載人分析流程如下:
步驟1:將卡口通行軌跡數(shù)據(jù)與輕型貨車(排除廂式貨車、封閉貨車、罐式貨車)基礎(chǔ)數(shù)據(jù)碰撞分析,生成輕型貨車通行軌跡數(shù)據(jù)集;
步驟2:統(tǒng)計(jì)軌跡數(shù)據(jù)集中每輛輕型貨車上道路行駛的天數(shù)t和軌跡次數(shù)n;
步驟3:對t≥3且n≥10的車輛卡口通行軌跡數(shù)據(jù)與抓拍車輛尾部照片的卡口碰撞分析,生成輕型貨車尾部卡口通行軌跡數(shù)據(jù)子集;
步驟4:每輛車?yán)∽蛹?條通行記錄的卡口通行圖片,通過AI智能識別后,發(fā)現(xiàn)車廂載人的,則認(rèn)定車輛存在違法載人行為。
本文建模分析發(fā)現(xiàn)的嚴(yán)重交通違法行為嫌疑車輛已通過集指平臺下發(fā)給各地應(yīng)用,不僅為全國交通安全專項(xiàng)行動提供交通違法車輛數(shù)據(jù),而且支撐了各地路面重點(diǎn)車輛的布控緝查。同時,在集指平臺中融合非法營運(yùn)、疲勞駕駛、“黑校車”、貨車違法載人等分析研判功能,精準(zhǔn)的管控?cái)?shù)據(jù)不僅提高了路面執(zhí)法效率,而且進(jìn)一步深化了公路防控體系內(nèi)涵。但酒駕醉駕、未保持安全車距等交通違法問題仍未得到有效破解,如何利用現(xiàn)有道路監(jiān)控設(shè)備資源精準(zhǔn)發(fā)現(xiàn)此類違法是一項(xiàng)艱巨的研究任務(wù)。下一步,我們將按照“大數(shù)據(jù)、小場景、小算法”的思路,以技術(shù)服務(wù)實(shí)戰(zhàn)應(yīng)用,利用建模分析、應(yīng)用驗(yàn)證等方式,主動發(fā)現(xiàn)更多嚴(yán)重交通違法行為的嫌疑車輛,并提供給各地進(jìn)行精準(zhǔn)緝查,實(shí)現(xiàn)嚴(yán)重交通違法行為的斷崖式下降,進(jìn)一步凈化道路交通秩序環(huán)境,為道路交通事故“減量控大”提供有效支撐。