秦勝君 李婷
摘? 要:針對現(xiàn)有異常軌跡檢測方法沒有捕捉軌跡數(shù)據時序特征,不能有效識別業(yè)務異常和新型異常等問題,提出基于長短記憶模型的異常軌跡挖掘模型.首先通過優(yōu)化長短記憶模型進行軌跡預測,然后基于進化理論將預測軌跡轉化為異常軌跡,從而構建了基于長短記憶模型的異常判別模型.該模型可以有效地識別業(yè)務異常和新型異常,提高了異常檢測的精準度和可擴展性,同時適用于無標簽數(shù)據,解決了傳統(tǒng)神經網絡必須應用于有監(jiān)督學習的問題.最后通過與改進的密度聚類算法和馬爾科夫過程的對比實驗驗證了該模型在交通軌跡異常檢測的優(yōu)越性.
關鍵詞:長短記憶模型;異常軌跡;交通大數(shù)據;深度學習
中圖分類號:TP273;U491? DOI:10.16375/j.cnki.cn45-1395/t.2021.02.010
0引言
隨著傳感器網絡和無線通信等新興技術的不斷發(fā)展,越來越多的軌跡數(shù)據被收集和保存,軌跡數(shù)據挖掘有助于找出移動對象隱藏的模式信息或行為意圖[1].異常軌跡數(shù)據挖掘是指識別隱藏在正常軌跡數(shù)據中的異常軌跡.異常軌跡不同于噪聲點,噪聲點會干擾挖掘工作,降低結果的有效性,而異常軌跡可能預示著有趣事件的發(fā)生,比如公共安全中的突發(fā)事件、交通事故、高速逃費行為等,從而具有更高的研究價值[2].
根據實現(xiàn)方法的不同,異常軌跡檢測方法可以分為4類:基于聚類的檢測方法、基于網格的檢測方法、 基于分類的檢測方法、基于統(tǒng)計學的檢測方法.
基于聚類的檢測方法是使用密度聚類、模糊聚類等方法,發(fā)現(xiàn)遠離主體軌跡的少部分軌跡.例如,文獻[3]先對軌跡進行切分分組,然后使用密度聚類方法找出異常軌跡.何明等[4]提出改進密度聚類與模式信息挖掘的異常軌跡識別方法,結合上海市與北京市出租車軌跡進行實驗,驗證了該算法的有效性.
基于網格的檢測方法是將城市路網劃分成均等大小的網格單元,從而識別出異常的網格單元序列.主要的實現(xiàn)方法有基于似然比統(tǒng)計量的檢測方法[5]和基于隔離機制的異常檢測方法[6].也有學者提出路網空間下基于馬爾科夫決策過程的異常軌跡檢測方法[7].
基于分類的檢測方法是使用有監(jiān)督的分類方法識別正常軌跡和異常軌跡.如俞慶英等[8]提出基于BP神經網絡的異常軌跡檢測方法.Li等[9]使用支持向量機進行特征學習,該方法可處理高維特征空間的異常檢測.
基于統(tǒng)計學的檢測方法是應用統(tǒng)計學相關理論進行異常檢測.例如,安計勇等[10]提出一種多因素異常檢測集成算法.首先通過統(tǒng)計數(shù)據分布給每種特征賦予一個異常分值,然后利用組合函數(shù)對分值集成,由此進行最終異常檢測.汪霜霜等[11]研究了一種車輛軌跡學習自適應稀疏重構方法,以識別一場車輛運動模式.
綜上所述,異常軌跡領域已有很多研究成果,為數(shù)據挖掘和智能交通提供了重要的理論基礎和應用支撐.但是上述研究存在以下兩個問題:1)基于聚類或分類的方法都沒有考慮時序問題,交通軌跡是時序數(shù)據,分析軌跡時序有助于提高異常檢測有效性;2)業(yè)務異常問題,現(xiàn)有的方法大多是根據歷史數(shù)據中正常軌跡和異常軌跡的距離來判斷是否異常,但是并沒有考慮過業(yè)務異常問題,因此無法有效識別業(yè)務異常.為解決上述問題,本文提出基于長短記憶模型的異常軌跡檢測方法.首先優(yōu)化長短記憶模型預測下一階段軌跡,在已預測出的軌跡數(shù)據中進行特征值的變異從而形成異常軌跡,再將正常軌跡和異常軌跡輸入神經網絡模型進行訓練,最終形成基于長短記憶模型的異常軌跡檢測方法.該模型解決了傳統(tǒng)算法在識別業(yè)務異常時需要大量有標簽數(shù)據的問題,并且在異常檢測時加入變異因子,提高了模型在識別新型異常時的有效性.
1相關定義
車輛行駛軌跡本質是多屬性的時間空間點序列,聚類等方法是使用距離來判別異常,該方法可以有效地判別數(shù)值異常,也就是在數(shù)值上偏離大部分軌跡的異常軌跡,而無法判斷業(yè)務異常. 比如高速路上大貨車的行駛軌跡,兩段路程中車輛載重變化在核定載重范圍內浮動都屬正常,但是速度變化過大則有可能是超速,屬于異常事件,因此不能僅僅以兩條軌跡的距離來判斷是否異常,以非線性的判別方式更符合需求.
1.1?? 軌跡基本定義
軌跡數(shù)據集中包含多輛車的多條軌跡.假設車輛軌跡數(shù)據集[CTD={CT1, CT2, …, CTi, …, CTn}],[i=0, 1, …, n].每輛車的軌跡數(shù)據集合可以表示為:[CTi={Ti1, Ti2, …, Tij, …, Tim}],[j=0, 1, …, m].單條軌跡[T]又包含相關特征,表示為:[Tj=(pj1, pj2, …, pjs, tj)],[t0 軌跡[T]包含地理位置、速度、平均速度、時長、載重等相關特征. 1)地理位置:該特征表明車輛的行駛路線,可能是車輛所在的經緯度,也可以是車輛的出發(fā)地點.地理位置標志著車輛在運動空間內的位置移動情況. 2)速度:速度指的是在某個時刻車輛的行駛速度,一般是使用GPS等設備采集. 3)平均速度:該特征表示在某一段時間內車輛運行的平均速度. 4)時長:表明車輛從軌跡的出發(fā)點到某個位置的行駛時長. 5)載重:表示車輛所載重量.比如高速路上貨車的載重量是判斷異常的指標之一;出租車是否載人也有助于判斷出租車軌跡是否異常. 除上述特征之外,還有加速度、轉角等可用于識別軌跡異常,根據實際情況不同,可選擇不同的特征. 1.2?? 異常相關定義 文中根據軌跡異常情況不同,將異常分為數(shù)值異常和業(yè)務異常. 1)數(shù)值異常 數(shù)值異常(data anomaly,DA)也可稱為線性異常,指與正常軌跡的距離超過某個閾值的異常軌跡.可如下定義: [Ti-Ta≥Av]? (1) 式(1)中:假設[Ti]為正常軌跡,[Av]為設定的閾值,[·]為距離度量,可以是歐式距離或者Hausdorff等距離度量方式.如果兩條軌跡滿足式(1),則[Ta]為數(shù)值異常軌跡. 在實際業(yè)務中,有可能出現(xiàn)距離度量無法判別異常軌跡.例如一輛貨車在高速公路的正常行駛軌跡為120 km/h,載重20 t,該軌跡可表述為(120,20).假如軌跡變換為(120,40),沒有超出載重范圍,因此該軌跡仍然為正常軌跡,但是如果軌跡變?yōu)椋?40,20),則被認為是超速,視為不安全駕駛行為,由此該軌跡檢測為異常軌跡.雖然上述假設的兩條軌跡與原始軌跡的距離一樣,但是前者為正常,后者為異常.文中將此類異常定義為業(yè)務異常. 2)業(yè)務異常 業(yè)務異常(business anomaly,BA)也可稱為非線性異常,指正常軌跡和異常軌跡經過某個非線性函數(shù)映射為指定值,例如1或者0.文中設置1為異常值,而0為正常值.于是,業(yè)務異常可定義如下: [F(Ta)=1],[F(Ti)=0](2) 式(2)中:[F]為非線性函數(shù);[Ti]為正常軌跡.如果滿足式(2),則[Ta]為業(yè)務異常軌跡. 識別業(yè)務異常類似于分類算法,但是和分類不同之處在于,一方面異常數(shù)據大多是無標簽數(shù)據,而且異常數(shù)據量較少.另一方面,業(yè)務異常是從數(shù)值上變換而來,通過業(yè)務分析也可以捕捉到業(yè)務異常,此方法比有監(jiān)督的分類算法更靈活,更適合于快速變換的數(shù)據模式.由于業(yè)務異常分析比分類或數(shù)值異常更復雜,因此需要進行深入研究,建立有效的異常判別模型. 2異常挖掘模型 本文首先將軌跡點[(T1, T2, …, Ti-1)]輸入到長短記憶模型預測出軌跡[Ty],[Ty]是[Ti]的預測軌跡,然后在軌跡[Ty]基礎上加入變異因子生成異常軌跡[Ta],再將正常軌跡[Ti]和異常軌跡[Ta]輸入到邏輯回歸模型中進行異常檢測訓練,最終構建了基于長短記憶模型的異常判別檢測框架. 2.1長短記憶模型 長短記憶模型(long short term memory,LSTM)是循環(huán)神經網絡(recurrent neural network,RNN)的擴展.RNN不同于傳統(tǒng)神經網絡之處在于其輸入和輸出序列之間的映射過程中利用了上下文相關信息.RNN是由輸入層、一個隱含層和一個輸出層組成,展開之后的結構如圖1所示. 由圖1可知,[x]是輸入向量;h是隱含層,該層其實是多個節(jié)點,節(jié)點數(shù)與h的維度相同;[U]和[V]分別表示輸入層和隱含層的權重矩陣;[o]表示輸出層的值.從RNN的結構可看出,隱含層h的值不僅取決于當前的輸入[x],還取決于上一次隱含層的h值.權重矩陣[W]為上一次隱含層的值作為這一次的輸入權重.可以用以下公式來表示RNN的計算方法: [st=f(Uxt+Wst-1)]?? (3) [ot=g(Vst)]?? (4) 式(3)、式(4)中:[g]和[f]都是激活函數(shù).從以上公式可以看出RNN的輸出值受前面歷次輸入值的影響.但是RNN存在著梯度消失或梯度爆炸等問題[12],為解決上述問題LSTM誕生了[13]. LSTM通過設計記憶單元保存歷史信息,記憶單元包括輸入門、遺忘門、輸出門等主要部分[14].LSTM可以選擇遺忘或更新記憶單元存儲的信息,由于LSTM考慮輸入對應輸出之間的時間滯后性,使得該網絡可以處理和預測時間序列中間隔和延遲相對較長的重要事件.LSTM關鍵的擴展是使自循環(huán)的權重視上下文而定,而不是固定的. LSTM通過設計“門”的結構來遺忘或增加信息到細胞狀態(tài)的能力.門是一種讓信息選擇式通過的方法,其包含一個sigmoid函數(shù)和一個pointwise乘法操作.Sigmoid層輸出[0,1]之間的數(shù)值,描述每個部分的通過量.0表示不許任意量通過,1表示允許任意量通過. 由于車輛軌跡具有變換性,比如經過很長一段時間直線行駛之后轉彎,因此軌跡數(shù)據帶有一定的不平衡性.為避免軌跡預測時偏向大類數(shù)據,本文提出對LSTM模型優(yōu)化,在原有的結構中加入變換門,從而提高預測精度.優(yōu)化之后的結構如圖2所示. 2.2?? 異常挖掘模型 LSTM可以保存歷史信息,獲取時間序列的特征,因此,使用LSTM進行軌跡預測有助于提高預測結果的精確度.假設[(T1, T2, …, Ti-1, Ti)]為某輛車的行駛軌跡,Lstm為長短記憶模型,[Ty]是[Ti]的預測軌跡,則預測模型可表示如下. [Ty=Lstm(T1, T2, …, Ti-1)]?? (13) 在預測軌跡的基礎上對軌跡進行變異形成異常軌跡.軌跡變異的思想主要來源于進化算法,與進化算法不同之處在于,進化算法是為尋找最優(yōu)解,而文中的變異相對較為簡單,其目標是獲得不同于正常軌跡的異常軌跡. 假設s為軌跡的特征數(shù),則每次隨機選擇m個特征進行變異,其中[m≤s/3].假設[pi]為被選中的特征之一,[1≤i≤m],[pmin]和[pmax]分別為該特征的最小值和最大值.則[pi]的變異過程如下: