李衛(wèi)東 高櫻鶯
(大連交通大學(xué)電氣信息學(xué)院 大連 116028)
近年來(lái),基于北斗Ⅱ衛(wèi)星的定位技術(shù)憑借著其操作簡(jiǎn)便、效率高、精度高的優(yōu)勢(shì),逐漸成為采集軌道定位數(shù)據(jù)的主流方式之一[1]。利用軌道電子地圖可視化,車載設(shè)備可以了解線路信息[2];列車定位系統(tǒng)可以對(duì)定位傳感器的輸出進(jìn)行校驗(yàn),檢測(cè)故障;通過(guò)地圖匹配,可以有效地校正定位誤差并提高整個(gè)系統(tǒng)的完整性;在電子地圖中保存應(yīng)答器及信號(hào)機(jī)的信息,可以實(shí)現(xiàn)虛擬應(yīng)答器和虛擬信號(hào)機(jī),從而大大降低列車定位系統(tǒng)的成本[3]。因此,擬合高精度軌道曲線數(shù)據(jù)將對(duì)列車定位起到重要作用。
由于鐵路線路往往是沿線穿越城市、平原、高山和河流等,這些環(huán)境因素會(huì)導(dǎo)致獲取的軌道定位數(shù)據(jù)出現(xiàn)誤差。利用北斗Ⅱ衛(wèi)星的定位技術(shù)獲取軌道定位數(shù)據(jù)時(shí),因?yàn)樾l(wèi)星的星歷及時(shí)鐘的誤差、用戶接收機(jī)精度的誤差、電離層信號(hào)的傳播延遲及多路徑效應(yīng)等,使得衛(wèi)星信號(hào)、傳輸信號(hào)和地面設(shè)備接收的信息均有誤差,所以定位精度僅為0m~10m(95%置信度)[4]。采集的大量基礎(chǔ)數(shù)據(jù)不可避免地存在誤差及異常,使得測(cè)量數(shù)據(jù)的可靠性和可用性下降。在擬合曲線之前都需要對(duì)基礎(chǔ)數(shù)據(jù)通過(guò)人工剔除、采用小波變化去噪、采用卡爾曼分別對(duì)多次采集同一軌道數(shù)據(jù)濾波等方法,方能得到準(zhǔn)確的列車位置信息。
針對(duì)測(cè)量數(shù)據(jù)構(gòu)造擬合曲線的常用方法有Fer-guson曲線、三次Bezier曲線及B樣條曲線等[5],在實(shí)際應(yīng)用中這些方法都是只能對(duì)一條曲線處理,但在實(shí)際生活中的鐵軌往往是橫縱復(fù)雜,在交叉軌道處和平行軌道的地方均會(huì)有兩條或者兩條以上的線路組成,因此在處理中計(jì)算復(fù)雜度增加[6]。在本文中采用邏輯回歸改進(jìn)模型正是利用了數(shù)據(jù)的誤差特性來(lái)實(shí)現(xiàn)高精度軌道數(shù)據(jù)生成,提出在線學(xué)習(xí)的邏輯回歸改進(jìn)模型,在同一時(shí)間能對(duì)多條軌道曲線擬合,在保證精準(zhǔn)度的同時(shí)降低時(shí)間復(fù)雜度。在邏輯回歸中,引入二分類概念,將定位位置信息在曲線左邊位置點(diǎn)含有縱軸正誤差,定義為正向類;將曲線右邊位置點(diǎn)含有縱軸負(fù)誤差,定義為負(fù)向類,通過(guò)最速下降法優(yōu)化加快收斂曲線擬合生成軌道曲線數(shù)據(jù),該改進(jìn)算法不受外界環(huán)境影響,在隧道等信號(hào)較弱環(huán)境中仍然適用的優(yōu)點(diǎn)[7]。
列車軌跡的生成主要通過(guò)歷史定位數(shù)據(jù)訓(xùn)練模型,邏輯回歸擬合出一條曲線h,用這條直線對(duì)新的定位數(shù)據(jù)進(jìn)行預(yù)測(cè)。其中X 表示歷史定位數(shù)據(jù)點(diǎn)集,θ表示曲線系數(shù)集合。
在邏輯回歸中,首先引入二分類概念,將歷史定位位置信息在標(biāo)準(zhǔn)軌道曲線左邊位置點(diǎn)含有縱軸正誤差ε,定義為正向類;將曲線右邊位置點(diǎn)含有縱軸負(fù)誤差-ε,定義為負(fù)向類。則因變量y∈{0 ,1} ,其中0 表示負(fù)向類,1 表示正向類,利用歷史帶有{0,1}標(biāo)簽的數(shù)據(jù)訓(xùn)練,構(gòu)造決策函數(shù),構(gòu)造邏輯回歸模型所做的假設(shè)是:
這里的g(h)是sigmoid函數(shù),其數(shù)學(xué)形式是:
相應(yīng)的決策函數(shù)為y*=1,if P(y=1|x)>0.5,選擇0.5 作為閾值是一個(gè)一般的做法,實(shí)際應(yīng)用時(shí)根據(jù)實(shí)際情況可以選擇不同閾值,如果對(duì)正例的判別準(zhǔn)確性要求高,可以選擇閾值大一些;如果對(duì)正例判別準(zhǔn)確性要求低,則反之[8]。
由于線性回歸是連續(xù)的,可以使用模型誤差的的平方和來(lái)定義損失函數(shù)求解參數(shù)。但是邏輯回歸不是連續(xù)的,自然線性回歸損失函數(shù)定義的經(jīng)驗(yàn)就用不上了。不過(guò)可以用最大似然法來(lái)推導(dǎo)出損失函數(shù)。確定了模型的數(shù)學(xué)形式后,需要使用最大似然估計(jì),即找到一組參數(shù),使得在這組參數(shù)下,我們的數(shù)據(jù)的似然度(概率)越大,去求解模型中的參數(shù)[9]。
按照二元邏輯回歸的定義,假設(shè)樣本輸出是0或者1兩類。那么:
把這兩個(gè)式子寫成一個(gè)式子,就是:
在模型中,似然度可表示為式(6)。
等式兩邊同時(shí)取對(duì)數(shù)可以得到對(duì)數(shù)似然度:
在本文采用梯度下降法。梯度下降又叫作最速梯度下降,是一種迭代求解的方法,通過(guò)在每一步選取使目標(biāo)函數(shù)變化最快的一個(gè)方向調(diào)整參數(shù)的值來(lái)逼近最優(yōu)值?;静襟E如下:
1)選擇下降方向(梯度方向,?J(θ));
2)選擇學(xué)習(xí)率,更新參數(shù)θi=θi-1αi?J(θi-1);
3)重復(fù)以上兩步直到滿足終止條件。
其中損失函數(shù)的梯度計(jì)算方法為
沿梯度負(fù)方向選擇一個(gè)較小的步長(zhǎng)可以保證損失函數(shù)是減小的,另一方面,邏輯回歸的損失函數(shù)是凸函數(shù),可以保證我們找到的局部最優(yōu)值同時(shí)是全局最優(yōu)[10]。
對(duì)于該算法改進(jìn)問(wèn)題,存在多種思路[11],為了求得確定多條列車軌道軌跡(判定邊界),很容易可以從sigmoid 函數(shù)看出,當(dāng)θT X>0 時(shí),y=1,否則y=0。θT X=0 是模型隱含的分類平面,在高維空間中,我們說(shuō)是超平面。邏輯回歸本質(zhì)上是一個(gè)線性模型,但是,這不意味著只有線性可分的數(shù)據(jù)能通過(guò)LR求解,實(shí)際上,可以通過(guò)特征變換的方式把低維空間轉(zhuǎn)換到高維空間,而在低維空間不可分的數(shù)據(jù),到高維空間中線性可分的幾率會(huì)高一些[12]。
改進(jìn)算法利用高斯貝葉斯模型先對(duì)數(shù)據(jù)的聯(lián)合分布建模,再通過(guò)貝葉斯公式來(lái)計(jì)算樣本屬于各個(gè)類別的后驗(yàn)概率,生成模型和判別模型:
通常假設(shè)P(x|y)是高斯分布,P(y)是多項(xiàng)式分布,相應(yīng)的參數(shù)都可以通過(guò)最大似然估計(jì)得到[13]。在本文中涉及的是正誤差和負(fù)誤差定位點(diǎn)數(shù)據(jù),只存在二分類問(wèn)題,通過(guò)簡(jiǎn)單的化簡(jiǎn)可以得到:
其中μ1μ0代表正、負(fù)類數(shù)據(jù)集平均數(shù),σ1σ0代表正、負(fù)類數(shù)據(jù)集方差,如果σ1=σ0,二次項(xiàng)會(huì)抵消,我們得到一個(gè)簡(jiǎn)單的線性關(guān)系:
由上式進(jìn)一步可以得到:
在實(shí)際應(yīng)用中,往往只知道北斗衛(wèi)星定位系統(tǒng)采集的大量基礎(chǔ)數(shù)據(jù),不可避免地存在誤差及異常,使得測(cè)量數(shù)據(jù)的可靠性和可用性下降。
1)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)點(diǎn)集作為在線學(xué)習(xí)輸入,訓(xùn)練生產(chǎn)軌跡曲線數(shù)據(jù)模型。
2)先將獲取的列車位置信息根據(jù)歷史定位數(shù)據(jù)訓(xùn)練模型判斷正負(fù)誤差后二分類。
3)通過(guò)最速下降法加快收斂曲線擬合,擬合出誤差最小的列車軌道曲線數(shù)據(jù)。
列車軌道擬合準(zhǔn)確性是由歷史定位數(shù)據(jù)準(zhǔn)確度和在線學(xué)習(xí)模型參數(shù)共同決定的。其中在隧道等信號(hào)較弱的地方獲取的位置信息為缺失或者錯(cuò)誤信息是整個(gè)列車位置估計(jì)誤差主要來(lái)源[14]。為了驗(yàn)證算法的有效性及合理性,在本文根據(jù)北斗Ⅱ衛(wèi)星接收機(jī)設(shè)置2s 接收一次數(shù)據(jù)[15],以哈爾濱西站的經(jīng)緯度坐標(biāo)為起點(diǎn)基準(zhǔn)位置,列車實(shí)際運(yùn)行139.86km,列車最高時(shí)速200km/h,平均車速為99.90km/h 的條件下,北斗Ⅱ衛(wèi)星接收機(jī)設(shè)置2s 接收一次數(shù)據(jù),以哈爾濱西站的經(jīng)緯度坐標(biāo)為起點(diǎn)基準(zhǔn)位置,列車實(shí)際運(yùn)行139.86km,分別采集了3 個(gè)歷史時(shí)刻的數(shù)據(jù)組,共1800 個(gè)北斗Ⅱ衛(wèi)星的測(cè)量數(shù)據(jù)點(diǎn),其中1200 個(gè)訓(xùn)練數(shù)據(jù)訓(xùn)練模型,600 個(gè)測(cè)試數(shù)據(jù),過(guò)程如下[16]:
1)將測(cè)量數(shù)據(jù)從CGCS2000 坐標(biāo)系轉(zhuǎn)換到BJ-54坐標(biāo)系
我國(guó)北斗定位系統(tǒng)采用的是CGCS2000 坐標(biāo)系,而在實(shí)際應(yīng)用中GIS 數(shù)字地圖采用的主要是BJ-54 坐標(biāo)系[17]。因此,北斗衛(wèi)星測(cè)量的結(jié)果不能直接使用,必須經(jīng)過(guò)相應(yīng)的坐標(biāo)轉(zhuǎn)換。本文采用三參數(shù)轉(zhuǎn)換法,將CGCS2000 坐標(biāo)系統(tǒng)轉(zhuǎn)換到BJ-54坐標(biāo)系,其轉(zhuǎn)換參數(shù)可以采用WGS-84 坐標(biāo)系統(tǒng)到BJ-54 坐標(biāo)系統(tǒng)的轉(zhuǎn)換參數(shù),在坐標(biāo)變換的過(guò)程中不可避免的會(huì)產(chǎn)生一些誤差,一般認(rèn)為由坐標(biāo)轉(zhuǎn)換帶來(lái)的誤差不超過(guò)10m[18]。本文將北斗衛(wèi)星測(cè)得的經(jīng)緯度信息轉(zhuǎn)換成公里標(biāo)的結(jié)果如表1所示[19]。
表1 坐標(biāo)轉(zhuǎn)換結(jié)果
2)BJ-54坐標(biāo)轉(zhuǎn)換相同尺度坐標(biāo)
在面對(duì)多維特征問(wèn)題的時(shí)候,為了梯度下降算法更快地收斂,需要通過(guò)式(10)保證這些特征都具有相近的尺度[20]。
其中,μn為數(shù)組{x1,x2,x3,…xn} 的平均數(shù),Sn為數(shù)組{x1,x2,x3,…xn} 的標(biāo)準(zhǔn)差。
表2 同標(biāo)準(zhǔn)尺度下坐標(biāo)
首先我們將歷史定位數(shù)據(jù)通過(guò)訓(xùn)練模型進(jìn)行二分類如圖1 示,然后通過(guò)最速下降法求解參數(shù)擬合列車軌道曲線如圖2 所示,并且與未改進(jìn)算法比較結(jié)果如表3所示。
圖1 一般軌道定位數(shù)據(jù)二分類圖
圖2 一般曲線軌道擬合
表3 實(shí)驗(yàn)集誤差評(píng)價(jià)指標(biāo)
1)平行軌道擬合
圖3 為平行軌道定位數(shù)據(jù)二分類圖,圖4 為平行軌跡擬合曲線,從圖5 中我們能看出在線學(xué)習(xí)方法對(duì)軌道擬合準(zhǔn)確度可以達(dá)到92.5%,步長(zhǎng)lambda有效可變范圍是0~0.03。
圖3 平行軌道定位數(shù)據(jù)二分類圖
圖4 平行軌道擬合
圖5 在平行軌道擬合中步長(zhǎng)lambda大小對(duì)機(jī)器學(xué)習(xí)準(zhǔn)確率關(guān)系
2)交叉軌道擬合
同上,圖6 為交叉軌道的定位數(shù)據(jù)二分類圖,圖7 為交叉軌道曲線擬合,從圖8 中我們能看出在線學(xué)習(xí)方法對(duì)軌道擬合準(zhǔn)確度可以達(dá)到93%,步長(zhǎng)lambda有效可變范圍是0~0.2。
圖6 交叉軌道的定位數(shù)據(jù)二分類圖
圖7 交叉軌道擬合
從仿真數(shù)據(jù)及驗(yàn)證的結(jié)果得出:
1)在一般曲線軌道、交叉軌道、平行軌道等復(fù)雜情況的可行性;在合理選擇收斂學(xué)習(xí)率限差,本文算法能夠快速、準(zhǔn)確擬合軌道曲線數(shù)據(jù),并保證擬合度準(zhǔn)確性達(dá)到90%以上,在實(shí)際應(yīng)用中有一定價(jià)值。
圖8 在交叉軌道擬合中學(xué)習(xí)率lambda大小對(duì)機(jī)器學(xué)習(xí)準(zhǔn)確率關(guān)系
2)分析得出在兩條曲線以上且相關(guān)度越高的情況下,如:交叉軌道、平行軌道,學(xué)習(xí)率Lambda變化對(duì)軌道擬合準(zhǔn)確度越敏感,有效變動(dòng)范圍越小。
3)邏輯回歸改進(jìn)算法解決了多條曲線擬合問(wèn)題,簡(jiǎn)約了曲線擬合時(shí)間復(fù)雜度,克服了局部極值;不受外界環(huán)境影響,在隧道等信號(hào)較弱環(huán)境中仍然適用。
本文針對(duì)采集的歷史定位數(shù)據(jù)擬合列車定位軌道曲線數(shù)據(jù)問(wèn)題,提出改進(jìn)的在線學(xué)習(xí)的邏輯回歸模型,通過(guò)最速下降法優(yōu)化加快收斂曲線擬合軌道數(shù)據(jù)及軌道線路表示。仿真數(shù)據(jù)驗(yàn)證結(jié)果表明,本文所述算法能夠以較高的擬合精度實(shí)現(xiàn)軌道線路描述,且研究學(xué)習(xí)率Lambda 變化對(duì)擬合度的影響,大大降低多條曲線擬合時(shí)間復(fù)雜讀,為高效高性能的列車定位及列車運(yùn)行控制提供支撐和保障。在今后的研究方向是將該算法結(jié)合GIS(Geographic Information Systems,地理信息系統(tǒng))技術(shù),生成軌道曲線電子地圖[21]。