史達亨,劉立剛,周斌,卜智勇
(1 中國科學院上海微系統(tǒng)與信息技術研究所 中國科學院無線傳感網與通信重點實驗室, 上海 200050; 2 中國科學院大學, 北京 100049)
通常室外環(huán)境下利用衛(wèi)星導航定位系統(tǒng)可以提供精確的地理位置,但衛(wèi)星信號微弱,易被遮蔽,例如在城市峽谷、隧道及室內等場合定位誤差過大而無法使用。指紋定位方法基于無線信號傳播對環(huán)境的依賴性,在不同位置的無線電信號具有獨特的可分辨特征,因此可利用這些信號特征將位置對應起來。指紋定位的這些特點使其適合應用在室內等復雜環(huán)境。其中文獻[1]首次提出使用信號強度信息進行定位,它將定位分為2個階段:離線階段,在選定參考點采集無線信號并提取信號特征來構建指紋庫;在線階段,實時分析采集的信號特征并與指紋庫中的數(shù)據(jù)進行匹配來實現(xiàn)定位。文獻[2-3]將位置估計作為概率問題來研究,通過概率方法估計位置。文獻[4-5]采用機器學習中的支持向量機和集成學習方法對離線階段的指紋數(shù)據(jù)進行訓練,在在線階段進行分類預測。文獻[6-8]利用深度學習以及卷積神經網絡訓練無線信號指紋模型后進行位置估計。
傳統(tǒng)的指紋定位方法都假設采集的無線信號數(shù)據(jù)的分布基本保持不變,但由于人員的流動以及環(huán)境變化等因素的影響,經過一段時間后采集的信號分布并不相同,這使得經過一段時間后由于指紋庫不能及時更新導致定位誤差變大。針對這種問題,文獻[9-10]提出采用眾包的方式更新指紋庫,這種方法利用公眾采集數(shù)據(jù),持續(xù)更新指紋庫,但公眾的位置信息可能存在誤差,且這種誤差會積累在指紋庫中。文獻[11-13]提出結合慣性導航或地磁傳感器進行多源融合定位以補償指紋定位由于信號時變性帶來的誤差影響,但慣性導航方法會產生積累誤差,需要慣性測量單元具有較高的精度。在室內定位中常用的行人航位推算(pedestrian dead reckoning, PDR)方法受到慣導的積累誤差使得定位誤差逐步加大,文獻[14-19]通過融合無線信號指紋定位與地磁傳感器等進行多源融合定位,以補償慣導航位推算的積累誤差。
由于上述指紋定位方法的不足,文獻[20]研究了將遷移學習應用在指紋定位中,利用半監(jiān)督隱馬爾可夫模型將已知模型遷移到新模型,從而減少無線信號指紋在不同時間校準的工作量。文獻[21]則應用遷移學習,將完整構建的指紋庫遷移到其他的室內環(huán)境,使得其無需重新構建完整的無線指紋庫即可定位。遷移學習的核心問題是找到新問題與原問題的相似性,以便實現(xiàn)知識的遷移。領域自適應問題是遷移學習的研究內容之一,它側重于解決特征空間一致、類別空間一致,僅特征分布不一致的問題。指紋變化具有與其相同的問題,故可應用領域自適應的方法減少指紋變化帶來的影響。文獻[22]提出一種數(shù)據(jù)邊緣分布自適應的方法(transfer component analysis,TCA)。TCA方法的目標是通過最大均值差異學得一個可再生希爾伯特空間上的特征映射,使得映射后的數(shù)據(jù)分布接近。但TCA方法只考慮了數(shù)據(jù)的邊緣分布自適應。文獻[23]提出同時適配數(shù)據(jù)的邊緣分布與條件分布的聯(lián)合分布自適應方法(joint distribution adaptation,JDA)。JDA方法的邊緣分布適配與TCA相同,在適配條件分布時通過生成偽標簽來近似邊緣分布。但JDA方法未考慮邊緣與條件分布自適應在領域自適應中的貢獻并不一定是相等的。文獻[24]提出了平衡分布自適應方法(balanced distribution adaptation,BDA)。BDA方法在JDA方法的基礎上添加了平衡因子來動態(tài)地調整邊緣分布與條件分布的重要性。雖然BDA方法首次給出了邊緣分布與條件分布在領域自適應中貢獻度的定量估計,但并未解決平衡因子的精確計算問題,在某些情況下效果與JDA類似,而且正確性無法保證。
相對于數(shù)據(jù)分布的適配,流形學習也是領域自適應的一個重要的方向。它的基本假設是,現(xiàn)有的數(shù)據(jù)是從高維空間中采樣出來的。所以,它具有高維空間中的低維流形結構。而且由于在流形空間中的特征通常都有著良好的幾何性質,可以避免扭曲,因此可以將原始空間中的特征變換到流形空間中。文獻[25]提出采樣測地線流(sampled geodesic flow,SGF)方法,它利用兩點間測地線在流形空間中距離最短,將源域與目標域看作流形空間中的2個點,在兩點間求出測地線就能將源域變換到目標域。文獻[26]在SGF方法的基礎上提出測地線流核(geodesic flow kernel,GFK)方法。GFK方法提出一種核學習方法,GFK方法學得2個領域子空間中的差異以及共同特征的增量變化,并給出2個領域之間不變性的低維表示。通過這種低維表示對數(shù)據(jù)進行變換,可實現(xiàn)不同領域的遷移。
針對上述問題,本文提出一種結合多種無線信號源的跨時間測地線流核融合定位方法。首先,對多源無線信號進行多輪次的樣本及特征的隨機采樣融合,該方法不僅為指紋庫的構建提供了比單一信號源更豐富的信號特征,同時也增加了樣本及其特征的多樣性,減少定位精度在單一信號受到多徑衰落和快衰落時的影響。其次,每輪中將不同時間采集的數(shù)據(jù)作為源域和目標域計算測地線流核并加權融合,使得最終的核具有多個時間所采集數(shù)據(jù)的不變性的低維表示,并且根據(jù)權值的不同,每個測地線流核對最終的核具有不同的貢獻程度,融合不同時間的指紋特征不變性減少各種變化因素對指紋定位的影響。最后使用融合后的測地線流核對每一輪的源域數(shù)據(jù)進行變換,再對變換后的數(shù)據(jù)訓練一個基分類器,則最終的集成分類器由所有的基分類器組成。定位結果則是所有基分類器預測結果中投票數(shù)量最多的位置。多個基分類器之間的多樣性給集成分類器帶來更好的泛化能力。
假設位置空間L={l1,…,ln}。L定義為坐標x,y的集合L={l1=(x1,y1),…,ln=(xn,yn)},其中每一個元組(xi,yi)代表一個參考點。
圖1 GFK方法Fig.1 Principle of GFK
室內定位通常使用Wi-Fi、藍牙等信號的RSS值作為指紋特征,但這些方法需要部署大量的節(jié)點且覆蓋范圍有限。在室內以及室外均有大量的無線信號。這些無線信號的主要類型包括電視臺的廣播電視信號、廣播信號、移動基站的通信信號、雷達信號等。對于室內可接收的信號而言,相比于常用的Wi-Fi信號,數(shù)字廣播電視信號(digital video broadcast,DVB)、調頻廣播信號(frequency modulation,FM)、移動通信信號(cellular mobile communication,CMC)可以提供比Wi-Fi信號更廣的覆蓋范圍,且這些無線信號處于許可頻段,可以免受周圍設備發(fā)射的同頻干擾。
如圖2所示,本文通過將多個廣域無線信號的RSS數(shù)據(jù)融合在一起以提供更豐富的指紋特征。
圖2 同時接收DVB、FM、CMC的過程Fig.2 Receiving DVB, FM and CMC simultaneously
以DVB,F(xiàn)M與CMC信號為例,在離線階段信道化掃描這3種信號,設信道數(shù)分別為α、β和γ。當確定信道數(shù)后,在每個參考點采集3種信號源的接收信號強度。在構建指紋特征向量時,分別對3種信號源的N個數(shù)據(jù)樣本進行K次隨機抽樣。首先在原始數(shù)據(jù)集中的N個樣本隨機抽取n個樣本,其中n≤N。再對每個樣本在M個信道采集的數(shù)據(jù)隨機抽取m個數(shù)據(jù),其中m≤M,M∈{α,β,γ}。最后將3種信號源數(shù)據(jù)隨機抽樣后的n×m維數(shù)據(jù)拼接起來作為一個新數(shù)據(jù)集,記為
(1)
多源無線信號融合的時間復雜度為O(n×k),n為從N個樣本隨機抽取的樣本數(shù),K為重復隨機抽取的輪數(shù)。
1) 計算測地線流核
如圖3所示,當在不同時間采集到無線信號的RSS數(shù)據(jù)后,由于環(huán)境及信號的時變性導致不同時間點的RSS數(shù)據(jù)分布發(fā)生了變化。為降低數(shù)據(jù)分布變化對定位精度的影響,需要計算不同時間的無線信號指紋數(shù)據(jù)共同的不變性特征。由于需要在多個時段間遷移,故需計算多個測地線流核。
圖3 不同時間RSS數(shù)據(jù)分布對比Fig.3 Distribution of RSS between different times
記PSi,PTi∈RD×d為第i個源域Si與目標域Ti的子空間基,其中i=1,2,…,Nt,D,d為指紋的特征維度以及它的子空間維度。在Φi(0)=PSi,Φi(1)=PTi約束下的多個測地線流可以表示為Φi:t∈[0,1]→Φi(t)∈G(di,Di)。對于其他的t,測地線流可表示為
Φi(t)=PSiU1,iΓi(t)-RSiU2,i∑i(t).
(2)
(3)
由式(5)可得半正定矩陣Gi
(4)
其中Λi,1到Λi,3為對角矩陣,對角元素為
(5)
將所有得到的核組合到一起得到在不同時間中遷移的測地線流核集合
G=[G1,…,Gn,…,GN,G1,…,Gm,…,GM].
(6)
2) 計算分布差異度量
不同時間的RSS數(shù)據(jù)分布差異不同,在對測地線流核進行融合的時候需要考慮2個域的測地線流核對最終核的重要程度。分布差異度量是度量2個數(shù)據(jù)分布之間的差異,它可以判斷2個數(shù)據(jù)分布之間是否相似。
Wasserstein距離[27]是一種衡量2個概率分布距離的度量方法。
(7)
其中:Γ(S,T)是以S,T為邊緣分布的所有可能的聯(lián)合分布的集合,(x,y)~μ代表從中采樣出的一對樣本,p為p范數(shù)。針對這對樣本,將x搬移到y(tǒng)處所需的距離是ρ(x,y),然后計算在該聯(lián)合分布μ下樣本對距離的期望。在所有可能的聯(lián)合分布期望的下確界即2個分布之間的距離。即使2個分布的支撐集沒有重疊或者重疊很少,Wasserstein距離仍然能反應2個分布的遠近。
3) 多核融合
相比于單核模型,多核模型具有更高的靈活性。經過多個核函數(shù)映射后的高維空間是由多個特征空間組合而成的組合空間。組合空間可以組合各個子空間不同的特征映射能力,能夠將異構數(shù)據(jù)中的不同特征分量分別通過合適的單個核函數(shù)進行映射,最終使得數(shù)據(jù)在新的組合空間中能夠得到更加準確、合理的表達,進而提高樣本數(shù)據(jù)的分類正確率。
本文對核矩陣進行線性加權平均,權值為歸一化后的分布差異度量值的倒數(shù)。記權值為WSiTj,i=1,…,Nt,j=1,…,Nt,最后的核矩陣為
(8)
GFK方法是一種子空間學習方法,子空間學習方法假設源域與目標域變換到子空間后具有相似的分布。當將源域和目標域變換到Grassmann流形中,特征變換和分布適配通常都有等效的數(shù)值形式,因此可以很好地被求解。
對于高維的廣域多源無線信號指紋特征數(shù)據(jù),通過子空間變換得到相似的分布而不需要對不同領域的數(shù)據(jù)分布進行對齊。計算源域與目標域的不變性特征的低維表示即可學習不同時間無線信號指紋內在的共同特征,且計算簡便。GFK方法是一種無監(jiān)督遷移學習方法,不需要目標域具有標簽,也不需要像JDA方法生成偽標簽,通過GFK方法將特征變換到子空間還具有降維的特性。
領域自適應問題通常是在2個域之間進行遷移,GFK方法也僅是對2個領域進行遷移,但GFK方法最終計算出的半正定矩陣核適用多核學習方法。當涉及多個領域之間的遷移可以通過多核學習的方式將不同領域之間的不變性表示進行融合從而達到多領域自適應的目的。
算法的平均時間復雜度為O(nlogn),n為待遷移的領域數(shù)量。
實驗中使用的是AmbiLoc[28]數(shù)據(jù)集。數(shù)據(jù)集包含一年中23個時段收集到的DVB-T、FM、CMC信號RSS值。DVB信號的頻率范圍為498~602 MHz,信道寬度為8 MHz,共分為6個信道。FM信號的頻率范圍為87.5~108.5 MHz,以100 kHz為一個頻段,共分為210個頻段。CMC為頻率范圍在925~960 MHz之間的GSM900信號,以200 kHz為一個頻段,共分為175個頻段,詳見表1、表2。參考點設置詳見表3與圖4。
表1 DVB-T, FM, CMC信號采樣設置Table 1 Sampling settings of DVB, FM, and CMC signals
表2 RSS指紋數(shù)據(jù)參數(shù)Table 2 RSS fingerprint parameters
表3 數(shù)據(jù)集參考點設置Table 3 Settings of reference points
圖4 辦公樓參考點分布位置Fig.4 Location of reference points in an office building
實驗選擇樣本數(shù)量最多的辦公樓數(shù)據(jù)集,以源域作為訓練集,目標域作為測試集。實驗將辦公樓中每個樓層的參考點進行分組,辦公樓的-2層參考點分為4組,0層分為4組,1層分為3組。首先對分組進行粗定位,再對組內的參考點進行精確定位。圖5展示了-2層參考點的分組劃分。其中藍色點為參考點,4個參考點為一組。決策樹的最大劃分數(shù)量為54,最小葉節(jié)點數(shù)量為1,共進行15輪訓練。實驗分別對無遷移、TCA、JDA與BDA方法的距離誤差結果進行對比,其中距離誤差使用Haversine方法進行計算。
數(shù)據(jù)集中辦公樓-2層、0層、1層的定位距離誤差累積分布函數(shù)(cumulative distribution function,CDF)如圖6所示。從實驗結果中看,本文提出的跨時間多測地線流核融合方法比直接使用決策樹方法及其他遷移學習方法都有更好的表現(xiàn)。
從圖6中可以看出MKFGFK方法與決策樹的定位距離誤差的比較中積累分布為90%時分別提高10.86%、12.81%和22.67%。在與TCA之間的定位距離誤差的比較中積累分布為90%時分別提高6.19%、12.81%和15.97%。與JDA之間的距離誤差比較中在積累分布為90%的時候分別提高10.86%、19.62%和30.39%。在與BDA之間的距離誤差比較中在積累分布為90%的時候分別提高10.86%、20.06%和34.05%。
圖5 辦公樓-2層參考點分組Fig.5 Groups of reference points on -2nd floor
圖6 辦公樓定位距離誤差對比Fig.6 Comparison of positioning distance errors in office buildings
表4為使用MKFGFK、決策樹、TCA、BDA與JDA方法進行定位的平均距離誤差表。從表中可以看出,由于0層的參考點及樣本數(shù)量比其他樓層多,使得其平均距離誤差相對較小。在-2層參考點及樣本數(shù)量較少的情況下,MKFGFK方法的平均距離誤差仍可比直接使用決策樹方法減小7.38 m。BDA方法通過計算平衡因子來選取適配邊緣分布與條件分布的重要性。
表4 平均定位距離誤差Table 4 Average distance error of positioning m
實驗結果中BDA與JDA性能基本相同,表明BDA退化為了JDA,又由于JDA的偽標簽準確率較低,使得結果均差于其他方法。TCA方法適配了2個領域數(shù)據(jù)的邊緣分布,但由于不需要預測偽標簽,結果好于BDA與JDA。MKFGFK方法無需考慮數(shù)據(jù)的邊緣分布或條件分布的相似性,通過融合多個領域的不變性特征,利用不變性特征直接對數(shù)據(jù)進行變換,從而得到更穩(wěn)定的定位結果。
本文提出一種多源無線信號跨時間測地線流核融合的指紋定位方法,以降低指紋定位在無線信號受到環(huán)境變化及信號時變等因素影響下定位誤差。本方法通過融合多種來源的無線信號,相比傳統(tǒng)方法使用單一信號源增加了信號指紋特征的數(shù)量??鐣r間的測地線流核融合將不同時段之間無線信號的不變性特征都融合在一起,增強了指紋定位在時變環(huán)境下的穩(wěn)定性。分類器集成通過對多個隨機采樣得到的樣本及特征訓練基分類器,學習不同樣本間的差異性從而提高整體分類器的泛化性能,獲得更高的定位精度。