張水艦 王芳
摘 要: 實時交通信息在交通誘導(dǎo)中有著重要的作用,然而與之不相適應(yīng)的是大量的實時語言交通信息沒得到有效應(yīng)用。針對這一問題,分析了自然語言交通信息的表達特點,得出了自然語言交通信息中地理位置的表達方式,提出了針對自然語言交通信息的最大匹配分詞算法;提出了自然語言交通信息與位置信息的匹配融合方法,并通過實例對該方法進行了測試,結(jié)果表明,該方法能對自然語言交通信息與交通網(wǎng)絡(luò)進行有效的融合。
關(guān)鍵詞: 實時交通信息; 信息融合; 自然語言理解; 交通網(wǎng)絡(luò)
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2014)02-42-03
0 引言
隨著經(jīng)濟的穩(wěn)步發(fā)展、人口的持續(xù)增長和城市化進程的加快,城市機動車擁有量和道路交通量急劇增加,交通擁堵問題日益嚴重,由此引發(fā)的交通安全和環(huán)境污染,已嚴重影響了人們的日常出行,并成為制約城市社會和經(jīng)濟發(fā)展的瓶頸問題。如何讓出行變得更為有效、方便和快捷已成為世界難題。調(diào)節(jié)出行需求,進行實時動態(tài)交通誘導(dǎo),就成為交通擁堵問題解決的有效途徑[1-2]。
動態(tài)交通誘導(dǎo)依賴于實時交通信息。實時交通信息實現(xiàn)動態(tài)路況信息的實時播報,傳達道路擁擠、通暢等信息,可以更好地指導(dǎo)人們的出行,一直以來備受國內(nèi)外關(guān)注。移動通訊、互聯(lián)網(wǎng)技術(shù)等現(xiàn)代通信技術(shù)使得實時交通信息呈現(xiàn)了信息獲取的廣泛性、信息載體的多樣性和信息發(fā)布的高頻性等特點,如交通廣播電臺每天以一定的頻率播送大量的實時交通信息,因特網(wǎng)也發(fā)布大量的實時交通信息,出行者可以方便地接收到這些信息。然而與之不相適應(yīng)的是,出行者獲取自然語言實時交通信息后只能憑經(jīng)驗調(diào)整行駛路徑,這使得大量的實時交通信息使用效率極低。原因之一是自然語言交通信息是以語義來表達地理位置,信息的接收者不能準確地判斷實時交通信息對交通狀況的影響,所以要提高自然語言交通信息的使用效率,就要使自然語言交通信息與交通網(wǎng)絡(luò)融合,使自然語言交通信息能與導(dǎo)航軟件結(jié)合,準確地對出行者進行誘導(dǎo)。
交通信息融合方面的研究也日益受到學(xué)者的重視[3-8]。楊兆升等應(yīng)用神經(jīng)網(wǎng)絡(luò)算法,融合固定檢測器和浮動車檢測數(shù)據(jù)進行交通事件檢測,其檢測效果達國內(nèi)先進水平[3];陳傳彬等對城市路網(wǎng)信息融合的關(guān)鍵技術(shù)進行了研究[4];孔慶杰探討了信息融合理論及其在交通監(jiān)控信息處理中的應(yīng)用,研究了交通行為監(jiān)控系統(tǒng)中多源異類傳感器信息融合、多特征信息融合的模型和算法[5]。
本文針對目前自然語言實時交通信息利用效率低的情況,研究自然語言實時交通信息的解析方法,并在此基礎(chǔ)上,提出了自然語言交通信息與空間位置信息的融合方法。分析了自然語言交通信息的表達方式;設(shè)計了針對自然語言交通信息的切分算法,提出了自然語言交通信息與路網(wǎng)位置信息的融合方法;以南京市城市交通網(wǎng)絡(luò)作為實驗對象,驗證了文中提出融合算法。最后對所研究的內(nèi)容作了進一步總結(jié)。
1 自然語言交通信息的表達
交通網(wǎng)絡(luò)是由道路、隧道、橋梁等抽象的邊和交叉口、興趣點(POI)等抽象成的節(jié)點組成的有向網(wǎng)絡(luò)。實際上道路是由多個車道組成的復(fù)雜對象,不同的車道具有豐富的交通特征信息。在車輛導(dǎo)航或網(wǎng)絡(luò)分析中,要考慮的因素往往與車道密切相關(guān)。同一條道路的不同方向車道往往具有不同的交通特征,如交通量的變化等,交通擁堵也往往只在道路的單向車道上發(fā)生;同一道路不同方向車道與鄰接車道往往有著不同的拓撲關(guān)系,為此,我們把同向車道抽象成一條有向邊。
實時交通信息主要是指交通網(wǎng)絡(luò)上所有物體所具有的特定信息,主要包括交通流狀態(tài)特征信息(流量、速度、密度等),交通緊急事故信息,環(huán)境狀況信息,交通動態(tài)控制管理信息等[3]。實時交通信息具有以下主要特征:①具有時態(tài)性,實時交通信息動態(tài)表達道路的交通狀態(tài);②具有線性分布特征,交通信息依附于交通網(wǎng)絡(luò),可以用線性定位參考系來表達事件發(fā)生的相對位置。實時自然語言交通信息是以自然語言來描述道路上交通狀況的實時變化,自然也具有以上兩個特點。自然語言交通信息的格式一般是:地點+交通事件,如:玄武湖隧道新莊入口多車追尾,其中玄武湖隧道新莊入口為地點,多車追尾為事件。
自然語言交通信息的定位方式是基于參照物的線性參考方法(linear reference method)。線性參考方法是根據(jù)定位參照物確定線性分布事件在線性網(wǎng)絡(luò)中的位置,定位參照物主要有路口、橋梁、道路、隧道、POI等現(xiàn)實地理空間要素。定位的具體形式如表1所示。
2 自然語言交通信息與交通網(wǎng)絡(luò)的融合
自然語言理解可分為兩個方面,一是口語的理解(如語音識別等);二是文本語言的理解(如信息檢索等)。本文主要研究文本自然語言交通信息的理解。自然語言交通信息與普通自然語言相比,主要有以下幾個特點:①使用的詞匯量比較少,主要是有關(guān)于交通方面的詞匯;②詞義較明確,歧義較少;③句型變化較少,多為陳述句。因此對自然語言交通信息進行解析相對較容易。
2.1 自然語言交通信息的分詞算法
漢語是一種詞根語,主要特點有:①漢語缺乏形態(tài)變化,沒有英語的性、數(shù)、格的變化標志,因此詞本身不能顯示與其他詞的語法關(guān)系;②漢語結(jié)構(gòu)松散;③虛詞是主要的語法手段;④漢語詞與詞之間沒有明顯的形態(tài)間隔[9]。這些特點決定了漢語的自動分詞是漢語自然語言理解的首要任務(wù),分詞是進行語義分析的基礎(chǔ)。
2.1.1 詞庫的建立
詞庫是自然語言理解的核心部分,詞庫的建立直接影響著自然語言交通信息的正確理解。不同的語言理解系統(tǒng)對信息處理的目的和應(yīng)用不同,詞庫的組成類型也不同。自然語言交通信息理解所涉及的詞庫包括地址詞庫,如道路名、機構(gòu)名、POI等;空間關(guān)系詞庫,如拓撲關(guān)系、方向、偏移等;交通事件詞庫,如車流量、相撞等;基礎(chǔ)詞庫,指在語言理解過程前預(yù)先加載的領(lǐng)域相關(guān)詞匯,包括動詞、量詞、介詞等。
2.1.2 自動分詞處理分詞算法
漢語自動分詞是自然語言理解的關(guān)鍵因素。目前的自動分詞算法主要有:一是機械匹配法,如正向最大匹配法(MM)、逆向最大匹配法等[10]。機械匹配法不需要任何的詞法、句法、語義知識,不需要復(fù)雜的數(shù)據(jù)結(jié)構(gòu),執(zhí)行起來簡單,但要求有一個很大的匹配字典,不能很好地解決歧義問題。二是基于統(tǒng)計的分詞方法,如N元文法模型、隱Markov模型、最大熵模型等[11]。此類分詞法不需要一個機器可讀詞典,但需要大量的訓(xùn)練文本。三是人工智能法,如神經(jīng)網(wǎng)絡(luò)模型分詞法、專家系統(tǒng)分詞法等[12]。
正向最大匹配法是一種常用的分詞方法,是基于一定詞庫的機械分詞方法,其核心思想是長詞優(yōu)先原則,即在語句切分過程中字數(shù)較多的詞優(yōu)先被匹配切分,以得到的詞匯數(shù)量最少時為最佳切分結(jié)果。其切分步驟為:假定最大詞長為M,首先從待切分句子的句首取長度為M的子字串進行匹配,如果匹配成功則切分此字串為一個詞,如果匹配不成功則減去字串的最后一個字繼續(xù)進行匹配,按此方法直至匹配成功或字串減至為空;按此過程對下一個子字串進行匹配切分直至句尾。此方法設(shè)計思想簡單,在計算機上容易實現(xiàn),且時間復(fù)雜度較低,但是最大詞長M的大小難以確定,定得過大,則切分時匹配效率太低,算法的時間復(fù)雜度明顯增加;M定得太小,則會對切分的正確率產(chǎn)生影響。
2.2 自然語言交通信息與交通網(wǎng)絡(luò)的融合方法
自然語言交通信息中的空間位置信息是模糊的,并沒有坐標信息,為此對于得到的自然語言交通信息要能對交通流進行誘導(dǎo),必須讓自然語言交通信息與路網(wǎng)進行融合,只有使自然語言交通信息具有了地理位置信息才能分析此位置發(fā)生的交通事件對交通流的影響。
如上述分析,交通網(wǎng)絡(luò)是由邊和節(jié)點組成,交通事件是發(fā)生在路網(wǎng)上。自然語言交通信息的定位方式有以道路交叉口(路口)或道路名來定位,有以離網(wǎng)絡(luò)邊或網(wǎng)絡(luò)節(jié)點很近的地物來描述交通事件發(fā)生的地點。道路交叉口(路口)對應(yīng)著交通網(wǎng)絡(luò)上的節(jié)點,對于以道路交叉口(路口)來定位的交通信息可以直接與交通網(wǎng)絡(luò)匹配融合;對于偏移交叉口(路口)一定距離的,可以沿著網(wǎng)絡(luò)邊按偏移方向加上偏移量然后取得定位點的坐標。交通事件都是發(fā)生在網(wǎng)絡(luò)中,并不是發(fā)生在地物這個位置上,人們只是習(xí)慣于用最近的地物表示發(fā)生交通事件的位置,由于地物并不對應(yīng)著網(wǎng)絡(luò)上的節(jié)點或邊,所以對于以地物定位的自然語言交通信息首先要找到與地物最近的網(wǎng)絡(luò)邊或節(jié)點,如果沒有偏移量就直接獲取與交通網(wǎng)絡(luò)最近點的坐標,如果有偏移量就從最近點按偏移方向加上偏移量然后取得定位點的坐標。具體的匹配融合方法如圖1所示。
3 實驗
以南京市交通網(wǎng)絡(luò)為例,南京市交通網(wǎng)絡(luò)由2668條路段和1677個節(jié)點組成(如圖2所示)。選擇2012年9月8日早上8點半到下午17點半這一時間段內(nèi)南京交通廣播電臺播送的實時交通信息,共計327條。
4 結(jié)束語
自然語言交通信息是以自然語言表達與交通相關(guān)的信息,用來說明交通事件中反映出的交通特征。本文通過對大量自然語言交通信息的分析,總結(jié)出自然語言交通信息的表達方式,設(shè)計了一最大匹配分詞算法來對自然語言交通信息進行切分處理,此方法不僅遵照長詞優(yōu)先的原則,而且提高了切分的效率。本文還提出了自然語言交通信息與交通網(wǎng)絡(luò)的位置信息進行融合的方法。
充分利用實時語言交通信息對提高交通網(wǎng)絡(luò)的效率有著重要的作用,對緩解交通的擁堵具有一定的意義。充分利用各渠道發(fā)布的實時交通信息,發(fā)展實時動態(tài)導(dǎo)航技術(shù),是智能交通導(dǎo)航的發(fā)展趨勢和主要形式。本文的研究有望實現(xiàn)大量的實時自然語言交通信息能高效地運用于出行誘導(dǎo)。
在交通網(wǎng)絡(luò)中,由于道路的修建等原因,常出現(xiàn)地名的增加或者更改,使得在進行自然語言理解時會出現(xiàn)未登錄詞,這會影響分詞的準確性,為此在自然語言交通信息的解析中,要處理好未登錄詞的切分。自然語言交通信息與空間信息融合后,如何用來預(yù)測行程時間等還需進一步研究。
參考文獻:
[1] 張海東.實時路況分析系統(tǒng)在治理交通擁堵中的應(yīng)用[J].計算機時代,2013.7:40-42
[2] 黃睿.Dijkstra算法在物流中的優(yōu)化與實現(xiàn)[J].計算機時代,2012.2:10-12
[3] 楊兆升.基礎(chǔ)交通信息融合技術(shù)及其應(yīng)用[M].中國鐵道出版社,2005.
[4] 陳傳彬,陸鋒,勵惠國等.自然語言表達實時路況信息的路網(wǎng)匹配融合技術(shù)[J].中國圖象圖形學(xué)報,2009.14(8):1669-1676
[5] 孔慶杰.信息融合理論及其在交通監(jiān)控信息處理中的應(yīng)用[D].上海交通大學(xué),2010.
[6] Wang Zhengyou, Guo Chunhua. Intelligent Transportation System(ITS) information fusion:Concept, analysis and implementation[C]. IEEE International Conference on Service Operations and Logistics, and Informatics,2006:999-1003
[7] Nour-Eddin El Faouzi, Henry Leung, Ajeesh Kurian. Data fusion inintelligent transportation systems progress and challenge a survey[J]. Information Fusion,2011.12(1):4-10
[8] Qing-Jie Kong, Zhipeng Li, Yikai Chen, et al. An approach to urban traffic state estimation by fusion multisource information[J]. IEEE Transactions on Intelligent Transportation Systems,2009.10(3):499-511
[9] 張春霞,郝天永.漢語自動分詞的研究現(xiàn)狀與困難[J].系統(tǒng)仿真學(xué)報,2005.17(1):138-143
[10] 趙曾貽,陳天娥,朱蘭.一種基于語詞的分詞方法[J].蘇州大學(xué)學(xué)報,2002.18(3):44-48
[11] 石佳,蔡皖東.基于N元語法的漢語自動分詞系統(tǒng)研究[J]. 微電子學(xué)與計算機,2009.26(7):98-101
[12] 尹鋒.基于神經(jīng)網(wǎng)絡(luò)的漢語自動分詞系統(tǒng)的設(shè)計與分析[J].情報學(xué)報,1998.17(1):41-49