周思藝,李天瑞,2,3,4*
(1.西南交通大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,成都 611756;2.可持續(xù)城市交通智能化教育部工程研究中心,成都 611756;3.綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室(西南交通大學(xué)),成都 611756;4.四川省制造業(yè)產(chǎn)業(yè)鏈協(xié)同與信息化支撐技術(shù)重點(diǎn)實(shí)驗(yàn)室(西南交通大學(xué)),成都 611756)
隨著城市化和現(xiàn)代化的快速發(fā)展,城市形態(tài)正發(fā)生演變[1],關(guān)乎居民出行的交通站點(diǎn)也變得更加重要。要發(fā)展智慧城市,如何有效分析交通站點(diǎn)的人流時(shí)空特性和多元環(huán)境因素的影響是未來(lái)城市規(guī)劃的關(guān)鍵。
交通智能(Integrated Circuit,IC)卡的使用已經(jīng)積累了大量的乘客出行信息,每日的刷卡記錄數(shù)都是百萬(wàn)級(jí),為分析站點(diǎn)的流時(shí)空特性提供了可能。IC 卡的數(shù)據(jù)包括旅客身份類(lèi)型、源-目的地(Origin Destination,OD)[2]名稱(chēng)、時(shí)間。通過(guò)對(duì)乘客OD 數(shù)據(jù)的分析,可以得到站點(diǎn)間人流的流動(dòng)規(guī)律,但現(xiàn)有工作更多關(guān)注居民的移動(dòng)模式和城市功能區(qū)的劃分等,缺少更全面地展示交通站點(diǎn)的流時(shí)空特性和多元環(huán)境因素的研究。IC 卡的數(shù)據(jù)規(guī)模大,直接在地圖上繪制OD 數(shù)據(jù)的空間分布容易出現(xiàn)遮擋,不易于用戶(hù)分析流傳輸?shù)目臻g特性,若多元數(shù)據(jù)類(lèi)型多,更難以結(jié)合對(duì)比分析,因此,如何從海量IC 卡數(shù)據(jù)提取交通站點(diǎn)的OD 流時(shí)空模式,并提出一種抽象的多元時(shí)間序列數(shù)據(jù)可視化方法展示是需要解決的問(wèn)題。
為此,本文設(shè)計(jì)一個(gè)面向OD 流的支持多元數(shù)據(jù)探索的交互式分層可視分析系統(tǒng)。針對(duì)直接可視化大規(guī)模刷卡數(shù)據(jù)的空間分布容易視覺(jué)遮擋的問(wèn)題,提出基于正交非負(fù)矩陣分解(Orthogonal Nonnegative Matrix Decomposition,ONMF)的OD 流聚類(lèi)方法,對(duì)大規(guī)模交通站點(diǎn)聚類(lèi)。隨后,設(shè)計(jì)了地圖視圖和流傳輸演化視圖,分別對(duì)流空間特征和流傳輸時(shí)序演化分析,使用戶(hù)能結(jié)合時(shí)間序列從聚類(lèi)社區(qū)層和站點(diǎn)層兩個(gè)不同層級(jí)的細(xì)節(jié)快速分析和對(duì)比站點(diǎn)的流時(shí)空模式。針對(duì)元數(shù)據(jù)類(lèi)型多更難以結(jié)合對(duì)比分析的問(wèn)題,設(shè)計(jì)了站點(diǎn)多元時(shí)序數(shù)據(jù)視圖對(duì)比分析多種時(shí)序數(shù)據(jù)的變化,開(kāi)發(fā)了一個(gè)可視框架來(lái)可視化和探索交通站點(diǎn)的流時(shí)空特性和多元環(huán)境因素,并提供了易用的交互操作,幫助用戶(hù)高效率地探索和對(duì)比分析。最后,本文基于真實(shí)世界數(shù)據(jù)集利用聚類(lèi)評(píng)估指標(biāo)輪廓系數(shù)(Silhouette Coefficient,SC)對(duì)OD 流聚類(lèi)方法定量評(píng)估,并通過(guò)案例研究對(duì)系統(tǒng)的有效性定性評(píng)估。
本文的主要工作如下:
1)提出基于ONMF 對(duì)OD 流聚類(lèi)的方法,有利于后續(xù)從宏觀和微觀角度分析OD 流的時(shí)空模式。對(duì)大規(guī)模站點(diǎn)聚類(lèi)后再結(jié)合可視化過(guò)濾方法,避免大規(guī)模OD 流在地圖上造成視覺(jué)遮擋的問(wèn)題。
2)設(shè)計(jì)了流空間特征可視化視圖分層展示聚類(lèi)層和站點(diǎn)層,并設(shè)計(jì)了一系列交互操作,輔助用戶(hù)通過(guò)多視圖聯(lián)動(dòng),從聚類(lèi)層級(jí)和站點(diǎn)層級(jí)了解流傳遞的時(shí)空特性和異常。
3)設(shè)計(jì)了交通流傳遞視圖,輔助分析OD 流的時(shí)間模式。本文改進(jìn)傳統(tǒng)的?;鶊D,并展示站點(diǎn)聚類(lèi)簇間在時(shí)間序列上的流傳遞,有利于用戶(hù)從簡(jiǎn)潔、直觀的聚類(lèi)社區(qū)層角度分析站點(diǎn)間的流傳遞模式,進(jìn)而發(fā)現(xiàn)潛在調(diào)查社區(qū)。
4)設(shè)計(jì)站點(diǎn)多元時(shí)序數(shù)據(jù)對(duì)比視圖,輔助用戶(hù)更全面地分析站點(diǎn)的流時(shí)序變化和空氣質(zhì)量、空氣溫度、相對(duì)濕度和降雨量這4 類(lèi)多元環(huán)境數(shù)據(jù)的時(shí)序變化情況。
?;鶊D是一種特定類(lèi)型的流程圖,能很好地展示數(shù)據(jù)屬性從某個(gè)狀態(tài)到另一種狀態(tài)的變化過(guò)程。EcoLens[3]基于?;鶊D,利用KM(Kuhn-Munkres)算法優(yōu)化布局,通過(guò)不同時(shí)間片區(qū)域的轉(zhuǎn)換條表示區(qū)域演變,直觀地展示空間簇的演化特征。時(shí)間線(Timeline)也是一種有效的可視化設(shè)計(jì),例如,基于聚類(lèi)和疊加的可視化方法TimeRadar[4],通過(guò)一個(gè)抽象的時(shí)間線視圖,使分析人員對(duì)多個(gè)事件序列的演化有一個(gè)整體的概述。ACSeeker[5]將多因素?cái)?shù)據(jù)分別編碼在以年份為單位的Timeline 上,以揭示和比較多個(gè)因素在學(xué)術(shù)生涯的不同階段如何變化。故事線(Storyline)是一種特殊的Timeline,可以讓用戶(hù)跟蹤各個(gè)數(shù)據(jù)項(xiàng)的時(shí)間模式。Liu 等[6]提出了一個(gè)有效的優(yōu)化方法產(chǎn)生實(shí)時(shí)可交互的、美觀的故事情節(jié)可視化;Tanahashi 等[7]提出了一種提高可視化可讀性的布局優(yōu)化算法,應(yīng)用于故事情節(jié)流數(shù)據(jù)分析的新框架;Zhou 等[8]將Storyline 應(yīng)用于空氣質(zhì)量數(shù)據(jù)集,描述不同尺度的空氣質(zhì)量監(jiān)測(cè)站點(diǎn)隨時(shí)間的聚類(lèi)演化事件。一些研究工作針對(duì)個(gè)性化任務(wù)需求,從具體應(yīng)用的角度作可視化分析。楊歡歡等[9]針對(duì)鐵路OD 行程線路這類(lèi)階段性時(shí)間序列數(shù)據(jù)類(lèi)型提出了基于螺旋圖的可視化模型;考慮到可視化需要相關(guān)技能和知識(shí)提供開(kāi)發(fā)支持,如D(3Data-Driven Document)[10]、Vega[11]等、趙韋鑫等[12]提出了一種面向交通軌跡的數(shù)據(jù)流可視化方法,開(kāi)發(fā)了推薦向?qū)Э梢暬ぞ咭龑?dǎo)用戶(hù)構(gòu)建數(shù)據(jù)流圖。
以上方法都能有效輔助用戶(hù)了解數(shù)據(jù)流在時(shí)間上的變化趨勢(shì);但隨著分析對(duì)象數(shù)據(jù)量的增大,容易造成視覺(jué)遮擋或者需要更大的視圖,不利于用戶(hù)分析。針對(duì)如何展示大規(guī)模站點(diǎn)間人流的流動(dòng)在時(shí)間序列上變化,本文設(shè)計(jì)一種基于聚類(lèi)結(jié)果的交通流演化視圖,通過(guò)聚類(lèi)將分析對(duì)象轉(zhuǎn)換成聚類(lèi)簇的宏觀層級(jí)。在結(jié)果可視化上,改進(jìn)桑基圖視覺(jué)編碼,利用KM 算法優(yōu)化布局,并提供過(guò)濾交互操作,盡可能減少不必要的視覺(jué)遮擋,輔助用戶(hù)更快發(fā)現(xiàn)潛在調(diào)查區(qū)域。
許多領(lǐng)域都有OD 時(shí)空數(shù)據(jù)產(chǎn)生,為了用簡(jiǎn)明扼要的圖表說(shuō)明復(fù)雜的數(shù)據(jù)關(guān)系,隱喻[13]和交互式可視化方法[14]經(jīng)常被學(xué)者使用。在帶有地理標(biāo)簽的社交媒體數(shù)據(jù)中,Chen等[15]設(shè)計(jì)了一種多個(gè)屬性空間聚合和過(guò)濾的交互式分析方法,輔助用戶(hù)探索運(yùn)動(dòng)的語(yǔ)義,包括運(yùn)輸方法、頻繁訪問(wèn)序列和關(guān)鍵字描述;R-Map[16]基于地圖隱喻,用地圖上不同的元素編碼社交媒體轉(zhuǎn)發(fā)信息的不同特征。在網(wǎng)絡(luò)安全領(lǐng)域,VisAware[17]作為一種簡(jiǎn)潔、可縮放的態(tài)勢(shì)感知交互式可視化方法,幫助分析網(wǎng)絡(luò)入侵的時(shí)空分布。在移動(dòng)通信領(lǐng)域,Jiang 等[18]提出了基于地圖的可視分析工具Aureole,用于在空間和時(shí)間方面交互式探索和分析蜂窩網(wǎng)絡(luò);Zhou 等[19]基于自適應(yīng)藍(lán)噪聲采樣方法,增強(qiáng)了簡(jiǎn)化流圖的空間分布和網(wǎng)絡(luò)拓?fù)涮卣?,并設(shè)計(jì)了一個(gè)交互式流量環(huán)狀圖突出顯示感興趣的局部區(qū)域,并可視化其比較指標(biāo)。在足球領(lǐng)域,Wang等[20]在ForVizor 可視分析系統(tǒng)中設(shè)計(jì)了一個(gè)新穎的隊(duì)形變化的時(shí)空可視化表示多變量特征,允許分析師可視分析隊(duì)形的演變,并跟蹤球員在隊(duì)形內(nèi)隨時(shí)間的空間流動(dòng)。在交通數(shù)據(jù)中,Jin 等[3]設(shè)計(jì)了特定可視化字形針對(duì)單個(gè)區(qū)域的流量展示和具有相同模式的區(qū)域的流量整體展示;Liu 等[21]基于時(shí)空OD 數(shù)據(jù)和興趣點(diǎn)(Points Of Interest,POI)數(shù)據(jù)設(shè)計(jì)了交互式可視化分析系統(tǒng),通過(guò)地圖和其他視圖聯(lián)動(dòng)解釋城市功能區(qū)劃分的結(jié)果;Deng 等[22]設(shè)計(jì)了一組有效的可視化來(lái)支持位置導(dǎo)航、影響檢查和級(jí)聯(lián)探索,并促進(jìn)深入地級(jí)聯(lián)分析交通擁堵情況。
以上方法都采用可視化字形組合表示多變量屬性,取得了較好的時(shí)空對(duì)比分析效果;但現(xiàn)有交通站點(diǎn)可視分析工作較少考慮除POI 以外的多元數(shù)據(jù)影響。為此,本文設(shè)計(jì)站點(diǎn)多元時(shí)序數(shù)據(jù)對(duì)比視圖,可實(shí)現(xiàn)對(duì)流時(shí)間模式、空氣質(zhì)量、環(huán)境溫度、相對(duì)濕度、降雨量在時(shí)間序列的對(duì)比,有利于用戶(hù)更全面地分析站點(diǎn)的多元信息,并提供與地圖的交互操作,可以時(shí)空聯(lián)動(dòng)分析。
針對(duì)數(shù)據(jù)規(guī)模大多會(huì)影響OD 流的空間模式分析,如圖1 所示,本文基于ONMF 方法對(duì)站點(diǎn)聚類(lèi),引入空間平滑和多元因素的影響優(yōu)化結(jié)果,并設(shè)計(jì)社區(qū)自畫(huà)像視圖分析聚類(lèi)簇的統(tǒng)計(jì)屬性,站點(diǎn)時(shí)間序列視圖分析聚類(lèi)簇的流傳輸?shù)臅r(shí)間模式和地圖視圖分析流傳輸?shù)目臻g模式。針對(duì)多元時(shí)序數(shù)據(jù),設(shè)計(jì)了站點(diǎn)時(shí)間序列視圖,用戶(hù)可直觀對(duì)比分析多元數(shù)據(jù),從而完成系統(tǒng)分析任務(wù)。
圖1 系統(tǒng)分析流程Fig.1 System analysis flow
本文為更全面展示交通站點(diǎn)的流時(shí)空特性和外部多元環(huán)境因素,將所需完成的分析任務(wù)分成如下3 點(diǎn):
1)交通流傳輸模式。確定站點(diǎn)社區(qū)之間的人流傳輸模式和站點(diǎn)與站點(diǎn)之間的人流傳輸模式,并發(fā)現(xiàn)潛在的調(diào)查區(qū)域。
2)交通流時(shí)間模式。分析單個(gè)站點(diǎn)的小時(shí)級(jí)別和天級(jí)別的交通流演化模式。
3)交通流對(duì)比分析。實(shí)現(xiàn)對(duì)比分析不同站點(diǎn)流在時(shí)間序列上的差異,同一站點(diǎn)在不同日期的流量模式差異對(duì)比,同一站點(diǎn)在不同日期、同一時(shí)刻的差異對(duì)比,同一站點(diǎn)在一天內(nèi)的流變化趨勢(shì)分析,以及多元數(shù)據(jù)之間的對(duì)比。
系統(tǒng)使用的數(shù)據(jù)包括IC 卡數(shù)據(jù)、公交站點(diǎn)數(shù)據(jù)、城市POI 數(shù)據(jù)、溫度、濕度、降雨量和空氣中SO2、NO2、PM2.5含量,數(shù)據(jù)如表1 所示。
表1 數(shù)據(jù)描述Tab.1 Data description
IC 卡數(shù)據(jù)包括脫敏后的乘客編號(hào)id,成年人、小孩、老人和學(xué)生這4 種乘客類(lèi)型type,上下車(chē)的時(shí)間up_date 和down_date,上下車(chē)的公交站點(diǎn)up_id 和down_id。公交站點(diǎn)數(shù)據(jù)包括站點(diǎn)的id、名稱(chēng)name 和經(jīng)緯度lng 和lat。POI 數(shù)據(jù)包括POI 的名稱(chēng)name、類(lèi)別type 和經(jīng)緯度lng 和lat。溫度、相對(duì)濕度、降雨量和空氣中SO2、NO2、PM2.5的含量數(shù)據(jù)中,date 都是以小時(shí)為時(shí)間粒度,并包含每類(lèi)數(shù)據(jù)對(duì)應(yīng)的監(jiān)測(cè)站點(diǎn)id、名稱(chēng)name、經(jīng)緯度信息lng、lat 和監(jiān)測(cè)值value。
2.3.1 熱量指數(shù)計(jì)算
溫度超過(guò)27℃,相對(duì)濕度高會(huì)降低汗液的蒸發(fā)速率,導(dǎo)致身體散熱的速度降低,也會(huì)產(chǎn)生過(guò)熱的感覺(jué),因此只用溫度衡量天氣的熱度較為局限。熱量指數(shù)(Heat Index,HI)是一個(gè)結(jié)合空氣溫度和相對(duì)濕度的指數(shù),考慮到高溫(溫度大于等于27℃)時(shí),當(dāng)相對(duì)濕度增加,人體真正感受到的溫度會(huì)超過(guò)實(shí)際溫度,可以更全面地衡量身體消除多余熱量的能力。計(jì)算如式(1)[23]所示:
其中:T為環(huán)境干球溫度(單位℃),R為相對(duì)濕度(百分比值),c1為-8.784 694 755 56,c2為 1.611 394 11,c3為2.338 548 838 89,c4為-0.146 116 05,c5為-0.012 308 094,c6為 -0.016 248 227 777 8,c7為 0.002 211 732,c8為0.000 725 46,c9為-0.000 003 582。
HI 對(duì)應(yīng)熱度影響類(lèi)別E,分為涼爽(Cool)、溫暖(Warm)、注意過(guò)熱而疲勞(Caution)、小心熱痙攣(Extreme Caution)、有熱痙攣和熱衰竭的危險(xiǎn)(Danger)和極度炎熱(Extreme Danger)這6 類(lèi)逐漸遞增的熱度級(jí)別,如式(2)所示:
2.3.2 空氣質(zhì)量指數(shù)計(jì)算
空氣質(zhì)量指數(shù)(Air Quality Index,AQI)可以定量描述空氣質(zhì)量狀況。通過(guò)計(jì)算,將多類(lèi)描述AQI 的監(jiān)測(cè)值轉(zhuǎn)換成AQI 的等級(jí),便于用戶(hù)快速感知當(dāng)前的空氣情況。利用式(3)計(jì)算多種污染物的AQI 值,并依據(jù)表2 判斷AQI 屬于優(yōu)(Good)、良(Moderate)、輕度污染(Unhealthy for Sensitive Groups)、污染(Unhealthy)、嚴(yán)重污染(Very Unhealthy)這5 個(gè)類(lèi)別中哪一類(lèi)空氣質(zhì)量類(lèi)別。
表2 AQI等級(jí)判斷邊界值Tab.2 AQI level judgment boundary values
其中:I為空氣質(zhì)量指數(shù),C為當(dāng)前類(lèi)別的污染物濃度,Clow和Chigh分別是斷點(diǎn)濃度的最小邊界值和大邊界值,Ilow和Ihigh分別是表2 中斷點(diǎn)濃度最小和最大的邊界值對(duì)應(yīng)的空氣質(zhì)量指數(shù)。
2.4.1 流特征提取
以N個(gè)站點(diǎn)為調(diào)查對(duì)象,以時(shí)間粒度t計(jì)算每個(gè)站點(diǎn)在t內(nèi)的流入流出的人數(shù)。每個(gè)站點(diǎn)由一個(gè)2N維的特征向量P描述。向量中前N個(gè)字段表示從站點(diǎn)i出發(fā)到其余N-1個(gè)站點(diǎn)下車(chē)的人流量;后N個(gè)字段表示從其余站點(diǎn)出發(fā)到i站點(diǎn)下車(chē)的人流量。這樣,如圖2所示,在時(shí)間間隔t內(nèi),可以得到一個(gè)特征矩陣DOD,t,利用它捕獲t時(shí)間內(nèi)的類(lèi)模式。不同時(shí)間的矩陣形成了特征矩陣時(shí)間序列,這個(gè)矩陣序列表征了每個(gè)區(qū)域隨時(shí)間變化的移動(dòng)性模式,并用于后面的聚類(lèi)分析。
圖2 特征提取方法Fig.2 Feature extraction method
2.4.2 流特征聚類(lèi)
ONMF 相對(duì)非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)方法[24],多了正交的優(yōu)點(diǎn),可以保證解的唯一性,有利于對(duì)嚴(yán)格聚類(lèi)解釋。因此,本文提出一種適應(yīng)流特征矩陣的ONMF 算法分析上述特征矩陣時(shí)間序列中捕獲的站點(diǎn)相關(guān)性。該方法基于原始的ONMF 方法新增了空間平滑正則化項(xiàng)和多元數(shù)據(jù)平滑正則化項(xiàng)兩個(gè)正則化約束項(xiàng),如式(4)所示:
式(4)的第一項(xiàng)是從原始數(shù)據(jù)中提取潛在流移動(dòng)模式,利用ONMF 分解特征矩陣到兩個(gè)非負(fù)矩陣Ht和Wt,分別捕獲潛在模式的空間分布和模式語(yǔ)義。其中,Ht表示K個(gè)模式發(fā)生在N個(gè)站點(diǎn)的可能性,Wt表示潛在模式具有一定特征的概率。K是在分析中要找到所期望的潛在模式數(shù),本文取使得損失最小時(shí)的K。
式(4)的第二項(xiàng)是空間平滑正則化項(xiàng),利用λ1控制平滑度,引入鄰接矩陣A,其中Ai,j∈{0,1}表示兩個(gè)站點(diǎn)i和j是否功能區(qū)相同,確保一個(gè)站點(diǎn)與其相似站點(diǎn)共享相似的移動(dòng)模式,滿(mǎn)足共識(shí)中類(lèi)似功能區(qū)(例如學(xué)校區(qū)域)的站點(diǎn)有相似的移動(dòng)模式。
式(4)的第三項(xiàng)是多元數(shù)據(jù)平滑正則化項(xiàng),利用λ2控制平滑度,引入鄰接矩陣B,其中Bi,j∈{0,1}表示站點(diǎn)i和j是否多元數(shù)據(jù)相同。
最后利用梯度下降求解更新矩陣,并將結(jié)果應(yīng)用于可視化視圖。
針對(duì)前文提出3 個(gè)分析任務(wù),本文設(shè)計(jì)了基于OD 流和多元數(shù)據(jù)的分層可視分析系統(tǒng),從聚類(lèi)社區(qū)層角度分析交通流傳遞模式,從站點(diǎn)層分析交通流時(shí)間模式和外部多元環(huán)境對(duì)交通流的影響。如圖3 所示,系統(tǒng)由4 個(gè)視圖組成。
圖3 基于OD流和多元數(shù)據(jù)的分層可視分析系統(tǒng)界面Fig.3 Hierarchical visual analysis system interface based on OD flow and multivariate data
地圖視圖基于Mapbox.gl 地圖開(kāi)發(fā)框架和城市的矢量地圖對(duì)站點(diǎn)的空間特征可視化。為了滿(mǎn)足不同細(xì)節(jié)需求的交通流信息在地圖上的展示,本系統(tǒng)針對(duì)分析對(duì)象,設(shè)置了兩種不同的可視化社區(qū)層和站點(diǎn)層。
社區(qū)層分為3 個(gè)部分,如圖4 所示。最外層用于編碼分層社區(qū)信息,弧的長(zhǎng)度編碼表示該社區(qū)所包含的站點(diǎn)數(shù),包含站點(diǎn)數(shù)越多,弧越長(zhǎng);反之越短。內(nèi)置的5 個(gè)環(huán)用于編碼各類(lèi)POI(興趣點(diǎn))的分布情況,環(huán)上的柱狀圖編碼社區(qū)每個(gè)站點(diǎn)對(duì)應(yīng)的該類(lèi)型設(shè)施數(shù),柱狀圖越高,則表示該站點(diǎn)一定區(qū)域內(nèi)包含該類(lèi)型設(shè)施數(shù)多;反之越少。內(nèi)置環(huán)內(nèi)的空白則是地圖,即站點(diǎn)層,并以點(diǎn)的形式編碼站點(diǎn),點(diǎn)的位置編碼站點(diǎn)的空間分布。
圖4 分層社區(qū)的POI分布可視化設(shè)計(jì)Fig.4 Visual design of POI distribution in hierarchical communities
流傳輸演化視圖基于?;鶊D的表現(xiàn)形式,輔助用戶(hù)分析分層社區(qū)間的交通流傳播模式,如圖3(d)所示。視圖按時(shí)間順序水平排列成一組時(shí)間窗口,借鑒BicaVis[25]將相鄰時(shí)間窗口的背景顏色設(shè)置為不同亮度級(jí)別以增強(qiáng)可區(qū)分性。用?;鶊D的節(jié)點(diǎn)編碼分層社區(qū),用連線編碼社區(qū)間存在交通流傳遞,連線的透明度編碼傳遞的流值大小,透明度參數(shù)值越高,傳遞的流值越大;反之,越小。此外,系統(tǒng)提供過(guò)濾交互方法,用戶(hù)通過(guò)設(shè)定過(guò)濾系數(shù)過(guò)濾掉不需要分析的流傳遞信息。
在地圖視圖中點(diǎn)擊選擇要分析的站點(diǎn)后,圖3(b)所示的站點(diǎn)視圖將顯示該站點(diǎn)的多元數(shù)據(jù)在時(shí)間序列上的變化。為了實(shí)現(xiàn)2.1 節(jié)的系統(tǒng)分析任務(wù)3,站點(diǎn)視圖提供展開(kāi)和折疊模式,以供用戶(hù)對(duì)比分析。
折疊模式 上方是河流圖,橫軸代表以小時(shí)為單位的時(shí)間,縱軸上對(duì)應(yīng)的陰影寬度代表對(duì)應(yīng)時(shí)段的流量值,展示了同一站點(diǎn)一天的流量變化趨勢(shì)。下方是柱狀圖,橫軸代表以天為單位的時(shí)間,縱軸代表對(duì)應(yīng)日期的流量值,展示了同一站點(diǎn)不同日期的天流量,同時(shí)可以橫向?qū)Ρ取a槍?duì)查看具體日期的小時(shí)流量變化趨勢(shì)的需求,系統(tǒng)提供一種選擇關(guān)聯(lián)的交互方法。用戶(hù)點(diǎn)擊選擇對(duì)應(yīng)日期的柱狀圖,柱狀圖將高亮顯示,同時(shí)上方的河流圖也會(huì)更新,并顯示為所選日期對(duì)應(yīng)的小時(shí)級(jí)別的流量。
展開(kāi)模式 每個(gè)圓圈表示一個(gè)分析的時(shí)段點(diǎn),第一層外圈是一個(gè)圓環(huán),以弧度表示當(dāng)前時(shí)段的流量占所有日期該時(shí)段的最大流量值的占比,以便于用戶(hù)對(duì)比分析同一時(shí)刻不同日期的流量;圓環(huán)內(nèi)以4 種紋理分別表示4 個(gè)等級(jí)的空氣質(zhì)量指數(shù)。第二層外圈是一個(gè)環(huán)形餅狀圖,展示當(dāng)前時(shí)間段的乘客類(lèi)型,其中粉色代表成年人,紫色代表小孩,黃色代表老人,藍(lán)色代表學(xué)生。最外側(cè)采用棒棒糖圖(Lollipop Chart)展示對(duì)應(yīng)時(shí)刻的多元數(shù)據(jù)降雨量值和熱度值HI。它是一種特殊形式的柱形圖,不僅能像柱形圖一樣對(duì)數(shù)值型數(shù)據(jù)可視化,而且柱形變成線條減少了展示空間,視覺(jué)上更簡(jiǎn)潔和美觀。本系統(tǒng)基于Lollipop Chart 用點(diǎn)的飽和度編碼HI 值的6個(gè)級(jí)別,并用棍的高度編碼降雨量值的大小,棍越高降雨量值越大;反之,越小。
社區(qū)自畫(huà)像視圖以列表的形式展示了社區(qū)聚類(lèi)簇的周?chē)d趣點(diǎn)分布、平均流入流量、平均流出流量和平均乘車(chē)時(shí)長(zhǎng)這4 種詳細(xì)信息,每一行對(duì)應(yīng)一個(gè)聚類(lèi)簇。基于徑向柱狀圖,展示周?chē)d趣點(diǎn)分布,包括旅游、醫(yī)療、教育、住宅、娛樂(lè)興趣點(diǎn)的總和?;跈M向柱狀圖,分別將平均流入流量和平均流出流量值映射到矩形的寬度,方便用戶(hù)橫向?qū)Ρ攘魅肓鞒鲋?,同時(shí)也可以縱向?qū)Ρ炔煌鐓^(qū)簇的某一類(lèi)流量值。基于箱線圖,通過(guò)可視化上四分位數(shù)、中位數(shù)、下四分位數(shù)、上下邊界值等統(tǒng)計(jì)量,展示該社區(qū)簇的平均乘車(chē)時(shí)長(zhǎng)分布。
本文系統(tǒng)數(shù)據(jù)集時(shí)間范圍在2017 年1 月1 日至2017 年2月28 日每天5 點(diǎn)至23 點(diǎn)的數(shù)據(jù),其中新加坡公交車(chē)的IC 卡數(shù)據(jù)共計(jì)4 228 個(gè)公交站點(diǎn),每天百萬(wàn)級(jí)刷卡數(shù)據(jù)。
本文以2017 年2 月1 日的OD 流特征矩陣作為OD 流聚類(lèi)方法的實(shí)驗(yàn)數(shù)據(jù),其中時(shí)間間隔t為1 d,N為4 228。
由于本文的聚類(lèi)方法針對(duì)OD 數(shù)據(jù)的應(yīng)用場(chǎng)景,所以采用聚類(lèi)的內(nèi)部評(píng)估指標(biāo)輪廓系數(shù)SC 定量評(píng)估相同原始數(shù)據(jù)的聚類(lèi)效果。第i個(gè)站點(diǎn)的SC 計(jì)算如式(5)所示:
該評(píng)估指標(biāo)通過(guò)每個(gè)站點(diǎn)的平均簇內(nèi)距離a和到其他簇的平均距離b來(lái)衡量,其值介于-1 和1 之間,越接近1 聚類(lèi)效果越好。對(duì)所有站點(diǎn)的SC 求平均,就是該聚類(lèi)方法的定量評(píng)估值。
基于ONMF 的OD 流聚類(lèi)方法,聚類(lèi)得到8 個(gè)聚類(lèi)簇,聚類(lèi)結(jié)果在可視化方法中的應(yīng)用在4.2.1 節(jié)時(shí)空傳輸模式案例中分析。
4.1.1 參數(shù)對(duì)比實(shí)驗(yàn)
如2.4.2 節(jié)所述,基于ONMF 的OD 流聚類(lèi)方法在實(shí)現(xiàn)過(guò)程中需要確定模式數(shù)量值K、加權(quán)系數(shù)λ1和λ2。本文通過(guò)參數(shù)對(duì)比實(shí)驗(yàn)確定各參數(shù)的值。
模式數(shù)量值K是要分解的低秩矩陣的維度,也是在分析中要找到的所期望的潛在模式數(shù)。設(shè)置參數(shù)對(duì)實(shí)驗(yàn),取K={2,3,4,5,6,7,8,9}中最能恢復(fù)原始流特征矩陣能力的值,即損失最小時(shí)的值。通過(guò)如圖5 所示的實(shí)驗(yàn)結(jié)果分析,確定K值為8 時(shí),誤差最小。
圖5 模式數(shù)量值K的敏感性分析實(shí)驗(yàn)Fig.5 Sensitivity analysis experiments for mode quantity value K
加權(quán)系數(shù)λ1和λ2分別控制空間平滑度和多元數(shù)據(jù)平滑度。設(shè)置參數(shù)對(duì)比實(shí)驗(yàn),從0.000 1、0.000 5、0.001、0.005、0.01、0.05、0.1 和0.5 中選擇使得兩個(gè)加權(quán)參數(shù),獨(dú)立約束聚類(lèi)中效果最優(yōu)時(shí)的參數(shù)的值,即SC 值取得最大時(shí)對(duì)應(yīng)的值。通過(guò)如圖6 所示的實(shí)驗(yàn)結(jié)果分析,確定加權(quán)系數(shù)λ1為0.1 時(shí)聚類(lèi)效果最好,λ2為0.000 1 時(shí)聚類(lèi)效果最好。
圖6 加權(quán)參數(shù)的確定Fig.6 Determination of weighting coefficient
4.1.2 方法對(duì)比實(shí)驗(yàn)
將本文的聚類(lèi)方法與NMF、MEP-ONMF(Maximum-Entropy-Principle based ONMF)[26]、ONMF-A[27]、EM-ONMF(EM-like algorithm for ONMF)[28]、ONMFS[29]這5 個(gè)方法在相同數(shù)據(jù)上分別聚類(lèi),并從聚類(lèi)的定量評(píng)估指標(biāo)SC 和運(yùn)行時(shí)間兩方面作聚類(lèi)性能對(duì)比。
設(shè)置的方法對(duì)比實(shí)驗(yàn),將每個(gè)方法分解的低秩矩陣H作為K-means 的輸入進(jìn)行聚類(lèi),并計(jì)算對(duì)應(yīng)的SC 值和運(yùn)行時(shí)間。每個(gè)方法獨(dú)立運(yùn)行7 次,設(shè)置實(shí)驗(yàn)中的低秩矩陣維度值和K-means 聚類(lèi)數(shù)均為8,并取中位數(shù)作為結(jié)果。
聚類(lèi)效果定量評(píng)估結(jié)果顯示,本文方法在聚類(lèi)評(píng)價(jià)指標(biāo)SC 值為0.941,聚類(lèi)效果較好。如圖7(a)所示,本文方法比直接用OD 流特征矩陣作K-means 聚類(lèi)效果提升了0.253,且SC 值均高于NMF、ONMF-A、EM-ONMF 和MEP-ONMF 四個(gè)方法,但是比ONMFS 差一點(diǎn),低0.009。
圖7 方法對(duì)比實(shí)驗(yàn)結(jié)果Fig.7 Experiment results of method comparison
運(yùn)行時(shí)間定量評(píng)估結(jié)果顯示,本文方法的運(yùn)行時(shí)間為40.79 s,和運(yùn)行較快的MEP-ONMF 和NMF 方法相比,在時(shí)間消耗上相差在1 s 內(nèi),時(shí)間效率較高。如圖7(b)所示,聚類(lèi)效果最好的ONMFS 方法的運(yùn)行時(shí)間較長(zhǎng),為295 s。
因此,從聚類(lèi)效果和運(yùn)行時(shí)間綜合分析,本文提出的OD流聚類(lèi)方法相較于其他方法在OD 數(shù)據(jù)應(yīng)用場(chǎng)景中更有效。
4.1.3 消融實(shí)驗(yàn)
設(shè)置消融實(shí)驗(yàn)對(duì)比原始方法、只加了空間平滑約束矩陣A、只加了多元數(shù)據(jù)平滑約束矩陣B、兩個(gè)約束矩陣都加了的本文方法這4 種情況在聚類(lèi)效果上的差異。
通過(guò)比較聚類(lèi)評(píng)價(jià)指標(biāo)SC 的提升值,驗(yàn)證了本文聚類(lèi)方法的兩個(gè)約束矩陣能有效提取OD 流的特征并聚類(lèi)。消融實(shí)驗(yàn)結(jié)果如表3 所示,添加空間平滑約束矩陣A比原始方法在聚類(lèi)效果上提升了0.024,添加多元數(shù)據(jù)平滑約束矩陣B比原始方法在聚類(lèi)效果上提升了0.023,兩個(gè)約束矩陣都加的方法(本文方法)相較于原始方法,聚類(lèi)效果提升了0.028。
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 Ablation experimental results
案例將運(yùn)用新加坡數(shù)據(jù)集從流的時(shí)空傳輸模式、流的時(shí)間模式對(duì)比和多元時(shí)序數(shù)據(jù)對(duì)比三個(gè)方面分析,并通過(guò)與相關(guān)工作能解決的任務(wù)比較評(píng)估系統(tǒng)應(yīng)用能力。
4.2.1 時(shí)空傳輸模式
從流傳輸演化視圖可以分析站點(diǎn)簇的傳輸時(shí)間模式,結(jié)合地圖視圖可以分析傳輸?shù)目臻g模式。如圖8 所示,選擇聚類(lèi)簇3,結(jié)合時(shí)間序列和節(jié)點(diǎn)連接線的透明度,發(fā)現(xiàn)該聚類(lèi)簇的流量主要發(fā)生在7 點(diǎn)至9 點(diǎn)和17 點(diǎn)至19 點(diǎn)。
圖8 站點(diǎn)聚類(lèi)簇3交通流傳輸?shù)臅r(shí)空模式分析Fig.8 Spaio-temporal pattern analysis of traffic flow transmission in cluster 3 of bus stops
選擇要分析的7 點(diǎn)至9 點(diǎn)流傳輸連線a,地圖顯示聚類(lèi)簇3 流向聚類(lèi)簇4 空間主要分布在5 個(gè)區(qū)域。本文以直徑300 m 分析周?chē)鶳OI 屬性。a1 為44009 站點(diǎn),周?chē)? 個(gè)圖書(shū)館和1 個(gè)社區(qū)聯(lián)絡(luò)所;a2 為28009 站點(diǎn),周?chē)? 個(gè)醫(yī)院、1 個(gè)銀行和1 個(gè)圖書(shū)館;a3 為52009 站點(diǎn),周?chē)? 個(gè)學(xué)校、2 個(gè)幼兒園、2 個(gè)銀行分別為馬來(lái)亞銀行支行和華僑銀行支行;a4為84009 站點(diǎn),周?chē)? 個(gè)學(xué)校、1 個(gè)幼兒園和1 個(gè)圖書(shū)館;a5為75009 站點(diǎn),周?chē)? 個(gè)大華銀行支行、1 個(gè)圖書(shū)館、1 個(gè)音樂(lè)培訓(xùn)學(xué)校和3 個(gè)醫(yī)療相關(guān)地點(diǎn)。
選擇要分析的17 至19 點(diǎn)流傳輸線b,地圖顯示聚類(lèi)簇3流向聚類(lèi)簇7 空間主要分布在2 個(gè)區(qū)域,仍以直徑300 m 分析周?chē)鶳OI 屬性。b1 為44699 站點(diǎn)和44779 站點(diǎn),周?chē)嵌鄠€(gè)住宅社區(qū);b2 為53231 站點(diǎn),周?chē)? 個(gè)地鐵站、1 個(gè)圖書(shū)館、3 個(gè)社區(qū)中心、3 個(gè)學(xué)前學(xué)校、3 個(gè)銀行分別為大華銀行支行、華僑銀行支行和星展銀行支行。
4.2.2 時(shí)間模式對(duì)比
在地圖站點(diǎn)選擇中a1~a5 這5 個(gè)站點(diǎn),站點(diǎn)視圖可以分析對(duì)比這些站點(diǎn)在時(shí)間序列上的流情況和周?chē)嘣h(huán)境因素,如圖9 所示。
圖9 站點(diǎn)多元時(shí)序數(shù)據(jù)對(duì)比分析Fig.9 Comparative analysis of multivariate time series data of bus stops
通過(guò)分析發(fā)現(xiàn),5 個(gè)站點(diǎn)(a1~a5)在天流量級(jí)別上均沒(méi)有明顯的周期規(guī)律,但2017 年1 月28 日至1 月30 日(實(shí)線框部分)的天流量均小于周?chē)奶炝髁?,結(jié)合新加坡公共假期發(fā)現(xiàn),這幾日是中國(guó)新年,居民休假。通過(guò)3.3 節(jié)提到的視圖折疊模式可以只顯示某個(gè)站點(diǎn)流的時(shí)間序列變化。故選擇44009站點(diǎn)(a1)對(duì)應(yīng)這幾日折疊模式下的流量,分析發(fā)現(xiàn)這幾日的小時(shí)流量沒(méi)有工作日2 月1 日相同的早高峰。1 月28 日處于中國(guó)新年的周六和1月21日正常周末的周六顯示的小時(shí)流量存在區(qū)別,假期居民都在9點(diǎn)以后才開(kāi)始大量出行。
展開(kāi)模式可以分析小時(shí)流量級(jí)別的詳細(xì)信息。從站點(diǎn)人員類(lèi)別分析,6 點(diǎn)至7 點(diǎn)公交站點(diǎn)附近都存在一大部分學(xué)生,這也與站點(diǎn)附近都存在教育相關(guān)地點(diǎn)相符。
4.2.3 多元時(shí)序數(shù)據(jù)對(duì)比
查看a1~a5 展開(kāi)模式,對(duì)比分析站點(diǎn)時(shí)序熱度值的差異。如圖9 所示,Lollipop Chart 中可視化編碼的熱度值,發(fā)現(xiàn)5 個(gè)站點(diǎn)晚上熱度值均比白天高,和新加坡2017 年年度氣候報(bào)告中指出的熱島效應(yīng)相一致。44009 站點(diǎn)(a1)和28009 站點(diǎn)(a2)一天的環(huán)境熱度模式相似,均屬于10 點(diǎn)之后熱度值上升,到22 點(diǎn)之后開(kāi)始轉(zhuǎn)成適宜溫度。52009 站點(diǎn)(a3)、84009 站點(diǎn)(a4)和75009 站點(diǎn)(a5)一天的環(huán)境熱度模式相似,均是早晨和下午涼爽,晚上開(kāi)始變熱,區(qū)別在于a3 和a4站點(diǎn)炎熱時(shí)間從10 點(diǎn)至13 點(diǎn),夜晚也不能轉(zhuǎn)涼爽,a5 站點(diǎn)是從10 點(diǎn)至11 點(diǎn),炎熱的時(shí)間縮短了2 h,并且夜晚21 點(diǎn)能轉(zhuǎn)涼爽。這個(gè)差異是由于新加坡各區(qū)受日光照射不同造成的。
展開(kāi)模式對(duì)比分析降雨量對(duì)居民乘坐公共交通工具的影響。17101 站點(diǎn)(c1)在2017 年2 月23 日的多元數(shù)據(jù)變化,15 時(shí)出現(xiàn)大暴雨(實(shí)線框),根據(jù)內(nèi)層環(huán)的弧度占比發(fā)現(xiàn)對(duì)人們出行并沒(méi)有造成過(guò)大的影響,但紋理編碼的AQI 等級(jí)加重了一級(jí),結(jié)束后2 h 周?chē)h(huán)境逐漸升溫,并且AQI 值也回到好的狀態(tài)。
4.2.4 系統(tǒng)評(píng)估
為了更好地發(fā)現(xiàn)系統(tǒng)的優(yōu)點(diǎn)和不足,將系統(tǒng)功能與近幾年的其他工作根據(jù)群體移動(dòng)模式,挖掘時(shí)空異常和隱藏關(guān)系、探索分析各種統(tǒng)計(jì)屬性、多尺度時(shí)空分析、個(gè)體多元數(shù)據(jù)分析(需要有除POI 以外的多元數(shù)據(jù))這6 個(gè)OD 數(shù)據(jù)可視分析的典型應(yīng)用作對(duì)比。對(duì)比結(jié)果如表4 所示。
表4 系統(tǒng)應(yīng)用對(duì)比結(jié)果Tab.4 Comparison results of system application
從表4 可以看出,所提系統(tǒng)在群體移動(dòng)時(shí)空模式分析、宏觀層面的群體的統(tǒng)計(jì)屬性和微觀層面的個(gè)體多元信息都能有對(duì)應(yīng)的功能支撐;但在空間異常分析方面顯示出不足。
基于OD 流數(shù)據(jù)、POI 數(shù)據(jù)和多元環(huán)境數(shù)據(jù),本文構(gòu)建一個(gè)基于OD 流的多元數(shù)據(jù)分層可視分析系統(tǒng),設(shè)計(jì)了4 種可視化字形完成流時(shí)空模式分析和多元數(shù)據(jù)可視化?;诹鱾鬏斞莼晥D分析站點(diǎn)聚類(lèi)社區(qū)簇間的流傳輸;基于地圖視圖分析交通流的空間特征;基于站點(diǎn)視圖分析交通流的時(shí)間模式和外部多元因素的相互影響;基于社區(qū)自畫(huà)像視圖分析聚類(lèi)社區(qū)的周?chē)鶳OI 情況和統(tǒng)計(jì)屬性,包括流入流量、流出流量、平均出行時(shí)間。在新加坡公交車(chē)IC 卡的數(shù)據(jù)集上驗(yàn)證,實(shí)驗(yàn)證實(shí)該系統(tǒng)可以全面地探索分析交通站點(diǎn)的流時(shí)空特性和外部多元環(huán)境因素的影響。
本系統(tǒng)目前還存在一些不足之處,因IC 卡的數(shù)據(jù)規(guī)模龐大,直接將所有原始數(shù)據(jù)導(dǎo)入系統(tǒng)中需要較高的存儲(chǔ)資源和計(jì)算資源,所以系統(tǒng)目前不能支持探索分析實(shí)時(shí)數(shù)據(jù)。