孫奇 張毅 趙鵬飛 吳夢彤
北京大學地球與空間科學學院遙感與地理信息系統(tǒng)研究所, 北京 100871; ? 通信作者, E-mail: zy@pku.edu.cn
人類移動模式指人群移動的時空規(guī)律, 研究移動模式有助于理解人類移動行為和城市空間結構,在城市規(guī)劃和交通管理等方面具有重要意義[1]。旅游移動模式指游客離開常居地后, 在各目的地城市旅游的時空軌跡呈現(xiàn)的特定移動規(guī)律[2], 了解游客的移動模式對目的地營銷和規(guī)劃有重要意義[3?4]。從旅游行程中提取的移動模式能夠幫助旅游管理者更好地了解游客的決策行為[5]、消費習慣[6?7]以及旅游偏好[8?9], 甚至可以基于用戶偏好的移動模式來調整營銷策略[10?11], 推出旅行產品[12], 推薦熱門線路[13?14]。
有關旅游移動模式的理論研究已經比較成熟。Mercer[15]于 1970 年首次定義旅游流的概念。Lue 等[16]對旅游路線的空間模式進行系統(tǒng)的分析, 并劃分為單目的地模式、往返模式、基營模式、區(qū)域環(huán)游模式和完全環(huán)游模式 5 種。2002 年, Stewart 等[17]將這一模式體系稱為 LCF 模型。Oppermann[18]將旅游移動模式劃分為 7 種, 包括兩種單目的地模式和 5 種多目的地模式。Flognfeldt Jr[19]通過研究 7 年的游客出行數據, 將旅游移動模式劃分為一日游、度假游、基營游和觀光游 4 種類型。Lew 等[20]定義 3 種目的地城市內部的移動模式: 點點模式、環(huán)狀模式和復雜模式。Tussyadiah 等[21]開發(fā)蘭卡斯特(Lancaster)模型來解釋多目的地旅行套餐的最佳組合。這些理論模型為后續(xù)研究(如時空約束[22]、游客體驗[23]、目的地熟悉度[24]和節(jié)點結構[25]等)奠定了堅實的基礎。
研究者采用多種來源的數據進行實證研究, 通常用調查問卷和訪談的方式獲取實驗數據[24,26?27]。一些研究者將 GPS 數據與訪談數據相結合, 得到粒度更細的軌跡信息和游客信息[28?31]。地理信息系統(tǒng)(geographic information systems, GIS)也廣泛地應用于旅游流和空間模式中[32?33]。Yang 等[34]通過探索性的數據分析, 發(fā)現(xiàn)入境和國內旅游流的全局莫蘭(Moran’sI)指數具有顯著的空間正相關關系, 并利用 Moran 顯著性水平圖提取 4 個重要的入境旅游熱點。
通常用一些回歸模型來分析各種因素變量在旅游移動模式中的作用。Zhang 等[35]從供給側的視角,提出一個模型來探討并解釋國際旅游流動的影響因素(如自然條件和基礎設施等)。Koo 等[36]發(fā)現(xiàn), 休閑旅游的移動模式選擇受旅游環(huán)境影響, 而較低的機票價格會減弱旅游移動模式選擇偏好的影響。Yang 等[37]使用嵌套 logit 模型來評估旅游決策的影響因素, 發(fā)現(xiàn)空間配置也是影響游客目的地選擇的因素之一。Le-Kl?hn 等[38]通過一個雙變量 probit 模型, 發(fā)現(xiàn)影響游客交通方式的多種因素, 如訪問地區(qū)、教育背景和游客動機。
傳統(tǒng)的問卷調查方法費時費力以及 GPS 設備需要回收等原因, 使得近年來研究者將更多的注意力放在目的地城市內的移動模式方面。隨著 GPS 定位設備和移動互聯(lián)網的普及, 收集人們的出行軌跡愈加便捷, 使大數據驅動的人類移動模式成為研究熱點[1]。研究人員通過移動定位數據[39?41]、社交媒體數據[42?45]、旅游博客數據[46?47]以及其他來源的數據[48?49], 對游客的空間行為有了更加深入的了解。與傳統(tǒng)的數據源相比, 大數據研究節(jié)省時間, 降低人工成本, 具有更高的時空分辨率[41,50]。
龐大的數據量也導致研究方法的轉變。研究者通過社會網絡分析和復雜網絡方法, 計算得到目的地網絡的中心性指數、密度、中介中心性和出度中心性[51?53]等指標來衡量旅游移動模式的特征。網絡 motif 指出現(xiàn)頻率非常高的子圖, 通常用于挖掘常見的旅游移動模式[54]。Liu 等[53]基于 twitter 數據,發(fā)現(xiàn)居民和游客的主要移動模式是短距離移動, 而用戶均勻度呈現(xiàn)的“T”形核心?外圍結構可能與州際公路有關。
在基于大數據的旅游行為研究中, 根據游客流量構建目的地網絡是一種常用的方法[46,51,55]?,F(xiàn)有的研究中, 較多關注目的地城市網絡體現(xiàn)的空間結構或目的地城市在移動模式中所處的位置, 較少關注游客群體呈現(xiàn)的移動模式。本文通過海量個體旅游時空軌跡, 挖掘游客在目的地城市間的不同移動模式, 著重關注旅游行為中游客呈現(xiàn)的移動模式。一方面, 用大數據方法驗證和細化傳統(tǒng)的旅游移動模式理論模型; 另一方面, 研究結果可以幫助當地旅游管理者了解游客的旅游行為。本文以蘇州市為研究案例, 以新浪微博為數據源, 通過確定常居城市、提取游客出行行為以及識別游客出行移動模式, 提取到訪蘇州游客的城市間移動模式。
本文選擇蘇州市進行案例研究。蘇州市以其獨特的園林景觀, 被譽為“中國園林之城”。蘇州市又處在經濟高度發(fā)展、交通高度連通的長江三角洲(簡稱長三角)地區(qū), 周邊上海、南京和杭州等城市都具有豐富的旅游資源, 到訪蘇州的游客通常會同時選擇這些城市。例如, “馬蜂窩旅游”中就有這樣的推薦線路: 上?!K州→烏鎮(zhèn)→杭州。
本文采用的數據源是新浪微博數據。新浪微博是提供微型博客服務的社交網絡網站, 其中主要有兩種地理標注數據, 分別是地理微博(geo-tagged weibo)和簽到微博(check-in weibo), 內容結構如表1 所示。簽到微博是地理微博的一個子集, 其中增加了一個 POI 字段, 記錄微博的簽到 POI。為了盡可能地還原游客的時空軌跡, 本研究使用全部的地理微博數據。
表1 地理微博和簽到微博的數據結構及示例Table 1 Data structure and example of geo-tagged weibo and check-in weibo
根據新浪地理微博的抓取策略, 首先選擇一個城市(蘇州), 然后抓取蘇州市的 POI 數據。在此基礎上, 抓取蘇州市的簽到微博, 從而得到簽到用戶。最后, 抓取蘇州市簽到用戶在全球的地理微博。我們共采集蘇州市 171045 條 POI 數據, 并據此獲取 2710510 條簽到微博, 涉及 748847 名用戶。根據這些用戶信息, 提取到分布在全球的 48409276 條地理微博。
本文提出的從社交媒體數據中提取旅游移動模式的處理流程包含以下 4 個步驟。
1) 反向地理編碼: 根據地理微博的經緯度坐標, 得到用戶發(fā)布微博時所在的地市級行政區(qū)。
2) 確定用戶常居地: 根據用戶的地理微博發(fā)布時間序列, 計算得到用戶最可能的常居城市。
3) 提取旅游時空行為: 基于空間移動、時間間隔和狹義旅游等規(guī)則, 對用戶的地理微博時間序列進行劃分, 并提取游客的時空行為數據。
4) 識別城市間的移動模式: 對旅游行為進行形式化表示, 并提取其中出現(xiàn)的旅游移動模式。
世界旅游組織將旅游定義為基于觀光休閑目的, 離開常居城市, 去往他處短暫逗留(不超過一年)的活動[56]。因此, 識別常居城市是研究旅游移動模式的重要前提。中國大陸共計 333 個地市級行政區(qū), 本文采用信息熵來衡量各個城市成為游客常居城市的可能性。對于一個特定的用戶U, 通過反向地理編碼得到該用戶到訪的城市集合C={c1,c2,…,cn}。對于每個城市ck, 得到該用戶在該城市發(fā)布的微博總數Nk。用nk,m表示該用戶m月份在城市ck發(fā)布微博的總數, 并用以下公式計算熵值Ek:
根據信息熵的原理, 數據分布越均衡, 熵值越大; 用戶在常居城市停留時間最長, 在全年范圍內的微博數量分布會更加均勻, 所對應的信息熵值最大。因此, 最大熵值對應的城市就確定為用戶的常居城市。
確定常居城市后, 需要對用戶的連續(xù)微博序列進行劃分, 得到該用戶的若干次旅游出行時空行為。本文采用以下 4 個規(guī)則劃分用戶的旅游行為。
1) 常居地規(guī)則: 根據世界旅游組織的定義, 旅游行為發(fā)生在游客離開慣常環(huán)境情況下。因此, 我們規(guī)定游客的旅游活動發(fā)生在常居城市之外。如果常居城市出現(xiàn)在游客的城市序列中, 那么這個序列就會從常居城市處被分隔開, 即如果常居地出現(xiàn)k次, 則用戶的微博序列將被劃分為k+1 個子序列。
2) 時間間隔規(guī)則: 用時間間隔閾值來衡量相鄰兩條微博是否屬于同一次出行行為。如果相鄰兩條微博的時間間隔超過給定的閾值, 那么就假定游客已結束當前出行行為, 并開始下一次出行行為。采用時間間隔閾值這一參數, 可以防止用戶返回常居城市但未發(fā)布微博而導致序列過長的情況。本文將時間間隔閾值設定為 3 天。
3) 簡化規(guī)則: 合并出行行為中連續(xù)的同一節(jié)點, 即相同城市。
4) 旅游規(guī)則: 國內將旅游分為廣義旅游和狹義旅游[57]。廣義旅游指離開常居城市, 在他處短暫逗留的所有活動; 狹義旅游則規(guī)定短暫逗留活動中必須包含游憩活動。本文采用狹義旅游的概念, 規(guī)定用戶在出行過程中至少到訪過一個景區(qū), 該次出行才是旅游行為。如果其行程未包含景區(qū), 則用戶在該次出行中不是游客身份, 該次出行也不是旅游行為。
常居地規(guī)則給出空間約束條件, 時間間隔規(guī)則給出時間約束條件, 簡化規(guī)則減少出行行為表示的復雜度, 旅游規(guī)則給出出行動機的限制。通過上述4 個規(guī)則, 可以從社交媒體數據中提取游客的若干次出行, 即旅游時空行為軌跡, 將其表示為目的地城市的時間序列。
下面以一個用戶的行為為例, 說明如何從游客的微博序列中劃分出多個出行行為(Trip)。如圖 1所示, 從 20 天的時間線上可以提取 3 次出行行為。第 1 次出行中, 雖然用戶在第 3 天和第 7 天沒有發(fā)布微博, 但處于時間間隔規(guī)則允許的范圍內, 因此這段出行是連續(xù)的。第 2 次出行中, 用戶在第 9 天和第 12 天返回常居城市, 因此該次出行只包含第10 天和第 11 天。第三次出行中, 雖然用戶在第 16天后沒有返回常居城市, 但超過時間間隔的閾值,因此該次出行在第 16 天后結束。最終, 每次出行(Trip)都可以表示為如下形式:
圖1 以某個用戶的微博序列為例, 進行行為劃分Fig. 1 A user’s weibo timeline, used as an example
其中,R是用戶的常住城市;ci是行程中第i個目的地城市, 與ci+1表示的城市不同。
對提取的旅游行為, 需要用統(tǒng)一的形式表示。本文用有向圖表示游客旅行過程中的城市序列: 用有向圖中的節(jié)點表示游客的常居城市和目的地城市, 用節(jié)點之間的有向邊表示游客在相鄰兩個城市間的移動行為。根據當前行為中游客到訪目的地城市的先后順序, 確定有向圖中節(jié)點的序號。例如,序號為 1 的節(jié)點表示游客到達的第一個目的地城市。
然后, 將有向圖轉換成一個鄰接矩陣。為了便于存儲, 將方陣按行展開, 轉換為二進制字符串,最后轉換為十進制值, 作為唯一圖 ID (GID)。旅游移動模式的表示方法如圖 2 所示。
在利用有向圖抽象地表示游客在常居城市與目的地城市間移動的拓撲關系基礎上, 識別旅游行為的移動模式。在有向圖中, 只保留游客訪問節(jié)點的順序關系, 不保留節(jié)點的其他信息(如城市名稱等)。將游客的旅游行為表示為對應的 GID, 相同的GID 即為同一個模式。例如, 兩個游客分別有旅游行為“北京市?上海市?蘇州市?北京市”和“上海市?無錫市?蘇州市?上海市”, 這兩種行為都可以表示成圖 2(a)中的節(jié)點關系, 即從常居地出發(fā), 訪問兩個不同的城市后, 返回常居城市。雖然兩個行為中包含的城市不完全相同, 但其拓撲結構相同, 屬于同一個移動模式, 即 GID=140 的模式。
圖2 不同的旅游移動模式表示方法Fig. 2 Different representation methods of travel movement patterns
根據旅游的定義以及社交媒體的稀疏性特征,本文選擇符合以下 3 個條件的用戶作為研究對象:1) 非蘇州市居民; 2) 在常居城市至少發(fā)布 50 條微博; 3) 在出行過程中至少到達過一個景區(qū)。我們共得到 58720 個用戶。從這些用戶中提取 88270 個旅游時空行為, 如表 2 所示。隨著目的地城市數量的增加, 出行次數迅速減少, 相應的平均旅行天數不斷地增加。大多數旅游時空行為只有一個目的地城市, 其平均逗留時間為 1.1 天。
表2 按目的地城市數量劃分的出行數量和平均旅行時間Table 2 Quantity and duration of trips with different number of destination cities
從 88270 個旅游時空行為中識別出 853 種城市間移動模式。選擇出現(xiàn)頻次超過 25 次的模式作為頻繁模式, 最終識別出 36 種旅游移動模式。目的地城市數量是影響游客旅游行為及移動模式的重要因素, 目的地的數量會影響游客的出行規(guī)劃(如全程旅行天數)。因此, 盡管一些模式之間僅在目的地城市數量方面存在差異, 但本文都單獨進行表示(圖 3)。
根據 LCF 理論模型, 按照拓撲結構特征, 可以將圖 3 中 36 種旅游移動模式分為 5 類。
圖3 36 種旅游移動模式的識別結果Fig. 3 Recognition results of 36 travel movement pattern
第 1 類(模式1): 單一目的地模式。該模式是最簡單的一種旅游移動模式, 僅由常居城市和單個目的地城市組成, 是蘇州旅游行為的主導模式, 占總數的 76.62%。
第 2 類(模式 2 和 3): 往返模式。該模式在路徑上具有往返特性。第一個目的地城市通常具有交通樞紐的功能。從常居城市到第一個目的地的距離一般較遠, 而目的地城市之間的距離較短。往返模式中目的地城市數量較少, 只有兩個子模式與之匹配,分別包含兩個和 3 個目的地城市。
第 3 類(模式 4): 基營模式。該模式的特點是以一個目的地城市為基地, 將游客的常居城市與其他幾個目的地城市連接起來, 整體上呈放射狀?;鶢I模式通常出現(xiàn)在經濟不發(fā)達地區(qū), 游客需要選擇區(qū)域中接待要素聚集的相對發(fā)達的城市作為基地。蘇州市所處的長三角地區(qū)經濟較發(fā)達, 該模式數量很少。
第 4 類(模式 5~10): 區(qū)域旅游模式。該模式的特點是門戶目的地(游客離開常居城市后到達的第一個目的地[58])和離開目的地(游客返回常居城市之前到達的最后一個目的地)是同一個城市, 稱為樞紐目的地。其他目的地和樞紐目的地形成一個單向環(huán)路。通常, 樞紐目的地是本地區(qū)交通最便利、經濟最發(fā)達的城市(如長三角地區(qū)的上海市)。區(qū)域旅游模式更加多樣化, 包括 6 個子模式。其中, 模式7 (GID=9054244)比較特殊: 游客首先按照往返模式到達第 2 個目的地城市, 進行一次區(qū)域環(huán)游, 最后返回第 2 個目的地城市。可以將該模式視為往返模式與區(qū)域旅游模式這兩個簡單模式的組合。
第 5 類(模式 11~36): 完全環(huán)游模式。該模式的特點是門戶目的地和離開目的地是不同的城市, 且所有目的地大致形成一個單向環(huán)路。實驗結果中多目的地城市的旅游行為大多屬于該模式, 并表現(xiàn)出更多的形態(tài), 大致分為單環(huán)型、單環(huán)+支路型和雙環(huán)型 3 個亞型。
單環(huán)型(模式 11~15, 18, 24, 31 和 33~36)對應LCF 模型中的簡單單環(huán)類型, 有多個子模式, 目的地城市數量為 2~10 個, 目的地城市之間可能出現(xiàn)往返現(xiàn)象(模式 12, 14 和 15)。
單環(huán)+支路型(模式 16, 17, 19, 20, 23, 25, 26, 28,30 和 32)是簡單單環(huán)型與往返模式和基營模式相結合, 在完全環(huán)游的過程中, 游客以其中一個目的地為城市基地, 到達另一個獨立目的地城市后返回,繼續(xù)完成環(huán)游。單環(huán)+支路型子模式之間的差異除與目的地城市數量有關外, 還與基地城市在環(huán)路中的絕對位置有關。
雙環(huán)型(模式 21, 22, 27 和 29)是區(qū)域環(huán)游模式與完全環(huán)游模式相結合, 游客在一條大型環(huán)路上進行局部環(huán)游。雙環(huán)型中子模式的拓撲結構比其他類型復雜, 隨著目的地城市數量和拓撲復雜度增加,對應模式的出現(xiàn)頻率逐漸降低。
根據數據采集方式, 游客肯定訪問過蘇州市,即本文識別的模式是到訪蘇州游客的城市間移動模式。表 3 顯示到訪蘇州的旅游行為中單目的地、往返、基營、區(qū)域旅游和完全環(huán)游 5 類模式的數量和比例, 可以看出, 單目的地旅游移動模式超過 70%,是蘇州游客的主導模式, 客源主要來自周邊城市,特別是上海; 多目的地移動模式中, 完全環(huán)游模式占絕對優(yōu)勢(18.26%), 其次是區(qū)域旅游模式(2.13%),選擇往返模式和基營模式的行為總計只有 1%左右。另外, 出現(xiàn)更復雜的旅游移動模式, 可以用多個簡單模式的組合來解釋。雖然旅游移動模式多種多樣, 但游客傾向于選擇簡單的路線旅行。在目的地城市數量確定的情況下, 選擇不同拓撲形式的游客數量排序為單環(huán)型>單環(huán)+支路型>往返型, 符合以較低的成本游覽更多目的地的游客消費心理。
表3 不同移動模式的行為數量和比例Table 3 Number and proportion of different movement patterns
本文提出大數據驅動的旅游移動模式提取方法, 其中兩個核心部分為旅游行為提取和城市間移動模式識別。旅游行為提取方法結合社交媒體數據的特點, 基于時空約束及旅游規(guī)則, 精準地獲取游客的出行行為。城市間移動模式識別方法則通過有向圖表示城市間的拓撲結構, 發(fā)現(xiàn)游客的移動模式。從新浪微博數據中提取88270 個到訪過蘇州的旅游時空行為, 并從中識別出 5 大類 36 種城市間的頻繁移動模式。與基于小數據的研究[24,59]相比, 基于社交媒體數據的研究具有數據量大、時間跨度長等優(yōu)勢, 得到的旅游移動模式類型更加豐富, 模式表示更加細粒度。
通過社交媒體提取的到訪蘇州游客的城市間旅游移動模式覆蓋 LCF 模型中全部 5 類簡單移動模式, 驗證了 LCF 理論模型。同時, 實驗結果中出現(xiàn)由簡單模式組合形成的復合旅游移動模式, 表明游客不是單純地遵循一個簡單模式在目的地城市之間流動, 可能會出于不同的動機, 甚至綜合多個動機,對旅游線路有不同的選擇, 形成復雜的城市間移動軌跡[16]。本研究驗證、細化并豐富了 LCF 模型中的旅游移動模式類型。
受多種因素的影響, 本研究中旅游移動模式的選擇與以往研究結果[5,11,22,60]存在差異。到訪蘇州游客的城市間移動模式中, 單目的地模式占據主導地位; 多目的地模式中, 完全環(huán)游模式占據主導地位。這種模式選擇差異是目的地城市的區(qū)位、社會經濟水平、旅游資源配置、文化差異、旅游動機和旅游時間等因素影響的結果[16]。選擇單目的地模式的客源以周邊城市為主, 旅游動機主要是周末休閑度假; 選擇多目的地模式的客源以遠距離的城市為主, 旅游動機主要是觀光[61]。
社交媒體為旅游行為研究提供了新數據源, 通過社交媒體大數據得到的頻繁旅游移動模式能夠更全面更精準地描述游客在目的地城市間的移動行為, 有助于旅游決策者把握游客動向及偏好, 調整目的地營銷策略, 優(yōu)化旅游資源配置, 為游客提供更好的服務, 也有助于旅游管理者快速地獲取目標人群, 進行精準營銷。例如, 可以針對熱門的單目的地旅游移動模式, 推出蘇州深度游、休閑多日游等旅游產品; 可與周邊城市聯(lián)合營銷, 根據多目的地旅游移動模式中樞紐城市的位置, 精準地投放聯(lián)合營銷廣告, 設計環(huán)型旅行線路來推動區(qū)域旅游發(fā)展; 同時, 可以根據群體的頻繁移動模式, 將熱門線路推薦給其他旅游者, 減少游客出行前和出行中的決策時間, 提升旅游體驗。
社交媒體驅動的旅游移動模式研究存在一些局限性: 1) 只使用社交媒體數據, 不能完整地刻畫整個游客群體, 存在數據偏差問題; 2) 社交媒體不能精準地刻畫用戶的完整移動過程, 存在數據稀疏性問題。未來研究中, 需要將社交媒體大數據與其他數據(如信令數據等)相融合, 更快速、更準確地獲取不同類型游客的精準移動軌跡, 以期得到更加精準的旅游移動模式。