基于視頻機器分析的目的地形象差異對比
——以北京YouTube視頻為例

2022-08-22 08:17蘧浪浪

旅游學刊 2022年8期

鄧寧，蘧浪浪

（1.北京第二外國語學院旅游科學學院，北京 100024；2.北京旅游發(fā)展研究基地，北京 100024）

引言

以往人們習慣于通過游記、博客、旅行照片等文字或圖片素材獲取目的地信息，近年來，4G/5G通信網(wǎng)絡的發(fā)展進一步豐富了人們獲取旅游信息的方式，視頻也逐漸成為潛在游客獲取旅游目的地信息并建構旅游形象的主要渠道。作為一種動態(tài)視覺材料，視頻比圖片和文本的信息豐富度更高，可以通過豐富的敘事情節(jié)講述故事，使受眾對目的地產(chǎn)生更高程度的沉浸感，因而吸引越來越多的游客通過旅游視頻了解目的地，并做出相應旅游決策，這也意味著目的地形象越來越受到視頻傳播的影響，視頻儼然成為富媒體時代旅游營銷的有力媒介，這為旅游目的地營銷打開了一扇新的大門。

然而，不同主體發(fā)布的旅游視頻對目的地形象的影響存在較大差異。長期以來，目的地營銷組織（destination marketing organization，DMO）從官方視角出發(fā)投射目的地形象，其發(fā)布的視頻宣傳片、小冊子、網(wǎng)站信息等職業(yè)生成內容（occupationallygenerated content，OGC）帶有一定的誘導性，瀏覽量往往偏低，因此傳播效果有限。而如今，更加獨立自主的旅游者更喜好用視頻來記錄并分享自身旅游經(jīng)歷，這種分享是一種相對獨立的、不含功利色彩的第三方宣傳，因此相比OGC 視頻，人們更愿意相信用戶生成內容（user-generated content，UGC）。此外，也有研究表明，游客對目的地的印象更多受UGC投射影響，而受OGC的影響較小，這給DMO 進行目的地營銷推廣帶來了一定的挑戰(zhàn)。因而，有必要了解二者在投射目的地形象方面的差異，推進旅游領域對視頻內容的探究，從而促進和豐富目的地形象的研究方法及研究理論。同時，希望借鑒UGC 視頻在內容塑造和展示方面的成功經(jīng)驗，為DMO進行目的地形象營銷提供實踐指導。

事實上，UGC 和DMO 在投射目的地形象方面的差異已受到學界廣泛關注，但已有研究所用數(shù)據(jù)仍以文本及圖片素材為主，針對視頻素材的研究還處于初級階段，研究方法上以傳統(tǒng)定性研究為主，在大數(shù)據(jù)時代其局限性越發(fā)明顯。因此，本研究考慮借鑒計算機領域的研究方法和技術手段，利用機器學習深入理解視頻內容，旨在解決如下幾個關鍵問題：

（1）旅游目的地形象視頻的內容結構有什么基本特征？

（2）旅游視頻與文本素材在投射目的地形象方面有何差異？

（3）UGC 和OGC 視頻在目的地投射形象和視頻場景設計上有何差異？

1 研究綜述

1.1 旅游目的地形象相關研究

目的地形象被廣泛認為與目的地營銷直接相關，能夠直接影響潛在游客對目的地選擇的決策。在目的地形象理論中，最為經(jīng)典的定義由Crompton提出，即目的地形象是“一個人對于目的地的所有信念、想法、印象的總和”。

過往研究對旅游目的地形象進行了多種不同的分類，一種廣為接受的分類方式是根據(jù)其面向主體的不同，分為供給側的投射形象（projected image）和需求側的感知形象（perceived image）。投射形象是指，旅游目的地政府、旅游企業(yè)、社會團體等旅游形象塑造者對外宣傳并意圖在旅游者心目中樹立的形象，而感知形象則代表了旅游者對旅游目的地感受的總和。然而，在關于UGC 的研究中，往往難以明確區(qū)分游客身份，游客既屬于感知者，又屬于投射者，一方面受到DMO所刻意投射的形象影響，另一方面又主動將自身感知形象以文字、圖片、視頻等多種形式投射給社交圈層中的潛在游客。相較于OGC所投射的目的地形象，目前學術界普遍認為UGC 有著更好的口碑營銷作用，其內容往往更能得到潛在游客的信任，因此其在投射目的地形象方面更具優(yōu)勢。

在這一現(xiàn)實背景下，關于UGC 和OGC 目的地形象的比較研究越來越受到學者關注，研究主要集中于對用戶和DMO生成內容進行對比分析，探討二者在建構目的地形象方面的差異，但值得注意的是，已有研究主要停留在圖片表征目的地形象階段，對視頻素材表征目的地形象的探討尚且不足。

1.2 基于視頻素材的旅游目的地形象研究

早期旅游領域的學者主要聚焦視頻對旅游研究重要性的剖析，研究引入了一些關于視覺的新興觀點，為旅游視覺文化的研究打下了理論基礎。Urry在研究中提到旅游專業(yè)人士、學者以及游客和當?shù)厝艘哑毡檎J可旅游的本質是以視覺為中心，而旅游視頻是一種描述旅游者旅游經(jīng)歷的視覺媒體，能夠提供豐富的視覺證據(jù)，這使研究人員能觀察到視頻中當?shù)厝嘶蛲獾赜慰偷纳钗幕瘓鼍埃⑶叶床扃R頭背后的人物行為，旅游視頻所隱含的豐富的目的地信息為深入開展目的地形象提供了較好的研究素材。

目前，旅游視頻的研究主要以旅游宣傳片、旅游廣告、電影、微電影以及視頻類網(wǎng)站的視頻為數(shù)據(jù)源。其中，主流研究主要以旅游宣傳片為研究素材，如Shani 等、Yan 和Santos 以旅游宣傳片“CHINA,FOREVER”為素材，探討宣傳片對中國旅游形象的塑造和影響。Pan等通過對新西蘭兩個旅游電視廣告的對比分析，揭示了兩部電視廣告表征內容的異同及所投射的新西蘭的目的地形象。部分研究以旅游微電影或電影為素材，分析電影播放前后觀看者旅游動機及對目的地感知形象的變化，而以抖音、YouTube等視頻類網(wǎng)站數(shù)據(jù)作為數(shù)據(jù)來源開展目的地形象研究較少。

在視頻分析方法方面，目前旅游領域對視頻的分析主要采用傳統(tǒng)的問卷調查、實驗設計、訪談等定性方法，少數(shù)學者開始嘗試借助Riva FLV Encoder、Movie Maker等視頻編輯軟件抓取視頻畫面，并對畫面的圖像表征進行人工歸納分析，以揭示目的地形象。整體來看，目前旅游領域對視頻素材的研究還比較初級，研究方法較為傳統(tǒng)，研究樣本量較小，越來越難以全面刻畫、表征大數(shù)據(jù)時代背景下目的地的整體旅游形象，因此，越來越有必要借鑒其他學科先進的研究方法和技術手段。

1.3 視頻內容分析相關研究

目前，視頻內容分析在計算機和機器視覺領域已有較為成熟的研究。根據(jù)Rose的研究，視頻內容機器分析方面研究一般涉及特征提取、結構分析和抽象，從而將視頻解析為有意義的序列、場景、鏡頭和幀。視頻序列往往由多個視頻場景構成，每個視頻場景由多個鏡頭構成，而鏡頭由幀構成，其中場景定義為語義上相關、時間上相鄰的一組與主題相關的鏡頭，關鍵幀是代表鏡頭中最重要的、有代表性的一幅或多幅圖像。

視頻內容分析中特征提取是通過探索視頻中圖像、運動、音頻和文本等來分析幀和鏡頭，以識別每個鏡頭的重要特征，進而更好地理解視頻內容。以往研究為了減少視頻分析的復雜性往往會排除聲音特征，即研究不考慮聲音元素。結構分析主要是提取視頻序列的時間結構信息并識別視頻中有意義的視頻場景的過程，關于視頻的場景檢測已經(jīng)在各種媒體中進行了研究，但為結構化視頻設計的方法往往無法成功分割旅行視頻。因此Chu等提出了旅游視頻場景檢測的方法，他們利用同一旅程中拍攝的照片和視頻之間的多模態(tài)相關性，借助圖像聚類結果實現(xiàn)了旅游視頻場景的準確檢測。由于無法保證能同時獲取同一旅程中的視頻和照片素材，這一方法也有較多局限性，因此更進一步的研究中，他們從游客日程安排中提取關鍵字，利用關鍵字從圖像搜索引擎中檢索與所訪問景點相關的照片，實現(xiàn)更準確的場景檢測。視頻抽象是創(chuàng)建關于視頻結構的視覺信息表示的過程，類似于從文本文檔中提取關鍵字或摘要，即從原始視頻中提取視頻數(shù)據(jù)的子集（如關鍵幀），這在計算機領域已有較為成熟的算法，目前常用的算法主要有基于圖像幀間序列比較的關鍵幀提取、基于視頻聚類的關鍵幀提取等。用關鍵幀表征視頻內容，不但可以實現(xiàn)一定縮放比例的視頻內容提取，同時也能夠實現(xiàn)對視頻內容的較高保真度描述。

對視頻內容的進一步抽象與文本化的過程被稱作視頻標注，其將計算機視覺和自然語言處理（natural language processing，NLP）相結合，自動生成對視頻內容的文本描述，由于其對視頻數(shù)據(jù)檢索的需要而成為機器視覺研究熱點。機器自動描述圖片內容一直是人工智能領域的難題，為解決這一問題，Google團隊以encoder-decoder結構為基礎，提出了NIC（neural image caption）模型，該模型能使機器自動識圖并生成對圖片的文本描述，為視頻標注研究奠定了基礎；其后，Xu 等為解決以往僅以圖片作為唯一特征變量無上下文關聯(lián)的缺點，引入了attention 機制使模型能理解圖片背后的抽象概念，從而提高文本描述的準確性。通過文獻梳理發(fā)現(xiàn)，計算機領域對視頻內容的分析隨著技術的發(fā)展不斷深化，也為本研究的開展奠定了基礎。

2 研究對象與數(shù)據(jù)準備

2.1 案例簡介

北京是中國的首都，是中國的政治、經(jīng)濟和文化中心，有著豐富的旅游資源，多年被世界權威機構GaWC 評為世界一線城市，每年接待外國游客數(shù)量在國內各城市中排名第一，具有重要的國際地位，因此選擇北京作為研究對象探索國際游客視角下的北京旅游形象較為合適。另外，由于北京市文化和旅游局在YouTube開設賬號發(fā)布旅游宣傳視頻，且內容定時更新，這為本研究對比UGC和OGC內容提供了充足的數(shù)據(jù)支撐?；谝陨峡紤]，本研究選擇北京作為研究對象，研究結果將有助于了解國際游客眼里的北京旅游形象與中國投射的北京旅游形象的差異，從而為北京市打造國際一流旅游名城，同時進行海外旅游營銷提供參考。

2.2 數(shù)據(jù)準備

研究選擇YouTube視頻作為研究素材主要有以下兩點考慮：第一，研究主要討論國際游客眼中的北京旅游形象，而YouTube 作為全球著名的視頻在線分享平臺，有著龐大的國際用戶群體，是國際游客獲取目的地信息的重要社交平臺，因此，選擇該平臺更易獲取國際游客數(shù)據(jù)。第二，YouTube 網(wǎng)站要求用戶在上傳視頻時填寫描述視頻內容的相關信息，包括視頻標題、描述、標簽、分類等，其高價值的元數(shù)據(jù)為研究的開展提供了極大便利。

最終，本研究選擇YouTube視頻作為研究素材，以YouTube 上國際個人用戶發(fā)布的旅游視頻作為UGC視頻樣本，北京市文化和旅游局官方賬號“Visit Beijing”下發(fā)布視頻為OGC 視頻樣本。已有研究中使用關鍵詞“travel”“trip”和目的地名稱來收集數(shù)據(jù)，本研究采取相同策略，以“travel”和“visit Beijng”作為關鍵詞進行搜索。研究于2020 年7 月10日起開始對數(shù)據(jù)進行采集，共抓取了586個UGC的視頻數(shù)據(jù)集（包括視頻及元數(shù)據(jù)）、106個OGC視頻數(shù)據(jù)集。對于OGC 視頻，研究剔除了其中僅有15 秒的6 個視頻，將其余100 個視頻作為研究素材。鑒于OGC視頻中60%的視頻時長大于2分鐘，因此，本研究也選取時長在兩分鐘以上的UGC 視頻，同時剔除視頻發(fā)布日期在2017 年以前、非用戶發(fā)布、非旅游類的視頻，最終得到100個UGC視頻。

3 研究方法

3.1 研究路線

本研究主要分為3 個階段。首先，研究基于深度學習方法對UGC 和OGC 視頻進行解析，得到機器識別的北京旅游形象維度，由于機器識別結果分類較為粗糙，且部分維度之間相互重疊，因此，研究基于已有目的地形象分類對機器識別結果進行修正，并形成北京旅游形象維度。其次，研究比較了文本及視頻素材在投射北京旅游形象方面的差異。已有研究大多只是分析一種特定素材，如文本、圖片或視頻，本研究試圖同時分析視頻內容及文本素材，以期全面揭示北京旅游形象。視頻描述信息包含豐富的目的地形象信息，因此，本研究選擇視頻描述作為文本素材，同時通過視頻內容分析法對視頻進行解析，以揭示視覺素材表征的北京旅游形象。最后，基于以上分析對UGC 和OGC視頻在目的地投射形象及場景設計兩方面進行對比研究。

3.2 研究方法和技術手段

考慮到UGC 和OGC 內容涉及視頻及文本素材，研究采用內容分析法、視頻內容分析法、視頻標注3 種數(shù)據(jù)分析方法進行相關分析。其中，內容分析法主要借助自然語言處理領域的NLTK進行視頻描述信息處理，視頻內容分析則主要借鑒計算機視覺領域成熟算法深度解讀視頻含義，從而將視頻所承載的隱性內容解讀出來。

3.2.1 視頻內容機器分析

內容分析法是一種常用的對信息進行客觀、系統(tǒng)和定量描述的研究方法，它可以用于對顯性內容，如字詞的分析來判斷內容表達的觀點。為了得到文本信息所表征的目的地形象屬性，研究利用NLP 領域的文本分析包——NLTK對視頻描述信息進行分詞、詞干提取和詞頻統(tǒng)計，并進一步提取出與旅游目的地形象相關的關鍵詞，這代表了視頻文本所表征的北京旅游形象。

視頻內容分析常用來對視頻內容進行解析，本研究主要通過該方法將視頻抽象出關鍵幀，并進一步從關鍵幀中提取出與目的地形象相關的文本信息，從而比較UGC 和OGC 視頻表征的目的地形象差異。旅游視頻往往涉及的場景較多，且場景之間切換頻繁、畫面連貫性差，這意味著視頻相鄰兩幀之間差別較大，鑒于此本研究選擇基于內容感知的場景檢測算法和基于幀間差分的算法來實現(xiàn)視頻主要場景畫面的提取，由此將動態(tài)視頻轉化為靜態(tài)圖片。采取上述算法對200 個旅游視頻進行解析，為保證研究結果的準確性，研究剔除了冗余幀，最后從UGC 和OGC 視頻中分別提取了6359 個和5263個關鍵幀。

不同于以往研究人工對圖片進行編碼、歸類，本研究利用百度開源的圖像識別技術對關鍵幀進行識別，提取圖片的主要視覺元素。研究主要利用“地標識別”和“通用物體和場景識別”API對關鍵幀進行識別，其中，地標識別提取了圖片中的目的地地標信息，而通用物體和場景識別提取了圖片的其他場景信息，包括場景的類別及具體場景（圖1），這些信息就是視頻所表征的目的地形象具體屬性。

圖1 圖像識別結果示例Fig.1 Examples of image recognition results

3.2.2 視頻標注

視頻標注是指計算機自動生成給定視頻的文本描述，這種描述往往是一個句子或短語，揭示了視頻畫面中多個視覺元素之間的聯(lián)系，是對視頻畫面中重要活動、事件的描述，如“a man walking down a street in front of a building”，因此，研究采用視頻標注技術對視頻內容進一步挖掘，并提取出描述信息中相互關聯(lián)的多個視覺元素，即人物屬性及物體屬性，從而能更全面揭示視頻所表征的目的地形象。

視頻標注一般涉及視頻場景檢測、圖像特征提取及圖像標注等環(huán)節(jié)（圖2）。本研究基于深度學習框架PyTorch，利用Google 團隊推出的NIC 模型，通過ResNet-101 模型結構和COCO 數(shù)據(jù)集對旅游圖片進行訓練，選擇卷積神經(jīng)網(wǎng)絡作為圖片編碼器，提取視頻圖像特征，并將提取結果傳入LSTM（long short-term memory），LSTM 作為解碼器對圖像視覺特征進行處理并輸出序列。通過利用視頻標注算法，本研究構建了一個視頻文本化描述模型，該模型可以抽象旅游視頻主要場景，并生成文本描述結果，是后續(xù)形象挖掘的主要技術手段。

圖2 視頻標注技術原理示意圖Fig.2 Procedure of video captioning technique

4研究內容

4.1 目的地形象維度劃分

已有研究表明，沒有一種能夠完全包含目的地形象所有屬性的維度劃分方法，使用不同的研究方法得到的目的地形象維度也不同。Stepchenkova和Zhan在基于圖片的目的地形象研究中，將目的地形象的主要屬性分為了自然環(huán)境、人、傳統(tǒng)服飾等20類，Mak在研究基于圖片的在線目的地形象中，將目的地形象的主要屬性分為了自然環(huán)境、人、文化藝術等11類，可以發(fā)現(xiàn)這些分類大都包含自然環(huán)境、人、文化藝術、基礎設施四大維度。因此，本研究結合已有目的地形象維度分類對機器識別的目的地形象維度進行了合理調整，最終確定了本研究的目的地形象維度。

本研究通過視頻內容分析方法從視頻中解析出11 622個關鍵幀，考慮到人工對圖片編碼的局限性，本研究引入“圖像識別”技術對大樣本量圖片進行自動識別、歸類，得到自然風景、植物、動物等7個維度。“地標識別”結果均為旅游地標，如故宮、天安門等，因此增加“旅游景點”維度，據(jù)此初步得到機器識別的代表北京旅游形象的八大維度。在此基礎上，借鑒已有研究對目的地形象維度的劃分，本研究對上述8 個維度進行了修正，主要遵循3 點原則：第一，將非重點、非必要的維度合并為同一類；第二，由于機器識別的維度顆粒度較細，某一維度下同時包含其他維度的內容，因此需人工對機器識別維度進行判斷，把不同維度下同屬一類的內容歸到相應維度；第三，去掉與目的地形象無關的維度。基于上述原則，本研究將植物類、動物類合并為動植物類，并把自然風景類中的植物劃分到該類；人物類中的體育活動歸為特定活動類；建筑類中的傳統(tǒng)建筑、商品類中的工藝品和人物類中的文藝、典禮活動歸為文化藝術類；商品類中的食物、人物類中的餐飲娛樂活動、建筑類中的餐飲場所歸為飲食類；將建筑類中的現(xiàn)代建筑、商店商場、街道等一般設施、商品類中的公共設施、交通類中的索道、游覽車等旅游設施歸為基礎設施類。經(jīng)過修正，本研究最終將目的地形象調整為9個維度（圖3），這幾乎涵蓋了目的地形象的主要屬性，為本文進一步的目的地形象對比研究構建了基礎框架。

圖3 北京旅游形象主要維度Fig.3 Main dimensions of Beijing tourism image

4.2 視頻描述文本內容比較

用戶在YouTube網(wǎng)站上傳視頻時通常會用一段文字對視頻進行簡短描述，這種描述往往包含著豐富的目的地信息。因此，研究選擇視頻描述信息作為文本素材。首先，通過NLTK分別對UGC和OGC視頻的描述文本進行分析，輸出的結果為“詞+詞頻”形式。其次，剔除結果中與目的地形象屬性無關的詞（如the、and、travel 等）。最后，從UGC 和OGC文本中分別確定了692和307個目的地形象相關詞。

在UGC 文本中，排名前5 的詞分別是Great Wall、Forbidden City、palace、street 和city，與此相對應，OGC 文本中排名前5 的詞分別是city、Great Wall、traditional、culture 和imperial。在對文本素材進行分類時，一般每個內容單元僅被歸為一類，因此基于上述目的地形象的維度對關鍵詞進行分類，全部分類結果詳見表1。

表1 UGC和OGC文本內容比較Tab.1 Content analysis of UGC and OGC textual data

續(xù)表

研究對上述目的地形象維度進行卡方檢驗，以探討UGC和OGC在不同維度上的顯著性。結果顯示，UGC 和OGC 在飲食、特定活動和自然環(huán)境3 個維度上無統(tǒng)計學差異，且這3 個維度在所有維度中占比較低，這意味著DMO 在對外開展目的地營銷時可能并不注重投射北京的飲食特色、自然環(huán)境。而對于國際游客而言，一方面，由于DMO投射較少使得游客對北京了解較局限；另一方面，或許是因為受北京的刻板印象使然，即國際游客多認為北京是一個富有歷史氣息和國際氣息的大都市，而忽略了北京其他特色，因而在感知及投射時較少使用相關詞匯。

UGC 和OGC 文本在旅游景點（UGC 32.00%，OGC 17.83%）、基礎設施（UGC 13.71%，OGC 5.10%）、文化藝術（UGC 12.86%，OGC 32.17%）和人物（UGC 11.86%，OGC 22.93%）4 個維度上具有顯著性差異。在UGC文本中，旅游景點所占比重最大，包括長城、故宮、頤和園等在內的傳統(tǒng)著名歷史文化景點仍是最吸引國際游客的方面，其次是基礎設施，這具體體現(xiàn)在民居、小道等極富北京當?shù)厣顨庀⒌氖聞丈?。整體來看，國際游客更側重對北京旅游景點和基礎設施的感知及投射。在OGC文本中，文化藝術所占比重最大，具體表現(xiàn)在ancient、culture、opera 等代表歷史文化的詞占比較高，這意味著DMO在開展北京旅游形象海外營銷時尤其注重對北京歷史文化的投射，其次人物特寫也占有較高比重。整體來看，DMO在開展海外目的地營銷時更側重于對北京文化藝術和人物的投射。

4.3 視頻表征比較

研究采用視頻內容分析法對視頻進行深度解析，提取UGC和OGC視頻關鍵幀，并對關鍵幀進行場景和物體識別，剔除識別結果中與目的地形象無關的詞（如非自然圖像、商品-家具等），最后從UGC和OGC視頻中分別確定了5246和4091組目的地形象相關詞。由于圖片往往包含著豐富的信息，無法簡單地將其歸為某一類，即使本文已將其轉換為文本，但每組詞仍有多個含義，如人物-餐飲娛樂活動既可以歸為人物維度，又可以歸為飲食維度，因此研究對目的地形象相關詞組進行分類時，將每組詞歸類到多個維度，但最多不超過兩類，具體分類如表2。

表2 UGC和OGC視頻內容比較分析Tab.2 video Content analysis of UGC and OGC

對上述目的地形象維度進行卡方檢驗，結果顯示，UGC 和OGC 視頻在基礎設施（UGC 19.05%，DMO 16.52%）維度無統(tǒng)計學差異，且人物（UGC 23.18%，OGC 37.22%）、文化藝術（UGC 21.02%，OGC 16.37%）和基礎設施（UGC 19.05%，OGC 16.52%）3個維度占比最高，這意味著視頻在表征北京旅游形象時尤其注重突出北京的文化藝術（如傳統(tǒng)建筑、民俗活動等）、人物活動（如當?shù)厝松睢⒂慰突顒拥龋┖突A設施（如建筑、街道等）。

UGC和OGC在其余8個維度具有顯著性差異，與OGC 相比，UGC 更傾向于感知并投射北京文化藝術（21.02%）、旅游景點（14.42%）、動植物（8.04%）和交通（6.30%）形象。考慮到北京仍然是以諸如故宮、紫禁城、長城、天安門廣場等傳統(tǒng)著名景點為主，這些景點承載著中國悠久的歷史，有著濃厚的文化氣息，因此，在一定程度上旅游景點維度也可歸為文化藝術維度?？梢哉f文化元素是UGC 視頻的核心，這意味著國外游客對北京的古建筑、民俗、書法等傳統(tǒng)文化藝術有著濃厚的興趣，在旅途中渴望尋求一種對目的地文化真實性和親近性的感覺。在其他維度方面，已有研究表明，UGC圖片比OGC更多地描述目的地的交通屬性和動植物屬性，我們發(fā)現(xiàn)這一結論在UGC 視頻中同樣適用，這意味著不同傳播素材在傳達某些目的地屬性方面具有一致性。

與UGC 視頻相比，OGC 傾向于投射更全面的北京形象，包括北京的人物（37.22%）、自然風景（6.69%）、特定活動（4.65%）和飲食（3.85%）。不同于UGC 視頻中投射的人物多是游客和“舞臺前后”當?shù)厝说娜粘Ｉ?，OGC視頻投射的人物更多屬于公眾人物，如賽事活動中的運動員、公眾人物等（圖4和圖5）。導致這種差異的原因可能與OGC和UGC 視頻發(fā)布主體的性質有不同有關，即UGC 是由游客個人發(fā)布，其更渴望體驗目的地當?shù)厝说恼鎸嵣?，因而其視頻鏡頭下更多的是當?shù)厝说娜粘Ｉ詈蛫蕵穲鼍?，而DMO是由旅游局發(fā)布，帶有官方性質，其鏡頭下的人物也更宏觀，更具代表性。對于自然維度占比較小的原因或許與北京文化古都的屬性有關，因此，在視頻中文化元素比自然元素更豐富。此外，許多關于目的地形象的研究表明，某些感知維度（如飲食）在OGC 中呈現(xiàn)較少，這意味著某些維度可能并非DMO投射的重點。特定活動維度在OGC 視頻中有更多呈現(xiàn)，主要因為DMO 往往會借助重大賽事、傳統(tǒng)節(jié)日等來宣傳北京形象，如奧運會、春節(jié)、端午等。

圖4 游客視角下的“人物”Fig.4“People”from the perspective of tourists

圖5 DMO視角下的“人物”Fig.5“People”from the perspective of the DMO

4.4 視頻和文本表征的目的地形象比較

研究發(fā)現(xiàn)，視頻和文本素材在投射北京旅游景點、人物屬性方面具有一致性，具體表現(xiàn)在UGC 文本及視頻素材均側重于對旅游景點的感知及投射，而OGC 文本及視頻則均側重于對北京人物屬性的表征。不同之處在于OGC 文本素材（32.17%）主要表征北京文化藝術屬性，但該屬性在視頻素材（16.37%）中表現(xiàn)較為匱乏，而UGC恰好相反，UGC視頻素材（21.02%）主要表征北京文化藝術屬性，但該屬性在文本素材（12.86%）中較少呈現(xiàn)。研究也發(fā)現(xiàn)，某些目的地屬性（如基礎設施、人物）在視頻素材中比在文本素材中有更好的展現(xiàn)，根據(jù)媒介豐富性理論，媒介形式越豐富所傳達的信息也越豐富，尤其是在傳達一些模棱兩可的信息上更具優(yōu)勢。不同于文本素材，視頻能夠在符號系統(tǒng)間構建邏輯關系，傳遞視頻中事件、活動的意義，因而能反映目的地形象的復雜維度，這在一定程度上可以解釋為何基礎設施維度在視頻中有更充分的體現(xiàn)。例如，在文本中僅能用city、street、building等詞簡單描述北京基礎設施，而在視頻中則有更豐富的畫面體現(xiàn)，如游客乘坐交通、在街道步行、各種交通設施等。

4.5 場景設計差異比較

4.5.1 視頻場景分類

本部分采取視頻標注技術對視頻內容進行深度解析，識別視頻每個場景的特征，最終從UGC 和OGC視頻中分別得到5320個和6505個視頻場景的文本描述及場景時長?；诿總€視頻場景的文本描述，研究提取了文本描述中的主語及非主語名詞，從而能將場景中的人物屬性和其他視覺元素同時考慮進來，如通過機器識別某場景視頻標注結果中主語“people”及其他視覺元素“building/wall”，可知該場景主要描繪了自然環(huán)境下的人物行為。而上述圖像表征主要分析了場景的主視覺元素，即每個場景僅提取出一個最主要的視覺屬性，如識別某場景為自然環(huán)境，但該場景中諸如人物、建筑等視覺元素則被忽略，因此采取視頻標注技術分析目的地場景構成，顯然能更細致、更全面地表征了目的地形象。

研究對視頻的文本描述結果進行分詞，并選擇最能代表視頻場景內容的詞作為分類標準（表3），如某場景的文本描述中識別出主語為people、man等代表“人”的詞時，意味著該場景由人物和其他視覺元素組成，反之該場景僅由諸如建筑、美食、風景、交通等元素組成?；诖朔诸悩藴?，將視頻場景分為了兩大類：人像場景和非人像場景，其中人像場景包括人+建筑、人+風景和人+其他，非人像場景包括建筑、風景和其他。建筑類場景表征了北京的傳統(tǒng)古建筑（如宮殿、城墻、長城、雕塑、鐘樓等）和現(xiàn)代建筑（如商場、商業(yè)街、沿街店面等），人+建筑則表征以建筑為背景的人物活動；風景類場景表征了北京的自然旅游景點和自然環(huán)境（如公園、花草、湖、山、植物等），人+風景則表征以自然風景為背景的人物活動；其他類場景主要表征北京的美食、交通、住宿、特定活動、傳統(tǒng)文化（如戲劇、功夫、書法、皮影戲等）等，人+其他則意味著場景是以美食、交通、傳統(tǒng)文化等為背景的人物活動。

表3 場景分類維度及關鍵詞說明Tab.3 Scene classification dimension and keywords

4.5.2 人像和非人像場景比較分析

研究對視頻標注結果（即場景的文本描述）進行機器判別，將每個視頻中相同類別場景時長累加，得到該視頻不同類別場景的時長，時長最長的類別為該視頻的最終類別。采取該方法對所有視頻進行判斷，最后得到每個視頻的場景類別信息。

為了探討人物元素在表征目的地形象方面的差異，研究以人像場景時長/視頻總時長的占比來判斷視頻類型，若占比大于50%則判定該視頻以人像場景為中心，否則以非人像場景為中心。人像場景為中心的視頻主要由人物元素組成，這類視頻主要強調人物活動，包括旅游者個人和團體的旅游活動（如游覽景點、品嘗美食、乘坐交通等）、當?shù)鼐用竦纳願蕵穲鼍暗?，而其他非人物場景僅占視頻很小一部分。分析結果顯示，UGC 和OGC 視頻在投射人物屬性方面具有較高的一致性，均以人像場景為主（UGC 69 個，OGC 64 個），非人像場景占比較低（UGC 31個，OGC 30個），這一發(fā)現(xiàn)與Mak的發(fā)現(xiàn)不同，他們研究結果表明游客和DMO發(fā)布圖片更注重投射周圍環(huán)境而非人。然而他們研究的是文本和圖片素材，而本研究是探討視頻素材，這也意味著媒體豐富度不同的素材在投射目的地形象方面存在差異。

4.5.3 場景內容比較分析

研究進一步分析了每個視頻中建筑、風景和其他這3 類場景的時長，并把場景時長最長的類別作為視頻最終類別。如某個視頻建筑類場景的時間最長，說明該視頻主要表征北京建筑元素，因此將其定義為以建筑場景為中心?；诖藰藴蕦λ幸曨l進行判別，結果如表4所示。

表4 UGC和DMO視頻場景設計差異Tab.4 Differences of scene design in UGC and DMO videos

卡方分析結果顯示，UGC 和OGC 視頻在表征目的地風景屬性上無統(tǒng)計學差異，且以風景為中心的視頻占比較低，視頻文本表征的自然風景屬性同樣占比較低，這意味著北京的自然屬性可能并非游客和DMO 投射的重點。UGC 和OGC 視頻在表征目的地“建筑”和“其他”屬性方面有顯著性差異，其中UGC 視頻主要以建筑元素為中心（UGC 55 個，DMO 21個），而建筑在視頻中通常表現(xiàn)為古建筑及現(xiàn)代建筑，且前文研究也表明，UGC 視頻更傾向于投射北京的古建筑、書法等傳統(tǒng)文化藝術，這表明國外游客對北京的建筑、文化更為關注。DMO 發(fā)布視頻主要以“其他”元素為中心（UGC 40 個，DMO 67個），這在視頻中主要表現(xiàn)為除自然風景和建筑之外的其他元素，其中反映美食、交通和體育運動的元素較多，這也進一步印證了DMO更傾向于展現(xiàn)一個更全面的北京旅游形象。

5 結論與展望

5.1 結論與討論

本研究基于計算機領域的深度學習和視頻標注技術，對目的地視頻數(shù)據(jù)進行自動化分析，探討了UGC和OGC視頻在投射北京旅游形象方面的異同，并進一步比較了視頻和文本素材在目的地形象投射方面的差異。研究結論主要體現(xiàn)在以下幾方面：

第一，從視頻表征的北京旅游形象內容結構來看，人物、文化藝術和基礎設施是視頻投射的北京主要旅游形象，已有研究表明目的地諸如文化遺產(chǎn)、當?shù)鼗A設施為代表的物質環(huán)境具有地理吸引力，是目的地核心吸引要素，因而，北京所展現(xiàn)的歷史文化氣息及現(xiàn)代化設施成為游客和DMO重點投射方面。另外，從視頻及文本素材表征目的地形象對比來看，目的地形象中基礎設施、人物維度在視頻中有較豐富的呈現(xiàn)，但在文本素材中呈現(xiàn)較弱，這意味著媒體豐富度更高的視頻比文本能更有效地表征目的地某些重要屬性，這與已有研究發(fā)現(xiàn)的圖片比文本能更好揭示目的地基礎設施和人物維度的結論基本一致。

第二，從UGC 和OGC 視頻表征的目的地形象差異來看，UGC 視頻主要表征北京的文化藝術，人物、建筑場景為其主要構成元素，而OGC 視頻主要表征北京的人物、特定活動和飲食，其傾向展現(xiàn)一個更宏觀和全面的目的地形象，人物、其他場景（包括飲食、交通等元素）為其主要構成元素。根據(jù)尋求創(chuàng)新理論，游客天生對非慣常環(huán)境中的文化、習俗等事物感興趣，而北京作為具有悠久歷史的文化古都，其遺留的歷史建筑和文化環(huán)境（廟宇、京劇、功夫等）對國際游客有著強烈吸引力，因而驅使游客用視頻投射北京文化的真實性，這與已有基于圖片素材的研究發(fā)現(xiàn)基本一致。同時，已有研究也表明，在UGC 圖片中，人物通常與建筑特寫聯(lián)系在一起，本文UGC 視頻主要以人物+建筑場景為主是對已有結論的印證。此外，本研究與已有基于圖片素材的研究均表明，DMO往往會投射目的地多方面屬性，以展現(xiàn)其完整、全面的目的地形象。不同之處在于，本研究發(fā)現(xiàn)，DMO 會尤其注重投射目的地人物屬性，因而OGC 視頻通常以人物+其他場景為主，而以往基于圖片素材的研究中OGC照片中的形象要素更集中，且主要聚焦投射周圍環(huán)境而非人。

第三，本研究是旅游視頻分析領域具有大數(shù)據(jù)特征的研究，嘗試利用機器標注、關鍵幀識別等自動化手段對數(shù)以百計的目的地視頻進行幀級的內容分析和場景分析，將旅游領域視頻分析的數(shù)量從人工編碼的幾個、十幾個提升至機器分析的幾百量級，也為未來分析成千上萬旅游視頻，從更大數(shù)據(jù)尺度分析社交視頻數(shù)據(jù)，形成依托大數(shù)據(jù)的視頻分析范式奠定了基礎，是旅游營銷可視化素材挖掘領域的一次方法和研究范式的躍升。

5.2 營銷啟示

研究結果對DMO開展目的地營銷具有以下重要實踐意義。首先，研究表明視頻主要表征北京的人物屬性，且UGC 視頻鏡頭下的人物多聚焦北京普通民眾及旅游者，聚焦感知并投射當?shù)鼐用竦娜粘Ｉ顖鼍啊Ｒ虼?，DMO 在開展目的地營銷時應重視人物元素在視頻中的展現(xiàn)，尤其可以適當增加反映本土居民生活場景的視覺素材。其次，研究也表明游客更喜愛北京的歷史文化，尤其是北京的建筑環(huán)境如故宮、頤和園、長城等古建筑和歷史遺跡，因此，DMO在開展海外目的地營銷時應注重對北京文化元素的宣傳，合理增加文化元素在視頻中的占比。

6 局限與展望

本文在兩個方面存在局限性：一是研究采用機器學習方法分析大樣本視頻數(shù)據(jù)集，是旅游領域對視頻表征目的地形象研究方法的進一步嘗試，但研究僅從視頻表征內容分析入手開展研究，對UGC和OGC 之間差異的原因及二者的互動關系探討尚且不足，后續(xù)研究將重點探索二者之間的互動機制。二是由于視頻視覺元素較為復雜，研究初步將視頻場景分為3類，這可能無法完全涵蓋視頻所有特征，未來將結合敘事理論對視頻敘事展開探討。

未來的研究可在以下幾個方面進行深入和拓展：第一，由于UGC視頻相較于OGC視頻更受用戶喜愛，因此目前關于二者的比較研究均強調DMO應借鑒UGC內容，但DMO作為官方組織，是否在借鑒時保留自己的權威性和引導性，能否完全借鑒UGC所有成功經(jīng)驗，二者之間的互動機制將是未來研究的主要方向。第二，視頻是一種動態(tài)視覺材料，有著嚴謹?shù)倪壿嬀€，記載了旅游者完整的故事，因此結合敘事理論探討視頻的敘事風格及對目的地品牌的影響也將具有重大意義。第三，本研究揭示了UGC 和OGC 在表征目的地形象上的差異，但何種目的地屬性更能刺激游客，從而進一步影響游客決策行為還未可知，未來可以進一步探討視頻對游客行為的影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于視頻機器分析的目的地形象差異對比——以北京YouTube視頻為例

引言