文/彭佳玉 中南林業(yè)科技大學風景園林學院 碩士研究生
沈守云 中南林業(yè)科技大學風景園林學院 教 授
廖秋林 中南林業(yè)科技大學風景園林學院 副教授(通訊作者)
王薇薇 中南林業(yè)科技大學風景園林學院 講 師
目前的風景體驗研究面臨著許多挑戰(zhàn),許多學者嘗試用不同的方法解決風景體驗評價的問題。第一類是使用基于傳統(tǒng)的調(diào)查研究方法,如通過問卷調(diào)查法[1]、半結構化訪談法[2]、觀察法[3]、結構方程模型[4]等方法研究影響大眾風景體驗的因素。此類方法依據(jù)研究目的預先設定評價指標,通過專家打分對指標權重賦值,構建評價指標體系,得出評價結果。由于評價指標的選擇和指標權重的賦值具有一定的主觀性,且數(shù)據(jù)采集的時間過于集中、數(shù)據(jù)樣本量少,會導致結果出現(xiàn)一定的偏差,構建的評價體系不具有遷移性,使之在風景體驗評價的應用中具有局限性。而隨著互聯(lián)網(wǎng)技術的發(fā)展和移動終端的普及,在線社交媒體迅速發(fā)展,越來越多的人通過社交媒體記錄風景游覽過程中的風景體驗,從而產(chǎn)生了大量風景體驗數(shù)據(jù),這為廣泛開展大眾的風景體驗評價研究帶來了機會?;诖?,很多學者開始使用基于機器學習的方法,如采用樸素貝葉斯(Naive Bayes)[5]、長短時記憶神經(jīng)網(wǎng)絡(LSTM)[6]、ROST CM6[7]、二元語言模型(Bigram)[8]等方法,根據(jù)用戶生成內(nèi)容提取風景體驗影響因子,結合情感分析,獲得大眾的風景體驗評價。此類方法雖然較為全面地考慮了評價指標選擇不受人為主觀的影響,解決了數(shù)據(jù)采集的時間過于集中等問題,提取出了影響風景體驗的相關因子,但因沒有量化計算風景體驗影響因子的重要值,未能解決風景體驗影響因子的重要性判斷問題。
針對上述方法的局限和未能解決的問題,我們嘗試采用基于隨機森林的方法展開研究,將風景體驗的因子進行提取和重要性排序,并與樸素貝葉斯進行比較。樸素貝葉斯是經(jīng)典的分類模型,算法簡單,在數(shù)據(jù)集較大的時候也能保持一定的穩(wěn)定性。隨機森林已廣泛運用在醫(yī)學、信息管理、生態(tài)學等領域,隨機森林的學習過程快,處理大量數(shù)據(jù)依舊能保持高效,相比于樸素貝葉斯基于先驗條件輸出判斷結果,隨機森林可以在數(shù)據(jù)缺少的情況下仍維持一定的準確度,給出合理的判斷。因此選用以上兩種方法作對比研究,通過對兩種方法的比較,探討隨機森林在風景體驗影響因子判斷研究上的可行性,為風景體驗影響因子的判斷方法提供一種新的方法。
張家界國家森林公園位于湖南省西北部張家界市境內(nèi),北緯29°31′,東經(jīng)110°4′,面積約130 平方公里,地處武陵山脈東段,是武陵源山脈的重要組成部分[9]。地形地貌由西北向東南傾斜,東連索溪峪,北部與天子山相鄰,有著獨特的砂巖峰林地貌;該區(qū)域氣候屬北亞熱帶季風性濕潤氣候,動植物資源豐富,森林覆蓋率達98%。公園內(nèi)包含金鞭溪、袁家界、黃石寨等多個知名景點,以獨特的地形地貌、婉轉曲折的水景、云海、日出等自然奇觀,給大眾以視覺、嗅覺、聽覺等多方面、深層次的風景體驗,是研究風景體驗的絕佳場地。
利用Python 語言的Scrapy 框架,采集攜程和去哪兒網(wǎng)站上張家界國家森林公園2015 年3月12 日至2020 年8 月19 日的共5179 多條數(shù)據(jù),其中來自去哪兒網(wǎng)的有1453 條數(shù)據(jù),攜程網(wǎng)的評論數(shù)據(jù)為3729 條,刪除與研究無關的數(shù)據(jù),得到3924 條有效評論。對收集到的評論數(shù)據(jù)進行預處理,利用Python 的第三方庫工具文本進行分詞、詞性標注及詞頻統(tǒng)計,得到研究對象的高頻詞排序,根據(jù)高頻詞內(nèi)容提取風景體驗影響因子,選取影響因子后進行人工特征標注。
1.3.1 基于隨機森林的判斷方法
隨機森林是由多個決策樹分類器組成的分類器集合,是一種重要的基于套袋(Bagging)的集成學習方法。隨機森林用于分類問題時,選取多個決策數(shù)模型組合成集成分類器,模型之間不存在依賴關系,彼此獨立并利用相同的數(shù)據(jù)搭建多個獨立的決策樹分類模型,通過少數(shù)服從多數(shù)的投票方法決定分類結果[10],在對數(shù)據(jù)進行分類的同時,還可以給出每個變量的重要性評分,評估每個變量對分類的貢獻。隨機森林的算法步驟如下:
(1)影響因子的分類方法。利用Bootstrap對原始訓練集中有放回的重復隨機抽取k 個樣本,經(jīng)過k 輪訓練,得到k 個決策樹模型,將生成的多棵決策樹模型組成分類器集合{h1(x)、h2(x),..,hk(x)},對影響因子進行積極、消極和中性的分類,最終的分類結果采用多數(shù)投票數(shù)法。最終的決策結果計算方式如下:
其中,H(x)表示組合的分類模型,X 為選取的影響因子,hi 是單個的決策樹模型,i 表示分類器的序號,Y 是影響因子的判斷結果(積極、消極、中性),I(·)為示性函數(shù),avmax 表示結果的平均值。
(2)影響因子的重要值計算方法。隨機森林模型中,選用基尼不純度平均減小值(Mean Decrease Gini)作為衡量特征重要性的指標?;岵患兌扔嬎忝總€變量對分類樹每個節(jié)點上觀測值的異質(zhì)性的影響,從而比較變量的重要性。計算方式如下:
其中,D 為評論數(shù)據(jù)的樣本集合,pk是樣本集合D 中第k 類樣本所占的比例(k=1,2,...,|Y|)。在本文k 的取值為k=(積極、中性、消極),Gini_index(D,a)是影響因子a 的重要值,值越大說明影響因子Dv 越重要,是數(shù)據(jù)集D 被a 劃分為V 個分支節(jié)點,第v 個分支節(jié)點包含了D 所有在屬性a 上取值為av 的樣本。
1.3.2 基于樸素貝葉斯的判斷方法
樸素貝葉斯是基于貝葉斯定理和特征條件獨立假設的分類方法。具體來說,對于給定的訓練數(shù)據(jù),首先基于特征條件獨立假設學習輸入以及輸出的聯(lián)合概率分布;然后基于此模型,對給定的輸入特征,利用貝葉斯定理求出后驗概率最大的輸出類別[11]。
(1)影響因子的分類方法。由于樸素貝葉斯是基于屬性條件獨立性假設,則:
其中,d 為屬性的數(shù)目,即選取的影響因子的數(shù)量。xi 為X 在第i 個屬性上的取值。P(x)表示事件x 發(fā)生的概率,由于分母對于所有類別為常數(shù),則只需將P(x|yi)最大化即可。
(2)影響因子的重要值計算方法。樸素貝葉斯模型中,選用條件熵作為衡量特征重要性的指標。計算公式如下:
以上式子中,H(X)表示某一影響因子的熵,Y 的取值為積極、中性、消極,H(Y|X)表示在某一影響因子X 出現(xiàn)時,Y 的取值期望值,H(Y|X)越大,說明該影響因子的重要性越大。
本實驗通過R 語言實現(xiàn)模型構建。運用上文所提及的影響因子的提取方法,提取了15個風景體驗影響因子,如表1 所示。風景本體體驗影響因子包括:植物、空氣、地形地貌、天氣、水體、動物、民俗文化共計7 個因子;風景環(huán)境體驗影響因子包括:人流量、服務態(tài)度、標識服務、價格、衛(wèi)生、內(nèi)部交通、游覽設施、管理,共計8 個因子。對選取的影響因子,進行人工標注,評論中出現(xiàn)標注為1,未出現(xiàn)標注為0,再通過人工對評論集進行風景體驗的類別判斷,即上文所提及的類別Y,消極、中性、積極分別標注為0、1、2。隨機將原始數(shù)據(jù)集的一半劃分為訓練數(shù)據(jù),得到1956 條訓練數(shù)據(jù),剩下的為測試集數(shù)據(jù)。將標注好的訓練數(shù)據(jù)輸入模型,反復運行直到達到一個穩(wěn)定值。
表1 風景體驗影響因子屬性表(表格來源:作者自繪)
本研究對象采集的有效評論數(shù)據(jù)為3924條,經(jīng)人工標注,得到風景體驗是積極評價的評論數(shù)量為2961 條,占總評論數(shù)的75.5%,消極評價的評論數(shù)量為725 條,所占比例為18.5%,中性評價的評論數(shù)為238 條,所占比例為6%。隨機森林的AUC 值為0.80,樸素貝葉斯模型的AUC 值為0.79,準確度分別為80%和79%。由積極風景體驗的評論數(shù)占比可知游客對公園的風景體驗為積極體驗,但消極體驗的評價比例也比較重。
風景本體體驗影響因子的重要性排序如表2 所示。兩種方法對風景本體影響因子的判斷結果基本一致。在隨機森林的方法中,通過基尼指數(shù)(Gini Index)對影響因子進行重要性排序,地形地貌的重要值最高13.15,其次為天氣13.14,空氣重要值為10.02,高于動物的重要值4.28,地形地貌讓大眾的印象最深刻,說明公園的奇特地貌得到了廣泛的認可。天氣對大眾的風景體驗影響也很重要,由于大眾對天氣的評價差異性較大,如有些游客喜歡霧天,但一部分游客認為霧天影響觀景,因此并不能確定天氣對風景體驗的效果是積極影響還是消極影響。民俗文化的重要值0.50,重要性最低,說明在風景本體體驗中,大眾對風景的人文體驗感不高,對自然風景的體驗感更高,景區(qū)今后要加強人文景觀的建設。
表2 風景本體體驗影響因子排序對比(表格來源:作者自繪)
如表3 所示,兩種方法對價格、人流量、衛(wèi)生的重要性排序一致,其他影響因子的重要性排序結果略有差異。管理在隨機森林方法的重要性排序為第三,樸素貝葉斯方法則將管理排在第四位。服務態(tài)度在隨機森林方法的排序結果中為第四位,而在樸素貝葉斯方法的重要性排序中為第六位。游覽設施在隨機森林方法和樸素貝葉斯方法的重要性排序分別為第五和第三,標識服務的排序分別為第六和第七。這種差異有可能是兩種算法基于不同的特征重要性計算方法導致的,且大部分游客對風景環(huán)境體驗是消極評價,會造成評價結果的誤差。
表3 風景環(huán)境體驗影響因子排序對比(表格來源:作者自繪)
結合評論文本“態(tài)度差”“標識不清晰”“排隊”以及“貴”“服務”等高頻詞分析,大眾對價格、人流量、管理、服務態(tài)度、標識服務、內(nèi)部交通為消極評價。大眾對游覽設施的評價沒有明顯偏向積極或者消極。在隨機森林的方法中,價格在整體的風景體驗影響因子重要性排序中占首位,重要值為48.78,人流量和管理的重要值為31.20和23.23,這三項風景環(huán)境影響因子的重要值高于風景本體影響因子的重要值,說明風景環(huán)境的體驗感和公園的管理服務會極大地影響大眾對風景體驗的評價。
本文基于隨機森林算法提出風景體驗影響因子的判斷方法,并以張家界國家森林公園為例進行了驗證,分析結果與已有研究的結果基本一致[12,13],說明本方法判斷結果基本正確。相比較于Kun Kim 等[14]運用文本挖掘和共現(xiàn)分析,只能給出定性的判斷,不能定量計算影響因子的重要值;Lars Brabyn等[15]運用GIS 對指定空間范圍內(nèi)的風景體驗進行研究,使用范圍局限大。隨機森林的判斷方法可以減少個人在研究中的主觀干擾,通過網(wǎng)絡用戶生成內(nèi)容和詞頻分析提取影響因子,從大眾的角度對風景體驗進行較為客觀的記錄,靈活性更強,隨機森林算法根據(jù)風景體驗影響因子的重要性排序,可以滿足更多情況下的研究需求,景區(qū)可以優(yōu)先解決對大眾風景體驗影響更大的因素,使工作更有針對性,建設成效更符合大眾的需求。
風景體驗影響因子判斷結果表明,大部分大眾對公園的整體風景體驗是積極的,但消極的評價所占比例仍接近兩成。風景本體體驗影響因子中的空氣、植物、水體等與大眾的風景體驗呈正相關,對大眾的風景體驗產(chǎn)生積極影響;風景環(huán)境體驗影響因子中的價格、管理、人流量、服務態(tài)度等與風景體驗呈負相關,對大眾的風景體驗產(chǎn)生消極影響,且在整體的影響因子中排序靠前(價格、管理、人流量都處于整體的前三),產(chǎn)生的消極影響較大,這一結果表明公園的管理、服務、基礎設施阻礙公眾開展體驗風景活動,給公園造成了負面影響,降低了公眾的風景體驗度。公園應當努力提升管理和服務水平,使得公眾可以不被風景外部環(huán)境干擾,獲得完整的風景體驗,增強公眾的體驗感。