高珺
一、前言
伴隨著“互聯(lián)網(wǎng)+旅游”行業(yè)模式迅速發(fā)展與崛起,網(wǎng)絡(luò)游記成為人們記錄旅游體驗(yàn)和分享旅游經(jīng)驗(yàn)的重要載體。旅游推薦方法和地理信息系統(tǒng)的應(yīng)用和發(fā)展,使得挖掘網(wǎng)絡(luò)游記中旅游推薦地和探究其空間分布規(guī)律為湖南省旅游業(yè)發(fā)展提供對(duì)策建議,進(jìn)而研究區(qū)域旅游規(guī)劃如何更好帶動(dòng)地區(qū)經(jīng)濟(jì)發(fā)展。本研究基于馬蜂窩網(wǎng)站的湖南省旅游網(wǎng)絡(luò)游記,使用子空間聚類算法得出最優(yōu)聚類下的湖南省4A、5A景區(qū)推薦集合。通過統(tǒng)計(jì)集中各個(gè)推薦景區(qū)和城市的詞頻和經(jīng)緯度信息,利用地理信息系統(tǒng)進(jìn)行了推薦景區(qū)空間分布特征分析。最后,針對(duì)推薦景區(qū)的空間分布特征提出湖南省4A、5A景區(qū)的發(fā)展建議。
二、研究背景
湖南省位于我國華中地區(qū),擁有多樣的自然環(huán)境,孕育出獨(dú)特的湖湘文化,旅游資源極為豐富。湖南省旅游業(yè)發(fā)展為經(jīng)濟(jì)增長、社會(huì)穩(wěn)定、人民生活水平提升做出巨大貢獻(xiàn)。據(jù)2021年行業(yè)統(tǒng)計(jì)顯示,2021年湖南省旅游及相關(guān)產(chǎn)業(yè)增加值2463.78億元,按現(xiàn)價(jià)計(jì)算比上年增長7.12%,占GDP的比重為5.35%[1]。湖南省文化和旅游廳官方網(wǎng)站數(shù)據(jù)顯示,截至2021年底,湖南省A級(jí)景區(qū)數(shù)量553個(gè),其中5A級(jí)景區(qū)11個(gè),4A級(jí)景區(qū)152個(gè)[2],旅游資源豐富多樣,旅游業(yè)持續(xù)穩(wěn)定發(fā)展。
三、研究綜述
(一)子空間聚類算法
旅游推薦研究方法分為五類,包括基于協(xié)同過濾的推薦、基于內(nèi)容的推薦、基于人口統(tǒng)計(jì)的推薦、基于知識(shí)的推薦、混合型推薦。本研究主要是利用協(xié)同過濾中的聚類推薦的方法,使用更適用于高維旅游數(shù)據(jù)的子空間聚類算法。
子空間聚類是聚類分析在數(shù)據(jù)挖掘領(lǐng)域中的關(guān)鍵技術(shù)之一[3],是實(shí)現(xiàn)高維數(shù)據(jù)集聚類的有效途徑。通常將子空間聚類算法分為兩類:硬子空間聚類和軟子空間聚類。硬子空間聚類主要是指對(duì)于各個(gè)集簇,從全部特征集合中選取某些特征子集組成其相應(yīng)子空;軟子空間聚類是指在聚類過程中對(duì)集簇的各個(gè)特征賦予一個(gè)加權(quán)系數(shù),在聚類過程中得到不同集簇對(duì)應(yīng)數(shù)據(jù)特征的重要性。軟子空間聚類按照對(duì)特征屬性加權(quán)方式和懲罰項(xiàng)選擇方式的不同可分為模糊加權(quán)子空間聚類和熵加權(quán)子空間聚類。Jingle等首次將模糊權(quán)重的信息熵設(shè)置成子空間算法的懲罰項(xiàng),提出了EWKM目標(biāo)函數(shù)[4]是:
(二)旅游地空間分布研究
國內(nèi)外多數(shù)學(xué)者經(jīng)過對(duì)不同區(qū)域和不同類型的旅游地空間的分布研究,總結(jié)出研究區(qū)域中影響分布特征的相關(guān)因素,根據(jù)不同的影響因素,研究適合本地旅游發(fā)展規(guī)劃的相關(guān)問題。Goh等通過對(duì)旅游業(yè)在區(qū)域中空間分布特征進(jìn)行分析后,進(jìn)一步探討了關(guān)于旅游業(yè)分布格局對(duì)區(qū)域經(jīng)濟(jì)發(fā)展的影響,對(duì)于正處于發(fā)展中的地區(qū),旅游業(yè)對(duì)當(dāng)?shù)亟?jīng)濟(jì)具有較大的拉動(dòng)作用,對(duì)于發(fā)達(dá)地區(qū),影響力比較小[5]。Heping等通過對(duì)中國大陸入境旅游的空間分布特征進(jìn)行研究,分析出其影響因素和未來的發(fā)展路徑,研究發(fā)現(xiàn)旅游地形象、產(chǎn)業(yè)結(jié)構(gòu)等都對(duì)其空間分布特征產(chǎn)生不同的影響[6]。冼煒軒等借助GIS對(duì)北京密云地區(qū)POI數(shù)據(jù)中鄉(xiāng)村休閑旅游的空間分布特征和影響因素進(jìn)行了研究,以微觀尺度研究鄉(xiāng)村休閑旅游差異化[7]。張杰等通過以湖南五星級(jí)鄉(xiāng)村旅游區(qū)為研究樣本,通過GIS研究其分布特征和影響因素,從地理環(huán)境、當(dāng)?shù)卣叩榷喾矫嫣峁┙ㄗh[8]。
四、研究內(nèi)容
(一)游記數(shù)據(jù)預(yù)處理
利用Python爬取馬蜂窩網(wǎng)站2018年至2022年有關(guān)于湖南地區(qū)的3451篇網(wǎng)絡(luò)游記。預(yù)處理目標(biāo)是將數(shù)據(jù)轉(zhuǎn)換為“作者—景區(qū)”的數(shù)據(jù)結(jié)構(gòu),用于子空間聚類等聚類分析中。本文對(duì)游記數(shù)據(jù)進(jìn)行非文本字符去除、空值去除、重復(fù)值合并。預(yù)處理完成后,剩余2783篇游記,約為原樣本量的80.7%,作為最終的樣本集。游記預(yù)處理前后對(duì)比如表1所示:
(二)景區(qū)字典構(gòu)建
由于每位游記作者對(duì)景點(diǎn)的定義理解不同,本文只采取湖南省國家級(jí)4A、5A景區(qū)作為研究對(duì)象,獲取湖南省國家級(jí)4A景區(qū)154個(gè),國家級(jí)5A級(jí)景區(qū)11個(gè)。在景區(qū)字典中,存在不同詞語表達(dá)表示相同含義,對(duì)其進(jìn)行分開處理,在矩陣構(gòu)建時(shí)再進(jìn)行合并。
(三)關(guān)鍵詞提取
在Python中使用jieba庫進(jìn)行中文分詞,按自定義的詞典提取關(guān)鍵詞,若在同一篇游記中作者重復(fù)多次提及某一地點(diǎn),則不會(huì)重復(fù)返回該詞,只會(huì)提取一次這一地點(diǎn)詞語。每位作者在游記中提及的景點(diǎn)見表2所示。
(四)游記作者—景區(qū)矩陣構(gòu)建
構(gòu)建作者—景區(qū)矩陣方法是:設(shè)矩陣數(shù)據(jù)為D,景區(qū)字典集為P,以游記作者為行屬性,以湖南省旅游景區(qū)為列屬性,P中第j個(gè)詞記為pj,若pj與游記Ti中的某關(guān)鍵詞qj表示相同時(shí),則將矩陣D的第i行第j列值設(shè)為1,否則設(shè)為0。即最終構(gòu)建出維數(shù)為2783×165的“作者—景區(qū)”矩陣見表3:
(五)游記作者—景區(qū)矩陣子空間聚類分析及結(jié)果評(píng)價(jià)
通過Python和R語言的交互庫rpy2.robjects,調(diào)用R語言中的EWKM函數(shù)對(duì)作者—景區(qū)矩陣進(jìn)行聚類分析。集簇?cái)?shù)量設(shè)置范圍為2至10,可變權(quán)重分布值范圍為1到3,使得每個(gè)特征之間的權(quán)重分布呈現(xiàn)合理的分布狀況,將其設(shè)置為2。經(jīng)多次調(diào)試后選擇較好的一組聚類結(jié)果如表4所示:
作者—景區(qū)矩陣數(shù)據(jù)集聚類結(jié)果顯示,通過對(duì)10個(gè)不同集簇?cái)?shù)的依次設(shè)置。CH指數(shù)越大,輪廓系數(shù)(S)越靠近1呈正數(shù),聚類效果較好;CH指數(shù)越小,輪廓系數(shù)(S)更靠近-1呈負(fù)數(shù),聚類效果較差。得出簇?cái)?shù)為4時(shí),聚類效果最佳。
(六)景區(qū)推薦結(jié)果匯總
在作者—景區(qū)矩陣這一高維度數(shù)據(jù)集中,在所有游客的游記中識(shí)別出的地點(diǎn)詞集合作為子空間;對(duì)矩陣數(shù)據(jù)進(jìn)行子空間聚類后,得到被游客顯著提及特征的景區(qū)集簇;將集簇中包含的地點(diǎn)詞與其所在的子空間中的景區(qū)的交集作為推薦集。將所匹配的矩陣點(diǎn)返回并輸出為景區(qū)名稱,得出推薦景區(qū)如表5所示。
可觀察到不同作者推薦的景區(qū)數(shù)目不同,景區(qū)類型不同,部分作者更傾向于對(duì)人文景區(qū)的推薦,部分作者更傾向于對(duì)自然景區(qū)的推薦。
五、推薦景區(qū)空間分布特征研究
(一)詞頻統(tǒng)計(jì)與坐標(biāo)拾取
對(duì)推薦景區(qū)集進(jìn)行輸出整理后,利用Python進(jìn)行詞頻統(tǒng)計(jì),再與百度地圖API連接后拾取推薦景區(qū)的地理坐標(biāo)點(diǎn)。根據(jù)詞頻進(jìn)行排名,橘子洲景區(qū)被推薦的次數(shù)高達(dá)1434次,其次是鳳凰古城、岳麓山、武陵源景區(qū),推薦景區(qū)的前四名分別是湘東地區(qū)和湘西地區(qū)的旅游名片。
(二)推薦景區(qū)的空間分布特征
對(duì)湖南省推薦4A、5A景區(qū)進(jìn)行空間分布特征分析時(shí),利用ArcGIS10.2,通過最近鄰近指數(shù)、標(biāo)準(zhǔn)差橢圓以及核密度分析來探索其空間分布特征。
運(yùn)用最近鄰指數(shù)(NNI)對(duì)點(diǎn)狀空間分布要素加以描述,當(dāng)NNI=1時(shí),為均勻分布,當(dāng)NNI<l時(shí),為聚集分布,當(dāng)NNI>1時(shí),則為分散分布。得出推薦景區(qū)的最近鄰指數(shù)比率約為0.75,z得分為-3.90,經(jīng)檢驗(yàn),置信區(qū)間為99%,說明推薦景區(qū)在空間上呈聚集分布。湖南省高級(jí)別景區(qū)旅游線路不夠豐富,吸引游客的景區(qū)較為集中,在旅游線路開發(fā)等方面仍有較大的潛力。
運(yùn)用平均中心和標(biāo)準(zhǔn)差橢圓工具對(duì)推薦景區(qū)進(jìn)行分析得到圖1,發(fā)現(xiàn)推薦景區(qū)的標(biāo)準(zhǔn)差橢圓的平均中心在湘潭市。橢圓的長半軸表示以10.93km為長半軸,以9.41km為短半軸的橢圓囊括推薦景區(qū)約60%的地點(diǎn),并且這些地點(diǎn)的聚集區(qū)域大致呈西北—東南分布,說明具有相較顯著的方向性,短半軸越短,表示數(shù)據(jù)呈現(xiàn)的向心力越明顯。
運(yùn)用核密度分析工具對(duì)推薦景區(qū)的頻次為統(tǒng)計(jì)字段進(jìn)行核密度分析,計(jì)算出推薦景區(qū)在空間上的核密度值。搜索半徑設(shè)為65km,輸出柵格大小均采用默認(rèn)值,使用幾何間隔法,分為7類。從圖2中可以看出,推薦景區(qū)在空間上呈明顯的不均衡性和極化特征,主要集聚在以長沙為中心的長株潭地區(qū)和以張家界為中心的湘西地區(qū),涵蓋了橘子洲、韶山、武陵源、岳麓山等景區(qū),而湘中地區(qū)以位于婁底市和益陽交界處的大熊山國家森林公園為中心,東南部地區(qū)以位于株洲的炎帝陵景區(qū)為中心,呈現(xiàn)明顯距離衰減規(guī)律。
六、結(jié)語
湖南東部區(qū)域的自然旅游資源相對(duì)較少,城市化程度高,自然資源開發(fā)利用成本高,旅游發(fā)展受到了較多限制。深入挖掘和使用其豐富的文化旅游資源,偉人故里、雷鋒故鄉(xiāng)等具有高認(rèn)可度的文化資源,利用網(wǎng)絡(luò)宣傳、湖南臺(tái)轉(zhuǎn)播等方式充分宣傳,加強(qiáng)線下和線上的聯(lián)動(dòng);西部區(qū)域的自然旅游資源相對(duì)較多,城市化程度、產(chǎn)業(yè)發(fā)展以及旅游配套設(shè)施建設(shè)相對(duì)落后。對(duì)于西部地區(qū),借助自然旅游資源吸引游客的同時(shí),加快基礎(chǔ)設(shè)施建設(shè),培養(yǎng)專業(yè)的旅游服務(wù)隊(duì)伍。也可利用少數(shù)民族文化集聚的優(yōu)勢,開發(fā)文化旅游資源,擴(kuò)大自身區(qū)域文化的影響力,比如舉辦鳳凰的苗族銀飾文化節(jié)、張家界土家文化節(jié)等,讓游客們?cè)谛蕾p壯麗的自然景觀的同時(shí),也感受到別具一格的人文風(fēng)情,形成多元的旅游產(chǎn)業(yè)格局,從而促進(jìn)整個(gè)區(qū)域的經(jīng)濟(jì)發(fā)展。
引用
[1]湖南省統(tǒng)計(jì)局.2022年數(shù)據(jù)解讀[EB/OL].http://tjj.hunan.gov.cn/hntj/tjfx/jmxx/2022jmxx/202209/t20220901_28483794.html.2022-09-01.
[2]湖南省文化和旅游廳.湖南省A級(jí)旅游景區(qū)名錄表[EB/OL].http://whhlyt.hunan.gov.cn/whhlyt/cyfz/ggxxcx/lyajjqcx/202208/t20220803_27573796.html.2022-08-03.
[3]李霞,徐樹維.子空間聚類改進(jìn)算法研究綜述[J].計(jì)算機(jī)仿真,2010,27(5):174-177.
[4]朱林,雷景生,畢忠勤,等.一種基于數(shù)據(jù)流的軟子空間聚類算法[J].軟件學(xué)報(bào),2013,24(11):2610-2627.
[5]Goh C,Li H,Li M.A Comparative Analysis of Domestic and International Tourism Spatial Distribution: Trends and Impacts[J].Journal of China Tourism Research,2014,10(4):388-413.
[6]Huang H,Zhong W,Lai Q,et al.The Spatial Distribution, Influencing Factors, and Development Path of Inbound Tourism in China—An Empirical Analysis of Market Segments Based on Travel Motivation[J].Sustainability,2020,12(6):2508.
[7]冼煒軒,尚國琲,劉玉,等.基于POI數(shù)據(jù)的鄉(xiāng)村休閑旅游地空間格局及其影響因素——以北京市密云區(qū)為例[J].江蘇農(nóng)業(yè)科學(xué),2021,49(8):15-22.
[8]張杰,麻學(xué)鋒.湖南省鄉(xiāng)村旅游地空間分異及影響因素——以五星級(jí)鄉(xiāng)村旅游區(qū)為例[J].自然資源學(xué)報(bào),2021,36(4):879-892.