李詩(shī)怡 李淑玲
(西安歐亞學(xué)院,陜西西安 710065)
隨著旅游業(yè)的繁榮和生活水平的提升,人們?cè)谧非笪镔|(zhì)生活的同時(shí),將出行旅游、陶冶情操等精神生活的滿足視為生活中不可或缺的一部分。根據(jù)文化和旅游部發(fā)布的國(guó)內(nèi)旅游數(shù)據(jù)情況調(diào)查結(jié)果,2022 年上半年國(guó)內(nèi)出游總?cè)藬?shù)達(dá)14.55 億人次。陜西省作為我國(guó)中西部地區(qū)的旅游大省,不僅擁有獨(dú)一無(wú)二的自然美景,還有深厚的歷史文化底蘊(yùn),但也存在影響旅游行業(yè)發(fā)展的因素,如景區(qū)分布廣,城市的知名度不高等。針對(duì)旅游景區(qū)分布廣、地區(qū)旅游不均衡的問(wèn)題,本文對(duì)陜西省3A 級(jí)及以上景區(qū)數(shù)據(jù)進(jìn)行分析,充分整合旅游資源,利用文本挖掘算法進(jìn)行分析與研究,并結(jié)合景區(qū)間的距離和景區(qū)的特色推薦旅游線路,以幫助游客選擇合適的旅游線路,從而在一定程度上推動(dòng)陜西省各城市的旅游業(yè)協(xié)調(diào)發(fā)展,為陜西省旅游業(yè)發(fā)展作出貢獻(xiàn)。
本文研究的數(shù)據(jù)源于去哪兒旅行網(wǎng)站和百度百科網(wǎng)站,爬取數(shù)據(jù)時(shí)間截止到2022 年11 月去哪兒旅行網(wǎng)站記錄的3A 級(jí)及以上景區(qū)的數(shù)據(jù),其中數(shù)據(jù)說(shuō)明如表1 所示。
表1 數(shù)據(jù)說(shuō)明表
對(duì)景區(qū)數(shù)據(jù)進(jìn)行文本挖掘,有利于游客快速找到合適的旅游路線。下面將使用LDA 模型對(duì)經(jīng)過(guò)預(yù)處理的文本數(shù)據(jù)進(jìn)行主題詞提取,然后使用K-Means聚類將相似的景區(qū)整合。首先,為了提取景區(qū)的主題詞,需要確定最優(yōu)模型主題數(shù),通過(guò)困惑度曲線圖選出合適的主題數(shù);其次,經(jīng)過(guò)LDA 模型主題提取出各個(gè)主題并展示;再次,根據(jù)主題對(duì)景區(qū)數(shù)據(jù)結(jié)合景區(qū)之間的距離進(jìn)行聚類分析;最后,展示每個(gè)主題下的聚類結(jié)果,并對(duì)其進(jìn)行描述和分析[1]。
1.確定最優(yōu)模型主題數(shù)
由于LDA 模型在建模之前需要確定最優(yōu)的主題個(gè)數(shù),本文在確定主題數(shù)時(shí)選擇主題困惑度方法,該方法經(jīng)常被用于確定主題個(gè)數(shù)。
本文研究的主題從2 到9 變換時(shí),困惑度慢慢降到比較低的水平,當(dāng)主題數(shù)增加到9 及之后時(shí),困惑度變化不大;當(dāng)主題數(shù)為3、4、9 時(shí),困惑度有轉(zhuǎn)折點(diǎn),困惑度太高則主題數(shù)少,會(huì)影響聚類效果,困惑度太低又會(huì)容易出現(xiàn)過(guò)擬合現(xiàn)象,因此既要保證主題數(shù)合理又要保證困惑度適中,結(jié)合困惑度越低模型效果越好的原則,選擇主題數(shù)為4。
2.各主題對(duì)應(yīng)關(guān)鍵詞
經(jīng)過(guò)LDA 主題模型關(guān)鍵詞提取后前10 個(gè)關(guān)鍵詞結(jié)果如表2 所示。
表2 主題關(guān)鍵詞
由表2 可知,主題一的關(guān)鍵詞有秦嶺、黃河、瀑布、森林等,它們都屬于自然景觀;主題二的關(guān)鍵詞有博物館、文物、遺址、黃帝陵等,它們都屬于歷史文化;主題三的關(guān)鍵詞有舊址、延安、紅軍、毛澤東等,它們都屬于革命景區(qū);主題四的關(guān)鍵詞有休閑、體驗(yàn)、博覽園、參觀,它們都屬于娛樂(lè)生活。
聚類的主要指標(biāo)是進(jìn)行分詞處理后的文本數(shù)據(jù),基于LDA 模型提取的關(guān)鍵詞,將包含關(guān)鍵詞的共同特征景區(qū)進(jìn)行整合,即各主題所包含的景區(qū)與各景區(qū)的經(jīng)緯度信息。
K-Means 聚類有多種的算法評(píng)價(jià)指標(biāo),本文在聚類效果評(píng)價(jià)時(shí)選擇常見(jiàn)的輪廓系數(shù)法,尹世莊等在研究中提到輪廓系數(shù)是由Kaufman 等結(jié)合凝聚度和分離度所提出的,輪廓系數(shù)的值在[-1,1]之間,趨近于1 表示內(nèi)聚性和分離性較好,即輪廓系數(shù)越大聚類效果越好,該方法的計(jì)算公式如下:
該公式中,a代表向量到同一簇內(nèi)其他點(diǎn)不相似程度的平均值,b代表向量到其他簇的平均不相似程度的最小值,s代表向量輪廓系數(shù)。
根據(jù)主題模型整合后的各主題所包含的景區(qū)與各景區(qū)的經(jīng)緯度數(shù)據(jù)進(jìn)行聚類,并輸出每個(gè)類簇中心。根據(jù)輪廓系數(shù)值選取的主題聚類模型結(jié)果如表3所示。
表3 主題線路推薦
如表3 所示,主題一聚類結(jié)果分為3 個(gè)類簇中心,即3 條線路。以類簇一的經(jīng)緯度為中心,距離該中心近的景區(qū)有16 個(gè),包括中壩大峽谷、丹江漂流、九龍山景區(qū)、吳山、壺口瀑布等景區(qū);以類簇二的經(jīng)緯度為中心,距離該中心近的景區(qū)有3 個(gè),包括天書(shū)峽景區(qū)、太平國(guó)家森林公園、黑河國(guó)家森林公園;以類簇三的經(jīng)緯度為中心,距離該中心近的景區(qū)有34 個(gè),包括五龍洞國(guó)家森林公園、佛坪熊貓谷、關(guān)山草原、南宮山、南沙湖景區(qū)等景區(qū)。主題二聚類結(jié)果分為兩個(gè)類簇中心,即兩條線路。以類簇一的經(jīng)緯度為中心,距離該中心近的景區(qū)有28 個(gè),包括乾陵、華清宮、華陽(yáng)古鎮(zhèn)、咸陽(yáng)博物館、唐昭陵、大明宮國(guó)家遺址公園等景區(qū);以類簇二的經(jīng)緯度為中心,距離該中心近的景區(qū)有3 個(gè),包括大唐芙蓉園、蔡倫墓、阿房宮遺址。
主題三聚類結(jié)果分為兩個(gè)類簇中心,即兩條線路。以類簇一的經(jīng)緯度為中心,距離該中心近的景區(qū)有9 個(gè),包括中共中央西北局舊址、鳳凰山麓革命舊址、延安革命紀(jì)念館、扶眉戰(zhàn)役紀(jì)念館、楊家?guī)X革命舊址等景區(qū);以類簇二的經(jīng)緯度為中心,距離該中心近的景區(qū)有6 個(gè),包括八路軍駐西安辦事處、渭華起義紀(jì)念館、長(zhǎng)樂(lè)塬抗戰(zhàn)工業(yè)遺址、旬陽(yáng)縣紅軍紀(jì)念館等景區(qū)。
主題四聚類結(jié)果分為兩個(gè)類簇中心,即兩條線路。以類簇一的經(jīng)緯度為中心,距離該中心近的景區(qū)有23 個(gè),包括秦嶺峽谷漂流、秦嶺野生動(dòng)物園、翠華山、茯茶小鎮(zhèn)等景區(qū);以類簇二的經(jīng)緯度為中心,距離該中心近的景區(qū)有6 個(gè),包括法門(mén)寺、姜嫄水鄉(xiāng)、楊凌農(nóng)業(yè)示范區(qū)等景區(qū)。
游客在考慮時(shí)間成本時(shí)會(huì)選擇最短線路,因此筆者將結(jié)合LDA 主題提取各景區(qū)結(jié)果與每個(gè)主題下景區(qū)距離的聚類結(jié)果,將所有景區(qū)分為4 種類型。從景區(qū)特色方面來(lái)入手為游客推薦,表3 中主題一所包含的關(guān)鍵詞和景區(qū)為風(fēng)景名勝線路,主題二所包含的關(guān)鍵詞和景區(qū)可以歸類為歷史古跡線路,主題三所包含的關(guān)鍵詞和景區(qū)可以歸類為紅色之旅線路,主題四所包含的關(guān)鍵詞和景區(qū)可歸類為休閑時(shí)光線路。下面以紅色之旅主題為例介紹推薦線路,游客可以根據(jù)旅行需求挑選適合自己的特色線路。
紅色之旅根據(jù)聚類結(jié)果分為兩條線路,該兩條線路皆是相對(duì)于類簇中心而言最近距離的線路,此路線的景區(qū)以紅色革命為主,紀(jì)念館、革命舊址都記錄了革命歷程。沿著該線路能夠感受黨的光輝歷程,走進(jìn)革命圣地,緬懷革命先烈,了解先輩的豐功偉績(jī),跟隨黨的腳步,不忘初心。
基于類簇中心一經(jīng)緯度聚類的結(jié)果,主題三第一條推薦線路為棗莊革命舊址-楊家?guī)X革命舊址-延安革命紀(jì)念館-鳳凰山麓革命舊址-中共中央西北局舊址;基于類簇中心二經(jīng)緯度聚類的結(jié)果,主題三第二條推薦線路為長(zhǎng)樂(lè)塬抗戰(zhàn)工業(yè)遺址-茂陵博物館-八路軍駐西安辦事處-猿人遺址-渭華起義紀(jì)念館-旬陽(yáng)縣紅軍紀(jì)念館。這兩條推薦線路都距離中心點(diǎn)較近,且各景區(qū)之間的距離也較近,可供游客按需選擇。
本文通過(guò)對(duì)陜西省旅游景區(qū)的文本挖掘研究,針對(duì)線路推薦問(wèn)題,站在游客的角度上考慮時(shí)間成本,結(jié)合景區(qū)的特色與景區(qū)間的距離,采用LDA 主題模型對(duì)陜西省的景區(qū)數(shù)據(jù)進(jìn)行整合,將樣本數(shù)據(jù)分為自然景觀、歷史古跡、紅色之旅、休閑時(shí)光4 類。然后結(jié)合景區(qū)整合結(jié)果與距離聚類,根據(jù)類簇中心選出最優(yōu)線路,最后根據(jù)聚類的結(jié)果為游客推薦合適的線路[2]。
針對(duì)研究中發(fā)現(xiàn)的問(wèn)題,筆者將從兩方面提出建議,一方面是景區(qū)角度:首先,建議景區(qū)加強(qiáng)管理,提高景區(qū)服務(wù)人員的職業(yè)素養(yǎng)[3];其次,由于陜西省的特色景區(qū)僅集中在某些城市,景區(qū)差異不大,建議陜西省多開(kāi)發(fā)特色景區(qū),滿足游客的個(gè)性化需求[4];再次,景區(qū)要完善公共設(shè)施,增加出游交通設(shè)備;最后,對(duì)于地域發(fā)展不均衡、旅游資源利用不合理這類問(wèn)題,建議結(jié)合多個(gè)城市讓游客體驗(yàn)不同的景區(qū)風(fēng)格。另一方面是游客角度:首先,游客要明確旅游目的地,節(jié)省選擇地點(diǎn)占用的時(shí)間;其次,游客要根據(jù)選好的目的地,有針對(duì)性地瀏覽旅游攻略,了解目的地景區(qū)特色,從而擁有更好的旅行感受[5]。