牟進(jìn)軍+羅國(guó)寬+熊志斌
摘要:旅游電子商務(wù)與網(wǎng)絡(luò)社交媒體發(fā)展導(dǎo)致旅游信息爆炸式增長(zhǎng),用戶面臨信息過載問題。為使用戶快速獲取并甄別信息,將傳統(tǒng)協(xié)同過濾推薦算法應(yīng)用于景點(diǎn)推薦,游客對(duì)景點(diǎn)評(píng)分構(gòu)成評(píng)分矩陣,計(jì)算景點(diǎn)之間相似度,根據(jù)相似景點(diǎn)評(píng)分預(yù)測(cè)游客對(duì)目標(biāo)景點(diǎn)評(píng)分。實(shí)驗(yàn)結(jié)果顯示,景點(diǎn)預(yù)測(cè)評(píng)分平均絕對(duì)誤差為0.696,Itembased景點(diǎn)推薦算法能根據(jù)游客偏好推薦景點(diǎn)。
關(guān)鍵詞關(guān)鍵詞:協(xié)同過濾;個(gè)性化推薦;景點(diǎn)推薦;Itembased
DOIDOI:10.11907/rjdk.171818
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)011018603
0引言
隨著國(guó)民經(jīng)濟(jì)發(fā)展,旅游業(yè)成為朝陽產(chǎn)業(yè),各類旅游電商平臺(tái)與旅游社交媒體應(yīng)運(yùn)而生,如攜程、藝龍、去哪兒、旅人網(wǎng)、螞蜂窩、窮游網(wǎng)等,這些旅游電子商務(wù)平臺(tái)與社交媒體為游客提供機(jī)票與酒店預(yù)定服務(wù)、景點(diǎn)信息、旅游攻略與游記分享平臺(tái)。網(wǎng)絡(luò)查詢已成為游客獲取資訊的主要方式,游客規(guī)劃旅游路線時(shí),通常會(huì)在旅游電子商務(wù)平臺(tái)與社交媒體上查閱景點(diǎn)信息、游客評(píng)分及點(diǎn)評(píng)。
游客能夠快速在旅游電商平臺(tái)與社交媒體獲取景點(diǎn)信息,同時(shí)遭遇“信息過載”問題[1]。游客在網(wǎng)絡(luò)上獲得海量信息,相應(yīng)需要花費(fèi)額外時(shí)間查閱并甄別信息。這不僅增加了游客時(shí)間成本,還提高了線路規(guī)劃難度。推薦系統(tǒng)作為解決信息過載、滿足用戶個(gè)性化需求的有效工具,已在淘寶、亞馬遜等電商平臺(tái)成功應(yīng)用[2]?;谟脩粜枨筇峁┚包c(diǎn)推薦的國(guó)內(nèi)旅游電商平臺(tái)與社交媒體為數(shù)不多[34]。推薦算法有多種,其中基于協(xié)同過濾的推薦算法在個(gè)性化系統(tǒng)中應(yīng)用最廣[5],如高明虎等[6]改進(jìn)傳統(tǒng)協(xié)同過濾算法解決冷啟動(dòng)問題,并應(yīng)用于酒店推薦;婁小風(fēng)[7]提出基于酒店多維度屬性打分的協(xié)同過濾推薦算法提高了推薦準(zhǔn)確度;王益[8]將協(xié)同推薦算法應(yīng)用于旅游路線推薦。本文研究協(xié)同過濾算法在景點(diǎn)推薦中的應(yīng)用,為游客提供個(gè)性化數(shù)據(jù)服務(wù)。
1協(xié)同過濾推薦算法概述
協(xié)同過濾推薦算法誕生最早,基本思路是如果用戶過去物品偏好一致,將來偏好仍將一致[7]。算法通過挖掘用戶歷史行為數(shù)據(jù)發(fā)現(xiàn)用戶偏好,以此為依據(jù)計(jì)算得到相似用戶或物品并進(jìn)行推薦。協(xié)同過濾推薦算法有2個(gè)重要分支:一個(gè)是基于用戶的協(xié)同過濾算法,另一個(gè)是基于物品的協(xié)同過濾算法。Itembased算法得出的結(jié)果具有較好說服力,因此,本文將該算法應(yīng)用于景點(diǎn)推薦[9]。
基于用戶的協(xié)同過濾算法思路是根據(jù)用戶物品偏好找到相似用戶,然后將相似用戶喜歡物品推薦給目標(biāo)用戶?;谖锲返膮f(xié)同過濾算法思路類似基于用戶協(xié)同過濾算法,通過計(jì)算不同物品相似關(guān)系,找到相似物品推薦給當(dāng)前用戶。
數(shù)字化描述用戶物品偏好是協(xié)同過濾算法數(shù)據(jù)基礎(chǔ),用戶物品偏好量化方法一般有2種形式:一種是量化成離散整數(shù)值,不同值代表偏好程度;一種是量化成布爾值0或1,代表喜歡或厭惡二值偏好。電子商務(wù)網(wǎng)站通常為用戶提供對(duì)物品評(píng)分、投票及評(píng)論功能,評(píng)分值與票數(shù)代表了用戶物品偏好程度。用自然語言處理方法處理用戶評(píng)論,可得到用戶情感取向,量化成布爾值0或1。用戶對(duì)物品購買與否,也可量化成布爾值0或1。除電子商務(wù)網(wǎng)站外,社交媒體用戶也用多種行為表達(dá)偏好,如自媒體訂閱數(shù)、信息轉(zhuǎn)發(fā)數(shù)、好友關(guān)注數(shù),需要根據(jù)具體應(yīng)用量化用戶偏好。
3.2數(shù)據(jù)來源
實(shí)驗(yàn)數(shù)據(jù)源于“攜程旅行網(wǎng)”,攜程網(wǎng)向會(huì)員提供酒店、機(jī)票預(yù)訂、旅游資訊、景點(diǎn)評(píng)分、攻略分享等線上旅行服務(wù),網(wǎng)站會(huì)員超過1億8千萬。選擇攜程網(wǎng)作為數(shù)據(jù)源,可獲取足夠景點(diǎn)評(píng)分?jǐn)?shù)據(jù)。
攜程網(wǎng)旅游目的地攻略欄目中,游客分別從“景色”、“趣味性”、“性價(jià)比”3個(gè)指標(biāo)對(duì)景點(diǎn)評(píng)分,分值區(qū)間為5(最高)至1(最低)。用網(wǎng)絡(luò)爬蟲采集海南省景點(diǎn)點(diǎn)評(píng)數(shù)據(jù),原始數(shù)據(jù)按“景點(diǎn)名”+“用戶名”+“景色評(píng)分”+“趣味性評(píng)分”+“性價(jià)比評(píng)分”項(xiàng)目保存。由于數(shù)據(jù)量非常大,只選擇點(diǎn)評(píng)數(shù)10條以上景點(diǎn)進(jìn)行編號(hào)處理,得到評(píng)分?jǐn)?shù)據(jù)133 864條,含343個(gè)景點(diǎn)、32 587名游客。
3.3結(jié)果及分析
原始數(shù)據(jù)含“景色”、“趣味性”、“性價(jià)比”3個(gè)評(píng)分指標(biāo),測(cè)試選取“景色”評(píng)分作為數(shù)據(jù)項(xiàng)。為測(cè)試算法可行性,將數(shù)據(jù)分為2組,10萬條數(shù)據(jù)為訓(xùn)練數(shù)據(jù),余下33 864條為測(cè)試數(shù)據(jù),相似景點(diǎn)個(gè)數(shù)K取10。實(shí)驗(yàn)結(jié)果為平均絕對(duì)誤差MAE=0.696,表明Itembased景點(diǎn)推薦算法是可行的。
4結(jié)語
互聯(lián)網(wǎng)“信息過載”現(xiàn)象日益突出,用戶需花費(fèi)大量時(shí)間查閱、篩選信息。本文將Itembased協(xié)同過濾算法應(yīng)用于景點(diǎn)推薦,使游客能快速找到滿足個(gè)性化需求的景點(diǎn)與旅游資訊。旅游社交媒體上,游客從多個(gè)指標(biāo)對(duì)景點(diǎn)進(jìn)行評(píng)分,并附加文字評(píng)論。開發(fā)推薦系統(tǒng)時(shí),需要綜合考慮各指標(biāo)下評(píng)分,利用自然語言處理技術(shù)從文字評(píng)論中挖掘游客情感傾向,以提高推薦精度。實(shí)驗(yàn)過程發(fā)現(xiàn),旅游社交媒體游客與景點(diǎn)數(shù)量太大,計(jì)算景點(diǎn)相似性非常耗時(shí),很難做到實(shí)時(shí)推薦,而Itembased協(xié)同過濾算法可利用“游客-景點(diǎn)”評(píng)分矩陣,離線計(jì)算出景點(diǎn)相似矩陣,然后實(shí)時(shí)計(jì)算,預(yù)測(cè)游客對(duì)景點(diǎn)評(píng)分,向游客推薦景點(diǎn)。
參考文獻(xiàn)參考文獻(xiàn):
[1]李聰.電子商務(wù)推薦系統(tǒng)中協(xié)同過濾瓶頸問題研究[D].合肥:合肥工業(yè)大學(xué),2009.
[2]洪亮,任秋圜,梁樹賢.國(guó)內(nèi)電子商務(wù)網(wǎng)站推薦系統(tǒng)信息服務(wù)質(zhì)量比較研究——以淘寶、京東、亞馬遜為例[J].圖書情報(bào)工作,2016(23):97110.
[3]令狐紅英,姜季春.改進(jìn)的貝葉斯算法在旅游景點(diǎn)推薦中的應(yīng)用[J].貴州師范學(xué)院學(xué)報(bào),2012(3):2226.
[4]皇蘇斌,王忠群.景區(qū)智能空間下的實(shí)時(shí)景點(diǎn)推薦技術(shù)[J].安徽工程大學(xué)學(xué)報(bào),2011(4):6163.
[5]馬騰騰,朱慶華,曹菡,等.基于Hadoop的旅游景點(diǎn)推薦的算法實(shí)現(xiàn)與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(3):4752.
[6]高虎明,李偉麗.基于協(xié)同過濾和Rankboost算法的酒店推薦系統(tǒng)[J].微計(jì)算機(jī)信息,2010(36):206208.
[7]婁小豐.基于多屬性打分的酒店推薦算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[8]王益.基于用戶興趣特征變化的旅游路線個(gè)性化推薦技術(shù)研究[D].武漢:武漢理工大學(xué),2015.
[9]冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術(shù)綜述[J].模式識(shí)別與人工智能,2014(8):5064.
[10]侯新華,文益民.基于協(xié)同過濾的旅游景點(diǎn)推薦[J].計(jì)算技術(shù)與自動(dòng)化,2012(4):116119.
責(zé)任編輯(責(zé)任編輯:何麗)endprint