王婧虹 李銀勝
(復(fù)旦大學(xué)軟件學(xué)院 上海 201203)
我國的酒店市場空間巨大,尤其是隨著經(jīng)濟(jì)水平和生活質(zhì)量的不斷提升,人們出行頻率大幅提高,對酒店服務(wù)的需求擴(kuò)大,酒店種類變得豐富且數(shù)量激增。因此,為用戶提供精準(zhǔn)有效的酒店推薦服務(wù)尤為重要。
目前國內(nèi)外均提出并實(shí)施了很多推薦系統(tǒng),以方便用戶挑選酒店。但已有的推薦系統(tǒng)大多存在數(shù)據(jù)稀疏、冷啟動(dòng)以及對用戶行為缺乏理解的缺點(diǎn),沒有挖掘用戶人性化數(shù)據(jù),確定其興趣所在,推薦其真正感興趣的酒店資源。以下結(jié)合用戶場景介紹目前酒店推薦存在的問題。
總所周知,李彥宏、馬云、馬化騰分別為BAT創(chuàng)始人,均為中國著名男性企業(yè)家,如表1所示,因此對酒店的硬性需求基本一致。
表1 共同特征
若三位到達(dá)上海,需入住酒店時(shí),按傳統(tǒng)推薦方法,均會(huì)推薦上海萬豪虹橋大酒店,因其離虹橋機(jī)場近、地理位置優(yōu)越、商務(wù)風(fēng)格、環(huán)境安靜、設(shè)施齊全,較好滿足三位基本要求。酒店特征描述如表2所示。
表2 酒店特征
針對李彥宏,專注保守(性格),崇尚極簡主義(觀念),為其推薦經(jīng)典的商務(wù)酒店即可,上海萬豪虹橋大酒店乃不二之選;但針對馬云,不像其他二位本身家庭條件優(yōu)渥(環(huán)境)且擁有IT技術(shù)背景(知識(shí)),他創(chuàng)業(yè)歷程艱辛坎坷(經(jīng)歷),且相對年齡較大(生理),年輕時(shí)不懈拼搏如今事業(yè)有成的他相當(dāng)注重養(yǎng)生,喜愛太極(觀念)。因此在滿足基本需求的前提下,結(jié)合人性化特征,給馬云推薦環(huán)境靜謐,擁有可散步健身的大塊草坪的上海西郊賓館更為合適,符合其養(yǎng)生之道;針對馬化騰,典型的廣東潮汕人(環(huán)境),鐘愛廣式美食(觀念),對于率性的他(性格),身處外地能很方便地品嘗到家鄉(xiāng)味道,定是人生幸事。因此在滿足基本需求的前提下,結(jié)合人性化特征,給馬化騰推薦周邊就有“潮汕食府”的上海虹橋新華聯(lián)索菲特大酒店更為合適,符合其飲食文化。上述三位人性化特征如表3所示。傳統(tǒng)推薦與人性化推薦結(jié)果對比情況如表4所示。
表3 人性化特征
續(xù)表3
表4 推薦對比
由此可見,客戶選擇酒店,其實(shí)是選擇一個(gè)短期的生活圈[10],僅僅滿足其對硬件設(shè)施的需求是遠(yuǎn)遠(yuǎn)不夠的[13],更需從多方面考慮其人性化特性,讓客戶體會(huì)到被推薦的酒店處處都在為其著想,賓至如歸[12]。
因此,本文提出了一種基于人性化用戶特征的在線酒店推薦方法。剖析、獲取用戶人性化特征形成酒店用戶模型,結(jié)合特征匹配與協(xié)同過濾方法為用戶推薦其感興趣的酒店。并于課題項(xiàng)目“酒店管理營運(yùn)博弈沙盤”進(jìn)行實(shí)驗(yàn),得出準(zhǔn)確率、召回率、運(yùn)行效率等綜合表現(xiàn)最佳的推薦方式,且在一定程度上解決冷啟動(dòng)和數(shù)據(jù)稀疏的問題。
目前大部分酒店推薦系統(tǒng)基于用戶瀏覽和購買歷史進(jìn)行興趣度分析,著力于采集電子商務(wù)網(wǎng)站中的大量注冊、交易、評價(jià)等用戶數(shù)據(jù),和Web服務(wù)器中的日志數(shù)據(jù)、用戶購物信息,但用戶的人性化特性鮮為關(guān)注。
文獻(xiàn)[1]采集用戶已訪問的酒店資源集合以及在線提交的資源要求等信息。根據(jù)用戶于酒店網(wǎng)站上的在線行為,抽象出瀏覽用戶特征并構(gòu)建信息庫,形成用戶模塊。分析用戶興趣特征和產(chǎn)品特征的相似性,利用聚類方法,挖掘出與用戶興趣相關(guān)的酒店產(chǎn)品。量化用戶興趣特征和產(chǎn)品特征,匹配算法簡單明了,但產(chǎn)品特征需一一列舉,且不易量化的特性均被忽略。文獻(xiàn)[2-3]采集用戶酒店評論信息,得到用戶偏好和酒店評價(jià)數(shù)據(jù)。根據(jù)用戶輸入對酒店的要求(如城市,出游類型等信息,及對房間、食物、位置、服務(wù)、設(shè)備等的偏好),來構(gòu)建用戶模型。文獻(xiàn)[2]認(rèn)為群體用戶的整體評價(jià)往往會(huì)忽略推薦用戶某方面的特定需求。因此先為評論提取偏好,根據(jù)有相同或相似偏好的用戶評價(jià)來形成推薦列表。協(xié)同過濾的思想,存在冷啟動(dòng)、數(shù)據(jù)稀疏問題。文獻(xiàn)[3]提出線下評估方法,線下提取酒店用戶評論并進(jìn)行處理得到項(xiàng)目特征矩陣,結(jié)合協(xié)同過濾,加快推薦速度,一定程度上優(yōu)化冷啟動(dòng)問題但無法徹底解決,且需要不斷更新離線資源。文獻(xiàn)[4]采集用戶內(nèi)部數(shù)據(jù)(如國籍、性別、年齡等)和外部數(shù)據(jù)(如設(shè)備、社交媒體、時(shí)間、環(huán)境等)。通過對用戶內(nèi)外部信息數(shù)據(jù)進(jìn)行語義特征提取等處理,并進(jìn)行情感分析、行為分析、偏好分析,來構(gòu)建用戶模型。文獻(xiàn)[5]采集用戶基本信息和網(wǎng)站操作信息數(shù)據(jù),根據(jù)用戶基本信息(性別、年齡、職業(yè)等)、用戶偏好信息及用戶操作行為(學(xué)習(xí)記錄、收藏夾等)來構(gòu)建模型。文獻(xiàn)[6]采集用戶瀏覽網(wǎng)站時(shí)的眼動(dòng)追蹤數(shù)據(jù)和鼠標(biāo)追蹤數(shù)據(jù),來得到用戶偏好,再做基于內(nèi)容的推薦。
綜上,目前已有的推薦系統(tǒng)大多存在數(shù)據(jù)稀疏、冷啟動(dòng)以及對用戶行為缺乏理解的問題。幾乎沒有挖掘用戶人性化數(shù)據(jù),確定其興趣所在,推薦其真正感興趣的酒店資源。因此,本文結(jié)合用戶人性化特征,更準(zhǔn)確、高效地為用戶推薦酒店。
國內(nèi)外相關(guān)研究機(jī)構(gòu)與學(xué)者在用戶建模以及推薦技術(shù)領(lǐng)域取得了大量的研究成果:目前廣泛采用用戶行為分析觀察法來獲取用戶喜好信息,通過獲取到的用戶喜好信息建立用戶模型[8]。一般通過基于知識(shí)的推薦技術(shù)來直接啟發(fā)用戶主動(dòng)提供偏好和需求,進(jìn)而通過用戶偏好結(jié)構(gòu)以及關(guān)聯(lián)規(guī)則和樣例以及評論屬性來建立用戶輪廓模型[9];基于內(nèi)容的推薦技術(shù)主要從用戶表示喜愛或者正面反饋的內(nèi)容來獲取用戶偏好,進(jìn)而通過基于關(guān)鍵詞的向量空間模型、基于內(nèi)容的標(biāo)簽網(wǎng)絡(luò)以及潛在的主題模型等技術(shù)來構(gòu)建用戶輪廓模型;基于協(xié)同過濾的推薦技術(shù)通過獲取到的用戶偏好模型,運(yùn)用余弦相似度、皮爾遜相似度等方法找到其相似用戶[11],再為其推薦相似用戶喜愛的產(chǎn)品,以取得較高的推薦成效。然而這些方法所采取的用戶數(shù)據(jù)相對較為單一,往往只是用戶某個(gè)維度的體現(xiàn),從而導(dǎo)致在推薦上的人性化效果不足。
人性化用戶模型由作者所在課題組李銀勝[22]、沈劍平[19]等人提出,亦稱數(shù)字靈魂模型Cyber-Anima。Cyber-Anima模型旨在反映個(gè)體的內(nèi)生特征概念,這些內(nèi)生特征會(huì)對個(gè)體行為產(chǎn)生重大影響。該模型對用戶人性化特征進(jìn)行數(shù)字處理,為探索用戶欲望和推理用戶意圖提供了全新的視角。個(gè)體內(nèi)生特征可從用戶輸入、互聯(lián)網(wǎng)資源、應(yīng)用系統(tǒng)、便攜式設(shè)備等處獲取的信息進(jìn)行關(guān)聯(lián)、相互轉(zhuǎn)換,不斷更新、完善。因此,Cyber-Anima對于身處網(wǎng)絡(luò)世界的個(gè)體來說是與生俱來的,在使用過程中無需再收集各種用戶相關(guān)數(shù)據(jù)。所以,若結(jié)合人性化用戶模型,可解決傳統(tǒng)協(xié)同過濾方法的冷啟動(dòng)和數(shù)據(jù)稀疏問題[22]。
表5 六大維度內(nèi)容
人性化模型采用基于本體的表示法,將六個(gè)維度中的屬性作為本體的概念對和關(guān)系,從而結(jié)構(gòu)化、語義化地描述用戶[14]。在構(gòu)建過程中,通過確定本體的頂層概念,即用戶模型的六個(gè)維度,然后按照六個(gè)維度的具體定義,將其子維度表示成相應(yīng)的子概念。用戶模型維度可以表示為D∷=C×R,其中C表示概念集,R表示關(guān)系集。其中關(guān)系是概念之間的聯(lián)系,本文在構(gòu)建人性化個(gè)體模型本體時(shí)主要運(yùn)用的幾種關(guān)系類型[14]如表6所示。
表6 概念間關(guān)系類型
構(gòu)建用戶模型時(shí)涉及到語義特征提取技術(shù),用戶信息中往往包含大量文本信息。文本的特征項(xiàng)的選取即為從文本中抽取具有代表性的詞來表示文本信息的特征[19]。文本信息通常使用向量空間模型(VSM)來表示,每個(gè)文檔表示為一個(gè)特征向量V=(t1w1,t2w2,…,tnwn),其中ti為詞條項(xiàng),wi為權(quán)值。
如果某個(gè)詞或短語在一個(gè)文本中出現(xiàn)的頻率TF(term-frequency)高,在其他文本中出現(xiàn)的頻率低,則認(rèn)為該詞或短語具有良好的區(qū)別能力[21]。IDF(Inverse Document Frequency)指逆向文件頻率,如果包含詞條t的文檔越少,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。
結(jié)合TF與IDF,TF-IDF計(jì)算方法如下所示:
(1)
式中:tfi為詞i在訓(xùn)練集中的詞頻,N為訓(xùn)練集文本數(shù),ni未出現(xiàn)詞i的文本數(shù)目。
本文依托于所在實(shí)驗(yàn)室提出的私有云瀏覽器“彩云閣”,在這里每個(gè)個(gè)體都擁有自己的Cyber-Anima模型[22],本文將其應(yīng)用到酒店推薦領(lǐng)域,提取出與酒店選擇相關(guān)的用戶特征,形成人性化酒店用戶模型。綜合用戶特征與酒店特征匹配結(jié)果和協(xié)同過濾方法所得結(jié)果,可得酒店推薦候選集。如圖1所示。
圖1 整體架構(gòu)
針對酒店可量化的參數(shù),如星級、房型、房價(jià)、設(shè)施、設(shè)備、服務(wù)等,進(jìn)行歸一化處理,可得酒店特征參數(shù)表,如表7所示。
表7 酒店特征參數(shù)
酒店特征矩陣如下所示:
H(f)=(H11,H12,…,H1j,H21,…,H2j,…,Hij)
(2)
式中:Hij表示第i家酒店的第j個(gè)特征。兩個(gè)酒店間相關(guān)性可通過余弦相似度得到,如下所示:
(3)
與酒店特征一一對應(yīng),結(jié)合用戶基本信息、輸入信息及人性化信息可得用戶偏好矩陣U(f),如下所示:
U(f)=(U1,U2,…,Uj)
(4)
式中:Uj表示用戶u對第j個(gè) 特征的偏好。
為了更好地發(fā)掘用戶之間的潛在聯(lián)系,更進(jìn)一步解決數(shù)據(jù)稀疏性問題,本文采用用戶-用戶矩陣對用戶進(jìn)行建模,并通過余弦相似度計(jì)算它們之間的相似度,如下式所示:
(5)
緊接著,用戶u就可以通過n個(gè)相似的用戶(u1,u2,…,un)和他們間的相似度(sim_u1,sim_u2,…,sim_un)表示。
將會(huì)影響酒店選擇人性化特征引入到用戶建模過程中,得到人性化酒店用戶模型,再通過協(xié)同過濾的思想進(jìn)行推薦。因此,稱其為基于人性化特征的協(xié)同過濾(Collaborative Filtering Based on Humanized Features),簡稱HF-CF。
在為酒店和用戶分別建模后,可計(jì)算用戶u對酒店i的期望評分pr(u,i),如下式所示:
pr(u,i)=r(v,j)×sim_u(u,v)×sim_h(i,j)
(6)
式中:r(v,j)表示用戶v對酒店j的評分,sim_u(u,v)為用戶u和用戶v之間的相似度,sim_h(i,j)為酒店i和酒店j之間的相似度。
最后,根據(jù)期望評分可篩選出Top-N家酒店作為推薦候選集。
本文采用針對推薦方法常用的準(zhǔn)確率、召回率和F1-Score三個(gè)指標(biāo)來分析推薦效果[20]。其中,準(zhǔn)確率是指被推薦的列表中用戶真正感興趣的項(xiàng)目所占比例,反映了準(zhǔn)確推薦的能力;召回率是指用戶感興趣的列表中被推薦項(xiàng)目的所占比例,反映了全面推薦的能力;F1-Score綜合準(zhǔn)確率和召回率,反映推薦服務(wù)的綜合評價(jià)。推薦結(jié)果的列聯(lián)表如表8所示。
表8 列聯(lián)表
因此,評價(jià)指標(biāo)準(zhǔn)確率、召回率、F1-Score可通過以下公式計(jì)算:
(7)
(8)
(9)
以上三大指標(biāo)的值范圍均0-1,值越大表示推薦效果越好。但準(zhǔn)確率和召回率相互影響,一般來說,若要達(dá)到高準(zhǔn)確率,必須舍棄一些召回率,反之亦然。因此,準(zhǔn)確率和召回率需要平衡,即讓F1_Score值達(dá)到最佳。
本文以“酒店管理營運(yùn)博弈沙盤”為實(shí)驗(yàn)平臺(tái),該沙盤是由所在實(shí)驗(yàn)室研發(fā)并已被數(shù)十家酒店管理院校使用的電子學(xué)習(xí)軟件,旨在幫助學(xué)生更形象生動(dòng)、直觀快速地了解并掌握酒店管理營運(yùn)知識(shí)。根據(jù)用戶需求與偏好分配酒店是該軟件核心功能之一,因此,一個(gè)準(zhǔn)確高效的建模和推薦方法非常重要。
沙盤中酒店數(shù)據(jù)和用戶數(shù)據(jù),初期從各大酒店預(yù)訂網(wǎng)站歷史訂單、評價(jià)中抓取、處理、分析后所得。在投入使用后,不斷地產(chǎn)生新的訂單數(shù)據(jù),且各院校師生會(huì)注入當(dāng)?shù)鼐频陻?shù)據(jù)與自身信息及偏好數(shù)據(jù)。整個(gè)數(shù)據(jù)庫可供所有用戶共享,真實(shí)性、有效性較高,并不斷更新、維護(hù)。
本文獲取沙盤數(shù)據(jù)庫中1 382條用戶數(shù)據(jù)、967條酒店數(shù)據(jù)和15 377條訂單數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
個(gè)性化推薦系統(tǒng)的推薦算法主要有基于內(nèi)容的推薦、基于協(xié)同過濾的推薦、基于知識(shí)的推薦、基于效用的推薦和混合推薦等[18]。在酒店推薦領(lǐng)域,由于酒店各項(xiàng)指標(biāo)十分明確,有不少直接使用特征參數(shù)匹配的方法。本文采用特征參數(shù)匹配方法與基于協(xié)同過濾的推薦方法作為基線算法。
特征參數(shù)匹配方法FM(Features Matching):將服務(wù)項(xiàng)特征與用戶偏好進(jìn)行一一匹配,往往可以達(dá)到較高的準(zhǔn)確率。但前期服務(wù)項(xiàng)數(shù)據(jù)與用戶偏好信息的獲取相當(dāng)復(fù)雜,且數(shù)據(jù)量達(dá)到一定范圍時(shí),計(jì)算效率急劇下降,擴(kuò)展性較差。
基于協(xié)同過濾的推薦方法CF(Collaborative Filtering):主要是通過對未評分項(xiàng)進(jìn)行評分預(yù)測來實(shí)現(xiàn),又可分為基于用戶的協(xié)同過濾與基于項(xiàng)目的協(xié)同過濾[15]。它只依賴用戶行為,不需要對內(nèi)容進(jìn)行深入了解,適用范圍廣,可以用來推薦復(fù)雜項(xiàng)目,能起到意想不到的推薦結(jié)果[16]。但前期需要大量的用戶行為數(shù)據(jù),即冷啟動(dòng)問題[17];且用戶量與項(xiàng)目量常常較為龐大,兩者間存在用戶行為關(guān)系的較為有限,即數(shù)據(jù)稀疏問題。本文運(yùn)用人性化用戶模型,可較好地解決這兩個(gè)問題。
通過相關(guān)數(shù)據(jù)采集、處理,酒店建模,用戶建模,基于協(xié)同過濾計(jì)算,可得出推薦結(jié)果。其中,用戶模型中用n個(gè)相似用戶及相似度表示用戶u。當(dāng)用戶模型參數(shù)n取不同值時(shí),推薦效果如表9所示。
表9 用戶模型參數(shù)n不同時(shí)推薦效果
當(dāng)n小于或等于6時(shí),隨著數(shù)值增大,各項(xiàng)指標(biāo)都逐漸升高;n大于6后,各項(xiàng)指標(biāo)上升空間極為有限。結(jié)合推薦效率,取n為6時(shí)的推薦效果與基線算法對比。根據(jù)三大指標(biāo)統(tǒng)計(jì)結(jié)果如表10所示。
表10 實(shí)驗(yàn)結(jié)果比較
可以看出,本文提出的方法整體推薦效果良好,召回率和F1-Score值均比兩種基線算法的高。盡管準(zhǔn)確率相比特征參數(shù)匹配方法較低一點(diǎn),但可擴(kuò)展性和推薦效率更為客觀。
本文分析了現(xiàn)有酒店推薦系統(tǒng)的現(xiàn)狀,其主要缺點(diǎn)在于只對用戶表象信息進(jìn)行提取,缺乏全方面深入挖掘用戶的人性化特征,如知識(shí)、性格、觀念等。因此,本文提出一種基于人性化特征的酒店推薦方法,更加精準(zhǔn)地分析用戶的真實(shí)意圖,提高個(gè)性化推薦的效果。以基于協(xié)同過濾的推薦算法作為基線算法,結(jié)合用戶人性化特征,計(jì)算出推薦結(jié)果,并通過實(shí)驗(yàn)驗(yàn)證了該方法的可行性和有效性。
接下來仍有諸多工作需要繼續(xù),更多與酒店相關(guān)的業(yè)務(wù)知識(shí)和市場情況有待深入學(xué)習(xí)并分析,讓研究更符合現(xiàn)實(shí);更多人性化特征需要不斷探索發(fā)掘,來完善人性化用戶模型,讓推理和推薦邏輯更嚴(yán)謹(jǐn);此外,可引入更先進(jìn)的推薦算法,提高準(zhǔn)確率和推薦效率。