尹壽芳,張善智
(安徽工業(yè)經(jīng)濟職業(yè)技術(shù)學(xué)院商貿(mào)學(xué)院,安徽 合肥 230051)
近年來,隨著國民經(jīng)濟水平的飛速增長,人們的生活質(zhì)量和生活水平得到了顯著提升,旅游消費在人們?nèi)粘I钕M中所占的比重越來越高。電子商務(wù)行業(yè)的興起和數(shù)據(jù)挖掘技術(shù)的發(fā)展為旅游服務(wù)業(yè)提供了新的消費模式,旅游電子商務(wù)平臺已經(jīng)逐漸成了人們獲取旅游資訊和進行旅游產(chǎn)品預(yù)定的重要手段[1]。但大多旅游電商平臺的商品查找流程煩瑣,且產(chǎn)品推薦界面千篇一律,難以滿足用戶的需求。
近年來數(shù)據(jù)挖掘與電子商務(wù)結(jié)合的研究眾多,研究多采用聚類分析、分類算法和關(guān)聯(lián)分析3類數(shù)據(jù)挖掘方法進行電商精準營銷。張磊等[2]利用lightGBM機器學(xué)習模型進行數(shù)據(jù)分類,挖掘電商廣告轉(zhuǎn)化率的影響因素,以此為基礎(chǔ)對電商搜索廣告進行優(yōu)化調(diào)整,有效實現(xiàn)了電商平臺的個性化廣告推薦;郭艷萍[3]采用模糊運算聚類算法對電商客戶數(shù)據(jù)進行數(shù)據(jù)信息挖掘分析,對電商平臺用戶進行聚類劃分,為實現(xiàn)電商平臺針對化服務(wù)提供輔助決策;阿榮等[4]采用Apriori關(guān)聯(lián)規(guī)則算法對電商平臺用戶進行分類,并根據(jù)用戶的商品興趣參數(shù)估計結(jié)果,為電商平臺用戶提供精準化客戶服務(wù)。在以上研究中,數(shù)據(jù)挖掘與電子商務(wù)的有機融合已經(jīng)取得了一定的成果,但所采用的數(shù)據(jù)挖掘算法仍存在一定的局限性,數(shù)據(jù)挖掘結(jié)果受數(shù)據(jù)集干擾因素影響較大,對多指標群體的劃分精度不夠高,需要進一步加強電商平臺數(shù)據(jù)信息挖掘,為提升電商平臺客戶服務(wù)水平提供參考。
為了進一步提升旅游電商平臺精準化營銷的服務(wù)水平,本研究對K-means聚類算法進行優(yōu)化改進,以提升K-means聚類算法的分析性能,并將其應(yīng)用在旅游電子商務(wù)服務(wù)中,期望通過數(shù)據(jù)分析與整合的手段為用戶定制個性化的旅游產(chǎn)品推薦界面,提升旅游電商平臺的服務(wù)質(zhì)量。
數(shù)據(jù)挖掘是一種基于數(shù)據(jù)庫進行數(shù)據(jù)自動搜索的信息分析手段,通過對現(xiàn)有數(shù)據(jù)進行歸納整理和推理分析,挖掘數(shù)據(jù)中隱含的有價值的知識信息,分析整體趨勢走向,從而對未來變化情況進行合理預(yù)測與決策[5-6]。以數(shù)據(jù)挖掘為基礎(chǔ)構(gòu)建旅游電子商務(wù)平臺,通過對旅游電商平臺用戶相關(guān)信息數(shù)據(jù)進行智能化分析,對用戶的消費潛力和消費傾向進行預(yù)測與判斷,從而為用戶提供具有針對化服務(wù)功能的旅游電商平臺,在方便用戶快速找到心儀的旅游產(chǎn)品的同時,提升旅游電商平臺的銷售量,增強旅游服務(wù)商的行業(yè)競爭力。利用旅游電商平臺上用戶的訪問日志,挖掘用戶的瀏覽偏好特征,根據(jù)不同的商品瀏覽屬性特征,對旅游電商用戶進行用戶聚類,從而為用戶提供個性化旅游商品推薦,優(yōu)化用戶的平臺瀏覽體驗,便于用戶更快地尋找到滿足自己需求的旅游產(chǎn)品。
聚類分析是常用的數(shù)據(jù)挖掘技術(shù)手段,根據(jù)數(shù)據(jù)對象之間的屬性等聯(lián)系,將數(shù)據(jù)庫分為不同的類或簇,歸屬于同一類或簇的數(shù)據(jù)對象具有一定的相似性,通過相似度函數(shù)劃分數(shù)據(jù)對象的相似性[7-8]。K-means聚類算法通過聚類中心對數(shù)據(jù)對象進行聚類劃分,隨機選擇k個聚類中心,按照就近原則將數(shù)據(jù)樣本劃分為k類,然后通過均值計算對歸于同一類的數(shù)據(jù)樣本進行聚類中心重新劃分,反復(fù)進行聚類中心篩選操作,當聚類中心不再發(fā)生改變時算法終止,實現(xiàn)對數(shù)據(jù)對象的劃分聚類,K-means聚類算法運行流程如圖1所示。
圖1 K-means聚類算法運行流程
數(shù)據(jù)集合S={x1,x2,…,xn}中包括n個p維的數(shù)據(jù)樣本,數(shù)據(jù)集合的數(shù)據(jù)矩陣表示如下:
(1)
首先確定數(shù)據(jù)樣本集合的聚類中心,隨機選擇k個聚類中心點,數(shù)據(jù)樣本xi與聚類中心的歐式距離計算函數(shù)d表示如下:
(2)
數(shù)據(jù)對象的差異性矩陣C表示如下:
(3)
通過均值計算的方式對不同類屬的聚類中心點進行重新劃分,得到聚類中心集合,算法反復(fù)迭代直到k個聚類中心不再發(fā)生變化。
傳統(tǒng)K-means聚類算法的梯度更新以全量數(shù)據(jù)為更新對象,在面對海量數(shù)據(jù)聚類分析時,算法收斂速度較慢,更新計算量巨大[9-10]。為了提升K-means聚類算法的運行效率,采用隨機梯度下降法進行梯度更新,利用樣本的梯度值進行聚類中心的更新操作,通過小部分樣本的計算達到算法更新的目的,加快算法的收斂速度。將樣本與最近聚類中心點的距離平方作為算法的損失函數(shù),損失函數(shù)表示如下:
(4)
式中:w表示損失值;x表示數(shù)據(jù)樣本集合中的一個隨機樣本;w*表示與該樣本距離最近的聚類中心點。隨機梯度下降法函數(shù)表示如下:
w=w-lr×(w*-x)
(5)
式中:lr表示學(xué)習率。利用隨機梯度下降法對w進行更新,當聚類中心的變化值小于閾值或損失值變化小于閾值時,算法完成收斂,停止參數(shù)更新。
傳統(tǒng)的K-means聚類算法較為復(fù)雜,容易發(fā)生過擬合現(xiàn)象,出現(xiàn)在訓(xùn)練數(shù)據(jù)集上表現(xiàn)較好而在測試集上表現(xiàn)較差的問題[11]。通常通過添加正則化項的方式防止過擬合現(xiàn)象的發(fā)生,對損失函數(shù)進行擴展,在損失函數(shù)中加入模型參數(shù)向量的范數(shù),對模型復(fù)雜度進行懲罰[12]。將L2正則引入K-means聚類算法(L2表示損失函數(shù)中模型參數(shù)向量的范數(shù)),求參數(shù)向量各元素的平方和,然后進行開方,利用L2范數(shù)提升算法損失函數(shù)的求解穩(wěn)定性,避免算法過擬合。并利用L2范數(shù)將損失函數(shù)變?yōu)閺娡购瘮?shù),加快算法收斂,提升迭代的收斂效率。多項式模型出現(xiàn)過擬合現(xiàn)象時,其函數(shù)曲線與噪聲點接近,出現(xiàn)在噪聲點之間來回跳躍的情況,函數(shù)曲線部分區(qū)域的切線斜率較高,導(dǎo)致函數(shù)導(dǎo)數(shù)的絕對值過大[13]。L2范數(shù)的引入可以使得較大參數(shù)的值均勻集中在0附近,有效提升算法的泛化能力,避免K-means聚類算法出現(xiàn)過擬合現(xiàn)象。
學(xué)習率的選擇影響算法的收斂速度,合適的學(xué)習率能有效提升算法的收斂效率,訓(xùn)練初期應(yīng)采用較大的學(xué)習率來縮短訓(xùn)練時間,提升算法效率,訓(xùn)練后期應(yīng)對學(xué)習率進行適當減小調(diào)整,避免出現(xiàn)因參數(shù)收斂速度較快而跳過極小值點的問題[14]。傳統(tǒng)的K-means聚類算法利用固定的學(xué)習率值進行訓(xùn)練,容易造成算法震蕩,影響算法性能,因此采用自適應(yīng)梯度優(yōu)化算法對學(xué)習率方向進行自適應(yīng)確定,通過對歷史梯度的指數(shù)衰減平均值和歷史梯度平方的指數(shù)衰減平均值進行存儲,自適應(yīng)確定算法的衰減學(xué)習率。自適應(yīng)梯度優(yōu)化算法具有較強的魯棒性,利用梯度的均值和有偏方差進行估計移動平均,通過偏差修正的方式減小初始化偏差,增強算法的實用性。一階梯度和二階梯度的衰減平均值計算函數(shù)表示如下:
(6)
式中:m和v分別表示一階動量和二階動量;mt表示均值估計;vt表示有偏方差估計;β1表示一階動量衰減系數(shù);β2表示二階動量衰減系數(shù);t表示初始化時間步長;gt表示偏導(dǎo)數(shù)向量。
在初始化的初期階段,m和v初始化為0向量,使得mt和vt會偏差向0,對算法性能產(chǎn)生影響,因此在自適應(yīng)梯度優(yōu)化算法中增加偏差校正機制,通過偏差修正保證每次迭代學(xué)習率均保持在確定的范圍內(nèi)。均值估計和有偏方差估計修正函數(shù)表示如下:
(7)
采用自適應(yīng)梯度優(yōu)化算法對K-means聚類算法進行優(yōu)化改進,通過指數(shù)衰減的方式進行學(xué)習率更新,從而控制梯度更新的步長,提升K-means聚類算法的收斂速度。
傳統(tǒng)K-means聚類算法對初始聚類中心點位置的依賴性較高,聚類中心點的初始位置直接影響算法的最終解的優(yōu)劣,而傳統(tǒng)K-means聚類算法的初始聚類中心點通過隨機選擇的方式確定,具有很強的不確定性[15]。因此采用密度法對k個聚類中心初始位置的選擇方式進行優(yōu)化,結(jié)合密度參數(shù)確定k個初始聚類中心,基于密度法的K-means聚類算法優(yōu)化流程如圖2所示。
圖2 基于密度法的初始聚類中心點優(yōu)化流程
數(shù)據(jù)樣本集合S={x1,x2,…,xn}中數(shù)據(jù)對象之間的平均距離計算函數(shù)表示如下:
(8)
式中:M(S)表示平均距離;d(xi,xj)表示數(shù)據(jù)對象xi和數(shù)據(jù)對象xj之間的距離。數(shù)據(jù)對象xi的密度參數(shù)計算函數(shù)表示如下:
(9)
式中:meandist表示平均距離。
計算數(shù)據(jù)集合S中的所有數(shù)據(jù)對象的密度參數(shù),形成密度參數(shù)集合D={den(xi,meandist),i∈(1,2,…,n)}。對集合D進行篩選,若數(shù)據(jù)集合D中密度參數(shù)最大的樣本i的參數(shù)值等于1,則將該數(shù)據(jù)對象加入初始聚類中心候選集,若密度參數(shù)最大值大于1,并且樣本點之間的距離低于平均距離,則最大密度參數(shù)所對應(yīng)的平均距離范圍內(nèi)的所有點與距離之和的計算函數(shù)表示如下:
(10)
將sum(Di)的最小值所對應(yīng)的數(shù)據(jù)對象加入初始聚類中心候選集中,刪除密度參數(shù)集合中的數(shù)據(jù)對象i,并刪除數(shù)據(jù)集D中與數(shù)據(jù)對象i的距離低于平均距離的數(shù)據(jù)樣本,反復(fù)迭代直至候選集中的聚類中心點數(shù)量為k,這k個中心點即為算法的初始聚類中心點。通過密度法進行初始聚類中心點的選擇,有效避免了傳統(tǒng)K-means聚類算法的初始聚類中心點隨機性較大的問題,提升初始聚類中心點位置選擇的穩(wěn)定性,減小初始聚類中心點位置對算法性能的不良影響。
為了驗證改進K-means聚類算法的優(yōu)化性和有效性,利用傳統(tǒng)K-means聚類算法和改進K-means聚類算法對旅游電商平臺數(shù)據(jù)進行處理,分別進行20次數(shù)據(jù)聚類分析實驗,對2種算法的響應(yīng)時間進行對比,對比結(jié)果如圖3所示。
從圖3中可以看出,傳統(tǒng)K-means聚類算法的平均響應(yīng)時間為0.724 s,其中最大響應(yīng)時間為0.861 s,傳統(tǒng)K-means聚類算法的運行速度較慢,系統(tǒng)響應(yīng)時間較長。改進K-means聚類算法的平均響應(yīng)時間為0.498 s,其中最大響應(yīng)時間為0.647 s,經(jīng)過優(yōu)化改進,改進K-means聚類算法的平均響應(yīng)響應(yīng)時間縮短了0.226 s,系統(tǒng)響應(yīng)速度提升了31.2%。通過隨機梯度下降法和引入正則化項的方式對算法的損失函數(shù)進行優(yōu)化,并利用自適應(yīng)梯度優(yōu)化算法自適應(yīng)確定算法學(xué)習率,有效提升了K-means聚類算法的運行效率,加快算法收斂速度,從而縮短了改進K-means聚類算法的響應(yīng)時間,具有較好的優(yōu)化性,K-means聚類算法的分析性能得到了明顯提升。
圖3 改進前后的K-means聚類算法性能對比
為了驗證基于改進K-means聚類算法的旅游電商平臺的實用性和可行性,采用線上實驗的方式對改進K-means聚類算法的個性化推薦效果進行測試實驗,并對瀏覽量等平臺數(shù)據(jù)進行統(tǒng)計分析,基于改進K-means聚類算法的旅游電商平臺的數(shù)據(jù)統(tǒng)計情況如表1所示。
表1 基于改進K-means聚類算法的旅游電商平臺數(shù)據(jù)
從表1中可以看出,基于改進K-means聚類算法的旅游電商平臺4周的平均每周平臺瀏覽量為12 163次,其中經(jīng)過改進K-means聚類算法個性化推薦的旅游產(chǎn)品的平均每周瀏覽量為1 874次,平臺用戶的瀏覽行為中推薦旅游產(chǎn)品的占比為15.41%。旅游電商平臺的每周平均產(chǎn)品購買量為194.5次,其中推薦旅游產(chǎn)品的每周平均購買量為55.25次,用戶購買行為中推薦旅游產(chǎn)品的占比為28.41%。結(jié)合改進K-means聚類算法的聚類分析結(jié)果為用戶進行個性化推薦,旅游電商平臺的平均每周推薦流量轉(zhuǎn)化率為29.48%,推薦流量有效轉(zhuǎn)化為產(chǎn)品訂單,基于改進K-means聚類算法的推薦流量質(zhì)量較好,推薦流量向產(chǎn)品訂單的轉(zhuǎn)化率較高,能有效通過針對化的智能旅游產(chǎn)品推薦促成訂單成交,提升電子商務(wù)平臺的銷售業(yè)績。
利用改進K-means聚類算法、關(guān)聯(lián)規(guī)則挖掘算法(Apriori)和基于用戶的協(xié)同過濾算法(User-based CF)在旅游電商平臺線上生產(chǎn)環(huán)境中進行在線實驗,3種算法的旅游產(chǎn)品推薦成交情況如表2所示。
表2 3種算法的旅游產(chǎn)品推薦成交情況
從表2中可以看出,基于改進K-means聚類算法的旅游電商平臺的推薦流量轉(zhuǎn)化率為2.93%,優(yōu)于Apriori算法的2.58%和User-based CF算法的2.36%,推薦轉(zhuǎn)化比例分別增加了0.35%和0.57%。在改進K-means聚類算法個性化推薦下,平臺用戶瀏覽行為中的推薦瀏覽率為28.21%,相較于Apriori算法和User-based CF算法分別提升了4.58%和7.74%,平臺用戶購買行為中的推薦旅游產(chǎn)品購買率為15.37%,相較于Apriori算法和User-based CF算法分別提升了1.93%和2.42%。利用改進K-means聚類算法構(gòu)建旅游電商平臺,為用戶差異化地推薦符合其購買意向的旅游產(chǎn)品,能有效提高電商平臺的旅游產(chǎn)品成交量,提升旅游企業(yè)的經(jīng)濟效益。
隨著電子商務(wù)行業(yè)的興起,旅游產(chǎn)品銷售方式發(fā)生變化,在線旅游產(chǎn)品預(yù)定方式成了一種趨勢。為了提升旅游電子商務(wù)服務(wù)水平,基于K-means聚類算法構(gòu)建旅游電子商務(wù)平臺,并采用隨機梯度下降算法、自適應(yīng)梯度優(yōu)化算法和密度法對K-means聚類算法進行優(yōu)化改進,提升K-means聚類算法的收斂速度和運行性能。實驗結(jié)果表明,改進K-means聚類算法的平均響應(yīng)時間為0.498 s,系統(tǒng)響應(yīng)速度相較于傳統(tǒng)算法提升了31.2%,具有優(yōu)化性?;诟倪MK-means聚類算法的旅游電子商務(wù)平臺的推薦流量轉(zhuǎn)化率為2.93%,平臺用戶瀏覽行為中的推薦瀏覽率為28.21%,平臺用戶購買行為中的推薦旅游產(chǎn)品購買率為15.37%,優(yōu)于Apriori算法和User-based CF算法,能為平臺用戶提供個性化的旅游產(chǎn)品推薦,有效提升了旅游產(chǎn)品的購買成交量,具有較強的實用性和可行性,